精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

34B參數(shù)量超越GPT-4!「數(shù)學通用大模型」MAmmoTH開源:平均準確率最高提升29%

人工智能 新聞
數(shù)學通才「猛犸」模型給開源語言模型帶來了「推理春天」,面對GPT-4都有一戰(zhàn)之力!

數(shù)學推理問題是語言模型繞不過的痛點,在各種黑科技的加持下,開源模型的推理性能依然不夠看。

最近,滑鐵盧大學、俄亥俄州立大學、香港科技大學、愛丁堡大學的研究人員聯(lián)合開源了一個專為「通用數(shù)學問題」定制的大模型MAmmoTH和一個指令調(diào)優(yōu)數(shù)據(jù)集MathInstruct.

論文鏈接:https://arxiv.org/pdf/2309.05653.pdf

項目鏈接:https://tiger-ai-lab.github.io/MAmmoTH/

MathInstruct由13個具有中間原理的數(shù)學數(shù)據(jù)集編譯而成,其中6個為新數(shù)據(jù)集,混合了思想鏈(CoT)和思想程序(PoT),并確保覆蓋了廣泛的數(shù)學領域。

CoT和PoT的混合不僅可以釋放工具使用的潛力,而且還允許模型針對不同的數(shù)學問題進行不同的思維過程。

因此,MAmmoTH系列在所有尺度上的9個數(shù)學推理數(shù)據(jù)集上的表現(xiàn)大大優(yōu)于現(xiàn)有的開源模型,平均準確率提高了12%至29%。

其中MAmmoTH-7B模型在MATH(競賽級數(shù)據(jù)集)上的準確率達到了35%,超過了最好的開源7B模型(WizardMath)25%,MAmmoTH-34B模型在MATH上的準確率達到了46%,甚至超過了GPT-4的CoT結(jié)果。

數(shù)學推理領域新王:MAmmoTH

在數(shù)學推理任務上,開源和閉源的大型語言模型(LLM)之間存在巨大的性能差距,目前基準數(shù)據(jù)集上的sota仍然是GPT-4,PaLM-2和Claude等閉源模型,其他開源模型如Llama,F(xiàn)alcon和OPT等仍然遠遠落后。

為了彌補性能差距,主要的研究方法有兩類:

1. 如Galactica,MINERVA等模型,繼續(xù)使用數(shù)學相關(guān)的網(wǎng)絡數(shù)據(jù)對語言模型進行訓練,可以提高模型的通用科學推理能力,但計算成本會更高;

2. 如拒絕采樣微調(diào)(RFT)和WizardMath等,使用特定領域數(shù)據(jù)集對模型進行微調(diào),雖然可以提高領域內(nèi)性能,但無法適用于更廣泛的數(shù)學推理任務。

在解決數(shù)學問題時,現(xiàn)有方法通常會采用思維鏈(CoT)方法引導語言模型循序漸進地用自然語言描述來解決數(shù)學問題。

雖然在大多數(shù)數(shù)學主題下表現(xiàn)出很好的通用性,但在需要精確或復雜的數(shù)學計算、算法推理的問題下(如求解二次方程根,計算矩陣特征值)表現(xiàn)不佳。

相比之下,思維程序(PoT, Program-of-Thought)方法和PAL利用外部工具(即Python解釋器)大大簡化了數(shù)學求解過程,將計算過程卸載到外部Python解釋器,以解決復雜的數(shù)學和算法推理過程(例如,用sympy求解二次方程或用numpy計算矩陣特征值)。

然而,PoT在處理更抽象的推理場景方面有所欠缺,尤其是在沒有內(nèi)置API的情況下,常識推理、形式邏輯和抽象代數(shù)的推理能力會更差。

方法概述

研究人員的目標是編制一個高質(zhì)量、多樣化的數(shù)學指令調(diào)整(instruction-tuning)數(shù)據(jù)集列表。

1. 覆蓋不同數(shù)學領域和復雜度

更全面的數(shù)據(jù)集可以讓模型接觸到多樣化的數(shù)學知識,提升模型的多功能性。

研究人員將選擇范圍縮小到幾個被廣泛采用的高質(zhì)量數(shù)據(jù)集,包括GSM8K、math、AQuA、Camel和TheoremQA.

還可以注意到,現(xiàn)有的數(shù)據(jù)集缺乏對大學水平的數(shù)學知識的覆蓋,如抽象代數(shù)和形式邏輯,所以研究人員選擇使用GPT-4來合成TheoremQA問題中的思維鏈(CoT)原理,利用網(wǎng)絡上找到的數(shù)個種子樣例,通過自我指導(self-instruct)創(chuàng)建問題和CoT的數(shù)據(jù)對。

圖片

2. 混合CoT和PoT

現(xiàn)有的研究方法大多只關(guān)注CoT,并且數(shù)據(jù)集中也只包含有限的解題思路,導致CoT和PoT的數(shù)據(jù)量十分不均衡。

為了解決該問題,研究人員利用GPT-4來補充選定數(shù)據(jù)集的PoT解題思路,通過對比合成程序的執(zhí)行結(jié)果以及人工標注的答案進行過濾,確保生成數(shù)據(jù)的高質(zhì)量。

遵循上述方法,最后得到了26萬條指令、回復數(shù)據(jù)對,涵蓋了廣泛的核心數(shù)學領域,如算術(shù)、代數(shù)、概率、微積分和幾何等,混合了CoT和PoT基本原理,并提供多種語言、多個難度級別的數(shù)據(jù),足以證明數(shù)據(jù)集的高品質(zhì)和獨特性。

訓練步驟

研究人員統(tǒng)一了MathInstruct中的所有子集,將指令數(shù)據(jù)集的結(jié)構(gòu)標準化為Alpaca模型的格式,使得模型無需考慮原始數(shù)據(jù)集的格式,在微調(diào)階段統(tǒng)一處理數(shù)據(jù)即可。

研究人員選擇開源模型Llama-2和Code Llama作為基礎模型,在7B、13B、34B和70B尺寸的模型上進行微調(diào)。

實驗部分

評估數(shù)據(jù)集

研究人員選擇了不同數(shù)學領域下的樣本,對模型的通用數(shù)學推理能力進行評估:

領域內(nèi)數(shù)據(jù)集包括GSM8K,MATH,AQuA-RAT,NumGLUE;領域外數(shù)據(jù)集包括SVAMP,Mathematics,SimulEq,SAT-Math和SimulEq,涵蓋了小學、高中和大學水平的數(shù)學問題,部分數(shù)據(jù)集甚至包括形式邏輯和常識推理。

問題類型為開放式問題和多選題,其中開放式問題(如GSM8K、數(shù)學)采用PoT解碼,因為大多數(shù)問題都可以由程序解決;多項選擇題(如AQuA、MMLU)采用CoT解碼。

CoT解碼不需要觸發(fā)詞,PoT需要觸發(fā)短語「讓我們寫個程序來解決這個問題」(Let’s write a program to solve the problem)。

實驗結(jié)果

總的來說,MAmmoTH和MAmmoTH-Coder在不同的模型尺寸上均優(yōu)于SoTA模型,并且在領域外(OOD)數(shù)據(jù)集上的增益要顯著優(yōu)于領域內(nèi)(IND)數(shù)據(jù)集,展現(xiàn)出了該模型作為數(shù)學通才模型的潛力,甚至在幾個數(shù)據(jù)集上,MAmmoTH-Coder-34B和MAmmoTH-70B甚至超過了閉源模型。

圖片

在領域內(nèi)數(shù)據(jù)的評估,MAmmoTH模型的主要競爭對手是WizardMath和Platypus,其中WizardMath的訓練深度依賴于GSM8K和MATH數(shù)據(jù)集,Platypus在更廣泛的文本和數(shù)學推理數(shù)據(jù)集上對LLM進行微調(diào)。

相比之下,MAmmoTH實現(xiàn)了全面的改進,并且更擅長解決復雜數(shù)學問題,相比WizardMath(MATH數(shù)據(jù)的sota)的增益最高超過了25%

圖片

在領域外數(shù)據(jù)評估中,主要競爭模型依然是Platypus,不過MAmmoTH可以實現(xiàn)比領域內(nèi)數(shù)據(jù)更高的性能提升,展現(xiàn)出對未知數(shù)學問題的通用能力。

值得注意的是,MAmmoTH-7B還將WizardMath-7B在MMLU-Math上的CoT性能大幅提高了9%,其中包含大量沒有在訓練數(shù)據(jù)集中涵蓋的主題。

不同基礎模型之間的對比

可以發(fā)現(xiàn),Code-Llama作為基礎模型時的效果始終優(yōu)于Llama-2,尤其是在領域外數(shù)據(jù)集上,二者之間的性能差異甚至達到了5%,其中MAmmoTH-Coder(34B)在領域外數(shù)據(jù)集上的平均性能實際上高于MAmmoTH(70B)

研究人員認為,MAmmoTH-Coder從Code-Llama的持續(xù)代碼訓練中受益匪淺,不僅增強了PoT能力,還提高了Llama的通用推理技能。

責任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-10-14 17:24:49

2023-10-14 13:09:53

谷歌模型

2023-11-20 21:56:04

AI推理

2023-09-19 09:20:16

2023-12-11 12:46:42

GPT-4LLaMA2模型

2024-01-30 21:18:57

模型智能CMMLU

2023-09-11 15:57:16

人工智能模型GPT-4

2023-08-27 14:08:17

開源代碼Meta大模型

2025-05-30 07:40:56

2024-01-03 13:37:00

模型數(shù)據(jù)

2024-02-07 12:39:00

AI數(shù)據(jù)

2024-01-19 12:51:00

AI數(shù)據(jù)

2025-05-26 08:33:00

2023-10-08 13:11:00

訓練數(shù)據(jù)

2023-09-01 14:06:00

模型AI

2023-11-17 23:05:18

數(shù)據(jù)模型

2025-01-21 08:00:00

2023-08-24 13:59:57

模型數(shù)據(jù)

2023-11-13 19:35:12

訓練數(shù)據(jù)
點贊
收藏

51CTO技術(shù)棧公眾號

欧美在线视频精品| 日本成人免费视频| cao在线视频| 久久久综合视频| 国产综合久久久久| 久久视频免费在线观看| 国产精品自拍区| 日韩一区二区视频| 日韩美一区二区三区| 精品国内亚洲在观看18黄| 中文字幕无码毛片免费看| 日本在线啊啊| 亚洲嫩草精品久久| 日本精品一区二区| 精品人妻一区二区三区换脸明星 | 中文字幕+乱码+中文乱码91| 中文av一区| 亚洲网在线观看| 麻豆短视频在线观看| 成人国产网站| 富二代精品短视频| 妞干网这里只有精品| 国产系列在线观看| 99精品欧美一区二区蜜桃免费| 国产精品偷伦一区二区| 国产精品suv一区二区三区| 久久高清免费| 亚洲人成电影网站色…| 中国一级特黄录像播放| 欧美经典影片视频网站| 欧美亚洲愉拍一区二区| 久久久一本二本三本| 天天色天天射天天综合网| 欧美国产禁国产网站cc| 久久久7777| 欧美视频xxx| 国产精品白丝jk白祙喷水网站| 国产精品一区二区久久精品| 亚洲精品男人的天堂| 亚洲激情网址| 午夜精品在线观看| 久久黄色免费网站| 伊人久久大香线蕉精品组织观看| 国产亚洲精品美女久久久久| 麻豆国产精品一区| 久草在线综合| 亚洲激情在线观看| 成人性生活免费看| 老牛影视av一区二区在线观看| 日韩欧美在线影院| 杨幂一区二区国产精品| 国产精品成人**免费视频| 欧美男人的天堂一二区| 爆乳熟妇一区二区三区霸乳| 一二区成人影院电影网| 日本久久一区二区| 男女爽爽爽视频| 精品欧美日韩精品| 欧美亚洲精品一区| 国产aaaaa毛片| 精品美女一区| 777久久久精品| 在线观看中文av| 秋霞一区二区三区| 日韩亚洲欧美一区二区三区| 国产调教打屁股xxxx网站| 中文久久电影小说| 日韩风俗一区 二区| 日本一区二区三区网站| 欧美猛男男男激情videos| 亚洲小视频在线观看| 91禁男男在线观看| 亚洲v在线看| 九九九久久久久久| 欧美三级韩国三级日本三斤在线观看| 99精品国产福利在线观看免费 | 美女网站视频一区| 欧美日韩二区三区| www.久久com| 久久精品凹凸全集| 亚洲人成绝费网站色www| 日韩av片在线免费观看| 欧美大片一区| 欧美在线一区二区视频| 亚洲综合精品国产一区二区三区 | 人妖粗暴刺激videos呻吟| 日韩精品a在线观看91| 亚洲视频在线免费看| 日本一级片免费| 尤物在线精品| 国产精欧美一区二区三区| 国产又黄又爽视频| 成人aaaa免费全部观看| 亚洲春色在线视频| 牛牛精品视频在线| 在线观看日韩高清av| 小日子的在线观看免费第8集| 极品尤物一区| 色噜噜狠狠狠综合曰曰曰| 久久久久久久久久久97| 日韩成人伦理电影在线观看| 91视频网页| 成人福利在线| 激情av一区二区| www.com污| 亚洲人挤奶视频| 欧美成人网在线| 中文天堂在线视频| 97久久超碰精品国产| 91社在线播放| xx欧美视频| 精品奇米国产一区二区三区| 男人天堂资源网| 国产精品人人爽人人做我的可爱| 成人一区二区电影| 日本电影一区二区在线观看 | 久久久久在线视频| 国产激情视频一区二区三区欧美| 清纯唯美一区二区三区| 538在线视频| 91精选在线观看| www久久久久久久| 国产日韩精品视频一区二区三区 | 成 人片 黄 色 大 片| 欧美经典三级视频一区二区三区| 国产一级爱c视频| 欧美日本三级| 久久久成人av| 97人妻精品一区二区三区动漫| 久久久久久久久99精品| 波多野结衣家庭教师在线| 日本精品在线观看| 啊v视频在线一区二区三区| 国产男人搡女人免费视频| 91丨九色丨蝌蚪丨老版| 人人干视频在线| 91亚洲无吗| 欧美激情精品久久久久久黑人| 96亚洲精品久久久蜜桃| 中文一区二区在线观看| 99久久国产宗和精品1上映| 欧洲亚洲一区二区三区| 91精品国产精品| 五十路在线观看| 欧美日韩国产页| 免费a在线观看播放| 一本色道久久综合亚洲精品高清 | 欧洲成人一区二区三区| 亚洲制服丝袜在线| 波多野结衣办公室双飞| 国产精品草草| 好看的日韩精品视频在线| 国产盗摄在线视频网站| 亚洲高清不卡av| 亚洲精品午夜国产va久久成人| 成人午夜短视频| av动漫在线看| 精品国产欧美日韩| 国产日韩av高清| 很黄的网站在线观看| 欧美一级一区二区| 国产一级做a爱免费视频| 成人免费视频app| 人妻有码中文字幕| 欧美日韩水蜜桃| 成人激情视频网| 牛牛精品在线视频| 日韩精品中文字幕久久臀| 无码人妻久久一区二区三区不卡| 国产精品污污网站在线观看| 国产美女视频免费看| 欧美激情日韩| 狼狼综合久久久久综合网| 日韩电影网站| 久久久97精品| 天天干天天舔天天射| 一本到一区二区三区| 亚洲欧洲综合网| 国产成人av一区| 欧美 国产 小说 另类| 日韩欧美高清| 国产精品一码二码三码在线| 一区二区三区短视频| 久久精品电影网站| 天天操天天舔天天干| 精品视频在线免费看| 久久久久亚洲av无码专区体验| 99久久久国产精品| 不卡的在线视频| 亚洲免费激情| 在线观看欧美激情| 久久精品色播| 国产日韩换脸av一区在线观看| 中日韩高清电影网| 亚洲精选一区二区| 国产成年妇视频| 色老汉av一区二区三区| 久草视频免费在线播放| 欧美经典三级视频一区二区三区| 成年人看片网站| 青青青爽久久午夜综合久久午夜| 久久www视频| 国模吧精品视频| 国产高清精品一区| 四虎地址8848精品| 欧美在线亚洲一区| 亚洲电影视频在线| 亚洲最新中文字幕| 人妻精品无码一区二区| 欧美精品在欧美一区二区少妇| 麻豆久久久久久久久久| 亚洲猫色日本管| 99在线视频免费| 91网站最新网址| www.四虎精品| 国产在线不卡一区| 久久久国产欧美| 亚洲在线观看| 免费一级特黄毛片| 欧美在线国产| 综合久久国产| 日本高清免费电影一区| 欧美日韩日本网| 农村少妇一区二区三区四区五区| 亚洲在线第一页| 欧美xxxx网站| 国产精品成人一区| 秋霞伦理一区| 韩剧1988免费观看全集| 里番在线播放| 欧美放荡办公室videos4k| 超碰免费公开在线| 日韩视频免费观看| wwwww在线观看免费视频| 亚洲欧美中文在线视频| 日韩大胆人体| 亚洲美女自拍视频| 亚洲av成人精品一区二区三区在线播放| 欧美一级搡bbbb搡bbbb| 国产又粗又猛又黄又爽| 欧美日韩国产综合久久| 日批视频免费观看| 在线观看欧美黄色| 黄色大全在线观看| 欧美最猛性xxxxx直播| av一级在线观看| 色婷婷久久久久swag精品| 欧美性猛交bbbbb精品| 狠狠色狠色综合曰曰| 东京热一区二区三区四区| 欧美午夜影院在线视频| 欧美一区二区三区网站| 91国模大尺度私拍在线视频| 日韩乱码一区二区三区| 欧美日韩亚洲另类| 国产视频在线观看免费| 日韩精品一区二区三区中文不卡 | 亚洲人午夜色婷婷| 激情在线视频| 色婷婷久久av| 中文字幕在线观看网站| 久久久久成人网| 亚洲美女炮图| 国产男人精品视频| 另类视频一区二区三区| 精品久久sese| 精品国产中文字幕第一页| 亚洲国产欧美日韩| 中文在线日韩| 欧美在线一区视频| 日韩制服丝袜先锋影音| 午夜剧场高清版免费观看| 国产高清不卡二三区| 在线免费看黄色片| 久久精品日产第一区二区三区高清版| 2019男人天堂| 一级精品视频在线观看宜春院| 亚洲天堂一区在线观看| 欧美三级资源在线| 精品人妻一区二区三区麻豆91 | eeuss一区二区三区| 欧美变态网站| 一区二区不卡在线| 欧美视频一区| 欧洲熟妇精品视频| 国产精品乡下勾搭老头1| 一区二区不卡免费视频| 国产精品精品国产色婷婷| 久久久久久欧美精品se一二三四| 欧美日韩亚洲一区二区三区| 中文字幕一区二区三区四区视频| 欧美zozozo| 3d成人动漫在线| 亚洲91精品在线观看| 人人精品久久| 麻豆av一区二区三区久久| 亚洲精品国产首次亮相| 国产免费黄视频| 国产一区视频在线看| 国产熟妇搡bbbb搡bbbb| 亚洲欧美日韩国产中文在线| 国产免费一区二区三区四区五区| 3d成人h动漫网站入口| 欧美视频综合| 久久久久久久一区二区三区| 日日夜夜亚洲| 日本一区二区在线视频观看| 欧美午夜不卡| 亚洲一区二区三区观看| 久久久久久久综合| 国产精品成人网站| 51精品久久久久久久蜜臀| 国产在线网站| 国内精品久久影院| 国产亚洲高清一区| 色一情一乱一伦一区二区三欧美 | 色鬼7777久久| 欧美激情在线一区| 中文字幕日本一区| 亚洲精品在线视频观看| 久久福利一区| 一本色道综合久久欧美日韩精品| 亚洲综合丝袜美腿| 国产三级午夜理伦三级| 在线视频中文亚洲| 日韩福利一区| 欧美二区三区| 模特精品在线| 欧美亚一区二区三区| 亚洲成a人v欧美综合天堂下载 | 亚洲精品一区av| 亚洲国产一区在线| 日韩高清一区在线| 亚洲精品色午夜无码专区日韩| 欧美日韩一区二区精品| 天堂a√在线| 久久久久中文字幕| 91精品国产乱码久久久竹菊| 黄色成人在线免费观看| 国产麻豆日韩欧美久久| 91香蕉一区二区三区在线观看| 欧美日韩在线播放三区| 波多野结衣一区二区| 国产精品久久久久久久久借妻| 女人丝袜激情亚洲| 免费高清在线观看免费| 久久综合99re88久久爱| 狠狠人妻久久久久久| 亚洲女人被黑人巨大进入al| 亚洲高清黄色| 亚洲狠狠婷婷综合久久久| 蜜桃视频在线一区| 2017亚洲天堂| 91超碰这里只有精品国产| 国产激情在线视频| eeuss一区二区三区| 国产欧美大片| 一级黄色性视频| 欧美日韩一区二区三区四区五区| 欧美jizz18性欧美| 91嫩草在线| 国产日韩1区| 天天操天天舔天天射| 欧美日韩国产另类一区| 超碰在线网址| 精品一区二区日本| 日韩和的一区二区| 亚洲天堂av中文字幕| 欧美一区二区日韩一区二区| av小说在线播放| 欧美自拍资源在线| 国产综合久久久久久鬼色| 欧美精品乱码视频一二专区| 亚洲精品久久久久久久久久久久| 亚洲伊人av| 一区精品在线| 波多野结衣在线一区| 波多野结衣理论片| 久久深夜福利免费观看| 好看的亚洲午夜视频在线| 韩国一区二区av| 国产精品久久三| 亚洲精品97久久中文字幕| 亚洲97在线观看| 日韩在线观看| 亚洲少妇中文字幕| 色综合天天性综合| 成人ww免费完整版在线观看| 国产一区二区久久久| 免费人成网站在线观看欧美高清| 久久国产精品波多野结衣av| 亚洲女人初尝黑人巨大| 欧美国产亚洲精品| 亚洲乱码国产一区三区| 亚洲精品中文在线| 青春有你2免费观看完整版在线播放高清| 国产日韩综合一区二区性色av| 亚洲久久视频| 精品无码久久久久成人漫画| 亚洲美女精品久久|