精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

進能形式邏輯,退能四則運算,MAmmoT讓LLM成為數學通才

人工智能 新聞
一個新數據集外加思維鏈和思維程序兩種方法之長,竟能讓開源 LLM 的數學推理追上 GPT-4 等閉源大模型。

數學推理是現代大型語言模型(LLM)的一項關鍵能力。盡管這一領域近來進展不錯,但閉源和開源 LLM 之間仍然存在明顯的差距——GPT-4、PaLM-2 和 Claude 2 等閉源模型主宰了 GSM8K 和 MATH 等常用數學推理基準,而 Llama、Falcon 和 OPT 等開源模型在所有基準上都大幅落后。

為了解決這一問題,研究界正在兩個方向進行努力:

(1)Galactica 和 MINERVA 等持續型預訓練方法,其能在超過千億 token 的數學相關網絡數據上對 LLM 進行持續訓練。這一方法能提升模型的一般科學推理能力,但代價是高計算成本。

(2)拒絕采樣微調(RFT)和 WizardMath 等針對特定數據集進行微調的方法,即使用特定數據集的監督數據對 LLM 進行微調。盡管這些方法能提升在具體領域內的性能,但無法泛化到微調數據之外的更廣范圍的數學推理任務。舉個例子,RFT 和 WizardMath 可將在 GSM8K(這是微調數據集之一)上的準確度提升 30% 以上,但卻有損在 MMLU-Math 和 AQuA 等領域外數據集上的準確度——使之降低多達 10%。

近日,來自滑鐵盧大學和俄亥俄州立大學等機構的研究團隊提出了一種輕量級卻又可泛化的數學指令微調方法,可用于增強 LLM 的一般性(即不限于微調任務)數學推理能力。

之前已有的方法關注的重點是思維鏈(CoT)方法,即通過一步步的自然語言描述來解決數學問題。這種方法的通用性很強,可覆蓋大多數數學科目,但卻在計算精度和復雜的數學或算法推理過程(例如求解二次方程根和計算矩陣特征值)方面存在困難。

相比之下,像思維程序(PoT)和 PAL 這樣的代碼格式 prompt 設計方法則是利用外部工具(即 Python 解釋器)來大幅簡化數學求解過程。這種方法是將計算過程卸載到外部 Python 解釋器來求解復雜的數學和算法推理(例如使用 sympy 求解二次方程或使用 numpy 計算矩陣特征值)。但是,PoT 難以應對更抽象的推理場景,比如常識推理、形式邏輯和抽象代數,尤其是沒有內置的 API 時。

為了取 CoT 和 PoT 兩種方法之長,該團隊引入了一個新的數學混合指令微調數據集 MathInstruct,其有兩大主要特性:(1) 廣泛涵蓋不同的數學領域和復雜程度,(2) 將 CoT 和 PoT 原理組合到了一起。

MathInstruct 基于七個現有的數學原理數據集和六個新整理出的數據集。他們使用 MathInstruct 微調了不同大小(從 7B 到 70B)的 Llama 模型。他們將所得到的模型稱為 MAmmoTH 模型,結果發現 MAmmoTH 的能力是前所未有的,就像是一個數學通才。

圖片

為了評估 MAmmoTH,該團隊使用了一系列評估數據集,包括領域內的測試集(GSM8K、MATH、AQuA-RAT、NumGLUE)和領域外的測試集(SVAMP、SAT、MMLU-Math、Mathematics、SimulEq)。

結果發現,相比于之前的方法,MAmmoTH 模型能更好地泛化用于領域外數據集,并能大幅提升開源 LLM 的數學推理能力。

值得注意的是,在常用的競賽級 MATH 數據集上,7B 版本的 MAmmoTH 模型能以 3.5 倍的優勢(35.2% vs 10.7%)擊敗 WizardMath(這是 MATH 上之前最佳的開源模型),而 34B MAmmoTH-Coder(在 Code Llama 上進行過微調)甚至可以勝過使用 CoT 的 GPT-4。

這項研究的貢獻可以總結成兩個方面:(1) 從數據工程方面看,他們提出了一個高質量的數學指令微調數據集,其中包含多種不同的數學問題和混合原理。(2) 從建模方面講,他們訓練和評估了大小從 7B 到 70B 的 50 多個不同的新模型和基準模型,以此探究了不同數據源和輸入-輸出格式的影響。

結果發現,MAmmoTH 和 MAmmoTH-Coder 等新模型在準確度方面都顯著優于之前的開源模型。

圖片

  • 論文:https://arxiv.org/pdf/2309.05653.pdf
  • 代碼:https://github.com/TIGER-AI-Lab/MAmmoTH
  • 數據集與模型:https://huggingface.co/datasets/TIGER-Lab/MathInstruct

該團隊已經發布了他們整理得到的數據集,并開源了新方法的代碼,也在 Hugging Face 發布了訓練好的不同大小的模型。

新提出的方法

整理一個多樣化的混合指令微調數據集

該團隊的目標是編制一份列表,其中包含高質量且多樣化的數學指令微調數據集,其應具有兩個主要特征:(1) 廣泛涵蓋不同的數學領域和復雜程度,(2) 將 CoT 和 PoT 原理組合到一起。

對于第一個特征,他們首先選出了一些使用廣泛并且涉及不同數學領域和復雜程度的高質量數據集,比如 GSM8K、MATH、AQuA、Camel 和 TheoremQA。然后他們注意到現有數據集沒有大學水平的數學知識,比如抽象代數和形式邏輯。針對這個問題,他們借助于網上找到的少量種子示例,使用 GPT-4 為 TheoremQA 中的問題合成 CoT 原理并通過 Self-Instruct 創建「問題-CoT」配對。

對于第二個特征,將 CoT 和 PoT 原理組合到一起可以提升數據集的多功能性,使其訓練的模型有能力解決不同類型的數學問題。但是,大多數現有數據集提供的程序原理有限,導致 CoT 和 PoT 原理之間不平衡。為此,該團隊又用到了 GPT-4,來為所選數據集補充 PoT 原理,包括 MATH、AQuA、 GSM8K 和 TheoremQA。然后再對這些 GPT-4 合成的程序進行過濾,做法是將它們的執行結果與人類標注的基本真值進行比較,這能確保所添加的都是高質量的原理。

遵循這些準則,他們創建了一個新的數據集 MathInstruct,詳見下表 1。

其中包含 26 萬對 (指令,響應),覆蓋廣泛的核心數學領域(算術、代數、概率學、微積分和幾何等),包含混合的 CoT 和 PoT 原理,并有不同的語言和難度。

訓練設置

MathInstruct 的所有子集都統一成了類似 Alpaca 的指令數據集的結構。這種標準化操作可確保微調得到的模型能夠一致地處理數據,無論原始數據集格式如何。

在基礎模型方面,該團隊的選擇是 Llama-2 和 Code Llama。

通過在 MathInstruct 上進行微調,他們得到了 7B、13B、34B 和 70B 等大小不同的模型。

實驗

評估數據集

為了評估模型的數學推理能力,該團隊選擇了一些評估數據集,見下表 2,其中包含許多不同領域內和領域外樣本,涉及多個不同數學領域。

圖片

這個評估數據集也包含不同的難度等級,包括小學、中學和大學水平。某些數據集甚至包括形式邏輯和常識推理。

所選擇的評估數據集既有開放式問題,也有多項選擇題。

對于開放式問題(如 GSM8K 和 MATH),研究者采用了 PoT 解碼,因為大多數這類問題可以通過程序求解。、

對于多項選擇題(如 AQuA 和 MMLU),研究者采用了 CoT 解碼,因為這個數據集中的大部分問題都可以通過 CoT 更好地處理。

CoT 解碼不需要任何觸發詞,而 PoT 解碼需要一個觸發語:「Let’s write a program to solve the problem」。

主要結果

下表 3 和表 4 分別報告了在領域內外數據上的結果。

總體而言,在不同的模型大小上,MAmmoTH 和 MAmmoTH-Coder 都優于之前最佳的模型。新模型在領域外數據集上取得的性能增長多于在領域內數據集上所獲增長。這些結果表明新模型確實有成為數學通才的潛力。MAmmoTH-Coder-34B 和 MAmmoTH-70B 在一些數據集上的表現甚至超過了閉源 LLM。

研究者也比較了使用不同基礎模型的情況。具體來說,他們實驗了 Llama-2 和 Code-Llama 這兩種基礎模型。從上面兩張表可以看出,Code-Llama 整體上要優于 Llama-2,尤其是在領域外數據集上。MAmmoTH 和 MAmmoTH-Coder 之間的差距甚至可達 5%。

在數據源上的消融研究

他們通過消融研究探索了性能增益的來源。為了更好地理解 MAmmoTH 相對于已有基準模型的優勢的來源,研究者進行了一系列對照實驗,結果如下圖 2 所示。

總結起來,MAmmoTH 的顯著性能優勢可以歸功于:1) 涵蓋不同的數學領域和復雜程度的多樣化數據源,2) CoT 和 PoT 指令微調的混合策略。

他們也研究了主要子集的影響。對于用于訓練 MAmmoTH 的 MathInstruct 的多樣化來源,理解各個來源對模型整體性能的貢獻程度也很重要。他們關注的重點是四個主要子集:GSM8K、MATH、 Camel 和 AQuA。他們進行了一項實驗:逐漸將每個數據集添加到訓練中,并將性能與在整個 MathInstruct 上微調的模型進行比較。

圖片

從表 5 的結果可以看到,如果一開始訓練的數據集不夠多樣化(比如只有 GSM8K 時),整體的泛化能力非常差:模型只擬合了分布內的數據,難以解答 GSM 問題之外的問題。

這些結果凸顯了多樣化數據源對 MAmmoTH 的重要影響,它們是讓 MAmmoTH 成為數學通才的核心關鍵。這些結果也貢獻了寶貴的見解,能為我們未來的數據整理收集工作提供指導比如我們應該總是收集多樣化的數據,避免只收集特定類型的數據。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2022-07-12 08:19:16

XJSON四則運算場景

2022-07-04 08:16:43

JSONJSON庫對象

2009-10-20 13:58:00

CCIE學習筆記

2011-08-18 14:05:12

NoSQL

2025-05-27 01:27:00

LLM大模型數學推理

2021-07-27 05:04:12

python初等函數

2022-10-27 10:06:16

Presto SQLAntlr大數據

2025-06-24 08:52:54

2017-09-13 10:58:51

JavaScript轉換規則

2021-02-06 23:00:39

機器學習工程人工智能

2016-12-12 13:41:37

iOS簡易加法開發

2011-12-08 09:52:37

2024-11-25 14:10:00

2017-10-16 10:42:27

前端JavaScript浮點數

2012-02-01 10:37:36

中小企業惠普惠商四則運算

2017-09-05 16:17:35

JavaScript運算轉換

2012-03-13 15:50:12

2012-03-09 15:07:35

2021-03-29 14:53:01

大數據人工智能司法
點贊
收藏

51CTO技術棧公眾號

亚洲欧美日韩精品在线| 国产98色在线| 艳妇乳肉亭妇荡乳av| 正在播放日韩精品| 国产免费观看久久| 91亚洲精品视频| 免费日韩一级片| 不卡一区2区| 日韩一区二区三区视频| www黄色日本| 网友自拍视频在线| 99久久99久久精品免费观看| 国产精品久久久久久久一区探花| 欧美日韩在线视频免费| 国产欧美日韩一区二区三区四区| 欧美一区二区在线不卡| 波多野结衣家庭教师视频| 快射av在线播放一区| 播五月开心婷婷综合| 国产精品视频自拍| 国产精品999在线观看| 97人人精品| 亚洲精品永久免费精品| 久久久久亚洲av无码麻豆| 91看片一区| 亚洲国产精品久久不卡毛片 | 欧美a级大片在线| 色综合久久中文综合久久97| 久久亚洲国产成人精品无码区| 成人免费高清在线播放| 91亚洲精品久久久蜜桃| 99电影在线观看| 国产精品久久久国产盗摄| 久久三级视频| 69久久夜色精品国产69| 久久精品www| 中文精品久久| 日韩亚洲欧美中文在线| 国产又粗又黄又猛| 美女亚洲一区| 亚洲免费人成在线视频观看| 极品白嫩少妇无套内谢| 国产精品视频一区视频二区| 欧美日韩精品高清| 午夜久久久精品| 国产福利亚洲| 欧美午夜精品久久久久久超碰| 精品人妻一区二区三区四区在线| av免费不卡| 亚洲国产日韩a在线播放性色| 午夜探花在线观看| 久久精品视频观看| 亚洲视频在线观看一区| 一区二区在线不卡| 黄色网页在线播放| 亚洲免费高清视频在线| 特级黄色录像片| 超碰公开在线| 亚洲综合图片区| 日韩小视频网站| 九九色在线视频| 亚洲高清久久久| 国产69精品久久久久久久| 国产中文在线播放| 在线视频欧美区| 杨幂毛片午夜性生毛片| 欧美美女被草| 日韩免费电影一区| 91九色蝌蚪porny| 特黄特色欧美大片| 亚洲无av在线中文字幕| 男人天堂资源网| 午夜精品偷拍| 91精品国产高清久久久久久久久 | fc2ppv国产精品久久| 亚洲最新在线观看| 免费黄色福利视频| 国产成人精品一区二区三区在线| 在线成人午夜影院| 稀缺呦国内精品呦| 免费看成人吃奶视频在线| 色妞欧美日韩在线| 久久久一二三区| 亚洲一区二区毛片| 国产精品视频精品| www.久久精品.com| 久久久久久久电影| 中国黄色录像片| 国产高潮在线| 欧美日韩国产一级片| 国内自拍偷拍视频| 国内成人精品| 欧美福利视频网站| 天天干天天插天天射| 国产美女主播视频一区| 久久亚洲一区二区| 2024最新电影免费在线观看| 日韩欧美在线视频| 超碰在线超碰在线| 少妇精品久久久| 久久久久久91| 性高潮视频在线观看| 福利一区福利二区| 亚洲国产精品综合| 国产污视频在线播放| 欧美日韩国产免费一区二区| 亚洲熟女乱综合一区二区三区 | 99久久久无码国产精品| 亚洲ai欧洲av| 精品丝袜在线| 国产精品99久久久久| 日韩欧美国产一区二区三区| 国产精品一区二区在线免费观看| 精品久久久久久久久久久下田| 欧美成人精品在线观看| www.久久久久久久| 不卡欧美aaaaa| 中文字幕一区二区三区有限公司 | 欧美日韩亚洲国产综合| 中文字幕天堂网| 亚洲国产日韩欧美在线| 国产精品福利小视频| 色偷偷在线观看| 一区二区三区四区国产精品| 亚洲国产精品三区| 免费久久精品| 91高清视频免费| 性中国古装videossex| 国产精品免费视频一区| 欧美激情成人网| 精品福利网址导航| 欧美激情图片区| 国产欧美久久久| 国产精品久久久久9999吃药| 麻豆av免费在线| 爽爽窝窝午夜精品一区二区| 欧美国产中文字幕| 国产黄色av网站| 亚洲色图在线视频| а 天堂 在线| 91超碰成人| 91免费精品视频| 成人直播在线| 久久久蜜臀国产一区二区| 日韩中文字幕网址| 69av视频在线| 国产精品亚洲а∨天堂免在线| 亚洲最新在线| 青娱乐极品盛宴一区二区| 在线视频一区二区| 中文字幕av片| 国产精品久久久久aaaa| 中日韩av在线播放| 999久久久91| 成人春色激情网| 哥也色在线视频| 日韩一区二区三区电影| 欧美日韩在线视频免费播放| 高清视频一区二区| 国产av人人夜夜澡人人爽麻豆| 国产主播性色av福利精品一区| 97视频在线观看免费高清完整版在线观看 | 无码人妻aⅴ一区二区三区| 亚洲乱码视频| 久久伊人一区二区| 国产精品久久亚洲不卡| 中文字幕久久久av一区| 国产乱码一区二区| 亚洲一区av在线| 久久亚洲AV成人无码国产野外 | 国产色视频在线播放| 999精品色在线播放| 99国产超薄肉色丝袜交足的后果| av色在线观看| 亚洲欧洲在线看| 国产熟女一区二区丰满| 亚洲高清视频在线| 一级黄色片大全| 韩国一区二区在线观看| 91亚洲精品国产| 深爱激情综合网| 91免费高清视频| 日韩深夜视频| www.久久色.com| 内射后入在线观看一区| 色噜噜狠狠一区二区三区果冻| 国产又粗又猛又爽又黄的视频小说| 国产精品99久久久久久有的能看| 国产精品自拍片| 久久性感美女视频| 国产欧美日韩在线播放| av成人在线观看| 久久青草精品视频免费观看| 日本福利片高清在线观看| 欧美猛男超大videosgay| 国产精品成人国产乱| 国产精品卡一卡二卡三| 韩国三级hd两男一女| 免费成人在线影院| 日韩精品 欧美| 国产精品毛片久久| 免费精品视频一区| 看亚洲a级一级毛片| 琪琪亚洲精品午夜在线| 成人在线观看亚洲| 一本一道久久a久久精品逆3p | www国产精品| 国产精品久久久久久超碰| 色呦呦网站在线观看| 伊人青青综合网站| 香蕉视频免费看| 欧美一区二区播放| 一级特黄免费视频| 福利视频一区二区| 国产一级特黄a高潮片| 亚洲欧美综合另类在线卡通| 波多野结衣 在线| 不卡电影一区二区三区| 一起草最新网址| 加勒比av一区二区| 三年中国国语在线播放免费| 一本色道久久综合亚洲精品不卡| 艳母动漫在线观看| 日韩综合在线| 日韩欧美视频一区二区三区四区 | 日韩三级电影| 亚洲精品国产setv| 国产精品视频免费一区二区三区| 视频欧美精品| 国产精品色午夜在线观看| 中文字幕在线直播| 97超级碰碰碰| 国产精选在线| 午夜精品一区二区三区在线播放| 日本天码aⅴ片在线电影网站| www.欧美精品| 婷婷五月在线视频| 日韩在线观看免费高清| 亚洲精品承认| 中文字幕久热精品视频在线| 国产一级片在线| 亚洲视频专区在线| 久久这里精品| 中文精品99久久国产香蕉| 国产精品无码2021在线观看| 亚洲欧美制服另类日韩| 男女视频在线观看免费| 精品网站999www| 欧美男男同志| 亚洲无线码在线一区观看| 福利视频在线播放| 中日韩美女免费视频网站在线观看 | 中文字幕免费在线看| 精品婷婷伊人一区三区三| 中文字幕精品无码亚| 欧美三区在线视频| 91国产免费视频| 91精品国产综合久久婷婷香蕉 | 久久久成人av毛片免费观看| 国产精品9999| 欧美特黄色片| 99re在线播放| 校花撩起jk露出白色内裤国产精品 | 中文字幕日韩一区| 日韩欧美123区| 亚洲成av人综合在线观看| 黑人一级大毛片| 欧美在线观看视频在线| 91久久久久久久久久久久| 欧美一区永久视频免费观看| 亚洲狼人综合网| 精品亚洲一区二区三区| 91这里只有精品| 欧美日本中文字幕| 中文字幕成在线观看| 国产精品丝袜一区二区三区| 综合久久av| 国产日韩精品推荐| 激情综合网站| 国产日韩欧美大片| 亚洲欧美大片| 日韩av.com| 成人app下载| 性猛交ⅹxxx富婆video| 亚洲女同一区二区| 免费污污视频在线观看| 欧美丰满一区二区免费视频| 秋霞网一区二区| 在线播放国产精品| 俺来也官网欧美久久精品| 国产精品91免费在线| 亚洲高清在线一区| 青娱乐国产91| 国产精品大片| 国产精品一区二区羞羞答答| 高清在线不卡av| 欧美成人短视频| 精品成人av一区| 97人妻一区二区精品免费视频 | 三区四区在线视频| 亚洲3p在线观看| 久久亚洲资源中文字| 九9re精品视频在线观看re6| 99久久综合| 成人在线观看黄| 成人免费视频免费观看| 91n在线视频| 色网综合在线观看| 欧美视频一二区| 久久久国产精品视频| 吞精囗交69激情欧美| 国产v亚洲v天堂无码| 99久久精品费精品国产| 黄色a级片免费| 成a人片亚洲日本久久| 亚洲少妇xxx| 91国产丝袜在线播放| 蜜臀av免费在线观看| 久久国产精品久久久久久久久久| 香蕉视频亚洲一级| 精品国产aⅴ麻豆| 国产精品国码视频| 欧美成人手机在线视频| 欧美韩国日本不卡| 天天干天天色综合| 国产丝袜精品视频| av免费不卡国产观看| 岛国一区二区三区高清视频| 亚洲成人一区| 日本人69视频| 中文在线一区二区| 最近中文字幕免费在线观看| 亚洲欧美资源在线| 欧美黄色网页| 久久手机视频| 亚洲精品美女| 亚洲色偷偷色噜噜狠狠99网| 一区二区三区自拍| 国产成人免费看一级大黄| 美日韩精品视频免费看| 成人国产精品久久| 操bbb操bbb| 国产一区二区不卡在线| 欧美一区免费观看| 91精品国产品国语在线不卡| 国产区在线看| 91黄在线观看| 在线观看一区| 中文人妻一区二区三区| 一本色道久久综合亚洲aⅴ蜜桃 | 国产探花一区在线观看| www国产黄色| 国产亚洲视频系列| 精品乱码一区内射人妻无码 | 久久99精品久久久久子伦| 一区二区精品| 国产伦理片在线观看| 欧美系列亚洲系列| 日本在线观看免费| 91在线无精精品一区二区| 外国成人免费视频| 91丨porny丨九色| 亚洲一级在线观看| 午夜性色福利影院| 国产精品盗摄久久久| 日韩专区精品| www男人天堂| 色综合天天在线| 在线观看免费黄色| 3d蒂法精品啪啪一区二区免费| 精品成人在线| 久久国产柳州莫菁门| 91精品国产91热久久久做人人| 超碰中文在线| 欧洲一区二区日韩在线视频观看免费| 青青草视频一区| 免费在线看黄网址| 亚洲视频第一页| 日韩区一区二| 久久久免费视频网站| 国产精品不卡视频| 亚洲欧美高清视频| 国产精品99久久久久久人| 91成人精品| 一级片视频免费看| 日韩一区和二区| 亚洲精品**中文毛片| 91xxx视频| 国产夜色精品一区二区av| 99在线观看精品视频| 日本精品一区二区三区在线| 99久久久国产精品美女| 黄色av网址在线观看| 欧美日韩在线三区| 波多野结衣精品| 日本黄色播放器| 久久久久久99精品| 六月丁香色婷婷| 91久久精品国产91性色| 久久精品系列|