精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

「專業智能體指導」讓小模型學會數學推理!微調Mistral-7B實現86.81%準確率

發布于 2024-4-29 13:16
瀏覽
0收藏

對于小型語言模型(SLM)來說,數學應用題求解是一項很復雜的任務。


比如之前有研究結果顯示,在GSM 8K基準測試中實現80%以上準確度所需的最小模型尺寸為340億個參數。


為了在較小的模型上達到這種性能水平,研究人員經常訓練SLM來生成Python代碼或使用外部工具作為輔助,以避免計算錯誤。


或是基于集成(ensembling)技術,將100多個模型生成的輸出組合在一起,以獲得更準確的結果,最終結果的選擇需要通過共識、多數表決或與SLM結合使用的單獨的驗證器模型來完成,可以顯著提升準確率(Phi-GSM使用top-48將性能從68.2提升到81.5),不過代價是由于多次調用模型導致的成本顯著增加。


最近,微軟的研究人員提出了一個基于Mistral-7B、70億參數量的小型語言模型Orca-Math,它在GSM 8 k上實現了86.81%,不需要調用多個模型進行集成或使用驗證器、代碼執行或任何其他外部工具。


「專業智能體指導」讓小模型學會數學推理!微調Mistral-7B實現86.81%準確率-AI.x社區

論文鏈接:??https://arxiv.org/abs/2402.14830??


Orca-Math的關鍵特性為:


1. 使用多個智能體(agent)創建出20萬個數學問題的高質量合成數據集,其中智能體合作創建數據;


2. 迭代學習技術,使SLM能夠練習解決問題,接收對其解決方案的反饋,并從包含SLM解決方案和反饋的偏好數據中學習。


當單獨使用有監督微調訓練時,Orca-Math在GSM 8 k pass@1指標上達到81.50%。通過迭代偏好學習,Orca-Math實現了86.81%的pass@1


Orca-Math超越了LLAMA-2- 70B,WizardMath-70B,Gemini-Pro,ChatGPT-3.5等更大型號的性能,在使用小得多的數據(數十萬對數百萬問題)時也顯著優于其他較小的模型。

數據集構造

種子集合

首先從現有的開源數據集中收集數學單詞問題樣本,即NumGLUE、AddSub、ALGES、ASDiv、DRAW、GSM8k、MATHQA、MultiArith、SingeOP、SingleEQ和SVAMP。


研究人員從Lila的訓練和驗證分裂中收集問題,以構建種子集,總共收集了36217個問題。


智能體 - ask me anything


通過從種子集中的問題創建多個單詞問題來擴展種子集,利用后續提示來創建問題。


「專業智能體指導」讓小模型學會數學推理!微調Mistral-7B實現86.81%準確率-AI.x社區


智能體總共生成了120445個新問題,但所有生成的問題都表現出與種子詞問題相似的敘述方式,具體解決方案是使用GPT4-Trubo生成的。


智能體 - Suggester & Editor


通過解決具有挑戰性的問題進一步擴大種子集合。


為了實現這一點,研究人員引入了兩個新的智能體,即Suggester和Editor,可以協同工作以創建一個面向預定義目標的數據集:修改現有問題以增加其難度。


Suggester研究一個特定的問題,并提出了幾種在不產生實際問題的情況下提高其復雜性的方法。


Editor采用原始單詞問題和Suggester的建議,生成一個更新的、更具挑戰性的問題,迭代過程可以發生在多個回合中,每一回合都會進一步增加先前生成的問題的復雜性。


眼人員利用AutoGen框架來實現多智能體工作流。


「專業智能體指導」讓小模型學會數學推理!微調Mistral-7B實現86.81%準確率-AI.x社區


對每個問題進行兩輪迭代,并過濾GPT4-Turbo生成的答案超過1800個字符的問題,最終收集了37157個問題。

訓練

有監督微調實驗(第一次迭代)

在Orca-Math-200K數據集上對Mistral-7B進行了微調,沒有使用packing,下面為具體的指令格式。


「專業智能體指導」讓小模型學會數學推理!微調Mistral-7B實現86.81%準確率-AI.x社區

損失函數只基于答案token來計算。


正負信號的迭代學習


數據集構建(第二次迭代)


為了為每個問題生成額外的正樣本和負樣本,研究人員從第一次迭代的SFT調優模型中采樣四個回復。


具體來說,使用top_p=0.95和溫度=0.7,過程產生了一個數據集,其中200000個問題中的每個問題都有一個GPT4-Turbo生成的解決方案和四個學生生成的解決方法。


使用基于GPT4的精確匹配中定義的提示來評估教師(GPT4-Turbo)的答案和學生的答案之間的一致性。


對于學生生成的答案與老師的答案不匹配的所有解決方案,將其標記為負樣本。


數據集構建(第三次迭代)


為了從正反饋和負反饋中學習,研究人員評估了兩種算法的性能:直接偏好優化(DPO)和Kahneman-Tversky優化(KTO),還探索了KTO的功能,其區別在于只需要二進制「是」或「否」的回復來評估輸出的質量。

評估方法

研究人員使用精確匹配作為評估指標。


給定一個模型生成的答案,提示GPT-4來提取最終的簡短答案,并將其與金標準中的簡短答案進行匹配,即基于GPT4的精確匹配(GPT4-based-Exact-Match)。


「專業智能體指導」讓小模型學會數學推理!微調Mistral-7B實現86.81%準確率-AI.x社區


「專業智能體指導」讓小模型學會數學推理!微調Mistral-7B實現86.81%準確率-AI.x社區

實驗結果


研究人員測試了模型在包含1319個單詞問題的GSM8k測試集上幾個訓練過程的性能,對Mistral-7B模型進行了三次迭代的微調


「專業智能體指導」讓小模型學會數學推理!微調Mistral-7B實現86.81%準確率-AI.x社區


在第一次迭代中,使用有監督微調來獲得M1;


第二次迭代中,對比了SFT、DPO和KTO,其中KTO訓練的模型在這一組中表現更好,獲得M2后,并使用M2生成迭代#3的數據集;


第三次迭代中,對比了DPO和KTO方法,使用M2作為模型起點。


研究人員還將這些模型與Orca-Math-200K數據集上經過三個epoch的SFT訓練進行了對比。

消融實驗

Model Generated Positives


通過將

「專業智能體指導」讓小模型學會數學推理!微調Mistral-7B實現86.81%準確率-AI.x社區

限制為僅包含教師生成的解決方案來研究影響模型生成的正向因素(positives),換言之,研究人員移除在為迭代#2創建數據集時模型生成的所有

「專業智能體指導」讓小模型學會數學推理!微調Mistral-7B實現86.81%準確率-AI.x社區

「專業智能體指導」讓小模型學會數學推理!微調Mistral-7B實現86.81%準確率-AI.x社區


結果顯示,不管訓練算法如何,都會看到顯著的性能下降。


Synthetic Negatives


數據集的創建包括在M1或M2生成的所有四個回復都是positive的情況下的合成負樣本(negative creation)。


「專業智能體指導」讓小模型學會數學推理!微調Mistral-7B實現86.81%準確率-AI.x社區


通過忽略問題qi來研究這些合成負樣本的影響,結果將第二次迭代的問題數量減少了約80k,將第三次迭代的問題數量增加了約104k


除GSM8k外的數學基準

研究人員還使用Orca Math其他幾個單詞問題數據集上進行了實驗,并且為了便于評估,最終選擇了問題答案都是單個數字的數據集。


「專業智能體指導」讓小模型學會數學推理!微調Mistral-7B實現86.81%準確率-AI.x社區


評估指標為基于GPT4的精確匹配度量,并使用貪婪解碼生成模型回復。


沾染檢查(Contamination Check)


為了確保實驗的公正性,研究人員在文中表示:在訓練過程中,從未使用GSM8K或任何其他數據集的測試分割集,也從未將其用作合成問題生成的種子。


盡管如此,研究人員還是采用以下方法來檢測任何潛在的文本沾染(text contamination)問題:


1. 對文本進行預處理,包括將所有字符轉換為小寫、刪除標點符號、對文本進行分詞,以及刪除常見的英語停止詞,以確保數據的一致性。


2. 使用逆文檔頻率(TF-IDF)方法對文本語料庫進行矢量化,并確定測試集和訓練集之間的余弦相似性,從中為每個測試查詢選擇前k個(k=10)最相似的問題。


3. 通過計算在預設閾值0.5以上具有最高n-gram重疊的試題數量及其相應的訓練集匹配來評估文本污染的程度。


研究人員使用Jaccard相似度來計算文本對之間的n-gram重疊,并且為了進行嚴格的污染檢查,n設置為1。


需要注意的是,當使用Jaccard相似性測量時,n-gram重疊是n的非遞增函數。


4. 在執行算法時,確定表現出顯著的n-gram重疊的試題數量為8,因此根據定義的閾值,表明測試集中的文本污染可以忽略不計。


當將訓練集限制為僅包含種子問題時,表現出顯著n-gram重疊的測試問題的數量為7;并且在n≥2的情況下,表現出顯著的n-gram重疊的試題數為零。


本文轉自 新智元 ,作者:新智元


原文鏈接:??https://mp.weixin.qq.com/s/dr-Ab0G9hizCDgLNZ_o6_Q??

收藏
回復
舉報
回復
相關推薦
3d动漫一区二区三区| 精品不卡在线| 九九在线观看视频| 欧美久久香蕉| 欧美日韩亚洲综合一区二区三区| 国产91露脸中文字幕在线| 色欲狠狠躁天天躁无码中文字幕| 女人天堂av在线播放| youjizz久久| 国产精品中文在线| 国产无遮挡aaa片爽爽| 欧美日韩一区二区综合| 精品久久久久久久久久久久久久久久久| 性高潮久久久久久久久| 国产白浆在线观看| 日韩一区精品字幕| 久久91亚洲精品中文字幕| 久久精品老司机| 精品国产一区二区三区2021| 岛国视频午夜一区免费在线观看| 激情小说综合区| 99在线观看免费| 视频一区二区国产| 97精品国产97久久久久久| 黄大色黄女片18免费| 成人h动漫免费观看网站| 欧美日韩一区二区电影| 2022亚洲天堂| free性欧美16hd| 亚洲同性gay激情无套| 欧美精品一区三区在线观看| 亚洲国产精品18久久久久久| 久久精品国产精品亚洲精品| 欧美在线一区二区三区四| 精国产品一区二区三区a片| 欧美熟乱15p| 亚洲欧洲国产伦综合| 国产伦精品一区三区精东| 成人激情久久| 欧美日韩精品欧美日韩精品 | 一区二区三区蜜桃网| 日韩一本精品| 久青草国产在线| 99精品桃花视频在线观看| 成人黄视频免费| 国产熟女精品视频| 黄网站免费久久| 成人国产精品日本在线| 一级片在线免费观看视频| 日本视频在线一区| 日韩av免费看网站| 国产亚洲欧美在线精品| 国产一区白浆| 4388成人网| 天天干天天干天天| 日韩精品一二区| 国产精品福利片| 一级黄色av片| 六月婷婷色综合| 国产伊人精品在线| 国产乱淫片视频| 国产乱码精品1区2区3区| 91黄在线观看| 亚洲av综合色区无码一二三区 | 17c精品麻豆一区二区免费| 日本一区不卡| 美女写真理伦片在线看| 亚洲精品国产品国语在线app| 国产一区自拍视频| 你懂的免费在线观看视频网站| 三级亚洲高清视频| 久久久999国产精品| www.超碰在线观看| 亚洲精华国产欧美| 国产不卡av在线| 88av在线视频| 成人精品电影在线观看| 久久国产主播精品| 日本高清视频在线播放| 亚洲欧美视频一区| 成人午夜精品久久久久久久蜜臀| 午夜视频成人| 亚洲视频免费看| www.av91| 成人免费福利| 日韩欧美另类在线| 日本xxxx裸体xxxx| 91亚洲国产| 久久久亚洲欧洲日产国码aⅴ| 污软件在线观看| 国产精品啊啊啊| 日韩美女福利视频| hs视频在线观看| 久久精品一区二区三区av| 综合久久国产| 午夜不卡影院| 欧美一级专区免费大片| 少妇按摩一区二区三区| 亚州av乱码久久精品蜜桃| 97视频网站入口| 亚洲中文一区二区三区| 成a人片亚洲日本久久| 亚洲日本japanese丝袜| 午夜伦理福利在线| 91精品国产综合久久精品性色| 日韩va在线观看| 国产精品一线| 久久精品成人动漫| 波多野结衣视频网站| 国产精品一区二区久激情瑜伽| 91人成网站www| 色综合视频在线| 国产亚洲欧美日韩在线一区| 国产天堂视频在线观看| 成人在线视频观看| 亚洲免费成人av电影| 久久国产精品波多野结衣av| 日日摸夜夜添夜夜添精品视频 | 精品国产午夜福利| 国产一区啦啦啦在线观看| 久久日韩精品| av成人福利| 欧美一卡二卡三卡四卡| 91社区视频在线观看| 午夜在线一区二区| 国产精品免费在线 | 99久久99久久精品免费观看 | 日本不卡高字幕在线2019| 国产福利视频导航| 中文字幕色av一区二区三区| 欧美伦理视频在线观看| 全国精品免费看| 韩国日本不卡在线| 亚洲国产综合网| 亚洲精品视频一区| 中文字幕55页| 在线成人直播| 亚洲综合第一页| 精品孕妇一区二区三区| 欧美日韩三级在线| 欧美熟妇一区二区| 国产精品一级| 久久久久一区二区| 中国字幕a在线看韩国电影| 亚洲成人久久久久| 国产精品成人久久| www..com久久爱| www.日本在线播放| 日本少妇精品亚洲第一区| 欧美成人精品三级在线观看| 99精品久久久久久中文字幕| 亚洲三级电影全部在线观看高清| 国产freexxxx性播放麻豆| 9l视频自拍蝌蚪9l视频成人| 欧美老肥婆性猛交视频| www.日韩高清| 亚洲国产精品尤物yw在线观看| 动漫av网站免费观看| 青青草久久爱| 日韩av观看网址| 高清美女视频一区| 欧美日韩高清一区二区不卡| 开心激情五月网| 国产一区二区伦理| 被灌满精子的波多野结衣| 久久中文资源| 日韩免费av片在线观看| 在线中文资源天堂| 91精品国产色综合久久| 国产精品成人国产乱| 久久午夜羞羞影院免费观看| 美女喷白浆视频| 国产精品久久久久久久久妇女| 国产99久久精品一区二区永久免费| 国产美女自慰在线观看| 一二三四区精品视频| 亚洲午夜久久久久久久久| 亚洲欧美网站| 亚洲 国产 欧美一区| 精品国产亚洲一区二区三区| 国内精品久久久久久中文字幕| 国产手机精品视频| 精品免费在线视频| 免费黄色在线网址| 国产精品77777竹菊影视小说| 亚洲成人a**址| 蜜桃精品视频| 日本精品视频在线播放| 欧美被日视频| 亚洲国产日韩欧美在线图片| 91午夜精品亚洲一区二区三区| 成人av一区二区三区| 午夜dv内射一区二区| 欧美激情一级片一区二区| 欧美国产综合视频| 亚洲最大的免费视频网站| 91国内揄拍国内精品对白| 69视频在线观看| 日韩电影在线观看永久视频免费网站| 久久9999久久免费精品国产| 国产视频一区二区在线观看| 91热视频在线观看| 久热re这里精品视频在线6| av中文字幕av| 欧美色网址大全| 国产综合第一页| 另类视频一区二区三区| 国产精品久久99久久| av伦理在线| 欧美大片大片在线播放| av网在线观看| 亚洲欧美在线一区| 免费看日韩av| 欧美一卡2卡3卡4卡| 日本妇乱大交xxxxx| 五月婷婷综合在线| 2021亚洲天堂| 日韩码欧中文字| 中文字幕 自拍| 99精品视频中文字幕| 国产xxx在线观看 | 国产精品拍拍拍| 精品成人国产| 精品视频在线观看一区二区| 久久国产精品亚洲人一区二区三区| 91理论片午午论夜理片久久| 桃子视频成人app| 欧美性在线视频| a'aaa级片在线观看| 欧美激情日韩图片| 五月婷婷视频在线观看| 久久午夜a级毛片| 婷婷在线视频| 久久精品国产精品| 无遮挡的视频在线观看| 色偷偷偷亚洲综合网另类 | 日韩av在线免播放器| 亚洲男人第一天堂| 日韩精品一区在线| 99在线观看免费| 欧美一区二区三区男人的天堂| 黄色激情视频在线观看| 亚洲图片欧美综合| 久久久久久欧美精品se一二三四| 99r精品视频| 97香蕉碰碰人妻国产欧美| 99久久夜色精品国产网站| 色诱av手机版| av在线播放不卡| 亚洲精品乱码久久久久久不卡| 久久激情五月激情| www.久久av.com| 国产乱码精品一区二区三| avtt中文字幕| a级精品国产片在线观看| 欧美做受喷浆在线观看| 久久久国际精品| 香蕉久久久久久久| 亚洲欧美日韩国产手机在线| 黄色一级视频在线观看| 精品日韩中文字幕| 中文字幕一区二区人妻视频| 欧美色成人综合| 国产色综合视频| 精品电影一区二区三区 | 激情国产一区二区| 波多野结衣电影免费观看| 成人黄色在线看| 亚洲成人黄色av| 自拍偷拍国产精品| 日本五十路女优| 色偷偷久久一区二区三区| 一级成人免费视频| 精品国产免费一区二区三区香蕉| 午夜视频网站在线观看| 4438x亚洲最大成人网| 亚洲精品一区二区三区蜜桃| 日韩电影中文 亚洲精品乱码| 亚洲卡一卡二卡三| 精品在线欧美视频| 日本暖暖在线视频| 韩国v欧美v日本v亚洲| 日韩高清成人| 动漫一区二区在线| 精品国产一区二区三区| 小说区视频区图片区| 日韩视频一区| 久久久久久久久久一区| 91网站在线观看视频| 久久噜噜色综合一区二区| 亚洲国产成人av网| 91成年人视频| 亚洲精品视频中文字幕| av片在线观看| 国产精品成人一区| 国产乱论精品| 97超碰人人爱| 日韩1区2区3区| 香蕉视频污视频| 中文字幕亚洲在| 久久国产黄色片| 日韩精品综合一本久道在线视频| japanese国产| 色哟哟网站入口亚洲精品| av在线视屏| 91精品国产91久久久久青草| 国模吧精品视频| 欧美日韩黄色一级片| 激情深爱一区二区| 国产黄色录像视频| 高跟丝袜一区二区三区| 精品人妻aV中文字幕乱码色欲| 欧美电影免费提供在线观看| 成年网站在线| 欧美最顶级的aⅴ艳星| 国产极品模特精品一二| av电影一区二区三区| 免费在线观看精品| 91网站免费视频| 大桥未久av一区二区三区| 免费av一级片| 欧美国产日韩xxxxx| 91精品亚洲一区在线观看| 亚洲精品在线视频观看| 水蜜桃久久夜色精品一区的特点| 在线观看亚洲色图| 久久久精品tv| av片免费观看| 日韩大片免费观看视频播放| 欧美wwww| 成人情视频高清免费观看电影| 欧美三级午夜理伦三级小说| 日本最新一区二区三区视频观看| 成人激情免费视频| 日本一极黄色片| 久久亚区不卡日本| 国产精品第5页| 亚洲免费视频网站| 国模冰冰炮一区二区| 精品国产乱码久久久久软件| 亚洲国产裸拍裸体视频在线观看乱了中文 | 日韩精品福利| 欧美一区第一页| 欧美日韩一本| 国产超级av在线| 久久久久久亚洲综合| 97欧洲一区二区精品免费| 无码一区二区三区| 日韩经典第一页| 欧美aaaaa性bbbbb小妇| 免费亚洲一区二区| 免费日韩av片| 免费黄色片网站| 欧美丝袜丝交足nylons| 亚洲免费视频一区二区三区| 国产一区二区在线播放| 一区二区三区午夜视频| gogo亚洲国模私拍人体| 亚洲高清免费视频| 四虎在线观看| 国产精品日韩在线播放| 日韩av有码| 妖精视频在线观看| 午夜精品久久久久久| 青青久草在线| 国产欧美中文字幕| 亚洲欧美综合| 久久亚洲AV成人无码国产野外 | 亚洲女人久久久| 欧美精品第1页| 免费毛片在线看片免费丝瓜视频 | 免费在线激情视频| 国产区在线观看成人精品| 在线观看亚洲黄色| 美乳少妇欧美精品| 欧美成a人免费观看久久| 亚洲成色www.777999| 亚洲人成精品久久久久久| 色一情一乱一区二区三区| 国产盗摄xxxx视频xxx69| 伊人色**天天综合婷婷| 国产情侣久久久久aⅴ免费| 一本一道波多野结衣一区二区| 日本高清视频在线| 国产成+人+综合+亚洲欧洲 | 久久精品国产免费| 久久久一二三区| 亚洲免费电影在线观看| 精品麻豆剧传媒av国产九九九| 一区二区三区免费看| 丁香桃色午夜亚洲一区二区三区| 久久精品一区二区三区四区五区| 在线日韩av片| 日本片在线观看| 日韩精品一区二区三区丰满| 国产精品88888| 中文字幕自拍偷拍| 97av在线视频| 欧美二区视频| 长河落日免费高清观看|