精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

北大千問團(tuán)隊(duì)推出數(shù)學(xué)專用版CriticGPT,“找茬”讓大模型進(jìn)步更快

人工智能 新聞
在無需訓(xùn)練的設(shè)置下,驗(yàn)證器能夠在推理時(shí)輔助模型在GSM8K上的準(zhǔn)確率從86.6%提升到88.2%。

批評(píng)不僅能讓人進(jìn)步,也能讓大模型的能力提升。

OpenAI就用這個(gè)思路造了個(gè)“找茬模型”CriticGPT。非常巧合的是,就在CriticGPT放出的前幾天,北大聯(lián)合千問等團(tuán)隊(duì)以類似的思路設(shè)計(jì)出了“數(shù)學(xué)專用版”CriticGPT。

在無需訓(xùn)練的設(shè)置下,驗(yàn)證器能夠在推理時(shí)輔助模型在GSM8K上的準(zhǔn)確率從86.6%提升到88.2%。

在GSM8K數(shù)據(jù)集上,它可以讓模型的準(zhǔn)確率從86.6%提升到88.2%。

圖片

CriticGPT的核心思路是在代碼中故意設(shè)置bug并進(jìn)行詳細(xì)標(biāo)注,然后用得到的數(shù)據(jù)訓(xùn)練出會(huì)debug的模型。

北大團(tuán)隊(duì)發(fā)現(xiàn),這種方法不僅在代碼當(dāng)中有用,也能幫助語言模型解決數(shù)學(xué)問題

于是團(tuán)隊(duì)利用相似的思路,把代碼換成數(shù)學(xué)問題,推出了“數(shù)學(xué)版CriticGPT”——Math-Minos

用GPT4逐步提出修正意見

在數(shù)學(xué)推理領(lǐng)域,驗(yàn)證解決方案的正確性,是確保推理質(zhì)量的關(guān)鍵步驟。

然而,現(xiàn)有的數(shù)學(xué)驗(yàn)證器大多依賴于二元分類標(biāo)簽進(jìn)行訓(xùn)練,這種方式在提供正確或錯(cuò)誤原因的解釋上存在明顯不足,無法給驗(yàn)證器提供足夠充分的監(jiān)督信號(hào)來訓(xùn)練。

Math-Minos則克服了這一局限,提供了更深入的解釋,極大地豐富了驗(yàn)證器的訓(xùn)練信息。

它引入了逐步的自然語言反饋作為理由標(biāo)簽,不僅指出了解決方案的正誤,還能逐步分析出錯(cuò)誤的原因。

圖片

在自然語言反饋的獲取上,研究團(tuán)隊(duì)一開始使用GPT-4生成訓(xùn)練數(shù)據(jù),但通過實(shí)驗(yàn)發(fā)現(xiàn),即使是GPT-4,在逐步評(píng)價(jià)數(shù)學(xué)推理任務(wù)時(shí)也會(huì)出現(xiàn)一定比例的錯(cuò)誤。

為了一定程度避免這個(gè)問題,研究人員通過在提示中引入步驟級(jí)別的二元分類標(biāo)簽,簡化了GPT-4的任務(wù),使得GPT-4能夠更準(zhǔn)確地生成評(píng)估。

圖片

 首先,通過監(jiān)督式微調(diào),使用自然語言反饋?zhàn)鳛橛?xùn)練數(shù)據(jù),有效提升了模型的評(píng)估能力。

其次,通過標(biāo)準(zhǔn)的ORM(Outcome Reward Model,輸出獎(jiǎng)勵(lì)模型)和PRM(Process Reward Model,過程獎(jiǎng)勵(lì)模型)訓(xùn)練,實(shí)現(xiàn)了高效的推理,這種做法有兩個(gè)好處。

一是通過兩階段訓(xùn)練,可以將二分類數(shù)據(jù)和監(jiān)督微調(diào)數(shù)據(jù)解耦。

由于監(jiān)督信號(hào)的稀疏性,訓(xùn)練二分類的數(shù)據(jù)往往遠(yuǎn)多于監(jiān)督微調(diào)的數(shù)據(jù),而研究發(fā)現(xiàn),僅需要少量的監(jiān)督微調(diào)數(shù)據(jù),就可以很大程度提升模型的評(píng)估能力

另一方面,在驗(yàn)證器進(jìn)行驗(yàn)證時(shí),不需要顯示地生成自然語言反饋,讓推理過程更高效。

圖片

ORM任務(wù)表現(xiàn)明顯提升

總得來看,研究人員在訓(xùn)練階段添加了30K的自然語言反饋數(shù)據(jù),為Mistral-7B驗(yàn)證器帶來了數(shù)學(xué)能力的提升,在Best-of-256的實(shí)驗(yàn)設(shè)置下:

在ORM的設(shè)置下,MATH-Minos將Mistral-7B的準(zhǔn)確率在GSM8K數(shù)據(jù)集從86.2%提升到87.3%,在MATH數(shù)據(jù)集從35.9%提升到37.4%。

在PRM的設(shè)置下,MATH-Minos將Mistral-7B的準(zhǔn)確率在GSM8K數(shù)據(jù)集從87.1%提升到87.6%,在MATH數(shù)據(jù)集從36.7%提升到37.8%。

在與Self-Consistency結(jié)合的設(shè)置下,MATH-Minos將Mistral-7B的準(zhǔn)確率在GSM8K數(shù)據(jù)集從87.1%提升到88.2%,在MATH數(shù)據(jù)集從37.8%提升到38.6%。

在ORM和PRM任務(wù)設(shè)置中,Math-Minos均展現(xiàn)出了優(yōu)越的性能,特別是在ORM設(shè)置中,其改進(jìn)更為顯著。

圖片

另外,研究團(tuán)隊(duì)還對(duì)生成器在步驟級(jí)別產(chǎn)生的錯(cuò)誤進(jìn)行了深入分析,將其歸類為五種類型——無關(guān)錯(cuò)誤、累積錯(cuò)誤、計(jì)算錯(cuò)誤、邏輯錯(cuò)誤和其他錯(cuò)誤。

分析結(jié)果表明,在多步驟推理中,步驟錯(cuò)誤的可能原因有很多種,而且模型在這些錯(cuò)誤類型中都有可能出錯(cuò),這進(jìn)一步強(qiáng)調(diào)了引入自然語言反饋來指導(dǎo)模型學(xué)習(xí)的重要性。

實(shí)驗(yàn)發(fā)現(xiàn),在兩個(gè)數(shù)據(jù)集上,累積錯(cuò)誤(即一個(gè)步驟的錯(cuò)誤很可能直接導(dǎo)致所有后續(xù)步驟的錯(cuò)誤)在所有錯(cuò)誤類型中占到的比例最高。

不同數(shù)據(jù)集上的錯(cuò)誤分布也有不同的特點(diǎn),在相對(duì)簡單的GSM8K上,計(jì)算錯(cuò)誤更多;在更困難的MATH數(shù)據(jù)集上,邏輯錯(cuò)誤更多。

圖片

通過構(gòu)建元評(píng)估集,研究團(tuán)隊(duì)評(píng)估了驗(yàn)證器在沒有生成器影響下,準(zhǔn)確判斷最終答案的能力。

結(jié)果顯示,Math-Minos在訓(xùn)練過程中的元評(píng)估一致優(yōu)于傳統(tǒng)的ORM,并且展現(xiàn)出更快的收斂速度和更精準(zhǔn)的判斷能力。

圖片

同時(shí)實(shí)驗(yàn)結(jié)果也表明,Math-Minos具有很強(qiáng)的Scale Up的潛力。

圖片

總之,Math-Minos的開發(fā)不僅提升了數(shù)學(xué)驗(yàn)證器的性能,更為自然語言處理領(lǐng)域提供了一種新的訓(xùn)練范式。

研究團(tuán)隊(duì)希望這項(xiàng)工作能夠啟發(fā)未來研究,探索自然語言反饋與分類式驗(yàn)證器的潛在整合,推動(dòng)大型語言模型在復(fù)雜推理任務(wù)上的能力。

論文地址:https://arxiv.org/abs/2406.14024
GitHub:https://github.com/KbsdJames/MATH-Minos

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2012-02-13 10:12:57

Ubuntu發(fā)布

2009-01-11 09:48:07

微軟Windows 7版本

2023-08-24 14:27:00

AI模型

2012-01-03 23:52:49

拯救行動(dòng)III專用版操作系統(tǒng)Fedora16

2024-08-09 12:50:02

2024-04-30 14:11:00

訓(xùn)練模型

2009-10-20 16:32:17

2023-09-14 13:10:48

2023-04-07 14:01:18

ChatGPT人工智能

2024-01-15 06:30:00

模型AI

2024-07-08 08:38:00

模型推理

2024-12-26 16:44:27

2023-12-04 09:55:58

AI大模型

2023-08-03 19:11:45

2023-03-31 09:30:21

ChatGPT論文

2025-02-18 09:10:00

2024-02-06 10:55:47

2025-11-07 08:50:00

2023-04-11 13:40:22

阿里云大模型通義千問
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

久久久久久久久久久99999| 波多野结衣欧美| 欧美激情一区二区三区| 成人h猎奇视频网站| 人妻人人澡人人添人人爽| 成人香蕉社区| 欧美性videosxxxxx| 99久久久无码国产精品性色戒| 高潮一区二区三区乱码| 日韩高清在线一区| 欧美国产精品va在线观看| 国产ts丝袜人妖系列视频| 亚洲精品成a人ⅴ香蕉片| 亚洲大片精品永久免费| 亚洲精品一品区二品区三品区| 国产suv一区二区| 99国产精品久久久久久久| 色999日韩欧美国产| 亚洲一区二区在线免费| 久久精品资源| 一本一本久久a久久精品综合麻豆| 青青草免费在线视频观看| 欧美日韩免费做爰大片| 国产精品18久久久久久久久| 国产精品爱久久久久久久| 久久久美女视频| 97精品国产| 亚洲男人天堂视频| 精品久久久久一区二区| 天堂久久一区| 在线观看亚洲专区| 自拍日韩亚洲一区在线| 伊人影院在线视频| 国产精品久久久久影视| 日本午夜一区二区三区| 四季av日韩精品一区| 国产精品一区二区视频| 国产精品视频精品| jizz国产在线观看| 国产一区二区你懂的| 色中色综合影院手机版在线观看| 顶级黑人搡bbw搡bbbb搡| 国产影视一区| 亚洲精品一二区| 久久久久成人精品无码中文字幕| 99久久人爽人人添人人澡| 欧美美女一区二区| 亚洲精品久久久久久宅男| 性欧美1819sex性高清| 福利一区视频在线观看| 欧美视频在线播放一区| 国模精品视频| 精品色蜜蜜精品视频在线观看| 日韩黄色片在线| av电影免费在线观看| 亚洲欧美国产毛片在线| 日本女人高潮视频| 2024短剧网剧在线观看| 亚洲狠狠丁香婷婷综合久久久| 日本xxx免费| 国产在线观看a视频| 日韩久久一区二区| 91社在线播放| 三级资源在线| 午夜精品久久久久久久蜜桃app| 男人添女人荫蒂免费视频| 国产精品国精产品一二| 午夜不卡av在线| 国产91在线视频观看| 亚洲黄色免费av| 欧美亚洲国产一区在线观看网站| 亚洲成人福利在线观看| 久久久久久一区二区三区四区别墅| 欧美性大战久久| 亚洲在线观看网站| 91国内精品| 日韩黄在线观看| 人妻丰满熟妇av无码久久洗澡| 一区二区导航| xxxxx91麻豆| 精品无码av在线| 亚洲欧美日本日韩| 国产日韩在线播放| 免费观看黄一级视频| 久久亚洲精华国产精华液| 亚洲a∨一区二区三区| 黄色av网站在线播放| 亚洲一区二区精品久久av| 欧美精品色婷婷五月综合| 欧亚一区二区| 91精品国产欧美一区二区| 国产国语老龄妇女a片| 日韩黄色网络| 自拍偷拍亚洲在线| 精品深夜av无码一区二区老年| 午夜影院日韩| 1卡2卡3卡精品视频| 青青国产在线| 亚洲激情第一区| www.日日操| 超碰97久久国产精品牛牛| 一区二区欧美在线| 黄网站免费在线| 青青草精品视频| 成人在线免费网站| 9色在线观看| 午夜激情综合网| 天美星空大象mv在线观看视频| 中文字幕一区二区三区四区久久| 亚洲欧洲一区二区三区久久| 欧美黑吊大战白妞| 天堂蜜桃一区二区三区| 国产精品一区二区三区观看| 1769视频在线播放免费观看| 精品欧美一区二区三区| 中文 日韩 欧美| 国精一区二区| 国产91精品久久久久久| 精品国自产在线观看| 国产偷v国产偷v亚洲高清| 欧日韩免费视频| 亚洲欧洲二区| 一本色道久久88综合亚洲精品ⅰ| 日本少妇性高潮| 国产精品一区二区在线观看网站 | 欧美日韩国产一区二区在线观看| 亚洲美女自拍视频| 久久亚洲精品大全| 久久精品国产久精国产| 欧洲精品亚洲精品| 国产精品一二三产区| 欧美mv日韩mv国产| 欧美老熟妇一区二区三区| 麻豆精品新av中文字幕| 欧美亚洲免费高清在线观看| 极品视频在线| 亚洲第一黄色网| 国产在线观看免费视频今夜| 国产成人精品免费| 特大黑人娇小亚洲女mp4| 亚洲视频资源| 日韩最新在线视频| 91资源在线视频| 国产精品久久久一区麻豆最新章节| 亚洲男人天堂色| av资源久久| 日本人成精品视频在线| 日韩一区av| 日本高清免费不卡视频| 小早川怜子久久精品中文字幕| 午夜在线一区| 欧美另类视频在线| 国精产品一区一区三区四川| 揄拍成人国产精品视频| 中文字幕欧美色图| 国产精品理论片在线观看| 一区二区三区欧美精品| 91精品国产91久久综合| 91久久国产综合久久91精品网站| 国产在线1区| 日韩一区二区电影网| 麻豆changesxxx国产| 成人性色生活片| 九九九九免费视频| 你微笑时很美电视剧整集高清不卡 | 色婷婷av一区二区三区软件| 亚洲精品成人无码| 美女诱惑一区二区| 永久免费网站视频在线观看| 一区二区三区视频免费视频观看网站 | 国产精品一二三区在线观看| 蜜桃久久久久久| 欧洲美女和动交zoz0z| 99国产精品久久一区二区三区| 18久久久久久| 99re在线视频| 日韩一区二区三区电影在线观看| 国产亚洲精品av| 91免费视频大全| 男女无套免费视频网站动漫| 国产精品国产三级国产在线观看| 成人片在线免费看| 精品国产免费人成网站| 久久激情五月丁香伊人| 黑人乱码一区二区三区av| 一本一本大道香蕉久在线精品 | 精品国产成人在线| 小早川怜子久久精品中文字幕| 国产在线视频一区二区| 欧美久久久久久久久久久久久| 精品日韩免费| 97中文在线观看| 电影亚洲精品噜噜在线观看| 久久午夜a级毛片| 五月色婷婷综合| 9191精品国产综合久久久久久| 日韩精品国产一区二区| 中文字幕亚洲不卡| 亚洲乱码国产乱码精品精大量| 久久99精品国产麻豆不卡| 精品少妇人妻av免费久久洗澡| 欧美电影免费| 久久综合狠狠综合久久综青草| 日韩毛片网站| 国产97色在线| 欧美大片黄色| 中文字幕亚洲自拍| 网站黄在线观看| 91精品国产综合久久婷婷香蕉| www.伊人久久| 一区二区三区美女| 精品一区二区6| 2021中文字幕一区亚洲| 黑人无套内谢中国美女| 免费久久99精品国产| 欧美在线观看成人| 欧美亚韩一区| 裸体裸乳免费看| 欧美手机视频| 欧美日韩一区在线观看视频| av成人男女| 91传媒视频免费| 中韩乱幕日产无线码一区| 91av视频在线播放| 97人人在线视频| 欧美激情免费在线| 中文字幕有码在线视频| 日韩在线观看成人| h视频在线免费| 亚洲精品自在久久| 五月婷中文字幕| 亚洲成人久久久久| 性一交一乱一伧老太| 欧美一区二区三区小说| 国产精品毛片一区二区在线看舒淇 | 日韩专区视频| 国产九九精品视频| 视频精品导航| 国产精品成人av性教育| xx欧美视频| 日本高清不卡的在线| 巨茎人妖videos另类| 日韩男女性生活视频| 成人免费直播| 欧美自拍视频在线观看| 英国三级经典在线观看| 欧美中文在线免费| 玛雅亚洲电影| 国产精品国内视频| 日韩另类视频| 国产日韩精品综合网站| 亚洲高清国产拍精品26u| 成人网页在线免费观看| 91丨精品丨国产| 亚洲bt欧美bt日本bt| 日韩精品免费视频一区二区三区| av一本久道久久波多野结衣| 91精品导航| 久久99欧美| 欧美限制电影| 在线视频欧美一区| 中文在线日韩| 国产中文字幕二区| 久久精品一区二区三区中文字幕| 激情五月婷婷久久| 久久99久久99小草精品免视看| 波多野结衣在线免费观看| 国产精品自在欧美一区| 成人免费看片载| 久久久www免费人成精品| 色噜噜噜噜噜噜| 一区二区三区自拍| 日韩黄色一级大片| 欧洲亚洲精品在线| 国产美女免费视频| 亚洲成色777777女色窝| 成人高清在线| 免费91麻豆精品国产自产在线观看| 2021天堂中文幕一二区在线观| 欧美在线视频观看| 日本黄色成人| 国产精品视频入口| 激情婷婷综合| 国产精品日韩三级| 裸体素人女欧美日韩| 国产一区二区在线免费播放| 国产精品中文字幕一区二区三区| av2014天堂网| 国产精品第四页| 日韩男人的天堂| 欧美日精品一区视频| 国产 欧美 自拍| 一区二区三区日韩在线| 青春草在线视频| 国产精品久久电影观看| 成人中文字幕视频| 亚洲一卡二卡区| 99精品国产99久久久久久福利| 高清av免费看| 99re8在线精品视频免费播放| 女同久久另类69精品国产| 午夜精品久久久久久久99樱桃| 91成人一区二区三区| 日韩精品在线观看视频| 最新国产在线拍揄自揄视频| 国产精品成人一区二区三区吃奶| 136国产福利精品导航网址应用| 视频一区二区三区在线观看| 日韩午夜精品| 可以看的av网址| 国产精品电影一区二区| 综合网在线观看| 亚洲国产成人精品女人久久久| 老司机99精品99| 国产精品极品在线| 在线观看免费黄视频| 亚洲欧美激情诱惑| 国产亚洲在线播放| 日本免费不卡视频| 日韩有码在线播放| 都市激情亚洲综合| 国产一区二区三区四区hd| 婷婷综合五月| 欧在线一二三四区| 不卡影院免费观看| 欧美成欧美va| 在线成人av网站| jyzzz在线观看视频| 欧美一级大片在线免费观看| 91精品啪在线观看国产爱臀| 中文字幕欧美日韩一区二区三区 | 日本wwwcom| 激情五月激情综合网| 麻豆视频免费在线播放| 欧美性猛交xxxx黑人猛交| 欧美一区二区三区成人片在线| 久久不射热爱视频精品| 99综合久久| 做爰高潮hd色即是空| 精品一区二区成人精品| 特级西西人体高清大胆| 色婷婷精品大在线视频| 国产网站在线播放| 国产精品ⅴa在线观看h| 红桃成人av在线播放| 久久99999| 国产精品美女久久久久aⅴ| 亚洲视屏在线观看| 中文字幕欧美国内| 狂野欧美性猛交xxxx| 一区二区免费在线观看| 九一九一国产精品| 中文字幕亚洲欧美日韩| 日韩一区二区在线免费观看| 成人免费在线| 99国产在线观看| 在线国产欧美| 国产精品1000部啪视频| 日韩欧美亚洲成人| 北岛玲一区二区三区| 国产精品视频yy9099| 伊人色**天天综合婷婷| 三上悠亚 电影| 性做久久久久久免费观看| 视频三区在线观看| 国产精品久久久久久久app| 日本久久综合| 制服丝袜中文字幕第一页| 一区二区视频免费在线观看| 色噜噜在线播放| 国产精品观看在线亚洲人成网| 91成人观看| 亚洲少妇18p| 欧美午夜免费电影| 91国内在线| 国产一区二区高清不卡| 视频一区欧美精品| 亚洲女人久久久| 精品av久久707| 二吊插入一穴一区二区| 一区二区免费在线视频| 成人激情免费网站| 日本一本在线观看| 久久国产精品久久久久| 亚洲免费专区| 亚洲一区二区偷拍| 精品久久久久久久久久ntr影视| 国产51人人成人人人人爽色哟哟| 亚洲综合小说区| 久久国产毛片| 欧洲猛交xxxx乱大交3| 精品伊人久久97| 国产视频一区二| 一本久道综合色婷婷五月| 亚洲激情在线激情| 成人在线免费视频| 国产乱码精品一区二区三区卡| 秋霞成人午夜伦在线观看| 亚洲一区欧美在线| 久久高清视频免费|