精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型也需要自我反思,上海AI Lab合成“錯(cuò)題本”讓大模型數(shù)學(xué)成績(jī)提升13.3%

人工智能
作者通過(guò)深入分析模型犯下的錯(cuò)誤,構(gòu)建了“錯(cuò)誤-糾正”數(shù)據(jù)集,并利用反思機(jī)制,引導(dǎo)模型從錯(cuò)誤的思路平滑過(guò)渡到正確的答案。結(jié)果,模型不僅獲得了準(zhǔn)確率的提升,還獲得了超強(qiáng)的自主糾錯(cuò)能力和泛化能力。

大模型學(xué)習(xí)不僅要正確知識(shí),還需要一個(gè)“錯(cuò)題本”?

上海AI Lab提出了一種新的學(xué)習(xí)方式,構(gòu)建了“錯(cuò)誤-反思-修正”數(shù)據(jù),讓大模型仿照人類的學(xué)習(xí)模式,從錯(cuò)誤中學(xué)習(xí)、反思。

結(jié)果,在Llama3-8B上,數(shù)學(xué)題的解題準(zhǔn)確率平均提升了13.3%。

圖片圖片

這種方法名為L(zhǎng)EMMA(Learning from Errors for Mathematical Advancement),專門教大模型如何從錯(cuò)誤中學(xué)習(xí)。

作者通過(guò)深入分析模型犯下的錯(cuò)誤,構(gòu)建了“錯(cuò)誤-糾正”數(shù)據(jù)集,并利用反思機(jī)制,引導(dǎo)模型從錯(cuò)誤的思路平滑過(guò)渡到正確的答案。

結(jié)果,模型不僅獲得了準(zhǔn)確率的提升,還獲得了超強(qiáng)的自主糾錯(cuò)能力和泛化能力。

相關(guān)論文已發(fā)表于ACL’25 Findings。

圖片圖片

用教師模型生成“錯(cuò)題本”

作者首先系統(tǒng)分析了當(dāng)前主流大模型在數(shù)學(xué)題中常見的七大類錯(cuò)誤(如題意誤解、公式混淆、計(jì)算失誤等),發(fā)現(xiàn)這些錯(cuò)誤在不同模型之間分布非常一致。

結(jié)果顯示,大模型犯下最多的錯(cuò)誤是誤解題意,占比超過(guò)40%,隨后的兩張常見錯(cuò)誤類型是公式混淆和計(jì)算錯(cuò)誤。

圖片圖片

了解了模型都會(huì)犯哪些錯(cuò)誤,接下來(lái)就可以有針對(duì)性地生成數(shù)據(jù)了。

過(guò)去,整個(gè)過(guò)程往往通過(guò)提高采樣Temperature(如T=1.0或T=1.1)來(lái)完成。

但作者發(fā)現(xiàn)高Temperature采樣會(huì)引入大量無(wú)意義的(如語(yǔ)義不通、毫無(wú)邏輯)錯(cuò)誤,這種錯(cuò)誤實(shí)際上是模型不會(huì)犯的。

作者認(rèn)為,這種“已讀亂回”式的錯(cuò)誤,難以讓模型真正提升自我糾錯(cuò)能力。

圖片圖片

為此,LEMMA采用了新的方法,讓教師模型定向制造“學(xué)生會(huì)犯的錯(cuò)”,構(gòu)造“反思式”數(shù)據(jù):

具體來(lái)說(shuō),LEMMA提出了一種全新的反思數(shù)據(jù)構(gòu)造策略,主要包括三個(gè)環(huán)節(jié):

  • 首先,分析學(xué)生模型常犯哪些錯(cuò)(如題意誤解、公式誤用、計(jì)算失誤);
  • 然后讓強(qiáng)大的教師模型(GPT-4o),根據(jù)學(xué)生模型在每個(gè)問(wèn)題上的錯(cuò)誤類型,有針對(duì)性地故意引入特定錯(cuò)誤;
  • 之后,教師模型還會(huì)標(biāo)出第一個(gè)錯(cuò)誤發(fā)生的步驟,并生成反思和改正,確保模型學(xué)會(huì)“及時(shí)反思”。

在反思和改正階段:LEMMA采用了兩種更貼近人類思維的糾錯(cuò)方式——一是返回上一步,二是直接推倒重來(lái)。

引入第二種修正方式的原因在于,作者發(fā)現(xiàn)大模型在有的題目上出錯(cuò)的根本原因,是一開始就選擇了低效的暴力解法,這樣即使修正了某個(gè)中間的錯(cuò)誤步驟,也會(huì)在后續(xù)的推理中犯錯(cuò),不如從頭開始選擇更“聰明”的解法。

總的來(lái)說(shuō),LEMMA構(gòu)建的是“有目標(biāo)、有指導(dǎo)、有反饋”的錯(cuò)誤數(shù)據(jù),讓模型能像學(xué)生一樣反思:“我錯(cuò)在哪?應(yīng)該怎么改?”

圖片圖片

實(shí)驗(yàn)結(jié)果

對(duì)比多種主流反思修正方法,優(yōu)勢(shì)明顯。

作者對(duì)比了包括RefAug、RFT,ISC、S3C-Math在內(nèi)的八種主流baseline方法。

結(jié)果表明,LEMMA在常見的數(shù)學(xué)任務(wù)上正確率更高,在Llama3-8B上準(zhǔn)確率提升了最高達(dá)13.3%。

圖片圖片

并且,LEMMA有效提升了模型的反思和自我修正能力。

在MathChat任務(wù)中,LEMMA在“追問(wèn)回答”和“錯(cuò)誤修正”兩大任務(wù)上領(lǐng)先SOTA方法(Dart-MATH)多達(dá)6.3和4.1個(gè)百分點(diǎn)。

圖片圖片

同時(shí),LEMMA也顯著減少了模型的常見錯(cuò)誤。

在生成的數(shù)據(jù)上進(jìn)行微調(diào)之后,LEMMA一致地降低了各種錯(cuò)誤類型,提升模型推理精度。

相比之下,SFT雖然整體準(zhǔn)確率提升,但卻在某些錯(cuò)誤類型(如公式混淆)上反而變差。

圖片圖片

另外,作者進(jìn)行的消融實(shí)驗(yàn)也充分驗(yàn)證了“教師模型錯(cuò)誤引入(Error Aug.)”和“從頭修正(Fresh & Restart)”兩個(gè)關(guān)鍵模塊的有效性。

圖片圖片

總之,LEMMA提出了一種讓大模型在數(shù)學(xué)推理中“從錯(cuò)誤中有效學(xué)習(xí)”的創(chuàng)新方法,提升了模型對(duì)推理錯(cuò)誤的識(shí)別與修復(fù)能力。

相比以往依賴高Temperature采樣和簡(jiǎn)單拼接的反思數(shù)據(jù)合成方式,LEMMA 顯著提高了“錯(cuò)誤-反思-修正”數(shù)據(jù)的質(zhì)量,提升了模型的數(shù)學(xué)推理能力。

論文地址:
https://arxiv.org/abs/2503.17439
代碼倉(cāng)庫(kù):
https://github.com/pzs19/LEMMA


責(zé)任編輯:武曉燕 來(lái)源: 量子位
相關(guān)推薦

2025-01-23 09:15:00

數(shù)據(jù)技術(shù)模型

2025-08-14 09:00:00

模型訓(xùn)練數(shù)據(jù)

2024-08-26 08:30:00

谷歌代碼

2025-04-08 00:40:00

谷歌合成數(shù)據(jù)大模型

2024-10-25 14:30:00

模型AI

2025-07-24 09:15:00

2025-06-24 08:50:00

模型數(shù)據(jù)AI

2024-05-09 08:33:33

2024-12-19 09:00:00

模型數(shù)學(xué)訓(xùn)練

2024-12-25 08:02:17

人工智能AI運(yùn)維

2024-07-01 20:45:55

2024-06-17 18:04:38

2023-05-10 14:40:40

AI模型算力

2025-10-13 07:58:56

2024-08-27 00:00:01

AI應(yīng)用框架

2023-09-14 12:35:59

2025-10-20 09:02:00

2023-08-03 10:59:49

人工智能

2024-06-19 16:11:22

2025-04-22 08:08:37

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

性猛交xxxx乱大交孕妇印度| 极品白嫩丰满美女无套| h视频在线免费观看| 国产毛片精品一区| 97久久精品国产| 国产交换配乱淫视频免费| 日韩免费在线电影| 午夜视频一区二区三区| 日本欧美色综合网站免费| 91资源在线视频| 夜久久久久久| 久久久精品网站| 天天插天天射天天干| 国产亚洲人成a在线v网站| 亚洲黄色av一区| 欧美日韩一区二区视频在线| 国产精品伦一区二区三区| 亚洲黄色在线| xvideos成人免费中文版| 天天躁日日躁狠狠躁av麻豆男男 | 久久综合精品国产一区二区三区 | av在线com| 国产在线一二三区| 国产成人午夜精品影院观看视频| 国产精品91视频| 国产性一乱一性一伧一色| 日韩精品永久网址| 日韩经典中文字幕在线观看| 在线观看日本www| 成人三级高清视频在线看| 国产亚洲精品精华液| 高清不卡日本v二区在线| 亚洲综合精品国产一区二区三区| 最新亚洲一区| 欧美另类高清videos| 中文天堂资源在线| 国产伦一区二区三区| 亚洲成人黄色在线观看| 手机看片国产精品| 日韩毛片免费视频一级特黄| 色综合激情五月| www.玖玖玖| 91www在线| 一区二区三区日韩精品视频| 一级黄色免费在线观看| 在线毛片网站| 国产精品视频一二三区| 欧美日韩国产综合视频在线| 四虎精品在线| 99久久综合精品| 国产在线精品一区| 男人的天堂a在线| 国产成人免费视频一区| 91九色露脸| 国产精品久久影视| 美女国产一区二区| 国产精品免费一区豆花| 中文字幕二区三区| 久久激情综合网| 91精品久久久久久久久久久久久| 中文字幕在线网站| 韩国一区二区视频| 亚洲一区二区久久久久久久| 99精品在线看| 国产成人av福利| 国产精品一区在线播放| 天天干天天爱天天操| 成人avav影音| 蜜桃麻豆91| av电影在线播放高清免费观看| 国产欧美日韩久久| 国产奶头好大揉着好爽视频| 黄色一级大片在线免费看产| 亚洲乱码中文字幕综合| av 日韩 人妻 黑人 综合 无码| 91精品久久| 亚洲成av人片观看| 日本一本二本在线观看| 欧亚一区二区| 欧美一区午夜精品| 色婷婷精品久久二区二区密| 宅男在线一区| xxx欧美精品| 久久精品99久久久久久| 夜夜嗨av一区二区三区网站四季av| 欧美综合激情网| 国产一区二区网站| 成人免费视频网站在线观看| 欧美日韩精品中文字幕一区二区| 国产大片在线免费观看| 亚洲精品伦理在线| 老太脱裤让老头玩ⅹxxxx| 欧美大电影免费观看| 88在线观看91蜜桃国自产| 不许穿内裤随时挨c调教h苏绵| 色婷婷久久久| 久热精品视频在线观看一区| 日本视频www| 免费高清在线一区| 国产伦理久久久| av每日在线更新| 亚洲成人av电影在线| 动漫av免费观看| 91精品久久久久久综合五月天| 日韩精品久久久久久久玫瑰园| 日本裸体美女视频| 国产精品入口| 亚洲a在线观看| 免费一级在线观看| 亚洲宅男天堂在线观看无病毒| 男女视频一区二区三区| www.久久东京| 日韩在线播放视频| 欧美特黄aaaaaa| 国产成人综合亚洲网站| 日韩videos| 999福利在线视频| 91精品国产入口| 在线观看国产精品一区| 尤物精品在线| 91久久精品国产| 电影在线一区| 欧美色播在线播放| av天堂一区二区| 先锋资源久久| 国产精品黄视频| 日韩一区二区三区中文字幕| 一区二区三区在线免费视频| 天天色综合天天色| 欧美禁忌电影| 777精品视频| 蜜臀av免费在线观看| 亚洲欧美偷拍卡通变态| 亚洲欧美自拍另类日韩| 国产一区二区观看| 992tv在线成人免费观看| 国产福利免费视频| 亚洲欧洲日产国码二区| 亚欧在线免费观看| 精品日产免费二区日产免费二区| 91黄色8090| 性xxxxbbbb| 午夜免费久久看| 久久人妻少妇嫩草av蜜桃| 亚洲色图插插| 91在线网站视频| 巨大荫蒂视频欧美另类大| 欧美亚洲综合色| 阿v天堂2014| 日韩国产欧美在线观看| 日韩高清三级| 视频精品导航| 日韩中文字幕欧美| 国产精品玖玖玖| 亚洲精品v日韩精品| 日韩精品在线播放视频| 欧美一区成人| 99视频在线播放| 俺来也官网欧美久久精品| 精品国产乱码久久久久久浪潮 | 国产精品草草| 国产精品久久波多野结衣| 女人黄色免费在线观看| 亚洲成人av中文字幕| 日韩女优在线观看| www国产精品av| 男人搞女人网站| 欧美日韩国产高清电影| 成人福利网站在线观看11| 美女av在线播放| 欧美一区二区日韩一区二区| 午夜剧场免费在线观看| 国产成人午夜高潮毛片| a天堂资源在线观看| 国内精品国产成人国产三级粉色| 97人人模人人爽人人喊中文字| 日本人妖在线| 欧美日韩中文精品| www.毛片com| 99国产精品国产精品毛片| 草草草在线视频| 午夜精品一区二区三区国产 | 91精品国产91| av午夜在线| 日韩欧美你懂的| 毛片基地在线观看| 国产精品美女一区二区三区| 国产黄色一区二区三区| 午夜亚洲性色视频| 99精品视频网站| 久久久久97| 国产精品日韩精品| 黄页网站在线观看免费| 亚洲天堂一区二区三区| 99久久免费国产精精品| 疯狂做受xxxx欧美肥白少妇| 亚洲一二三四五六区| 不卡一卡二卡三乱码免费网站| 成年人免费在线播放| 亚洲精品电影| 欧美色图亚洲自拍| 亚洲精品黑牛一区二区三区| 日韩免费观看av| 欧美大胆的人体xxxx| 伊人久久久久久久久久久| 免费国产精品视频| 3d成人动漫网站| www.欧美色| 亚洲成人动漫精品| 999精品在线视频| 91丨porny丨国产| 男人操女人下面视频| 久久天堂成人| 五十路熟女丰满大屁股| 亚洲五月综合| 亚洲欧洲国产日韩精品| 乱亲女h秽乱长久久久| 成人午夜在线视频一区| 欧美xxxx做受欧美护士| 久久久久久久久爱| 精品美女在线观看视频在线观看| 亚洲美女激情视频| 蜜臀久久99精品久久久| 欧美一区二区三区四区高清| 国产成人自拍偷拍| 天天色综合成人网| 国产亚洲精品码| 亚洲欧美国产毛片在线| 国产7777777| 久久久久久久久99精品| 欧类av怡春院| 国产+成+人+亚洲欧洲自线| 亚洲欧美日本一区二区| 日韩av中文字幕一区二区三区| 国产一区二区视频播放| 伊人狠狠色j香婷婷综合| 糖心vlog在线免费观看| 999精品在线| 一级做a爰片久久| 欧美中文一区二区| 日韩精品欧美一区二区三区| 一区二区美女| 牛人盗摄一区二区三区视频| 日韩高清三区| 美脚丝袜一区二区三区在线观看| 好吊妞视频这里有精品| 国产九色91| 韩国三级成人在线| 亚洲bt天天射| 日韩区欧美区| 电影午夜精品一区二区三区 | 精品乱人伦小说| 亚洲国产精品视频在线| 精品久久久久久久久久久院品网 | 日韩国产一二三区| 国产中文日韩欧美| 国产午夜精品一区在线观看| 91免费的视频在线播放| 精品视频一二| 国产高清精品一区| 免费成人蒂法| 欧美一区二区三区精美影视| 成人在线电影在线观看视频| 亚洲精品自在在线观看| 99久久夜色精品国产亚洲1000部| 国产系列第一页| 欧美日韩一视频区二区| 成人在线国产视频| 久久国产一二区| 污版视频在线观看| 国产精品一级黄| 玖玖爱在线精品视频| 久久久一区二区三区| 日韩av片在线免费观看| 一区二区三区日韩精品视频| 五月天婷婷网站| 日本丶国产丶欧美色综合| 一级全黄少妇性色生活片| 欧美成人官网二区| 狠狠色伊人亚洲综合网站l| 中文字幕久精品免费视频| 欧美日韩在线看片| 午夜精品久久久久久久白皮肤| 午夜影视一区二区三区| 国产精品自产拍在线观看中文| 精品精品视频| 欧美日韩另类综合| 午夜精品av| 国产淫片免费看| 久久精品国产免费| 好男人香蕉影院| 中文字幕不卡的av| 国产主播在线播放| 欧美制服丝袜第一页| 精品国产无码AV| 亚洲少妇中文在线| 黄色美女视频在线观看| 国产国语videosex另类| 亚洲日本视频在线| 欧美一区二区影视| 欧美黄在线观看| 亚洲色精品三区二区一区| 国产99久久精品| 女人黄色一级片| 狠狠操狠狠色综合网| 97人妻精品一区二区三区视频| 亚洲成人av片在线观看| 免费a在线看| 欧美一区第一页| 伊人久久噜噜噜躁狠狠躁| 亚洲精品9999| 亚洲中字在线| 黄色av电影网站| 中文字幕一区二区三区四区不卡| 美日韩一二三区| 日韩欧美激情四射| 久久久久久久久免费视频| 亲子乱一区二区三区电影| 凹凸av导航大全精品| 在线视频不卡一区二区| 美女被久久久| a级一a一级在线观看| 亚洲免费观看在线视频| 伊人久久国产精品| 国产一区二区三区网站| 偷拍自拍在线看| 国产午夜精品在线| 欧美日韩国产色综合一二三四| 日韩中文字幕a| 欧美激情一区二区三区全黄| 久久久久久久久久久久久av| 精品国产免费一区二区三区香蕉| 成人黄视频在线观看| 国产色综合天天综合网 | 中国人与牲禽动交精品| 久久久久久久| 蜜桃狠狠色伊人亚洲综合网站| 国产亚洲综合精品| 亚洲一区二区三区综合| 亚洲国产精品一区二区www| 朝桐光av在线一区二区三区| 久久精品国产99国产精品澳门| 欧美性suv| 热舞福利精品大尺度视频| 亚洲欧美日本国产专区一区| 久久一区二区电影| 欧美日韩国产区| 青青操视频在线| 国产99视频精品免视看7| 最新精品国偷自产在线| 日本在线观看a| 久久精品视频网| 91video| 亚洲欧洲免费视频| 亚洲www啪成人一区二区| 亚洲成人av动漫| 激情综合五月天| 亚洲一级生活片| 日韩精品一区二区三区蜜臀| 日本高清成人vr专区| 国产伦精品一区二区三区免| 99av国产精品欲麻豆| 国精产品一区一区三区免费视频 | 北条麻妃69av| 国产清纯白嫩初高生在线观看91 | 桃子视频成人app| 亚洲国产欧美不卡在线观看| 美女脱光内衣内裤视频久久影院| 91制片厂在线| 日韩一级黄色片| 国产精品蜜芽在线观看| 欧美大香线蕉线伊人久久国产精品 | 国产午夜精品全部视频播放| 青青伊人久久| xxxx18hd亚洲hd捆绑| 国产欧美一区二区三区鸳鸯浴| 一级aaaa毛片| 国内精品模特av私拍在线观看| 免费视频一区三区| xxx中文字幕| 黑人狂躁日本妞一区二区三区 | 嫩草影院一区二区| 国产成人精品最新| 欧美a级在线| 88久久精品无码一区二区毛片| 欧美精品在线观看一区二区| 182在线播放| 夜夜爽www精品| 99久久精品国产毛片| 一本到在线视频| 亚洲2020天天堂在线观看| 日韩在线欧美| 国产一级二级视频| 欧美精品tushy高清| 欧产日产国产精品视频| 丰满女人性猛交| 国产欧美一区二区三区沐欲| 亚洲AV无码国产精品午夜字幕| 国产国语videosex另类| 国内自拍一区|