精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型邊推理邊糾錯,有可能做到嗎?這是ICML爆火的演講

人工智能 新聞
來自 Meta FAIR、CMU 和 MBZUAI 的葉添、徐子誠、李遠志、朱澤園團隊在最新的 arXiv 論文《語言模型物理學 Part 2.2:如何從錯誤中學習》中,通過可控實驗,探索了讓模型「邊推理邊糾錯」的可能性。

即便是最強大的語言模型(LLM),仍會偶爾出現推理錯誤。除了通過提示詞讓模型進行不太可靠的多輪自我糾錯外,有沒有更系統的方法解決這一問題呢?

來自 Meta FAIR、CMU 和 MBZUAI 的葉添、徐子誠、李遠志、朱澤園團隊在最新的 arXiv 論文《語言模型物理學 Part 2.2:如何從錯誤中學習》中,通過可控實驗,探索了讓模型「邊推理邊糾錯」的可能性。

他們在預訓練中加入大量「錯誤的推理」和「錯誤的糾正」,展示了這類數據可以提高語言模型的推理準確性(無需提示詞,無需多輪對話)。文章還深入探討了許多細節,例如(1)這種方法與 beam search 的區別,(2)如何準備此類數據,(3)是否需要對錯誤進行掩碼,(4)所需的錯誤數量,(5)此類數據是否可用于微調等。

圖片

圖 1

作者首先展示了一個 GPT-4o 通過提示詞和多輪對話進行糾錯的示例(圖 2),可以看到成功率不高,而且需要很長的對話才能完成糾錯。那么,如果模型最終能糾錯,為什么不在第一次犯錯時「立即收回并改正」呢?

圖片

圖 2:GPT-4o 通過提示詞和多輪對話進行糾錯的實例

為此,作者使用探針(probing)方法研究模型的內部工作機制。通過 Part 2.1 建立的 iGSM 數據集,作者發現當模型犯錯后,內部參數常常表現出「很后悔」的狀態,也就是說,模型可能已經知道自己犯了錯,但「覆水難收」。

那么,能否簡單地讓模型「后悔即重試(retry upon regret)」?即,通過額外訓練(如微調)得到一個檢測錯誤的模型,只要該模型判定當前步驟有錯,就立即退格回到上一步驟的末尾,再重新生成呢?

如圖 3 所示,作者進行了橫向對比。即便錯誤識別率超過 99%,這種重試方法在 iGSM 數據集上也只能將推理正確率提高 2%(雖然比 beam search 好)。作者總結了此方法的三個不足。

首先,對正確率提高有限,畢竟退格后,模型依然是隨機生成,并沒有用高級的方法改錯。其次,對錯誤識別率的要求很高(同等條件下,需要 100% 錯誤識別率才能將推理正確率提高 8%,但這太不現實)。最重要的是,這并不能降低模型生成文本的時間復雜度,因為依然需要一次次地重新生成。

圖片

圖 3

接下來,作者更換方法,在預訓練數據中加入大量的錯誤和糾正,例如「A=>B,哦我說錯了,應該是 A=>C」。那么,這能否提升模型的推理正確率呢?乍一看,這似乎不合理,因為增加錯誤的同時,模型豈不是被迫學習說錯誤的話(即 A=>B)?是否需要將錯誤部分(譬如「A=>B,哦我說錯了,應該是」這幾個字)通過掩碼(label masking)從訓練標簽中刪除?

答案是不需要。依然通過 iGSM 數據集,作者用控制變量法,橫向對比了諸多參數后得出若干結論(圖 4)。

例如,即便預訓練數據中的每道題目有 50% 的步驟包含錯誤,模型在測試階段并不會刻意犯錯(如使用 temp=0 生成時)。背后的原因與語言模型對語法的糾錯能力有關,具體可參見作者的另一篇 Part 1 論文,因此不需要對錯誤進行掩碼。更神奇的是,在合理范圍內,訓練集里的錯誤其實越多越好,例如包含 50% 錯誤的數據,比 10% 錯誤的數據在 iGSM 數據集上還能再提升推理正確率 4 個百分點。

圖 4

接下來,作者研究了包含「錯誤和糾正」的數據能否作為微調數據使用。這是個重要問題,因為現有的開源大模型可能并不具備很好的糾錯能力。如果我們制備了完美的錯誤糾正數據集,能否通過少量參數微調(如使用 LoRA 方法)讓現有模型學會糾錯?

答案是否定的。如圖 5 所示,作者嘗試了多種 LoRA 參數,發現最多只能將推理正確率從 78% 提高到 83%—— 甚至在大多數情況下,如 LoRA 的 rank 較小時,模型的正確率遠低于 78%。這說明「糾正錯誤」是一個高級能力,與模型的正常推理不同,需要大量參數變化才能實現。(這也合理,畢竟如果修改少量參數就能完成糾錯,那么讓模型「后悔即重試(圖 3)」恐怕早就能提高推理正確率了。)

相對而言,「錯誤識別」并不是高級能力,可以通過微量的 LoRA 微調學會。此外,通過 beam search 模型也能進行一定程度的重試,但對正確率的提升幾乎為零。綜合以上,作者認為,如果能制備優質的「錯誤和糾正」數據,應將此類數據放入預訓練數據集中,而不是等到微調時再使用。

圖 5

最后,作者研究了在實際生活中如何制備「錯誤和糾正」數據。目前為止,文章都在 iGSM 數據集上進行可控實驗,由于此數據集中的數學題滿足統一格式,可以隨意刪減拼接,制作無限量的錯誤和糾正數據。這太理想化了。現實生活中,有沒有辦法在不要求理解題目的基礎上生成一些「假錯誤」

作者對此做了一些初步嘗試。例如,通過將解題步驟中靠后的第 Y 步驟挪到前面作為第 X 步的假錯誤,然后用原本的第 X 步作為糾正。這一方法在 iGSM 數據集上也能顯著提升正確率(從 78% 到 91%),如圖 6 所示。

圖 6

據此,作者大膽預測,盡管未來的 LLM 可能不會直接在 iGSM 數據上進行訓練,但本文通過可控的對比試驗,研究了在通向 AGI 的道路上,我們需要對數據進行哪些修改和制備。

例如,利用像 Llama3-405B 這樣的模型來改寫數學題,在正確的解題步驟中插入許多錯誤 —— 甚至是簡單的假錯誤,也有望改變模型的答題方式。讓模型「邊推理邊糾錯」,而不是通過額外的提示詞被動糾錯,或許是一個新的思路。作者限于 GPU 限制,無法對如此方向做真實數據的大規模研究,但歡迎讀者沿著這一思路試試看。

最后,這篇 arXiv 論文是《語言模型物理學》系列作品中的 Part 2.2。此系列目前共 6 篇論文,在 ICML 2024 大會上做了 2 小時的演講,收獲諸多好評(圖 7)。有興趣了解整個系列作品的小伙伴,可以移步 https://www.bilibili.com/video/BV1Yw4m1k7nH

圖片

圖 7

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-08-05 10:20:00

LLM數據

2025-04-22 09:06:00

強化學習工具AI

2015-09-28 11:27:09

創業

2025-07-28 03:00:00

2025-06-05 03:00:00

AutoRefineRAGLLM

2023-04-21 10:33:42

2022-09-13 14:54:08

模型AI

2023-07-05 13:56:50

2023-06-28 09:41:07

機器狗

2024-08-19 09:42:00

模型MIT

2012-05-01 20:26:01

iPhone

2020-12-02 10:20:33

Docker命令Linux

2020-03-31 09:53:08

互聯網數據技術

2018-01-05 10:47:59

前端JavascriptWeb

2025-11-07 09:16:02

2025-03-11 08:50:00

2023-10-26 08:40:15

模型隱私推理

2025-05-16 08:44:01

2009-12-18 11:15:17

ADSL寬帶共享上網

2021-01-19 09:19:33

RPC調用過程框架
點贊
收藏

51CTO技術棧公眾號

在线观看福利片| 爱福利视频一区二区| hs视频在线观看| a91a精品视频在线观看| 亚洲视频在线看| 黄色aaaaaa| 欧美裸体视频| 18成人在线观看| 精品视频一区二区| 国产又粗又长又大视频| 最新成人av网站| 最近2019年中文视频免费在线观看| 夜夜爽久久精品91| 日韩电影大全网站| 亚洲在线免费播放| 色噜噜一区二区| 日韩在线观看视频网站| 毛片av一区二区| 4438全国成人免费| 欧美国产在线看| 欧美日韩色图| 日韩电影中文字幕av| 性欧美在线视频| 朝桐光一区二区| 午夜电影一区二区| 日韩精品第1页| 91激情在线| 91香蕉视频mp4| av在线不卡一区| 怡红院成永久免费人全部视频| 亚洲精品色图| 精品中文字幕在线观看| 欧美亚洲色综久久精品国产| 久久亚洲道色| 日韩亚洲欧美在线观看| wwwwwxxxx日本| 日本成人片在线| 亚洲成国产人片在线观看| 亚洲最新免费视频| 天堂а√在线资源在线| 国产亚洲人成网站| 欧美凹凸一区二区三区视频| 国产 欧美 自拍| 国产精品正在播放| 91免费福利视频| 91久久精品国产91性色69| 日本美女一区二区三区| 国产99在线|中文| 在线观看 亚洲| 免播放器亚洲| 啪一啪鲁一鲁2019在线视频| 日韩激情在线播放| 亚洲欧洲午夜| 538国产精品一区二区在线| 久久久久久天堂| 国产综合自拍| 97视频com| 日韩男人的天堂| 国产亚洲精品v| 97在线免费视频| 国产精品视频免费播放| 亚洲影音先锋| 国产成人综合精品| 亚洲国产无线乱码在线观看| 日本欧美在线看| 91精品久久久久久久久久另类| 中文字幕视频一区二区| 久久精品国产99| 亚洲wwwav| 亚洲第一天堂影院| 99久久99久久精品国产片果冻| 国产精品免费一区二区三区观看 | 国产精品高清无码在线观看| 国产一区不卡| www.欧美免费| 国产亚洲欧美久久久久| 国产精品女主播一区二区三区| 日韩av电影在线免费播放| 正在播放亚洲精品| 国产揄拍国内精品对白| 99理论电影网| 久久久久久久影视| 亚洲色图制服诱惑| 人人妻人人澡人人爽欧美一区双 | 大乳护士喂奶hd| 亚洲欧洲av| 久久精品视频亚洲| 日本视频www| 欧美aaa在线| av蓝导航精品导航| 精品三级久久久久久久电影聊斋| 国产精品免费看片| 成人性免费视频| 国产综合色激情| 亚洲高清不卡av| 国产在线免费av| 一区免费视频| 国产欧美日韩丝袜精品一区| 亚洲黄色片视频| 国产女同互慰高潮91漫画| 色哟哟免费网站| 久久久一本精品| 日韩欧美激情四射| 亚洲第一香蕉网| 国产在线成人| 成人久久18免费网站图片| 无码精品视频一区二区三区 | 丰满女人性猛交| 厕沟全景美女厕沟精品| 欧美一区二区三区在线| 国产制服丝袜在线| 欧美1区2区| 国产精品久久久久aaaa九色| 日本人妻熟妇久久久久久| 国产精品久久久久久久久果冻传媒| 日韩精品在线中文字幕| 欧美大片网站| 亚洲欧洲美洲在线综合| 久久久久久国产精品视频| 蜜桃av一区二区| 欧美一级日本a级v片| 久色国产在线| 日韩手机在线导航| 一区二区三区在线播放视频| 久久99伊人| 国产综合精品一区二区三区| 91小视频xxxx网站在线| 欧美男男青年gay1069videost| 毛片网站免费观看| 亚洲全部视频| 国产精品国模大尺度私拍| 中文字幕在线视频区| 欧美午夜无遮挡| 亚洲色图14p| 在线欧美一区| 国产伦视频一区二区三区| 国产黄色在线观看| 在线成人av影院| 成人一级黄色大片| 黄一区二区三区| 在线免费一区| 欧美日韩破处视频| 俺也去精品视频在线观看| 国产情侣免费视频| 欧美国产日韩在线观看| 日本在线视频www| 国产乱码精品一区二区亚洲 | 国产亚洲美州欧州综合国| 国产原创中文在线观看| 动漫3d精品一区二区三区乱码| 欧美激情久久久| 免费观看的毛片| 精品高清一区二区三区| 欧美精品黑人猛交高潮| 亚洲一区一卡| 天天爽天天狠久久久| av在线不卡精品| 久久精品视频va| 午夜精品久久久久久久99热黄桃| 夜夜精品视频一区二区| www男人天堂| 国产精品亚洲综合色区韩国| 麻豆成人av| av在线播放一区| 欧美成人一二三| 天天射天天色天天干| 懂色av影视一区二区三区| 欧美熟妇精品黑人巨大一二三区| 亚洲欧美日韩视频二区| 日本高清一区| 曰本一区二区| 国产69精品久久久| 久久av少妇| 精品污污网站免费看| 久久久久久久麻豆| 成人av资源在线| 日日碰狠狠躁久久躁婷婷| 色135综合网| 国产99视频精品免费视频36| 久草免费在线视频| 最新69国产成人精品视频免费| 国产精品国产三级国产普通话对白| 亚洲免费在线电影| 精品人妻一区二区三区日产乱码卜| 日韩国产在线一| 久久久久久久久久久久久国产| 国产精品国产| 国产欧美一区二区三区在线看| 亚洲电影视频在线| 亚洲一区av在线播放| 99久久精品国产一区二区成人| 亚洲sss视频在线视频| 快灬快灬一下爽蜜桃在线观看| 高清国产一区二区三区| 国产福利视频在线播放| 图片小说视频色综合| 精品在线视频一区二区| 亚洲国产91视频| 992tv成人免费影院| 日韩在线观看www| 日韩成人中文电影| 国产欧美综合视频| 色94色欧美sute亚洲线路一ni| 国产这里有精品| 欧美国产日韩一二三区| 久久久久国产精品无码免费看| 久久精品国产免费| 国自产拍偷拍精品啪啪一区二区| 偷偷www综合久久久久久久| 久久久国产精品一区二区三区| 成人精品在线| 国产精品成人一区| 欧美一级鲁丝片| 欧美超级免费视 在线| 九九在线视频| 日韩精品中文字幕有码专区| 国产www视频| 欧美日韩国产成人在线免费| 国产情侣自拍av| 亚洲五码中文字幕| 中文字幕五月天| 中文字幕在线观看不卡视频| 久久精品一区二区免费播放| bt7086福利一区国产| 红桃视频一区二区三区免费| 麻豆国产一区二区| 毛葺葺老太做受视频| 国产欧美一级| 老子影院午夜伦不卡大全| 亚洲精品网址| 黄色小视频大全| 2023国产精品久久久精品双| 亚洲欧美日韩精品久久久| 国产精品亚洲人成在99www| 精品一区二区国产| 久久精品国产亚洲5555| 国产福利一区二区三区在线观看| 欧美三级一区| 99国产超薄丝袜足j在线观看| 亚洲我射av| 91精品在线观看视频| 欧美高清免费| 国产有码在线一区二区视频| 99热播精品免费| 国产一区视频在线| 伊人久久大香伊蕉在人线观看热v| 国产美女精品视频免费观看| 粉嫩91精品久久久久久久99蜜桃 | 天天爱天天做天天爽| 色综合天天综合给合国产| 国产三级精品三级在线观看| 欧美日韩中文在线观看| 国产免费观看av| 一本色道**综合亚洲精品蜜桃冫| 欧美brazzers| 欧美日韩一卡二卡| 97在线视频人妻无码| 欧美一区二区三区成人| 精品人妻一区二区三区含羞草| 日韩欧美国产系列| 欧洲成人一区二区三区| 亚洲免费精彩视频| 97视频精彩视频在线观看| 最近2019年日本中文免费字幕| 久操视频在线播放| 欧美大片第1页| sm性调教片在线观看| 日本久久中文字幕| 国产一区影院| 国产99在线免费| 一道本一区二区三区| 手机成人在线| 欧美成人久久| 男人日女人bb视频| 蜜桃精品视频在线| wwwww在线观看| wwww国产精品欧美| 永久免费观看片现看| 一区二区三区四区视频精品免费 | 日韩av在线免费观看一区| 嫩草研究院在线| 久久精品国产99国产精品澳门| 日韩经典av| 国产精品久久久久久av下载红粉| 福利一区在线| 国产亚洲精品美女久久久m| 欧美精品一区二区三区中文字幕| 麻豆一区二区三区在线观看| 国产日韩欧美三级| 亚洲精品免费一区亚洲精品免费精品一区| 国产a视频精品免费观看| 青青草福利视频| 亚洲精品成人悠悠色影视| 69视频免费在线观看| 91麻豆精品国产91久久久使用方法| 亚洲精品国产精品国| 国产一区二区av| av3级在线| 国产欧美日韩精品专区| 99久久香蕉| 日韩在线三区| 国产专区一区| 亚洲欧美aaa| 久久精品一区四区| 久久久全国免费视频| 欧美性猛交xxxxxx富婆| 人妻无码一区二区三区久久99| 最近2019中文免费高清视频观看www99| 好吊日av在线| 91久久中文字幕| 国产99精品一区| 2018国产在线| 国产成人啪免费观看软件| 毛片久久久久久| 一本久久精品一区二区| 全国男人的天堂网| 欧美成人精品影院| 综合欧美精品| 视频在线观看成人| 日日夜夜精品视频天天综合网| 亚洲午夜久久久久久久久| 亚洲视频1区2区| 在线永久看片免费的视频| 亚洲国产美女精品久久久久∴| 亚洲大胆人体大胆做受1| 成人a在线视频| 欧美色图激情小说| 欧美一级黄色片视频| www.亚洲免费av| 国产性猛交普通话对白| 欧美一区二区三区免费大片| 日本高清中文字幕在线| 国产精品免费一区| 亚洲婷婷伊人| 亚洲国产精品毛片av不卡在线| 久久综合久久综合亚洲| 91视频免费网址| 日韩电影在线观看中文字幕| 97蜜桃久久| 久久av一区二区三区漫画| 在线观看亚洲| 国产二级一片内射视频播放 | 国产 日韩 亚洲 欧美| 国产乱子伦一区二区三区国色天香| 欧洲美女女同性互添| 欧美精品色综合| 日本电影在线观看网站| 国产日韩av在线播放| 久久久久午夜电影| 激情成人在线观看| 亚洲三级视频在线观看| a毛片在线免费观看| 精品中文字幕视频| 国产精品主播在线观看| 国产精品自拍片| 久久综合九色综合97婷婷女人| 无码人妻丰满熟妇区bbbbxxxx| 亚洲一区二区久久| 日韩成人综合网| 99久热在线精品视频| 成人午夜视频在线观看| 国产成人在线观看网站| 亚洲精品一区二区在线| 电影久久久久久| 日韩视频在线免费播放| 国产一区视频网站| 国产网友自拍视频| 国产网站欧美日韩免费精品在线观看| 欧美日韩激情电影| 免费成人深夜夜行网站视频| 国产精品一区二区你懂的| 国产系列精品av| 亚洲一区第一页| 国产精品国产亚洲精品| 成年人网站国产| 国产嫩草影院久久久久| 91精品国自产| 97视频免费在线看| 国内精品久久久久久久久电影网 | 99精品桃花视频在线观看| 日韩精品一区不卡| 蜜臀久久99精品久久久无需会员| 国产精品丝袜在线播放| 欧在线一二三四区| 亚洲久本草在线中文字幕| 午夜小视频免费| 成人激情综合网| 亚洲永久网站| 国语对白在线播放| 亚洲欧美国产另类| 久久99精品久久久野外观看| 欧美成人一区二区在线观看| 国产精品你懂的| 天天干在线观看| 91麻豆国产语对白在线观看| 国产日韩精品视频一区二区三区 | 久久99精品久久久久久秒播放器 | 老**午夜毛片一区二区三区| 欧美三级黄色大片| 国产一区二区三区在线免费观看|