精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-4 做「世界模型」,讓LLM從「錯題」中學習,推理能力顯著提升

人工智能 新聞
在最近的一篇論文,來自西安交大、微軟、北大的研究者嘗試探討了另外一種提升思路:是否可以通過逆向學習過程(即從 LLM 犯過的錯誤中學習)進一步提高其推理能力?

這段時間,大語言模型在各種 NLP 任務中取得了重大進展,尤其是在需要復雜的思維鏈(CoT)推理的數學問題方面。

比如在 GSM8K、MATH 這樣的高難度數學任務的數據集中,包括 GPT-4 和 PaLM-2 在內的專有模型已取得顯著成果。在這方面,開源大模型還有相當的提升空間。為了進一步提高開源大模型處理數學任務的 CoT 推理能力,一種常見的方法是使用注釋 / 生成的問題 - 推理數據對( CoT 數據)對這些模型進行微調,這些數據對會直接教導模型如何在這些任務中執行 CoT 推理。

在最近的一篇論文,來自西安交大、微軟、北大的研究者嘗試探討了另外一種提升思路:是否可以通過逆向學習過程(即從 LLM 犯過的錯誤中學習)進一步提高其推理能力?

就像是一個剛開始學習數學的學生,首先會從書本上的知識點和例題中學習,但也會進行練習。解題失敗后,他便知道自己犯了什么錯誤、如何改正,形成一個「錯題本」。正是通過從錯誤中學習,推理能力得到了進一步提高。

受這個過程的啟發,這項工作探討了 LLM 的推理能力如何從理解和糾正錯誤中受益。

圖片

論文地址:https://arxiv.org/pdf/2310.20689.pdf

具體來說,研究者首先生成錯誤 - 修正數據對(稱為修正數據),然后利用修正數據對 LLM 進行微調。在生成修正數據時,他們使用了多個 LLM(包括 LLaMA 和 GPT 系列模型)來收集不準確的推理路徑(即最終答案不正確),然后使用 GPT-4 作為 「修正器」,為這些不準確的推理路徑生成修正。

生成的修正包含三條信息:(1) 原始解法中不正確的步驟;(2) 解釋該步驟不正確的原因;(3) 如何修正原始解法以得出正確的最終答案。在過濾掉最終答案不正確的修正后,人工評估結果表明,修正數據在后續的微調階段表現出了足夠的質量。研究者使用 QLoRA 對 CoT 數據和修正數據微調了 LLM,從而執行了「從錯誤中學習」(LEMA)。

研究者指出,當前 LLM 能夠在解決問題時采用循序漸進(step-by-step)的方法,然而這種多步驟生成過程并不意味著 LLM 本身就擁有強大的推理能力,因為它們可能只是模仿人類推理的表面行為,而沒有真正理解精確推理所需的底層邏輯和規則。

這種不理解會導致在推理過程中出現錯誤,因此需要「世界模型」的幫助,因為「世界模型」對現實世界的邏輯和規則具有先驗意識。從這個角度來看,本文中 LEMA 框架可以看成是采用了 GPT-4 作為「世界模型」,教導更小的模型遵守這些邏輯和規則,而不僅僅是模仿 step-by-step 的行為。

接下來,我們看一下這項研究的具體方法。

方法概覽

下圖 1(左)為 LEMA 的整體流程,包括兩個主要階段,分別是生成修正數據和微調 LLM。圖 1(右)為 LEMA 在 GSM8K 和 MATH 數據集上的性能表現。

圖片

生成修正數據

給定一個問答示例圖片、一個修正器模型 M_c 和一個推理模型 M_r,研究者生成了錯誤修正數據對圖片,其中圖片表示問題 q_i 的不準確推理路徑,c_i 表示對圖片的修正。


修正不準確的推理路徑。研究者首先使用推理模型 M_r,為每個問題 q_i 采樣了多個推理路徑,然后只保留那些最終得不出正確答案 a_i 的路徑,如下公式(1)所示。

圖片

為錯誤生成修正。對于問題 q_i 和不準確的推理路徑圖片,研究者使用修正器模型 M_c 來生成一個修正,然后在修正中檢查正確答案,如下公式(2)所示。

圖片

這里 P_c 包含 4 個帶注釋的錯誤修正示例,以指導修正器模型應該在生成的修正中包含什么類型的信息。

具體來講,帶注釋的修正包含以下三類信息:

  • 錯誤步驟:原始推理路徑中哪一步出錯了。
  • 解釋:該步驟中出現了什么類型的錯誤;
  • 正確解決方案:如何修正不準確的推理路徑以更好地解決原始問題。

下圖示例 1 簡要地展示了生成修正所用的 prompt。

圖片

生成修正的人工評估。在生成更大規模的數據之前,研究者首先手動評估了生成修正的質量。他們以 LLaMA-2-70B 為 M_r、以 GPT-4 為 M_c,并基于 GSM8K 訓練集生成了 50 個錯誤修正數據對。

研究者將修正劃分為了三個質量等級,分別為優秀(Excellent)、良好(Good)和糟糕(Poor)。三者的示例分別如下所示。

圖片

圖片

圖片

評估結果發現,50 個生成修正中有 35 個達到了優秀質量、11 個為良好、4 個為糟糕。根據這一評估結果,研究者推斷使用 GPT-4 生成修正的整體質量足以進行進一步的微調階段。因此,他們生成了更多大規模的修正,并將所有最終得出正確答案的修正用于微調 LLM。

微調 LLM

在生成修正數據之后,研究者微調了 LLM,從而評估這些模型是否可以從錯誤中學習。他們主要在以下兩種微調設置下進行性能比較。

一是在思維鏈(CoT)數據上微調。研究者僅在問題原理(question-rationale)數據上微調模型。盡管每個任務中有帶注釋的數據,但他們額外采用了 CoT 數據增強。研究者使用 GPT-4 為訓練集中的每個問題生成了更多推理路徑,并過濾掉最終答案錯誤的路徑。他們利用 CoT 數據增強來構建一個強大的微調基線,該基線僅使用 CoT 數據,并有助于對控制微調的數據大小進行消融研究。

二是在 CoT 數據 + 修正數據上微調。除了 CoT 數據,研究者還將生成的錯誤修正數據用于微調(即 LEMA)。他們同樣進行了控制數據大小的消融實驗,以減少增量對數據大小的影響。

下圖附錄 A 中的示例 5 和示例 6 分別展示了用于微調的 CoT 數據和修正數據的輸入 - 輸出格式。

圖片

實驗結果

研究者在五個開源 LLM 和兩個具有挑戰性的數學推理任務上的實驗結果證明了 LEMA 的有效性。

圖片

與僅在 CoT 數據上進行微調相比,LEMA 在各種 LLM 和任務中都能起到持續提升性能的作用。例如,使用 LLaMA-2-70B 的 LEMA 在 GSM8K 和 MATH 上分別取得了 83.5% 和 25.0% 的成績,而僅在 CoT 數據上進行微調則分別取得了 81.4% 和 23.6% 的成績。

圖片

此外,LEMA 與專有 LLM 兼容:帶有 WizardMath-70B /MetaMath-70B 的 LEMA 在 GSM8K 上實現了 84.2%/85.4% 的 pass@1 準確率,在 MATH 上實現了 27.1%/26.9% 的 pass@1 準確率,超過了眾多開源模型在這些挑戰性任務上取得的 SOTA 性能。

隨后的消融研究表明,在相同的數據量下,LEMA 仍然優于 CoT-alone 微調。這表明,CoT 數據和校正數據的有效性并不相同,因為兩種數據源的結合比使用單一數據源能產生更多的改進。這些實驗結果和分析強調了從錯誤中學習在增強 LLM 推理能力方面的潛力。

更多研究細節,可參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-05-15 15:38:59

AI模型

2024-07-16 13:13:26

2023-08-15 13:24:04

GPT-4AGI模型

2023-05-22 15:17:02

谷歌AI

2023-03-27 18:18:47

GPT-4AI

2023-05-29 09:29:52

GPT-4語言模型

2023-04-04 11:20:40

GPT-4OpenAI

2023-10-14 17:24:49

2024-08-08 13:04:28

2023-03-29 10:31:40

MIT論文

2023-08-17 08:00:00

2023-06-19 08:19:50

2024-07-08 08:38:00

模型推理

2024-06-11 14:30:18

2025-04-16 09:35:03

2023-10-08 13:11:00

訓練數據

2023-08-11 13:34:06

GPT-4訓練

2024-01-30 21:18:57

模型智能CMMLU

2023-12-26 08:17:23

微軟GPT-4

2023-05-24 10:01:24

代碼模型
點贊
收藏

51CTO技術棧公眾號

欧美午夜精品理论片a级按摩| 免费日本视频一区| 欧美羞羞免费网站| 亚洲成人自拍视频| 波多野结衣午夜| 日韩欧美二区| 欧美高清视频www夜色资源网| 在线精品亚洲一区二区| 99久久久国产精品无码免费| 欧美精品入口| 欧美电影免费提供在线观看| 成人av在线不卡| 亚洲三区在线播放| 日韩成人精品在线观看| 久久精品99无色码中文字幕| 真实乱偷全部视频| 精精国产xxxx视频在线野外| 国产欧美精品一区二区色综合朱莉 | 91在线观看免费视频| 欧美最猛性xxxxx免费| 天天干天天操天天拍| 巨胸喷奶水www久久久免费动漫| 国产精品女人毛片| 国产精品二区在线| 337p粉嫩色噜噜噜大肥臀| 国产大片一区| 日韩成人在线电影网| 国产日韩欧美久久| 视频在线观看入口黄最新永久免费国产| 成人永久免费视频| 国产精品爽爽爽| 日本熟妇毛耸耸xxxxxx| 欧美一级精品片在线看| 日韩欧美亚洲国产另类| 日韩欧美xxxx| 国产日产一区二区三区| 99精品黄色片免费大全| 亚洲专区在线视频| 欧美精品一二三四区| 午夜精品久久99蜜桃的功能介绍| 亚洲欧美成人网| 91福利视频免费观看| 性欧美超级视频| 亚洲图片有声小说| 咪咪色在线视频| 牛牛影视精品影视| kk眼镜猥琐国模调教系列一区二区| 国产精品欧美亚洲777777| 日本熟妇毛耸耸xxxxxx| 亚洲视频在线免费| 中文在线不卡视频| 精品欧美一区二区久久久| 国产成人在线中文字幕| 欧美在线一二三四区| 凹凸国产熟女精品视频| av免费不卡国产观看| 亚洲精品视频在线看| 欧美日韩一区二区三区在线观看免 | 欧美激情一区二区三区免费观看| 亚洲毛片av| 欧美日韩成人在线播放| 国产精品视频在| 欧美综合在线视频观看| 欧美激情一区二区视频| 999在线精品| 日韩欧美国产一区二区三区 | 亚洲国产精品久久久久久女王| 男同在线观看| 国产亚洲精品中文字幕| 日韩高清三级| 日本天堂在线观看| 亚洲男人天堂av| 少妇大叫太大太粗太爽了a片小说| 欧美理论片在线播放| 亚洲国产精品一区二区久久 | 国产一区二区三区四区五区3d| 亚洲一二三区视频在线观看| cao在线观看| 午夜久久中文| 欧美亚洲一区二区三区四区| 想看黄色一级片| 亚洲成人影音| 亚洲精品一区二三区不卡| 国产美女永久免费无遮挡| 久久视频国产| 色综合视频一区中文字幕| 亚洲欧美在线观看视频| 爽好久久久欧美精品| 91探花福利精品国产自产在线| 亚洲精品久久久久久久久久 | 欧美一区二区三区视频在线| 日本性生活一级片| 少妇一区二区视频| 久久人人爽人人爽爽久久| 日韩xxxxxxxxx| 丝袜美腿亚洲一区二区图片| 91传媒在线免费观看| 天堂在线一二区| 中文字幕五月欧美| 青青青免费在线| 色成人综合网| 日韩精品免费电影| 日韩a级片在线观看| 怡红院精品视频在线观看极品| 国产成人精品久久久| 国产成人三级一区二区在线观看一 | av一区二区三区在线观看| 三级视频在线播放| 亚洲精品国产精华液| 国产视频在线视频| 77成人影视| 中文字幕亚洲一区二区三区五十路 | 国产成人一区| 久久久久久网站| 91久久国语露脸精品国产高跟| 99精品欧美一区二区蜜桃免费| 99热都是精品| 国产一区二区三区影视| 日韩电视剧免费观看网站| 在线看的片片片免费| 久久久精品午夜少妇| 国产精品初高中精品久久| 亚洲免费视频一区二区三区| 香蕉av福利精品导航| av在线免费看片| 国产成人1区| 国内精品伊人久久| 亚洲精品视频专区| 亚洲色图视频免费播放| 超碰在线公开97| 奇米狠狠一区二区三区| 欧美洲成人男女午夜视频| 视频一区 中文字幕| 亚洲黄一区二区三区| 17c国产在线| 欧美一级精品| 国产精品久久综合av爱欲tv| 九色在线视频| 日本黄色一区二区| 性少妇bbw张开| 亚洲欧美日韩专区| 麻豆精品视频| 亚洲欧美一区二区三区| 亚洲精品成a人在线观看| 中文字幕av播放| 黄页视频在线91| 免费看av软件| 国产精品igao视频网网址不卡日韩| 在线观看91久久久久久| 艳妇乳肉豪妇荡乳av无码福利 | 久久成人国产精品入口| 国产精选一区二区三区| avove在线观看| 高清一区二区| 欧美日韩爱爱视频| 亚洲精品一级片| 午夜私人影院久久久久| 亚洲男女在线观看| 亚洲一区激情| 日韩在线三级| 久久天天久久| 欧美成人中文字幕在线| 亚洲va天堂va欧美ⅴa在线| 亚洲国产美女搞黄色| 黄色污在线观看| 久久人人精品| 亚洲欧洲日夜超级视频| 95精品视频| 欧美极品xxxx| 欧美日韩在线中文字幕| 欧美日韩在线电影| 久久中文免费视频| av在线一区二区| 成人亚洲视频在线观看| 91蜜臀精品国产自偷在线| 亚洲a级在线播放观看| 91豆花视频在线播放| 亚洲精品视频免费在线观看| 中文资源在线播放| 亚洲精品欧美综合四区| 国产精品久久久免费观看| 天堂影院一区二区| 99热这里只有精品7| 欧美爱爱网站| 成人av在线亚洲| 国产偷倩在线播放| 在线播放国产精品| 亚洲第一成年人网站| 日韩欧美亚洲范冰冰与中字| 熟女少妇a性色生活片毛片| 国产1区2区3区精品美女| 欧美韩国日本在线| 91tv官网精品成人亚洲| 久久精品中文字幕一区二区三区| 国产69精品久久久久按摩| 欧美国产中文字幕| 国产大片在线免费观看| 日韩一级二级三级| 男操女视频网站| 亚洲一区在线观看免费观看电影高清| 强伦人妻一区二区三区| 国产成人精品一区二| 苍井空浴缸大战猛男120分钟| 亚洲综合专区| 涩涩涩999| 好吊妞视频这里有精品 | 99这里只有精品视频| 国产精品久久久久久五月尺| 丁香花在线影院| 久久精品国产一区| 美丽的姑娘在线观看免费动漫| 欧美一级高清片在线观看| 樱花视频在线免费观看| 亚洲第一激情av| 一区二区视频免费看| 国产农村妇女毛片精品久久麻豆| 黄色激情在线观看| 久久成人精品无人区| 国产精品wwwww| 亚洲福利免费| 嫩草影院中文字幕| 婷婷综合在线| 伊人天天久久大香线蕉av色| 美女毛片一区二区三区四区| 国产免费一区二区三区| 欧美经典影片视频网站| 国产这里只有精品| 久久精品黄色| 国产精品极品美女粉嫩高清在线| 爱啪啪综合导航| 欧美大片大片在线播放| 国产盗摄在线观看| 精品国模在线视频| 98在线视频| 亚洲图片在线综合| 欧美白人做受xxxx视频| 亚洲免费一在线| 日本人妖在线| 日韩精品视频在线| 亚洲av片一区二区三区| 亚洲国产精品久久| 免费av网站观看| 亚洲二区中文字幕| 视频污在线观看| 日韩精品中文字幕久久臀| 涩涩视频在线观看免费| 精品亚洲国产视频| 三级视频在线| 亚洲少妇激情视频| 国产三级在线免费观看| 国产亚洲一区二区精品| 成人在线免费视频| 日韩在线观看精品| 国产一二区在线| 欧美大片欧美激情性色a∨久久| a视频在线播放| 欧美激情精品久久久久久久变态| 成人午夜在线影视| 欧美黄色小视频| 丁香花在线电影| 91久久中文| 国产精品视频久久久| 日本精品网站| 国产一区视频在线播放| 亚洲一区二区三区久久久| 91精品视频网站| 欧洲大片精品免费永久看nba| 91中文字幕在线| 国产精品xxx在线观看| 久久久影院一区二区三区| 国产一区99| 中国成人在线视频| 亚洲婷婷在线| 亚洲人成无码www久久久| 日韩电影免费在线看| www,av在线| aaa欧美日韩| 少妇愉情理伦三级| 一区二区三区在线影院| 亚洲欧美在线视频免费| 欧美这里有精品| www.日本在线观看| 亚洲久久久久久久久久| 欧美日韩xx| 韩国日本不卡在线| 久久人体av| 国产精品一区二区你懂得| 国产精品一线天粉嫩av| 国产又大又长又粗又黄| 国产亚洲成人一区| 午夜久久福利视频| 99re这里只有精品视频首页| 少妇高潮惨叫久久久久| 亚洲一区自拍偷拍| 在线观看免费高清视频| 精品国产一区a| 秋霞a级毛片在线看| 国内免费精品永久在线视频| 黄色日韩网站| 久久本道综合色狠狠五月| 99精品电影| 国产麻花豆剧传媒精品mv在线| 国模一区二区三区白浆| 少妇久久久久久久久久| 亚洲一级二级三级| 国产乱人乱偷精品视频| 亚洲欧美在线免费观看| 日韩精品亚洲人成在线观看| 国产精品国产福利国产秒拍| 久久中文字幕导航| 中文字幕精品在线播放| 久久蜜桃资源一区二区老牛| 亚洲视频 中文字幕| 国产精品精品国产色婷婷| 国产精品国产三级国产专区52| 欧美一级欧美三级在线观看| 大地资源中文在线观看免费版| 91精品国产91久久久久久| 精品1卡二卡三卡四卡老狼| 91麻豆123| 中文字幕在线观看免费视频| 欧美一区二区三区精品| 91福利在线视频| 国产成人激情视频| 秋霞在线一区| 黄色一级在线视频| 福利一区二区在线| 成年人av电影| 91精品国产欧美一区二区成人| av在线播放av| 国产精品video| 国产一区二区三区网| 欧美日韩一道本| av在线这里只有精品| 男人天堂中文字幕| 亚洲成人精品久久| 国产天堂在线播放视频| 国产精品视频福利| 亚洲国产日韩在线| 国产草草浮力影院| 午夜激情久久久| 亚洲色偷精品一区二区三区| 国产最新精品视频| 久久99偷拍| 无码人妻丰满熟妇区96| 91麻豆免费观看| 欧美一级淫片免费视频黄| 亚洲精品视频免费| 欧美××××黑人××性爽 | 欧美一级淫片播放口| 亚洲激情播播| 日本va中文字幕| 中文字幕在线观看一区二区| 国产永久免费视频| 欧美大尺度在线观看| 91国内精品| 久久久999视频| 欧美激情一区二区三区不卡| 中文字幕av在线免费观看| 日韩中文字幕av| 国产精品久久久久久av公交车| 久久视频免费在线| 99久久国产综合精品麻豆| 男人日女人网站| 中文字幕亚洲欧美一区二区三区| 国产欧美88| 欧美视频在线免费播放| 国产三级欧美三级日产三级99| 在线观看国产成人| 欧美精品激情在线| 国产成人3p视频免费观看| 日本 片 成人 在线| 一区二区三区日韩欧美精品| 色噜噜在线播放| 国产精品美女网站| 欧美在线看片| 美女又爽又黄视频毛茸茸| 欧美视频自拍偷拍| 青春草在线免费视频| 欧美日韩国产三区| 国模娜娜一区二区三区| 在线天堂中文字幕| 精品国产美女在线| 日韩电影不卡一区| 国内自拍第二页| 欧美丝袜一区二区| av网站网址在线观看| 久久精品日产第一区二区三区| 久久精品国产亚洲高清剧情介绍 | 精品在线你懂的| 国产91av视频| 社区色欧美激情 | 牛牛精品成人免费视频| 在线免费观看av的网站| 亚洲国产精品一区二区尤物区| av中文在线| 精品一区二区视频| 国产精品综合网| 蜜臀99久久精品久久久久小说 | 色香欲www7777综合网|