精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

LLM可以在沒有采用強化學習或大型數據集的情況下學習推理嗎?

譯文 精選
人工智能
LLM能否通過學習自己生成的推理痕跡來提高推理能力?他們提出了“??思考、修剪、訓練??”(TPT)框架,允許LLM使用精心選擇的自生成數據迭代地改進它們的推理能力。?

譯者 | 李睿

審校 | 重樓

針對提升LLM推理能力面臨的挑戰,斯坦福大學研究人員提出了“思考、修剪、訓練”(TPT)框架,讓LLM利用自生成且驗證正確的數據迭代優化。研究表明,無需強化學習、大型數據集或外部教師模型,TPT可以使較小模型推理性能媲美甚至超越大模型,凸顯了TPT框架在提升模型推理能力和準確性的潛力。

目前,缺乏高質量的訓練數據仍然是提高大型語言模型(LLM)推理能力的主要障礙之一。

斯坦福大學研究人員最近進行的一項研究探索了一個頗具吸引力的替代方案:LLM能否通過學習自己生成的推理痕跡來提高推理能力?他們提出了“思考、修剪、訓練”(TPT)框架,允許LLM使用精心選擇的自生成數據迭代地改進它們的推理能力。

這種方法可能是朝著創造更智能、更高效的人工智能模型邁出的一步,而不是簡單地構建更大的模型和數據集。

提升人工智能推理能力面臨的挑戰

在LLM進行初始訓練之后,提升其推理能力目前主要有兩種策略。一種方法是“監督微調”(SFT),即LLM從精心整理的問題數據集及其逐步解決方案中學習。另一種流行的方法是蒸餾”,即一個規模較小的LLM通過模仿一個能力更強、規模更大的“教師”模型的輸出進行學習。

而這兩種方法都有局限性。SFT需要大量高質量的推理示例數據集,創建這些數據集通常成本昂貴又耗時。另一方面,“蒸餾”完全依賴于獲得強大的、通常是專有的“教師”模型。

這就提出了一個令人信服的問題:LLM能否通過對自己生成的數據進行遞歸微調來改進?早期的嘗試面臨著一個被稱為“模式崩潰”(Mode Collapse)的重大障礙。當LLM在未經過濾的輸出上迭代訓練時,它們的性能往往會隨著時間的推移而下降,可能會開始產生幻覺,忘記以前學到的知識,并生成質量較低的文本,從而陷入惡性循環。

在迭代訓練中,一個相關但不同的風險是“模式崩潰”。當一個模型開始收斂于一組狹窄的高概率輸出時,就會發生這種情況,其響應變得不那么多樣化和具有探索性。雖然之前關于模式崩潰的研究主要集中于沒有明確正確或錯誤答案的一般文本生成上,但對于可以驗證正確性的推理任務進行遞歸微調,則帶來了模式崩潰的可能性,即模型局限于非常具體的答案,失去了探索替代推理路徑的能力。

思考、修剪、訓練(TPT)框架

斯坦福大學研究人員希望探究,在不采用其他方法帶來的復雜性的情況下,模型推理能力的自我提升是否可行。盡管此前許多研究將自我提升視為強化學習(RL)問題,但TPT采取了更為直接的路徑。

它采用標準的SFT,但有一個關鍵轉折:模型僅在經過驗證的正確推理嘗試中進行微調。研究人員探索了是否可以通過仔細選擇這種自生成的數據來實現有效的迭代細化。

以下是思考、修剪、訓練(TPT)框架的工作原理:

  • 思考(Think):提示當前版本的模型為一組問題生成逐步解決方案(推理痕跡或“思維鏈”)。
  • 修剪(Prune):這是一種過濾解決方案,通過檢查已知的基本事實答案,只保留那些明顯正確的解決方案。這種基于正確性的修剪是避免早期遞歸訓練嘗試中出現的模式崩潰的關鍵。
  • 訓練(Train):使用SFT在其自身經過驗證的正確推理軌跡集上對模型進行微調。

然后重復這個循環,新改進的模型為下一輪TPT生成數據。

圖1 思考、修剪、訓練(TPT)框架的工作原理

至關重要的是,與DeepSeek-R1或LLaMA 3.1的后訓練(Post-training)等模型中使用的基于強化學習(RL)的方法不同,TPT只關注這種遞歸的、基于正確性的SFT。它表明,不需要強化學習、學習獎勵函數或外部“教師”模型,而是依靠結構化提示和基礎事實驗證,就可以實現自我完善。

為了嚴格測試這些改進是否來自真正的自我完善,而不僅僅是接觸更多的數據,研究人員仔細設計了實驗。在每一輪TPT中,他們保持訓練數據集大小不變,每個問題只使用一個唯一的正確解決方案。

此外,他們并沒有在各輪TPT流程中積累數據,而是采用最新模型版本中新生成的解決方案取代了訓練集。這確保了任何性能提升都真正歸功于迭代改進過程。

正如斯坦福大學研究人員在論文所指出的那樣,“研究表明,在嚴格的數據約束下,迭代微調可以帶來有意義的收益,這表明模型改進不僅僅是數據集的擴展。”

讓更小的模型發揮更大的作用

研究人員在谷歌公司的Gemma模型(gemma2-2b-it, gemma2-9b-it)和Meta公司的Llama模型(Llama-3.1-1B-Instruct, Llama-3.1-70B-Instruc)的指令調優版本上測試了TPT,主要在GSM8K數學單詞問題基準和CodeContests編程挑戰數據集上對它們進行了評估。

其結果令人矚目。通過TPT流程,相對較小的模型實現了與更大的模型相當甚至更優的推理性能。例如,在GSM8K上,Gemma2-2B模型的準確率(Pass@1,意味著首次嘗試就獲得正確結果)從41.9%躍升至57.6%。Gemma2-9B模型超過了規模更大的LLaMA-3.1-70B-Instruct的基準性能。相應地,使用TPT的LLaMA-3.1-70B將Pass@1分數從78.6%提升至91.5%,甚至超過了當時GPT-4o在該基準上的報告得分。

有趣的是,這些模型性能提升的速度各不相同。規模較小的Gemma-2-2B模型的性能需要四輪TPT才能達到峰值,而中等規模的Gemma-2-9B模型在三輪TPT內提升更快。大型LLaMA-70B模型的性能僅在一輪TPT之后就得到顯著提升,這表明較大模型可能更快地整合了自生成推理的學習內容。

圖2 Gemma2-2B模型和Gemma2-9B模型在四輪TPT中的性能表現

研究人員還研究了模式崩潰的可能性。雖然模型在第一次嘗試(Pass@1)時的準確性不斷提高,但它們在多次嘗試(通過Pass@20或Pass@50測量)中生成多種正確答案的能力在第一輪TPT之后趨于平穩。這表明,TPT流程確實引導這些模型優先考慮高可信度、正確的解決方案,而不是探索不同的推理路徑。然而,研究人員認為,這并不一定對數學和編程等任務有害,在這些任務中,正確性和效率往往是最重要的。通過將模型集中在經過驗證的推理上,TPT甚至可以幫助減少幻覺,并提高對準確性敏感的應用程序的可靠性。

“思考、修剪、訓練”(TPT)框架有力地論證了大型語言模型(LLM)能夠進行自我訓練成為更優秀的推理者。正如研究人員在論文中所寫的那樣,“結構化推理提示、基于正確性的修剪,以及對經過驗證的解決方案的監督微調,可以在沒有外部監督的情況下實現推理能力的自我提升,凸顯了簡化框架在LLM推理和準確性方面進一步發展的潛力。”

原文標題:Can LLMs learn to reason without RL or large datasets?,作者:Ben Dickson

責任編輯:姜華 來源: 51CTO內容精選
相關推薦

2025-05-28 02:25:00

2024-09-13 06:32:25

2025-03-21 13:00:54

2025-10-10 09:02:16

2025-10-11 04:00:00

2022-12-01 08:00:00

2022-07-31 23:55:23

區塊鏈加密貨幣代幣

2025-06-05 06:36:17

2025-06-10 11:22:09

強化學習AI模型

2025-10-10 08:33:49

2020-01-23 15:33:07

AI 數據人工智能

2025-05-26 17:16:51

2025-02-20 09:11:28

2021-03-05 09:00:00

人工智能強化學習廣告

2019-07-19 13:39:47

2022-12-21 17:27:30

強化學習AI

2020-08-10 06:36:21

強化學習代碼深度學習

2023-03-09 08:00:00

強化學習機器學習圍棋

2025-06-23 09:14:00

2025-03-07 09:24:00

點贊
收藏

51CTO技術棧公眾號

亚洲国产精品成人av| 综合久久一区二区三区| 2021久久精品国产99国产精品| 久久精品女同亚洲女同13| 国产免费拔擦拔擦8x在线播放| 久久久精品人体av艺术| 成人信息集中地欧美| 日本熟妇成熟毛茸茸| 国产精品一区二区三区av麻 | 国产91精品在线| 亚洲精品va在线观看| 免费在线观看91| 96日本xxxxxⅹxxx17| 日韩午夜在线电影| 久久精品美女视频网站 | 欧美国产一区二区| 成人性色av| 中文字幕日韩经典| 日韩午夜av在线| 不卡av在线播放| 微拍福利一区二区| 菁菁伊人国产精品| 欧美肥胖老妇做爰| 91黄色小网站| 国产第一页在线| 中文字幕一区在线观看视频| 国产亚洲欧美另类一区二区三区 | av中文字幕在线看| 亚洲丝袜精品丝袜在线| 日本一区二区三区免费看| 性网爆门事件集合av| 麻豆国产欧美日韩综合精品二区 | 欧美 日韩 国产 在线观看| 天堂网在线播放| 国产精品一卡二卡| 国产欧美在线视频| 中文在线字幕免费观| 国产精品一二| 97精品久久久| 久久免费视频6| 综合久久十次| 久久视频精品在线| 91精品少妇一区二区三区蜜桃臀| 国产精品一在线观看| 精品亚洲一区二区| 国产精品久久久久久亚洲色| 8x国产一区二区三区精品推荐| 欧美精品v国产精品v日韩精品 | 久久99精品久久久久久| 国产精品扒开腿做爽爽爽男男| 性无码专区无码| 9久re热视频在线精品| 国产做受69高潮| 精品在线视频免费| 66久久国产| 久久夜色撩人精品| 无码人妻精品一区二区三区夜夜嗨| 成人情趣视频网站| 久久精品国产2020观看福利| 最新日韩免费视频| 午夜片欧美伦| 欧美精品在线极品| 国产污视频在线观看| 亚洲久久一区| 日本欧美在线视频| 日韩人妻精品中文字幕| 视频在线在亚洲| 国产精品久久久久久久久影视| 中文在线观看免费高清| 国产一区二区三区综合| 999视频在线免费观看| а√天堂资源在线| aa级大片欧美| 日韩理论片在线观看| av在线日韩国产精品| 中文字幕在线一区免费| 久久99国产精品一区| 欧美大胆的人体xxxx| 精品国产精品自拍| 成人亚洲视频在线观看| 免费污视频在线一区| 欧美电影一区二区三区| 娇妻高潮浓精白浆xxⅹ| 亚洲精品aaaaa| 色偷偷噜噜噜亚洲男人| 欧美卡一卡二卡三| 亚洲在线电影| 成人国内精品久久久久一区| 精品人妻一区二区三区换脸明星| aaa欧美日韩| 视频一区二区精品| 污视频在线免费观看网站| 精品成人av一区| xxx国产在线观看| 日韩三级不卡| 亚洲人成伊人成综合网久久久| 伊人久久久久久久久久久久久久| 欧美日韩中文| 国产精品久久二区| 亚洲国产精品成人久久蜜臀| 久久久天堂av| 男人草女人视频| 欧美一区久久久| 日韩视频在线永久播放| 在线观看国产精品一区| 欧美日韩国产欧| 国产精品高精视频免费| 日本高清视频免费看| 国产精品色眯眯| 欧美大片在线播放| 国产精品白丝久久av网站| 日韩国产激情在线| 欧美国产在线看| 日本系列欧美系列| 精品国产aⅴ麻豆| dy888亚洲精品一区二区三区| 欧美性猛交xxxx黑人猛交| 在线播放国产视频| 国产精品伦理久久久久久| 欧美一区二区大胆人体摄影专业网站| 国产精品无码天天爽视频| 国产亚洲自拍一区| 免费国产黄色网址| 视频精品一区| 久久视频中文字幕| 中文字幕一区二区人妻痴汉电车| 91丨九色丨蝌蚪丨老版| 日韩一级免费看| 一区二区三区| 伊人男人综合视频网| 成人毛片在线播放| 成人国产精品免费网站| 欧美日韩视频免费| 99精品女人在线观看免费视频| 国产亚洲欧洲高清一区| 国产高清中文字幕| 91麻豆免费在线观看| 精品人妻少妇一区二区| 懂色av一区二区| 欧美精品手机在线| 精品人妻无码一区二区色欲产成人| 国产精品国产三级国产| a在线观看免费视频| 红桃视频在线观看一区二区| 欧美一级黑人aaaaaaa做受| 日本加勒比一区| 一区二区三区免费在线观看| 亚洲一区二区三区四区精品| 国产精品久久久久久久久久10秀| 国产精品爽黄69天堂a| 91se在线| 欧美日韩国产精品成人| 国产男女猛烈无遮挡在线喷水| 久久精品国产亚洲a| 亚洲福利av在线| 日韩美香港a一级毛片| 最新91在线视频| 一区不卡在线观看| 亚洲欧美精品午睡沙发| 精品人妻一区二区乱码| 激情综合亚洲| 久久99精品国产99久久| 中文不卡1区2区3区| 亚洲人成欧美中文字幕| 中文字幕丰满人伦在线| ●精品国产综合乱码久久久久 | 国产福利一区二区三区在线播放| 中文字幕在线视频日韩| 91午夜交换视频| 亚洲丝袜精品丝袜在线| 完美搭档在线观看| 老司机一区二区三区| 深田咏美在线x99av| 亚洲成人精品综合在线| 欧美激情奇米色| 午夜影院免费体验区| 色天使久久综合网天天| 后入内射无码人妻一区| 国产成人一级电影| heyzo国产| 色综合咪咪久久网| 99久热re在线精品视频| 涩涩涩视频在线观看| 最近2019年中文视频免费在线观看 | 婷婷婷国产在线视频| 欧美曰成人黄网| 亚洲av无码一区二区三区在线| 成人一区二区视频| 国产熟人av一二三区| 午夜精品久久久久99热蜜桃导演 | 欧美自拍大量在线观看| 中文字幕日本在线观看| 日韩欧美国产一区二区在线播放| 日韩不卡在线播放| 亚洲欧美色综合| 亚洲精品理论片| 狠狠狠色丁香婷婷综合久久五月| 精品久久一二三| 视频在线不卡免费观看| 国产有色视频色综合| 色综合一区二区日本韩国亚洲 | 国产91亚洲精品久久久| 久久久人成影片一区二区三区观看| 激情在线视频| 精品日韩一区二区三区免费视频| 久久久久久久久久一级| 亚洲一线二线三线视频| 国产又色又爽又高潮免费 | 自拍偷拍亚洲天堂| 成人午夜私人影院| 手机看片一级片| 羞羞视频在线观看欧美| 国产精品视频网站在线观看| av在线不卡顿| 狠狠色综合网站久久久久久久| 亚洲香蕉久久| 国产精品扒开腿做| 一个人看的www视频在线免费观看| 久久伊人色综合| 日韩黄色影院| 亚洲色图偷窥自拍| 亚洲 美腿 欧美 偷拍| 日韩午夜在线影院| 一二三区在线播放| 91国产丝袜在线播放| 亚洲国产成人精品激情在线| 国产精品成人一区二区三区夜夜夜| 一二三不卡视频| 不卡一区二区在线| 国产人成视频在线观看| 国产乱子伦一区二区三区国色天香| 久久久久久久片| 男人的天堂亚洲在线| 人妻夜夜添夜夜无码av| 午夜久久久久| 第九区2中文字幕| 91精品精品| 黄色www在线观看| 999国产精品999久久久久久| 亚洲国产一区在线| 欧美精品一区二区三区中文字幕 | 亚洲国产aⅴ天堂久久| 69xx绿帽三人行| 一区二区三区四区精品在线视频| 看黄色录像一级片| 一区在线观看免费| 久久中文免费视频| 亚洲色图.com| 欧美激情图片小说| 一区二区高清视频在线观看| 强行糟蹋人妻hd中文| 亚洲黄色小说网站| 久草视频在线免费看| 亚洲一区二区三区自拍| 久青草免费视频| 亚洲成人精品在线观看| 韩国av中文字幕| 色综合久久中文综合久久97| 国产又大又粗又爽| 欧美日韩视频在线第一区| 一级特黄色大片| 欧美一区二区三区免费在线看| 国产视频一区二区三区四区五区| 91精品视频网| 亚洲成a人片在线| 日韩成人黄色av| 国产一区二区三区不卡在线| 中文字幕久久久| 在线中文字幕-区二区三区四区| 欧美日韩国产va另类| 欧美激情20| 国产精品国产三级国产aⅴ9色| 成人一区视频| 99中文字幕| 欧美巨大xxxx| 亚洲狠狠婷婷综合久久久| 综合视频在线| 116极品美女午夜一级| 男女男精品视频网| 美女流白浆视频| 久久亚洲春色中文字幕久久久| av免费播放网站| 亚洲综合一区二区| 无码视频在线观看| 欧美一级久久久| 四虎影视精品成人| 日韩中文字幕国产精品| 国产盗摄在线视频网站| 国产精品999999| 亚洲国产一区二区三区网站| 欧美高清视频一区| 欧美在线网址| 日本va中文字幕| 国产黄色精品视频| 最近中文字幕在线mv视频在线 | 亚洲第一影院| 99se婷婷在线视频观看| 国产精品免费99久久久| 精品视频在线观看一区二区| 亚洲理伦在线| 制服丝袜中文字幕第一页| 成人高清av在线| 91免费公开视频| 日韩欧美在线字幕| 性一交一乱一乱一视频| 最新日韩中文字幕| 免费高潮视频95在线观看网站| 91精品在线影院| 午夜精品福利影院| 日韩一级特黄毛片| 美女在线视频一区| 91精品小视频| 一区二区三区av电影| 亚洲在线观看av| 亚洲女人被黑人巨大进入| 秋霞在线午夜| 91日本在线观看| 欧美伦理影院| 成年人观看网站| 不卡视频在线看| 欧美人妻精品一区二区三区| 欧美日韩国产成人在线免费| 你懂的视频在线播放| 国模精品视频一区二区| 蜜桃精品视频| 色呦呦网站入口| 日韩不卡在线观看日韩不卡视频| 在线观看国产三级| 亚洲一卡二卡三卡四卡无卡久久| 一起草av在线| xxav国产精品美女主播| 欧美va在线| 欧美性色黄大片人与善| 久久xxxx| 国产国语性生话播放| 偷窥少妇高潮呻吟av久久免费| 国产成a人亚洲精v品无码| 久久精品国产视频| 欧洲午夜精品| 宅男噜噜99国产精品观看免费| 日韩av一区二| 一级特黄曰皮片视频| 欧美在线播放高清精品| 成人在线视频成人| 国产精品久久久久久五月尺| 精品日本12videosex| caopor在线视频| 中文在线一区二区 | 日韩欧美国产一二三区| 9191在线播放| 国产精品v欧美精品∨日韩| 红桃视频国产精品| 在线黄色免费网站| 精品国产福利视频| 黄色av免费在线观看| 国产精品69久久| 欧美丰满日韩| 992tv人人草| 亚洲制服丝袜av| 熟妇人妻中文av无码| 欧美影院在线播放| 欧美艳星介绍134位艳星| 中文字幕成人免费视频| 亚洲女与黑人做爰| 男人天堂综合网| 欧美中文在线观看| 四虎成人av| 国产精品二区视频| 一本色道久久综合狠狠躁的推荐| 国产在线播放av| 成人h猎奇视频网站| 欧美精品一线| 麻豆av免费观看| 欧美日韩亚洲综合| 欧美aaaaaaa| 欧美精品一区二区三区在线看午夜| 丝袜亚洲另类欧美综合| 搜索黄色一级片| 欧美精品一区二区三区视频| 欧美大片免费高清观看| 国产日产欧美一区二区| 99久久国产综合精品麻豆| 在线观看亚洲黄色| 欧美精品做受xxx性少妇| 三级精品视频| 亚洲18在线看污www麻豆| 欧美日韩国产专区| 幼a在线观看| 精品视频第一区| 激情综合一区二区三区| 日韩污视频在线观看| 少妇av一区二区三区| 丁香综合av| 午夜不卡福利视频| 天天综合天天做天天综合| 欧美性天天影视| 精品国产aⅴ麻豆| 国产一区在线精品| 久久久久久久久久成人| 欧美日韩国产999|