精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

LLM可以在沒有采用強化學習或大型數據集的情況下學習推理嗎? 原創

發布于 2025-5-30 10:47
瀏覽
0收藏

針對提升LLM推理能力面臨的挑戰,斯坦福大學研究人員提出了“思考、修剪、訓練”(TPT)框架,讓LLM利用自生成且驗證正確的數據迭代優化。研究表明,無需強化學習、大型數據集或外部教師模型,TPT可以使較小模型推理性能媲美甚至超越大模型,凸顯了TPT框架在提升模型推理能力和準確性的潛力。

目前,缺乏高質量的訓練數據仍然是提高大型語言模型(LLM)推理能力的主要障礙之一。

斯坦福大學研究人員最近進行的一項研究探索了一個頗具吸引力的替代方案:LLM能否通過學習自己生成的推理痕跡來提高推理能力?他們提出了“??思考、修剪、訓練??”(TPT)框架,允許LLM使用精心選擇的自生成數據迭代地改進它們的推理能力。?

這種方法可能是朝著創造更智能、更高效的人工智能模型邁出的一步,而不是簡單地構建更大的模型和數據集。

提升人工智能推理能力面臨的挑戰

在LLM進行初始訓練之后,提升其推理能力目前主要有兩種策略。一種方法是“監督微調”(SFT),即LLM從精心整理的問題數據集及其逐步解決方案中學習。另一種流行的方法是“蒸餾”,即一個規模較小的LLM通過模仿一個能力更強、規模更大的“教師”模型的輸出進行學習。?

而這兩種方法都有局限性。SFT需要大量高質量的推理示例數據集,創建這些數據集通常成本昂貴又耗時。另一方面,“蒸餾”完全依賴于獲得強大的、通常是專有的“教師”模型。

這就提出了一個令人信服的問題:LLM能否通過對自己生成的數據進行遞歸微調來改進?早期的嘗試面臨著一個被稱為“模式崩潰”(Mode Collapse)的重大障礙。當LLM在未經過濾的輸出上迭代訓練時,它們的性能往往會隨著時間的推移而下降,可能會開始產生幻覺,忘記以前學到的知識,并生成質量較低的文本,從而陷入惡性循環。

在迭代訓練中,一個相關但不同的風險是“模式崩潰”。當一個模型開始收斂于一組狹窄的高概率輸出時,就會發生這種情況,其響應變得不那么多樣化和具有探索性。雖然之前關于模式崩潰的研究主要集中于沒有明確正確或錯誤答案的一般文本生成上,但對于可以驗證正確性的推理任務進行遞歸微調,則帶來了模式崩潰的可能性,即模型局限于非常具體的答案,失去了探索替代推理路徑的能力。

思考、修剪、訓練(TPT)框架

斯坦福大學研究人員希望探究,在不采用其他方法帶來的復雜性的情況下,模型推理能力的自我提升是否可行。盡管此前許多研究將自我提升視為強化學習(RL)問題,但TPT采取了更為直接的路徑。?

它采用標準的SFT,但有一個關鍵轉折:模型僅在經過驗證的正確推理嘗試中進行微調。研究人員探索了是否可以通過仔細選擇這種自生成的數據來實現有效的迭代細化。

以下是思考、修剪、訓練(TPT)框架的工作原理:

·思考(Think):提示當前版本的模型為一組問題生成逐步解決方案(推理痕跡或“思維鏈”)。?

·修剪(Prune):這是一種過濾解決方案,通過檢查已知的基本事實答案,只保留那些明顯正確的解決方案。這種基于正確性的修剪是避免早期遞歸訓練嘗試中出現的模式崩潰的關鍵。

·訓練(Train):使用SFT在其自身經過驗證的正確推理軌跡集上對模型進行微調。

然后重復這個循環,新改進的模型為下一輪TPT生成數據。

LLM可以在沒有采用強化學習或大型數據集的情況下學習推理嗎?-AI.x社區

圖1 思考、修剪、訓練(TPT)框架的工作原理

至關重要的是,與DeepSeek-R1或LLaMA 3.1的后訓練(Post-training)等模型中使用的基于強化學習(RL)的方法不同,TPT只關注這種遞歸的、基于正確性的SFT。它表明,不需要強化學習、學習獎勵函數或外部“教師”模型,而是依靠結構化提示和基礎事實驗證,就可以實現自我完善。?

為了嚴格測試這些改進是否來自真正的自我完善,而不僅僅是接觸更多的數據,研究人員仔細設計了實驗。在每一輪TPT中,他們保持訓練數據集大小不變,每個問題只使用一個唯一的正確解決方案。

此外,他們并沒有在各輪TPT流程中積累數據,而是采用最新模型版本中新生成的解決方案取代了訓練集。這確保了任何性能提升都真正歸功于迭代改進過程。

正如斯坦福大學研究人員在論文所指出的那樣,“研究表明,在嚴格的數據約束下,迭代微調可以帶來有意義的收益,這表明模型改進不僅僅是數據集的擴展。”

讓更小的模型發揮更大的作用

研究人員在谷歌公司的Gemma模型(gemma2-2b-it, gemma2-9b-it)和Meta公司的Llama模型(Llama-3.1-1B-Instruct, Llama-3.1-70B-Instruc)的指令調優版本上測試了TPT,主要在GSM8K數學單詞問題基準和CodeContests編程挑戰數據集上對它們進行了評估。

其結果令人矚目。通過TPT流程,相對較小的模型實現了與更大的模型相當甚至更優的推理性能。例如,在GSM8K上,Gemma2-2B模型的準確率(Pass@1,意味著首次嘗試就獲得正確結果)從41.9%躍升至57.6%。Gemma2-9B模型超過了規模更大的LLaMA-3.1-70B-Instruct的基準性能。相應地,使用TPT的LLaMA-3.1-70B將Pass@1分數從78.6%提升至91.5%,甚至超過了當時GPT-4o在該基準上的報告得分。

有趣的是,這些模型性能提升的速度各不相同。規模較小的Gemma-2-2B模型的性能需要四輪TPT才能達到峰值,而中等規模的Gemma-2-9B模型在三輪TPT內提升更快。大型LLaMA-70B模型的性能僅在一輪TPT之后就得到顯著提升,這表明較大模型可能更快地整合了自生成推理的學習內容。

LLM可以在沒有采用強化學習或大型數據集的情況下學習推理嗎?-AI.x社區

圖2 Gemma2-2B模型和Gemma2-9B模型在四輪TPT中的性能表現

研究人員還研究了模式崩潰的可能性。雖然模型在第一次嘗試(Pass@1)時的準確性不斷提高,但它們在多次嘗試(通過Pass@20或Pass@50測量)中生成多種正確答案的能力在第一輪TPT之后趨于平穩。這表明,TPT流程確實引導這些模型優先考慮高可信度、正確的解決方案,而不是探索不同的推理路徑。然而,研究人員認為,這并不一定對數學和編程等任務有害,在這些任務中,正確性和效率往往是最重要的。通過將模型集中在經過驗證的推理上,TPT甚至可以幫助減少幻覺,并提高對準確性敏感的應用程序的可靠性。

“思考、修剪、訓練”(TPT)框架有力地論證了大型語言模型(LLM)能夠進行自我訓練成為更優秀的推理者。正如研究人員在論文中所寫的那樣,“結構化推理提示、基于正確性的修剪,以及對經過驗證的解決方案的監督微調,可以在沒有外部監督的情況下實現推理能力的自我提升,凸顯了簡化框架在LLM推理和準確性方面進一步發展的潛力。”

原文標題:??Can LLMs learn to reason without RL or large datasets???,作者:Ben Dickson

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-5-30 11:11:00修改
收藏
回復
舉報
回復
相關推薦
四虎5151久久欧美毛片| 影音先锋男人资源在线| 久久一区亚洲| 久久亚洲私人国产精品va| 熟妇女人妻丰满少妇中文字幕| 91九色国产在线播放| 久久久激情视频| 成人天堂噜噜噜| 国产一区二区三区影院| 色97色成人| 日韩成人中文字幕在线观看| 亚洲一级片网站| 91高清视频在线观看| 中文字幕 久热精品 视频在线 | 亚洲午夜精品一区二区三区| 精品国产18久久久久久| 美女国产精品| 欧美极品少妇xxxxⅹ免费视频 | 亚洲欧美日韩国产手机在线| 就去色蜜桃综合| 国产视频在线观看免费| 国产精品资源| 欧美激情小视频| av片在线免费看| 亚洲欧美校园春色| 欧美一区二区三区不卡| 国产精品igao| 成人美女黄网站| 亚洲一区二区三区四区五区黄 | 日韩网站在线播放| 色综合视频一区二区三区日韩| 欧美性xxxx极品hd欧美风情| 国产情侣第一页| 欧美私人网站| 中文字幕av一区二区三区| 久久99热只有频精品91密拍| 精品毛片一区二区三区| 精品无人码麻豆乱码1区2区| 国产成人avxxxxx在线看| 亚洲精品77777| 午夜视频一区| 久久夜色撩人精品| 国产日产精品一区二区三区的介绍| 在线看成人短视频| 亚洲欧美一区二区精品久久久| 亚洲精品久久一区二区三区777 | 蜜臀va亚洲va欧美va天堂| 国产不卡精品视男人的天堂| 成人免费a视频| 一区二区三区四区五区在线| 欧美激情精品久久久久久变态 | 国产精品va| 久久99亚洲热视| 国产黄在线免费观看| 97欧美在线视频| 久久精品美女视频网站| 亚洲 欧美 国产 另类| 爽成人777777婷婷| 久久精品国产亚洲精品| 午夜激情福利网| 女同性一区二区三区人了人一 | 亚洲精品国产品国语在线| 国产伦精品一区二区三区精品| 中文字幕av一区二区三区四区| 精品国产成人系列| 亚洲成人日韩在线| 综合亚洲自拍| 在线激情影院一区| 亚洲欧美精品久久| 欧美在线亚洲| 性欧美xxxx交| 无码人妻黑人中文字幕| 蜜臀久久99精品久久久画质超高清 | 亚洲成人av动漫| 3p在线观看| 亚洲精品久久久久久国产精华液| 精品一区二区三区无码视频| 久久青草伊人| 欧美在线影院一区二区| 国产成人在线综合| 香蕉免费一区二区三区在线观看| 亚洲精品一区二区在线观看| 亚洲精品乱码久久久久久不卡| 国产99久久久国产精品成人免费| 丝袜美腿亚洲一区二区| 深夜福利影院在线观看| 国产人成精品一区二区三| 国产91在线播放| 国产又粗又大又爽视频| 成人激情午夜影院| 少妇精品久久久久久久久久| av香蕉成人| 欧美性猛交xxxx乱大交| 午夜免费福利网站| 日韩在线你懂的| www.欧美精品一二三区| 精品在线播放视频| 另类小说视频一区二区| 国产精品18毛片一区二区| www黄在线观看| 亚洲综合网站在线观看| 欧洲熟妇精品视频| 99a精品视频在线观看| 亚洲欧美日韩第一区| 国产一区二区三区在线视频观看| 亚洲一区国产| 亚洲一区二区日本| 牛牛澡牛牛爽一区二区| 自拍视频在线观看一区二区| 1024av视频| 精品一区二区三区四区五区| 亚洲色图国产精品| 国产亚洲精品久久久久久打不开| 日本va欧美va精品| 激情小说综合网| av在线播放国产| 欧美在线观看一二区| 香港三级日本三级| 欧美另类亚洲| 成人国产精品色哟哟| 你懂的免费在线观看视频网站| 一区二区三区精品视频在线| 欧美一级裸体视频| 欧美一级二级三级视频| 欧美丰满少妇xxxxx| 国产偷人爽久久久久久老妇app| 成人精品免费看| 五月天激情图片| 久久精品嫩草影院| 一本大道亚洲视频| 国产一级片毛片| 成人高清视频在线观看| 日本成人在线不卡| 日韩激情欧美| zzjj国产精品一区二区| 中文字幕一区二区三区人妻四季 | 久草精品在线观看| 亚洲 国产 日韩 综合一区| 中文日产幕无线码一区二区| 亚洲精品国产免费| 天堂网av手机版| av中文一区二区三区| 丁香色欲久久久久久综合网| 国产精品一区二区三区四区在线观看| 深夜福利日韩在线看| 国产成人精品一区二区色戒| 国产欧美一二三区| 亚洲高清在线免费观看| av一区二区在线播放| 国产精品91在线| 国产精品免费观看| 91国偷自产一区二区三区成为亚洲经典 | 加勒比视频一区| 午夜精品久久久99热福利| 日本黄色不卡视频| 欧美日韩美女视频| 巨胸大乳www视频免费观看| 欧美在线综合| 天天爽天天狠久久久| 成人全视频在线观看在线播放高清| 伊人精品在线观看| 亚洲视频中文字幕在线观看| 国产精品乱人伦| 中文国产在线观看| 国语对白精品一区二区| 韩国成人一区| 国精产品一区二区三区有限公司 | 欧美成熟毛茸茸复古| 一区二区电影免费观看| 国产午夜精品美女视频明星a级| 国产乱码77777777| 中文字幕亚洲一区二区va在线| 亚洲精品成人在线播放| 国产精品magnet| 久久精品中文字幕一区二区三区| 色尼玛亚洲综合影院| 日韩在线视频线视频免费网站| 国产精品久久久国产盗摄| 亚洲男同性视频| 喷水视频在线观看| 日韩不卡免费视频| 第九区2中文字幕| 亚洲成aⅴ人片久久青草影院| 国产精品久久久久久久久借妻| 国产福利视频在线| 亚洲精品国产精品国自产观看浪潮| 亚洲黄网在线观看| 亚洲青青青在线视频| 亚洲调教欧美在线| 久久se这里有精品| 日韩伦理在线免费观看| 日韩大片在线播放| 国产精品视频一区二区三区经| 日韩久久一区二区三区| 色综合老司机第九色激情| 欧洲亚洲在线| 日韩一区二区三区免费看| 中文字幕激情小说| 亚洲精品你懂的| 成年人网站免费在线观看| 久久精品国产一区二区三| 男人的天堂狠狠干| 天天做天天爱天天综合网| 久久av一区二区| 成人51免费| 国产精品福利在线观看| bl视频在线免费观看| 日韩在线免费视频观看| 亚洲av成人精品一区二区三区在线播放| 欧美色窝79yyyycom| 日本一级一片免费视频| 综合在线观看色| 欧美黄色一级生活片| 成人久久18免费网站麻豆| 日韩一级免费片| 久久久久久久欧美精品| 国产96在线 | 亚洲| 久久久国产精品| 日本一区二区三区视频在线播放| 久久久久高潮毛片免费全部播放| 成人久久久久久| 青青热久免费精品视频在线18| 国内精品小视频| 伊人手机在线| 久久这里只有精品99| 91在线观看| 亚洲欧美综合另类中字| 色网站免费观看| 精品国产成人在线影院| 国产成人精品一区二区无码呦| 欧美图片一区二区三区| 午夜久久久久久久久久影院| 日韩欧美亚洲综合| 日韩欧美三级视频| 午夜视频一区二区三区| 国产精品99re| 亚洲一区中文日韩| 农村黄色一级片| 亚洲老司机在线| 2025国产精品自拍| 亚洲免费av观看| 欧美黄色aaa| 亚洲美女视频在线观看| 国产黄色录像片| 综合久久给合久久狠狠狠97色 | 亚洲va天堂va国产va久| 免费视频网站www| 一区二区不卡在线视频 午夜欧美不卡在| 欧美在线视频第一页| 亚洲另类在线视频| 久久久久无码国产精品不卡| 一区二区三区四区视频精品免费 | 日本精品在线| 久久精品这里热有精品| 成人福利在线观看视频| 欧美日韩xxxxx| 成全电影大全在线观看| 91精品国产亚洲| 人人视频精品| 国产精品永久免费在线| 99国内精品久久久久| 91亚色免费| 久久a爱视频| 欧美福利精品| 色天天综合网| 国产女人18毛片| 最新成人av网站| 色一情一乱一伦一区二区三区日本| 蜜臀av性久久久久蜜臀aⅴ| 日韩欧美亚洲另类| 国产成人免费网站| 久久午夜夜伦鲁鲁片| 国产日韩欧美综合一区| 国产wwwwxxxx| 午夜精品久久久久久久99樱桃| 岛国av中文字幕| 欧美人妇做爰xxxⅹ性高电影| 国产女人高潮的av毛片| 亚洲国产三级网| lutube成人福利在线观看| 欧美精品日韩三级| 中文字幕不卡三区视频| 91精品国产自产在线| 国产精品一区二区三区美女| 日本视频一区在线观看| 你懂的一区二区| 国产精品亚洲αv天堂无码| 精品亚洲成a人| 给我看免费高清在线观看| 欧美精品久久久久久久久久丰满| 精品中文字幕一区二区三区四区| 亚洲一区美女视频在线观看免费| 国产欧美自拍一区| 日韩亚洲一区在线播放| 亚洲私人影院| 中文字幕永久有效| 99精品视频一区| 看免费黄色录像| 色天使色偷偷av一区二区| 亚洲av少妇一区二区在线观看| 亚洲视频第一页| 波多野结衣在线观看| 国产精品亚洲美女av网站| 国内精品偷拍| 亚洲黄色网址在线观看| 日韩和欧美的一区| 国产一线在线观看| 亚洲日本va午夜在线影院| 天天爱天天做天天爽| 精品国产乱码久久久久久影片| 天堂а√在线官网| 日韩av三级在线观看| 成人激情自拍| 手机在线视频你懂的| 青青草精品视频| 香蕉视频久久久| 欧美日韩亚洲91| 亚洲欧美激情在线观看| 久久久国产精彩视频美女艺术照福利| 欧美人体一区二区三区| 精品麻豆av| 精品动漫一区| 国产大学生av| 亚洲免费观看高清完整版在线观看熊 | 亚洲小说区图片区| 亚洲一区二区三区四区精品| 国产精品电影一区二区| 中文字幕第315页| 亚洲色图国产精品| 亚洲播播91| 欧美激情第六页| 免费日韩av片| 国产成人av一区二区三区不卡| 偷拍亚洲欧洲综合| 色一情一乱一区二区三区| 久久免费视频网站| 2021年精品国产福利在线| 国产 国语对白 露脸| 国产中文一区二区三区| 国产激情无码一区二区三区| 欧美日韩一区国产| 1024国产在线| 国产一区二中文字幕在线看| 欧美xxxxx视频| 免费黄频在线观看| 亚洲欧美日韩精品久久久久| 国产美女永久免费| 欧美理论电影在线播放| 亚洲精品观看| 国产精品裸体瑜伽视频| 93久久精品日日躁夜夜躁欧美 | 天堂av最新在线| 国产精品区免费视频| 99热免费精品| 一道本在线观看| 欧美日韩视频在线一区二区| 免费在线看a| 国产91色在线|亚洲| 亚洲久久一区二区| 一卡二卡三卡四卡| 欧美色综合天天久久综合精品| 黄色精品在线观看| 国产传媒一区二区| 性欧美精品高清| 91ts人妖另类精品系列| 日韩视频免费观看高清完整版在线观看| 福利成人导航| 日本精品二区| 国产曰批免费观看久久久| 国产第100页| 一区二区三区无码高清视频| 中文字幕成人| 成人午夜免费在线| 国产欧美视频一区二区| 国产女无套免费视频| 久久久久免费视频| 影视先锋久久| 一本之道在线视频| 精品美女永久免费视频| 爱爱爱免费视频在线观看| 亚洲曰本av电影| 国产一区二区三区成人欧美日韩在线观看 | 日日摸日日碰夜夜爽av| 国产精品久久久久永久免费观看 | 不卡电影一区二区三区| 国产性生活视频| 毛片精品免费在线观看| 秋霞综合在线视频| 亚洲36d大奶网| 婷婷开心激情综合| 蜜桃视频网站在线观看| www.成人三级视频| 美腿丝袜亚洲综合| 亚洲一区欧美在线| 日韩性生活视频| 亚洲精品无吗| 老司机av网站| 欧美日韩激情一区二区三区| 麻豆国产在线| 日韩精品第1页|