精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

SFT并非必需!推理模型僅靠RL就能獲得長思維鏈能力,清華CMU團隊破解黑盒

人工智能 新聞
來自清華、CMU和IN.AI的研究團隊,近期專門探究了長CoT在大模型中的工作機制和優化策略。

DeepSeek-R1慢思考、長推理的表現,展現了訓練步驟增加,會導致長CoT的涌現。

它通過模擬人類思維逐步推導答案,提升了AI大模型的推理能力和可解釋性。

但長CoT的觸發條件是什么?怎么做能優化它?像個黑盒,還沒研究明白。

來自清華、CMU和IN.AI的研究團隊,近期專門探究了長CoT在大模型中的工作機制和優化策略。

先把該研究得出的4點發現給大家呈上來:

  • SFT并非必需,但能簡化訓練并提高效率;
  • 推理能力隨著訓練計算的增加而出現,但并非總是如此;
  • 可驗證獎勵函數對增長CoT至關重要;
  • 糾錯等核心能力基礎模型天生自帶,但通過RL有效地激勵這些技能需要大量的計算。

這篇論文開始被網友瘋轉,并被感慨道:這可太酷啦!

還有網友表示,不出所料,獎勵函數果然很重要

從SFT和RL兩方面研究長CoT

研究團隊明確表示:

我們的目標是揭開大模型中長CoT推理的神秘面紗。
通過系統分析和消融,提取關鍵見解,并提供實用策略來增強和穩定其性能。

團隊采用了2款基礎模型:

  • Llama-3.1-8B:來自Meta,是具有代表性的通用模型。
  • Qwen2.5-7B-Math:來自阿里通義,是具有代表性的數學專業模型。

同時采用了4個代表性推理基準:

MATH-500、AIME 2024、TheoremQA和MMLU-Pro-1k。

默認情況下,溫度t=0.7、頂部?p值=0.95,最大輸出長度=16384 tokens。

而具體過程,從SFT(監督微調)和RL(強化學習)兩方面下手。

研究人員默認使用MATH的7500個訓練樣本提示集來提供可驗證的真值答案。

SFT對長CoT的影響

團隊首先探究了SFT對長CoT的影響。

通過在長CoT數據上進行SFT,模型能夠學習到更復雜的推理模式。

但目前而言,短CoT更為常見,這就意味著針對其收集SFT數據相對簡單。

鑒于此,團隊選擇用阿里通義的QwQ-32B-Preview來提煉長CoT,用阿里通義的Qwen2.5-Math-72B-Struct來提煉短CoT

具體來說,研究人員先對每個prompt的N個候選響應進行采樣,然后篩選出具有正確答案的響應。

對于長CoT,使用N∈{32, 64, 128, 192, 256};對于短CoT,使用N∈{32, 64, 128, 256},(此處為了提高效率跳過了一個N)

在每種情況下, SFT標記的數量都與N成正比。

如下圖虛線所示,隨著擴大SFT的token,對長CoT進行SFT,會繼續提高模型準確性;而對短CoT來說,SFT帶來的效益在很早就達到飽和。

譬如在MATH-500上,長CoT SFT的準確率超過70%,tokens達到3.5B時仍然沒有進入瓶頸期。

相比之下,短CoT SFT的tokens從約0.25B增加到1.5B,準確率僅產生了3%的增長。

實驗結果顯示,長CoT SFT能夠顯著提高模型的性能上限。

而且,在達到更高性能的同時,還有比短CoT更高的性能拓展空間。

RL對長CoT的影響

由于業內普遍認為RL的上限高于SFT,團隊將長CoT和短CoT視為針對RL的不同SFT初始化方法進行比較。

研究人員使用SFT檢查點來初始化RL,并訓練了四個epoch,每個prompt生成四個響應。

此外,團隊把PPO和來自MATH數據集的基于規則的驗證器訓練拆分,作為RL的提示集。

具體結果同樣在下圖中顯示出來:

圖中實線和虛線之間的間隙表明,使用長CoT SFT初始化的模型通常可以通過RL進一步顯著改進,而使用短CoT SFT初始化的模型從RL中獲得的收益很小。

例如,在MATH-500上,RL可以將長CoT SFT模型絕對改進3%以上,而短CoT SFT模型在RL前后的精度幾乎相同。

需要注意的是,RL并不總是能夠穩定地擴展思維鏈的長度和復雜性。

為此,研究團隊引入了一種帶有重復懲罰的余弦長度縮放獎勵機制,有效穩定了思維鏈的增長,并鼓勵模型在推理過程中進行分支和回溯。

整理長CoT數據

除上述研究外,為了整理長CoT數據,研究團隊比較了兩種方法。

一種是通過提示短CoT模型,生成原始動作,并按順序組合它們,以此構建長CoT軌跡

另一種是從現有的長CoT模型中提煉出長CoT軌跡——這些模型表現出涌現長CoT(emergent long CoT)

結果表明,從涌現長CoT模式中提煉出來的模型,比構建的模式泛化得更好,并且可以用RL進一步顯著改進。

在構建模式上訓練的模型則不能做到這一點。

此外,由于DeepSeek-R1已經證明,在基礎模型上擴展RL計算可以出現長CoT,自我驗證行為有時會被模型的探索標記為緊急行為或 “頓悟時刻”。

這種模式在短CoT數據中很少見,但研究人員注意到,有時基座模型已經存在自我驗證行為,而用RL強化這些行為需要嚴苛的條件。

如下圖所示,Qwen2.5Math-7B的RL有效地提高了準確性,但沒有增加基礎模型輸出中存在的 “recheck” 模式的頻率,也沒有有效地激勵其他反射模式,如 “retry” 和 “alternatively”。

這表明盡管提高性能效果顯著,但來自基座模型的RL不一定會激勵反射模式。

四個關鍵發現

在系統性研究了長CoT推理的機制后,團隊提出了4個關鍵發現。

第一,SFT并非必需,但能簡化訓練并提高效率。

雖然SFT并非訓練長CoT的必要條件,但它能夠有效地初始化模型,并為后續的RL訓練提供堅實的基礎。

第二,推理能力隨著訓練計算的增加而出現,但并非總是如此。

長CoT的出現并非必然,且樸素的RL方法并不總是能有效地延長CoT長度。

需要通過獎勵塑造等技巧來穩定CoT長度的增長,團隊的做法是引入了一種余弦長度縮放獎勵,并加入了重復懲罰,這既平衡了推理深度,又防止了無意義的長度增加。

第三,可驗證獎勵函數對CoT擴展至關重要。

由于高質量、可驗證數據稀缺,擴展可驗證獎勵函數對RL至關重要。

論文探索了利用網絡提取的包含噪聲解決方案的數據,并發現這種“銀色”監督信號在RL中展現出巨大的潛力,尤其是在處理OOO任務(如STEM推理)時。

第四,基模型中天生存在錯誤修正和回溯等技能,但通過RL有效地激勵這些技能需要大量的計算。

而測量這些能力的出現需要更精細的方法,需要謹慎設計RL激勵。

最后,研究團隊提出了幾個未來的研究方向,包括:

擴大模型規模、改進RL基礎設施、探索更有效的驗證信號以及深入分析基礎模型中的潛在能力。

這些方向有望進一步推動長CoT在大模型中的應用。

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-08-04 08:49:00

2023-06-05 10:01:18

模型測評

2025-09-15 08:53:00

AI模型推理

2025-02-17 14:43:51

2025-03-17 08:15:00

AI技術模型

2025-09-15 09:43:33

分層推理模型循環網絡推理

2025-05-08 09:10:30

2025-05-29 03:00:00

混合推理模型LHRMAI

2025-07-28 09:12:00

2025-04-08 09:16:00

推理模型AI

2025-04-02 09:00:00

模型開源AI

2025-03-11 08:50:00

2025-04-25 09:22:44

2025-11-13 08:00:00

大推理模型AI人工智能

2025-10-13 09:08:00

2025-04-23 12:09:25

RL大模型進化

2025-09-16 10:09:00

2025-03-05 00:22:00

2023-05-30 14:17:00

模型推理

2025-04-10 08:23:11

點贊
收藏

51CTO技術棧公眾號

国产美女精品视频国产| 中文字幕乱码一区二区免费| 亚洲人成精品久久久久| 性色av一区二区三区红粉影视| 亚洲国产精品视频一区| 国产精品6666| 久久久久久亚洲精品美女| 国产视频一区二区在线| 91精品国产成人| 亚洲av无码一区东京热久久| av网址在线| 欧美电影免费| 欧美性猛交xxxx乱大交退制版| 精品国产一区二区三区久久久久久 | 给我免费观看片在线电影的| 黄网站视频在线观看| 日韩高清在线观看| 国产丝袜精品视频| 女性女同性aⅴ免费观女性恋| 亚洲免费国产视频| 午夜视频精品| 日韩欧美亚洲一区二区| 8x8x华人在线| 性猛交富婆╳xxx乱大交天津| 久久久久久久久国产一区| 欧美精品日韩综合在线| 亚洲一区二区三区四区中文| 亚洲第一网站在线观看| 国产成人精品免费视| 日本乱码高清不卡字幕| 亚洲午夜精品久久久久久浪潮| 老司机午夜福利视频| 久久国产精品72免费观看| 久久精品久久久久电影| 91 视频免费观看| 菠萝蜜视频国产在线播放| 狠狠色丁香久久婷婷综| 欧美国产一区二区三区| 中国男女全黄大片| h片在线观看下载| 奇米精品一区二区三区在线观看一| 亚洲欧美国产精品| 国产精品97在线| 你懂得在线网址| 天堂精品中文字幕在线| 尤物九九久久国产精品的分类| 九色在线视频观看| 青草久久伊人| 麻豆国产一区二区| 欧美成人精品激情在线观看| 中国特级黄色大片| 另类图片综合电影| 亚洲婷婷国产精品电影人久久| 色噜噜色狠狠狠狠狠综合色一| 国产精品美女一区| 国产日韩综合| yw.139尤物在线精品视频| 黑人无套内谢中国美女| 中文在线免费视频| 中文字幕一区二区三区乱码在线 | 中文字幕亚洲欧美| 精品人妻一区二区三| 国产黄大片在线观看| 97久久国产亚洲精品超碰热| 成人欧美精品一区二区| 四虎影视成人精品国库在线观看 | 青青草伊人久久| 国产精品久久久久久久久借妻| 五月天av网站| 香蕉视频一区| 91精品国产入口在线| 日韩中文字幕在线免费| 中文字幕日本在线观看| 成熟亚洲日本毛茸茸凸凹| 人妖精品videosex性欧美| 免费高清在线观看电视| 国产传媒欧美日韩成人精品大片| 日韩av在线资源| 97超碰人人看| 国产欧美一区二区三区米奇| 欧美日韩成人综合天天影院| 欧美 日本 亚洲| 在线观看爽视频| 欧美日韩一区二区三区在线 | 羞羞视频在线观看欧美| 欧美精品情趣视频| 日本三级欧美三级| 日韩成人免费电影| 亚洲最大福利网站| 日本成人一级片| 在线欧美三区| 欧美精品电影在线| 曰本女人与公拘交酡| 日韩精品诱惑一区?区三区| 亚洲女人被黑人巨大进入| 亚洲黄色小说视频| 青草久久视频| 亚洲二区在线播放视频| 久草免费资源站| 综合亚洲色图| 日韩精品一区二区三区swag| 喷水视频在线观看| 久草在线综合| 亚洲精品国产精品自产a区红杏吧| 成人午夜免费在线视频| 国产免费黄视频| 国产精品极品美女在线观看| 亚洲国产一区在线观看| 日本在线视频www色| 成年网站在线视频网站| 亚洲摸摸操操av| 青春草在线视频免费观看| 手机在线看片日韩| 亚洲av无码国产精品永久一区| 久久综合中文| 91在线观看欧美日韩| 一级片视频播放| 久久99精品久久久久久动态图| 国产精品香蕉视屏| 日本黄色一区二区三区| 大陆成人av片| 亚洲精品在线视频观看| 国产一二在线播放| 日韩午夜激情av| 国产ts在线观看| 日韩影院二区| 日本欧美在线视频| 国产一级片一区二区| 粉嫩av一区二区三区在线播放| 91免费版黄色| av在线电影观看| 国产精品久久毛片a| 视频一区二区视频| 欧美片第一页| 日韩av影院在线观看| 国产女人被狂躁到高潮小说| 青青草91视频| 午夜精品福利一区二区| 小h片在线观看| 亚洲国产小视频| 国产极品在线播放| 免费精品视频| 黄色小网站91| 91九色国产在线播放| 欧美一区二区不卡视频| 日本免费网站视频| 黄色精品免费| 国产不卡在线观看| 国产美女无遮挡永久免费| 欧美国产一区二区| 人妻无码一区二区三区四区| 成人亚洲精品| 国产视频精品免费播放| 国产网站在线看| 成人午夜激情片| 97超碰在线人人| 写真福利精品福利在线观看| 91精品午夜视频| 自拍视频一区二区| 亚洲一区网站| 欧美一区2区三区4区公司二百| 日韩欧美小视频| 性做久久久久久免费观看| 香蕉视频网站入口| 国产suv精品一区| 久久久久久亚洲精品| 女人18毛片一区二区三区| 亚洲福利视频三区| 五月婷婷之婷婷| 欧亚精品一区| 日韩av电影在线免费播放| 韩国中文字幕2020精品| 亚洲大片在线观看| 久久丫精品国产亚洲av不卡| 中文在线日韩| 国产精品免费观看在线| 天堂在线视频免费| 亚洲免费观看高清完整版在线观看 | 黄色亚洲在线| 久久综合一区| 欧美女同一区| 欧美精品日韩综合在线| 日韩激情综合网| 成人午夜精品一区二区三区| 成人免费毛片网| 91日韩欧美| 成人做爰66片免费看网站| jizz在线免费观看| 日韩一区二区在线看片| 日韩av女优在线观看| 91视频免费播放| 亚洲国产精品成人天堂| 免费av一区| 亚洲va久久久噜噜噜| eeuss影院在线播放| 91精品视频网| 久久久久久久黄色片| 国产成人综合自拍| 二级片在线观看| 日韩人体视频| 成人福利网站在线观看11| 亚洲xxxxxx| 精品国产成人在线影院 | 午夜视频在线观看一区二区| 国产一二三四五区| 国产成人99久久亚洲综合精品| 精品一卡二卡三卡| 国产精品porn| 亚洲一区二区三区777| 五月天国产在线| 欧美大尺度激情区在线播放| 国产天堂素人系列在线视频| 色88888久久久久久影院野外| 超碰在线国产97| 国产欧美精品日韩区二区麻豆天美| 免费欧美一级片| 毛片一区二区| 日韩欧美一区二区视频在线播放| 亚洲伦乱视频| 亚洲91精品在线观看| 国产原创视频在线观看| 亚洲小视频在线观看| 一区二区小视频| 自拍偷拍国产精品| 北条麻妃亚洲一区| 蜜臀精品一区二区三区在线观看| 亚洲精品国产精品国自产观看| 久久资源综合| av一区和二区| 在线男人天堂| 午夜精品美女自拍福到在线| caopeng在线| 久久久精品999| 天堂аⅴ在线地址8| 亚洲欧洲一区二区三区久久| 中文天堂在线视频| 色综合天天狠狠| 91香蕉国产视频| 国产成人精品一区二区三区四区 | 精品人妻无码一区二区色欲产成人 | 国产精品-色哟哟| 欧美挠脚心视频网站| 综合久久中文字幕| 欧美日韩一级二级三级| 无码人妻丰满熟妇精品区| 欧美日韩精品在线| 国产又粗又硬视频| 国产成人精品aa毛片| 一级黄色片在线免费观看| 影音先锋久久精品| 日本精品久久久久久久久久| 国产一区欧美| www插插插无码视频网站| 在线精品一区| heyzo国产| 日韩在线观看一区二区| 日韩视频免费在线播放| 欧美午夜不卡影院在线观看完整版免费| 在线视频不卡一区二区| 欧美黄色网视频| 蜜桃久久影院| 欧州一区二区| 激情久久av| 伊人久久综合影院| 亚洲精品日韩精品| 一区二区在线影院| 少妇人妻无码专区视频| 99精品美女| 蜜桃视频日韩| 精品国产乱码| 国产又爽又黄ai换脸| 欧美视频网站| 日韩精品视频一区二区在线观看| 美女国产一区| 久久人人爽av| 成人黄色一级视频| 亚洲精品mv在线观看| 国产麻豆午夜三级精品| 亚洲性生活网站| 免费观看久久久4p| 亚洲成人福利视频| 久久综合久久鬼色中文字| 在线观看日本www| 国产成人精品一区二| 熟女少妇一区二区三区| 国产精品传媒视频| 日韩成人一区二区三区| 欧美在线观看你懂的| 精品国产av鲁一鲁一区 | 中文字幕一区二区人妻在线不卡| 欧美国产综合色视频| 五月天丁香激情| 色哟哟国产精品免费观看| 国产精品人妻一区二区三区| 日韩精品在线视频美女| 免费黄色电影在线观看| 中文字幕欧美精品在线| 青青草视频在线免费直播| 日韩av电影国产| 日本精品视频| 亚洲综合中文字幕在线| 日韩av网站在线免费观看| 一区二区在线不卡| 欧美一级视频| 中文字幕1区2区| 中文一区一区三区高中清不卡| 久久精品国产亚洲av麻豆色欲| 欧美日韩三级一区| 日韩电影免费| 欧美国产精品日韩| 欧美亚洲综合视频| 久久婷婷人人澡人人喊人人爽| 欧美韩一区二区| 性生活免费观看视频| 99久久夜色精品国产亚洲狼 | 日本aⅴ亚洲精品中文乱码| 亚洲自拍偷拍精品| 亚洲视频一二区| 成人全视频在线观看在线播放高清| 欧美性欧美巨大黑白大战| av一区二区三| 日韩欧美国产wwwww| 国产精品一级伦理| 4444欧美成人kkkk| 日本美女一区| 国产一区二区三区av在线 | 国产日韩在线一区二区三区| 婷婷综合社区| 欧美婷婷精品激情| 国产一区在线不卡| 少妇欧美激情一区二区三区| 久久精品夜色噜噜亚洲a∨| 懂色av蜜桃av| 欧美性极品xxxx娇小| 中文字幕福利视频| 亚洲欧美在线看| 性爽视频在线| 久久精品国产美女| 国产欧美一级| 丰满大乳奶做爰ⅹxx视频| 国产精品视频九色porn| 蜜臀精品一区二区三区| 精品在线观看国产| 在线成人av观看| 欧美亚洲精品日韩| 欧美一区国产在线| 男人午夜视频在线观看| 国产精品不卡视频| 国产欧美熟妇另类久久久| 伦伦影院午夜日韩欧美限制| 成人bbav| 精品国产综合区久久久久久| 中文日韩在线| 欧美熟妇一区二区| 在线看一区二区| 亚洲欧美激情在线观看| 欧美精品激情视频| 欧美美女在线直播| 黄色片一级视频| 亚洲国产高清aⅴ视频| 国产在成人精品线拍偷自揄拍| 久久精品亚洲国产| 91精品久久久久久综合五月天| 欧美人与性禽动交精品| 视频一区在线播放| 一本一本久久a久久| 日韩一区二区三区高清免费看看| 牛牛精品在线| 久久久久国产精品视频| 久久资源在线| 欧美一级片在线视频| 精品国一区二区三区| 色影院视频在线| 91免费在线视频网站| 狠狠88综合久久久久综合网| 久久久久无码国产精品一区李宗瑞| 欧美日韩国内自拍| 成人动漫在线播放| 亚洲一区二区三区乱码aⅴ蜜桃女 亚洲一区二区三区乱码aⅴ | h片在线观看下载| 欧美精品v日韩精品v国产精品| 日本欧洲一区二区| avove在线播放| 日韩禁在线播放| 欧美男女视频| 日韩一二三区不卡在线视频| 六月丁香婷婷色狠狠久久| 欧美日韩偷拍视频| 亚洲欧美国产视频| 国内不卡的一区二区三区中文字幕 | 亚洲mm色国产网站| 一本一本久久| 一区二区三区四区影院| 懂色av中文一区二区三区天美| 番号集在线观看| 成人欧美一区二区| 日韩av中文字幕一区二区三区| 欧美成人综合色| 国产亚洲欧美视频| a看欧美黄色女同性恋|