精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

同時監督和強化的單階段大模型微調,告別“先背書再刷題”,推理泛化雙提升|中科院&美團等

人工智能 新聞
中國科學院自動化研究所深度強化學習團隊聯合美團,提出一種單階段監督-強化微調方法——SRFT (Supervised Reinforcement Fine-Tuning)。該方法通過基于熵的動態加權機制,將兩種訓練范式結合。

通過單階段監督微調與強化微調結合,讓大模型在訓練時能同時利用專家演示和自我探索試錯,有效提升大模型推理性能。

中國科學院自動化研究所深度強化學習團隊聯合美團,提出一種單階段監督-強化微調方法——SRFT (Supervised Reinforcement Fine-Tuning)。該方法通過基于熵的動態加權機制,將兩種訓練范式結合。

圖片

圖片

圖注:SRFT方法示意圖,展示了對探索試錯(rollout)數據和演示(demonstration)數據的協同學習,以及平衡監督和強化信號的熵感知策略更新。

在大語言模型(LLM)的推理能力提升上,監督微調(SFT) 和強化學習(RL,有時也稱作強化微調,RFT)是兩條核心技術路線。但它們各自都存在瓶頸:

SFT擅長模仿專家解題思路,類似“背書”,能快速為模型打下基礎,但缺點是容易陷入死記硬背,缺乏在新問題上靈活應用和尋找最優解的能力;

RFT/RL通過不斷試錯來探索解題方法,類似“刷題”,能夠發現更優解法,但其探索過程效率低下,容易面臨模式崩潰風險。

因此,目前研究者通常采用兩階段順序方法SFT→RFT/RL:先用SFT學習高質量數據集,再用RFT/RL進一步優化對齊LLM策略(即先“背完書”再“去刷題”)。

然而,這種串行方式不僅影響學習效率,還常常導致模型在“刷題”時忘了“書本”上的知識,引發知識遺忘等問題,如何讓兩者在同一階段協同作用,做到“邊背邊練”,成為提升 LLM 推理能力的關鍵之一。

結果顯示,SRFT方法能夠同時從高質量演示數據(demonstrations)與LLM自身的探索試錯(rollouts)中學習,在5項數學推理任務中實現59.1%的平均準確率,較zero-RL基線提升9.0% ;在三項分布外任務上取得62.5%的平均準確率,較zero-RL基線提升10.9% ,展現了卓越的泛化能力。

圖片

△SRFT與其它算法的性能對比

分析:面向 LLM 推理的 SFT 和 RL

研究團隊首先對SFT與RL在LLM微調中的作用進行了分析,并深入探究了二者結合的有效路徑。

SFT和RL對LLM的作用:大錘vs.手術刀

圖片

圖注:LLM 微調前后分布可視化, (a) SFT 與 RL 前后分布改變示例 (b) 在5個數據集上統計了分布變化的頻率。

通過對微調前后模型對token概率的改變進行可視化,仔細分析實驗結果,可以得到以下發現:

  • SFT導致大部分 token (50%以上)的概率分布改變(粗粒度)
  • RL/RFT只對特定 token (少于2%)進行有針對性的調整,同時保留了大部分內容(細粒度)

從理論上看,SFT的目標是最大化專家數據的似然,將專家演示的條件概率分布 “注入” 模型,類似人們通過“背書”學習,其梯度公式揭示了其內在機制:

該公式表明,對單個樣本訓練,SFT主要通過提高目標標記的概率,同時降低詞匯表中所有其他標記的概率,這會銳化模型的分布,從而產生更具確定性的輸出。 通過這種“一刀切”的方式,SFT強制模型去擬合專家數據,但也可能因此抑制模型的探索性和多樣性。

訓練動態可視化如下圖所示,數字表示訓練后的準確率。SRFT 通過在結合兩種方法實現直接優化,到達與SFT→RL接近的區域,且無需兩階段轉換。

圖片

為了進一步探究訓練動態,研究人員還從模型訓練軌跡的角度對幾種微調方法進行了可視化。論文提出了一種新穎的可視化方法。其核心思想是:

將不同模型看作高維空間中的點,通過計算它們在生成相同回復(response)時輸出token概率分布的“距離”,來描繪其在訓練過程中的“移動軌跡”。

具體而言,論文引入了三個參考模型——基礎模型(Qwen-2.5-Math-7B)、DeepSeek-R1和QwQ-32B作為坐標系,通過模型與參考模型回復的 teacher forcing 距離來間接測量模型在不同微調步驟中的訓練動態(如果兩個模型對所有提示(prompt)中的所有回復token分配相似的概率,則認為它們是接近的)。

結果表明,所有微調范式在提升性能的同時,均會偏離基礎模型空間,此外:

  • SFT使模型在概率空間中移動的距離最遠,印證了其“大錘”般的全局性影響。
  • SFT→RL的兩階段路徑揭示了一個問題:SFT可能將模型推得“過遠”,后續的RL反而需要將其“拉回”到離基礎模型更近的區域才能達到最優,這暗示了串行方法的低效性。
  • SRFT的單階段路徑則顯得更為直接和高效,它在學習專家知識的同時,沒有過度偏離初始模型,從而實現了更精準的優化。

結合兩種范式:從兩階段到單階段

熵是信息論中的一個重要概念,它衡量的是隨機變量的不確定性。在 LLM 的推理過程中,熵可以反映模型輸出分布的不確定性,近期的諸多工作也展示了熵在 LLM 訓練中的重要性

高熵表示模型的輸出分布較為均勻,不確定性較大;低熵則表示模型的輸出分布較為集中,不確定性較小。

圖片

圖注:兩種結合方式的性能、熵變化曲線

在該論文中,研究人員主要從SFT和RL結合的角度對熵展開了分析,如上圖所示。 在RL后進行SFT,會使模型的熵短暫增加,這表明模型在學習新的知識和模式時,其輸出分布變得更加不確定

隨著訓練的進行,熵逐漸降低,模型逐漸收斂,輸出分布變得更加確定,最終提升模型性能。

相比之下,RL在訓練過程中則會使熵顯著降低,模型的輸出分布變得更加集中。這是因為RL通過獎勵函數引導模型學習特定的策略,使模型更傾向于生成能夠獲得高獎勵的輸出。然而,這種低熵的狀態也可能導致模型的可塑性降低,限制了后續訓練的效果。

圖片

圖注:不同結合方式的訓練效率

論文接著比較了純RL、不同SFT步數的順序SFT→RL方法,以及單階段SFT+RL方法。結果表明,與順序SFT→RL方法相比,單階段SFT+RL方法實現了更優的訓練效率。單階段SFT+RL方法通過統一優化有效利用演示數據,提速2.28倍。這種方法能夠直接針對目標進行策略優化,同時保留從數據集中通過監督學習進行知識蒸餾的優勢。

方法:監督強化微調(SRFT)

本論文提出SRFT (Supervised Reinforcement Fine-Tuning),將監督微調(SFT)和強化學習微調(RFT/RL)單階段結合。以下是對方法的描述:

核心思想

SRFT的核心在于其單階段學習機制:通過SFT實現粗粒度行為策略逼近,通過RL實現細粒度策略精化,借助于單階段訓練,將微調同時應用于演示數據和自生成的試錯數據。

從演示數據(demonstration)中學習

分布不匹配緩解策略

其中:

  • 樣本目標:類似于監督微調,最大化正確響應的似然
  • 負樣本目標:實施似然最小化,減少分配給錯誤響應的概率

單階段集成方法

統一損失函數

通過同時利用演示數據和自探索試錯數據,SRFT有效平衡了SFT的粗粒度調整與RL的細粒度優化。總損失函數結合了所有四個組件:

關鍵機制總結

1. 熵感知權重:兩種熵感知權重機制確保訓練穩定性

  • :當策略展現高熵(不確定性)時,權值降低,減少SFT對訓練的影響
  • :當熵較高時,使RL訓練中正樣本訓練的權值上升,使熵下降,從而促進熵的穩定

2. 單階段優化:直接朝著目標函數優化,同時保持來自數據集的監督學習的知識蒸餾優勢

這種方法使SRFT能夠同時從演示數據和自探索試錯數據中受益,同時通過兩種熵感知權重機制保持穩定的訓練動態。

結果:性能顯著優于zero-RL方法,與其它結合方法相比提升明顯

關鍵發現

主要實驗結果(包含5個數學推理基準和3個非數學基準):

圖片

仔細分析SRFT與SFT、RL以及SFT與RL結合相關方法的性能比較,可以得到以下發現:

  1. 顯著性能提升:
  • SRFT在五個挑戰性競賽級推理基準上取得了59.1%的平均準確率
  • 比最佳zero-RL基線方法提升了+9.0個百分點
  • 比SFT方法提升了+4.8個百分點
  • 比SFT+RL組合方法提升了+3.4個百分點
  1. 泛化能力優秀:
  • 平均分數: SRFT取得62.5分,比最佳基線提升+4.7個百分點
  • 跨域表現: 在所有三個分布外基準上都表現出色

訓練動態分析:更穩、更長、更高效

圖片

△訓練動態曲線(獎勵、回復長度、熵)
  1. 訓練獎勵動態
  • SRFT相比純RL實現了更快的性能改進,提速2.33倍
  • 兩種方法都顯示出訓練獎勵的上升趨勢
  • SRFT的收斂更加穩定
  1. 響應長度變化
  • RL:傾向于生成更簡潔的響應
  • SRFT:顯示出響應的逐步延長,表明發展出更全面詳細的推理過程
  • 推理質量:響應長度的增加表明模型發展出更深入的推理過程
  1. 訓練熵動態
  • RL: 表現出快速的熵下降
  • SRFT: 維持更穩定的熵,表明策略能夠在訓練期間繼續探索
  • 訓練穩定性: 熵感知權重機制的有效性得到驗證

總結

該工作分析探究了SFT與RL在LLM推理任務中各自的特點與結合方式,提出的SRFT方法通過基于熵的權重機制實現了SFT與RL的單階段結合。SRFT成功地在單階段訓練流程中實現了知識學習(SFT)與自主探索(RFT/RL)的動態平衡 ,在多項任務上取得了推理性能和泛化性能雙提升。

更多研究細節,可參考原論文。

項目網頁: https://anonymous.4open.science/w/SRFT2025
論文鏈接: https://arxiv.org/abs/2506.19767
模型鏈接: https://huggingface.co/Yuqian-Fu/SRFT

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-11-10 17:07:13

AI模型自動化

2025-06-26 09:06:59

2024-09-03 10:20:00

框架模型

2025-03-11 13:49:20

2025-06-17 08:47:00

2024-03-07 12:31:29

AI技術

2025-05-09 08:40:00

2025-10-30 16:04:35

AI模型機器人

2024-09-09 10:00:00

模型訓練

2025-08-01 14:32:35

AI模型訓練

2025-09-22 09:25:08

2025-07-21 08:51:00

2025-05-29 09:08:00

模型推理AI

2025-02-26 13:00:00

2025-02-08 13:30:00

2025-07-02 08:43:00

數據訓練模型

2025-04-09 09:15:00

數據模型AI

2024-12-31 09:10:00

2017-05-15 15:07:36

納米材料農藥

2025-01-22 09:32:30

點贊
收藏

51CTO技術棧公眾號

一本色道久久综合无码人妻| 无码人妻精品一区二区三| 香蕉视频在线播放| 久久激情综合网| 色综合五月天导航| 在线免费观看成年人视频| 成人黄色在线| 五月激情综合婷婷| 亚洲欧洲国产精品久久| 黄色av网站免费在线观看| 久热精品在线| 欧美激情亚洲一区| 精品一区二区6| 久久久久久久久久久久久久久久久久久久 | 国内成人在线| 一本一本久久a久久精品综合小说 一本一本久久a久久精品牛牛影视 | 69p69国产精品| 九色在线视频观看| 国产一二三区在线观看| 95精品视频在线| 亚洲一区久久久| 成人一级免费视频| 一区福利视频| 久久久精品美女| 欧美黄色激情视频| 国产精品色呦| 欧美一区二区成人| 国语对白做受xxxxx在线中国| 欧美xxxx免费虐| 亚洲视频一区二区在线观看| 欧美一级片免费观看| 国产chinasex对白videos麻豆| 久久久国产亚洲精品| 久久久免费精品视频| 69夜色精品国产69乱| 加勒比久久综合| 日韩极品精品视频免费观看| 国产清纯白嫩初高中在线观看性色| 国产福利91精品一区二区| 色婷婷av一区二区三区软件| 可以看毛片的网址| 欧美hdxxxx| 洋洋av久久久久久久一区| 天天综合中文字幕| 幼a在线观看| 欧美激情一二三区| 日韩免费三级| 在线观看av黄网站永久| 国产女主播在线一区二区| 欧美精品与人动性物交免费看| 无码h黄肉3d动漫在线观看| 国产成人在线视频网站| 亚洲自拍欧美另类| 国产草草影院ccyycom| 国产综合色视频| 成人日韩在线电影| 亚洲天堂999| 精品一区二区国语对白| 成人福利在线视频| av中文字幕观看| 国产99精品在线观看| 成人激情av| 蜜桃视频在线观看www| www.66久久| 久久66热这里只有精品| 日本中文字幕一区二区有码在线| 91色|porny| 日韩国产精品一区二区| 香蕉视频网站在线观看| 亚洲欧美国产77777| 日韩精品手机在线观看| 伊人222成人综合网| 亚洲成人免费在线观看| 亚洲熟妇av一区二区三区漫画| 中文字幕高清在线播放| 日本电影亚洲天堂一区| 9l视频白拍9色9l视频| 国产乱码精品一区二区三区亚洲人| 日韩欧美不卡一区| 少妇一级淫片免费放播放| 九九视频免费观看视频精品| 日韩中文在线中文网在线观看| 国产在线观看免费视频软件| 国产一区欧美| 日本在线观看天堂男亚洲| 97国产成人无码精品久久久| 成人精品电影在线观看| 日韩电影免费观看高清完整| 国产cdts系列另类在线观看| 亚洲成av人**亚洲成av**| 成人在线观看a| 精品精品视频| 国产视频精品va久久久久久| frxxee中国xxx麻豆hd| av不卡在线| 成人黄色短视频在线观看| 蜜臀久久久久久999| 国产欧美一区二区三区鸳鸯浴| 大桥未久一区二区三区| 樱花草涩涩www在线播放| 91麻豆精品国产自产在线| 污污免费在线观看| 日韩中文在线电影| 51午夜精品视频| 99久久久久久久| 国产网站一区二区| 日韩激情视频一区二区| 黄色成人小视频| 日韩av影视综合网| 91人妻一区二区三区蜜臀| 午夜亚洲性色福利视频| 91久久爱成人| 在线视频三区| 欧美性猛交xxxx免费看漫画| 午夜影院免费观看视频| 国产成人1区| 97成人精品视频在线观看| 国产深喉视频一区二区| 久久久精品天堂| 欧美日韩精品在线一区二区| 日本伊人久久| 日韩性生活视频| 日韩av免费播放| 972aa.com艺术欧美| 日韩精品一区二区在线视频| 欧美视频第一| 尤物yw午夜国产精品视频| 日韩大片免费在线观看| 国产美女久久久久| 亚洲精品视频一区二区三区| 韩日精品一区二区| 亚洲精品第一国产综合精品| 国产无码精品视频| 国产高清无密码一区二区三区| 亚洲免费久久| 99re久久| 国产一区二区三区丝袜| 伊人中文字幕在线观看| 99精品1区2区| 777精品久无码人妻蜜桃| 亚洲国产精品免费视频| 精品中文字幕在线观看| 国产精品人人爽| 自拍偷在线精品自拍偷无码专区| 午夜激情av在线| 色无极亚洲影院| 国产欧美精品一区二区| 天堂中文а√在线| 精品视频一区三区九区| av在线播放中文字幕| 免费看欧美女人艹b| 视频一区国产精品| 国产精品第一国产精品| 伊人久久五月天| 中文字幕人妻互换av久久| 国产精品无圣光一区二区| gogogo高清免费观看在线视频| 欧美一二区在线观看| 国产日韩欧美在线看| 麻豆视频在线| 日韩欧美久久久| 精品人妻在线播放| 97久久精品人人做人人爽50路| youjizz.com在线观看| 极品束缚调教一区二区网站| 欧美亚洲国产日本| 美丽的姑娘在线观看免费动漫| 在线观看视频欧美| 国产在视频线精品视频| 国产成人在线视频免费播放| 久久久久久av无码免费网站下载| 国产精品zjzjzj在线观看| 91精品国产高清| av在线播放免费| 欧美一区二区二区| 亚洲精品1区2区3区| 国产欧美一区视频| 亚洲午夜精品在线观看| 亚洲精品影视| 亚洲午夜精品一区二区三区| 秋霞一区二区| 青青草原成人在线视频| 欧美另类极品| 亚洲国产中文字幕在线观看| 亚洲av人无码激艳猛片服务器| 亚洲色图视频网站| 少妇一级淫免费观看| 久久精品30| 日本天堂免费a| 亚洲婷婷影院| 91欧美激情另类亚洲| 国产理论在线| 久久人人爽亚洲精品天堂| 人妻91麻豆一区二区三区| 日韩欧美中文第一页| 青花影视在线观看免费高清| 99热精品一区二区| av亚洲天堂网| 久久成人免费| av无码久久久久久不卡网站| 欧洲激情综合| 国产欧美日韩在线播放| 免费高清视频在线一区| 色综合久久久久久中文网| 国产综合在线观看| 亚洲精品一区二区三区蜜桃下载 | 欧美区在线观看| 久久不卡免费视频| 亚洲乱码国产乱码精品精的特点| 少妇久久久久久久久久| 国产经典欧美精品| 在线免费观看视频黄| 国产精品综合色区在线观看| 色哺乳xxxxhd奶水米仓惠香| 欧美一区电影| 欧美日韩在线不卡一区| 国产精品sss在线观看av| 成人情趣片在线观看免费| 欧美最新精品| 91极品女神在线| 在线xxxx| 久久国产天堂福利天堂| 永久免费av在线| 亚洲欧美日韩区| 亚洲 欧美 自拍偷拍| 日韩一级片网址| 91久久精品国产91性色69| 在线一区二区三区四区五区 | 欧美日韩精品欧美日韩精品| www.国产毛片| 精品色蜜蜜精品视频在线观看| 久久久久亚洲AV| 亚洲最新视频在线观看| 日韩a级片在线观看| 国产精品福利一区| 快灬快灬一下爽蜜桃在线观看| 久久亚洲一级片| 成人h动漫精品一区| 99re视频这里只有精品| av在线播放网址| 成人a免费在线看| 日本天堂在线播放| 成人黄页在线观看| 国产51自产区| av在线不卡网| 亚洲av无码成人精品国产| aaa国产一区| 精品少妇人妻一区二区黑料社区 | 青青青伊人色综合久久| 国产精品人人妻人人爽人人牛| 另类图片国产| 亚洲视频在线观看一区二区三区| 日韩成人av影视| 黄色在线视频网| 麻豆精品视频在线观看免费| 欧美丝袜在线观看| 国产精品一区在线观看乱码| 亚洲区 欧美区| 成人18视频在线播放| 草草地址线路①屁屁影院成人| 久久久久久久久免费| 五月天精品在线| 亚洲免费观看高清完整版在线观看熊| 国产suv一区二区三区| 亚洲国产日韩一区二区| 国产一级片毛片| 欧美色图在线观看| 国产影视一区二区| 日韩一区二区精品| 色一情一乱一乱一区91av| 亚洲精品视频播放| 成人午夜电影在线观看| 久久夜色精品国产亚洲aⅴ| 久草在线资源站资源站| 91a在线视频| 国产成人久久精品麻豆二区| ts人妖另类在线| 人人精品视频| 一本久道久久综合| 欧美视频二区| 国产97色在线 | 日韩| 国产一区二区导航在线播放| 视频免费在线观看| 国产精品无圣光一区二区| 久久久久成人精品无码| 色狠狠av一区二区三区| 亚洲大尺度网站| 亚洲欧美一区二区三区久久 | 成人在线免费视频观看| 青青视频免费在线| 久久精品一本| 青娱乐国产精品视频| 久久婷婷国产综合国色天香| 国产精品精品软件男同| 欧美日韩国产中文精品字幕自在自线| 在线视频你懂得| 亚洲国产日韩精品在线| 男人的天堂在线视频免费观看 | 亚洲我射av| 久久久久久久免费| 亚洲女同一区| 无码人妻精品一区二区三区66| 国产成人日日夜夜| 少妇av片在线观看| 亚洲大片精品永久免费| 在线视频欧美亚洲| 亚洲美女动态图120秒| 怡红院在线观看| 91精品久久久久久久久久久久久久| 精品女人视频| 午夜久久久久久久久久久| 肉肉av福利一精品导航| 日本一区二区在线观看视频| 最新热久久免费视频| 久久精品99北条麻妃| 日韩大陆毛片av| 久久电影网站| 91麻豆蜜桃| 午夜激情久久| 日韩一级理论片| 久久午夜免费电影| 黄网站免费在线| 日韩欧美国产一区二区在线播放| 瑟瑟视频在线| 国产精品久久久| 亚洲区小说区| 日本精品免费在线观看| 成人av免费在线播放| 精品一区在线观看视频| 欧美丰满嫩嫩电影| 欧美极品视频| 国产在线拍偷自揄拍精品| 成人三级视频| 另类小说第一页| 国产片一区二区三区| 国产成人a v| 中文字幕在线精品| 国产精品久久久久久久久免费高清| 日产中文字幕在线精品一区| 亚洲欧美大片| 少妇久久久久久久久久| 在线欧美小视频| 3p视频在线观看| 国产精品自产拍在线观| 久久精品国产68国产精品亚洲| 亚洲色图久久久| 国产精品久久久久久久久搜平片| 欧美高清69hd| 精品国产依人香蕉在线精品| 在线欧美激情| 欧美日韩午夜爽爽| 粉嫩一区二区三区性色av| 久久久久久国产精品视频| 精品成人佐山爱一区二区| hd国产人妖ts另类视频| 九九久久99| 首页综合国产亚洲丝袜| 手机免费观看av| 欧美一区午夜精品| 欧美6一10sex性hd| 国产原创精品| 日韩高清在线电影| 国产91在线播放九色| 日韩一级黄色片| 波多一区二区| 欧美一区2区三区4区公司二百| 美女视频免费一区| 国产探花在线免费观看| 亚洲第一精品夜夜躁人人爽| 深夜福利视频一区二区| 天天综合色天天综合色hd| 久99久精品视频免费观看| 九九热最新地址| 日韩av中文字幕在线免费观看| 成人影院入口| 干日本少妇视频| 99久久er热在这里只有精品15 | 精品一区二区免费| 久久精品一区二区三| 精品伊人久久97| 色综合一区二区日本韩国亚洲 | 亚洲成人激情在线| 成人午夜视屏| 麻豆视频传媒入口| 91偷拍与自偷拍精品| 中文字幕一区二区三区四区免费看| 欧美成人精品不卡视频在线观看| 美国成人xxx| 三区视频在线观看| 性做久久久久久| 日本免费中文字幕在线| 久久大片网站| 极品少妇xxxx精品少妇| 久久亚洲精品国产| 色婷婷av一区二区三区久久| 欧洲亚洲一区二区三区| 久久人人爽av| 色综合久久中文综合久久牛| a级在线观看| 色噜噜一区二区|