精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

EMNLP2025 | SFT與RL的結合,vivo AI Lab提出新的后訓練方法

人工智能 新聞
本文僅在文本分類任務上進行了驗證,從原理上來分析,該方法不僅適用于文本分類任務,還有可能適用于更多的 NLP 場景。

本文的第一作者曾敏來自 vivo AI Lab,主要研究方向為大語言模型、強化學習、agent。

監督微調(SFT)和強化學習(RL)微調是大模型后訓練常見的兩種手段。通過強化學習微調大模型在眾多 NLP 場景都取得了較好的進展,但是在文本分類場景,強化學習未取得較大的進展,其表現往往不如監督學習。

SFT 和 RL 在訓練的過程中都存在各自的特點:SFT 直接對著答案「死記硬背」,簡單且有效,收斂速度快,但是泛化能力不行。而 RL 通過探索來獲得答案,泛化能力強。但強化學習只會一味地探索,而不學習答案,學習速度緩慢,可能出現長期無法得到收斂甚至最后出現訓練不穩定的現象。

為了解決這些難題,最近,vivo AI Lab 算法團隊提出了一種新的大模型后訓練框架 GTA,該方法可以綜合發揮出 SFT 的優點和 RL 的優點,成功解決了文本分類場景中 RL 收斂速度慢的問題。該論文已被 AI 頂級學術會議之一的 EMNLP 2025 錄用。

1195538705.jpg

  • 論文標題:GTA: Supervised-Guided Reinforcement Learning for Text Classification with Large Language Models
  • 論文地址:https://arxiv.org/abs/2509.12108
  • 作者郵箱:zengmin325@163.com / zengmin.ai@vivo.com

方法:把 SFT 和 RL 拼接成效率更高的后訓練范式

論文提出了 Guess–Think–Answer(GTA)框架,將監督信號與強化學習整合到單階段訓練流程,以同時獲得 SFT 的高效收斂與 RL 的性能上限。核心設計思路是把分類模型的輸出分成三個階段,并且把監督損失與強化學習的獎勵機制結合起來訓練這些階段的不同部分。輸出的三個階段如下:


  • Guess

模型首先給出一個初始猜測,這一步用傳統的交叉熵損失(cross-entropy loss)來計算初始猜測和標簽的損失。這部分是基于監督學習,以快速給模型一個容易收斂的信號。

  • Think

在完成初始的猜測之后,模型接下來開始思考輸入的問題與猜測的答案之間的關聯,并且對答案進行進一步的分析。考慮猜測是正確的或者不是正確的,分析輸入中的線索或特征等。這部分是為了讓模型能夠「反省」(reflect)猜測,從而在后面生成更好或修正的最終答案。

  • Answer

模型最終生成的答案,結合前兩個階段的信息生成。這個答案(以及整個 GTA 框架的格式結構)會由強化學習的獎勵來引導優化。也就是說,不只是最終分類任務的正確性,還有中間思考階段對最終答案的輔助或整體的結構格式也可能受到 RL 獎勵值的影響。

最終總的損失是監督損失和強化學習損失 / 目標函數的共同作用。在猜測答案的引導下,強化學習探索答案的效率和收斂速度得到了進一步提升,從而提高性能的上限。

-352289542.jpg

處理梯度沖突

為了防止不同優化目標可能帶來的梯度沖突現象,該過程使用了特定位置的 loss mask 和梯度沖突檢測。

loss mask:在計算 guess 部分交叉熵損失的時候,對于 guess 部分以外的內容進行 mask,而計算 RL 損失的時候,對 guess 部分的內容進行 mask,通過這種方式使得監督信號和 RL 優化目標之間不會相互干擾。

-353455824.jpg

梯度沖突檢測:作者參考現有的研究,通過反向傳播時的梯度的余弦相似度來檢測監督信號和 RL 信號的梯度是否發生沖突,這樣可以更穩定地融合兩種訓練信號。

實驗結果

作者在多臺多機多卡的 L40s 上基于 qwen2.5(3B)、qwen3(3B)、Llama(3B)等三個尺寸相對較小的模型上進行了分布式訓練。選擇了四個常見的文本分類數據集,分別是 SST-5、Amazon、Emotion、BBC News 數據集,每個數據集都包含了多個類別,它們覆蓋的領域主要包括情感分析、商品評價、情緒 / 情感類別識別,以及新聞 / 話題分類等。

如圖所示,作者在實驗過程中與 GRPO、SFT 進行了對比,從實驗結果可以發現 GRPO 在分類任務上的效果并不理想,而 GTA 在分類任務展示了比 SFT 和 GRPO 更好的性能。

image.png

作者跟蹤訓練過程中的獎勵值變化曲線和在測試集任務上的準確性評估曲線,來觀察訓練過程中的收斂速度。從圖中可以發現,訓練到 500–1000 step 即超過 GRPO(step 的計算包含了重要性采樣數據重復利用的次數),即使將訓練時長繼續延長至 10000 step,GRPO 仍未追上 GTA。這表明 GTA 在 guess 部分的監督信號的引導下,收斂速度遠高于 GRPO。

image.pngimage.png

此外,作者也驗證了在分類任務上,帶思考過程和不帶思考過程的準確率。如圖所示,作者在這些數據集上進行了測試,帶有思考過程的推理可以獲得更高的準確率。相比 SFT,作者提出的 GTA 方法,無需額外的人工標注推理過程,即可在訓練過程中自發地引入思考。

作者在推理的時候發現兩個現象:盡管猜測答案可以加快 RL 的收斂速度,但是模型不會盲目選擇猜測的答案作為最終答案。從圖中 case A 可以看到,模型首先輸出了一個錯誤的猜測,然后在思考過程中基于猜測的答案和已有的答案進行分析和判斷,最終成功地得出了正確答案。而從 case B 中可以看到,當生成了一個標簽列表以外的猜測答案時,模型在思考過程中會糾正這個問題,并得出最終的正確答案。

image.png

后續計劃

本文僅在文本分類任務上進行了驗證,從原理上來分析,該方法不僅適用于文本分類任務,還有可能適用于更多的 NLP 場景,作者計劃未來探索更多的場景。此外,結合監督微調和強化學習微調可能帶來更大的顯存開銷,作者在本文主要選擇小模型上進行實驗,未來將會探索更大的模型。

未來展望

SFT 和 RL 的結合正在受到更多的關注,近期的討論都集中在如何把兩種范式的優勢合并,以獲得更好的性能(如通義 CHORD 和上海人工智能實驗室的 LUFFY)。GTA 是在后訓練方向上的一種新的實踐。SFT 和 RL 的結合有望成為未來一種新的后訓練范式。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-10-10 02:15:00

2025-07-28 09:12:00

2025-06-06 04:10:00

LLM人工標注RL

2025-09-16 10:09:00

2025-08-04 08:49:00

2025-10-17 09:56:05

2025-07-03 14:58:16

模型開源AI

2022-02-28 10:31:22

人工智能視覺檢測

2025-11-17 08:38:00

AI技術論文

2025-09-04 11:58:42

2025-07-22 08:50:00

AI模型框架

2025-04-15 09:22:00

AI訓練模型

2025-04-10 09:38:37

2025-06-16 14:40:40

模型AI訓練

2025-09-10 09:10:00

2025-10-27 09:11:00

2025-03-12 12:10:13

2025-11-14 08:42:00

2024-12-16 07:20:00

點贊
收藏

51CTO技術棧公眾號

欧美亚洲精品日韩| 26uuu亚洲伊人春色| 无码人妻少妇色欲av一区二区| caoporn97在线视频| av亚洲产国偷v产偷v自拍| 日韩美女免费观看| 免费在线观看国产精品| 久久99视频| 日韩精品一区二区三区老鸭窝 | 欧美一区在线看| 国产视频亚洲视频| 熟妇女人妻丰满少妇中文字幕| 自由日本语热亚洲人| 亚洲人成7777| 日本一区二区三区视频免费看| 精品久久久免费视频| 日韩电影在线一区| 97人人做人人爱| 91精品一区二区三区蜜桃| 妖精视频一区二区三区| 欧美v国产在线一区二区三区| 欧美综合在线观看视频| 牛牛电影国产一区二区| 国产精品国产三级国产aⅴ入口| 国产偷国产偷亚洲高清97cao| 国产一区二区视频免费观看| 久久国产精品99国产| 国内精品免费午夜毛片| www色aa色aawww| 青青草原综合久久大伊人精品| 亚洲精品在线观看网站| 亚洲女人在线观看| 91精品国产66| 欧美亚洲日本一区| 国产又大又硬又粗| 在线观看涩涩| 亚洲成人在线网站| 被灌满精子的波多野结衣| 久久久久久国产精品免费无遮挡 | 久久国产精品99精品国产 | 男人添女人下部视频免费| 粉嫩一区二区三区国产精品| 26uuu亚洲| 精品综合久久久| 欧美一区二区三区黄片| 国产 日韩 欧美大片| eeuss一区二区三区| www.成人精品| 国产精品夜夜嗨| 91久久爱成人| 丰满少妇在线观看bd| 国产成人av一区二区| 99影视tv| 欧美特级特黄aaaaaa在线看| 不卡一区二区在线| 久久久影院一区二区三区| 午夜av免费在线观看| www.爱久久.com| 国产在线精品一区二区三区| 色综合免费视频| 91在线视频网址| 久久亚洲国产精品日日av夜夜| 亚洲人视频在线观看| 91看片淫黄大片一级在线观看| 久久国产精品久久精品国产| 日韩电影免费| 日本一区二区三区视频视频| 亚洲精品免费在线看| 黄色网址在线免费播放| 日韩欧美第二区在线观看| 亚洲午夜无码久久久久| 日日夜夜精品免费视频| 国产精品一区二区3区| 中文字幕乱码在线观看| 精品一区二区精品| 91手机在线视频| 少妇精品高潮欲妇又嫩中文字幕 | 亚洲综合视频在线| 蜜臀av无码一区二区三区| 亚洲深夜视频| 欧美色图一区二区三区| 免费欧美一级片| 日韩a级大片| 原创国产精品91| 超碰手机在线观看| 国产视频一区免费看| 国产精品吹潮在线观看| www.色日本| 久久精品这里都是精品| 三年中文高清在线观看第6集| 丝袜中文在线| 欧美综合亚洲图片综合区| 亚洲综合20p| 亚洲资源网站| 欧美大成色www永久网站婷| 成年人午夜视频| 美女网站一区二区| 国产嫩草一区二区三区在线观看| 免费黄网站在线观看| 亚洲色图制服丝袜| 国产xxxxx在线观看| 国产精品一区二区精品| 亚洲精品一区中文| 伊人在线视频观看| 欧美亚洲三级| 99久久伊人精品影院| 国产福利在线看| 亚洲va欧美va国产va天堂影院| 亚洲不卡视频在线| 林ゆな中文字幕一区二区| 日韩在线视频播放| 久久久久久不卡| 国产91丝袜在线播放九色| 亚洲国产精品一区在线观看不卡| 91九色在线看| 日韩女优毛片在线| 国产农村妇女精品一区| 亚洲欧美卡通另类91av| 福利视频一区二区三区| 美女羞羞视频在线观看| 91久久精品国产91性色tv| 丰满少妇xbxb毛片日本| 外国成人激情视频| 国产精品激情av电影在线观看| 天堂成人在线观看| 一区二区三区欧美激情| 中国黄色片一级| 日韩毛片视频| 国产精品成人aaaaa网站| 天堂中文资源在线观看| 亚洲制服欧美中文字幕中文字幕| 日本高清久久久| 日本一区二区免费高清| 国产精品99久久久久久白浆小说| 五月激情婷婷网| 亚洲一区二区高清| 农村末发育av片一区二区| 亚洲最新色图| 91社区国产高清| 欧美18一19xxx性| 欧美日韩国产综合一区二区三区| 无码人妻aⅴ一区二区三区69岛| 亚洲一区二区三区免费在线观看 | 日韩国产综合| 国产精品美乳在线观看| 二区三区在线| 欧美私人免费视频| www.黄色com| 狠狠久久亚洲欧美| 男同互操gay射视频在线看| 国产精久久一区二区| 欧美成人精品激情在线观看| 国产乱码精品一区二三区蜜臂| 日韩码欧中文字| 午夜免费视频网站| 欧美日韩三级| 激情五月综合色婷婷一区二区| 老司机深夜福利在线观看| 亚洲精品国产福利| 久久精品视频5| 国产精品美女久久久久久| 天堂在线中文在线| 你懂的一区二区| 国产一区二区三区高清| 亚洲精品永久免费视频| 国产亚洲一区二区在线| 一级黄色大片网站| 亚洲精品视频在线观看网站| 久久无码专区国产精品s| 国产欧美日韩一级| 色女人综合av| 国产精品久久久久久久久久久久久久久 | 欧美女子与性| 欧美日韩国产首页在线观看| www.xxxx日本| aaa欧美色吧激情视频| 97公开免费视频| 国产精品99在线观看| 成人免费视频网站入口| 中文字幕在线视频久| 最近中文字幕日韩精品| 亚洲精品免费在线观看视频| 狠狠色噜噜狠狠狠狠97| 国产主播av在线| 成人久久18免费网站麻豆 | 精品久久久网| 久久久久久久网站| 国产69久久| 精品免费日韩av| 久久精品五月天| 一区二区国产盗摄色噜噜| 一二三不卡视频| 激情成人综合网| 久久无码高潮喷水| 66久久国产| 日本一区二区精品| 无人区乱码一区二区三区| 欧美一级黑人aaaaaaa做受| 日本在线免费看| 日韩精品极品视频免费观看| 国产一区二区三区成人| 日韩欧美有码在线| 国产成人av免费在线观看| 久久久三级国产网站| 少妇献身老头系列| 美女国产一区二区三区| 熟女少妇在线视频播放| 欧美一区免费| 亚洲一区二区不卡视频| 噜噜噜天天躁狠狠躁夜夜精品 | 成人免费在线播放视频| 99久久人妻无码中文字幕系列| 另类调教123区| 欧美xxxxx在线视频| 亚洲第一网站| 麻豆传媒网站在线观看| 欧美日韩一区二区三区视频播放| 国产日韩在线一区二区三区| 国产精品igao视频网网址不卡日韩| 国产97在线亚洲| 热三久草你在线| 欧美激情视频一区二区| 成人ww免费完整版在线观看| 中文欧美在线视频| 国产黄在线播放| 亚洲精品久久久久中文字幕二区 | 久久91视频| 国产ts一区二区| 国产嫩草在线视频| 美日韩精品视频免费看| 蜜桃视频网站在线| 久久精品99久久香蕉国产色戒| 成人精品一区二区三区免费 | 国产精品精品软件视频| 久久久91麻豆精品国产一区| 国产精自产拍久久久久久| 蜜桃视频成人m3u8| 国产精品成人国产乱一区| 欧美香蕉视频| 日韩av免费在线| 欧美私密网站| 奇门遁甲1982国语版免费观看高清| 888av在线视频| 国内精品久久久久久| 国产乱码午夜在线视频| 97欧美精品一区二区三区| 欧美调教sm| 国产成人精品av| 日本在线精品| 国产日韩欧美一二三区| 欧美jizz18| 91天堂在线观看| japanese色系久久精品| 国产乱子伦精品| 妖精视频一区二区三区免费观看| 女人一区二区三区| 国产成人手机高清在线观看网站| 欧美视频1区| 日本大胆欧美| 午夜久久久久久久久久久| 午夜日韩在线| 亚洲熟妇无码另类久久久| 亚洲欧美高清| 少妇一级淫免费放| 国产美女主播视频一区| 日本精品一二三| 91免费看`日韩一区二区| 精品无码在线观看| 成人免费在线观看入口| 久久精品这里有| 色婷婷精品久久二区二区蜜臂av| 在线视频你懂得| 日韩一区二区三区电影在线观看 | 自拍偷拍精品视频| 777亚洲妇女| 黄频在线免费观看| 日韩精品在线观看一区| av网站在线播放| 欧美黑人国产人伦爽爽爽| 欧美私密网站| 91影视免费在线观看| 里番精品3d一二三区| 一本久道久久综合| 亚洲福利国产| 91香蕉视频污版| 国产91在线观看| 日本精品久久久久中文| 亚洲一区二区三区四区五区中文 | 国产乱码精品一区二区三区av| 国产性生活毛片| 国产精品久久夜| 日韩精品成人一区| 欧美日韩黄色一区二区| 乱精品一区字幕二区| 中国日韩欧美久久久久久久久| 欧美一卡二卡| 国产精品永久在线| 噜噜噜天天躁狠狠躁夜夜精品 | 日韩午夜免费| 精品综合久久久久| 久久综合五月天婷婷伊人| 午夜精品福利在线视频| 色婷婷国产精品| 动漫av一区二区三区| www.xxxx欧美| 亚洲成人看片| 国产伦精品一区二区三区四区免费 | 亚洲人成电影网站色| 男女在线观看视频| 成人有码在线视频| 国产影视精品一区二区三区| 日本手机在线视频| 国产一区二区在线电影| 亚洲图片第一页| 欧美日韩中文字幕综合视频 | 天堂综合在线播放| 欧美日本韩国国产| 99日韩精品| 一二三区视频在线观看| 亚洲欧美另类在线| 又骚又黄的视频| 亚洲全黄一级网站| 自拍网站在线观看| 国产在线一区二区三区播放| 中文字幕午夜精品一区二区三区| 欧美大尺度做爰床戏| 久久久精品国产免大香伊| 国产成人精品a视频一区| 欧美成人欧美edvon| caoporm免费视频在线| 国产一区二区在线播放| 日韩理论电影大全| 国产三级三级看三级| 欧美激情一区二区在线| jizz国产在线| 国产一区二区三区直播精品电影| 女海盗2成人h版中文字幕| 国产一区二区自拍| 亚洲激情成人| 日韩精品人妻中文字幕有码| 亚洲一级在线观看| 丰满人妻av一区二区三区| 欧美激情女人20p| 好吊妞视频这里有精品| 国产无限制自拍| 99久久婷婷国产综合精品电影| 97人人澡人人爽人人模亚洲| 亚洲第一精品福利| 性欧美18xxxhd| 你懂的视频在线一区二区| 亚洲欧美日韩一区在线观看| 日韩精品卡通动漫网站| 色综合久久中文字幕综合网 | 青青草久久爱| 欧美成人xxxxx| 久久久www成人免费无遮挡大片| 岛国av中文字幕| 色香阁99久久精品久久久| 亚洲综合视频| 美女扒开大腿让男人桶| www国产精品av| 日韩不卡高清视频| 久久久成人精品| jizz18欧美18| 成年人黄色片视频| 国产精品色噜噜| 国产成人精品白浆久久69| 久久久久亚洲精品| 亚洲日本三级| 免费成人黄色大片| 亚洲一区二区三区四区在线免费观看| 天天操天天插天天射| 国产成人av在线| 亚洲一级毛片| 欧洲一级黄色片| 欧美少妇性性性| 日本一本在线免费福利| 日本在线视频一区| 国产一区欧美日韩| 国产成人精品一区二三区| 色诱女教师一区二区三区| 538任你躁精品视频网免费| 人妻熟女一二三区夜夜爱| 1000部国产精品成人观看| 性插视频在线观看| 成人av资源在线播放| 国产亚洲成人一区| 永久免费看片直接| 日韩理论片久久| 蜜桃在线一区| 久久九九国产视频| 亚洲综合激情另类小说区| 黄色免费在线播放| 岛国视频一区| 麻豆极品一区二区三区| 国产一级精品视频| 久久国产精品久久久| 国产成人调教视频在线观看| 亚洲欧洲国产视频| 欧美人成免费网站|