精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

SFT在幫倒忙?新研究:直接進行強化學習,模型多模態(tài)推理上限更高

人工智能 新聞
「盡管經過 SFT 的模型可能看起來在進行推理,但它們的行為更接近于模式模仿 —— 一種缺乏泛化推理能力的偽推理形式。」

隨著 OpenAI 的 o1/o3 和 Deepseek-R1 等具備強大推理能力的大語言模型相繼問世,學界普遍采用「監(jiān)督微調 + 強化學習」的兩階段訓練范式:先通過推理數據進行監(jiān)督微調(SFT),再通過強化學習(RL)進一步提升性能。這種成功模式啟發(fā)了研究人員將其優(yōu)勢從純文本領域拓展到視覺 - 語言大模型(LVLM)領域。

但近日的一項研究成果卻給出了一個驚人的發(fā)現:「SFT 可能會阻礙學習 —— 經常導致出現偽推理路徑,而 RL 則是在促進真正的多模態(tài)推理!」

圖片

這個發(fā)現來自加州大學圣克魯茲分校和德克薩斯大學達拉斯分校等機構的一個研究團隊,他們深入探討了「SFT+RL」這一經典范式在視覺語言模型開發(fā)中的適用性,其中重點關注了兩個核心問題:1)SFT 與 RL 在多模態(tài)推理中分別產生何種獨特作用?2)這種兩階段訓練對 LVLM 的推理能力是否確有必要?

圖片

  • 論文標題: SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models 
  • 論文地址:https://arxiv.org/pdf/2504.11468
  • 項目頁面:https://ucsc-vlaa.github.io/VLAA-Thinking/

為系統(tǒng)性地研究這些問題,研究者構建了首個支持 SFT 與 RL 的全方位高質量圖文推理數據集 VLAA-Thinking。下表給出了該數據集的統(tǒng)計數據。

圖片

與現有數據集不同,該數據集包含基于 R1 模型「先思考后回答」范式生成的完整推理鏈條,其中 SFT 分支包含適合視覺指令調優(yōu)的多模態(tài)思維鏈(CoT)樣本,強化學習分支則從同源數據中篩選更具挑戰(zhàn)性的樣本以激發(fā)深度推理行為。

為有效遷移純文本模型的推理能力,研究者設計了六階段數據處理流程:元數據收集→圖像描述生成→基于 R1 的知識蒸餾→答案重寫→人工驗證→數據劃分。

具體而言,他們將圖像描述和視覺問題輸入 DeepSeek-R1 生成初始推理軌跡,經改寫優(yōu)化流暢度后,再由 GPT 驗證器進行質量把關,最終形成高質量的 SFT 與 RL 訓練數據。

意料之外的發(fā)現

基于 VLAA-Thinking 數據集,研究者系統(tǒng)分析了 SFT 與 RL 在多模態(tài)推理中的作用機制。為探究 SFT 的影響,他們詳細考察了數據類型(如是否包含反思性頓悟時刻,即 aha moment)、數據規(guī)模和模型能力等因素。

針對視覺語境下的 RL 優(yōu)化,他們在 GRPO 框架中創(chuàng)新性地設計了融合感知與認知獎勵的混合獎勵函數,包含 2 大類 5 種子函數:規(guī)則類問題采用數字識別、多項選擇題、數學運算和邊界框檢測函數,開放類問題則采用稱職的獎勵模型 XComposer-2.5-RM,以及基于參考的獎勵方法來對答案進行評分。

研究者對 SFT 和 RL 進行了廣泛的實驗比較,發(fā)現了幾個值得注意的問題:

首先,他們探究了 SFT 和 RL 在多模態(tài)推理中的貢獻:與基礎模型相比,SFT 提高了模型在標準任務中的性能,但在增強復雜推理方面能力卻有所欠缺。如圖 1 所示,僅僅通過 SFT 來模仿專家的思維往往會誘發(fā)「偽推理路徑」,這是一種膚淺的推理模式,其中可能包含「偽 aha moment」(膚淺的自我反思線索)。

圖片

這項研究表明,這些模仿的推理模式會阻礙真正的推理進步,即在 7B 模型上相對性能下降 47%。這一觀察結果也與最近的研究結果一致,即需要反饋和探索信號來驅動高級推理行為。此外,消融分析表明,對于基于規(guī)則的獎勵,數學和多選題比其他獎勵更有益,而基于規(guī)則和開放式獎勵的結合則能得到最佳性能。

圖片

現有研究認為 LVLM 應先通過 SFT 學習推理格式,再通過 RL 反饋進行優(yōu)化,但研究者發(fā)現:如果對已對齊的模型使用 SFT+GRPO,會導致平均 12.7% 的性能下降,且模型規(guī)模差異影響甚微 ——7B 模型與更小模型呈現相似的性能衰減。

圖片

訓練過程分析表明,響應長度、獎勵分數與性能表現無顯著相關性:經 SFT 的模型雖能獲得更高初始獎勵和更長響應,但實際表現遜于純 RL 訓練模型,這與「更優(yōu)模型通常產生更長響應」的既有結論相悖。

研究表明:SFT 雖可幫助未對齊模型遵循指令,但其倡導的模仿式推理會限制 RL 階段的探索空間;相比之下,直接從獎勵信號學習能產生更有效的適應性思維。實證研究表明純 RL 方案更具優(yōu)勢 —— 該團隊訓練得到的 VLAA-Thinker-Qwen2.5VL-3B 模型在 Open LMM 推理榜單 4B 量級模型中位列第一,以 1.8% 優(yōu)勢刷新紀錄。案例分析表明,該模型生成的推理軌跡更簡潔有效。

使用混合獎勵提升多模態(tài)推理

上面的結果表明 SFT 不足以將 R1 的能力遷移到 LVLM。于是,研究者提出了自己的方案。

由于強化學習在增強推理能力方面表現出色,且 GRPO 在文本數學推理任務中被證明比其他方法(如 PPO)更有效、更高效,這促使他們將 GRPO 訓練應用于視覺語言推理任務。

數學上,設 q 為一個查詢,圖片為從舊策略模型 π_old 中采樣的 G 個輸出,GRPO 最大化以下目標:


圖片

其中,圖片是估計的優(yōu)勢,β 是 KL 懲罰系數,π_θ、π_θ_old、π_ref 分別是當前、舊的和參考的策略。

帶有混合獎勵的 GRPO

為了更好地將 GRPO 應用于多模態(tài)推理,除了采用類似文本 GRPO 訓練中的基于規(guī)則的獎勵機制外,還需要考慮視覺模態(tài)引入的額外特征。受多模態(tài)大型語言模型綜合評價基準 MME 的啟發(fā)(MME 通過感知和認知(推理)來對視覺語言模型進行基準測試),研究者提出了一個用于 GRPO 訓練的混合獎勵框架,如圖 4 所示。該獎勵系統(tǒng)包含五種可驗證的獎勵類型,采用兩種格式,涵蓋了視覺感知和視覺推理任務。

圖片

SFT 對 GRPO 訓練的影響

SFT 與多模態(tài)推理中的 GRPO 不兼容。 盡管論文中揭示了單獨使用 SFT 會導致多模態(tài)推理性能下降,但目前仍不清楚 SFT 是否像 DeepSeekR1 中的「金鑰匙」一樣對 GRPO 訓練起到關鍵作用。研究者使用不同的模型架構進行 GRPO 訓練實驗。具體來說,他們采用了 Qwen2VL-7B-Base 和 Qwen2VL-7B-Inst,并在它們上使用 25K 樣本進行 SFT,隨后進行 GRPO 訓練。

從表 3 中可以觀察到,在 GRPO 訓練之前進行 SFT 的模型,其性能比僅使用 GRPO 訓練的模型更差,平均而言,Qwen2VL-Base 和 Qwen2VL-Inst 在經過 SFT 后比未經過 SFT 的模型性能下降了 8.9%。研究者還發(fā)現,SFT 對指令模型的性能損害比對沒有指令跟隨能力的基礎模型更大。例如,經過 SFT 后,Qwen2VL-Inst 的性能比 Qwen2VL-Base 下降了 7.7%,這表明 SFT 可能會削弱對有效 GRPO 訓練至關重要的指令跟隨能力。

綜合這些結果,可以得出結論:在多模態(tài)推理的背景下,SFT 目前與 GRPO 不兼容,會損害基礎模型和經過指令調優(yōu)的 LVLM 的性能。

圖片

此外,研究者還發(fā)現,較小的 SFT 數據集仍然會影響 GRPO 的性能,如圖 5 所示。

圖片

回應長度、獎勵與模型性能并非必然相關。先前的強化學習研究通常認為,更長的回應往往與更好的推理能力以及更高的 RL 獎勵相關。然而,圖 6 中的發(fā)現表明,在 GRPO 中,回應長度和獎勵并不是推理能力的可靠指標。

圖片

有趣的是,經過 SFT 的模型在訓練初期的獎勵更高。這可能是由于它們在早期通過監(jiān)督學習獲得了經驗,因為 SFT 和 GRPO 數據共享相同的分布。然而,這些經過 SFT 的模型在訓練過程中獎勵提升有限,而僅使用 GRPO 的模型則迅速超過了它們。

這些趨勢進一步揭示,SFT 僅提供了 RL 訓練的一個更高的「下限」,但它可能會降低「上限」,因為推理相關的 SFT 數據限制了模型的探索路徑。因此,推理是一種內生的、更可能通過強化學習而非 SFT 發(fā)展起來的能力。盡管經過 SFT 的模型可能看起來在進行推理,但它們的行為更接近于模式模仿 —— 一種缺乏泛化推理能力的偽推理形式。

無 SFT 的 GRPO 訓練

根據前一節(jié)的發(fā)現,研究者直接進行了 GRPO 訓練,生成了四個模型:VLAA-Thinker-Qwen2-VL-2B、VLAA-Thinker-Qwen2-VL-7B、VLAA-Thinker-Qwen2.5-VL-3B 和 VLAA-Thinker-Qwen2.5-VL-7B。他們還在 Qwen2-VL-7B 的基礎模型上進行了訓練,得到的模型命名為 VLAA-Thinker-Qwen2-7B-Zero。

表 4 中展示了評估結果:

圖片

主要發(fā)現如下:

  • 直接使用 GRPO 訓練的模型在視覺語言推理任務中顯著優(yōu)于其基礎模型。
  • 經過更好指令調優(yōu)的模型在 GRPO 訓練后表現更佳,說明高質量的指令調優(yōu)能夠增強模型在強化學習后的推理能力。
  • GRPO 訓練能夠誘導模型產生真實的自我反思行為,但「aha」時刻的數量與整體推理性能并不直接相關。(見圖 7)

圖片

更多細節(jié)請參見原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2022-12-01 08:00:00

2025-11-12 08:56:15

2020-10-14 07:46:46

Linux大小寫轉換

2025-06-09 09:32:35

2024-08-28 13:53:42

多代理強化學習機器人

2025-05-30 04:00:00

IBMRLVRGRPO

2023-08-28 06:52:29

2025-04-21 09:10:00

2025-05-06 08:40:00

2025-06-26 09:13:22

2025-06-27 10:10:43

AI模型技術

2025-10-11 04:00:00

2025-02-18 15:02:13

2025-04-14 09:45:00

2025-05-09 08:40:00

2025-07-09 08:55:39

2025-08-08 09:02:00

AI架構模型

2021-10-11 09:51:38

谷歌人工智能強化學習

2025-03-21 13:00:54

2025-07-22 08:50:00

AI模型框架
點贊
收藏

51CTO技術棧公眾號

日本高清无吗v一区| 福利一区福利二区| 精品久久久av| 国产精品99精品无码视亚| av在线最新| 国产欧美精品区一区二区三区| 成人做爽爽免费视频| 日本特黄特色aaa大片免费| 国产一区二区三区不卡视频网站| 7777精品伊人久久久大香线蕉最新版| 色欲色香天天天综合网www| 高清美女视频一区| 国产99精品在线观看| 国产成人福利视频| 国产女同性恋一区二区| 欧美日韩视频在线第一区| 麻豆映画在线观看| 日本不卡免费播放| 久久www免费人成看片高清| 午夜精品国产精品大乳美女| 黑人と日本人の交わりビデオ| 动漫av一区| 欧美精品自拍偷拍动漫精品| 各处沟厕大尺度偷拍女厕嘘嘘| 黄色的网站在线观看| 久久久久久免费毛片精品| 91偷拍精品一区二区三区| 中文字幕久久网| 新狼窝色av性久久久久久| 欧美另类第一页| 国精产品久拍自产在线网站| 亚洲精品国产setv| 欧美v日韩v国产v| 中文字幕线观看| 2019年精品视频自拍| 激情亚洲一区二区三区四区| 免费在线黄网站| 黄色一级片在线观看| 中文成人综合网| 免费看成人片| 色就是色亚洲色图| 99久久婷婷国产| 国产精品视频免费观看| 国产露脸91国语对白| 蜜桃视频在线一区| 国产盗摄xxxx视频xxx69| av大全在线观看| 国产精品久久久一区二区| 久久久免费观看视频| 久久精品一级片| 欧美日韩国产综合网| 久久久精品一区| 国产激情无码一区二区三区| 午夜片欧美伦| 久久天天躁狠狠躁夜夜躁2014| 亚洲欧洲综合网| 久久精品国内一区二区三区水蜜桃| 正在播放欧美一区| 日本人亚洲人jjzzjjz| 波多野结衣的一区二区三区| 99久久精品费精品国产| 亚洲成人久久精品| 最新日韩免费视频| 国产chinasex对白videos麻豆| 久久国产免费| 国产成人精品国内自产拍免费看| 日韩精品一区二区三区国语自制| 亚洲一级一区| 91精品国产91久久久久久最新 | 要久久爱电视剧全集完整观看| 亚洲国产美女精品久久久久∴| 中文字幕乱码在线| 免费成人av| 中文在线资源观看视频网站免费不卡| 懂色av粉嫩av浪潮av| 国产精品久久天天影视| 九九热最新视频//这里只有精品 | 日本在线免费网| 中文在线8资源库| 国产精品夜夜嗨| 好吊妞www.84com只有这里才有精品| 欧美视频一二区| 久久午夜电影网| 影音先锋欧美资源| 欧美wwww| 91黄视频在线| 九色91porny| 日本欧美高清| 日韩在线中文字| 国产无套在线观看| 日本vs亚洲vs韩国一区三区二区 | 欧美一级三级| 国产一区二区欧美日韩| 青青草偷拍视频| 亚洲中午字幕| 亚洲在线免费观看| 麻豆app在线观看| 亚洲女同一区二区| 日本精品一区二区三区四区| 国产精品亚洲欧美一级在线| 亚洲精品久久久久久久久久久久| 夜夜春很很躁夜夜躁| 欧美视频成人| 欧美成人午夜电影| 国内精品久久久久伊人av| 久一区二区三区| 蜜桃视频一区二区| 国产一区喷水| 菠萝菠萝蜜在线视频免费观看| 欧美性猛交xxxx免费看| 杨幂一区二区国产精品| 国产探花在线精品一区二区| 欧美大片在线看| 亚洲熟妇无码久久精品| 91亚洲精品久久久蜜桃网站| 久久久成人精品一区二区三区| 一二三四视频在线中文| 日韩天堂在线观看| 手机av在线不卡| 亚洲女人av| 国产精品9999久久久久仙踪林| 91高清在线| 一本久久精品一区二区| 亚洲高清无码久久| 无码一区二区三区视频| 国产精品com| 亚洲aaa在线观看| 亚洲一区二区三区四区五区黄| 69久久久久久| 欧洲乱码伦视频免费| 欧洲亚洲免费在线| 少妇人妻一区二区| 一卡二卡欧美日韩| 久久精品国产99久久99久久久| 日本不卡二三区| 国产成人精品av在线| 欧美91精品久久久久国产性生爱| 亚洲午夜精品一区二区三区他趣| 一个人看的视频www| 天天超碰亚洲| 91免费精品国偷自产在线| 男人影院在线观看| 欧美精品一二三| 99成人在线观看| 久久av资源网| 欧美aaa在线观看| 99久久99九九99九九九| 精品国产依人香蕉在线精品| 中文字幕二区三区| 国产精品视频线看| 亚洲天堂网2018| 亚洲一区二区日韩| 亚洲在线www| 欧洲一区二区三区| 亚洲精品短视频| www.国产一区二区| 国产欧美一区二区精品性色超碰| 欧美精品一区二区三区免费播放| 国产精品探花在线观看| 国产精品成人国产乱一区| 波多野结衣一区二区| 欧美日韩一区二区欧美激情| 一级性生活免费视频| 国产成人在线视频播放| 久草视频这里只有精品| 日本欧美高清| 国产精品视频xxx| 国产在线二区| 亚洲国产精品福利| 欧美一级淫片免费视频黄| 国产日产欧美一区二区三区| 超碰成人在线播放| 欧美日韩一区二区国产| 久久久久久国产精品mv| 九九九伊在线综合永久| 欧美xxxx做受欧美| 婷婷久久久久久| 欧美优质美女网站| 欧美日韩在线观看成人| 99国产精品久久久| www.com操| 国产综合精品一区| 青青草原成人| 成人精品视频在线观看| www成人在线视频| 亚洲成人在线视频播放| 日韩精品一区二区亚洲av观看| 中国色在线观看另类| 佐佐木明希电影| 日本特黄久久久高潮| 91网站在线观看免费| 国产91久久精品一区二区| 成人a免费视频| 成人ssswww在线播放| 最新国产成人av网站网址麻豆| 性一交一乱一精一晶| 在线亚洲欧美专区二区| 青娱乐国产盛宴| 国产日韩一级二级三级| 美国黄色一级视频| 美国av一区二区| 女人天堂av手机在线| 羞羞色午夜精品一区二区三区| 老司机精品福利在线观看| 国产95亚洲| 国产精品成人一区| 波多野结依一区| 久久嫩草精品久久久精品一| 99国产精品久久久| 欧美亚洲丝袜| 亚洲小说春色综合另类电影| 国产精品xxx视频| 成年网站在线视频网站| 中文亚洲视频在线| 亚州精品国产精品乱码不99按摩| 69堂精品视频| 看黄色一级大片| 午夜国产精品影院在线观看| 久久久久久视频| 国产精品私人影院| 蜜桃av免费看| 北条麻妃一区二区三区| 亚洲黄色片免费| 青青草国产成人av片免费| 国产a视频免费观看| 亚洲精品1区| 亚洲色欲久久久综合网东京热| 天天影视综合| 精品国产乱码久久久久久久 | 国产91精品青草社区| 免费黄网站在线播放| 一区二区三欧美| 韩国三级在线看| 亚洲精品成人| 色姑娘综合av| 国产一区网站| 欧美日韩一区在线观看视频| 久久精品色播| 精品国产电影| 久久久久高潮毛片免费全部播放| av在线不卡一区| 警花av一区二区三区| 91精品在线一区| 婷婷激情成人| 91久久综合亚洲鲁鲁五月天| 婷婷久久免费视频| 国产日韩精品入口| 亚洲综合视频| 99re在线播放| 高清日韩中文字幕| 国产视频在线观看一区| 欧美变态网站| 欧美在线激情| 欧美3p在线观看| 一区二区三区四区视频在线| 99精品中文字幕在线不卡| 男女性色大片免费观看一区二区| 欧美黑人xxxxx| 天海翼亚洲一区二区三区| 日本a级片久久久| 成人一二三区| 欧美日韩在线免费观看视频| 综合激情一区| 国产成人一二三区| 久久久香蕉视频| 成人白浆超碰人人人人| 少妇精品无码一区二区三区| 972aa.com艺术欧美| xxx在线播放| 国产精品丝袜一区| 国产一二三区精品| 亚洲高清免费在线| 美日韩一二三区| 在线区一区二视频| 国产精品福利电影| 亚洲精品一区二区三区影院| 秋霞av在线| 精品国偷自产在线| h片在线观看| 国产精品第一视频| 日韩精品免费视频一区二区三区 | 国产偷拍一区二区| 精品国产一区久久| 国产高清一区在线观看| 久久国产精品久久久久久久久久| 黄色漫画在线免费看| 国产精品美女免费视频| 一区二区三区在线免费看| 欧美在线播放一区| 欧美日韩 国产精品| 国产成人精品视频ⅴa片软件竹菊| 精品在线播放免费| 免费成人蒂法网站| 亚洲欧洲精品一区二区三区| 日韩成人免费在线观看| 欧美视频一区在线| 手机看片福利永久| 搡老女人一区二区三区视频tv| 国产精品一品| 国产日韩视频在线观看| 日韩精品社区| 国产网站一区二区| 在线成人免费av| 欧美激情在线一区二区三区| 成人免费毛片东京热| 色噜噜狠狠一区二区三区果冻| 99久久精品无免国产免费| 亚洲人成自拍网站| 懂色av一区| 成人有码在线播放| 欧美日韩在线二区| 国产一区二区网| 国产精品资源在线| 国产精品久久久久久成人| 婷婷综合另类小说色区| 国产激情无套内精对白视频| 亚洲午夜性刺激影院| 男人久久天堂| 国产精品美女xx| 欧美国产高清| 中文字幕在线视频一区二区三区 | 精品欧美日韩在线| 欧美日本在线| 性生活一级大片| 亚洲欧洲av一区二区三区久久| 无码人妻精品一区二区三区不卡| 精品国产乱码久久久久久久久| 污污片在线免费视频| 成人黄色免费片| 999久久久91| 777一区二区| 最新国产精品久久精品| 中文字幕乱码人妻无码久久| 国产亚洲xxx| 666av成人影院在线观看| 久久精品国产精品国产精品污 | 国产精品久久久久77777| 日韩三级视频| 国产日产欧美视频| 99精品黄色片免费大全| 日韩污视频在线观看| 亚洲国产高潮在线观看| 成人爽a毛片免费啪啪动漫| 国产精品12| 99视频精品| 少妇大叫太粗太大爽一区二区| 欧美午夜精品伦理| 手机福利小视频在线播放| 5252色成人免费视频| 亚洲制服欧美另类| 日韩毛片在线免费看| 国产色综合一区| 国产精品尤物视频| 亚洲综合偷拍欧美一区色| 欧美狂野激情性xxxx在线观| 激情文学综合插| 欧美成人精品欧美一| 欧美成人精品福利| www在线观看黄色| 美乳视频一区二区| 丝袜美腿高跟呻吟高潮一区| 国产三级在线观看完整版| 欧美日韩中文精品| 国产写真视频在线观看| 国产成人一区二区三区免费看| 日韩天堂av| 蜜臀久久99精品久久久久久| 911精品国产一区二区在线| 新版中文在线官网| 精品国产中文字幕| 石原莉奈在线亚洲三区| 视频国产一区二区| 精品久久国产字幕高潮| 中文字幕资源网在线观看免费 | 91亚洲国产成人久久精品网站| 国产综合久久| 高清国产在线观看| 欧美一区二区三区不卡| 久久男人av资源站| 亚洲精品日韩在线观看| 国产成人啪免费观看软件| 少妇一级淫片免费放中国 | 国产又色又爽又高潮免费| 欧美一级在线免费| 伊人久久综合一区二区| 中文字幕一区二区三区乱码 | 91丨九色丨尤物| 国产激情片在线观看| 国产在线精品免费av| 可以免费看的av毛片| www.亚洲成人| 日本一道高清一区二区三区| 高潮一区二区三区| 精品久久久久久久久国产字幕| 夜级特黄日本大片_在线| 国产精品一区二区免费| 美女视频黄 久久| 国产乡下妇女做爰| www.亚洲一区| 你懂的一区二区三区|