微軟CVPR'25簡明教程:強化學習訓練多模態(tài)智能體,構建感知思考行動完整閉環(huán)!
當你看到一張立方體展開圖時,只需幾秒的心理模擬(mental simulation)就能判斷它能否折疊成完整立方體;面對三個點電荷的受力分析,隨手畫個受力圖就能理清力的方向與大小關系——這些人類與生俱來的視覺推理能力,卻曾是多模態(tài)大模型的“致命短板”。GPT-4o曾在立方體折疊推理中混淆相鄰面與對面的關系,在點電荷受力計算中錯判力的方向,核心問題在于:如何讓智能體像人類一樣,將“看見”與“思考”真正結合?
我們解讀最新技術,文末有相關信息。
微軟團隊在CVPR'25的教程中給出了系統(tǒng)性答案:用強化學習(RL)為多模態(tài)智能體注入“視覺思考”能力,從圖像生成輔助推理、工具使用提升精度,到多輪軌跡優(yōu)化穩(wěn)定訓練,構建了一套“See(感知)-Visual Think(視覺思考)-Act(行動)”的完整閉環(huán)。本文將拆解這一研究的核心技術邏輯與突破點。
1 多模態(tài)推理的核心瓶頸:缺失的“視覺模擬”能力
多模態(tài)智能體的推理能力,本質上需要匹配人類“非語言推理”的核心——視覺模擬。報告通過兩個典型案例,揭示了當前多模態(tài)大模型(MLLM)的關鍵短板。
1.1 從立方體折疊到電荷受力:人類與AI的推理差距
在“立方體展開圖能否折疊”的測試中,人類會通過分步心理模擬:先確定一個面為“頂面”,再依次折疊相鄰面,驗證是否存在重疊或缺口;而GPT-4o雖能給出“能折疊”的結論,推理過程卻存在根本性錯誤——它將展開圖中相鄰的“面2”和“面3”判定為“頂面(面1)的左側與右側”,忽略了二者在物理結構中本應相鄰的關系,導致邏輯矛盾。

更復雜的點電荷受力推理測試(EMMA基準任務)中,差距更為明顯。人類會通過“畫受力圖”的視覺模擬:-2Q對+Q是吸引力(方向指向-2Q),+3Q對+Q是排斥力(方向遠離+3Q),再根據(jù)電荷量大小(|+3Q|>| -2Q|)判斷排斥力大于吸引力,最終確定合力方向;而GPT-4o雖能套用庫侖定律計算力的大小,卻錯判了+3Q對+Q的力方向(誤判為“向下右”而非“遠離+3Q”),導致最終結論完全偏離。

1.2 視覺模擬為何是多模態(tài)智能的關鍵?
研究引用Tosto等人(2014)的結論指出:“空間能力是數(shù)學表現(xiàn)、科學與工程領域專長的重要預測因素”。對智能體而言,視覺模擬的價值體現(xiàn)在兩點:

?非語言推理的載體:人類的機械推理(如齒輪轉動方向判斷)、空間旋轉(Shepard & Metzler 1971年提出的心理旋轉實驗)均依賴視覺模擬,缺乏這一能力,智能體無法處理“無文本標注”的物理場景;

?推理精度的保障:視覺化過程能暴露邏輯漏洞(如立方體相鄰面矛盾),而純文本推理易陷入“符號化陷阱”(如點電荷力方向錯判)。
2 突破路徑一:圖像生成讓智能體“看得見思考過程”
既然視覺模擬是核心,第一步便是讓智能體“生成圖像來輔助思考”——即通過圖像生成,將抽象的推理過程轉化為可視化內容,再基于可視化結果優(yōu)化動作決策。

2.1 從文本推理到視覺化推理:模型架構的演進
傳統(tǒng)多模態(tài)模型(如Chameleon)采用“圖像-文本統(tǒng)一輸入”架構,推理過程完全依賴文本鏈(Chain-of-Thought);而報告提出的“視覺思考”架構,將圖像生成嵌入推理環(huán)節(jié),形成兩種核心模式:

?直接提示生成(Direct Prompting):輸入視覺任務(如迷宮),智能體先生成“推理圖像”(如迷宮路徑標注),再基于圖像輸出動作序列。例如在迷宮任務中,智能體生成“左轉路徑標注圖”后,輸出“Go left”的動作;
?工具輔助生成(Tool-augmented Generation):通過圖像工具(如Qwen的圖像解析模塊)將視覺輸入轉化為結構化信息,再生成推理圖像。例如在MiniBehavior任務中,智能體先解析“打印機位置”的視覺信息,生成“攜帶打印機的路徑圖”,再輸出“Pickup → Go left → Drop”的動作序列。

2.2 視覺規(guī)劃的實踐:從迷宮到 FrozenLake
在“視覺規(guī)劃”(Visual Planning)實驗中,研究驗證了圖像生成對“物理約束感知”的提升:
?迷宮任務:純文本推理的智能體可能輸出“穿墻”的無效動作,而生成“路徑可視化圖像”的智能體,能通過圖像驗證“是否違反物理約束”,最終輸出“直走至交叉路口→左轉”的合規(guī)動作;
?FrozenLake任務:該任務中冰面存在“陷阱”,純文本推理易忽略陷阱位置,而視覺化推理的智能體通過生成“陷阱標注圖”,能避免“Fall into the Hole”的失敗動作,動作成功率提升約30%。
2.3 圖像輸出的獎勵設計:從“動作解析”到“最優(yōu)判斷”
圖像生成的核心挑戰(zhàn)是“如何設計獎勵機制”——純圖像無法直接量化,研究提出“規(guī)則化動作解析”方案:將“圖像-圖像轉換”(如迷宮路徑圖的步驟變化)解析為離散動作(如“左轉”“前進”),再通過對比“模型動作”與“最優(yōu)動作”給出獎勵:
? 若動作符合最優(yōu)路徑,獎勵為“1”;
? 若動作非最優(yōu)但合規(guī),獎勵為“0.5”;
? 若動作違反物理約束(如穿墻),獎勵為“-1”。
這種設計讓“視覺思考”的結果可量化,為后續(xù)強化學習優(yōu)化提供了基礎。
3 突破路徑二:工具使用強化視覺推理的“精度控制”
圖像生成解決了“有無視覺思考”的問題,而“工具使用”則解決了“視覺思考精度”的問題。報告通過DeepEyes模型與OpenThinkIMG框架,構建了一套“視覺工具生態(tài)”,讓智能體能通過工具實現(xiàn)“精準視覺探索”。

3.1 DeepEyes的工具生態(tài):從Zoom-in到Point+DrawLines
DeepEyes的核心是將“基礎視覺操作”轉化為工具,覆蓋“視覺搜索-信息提取-關系標注”全流程:

?Zoom-in/Crop(放大/裁剪):針對復雜圖像(如多區(qū)域圖表),智能體可放大目標區(qū)域(如非洲咖啡偏好子圖),減少無關信息干擾。實驗顯示,該工具能使視覺接地(Grounding IoU)從0.2提升至0.35,同時降低 hallucination(幻覺)率約15%;

?OCR(光學字符識別):用于提取圖像中的文字信息(如百分比、數(shù)值)。在“非洲咖啡偏好百分比差”任務中,智能體通過Zoom-in定位非洲子圖,再用OCR提取“Fruity & Floral(40.0%)”與“Rich & Bold(15.0%)”,計算出25%的差值——而GPT-4o因未精準提取數(shù)值,誤將15%算為18%,得出22%的錯誤結果;
?Point+DrawLines(點選+畫線):用于標注數(shù)據(jù)關系(如時間序列中的關鍵點)。在“1970-2000年洋流強度變化”任務中,智能體通過Point工具標記三大洋流(墨西哥灣暖流、黑潮、南極繞極流)在兩個年份的強度值,再用DrawLines工具繪制對比線,最終準確判斷“三者增幅相同(25單位)”,而GPT-4o因錯讀數(shù)值,誤判“墨西哥灣暖流增幅最大”。
3.2 OpenThinkIMG:模塊化RL框架的“兼容與擴展”
為讓工具生態(tài)可復用,研究提出OpenThinkIMG框架,該框架具備三大核心特性:

?模塊化設計:將“獎勵機制”“工具集”“模型”“任務”解耦,支持靈活替換(如替換工具為“DrawLine”,模型為“Gemini Pro”,任務為“ChartQA”);
?工具評估體系:內置“工具調用效果評分”模塊,可基于“動作合規(guī)性”“信息準確性”量化工具使用效果;
?RLrollout API:提供標準化的強化學習交互接口,簡化“軌跡生成-獎勵計算-模型更新”的流程。


實驗顯示,基于OpenThinkIMG訓練的“V-Tool RL”模型,在ChartGemma測試集上的性能(59.39%)已接近閉源模型GPT-4.1(68.20%),遠超傳統(tǒng)文本RL模型(29.56%)。

3.3 DeepEyes的訓練動態(tài):從“探索”到“高效利用”
DeepEyes的訓練過程分為三個階段,清晰展現(xiàn)了工具使用的優(yōu)化方向:

?S1(初始探索):工具調用次數(shù)多(約2.2次/任務),響應長度長(約325字符),但接地精度低(IoU約0.2)——智能體在嘗試不同工具組合;
?S2(高頻工具使用):工具調用次數(shù)保持穩(wěn)定,響應長度縮短(約225字符),接地精度提升(IoU約0.28)——智能體逐漸聚焦有效工具;
?S3(高效利用):工具調用次數(shù)降至1.0次/任務,響應長度進一步縮短(約175字符),接地精度達0.35,V*Bench評分提升至85+——智能體學會用“最少工具”實現(xiàn)“最高精度”。
4 強化學習的深度適配:從單輪優(yōu)化到多輪軌跡強化
工具與圖像生成解決了“視覺思考的載體”問題,而強化學習的“多輪適配”則解決了“復雜場景下的持續(xù)優(yōu)化”問題。傳統(tǒng)單輪RL無法應對“多輪交互、狀態(tài)依賴”的真實場景,報告提出StarPO算法與VAGEN框架,實現(xiàn)了多模態(tài)智能體的穩(wěn)定訓練。


4.1 單輪RL的局限:真實場景中的“多輪難題”
在WebShop(購物)、Sokoban(推箱子)等真實任務中,單輪RL存在兩大缺陷:
?狀態(tài)遺忘:任務需要多步動作(如推箱子需“移動→推箱→再移動”),單輪RL無法記憶前序狀態(tài),導致動作邏輯斷裂;
?獎勵偏差:單輪獎勵僅基于“當前動作”,無法評估“動作對最終目標的貢獻”(如推箱第一步“移動到箱子旁”本身無獎勵,但對后續(xù)推箱至關重要)。
4.2 StarPO算法:State-Thinking-Action-Reward的閉環(huán)
StarPO(State-Thinking-Action-Reward Policy Optimization)算法的核心是“將多輪交互視為軌跡(Trajectory),強化整個軌跡的合理性”,分為三步:

1.軌跡生成(Rollout):智能體從初始狀態(tài)(S0)出發(fā),每一輪生成“思考過程+動作”(如“觀察到箱子在(2,2)→移動到(2,1)”),環(huán)境執(zhí)行動作后反饋“獎勵(r)”與“新狀態(tài)(S1)”,重復K輪形成完整軌跡(T: S0→a0→r0→S1→...→aK→rK→SK+1);

2.軌跡驗證(Verification):計算軌跡級獎勵(如推箱子任務中,“成功推到目標”的軌跡獎勵為1,“中途卡住”的獎勵為0.2),篩選高價值軌跡;




3.軌跡強化(Reinforce):基于高價值軌跡更新模型策略,讓智能體更傾向于生成“符合軌跡邏輯”的思考與動作。



4.3 破解“回聲陷阱”:StarPO-S的穩(wěn)定性優(yōu)化
多輪RL易陷入“回聲陷阱”——智能體過度擬合“局部獎勵高的推理模式”,抑制探索(如在Bandit任務中,反復選擇“初始獎勵高的選項”,忽略其他可能更優(yōu)的選項)。研究提出StarPO-S改進方案:


?獎勵方差過濾:保留“獎勵方差高”的軌跡(即推理模式更多樣的軌跡),避免單一模式過擬合;
?動作裁剪(Clipping):限制“極端動作”的權重,防止異常軌跡干擾模型;
?移除KL約束:減少“與初始模型的偏差限制”,提升探索靈活性。

實驗顯示,StarPO-S在Sokoban任務中的成功率從0.15提升至0.2,F(xiàn)rozenLake任務從0.1提升至0.18,有效緩解了“回聲陷阱”。
4.4 VAGEN:視覺狀態(tài)表示的“任務適配”

多模態(tài)智能體的另一核心問題是“如何讓視覺語言模型(VLM)‘讀懂’視覺狀態(tài)”。VAGEN(Visual State Representation for VLMs)框架對比了三種視覺狀態(tài)表示方式的任務適應性:

?自然語言表示:如“Player at (2,1), Box at (2,2)”,在Drawer(抽屜操作)任務中性能最優(yōu)(1.00),適合“需自然語言描述的場景”;
?結構化表示:如Player:(2,1); Box:(2,2),在Place(放置)任務中性能最優(yōu)(1.00),適合“需精準定位的場景”;
?符號化表示:如用“#”表示墻、“O”表示箱子,在Sokoban任務中性能較好(0.88),適合“網(wǎng)格類場景”。



同時,VAGEN設計了“視覺推理獎勵”機制:
?LLM-as-Judge:用LLM驗證“智能體生成的視覺狀態(tài)描述”與“真實狀態(tài)”的一致性,給出“狀態(tài)準確性獎勵”;


?雙層GAE(General Advantage Estimation):對“token級”(如“Player位置”描述)和“turn級”(如“整個動作步驟”)分別計算優(yōu)勢值,實現(xiàn)“中間推理步驟”與“最終動作”的分層獎勵。


5 總結與未來:多模態(tài)智能體的“視覺思考”之路
本報告的研究,本質上是為多模態(tài)智能體構建了“類人類視覺推理”的技術體系,核心突破可概括為三點:
- 確立“視覺模擬”的核心地位:通過對比人類與AI的推理差距,明確“視覺化思考”是多模態(tài)推理的關鍵;
- 構建“工具+圖像生成”的視覺思考載體:從基礎工具(Zoom-in、OCR)到圖像生成,讓智能體“能看見、能精準探索”;
- 提出“多輪RL”的穩(wěn)定訓練方案:通過StarPO的軌跡優(yōu)化與StarPO-S的“回聲陷阱”破解,讓智能體在復雜場景中持續(xù)進化。
未來,這一方向的探索將聚焦于“更復雜的真實場景”——如自動駕駛中的“動態(tài)視覺推理”、機器人操作中的“多工具協(xié)同”,而OpenThinkIMG與VAGEN的模塊化設計,為這些場景的擴展提供了基礎。
參考資料
? 題目:See. Think. Act. Training Multimodal Agents with Reinforcement Learning
? 作者:Linjie Li(Microsoft)
? 鏈接:https://vlp-tutorial.github.io/slides/tutorial/vision_foundation_models_2025/Linjie.pdf
本文轉載自??旺知識??,作者:旺知識

















