微軟CVPR'25簡明教程：強化學習訓練多模態(tài)智能體，構建感知思考行動完整閉環(huán)！

發(fā)布于 2025-10-11 06:37

瀏覽

0收藏

當你看到一張立方體展開圖時，只需幾秒的心理模擬（mental simulation）就能判斷它能否折疊成完整立方體；面對三個點電荷的受力分析，隨手畫個受力圖就能理清力的方向與大小關系——這些人類與生俱來的視覺推理能力，卻曾是多模態(tài)大模型的“致命短板”。GPT-4o曾在立方體折疊推理中混淆相鄰面與對面的關系，在點電荷受力計算中錯判力的方向，核心問題在于：如何讓智能體像人類一樣，將“看見”與“思考”真正結合？

我們解讀最新技術，文末有相關信息。

微軟團隊在CVPR'25的教程中給出了系統(tǒng)性答案：用強化學習（RL）為多模態(tài)智能體注入“視覺思考”能力，從圖像生成輔助推理、工具使用提升精度，到多輪軌跡優(yōu)化穩(wěn)定訓練，構建了一套“See（感知）-Visual Think（視覺思考）-Act（行動）”的完整閉環(huán)。本文將拆解這一研究的核心技術邏輯與突破點。

1 多模態(tài)推理的核心瓶頸：缺失的“視覺模擬”能力

多模態(tài)智能體的推理能力，本質上需要匹配人類“非語言推理”的核心——視覺模擬。報告通過兩個典型案例，揭示了當前多模態(tài)大模型（MLLM）的關鍵短板。

1.1 從立方體折疊到電荷受力：人類與AI的推理差距

在“立方體展開圖能否折疊”的測試中，人類會通過分步心理模擬：先確定一個面為“頂面”，再依次折疊相鄰面，驗證是否存在重疊或缺口；而GPT-4o雖能給出“能折疊”的結論，推理過程卻存在根本性錯誤——它將展開圖中相鄰的“面2”和“面3”判定為“頂面（面1）的左側與右側”，忽略了二者在物理結構中本應相鄰的關系，導致邏輯矛盾。

微軟CVPR'25簡明教程：強化學習訓練多模態(tài)智能體，構建感知思考行動完整閉環(huán)！-AI.x社區(qū)

更復雜的點電荷受力推理測試（EMMA基準任務）中，差距更為明顯。人類會通過“畫受力圖”的視覺模擬：-2Q對+Q是吸引力（方向指向-2Q），+3Q對+Q是排斥力（方向遠離+3Q），再根據(jù)電荷量大小（|+3Q|>| -2Q|）判斷排斥力大于吸引力，最終確定合力方向；而GPT-4o雖能套用庫侖定律計算力的大小，卻錯判了+3Q對+Q的力方向（誤判為“向下右”而非“遠離+3Q”），導致最終結論完全偏離。

微軟CVPR'25簡明教程：強化學習訓練多模態(tài)智能體，構建感知思考行動完整閉環(huán)！-AI.x社區(qū)

1.2 視覺模擬為何是多模態(tài)智能的關鍵？

研究引用Tosto等人（2014）的結論指出：“空間能力是數(shù)學表現(xiàn)、科學與工程領域專長的重要預測因素”。對智能體而言，視覺模擬的價值體現(xiàn)在兩點：

微軟CVPR'25簡明教程：強化學習訓練多模態(tài)智能體，構建感知思考行動完整閉環(huán)！-AI.x社區(qū)

?非語言推理的載體：人類的機械推理（如齒輪轉動方向判斷）、空間旋轉（Shepard & Metzler 1971年提出的心理旋轉實驗）均依賴視覺模擬，缺乏這一能力，智能體無法處理“無文本標注”的物理場景；

微軟CVPR'25簡明教程：強化學習訓練多模態(tài)智能體，構建感知思考行動完整閉環(huán)！-AI.x社區(qū)

?推理精度的保障：視覺化過程能暴露邏輯漏洞（如立方體相鄰面矛盾），而純文本推理易陷入“符號化陷阱”（如點電荷力方向錯判）。

2 突破路徑一：圖像生成讓智能體“看得見思考過程”

既然視覺模擬是核心，第一步便是讓智能體“生成圖像來輔助思考”——即通過圖像生成，將抽象的推理過程轉化為可視化內容，再基于可視化結果優(yōu)化動作決策。

微軟CVPR'25簡明教程：強化學習訓練多模態(tài)智能體，構建感知思考行動完整閉環(huán)！-AI.x社區(qū)

2.1 從文本推理到視覺化推理：模型架構的演進

傳統(tǒng)多模態(tài)模型（如Chameleon）采用“圖像-文本統(tǒng)一輸入”架構，推理過程完全依賴文本鏈（Chain-of-Thought）；而報告提出的“視覺思考”架構，將圖像生成嵌入推理環(huán)節(jié)，形成兩種核心模式：

微軟CVPR'25簡明教程：強化學習訓練多模態(tài)智能體，構建感知思考行動完整閉環(huán)！-AI.x社區(qū)

?直接提示生成（Direct Prompting）：輸入視覺任務（如迷宮），智能體先生成“推理圖像”（如迷宮路徑標注），再基于圖像輸出動作序列。例如在迷宮任務中，智能體生成“左轉路徑標注圖”后，輸出“Go left”的動作；

?工具輔助生成（Tool-augmented Generation）：通過圖像工具（如Qwen的圖像解析模塊）將視覺輸入轉化為結構化信息，再生成推理圖像。例如在MiniBehavior任務中，智能體先解析“打印機位置”的視覺信息，生成“攜帶打印機的路徑圖”，再輸出“Pickup → Go left → Drop”的動作序列。

微軟CVPR'25簡明教程：強化學習訓練多模態(tài)智能體，構建感知思考行動完整閉環(huán)！-AI.x社區(qū)

2.2 視覺規(guī)劃的實踐：從迷宮到 FrozenLake

在“視覺規(guī)劃”（Visual Planning）實驗中，研究驗證了圖像生成對“物理約束感知”的提升：

?迷宮任務：純文本推理的智能體可能輸出“穿墻”的無效動作，而生成“路徑可視化圖像”的智能體，能通過圖像驗證“是否違反物理約束”，最終輸出“直走至交叉路口→左轉”的合規(guī)動作；

?FrozenLake任務：該任務中冰面存在“陷阱”，純文本推理易忽略陷阱位置，而視覺化推理的智能體通過生成“陷阱標注圖”，能避免“Fall into the Hole”的失敗動作，動作成功率提升約30%。

2.3 圖像輸出的獎勵設計：從“動作解析”到“最優(yōu)判斷”

圖像生成的核心挑戰(zhàn)是“如何設計獎勵機制”——純圖像無法直接量化，研究提出“規(guī)則化動作解析”方案：將“圖像-圖像轉換”（如迷宮路徑圖的步驟變化）解析為離散動作（如“左轉”“前進”），再通過對比“模型動作”與“最優(yōu)動作”給出獎勵：

? 若動作符合最優(yōu)路徑，獎勵為“1”；

? 若動作非最優(yōu)但合規(guī)，獎勵為“0.5”；

? 若動作違反物理約束（如穿墻），獎勵為“-1”。

這種設計讓“視覺思考”的結果可量化，為后續(xù)強化學習優(yōu)化提供了基礎。

3 突破路徑二：工具使用強化視覺推理的“精度控制”

圖像生成解決了“有無視覺思考”的問題，而“工具使用”則解決了“視覺思考精度”的問題。報告通過DeepEyes模型與OpenThinkIMG框架，構建了一套“視覺工具生態(tài)”，讓智能體能通過工具實現(xiàn)“精準視覺探索”。

微軟CVPR'25簡明教程：強化學習訓練多模態(tài)智能體，構建感知思考行動完整閉環(huán)！-AI.x社區(qū)

3.1 DeepEyes的工具生態(tài)：從Zoom-in到Point+DrawLines

DeepEyes的核心是將“基礎視覺操作”轉化為工具，覆蓋“視覺搜索-信息提取-關系標注”全流程：

微軟CVPR'25簡明教程：強化學習訓練多模態(tài)智能體，構建感知思考行動完整閉環(huán)！-AI.x社區(qū)

?Zoom-in/Crop（放大/裁剪）：針對復雜圖像（如多區(qū)域圖表），智能體可放大目標區(qū)域（如非洲咖啡偏好子圖），減少無關信息干擾。實驗顯示，該工具能使視覺接地（Grounding IoU）從0.2提升至0.35，同時降低 hallucination（幻覺）率約15%；

微軟CVPR'25簡明教程：強化學習訓練多模態(tài)智能體，構建感知思考行動完整閉環(huán)！-AI.x社區(qū)

?OCR（光學字符識別）：用于提取圖像中的文字信息（如百分比、數(shù)值）。在“非洲咖啡偏好百分比差”任務中，智能體通過Zoom-in定位非洲子圖，再用OCR提取“Fruity & Floral（40.0%）”與“Rich & Bold（15.0%）”，計算出25%的差值——而GPT-4o因未精準提取數(shù)值，誤將15%算為18%，得出22%的錯誤結果；

?Point+DrawLines（點選+畫線）：用于標注數(shù)據(jù)關系（如時間序列中的關鍵點）。在“1970-2000年洋流強度變化”任務中，智能體通過Point工具標記三大洋流（墨西哥灣暖流、黑潮、南極繞極流）在兩個年份的強度值，再用DrawLines工具繪制對比線，最終準確判斷“三者增幅相同（25單位）”，而GPT-4o因錯讀數(shù)值，誤判“墨西哥灣暖流增幅最大”。

3.2 OpenThinkIMG：模塊化RL框架的“兼容與擴展”

為讓工具生態(tài)可復用，研究提出OpenThinkIMG框架，該框架具備三大核心特性：

微軟CVPR'25簡明教程：強化學習訓練多模態(tài)智能體，構建感知思考行動完整閉環(huán)！-AI.x社區(qū)

?模塊化設計：將“獎勵機制”“工具集”“模型”“任務”解耦，支持靈活替換（如替換工具為“DrawLine”，模型為“Gemini Pro”，任務為“ChartQA”）；

?工具評估體系：內置“工具調用效果評分”模塊，可基于“動作合規(guī)性”“信息準確性”量化工具使用效果；

?RLrollout API：提供標準化的強化學習交互接口，簡化“軌跡生成-獎勵計算-模型更新”的流程。

微軟CVPR'25簡明教程：強化學習訓練多模態(tài)智能體，構建感知思考行動完整閉環(huán)！-AI.x社區(qū)

實驗顯示，基于OpenThinkIMG訓練的“V-Tool RL”模型，在ChartGemma測試集上的性能（59.39%）已接近閉源模型GPT-4.1（68.20%），遠超傳統(tǒng)文本RL模型（29.56%）。

微軟CVPR'25簡明教程：強化學習訓練多模態(tài)智能體，構建感知思考行動完整閉環(huán)！-AI.x社區(qū)

3.3 DeepEyes的訓練動態(tài)：從“探索”到“高效利用”

DeepEyes的訓練過程分為三個階段，清晰展現(xiàn)了工具使用的優(yōu)化方向：

微軟CVPR'25簡明教程：強化學習訓練多模態(tài)智能體，構建感知思考行動完整閉環(huán)！-AI.x社區(qū)

?S1（初始探索）：工具調用次數(shù)多（約2.2次/任務），響應長度長（約325字符），但接地精度低（IoU約0.2）——智能體在嘗試不同工具組合；

?S2（高頻工具使用）：工具調用次數(shù)保持穩(wěn)定，響應長度縮短（約225字符），接地精度提升（IoU約0.28）——智能體逐漸聚焦有效工具；

?S3（高效利用）：工具調用次數(shù)降至1.0次/任務，響應長度進一步縮短（約175字符），接地精度達0.35，V*Bench評分提升至85+——智能體學會用“最少工具”實現(xiàn)“最高精度”。

4 強化學習的深度適配：從單輪優(yōu)化到多輪軌跡強化

工具與圖像生成解決了“視覺思考的載體”問題，而強化學習的“多輪適配”則解決了“復雜場景下的持續(xù)優(yōu)化”問題。傳統(tǒng)單輪RL無法應對“多輪交互、狀態(tài)依賴”的真實場景，報告提出StarPO算法與VAGEN框架，實現(xiàn)了多模態(tài)智能體的穩(wěn)定訓練。

微軟CVPR'25簡明教程：強化學習訓練多模態(tài)智能體，構建感知思考行動完整閉環(huán)！-AI.x社區(qū)

4.1 單輪RL的局限：真實場景中的“多輪難題”

在WebShop（購物）、Sokoban（推箱子）等真實任務中，單輪RL存在兩大缺陷：

?狀態(tài)遺忘：任務需要多步動作（如推箱子需“移動→推箱→再移動”），單輪RL無法記憶前序狀態(tài)，導致動作邏輯斷裂；

?獎勵偏差：單輪獎勵僅基于“當前動作”，無法評估“動作對最終目標的貢獻”（如推箱第一步“移動到箱子旁”本身無獎勵，但對后續(xù)推箱至關重要）。

4.2 StarPO算法：State-Thinking-Action-Reward的閉環(huán)

StarPO（State-Thinking-Action-Reward Policy Optimization）算法的核心是“將多輪交互視為軌跡（Trajectory），強化整個軌跡的合理性”，分為三步：

微軟CVPR'25簡明教程：強化學習訓練多模態(tài)智能體，構建感知思考行動完整閉環(huán)！-AI.x社區(qū)

1.軌跡生成（Rollout）：智能體從初始狀態(tài)（S0）出發(fā)，每一輪生成“思考過程+動作”（如“觀察到箱子在(2,2)→移動到(2,1)”），環(huán)境執(zhí)行動作后反饋“獎勵（r）”與“新狀態(tài)（S1）”，重復K輪形成完整軌跡（T: S0→a0→r0→S1→...→aK→rK→SK+1）；

微軟CVPR'25簡明教程：強化學習訓練多模態(tài)智能體，構建感知思考行動完整閉環(huán)！-AI.x社區(qū)

2.軌跡驗證（Verification）：計算軌跡級獎勵（如推箱子任務中，“成功推到目標”的軌跡獎勵為1，“中途卡住”的獎勵為0.2），篩選高價值軌跡；

微軟CVPR'25簡明教程：強化學習訓練多模態(tài)智能體，構建感知思考行動完整閉環(huán)！-AI.x社區(qū)

3.軌跡強化（Reinforce）：基于高價值軌跡更新模型策略，讓智能體更傾向于生成“符合軌跡邏輯”的思考與動作。

微軟CVPR'25簡明教程：強化學習訓練多模態(tài)智能體，構建感知思考行動完整閉環(huán)！-AI.x社區(qū)

4.3 破解“回聲陷阱”：StarPO-S的穩(wěn)定性優(yōu)化

多輪RL易陷入“回聲陷阱”——智能體過度擬合“局部獎勵高的推理模式”，抑制探索（如在Bandit任務中，反復選擇“初始獎勵高的選項”，忽略其他可能更優(yōu)的選項）。研究提出StarPO-S改進方案：

微軟CVPR'25簡明教程：強化學習訓練多模態(tài)智能體，構建感知思考行動完整閉環(huán)！-AI.x社區(qū)

?獎勵方差過濾：保留“獎勵方差高”的軌跡（即推理模式更多樣的軌跡），避免單一模式過擬合；

?動作裁剪（Clipping）：限制“極端動作”的權重，防止異常軌跡干擾模型；

?移除KL約束：減少“與初始模型的偏差限制”，提升探索靈活性。

微軟CVPR'25簡明教程：強化學習訓練多模態(tài)智能體，構建感知思考行動完整閉環(huán)！-AI.x社區(qū)

實驗顯示，StarPO-S在Sokoban任務中的成功率從0.15提升至0.2，F(xiàn)rozenLake任務從0.1提升至0.18，有效緩解了“回聲陷阱”。

4.4 VAGEN：視覺狀態(tài)表示的“任務適配”

微軟CVPR'25簡明教程：強化學習訓練多模態(tài)智能體，構建感知思考行動完整閉環(huán)！-AI.x社區(qū)

多模態(tài)智能體的另一核心問題是“如何讓視覺語言模型（VLM）‘讀懂’視覺狀態(tài)”。VAGEN（Visual State Representation for VLMs）框架對比了三種視覺狀態(tài)表示方式的任務適應性：

微軟CVPR'25簡明教程：強化學習訓練多模態(tài)智能體，構建感知思考行動完整閉環(huán)！-AI.x社區(qū)

?自然語言表示：如“Player at (2,1), Box at (2,2)”，在Drawer（抽屜操作）任務中性能最優(yōu)（1.00），適合“需自然語言描述的場景”；

?結構化表示：如Player:(2,1); Box:(2,2)，在Place（放置）任務中性能最優(yōu)（1.00），適合“需精準定位的場景”；

?符號化表示：如用“#”表示墻、“O”表示箱子，在Sokoban任務中性能較好（0.88），適合“網(wǎng)格類場景”。

微軟CVPR'25簡明教程：強化學習訓練多模態(tài)智能體，構建感知思考行動完整閉環(huán)！-AI.x社區(qū)

同時，VAGEN設計了“視覺推理獎勵”機制：

?LLM-as-Judge：用LLM驗證“智能體生成的視覺狀態(tài)描述”與“真實狀態(tài)”的一致性，給出“狀態(tài)準確性獎勵”；

微軟CVPR'25簡明教程：強化學習訓練多模態(tài)智能體，構建感知思考行動完整閉環(huán)！-AI.x社區(qū)

?雙層GAE（General Advantage Estimation）：對“token級”（如“Player位置”描述）和“turn級”（如“整個動作步驟”）分別計算優(yōu)勢值，實現(xiàn)“中間推理步驟”與“最終動作”的分層獎勵。

微軟CVPR'25簡明教程：強化學習訓練多模態(tài)智能體，構建感知思考行動完整閉環(huán)！-AI.x社區(qū)

5 總結與未來：多模態(tài)智能體的“視覺思考”之路

本報告的研究，本質上是為多模態(tài)智能體構建了“類人類視覺推理”的技術體系，核心突破可概括為三點：

確立“視覺模擬”的核心地位：通過對比人類與AI的推理差距，明確“視覺化思考”是多模態(tài)推理的關鍵；
構建“工具+圖像生成”的視覺思考載體：從基礎工具（Zoom-in、OCR）到圖像生成，讓智能體“能看見、能精準探索”；
提出“多輪RL”的穩(wěn)定訓練方案：通過StarPO的軌跡優(yōu)化與StarPO-S的“回聲陷阱”破解，讓智能體在復雜場景中持續(xù)進化。

未來，這一方向的探索將聚焦于“更復雜的真實場景”——如自動駕駛中的“動態(tài)視覺推理”、機器人操作中的“多工具協(xié)同”，而OpenThinkIMG與VAGEN的模塊化設計，為這些場景的擴展提供了基礎。

參考資料

? 題目：See. Think. Act. Training Multimodal Agents with Reinforcement Learning

? 作者：Linjie Li(Microsoft)

? 鏈接：https://vlp-tutorial.github.io/slides/tutorial/vision_foundation_models_2025/Linjie.pdf

本文轉載自??旺知識??，作者：旺知識

標簽

微軟

多模態(tài)

智能體

已于2025-10-11 09:38:59修改

贊

回復

舉報

社區(qū)頭條

回復

51CTO

51CTO博客

51CTO學堂

微軟CVPR'25簡明教程：強化學習訓練多模態(tài)智能體，構建感知思考行動完整閉環(huán)！

1 多模態(tài)推理的核心瓶頸：缺失的“視覺模擬”能力

1.1 從立方體折疊到電荷受力：人類與AI的推理差距

1.2 視覺模擬為何是多模態(tài)智能的關鍵？

2 突破路徑一：圖像生成讓智能體“看得見思考過程”

2.1 從文本推理到視覺化推理：模型架構的演進

2.2 視覺規(guī)劃的實踐：從迷宮到 FrozenLake

2.3 圖像輸出的獎勵設計：從“動作解析”到“最優(yōu)判斷”

3 突破路徑二：工具使用強化視覺推理的“精度控制”

3.1 DeepEyes的工具生態(tài)：從Zoom-in到Point+DrawLines

3.2 OpenThinkIMG：模塊化RL框架的“兼容與擴展”

3.3 DeepEyes的訓練動態(tài)：從“探索”到“高效利用”

4 強化學習的深度適配：從單輪優(yōu)化到多輪軌跡強化

4.1 單輪RL的局限：真實場景中的“多輪難題”

4.2 StarPO算法：State-Thinking-Action-Reward的閉環(huán)

4.3 破解“回聲陷阱”：StarPO-S的穩(wěn)定性優(yōu)化

4.4 VAGEN：視覺狀態(tài)表示的“任務適配”

5 總結與未來：多模態(tài)智能體的“視覺思考”之路

參考資料

目錄