純靠“腦補”圖像，大模型推理準確率狂飆80%丨劍橋谷歌新研究

2025-05-21 13:56:37

新框架利用GRPO對大型視覺模型進行后訓練，在多個代表性視覺導航任務中的性能表現都遠超基于文本的推理方法。

不再依賴語言，僅憑圖像就能完成模型推理？

大模型又雙叒叕迎來新SOTA！

當你和大模型一起玩超級瑪麗時，復雜環境下你會根據畫面在腦海里自動規劃步驟，但LLMs還需要先轉成文字攻略一格格按照指令移動，效率又低、信息也可能會丟失，那難道就沒有一個可以跳過“語言中介”的方法嗎？

于是來自劍橋、倫敦大學學院和谷歌的研究團隊推出了首次純粹依靠圖像進行推理的新范式——基于強化學習的視覺規劃（VPRL）。

新框架利用GRPO對大型視覺模型進行后訓練，在多個代表性視覺導航任務中的性能表現都遠超基于文本的推理方法。

準確率高達80%，性能超文本推理至少40%，首次驗證了視覺規劃顯著優于文本規劃，為直覺式圖像推理任務開辟了新方向。

目前相關代碼已開源，可點擊文末鏈接獲取。

以下是有關VPRL的更多細節。

VPRL更準確、更有效

現有的視覺推理基準都是將視覺信息映射到文本領域進行處理，整個推理過程都由語言模型完成。

純視覺規劃則是讓模型直接利用圖像序列，沒有中間商“賺差價”，推理效率直線UP。

由此團隊直接引入一個基于強化學習的視覺規劃訓練框架VPRL，基于群組相對策略優化（GRPO），利用視覺狀態之間的轉換來計算獎勵信號，同時驗證環境約束。

該框架可以分為兩個階段：

通過環境中的隨機游走軌跡初始化模型，再對每條軌跡提取圖像對，并給定輸入前綴，此外通過最小化監督損失以鼓勵生成連貫的視覺輸出：

利用模型在隨機軌跡初始化后已具備的探索能力，通過生成下一視覺狀態模擬潛在動作結果，并引導模型執行有效規劃。

具體來說，就是基于GRPO計算組內相對優勢，每個候選的相對優勢為：

同時為引導模型生成更高優勢的響應，通過最大化以下目標函數更新策略模型：

在視覺規劃框架中，核心挑戰始終在于生成的視覺狀態能否正確反映規劃動作的意圖，因此需要通過獎勵函數評估動作有效性（獎勵進展動作、零獎勵非進展動作、懲罰無效動作），進度獎勵函數定義為：

除了VPRL，研究團隊還選用了幾種系統變體作為基線，分別是基于微調的視覺規劃 （VPFT）和文本中的監督微調 （SFT），以比較基于語言和基于視覺的規劃，同時評估強化學習的作用。

VPFT與VPRL在第一階段訓練架構一致，但用最佳規劃軌跡取代隨機軌跡；而SFT用一個預期動作序列的文本描述取代中間視覺結果。

為了更直觀地比較兩種規劃效果，團隊選取了三個可以完全以視覺方式表達和執行的代表性任務：

在模型的選取上，選擇專門在視覺數據上訓練的模型LVM-3B，確保預訓練期間不接觸任何文本數據。

另外評估比較Qwen 2.5VL-Instruct在僅推理（Direct2和CoT）和訓練后設置（SFT）兩種模式下的文本規劃效果，以及將Gemini 2.0 Flash和Gemini 2.5 Pro作為多模態推理的參考模型。

評估指標采用精確匹配率（EM）和進展率（PR），前者衡量模型是否成功生成與最優路徑一致的完整規劃軌跡，后者則測量從開始到最優路徑的連續正確步數與總步數的比率。

實驗結果表明，視覺規劃顯著優于文本規劃。

視覺規劃（VPFT和VPRL）在所有任務上都取得了最高分，如表所示，VPRL在三個任務中平均EM高達80.6%，遠超文本基線（如Gemini 2.5 Pro平均EM為43.7%）。

在強化學習的增益上，VPRL也相比監督基線VPFT提升超20%，尤其是在復雜任務MiniBehavior中EM更是高達75.8%。

說明通過獎勵驅動，可以幫助模型自由探索不同行動并從結果中學習，從而有效提高規劃性能。

與此同時在魯棒性上，隨著網格尺寸增大（如FrozenLake從3×3到6×6），VPRL性能下降平緩（EM從97.6%降至82.4%），而Gemini 2.5 Pro從98.0%驟降至38.8%，充分體現了VPRL更強的穩定性。

與VPFT相比，VPRL也將無效失敗率降低了24%，從而幫助模型保持在有效的動作空間內。

綜上，實驗結果首次驗證了純視覺推理的可行性，通過研究團隊提出的新范式VPRL框架，可以在視覺導航任務中實現超越文本模型的推理性能，并展現出極強的泛化能力，推動多模態推理在未來朝著更直觀的圖像化方向發展。

值得一提的是，團隊成員長期致力于視覺推理研究，他們也曾研究通過多模態思維可視化（MVoT）生成視覺“思想”，以徹底改變AI推理方式，感興趣的小伙伴們可以持續關注團隊的研究進展～

責任編輯：張燕妮來源：量子位