RL 將如何提高具身大模型 VLA 泛化性?清華大學團隊NeurIPS 2025文章分析 RL 與 SFT 泛化性差異
在具身智能領域,視覺 - 語言 - 動作(VLA)大模型正展現出巨大潛力,但仍面臨一個關鍵挑戰:當前主流的有監督微調(SFT)訓練方式,往往讓模型在遇到新環境或任務時容易出錯,難以真正做到類人般的泛化。但在大語言模型(LLM/VLM)領域,強化學習(RL)已被證明能顯著提升模型的泛化能力。RL 究竟能為 VLA 帶來哪些獨特的泛化優勢?與 SFT 相比,它們的優劣勢分別體現在哪里?
來自清華大學的研究團隊在 NeurIPS 2025 發表文章,首次系統性地揭示了強化學習(RL)在提升 VLA 泛化能力上的獨特優勢,并帶來了一套全面的評測基準和高效訓練方法。通訊作者是清華大學教授汪玉和博士后于超。

- 論文標題:What Can RL Bring to VLA Generalization? An Empirical Study
- 項目網站和代碼:https://rlvla.github.io/
- 論文地址:https://arxiv.org/abs/2505.19789
為了解決 VLA 模型泛化能力有限的問題,研究團隊構建了一個涵蓋多種視覺、語義和執行挑戰的全新評測基準,并系統性地對比了強化學習(RL)和傳統有監督微調(SFT)在提升模型泛化性上的表現。通過大量實驗發現:采用 PPO 等強化學習算法微調 VLA,不僅顯著提升了模型在語義理解和任務執行上的魯棒性,還能在視覺變化場景下保持與 SFT 相當的表現。同時提出了一套簡單高效的 PPO 訓練方案,使得強化學習在 VLA 領域的應用更加實用和高效。
具身基礎模型:開源 OpenVLA 大模型

研究團隊采用了目前 SoTA 之一的開源 OpenVLA 模型為基礎進行研究。OpenVLA 從 Llama2-7b 微調而來,在每一個時間步,接收一張 RGB 圖像和一條指令(即歷史長度 H=1),并輸出一系列離散的動作 token 控制機械臂行動。
問題 1:何種 RL 方法更好?
研究團隊測試了三種在大語言模型領域廣受認可的強化學習算法,包括 RLHF 中常用的 PPO(近端策略優化)和 DPO(直接偏好優化),以及在數學等推理任務中展現出色的 GRPO(組相對策略優化)。

實驗結果令人意外:在機器人控制這一多步決策任務中,經典的 PPO 算法展現出了顯著優勢,而專為語言模型設計的 DPO 和 GRPO 卻難以高效學習。研究團隊分析認為,這源于機器人任務的部分可觀測馬爾可夫決策過程(POMDP)特性 —— 每個動作都會改變環境狀態,這種非平穩性可能破壞了 GRPO 的優勢估計穩定性。而 DPO 面臨的挑戰則在于稀疏獎勵結構難以區分軌跡質量,以及離線數據與在線執行之間存在顯著的分布偏移。

問題 2:如何實現高效的 PPO 訓練?
為了讓 PPO 在 VLA 模型上高效運行,研究團隊提出了三個關鍵創新。
1. 共享 Actor-Critic 架構設計:讓 Actor 和 Critic 共享同一個主干網絡,僅在最后添加一個輕量級的 MLP 作為價值頭。這一設計將顯存占用減少了 45%,訓練速度提升 35%,還保持了相當的性能表現。

2. VLA 模型預熱策略:使用 140 條高質量軌跡對模型進行預熱,此步驟讓后續的強化學習收斂速度提升 50%,大幅減少了所需的環境交互次數。
3. 最小化 PPO 訓練輪次:傳統 PPO 通常會對每批數據進行多輪梯度更新,但研究發現在 VLA 場景下,將 PPO 訓練輪次(epoch)設為 1 就已足夠 —— 更多的更新輪次不僅無法提升性能,反而會增加訓練時間。通過這一優化,整個訓練過程在單張 A100 GPU 上僅需 42 小時即可收斂。

問題 3:SFT 和 RL 的對比
為了公平比較,研究團隊首先探究了 SFT 的數據規模上限。研究團隊使用動作規劃器(Motion Planner)采集了不同規模的 SFT 數據集,實驗顯示,當演示軌跡數量達到 16,000 條(約 126 萬個狀態 - 動作對)時,無論是訓練分布內、還是分布外新物體 / 桌面的 SFT 性能都趨于飽和。
然而對于 RL,雖然收斂時訓練分布內任務性能與 SFT 相當,但是在分布外任務上卻取得了 42.6% 的性能提升,這展現出 RL 具有更強的泛化性。

為了深入剖析泛化性差異,研究團隊基于 ManiSkill 仿真器構建了一個全面的評測基準,從視覺(如動態紋理、新桌面)、語義(如未見物體、指令變體)和執行(如物體位置變化、機器人初始姿態)三個維度系統地對泛化能力進行拆解。

實驗結果清晰地展現了 RL 的優勢:RL 在語義理解任務上表現出明顯優勢,特別是在處理未見物體的抓取任務時;在執行魯棒性方面更是大幅領先,無論是物體位置變化、機器人初始姿態偏移,還是任務執行中途的物體移位,RL 都展現出了顯著更強的適應能力;而在視覺泛化上,兩種方法表現相當。

通過對具體案例的可視化分析,研究團隊發現了更深層的差異。在強噪聲干擾下,SFT 策略會在抓取物體后反復掉落,而 RL 策略能夠穩定完成任務。面對未見物體時,SFT 容易陷入重復嘗試抓取已持有物體的死循環,RL 則能正確判斷并完成放置。最引人注目的是執行軌跡分布的差異:RL 探索了更廣闊的工作空間和更豐富的末端執行器姿態,而 SFT 的軌跡則緊密聚集在演示數據的運動規劃路徑周圍。這種更廣泛的覆蓋或許解釋了 RL 在執行任務上具有的優越泛化能力。

這項研究不僅為 VLA 模型的訓練提供了新的方向,更重要的是證明了強化學習在構建真正通用的具身智能體中的核心價值。隨著機器人應用場景日益復雜多變,這種能夠通過試錯學習、自主適應新環境的能力將變得愈發重要。
團隊致力于研究強化學習在 VLA 中的運用,開源了首個面向具身智能的 “渲訓推一體化” 大規模強化學習框架 RLinf(https://github.com/RLinf/RLinf),更多大規模的實驗結果參見網站。




































