通用具身智能要來了!卡內基梅隆&Meta發布效率之王MetaVLA:訓練步數降3倍,GPU時間少76%

文章鏈接:https://arxiv.org/pdf/2510.05580
項目鏈接:https://stellar-neuron.github.io/metavla/
亮點直擊
- 探索了一個尚未充分研究的方向:通過引入多樣的輔助任務,以可忽略的優化開銷提升后訓練階段的效率與泛化能力。
- MetaVLA,一套可插拔的模塊與訓練方案,能夠實現快速且可擴展的適應性訓練,并具備強泛化能力。MetaVLA 工程實現友好,對主干架構和底層訓練流程均保持無關性。
- 全面實驗表明,MetaVLA 在顯著提高效率的同時提供了更優的性能,通過減少模型數量和 GPU 訓練時間來實現,同時保持快速的推理速度。


LIBERO-Goal 上的 MetaVLA 執行序列示例


LIBERO-Object 上的 MetaVLA 執行順序示例
總結速覽
解決的問題
當前的 Vision–Language–Action(VLA)模型雖有進展,但仍存在以下關鍵問題:
- 任務依賴性強:需要為每個下游任務單獨微調(task-specific fine-tuning)。
- 計算成本高:如 OpenVLA 需 240K 步訓練,GPU 時間極長。
- 泛化能力弱:在新任務或長時序任務(如 LIBERO-Long)上表現不穩定。
- 多任務訓練不穩定:直接加入多樣任務(naive multi-task SFT)會導致特征/動作空間不一致,引發優化不穩定。
提出的方案
提出 MetaVLA —— 一個統一、主干無關(backbone-agnostic)的后訓練框架, 通過 Context-Aware Meta Co-Training(上下文感知元協同訓練) 實現高效、可擴展的多任務對齊。
- 將多個目標任務整合進一個統一的訓練階段;
- 同時引入結構多樣的輔助任務,通過元學習機制提升泛化能力;
- 避免逐任務微調帶來的冗余和性能退化。
應用的技術
- Attentive Neural Processes(ANP)派生的記憶增強模塊: 注入輔助任務信息增益,不破壞目標任務優化。
- Meta-learning Co-training(元學習協同訓練): 通過跨任務梯度共享與上下文適應,提升有限數據下的學習效率。
- Backbone-agnostic架構: 可無縫適配不同的 VLA 主干和訓練范式(包括 SFT 與 RL)。
達到的效果
MetaVLA 顯著提升了訓練效率與泛化性能:
- 性能提升:在 LIBERO 基準上平均超越 OpenVLA 4.4%、多任務 SFT 3.1%, 在長時序任務(LIBERO-Long)上最高提升8.0%。
- 效率提升:
- 訓練步數:從 240K → 75K(減少約 69%)
- GPU 時間:從約 100 小時 → 24 小時(節省約 76%)
- 開銷極低:額外推理延遲僅0.3 ms/token。
- 統一性強:單一模型覆蓋多個任務,提升維護與擴展性。
方法
任務定義與主干選擇
本文目標是開發一種高效的通用 VLA 后訓練范式,能夠適應預訓練期間未見過的多樣化新任務。
采用 LIBERO 基準作為目標任務集,并使用 OpenVLA 作為主干模型。盡管如此,本文方法對主干架構保持無關性,并可無縫集成到其他預訓練的 VLA 模型中。
MetaVLA
架構


這種形式使 MetaVLA 能夠重建目標動作,并通過 KL 散度進行正則化,以防止目標分布偏離上下文分布過遠。
?
不同于使用小規模神經網絡的標準 ANP,集成了來自 OpenVLA 的預訓練 Llama2 主干。MAR 同時生成隨機與確定性的上下文潛在向量,并在最終輸出層之前與 Llama 的隱藏狀態進行拼接。組合后的表征隨后通過語言模型頭(LM head)產生輸出 logits,從而可通過標準的 Llama 解碼實現端到端訓練。框架概覽見下圖2。

數據庫
在設置中,存在兩個數據庫:上下文庫(context bank)和目標庫(target bank)。
對于上下文庫,它充當外部記憶,由域內任務(在我們的案例中為四個 LIBERO 套件)和輔助任務組成。對于域內任務,四個 LIBERO 套件被劃分為不重疊的上下文集與目標集。對于輔助任務,我們選擇了部分開源的 GR00T 數據集。一個統一的上下文庫隨后聚合來自域內數據集的上下文集和從輔助數據中選取的任務。
?
目標數據庫僅包含域內任務的目標集——在我們的案例中,即所有四個 LIBERO 套件的任務集。不同于標準的 VLA SFT(為每個套件分別訓練獨立模型),我們的元協同訓練策略在所有目標套件上訓練單一模型,從而提升了可擴展性、泛化性與效率。
訓練協議

輔助任務選擇
為增強上下文多樣性并強化元學習,本文引入了一種輔助任務選擇機制。具體而言,將 GR00T 數據集納入上下文庫,主要基于兩個原因。首先,GR00T 在 OpenVLA 預訓練期間完全未出現,是額外信息增益的有價值來源。其次,它在領域上與 LIBERO 部分相關,同時在結構上存在差異——在熟悉性與多樣性之間取得平衡。
?
LIBERO 任務使用帶有抓手的 Franka Emika Panda 機械臂,并主要采用正面攝像機視角。相比之下,選定的 GR00T 任務包括使用正面視角的雙臂操作以及僅使用側視角的單臂操作。這些差異被有意引入,以測試 MetaVLA 的魯棒性與泛化能力。三類任務差異的示例見下圖3。

不同于嚴格挑選與 LIBERO 高度相似任務的方法,本文的方法在上下文庫中的數據多樣性上限制更少,對輔助任務的多樣性更具魯棒性,我們認為這為更具可擴展性的適應性訓練框架提供了更高的自由度。實驗結果表明,配備此多任務協同訓練設置的 MetaVLA 在所有 LIBERO 套件上相比基于 SFT 的協同訓練獲得了更高的成功率與更快的收斂速度。
實驗
實驗設置
在 LIBERO 基準上將所提方法與以往工作進行對比。LIBERO 是一個基于 Franka Emika Panda 單臂仿真的基準測試,包含四個不同的任務套件。該基準旨在評估模型在每個任務套件中針對 10 個任務、共 500 個專家示范變體的泛化能力。

LIBERO示例
LIBERO-Goal 保持物體與布局不變,僅在最終任務目標上變化;LIBERO-Spatial 保持物體與任務不變,僅重新排列布局;LIBERO-Object 使用相同的布局環境,但改變物體類型;LIBERO-Long(又稱 LIBERO-10)包含長時序任務,綜合了上述多種分布變化。
本文方法在所有四個套件上聯合訓練單一模型,同時引入來自 GR00T 數據集的最多 6 個異質輔助任務(基于帶抓手的 Panda 機器人)。GR00T 是一個包含不同機器人和任務類型的仿真數據集。

GR00T 示例
遵循以往工作并采用成功率(Success Rate, SR)作為評估指標。得益于高效的協同訓練,本文的方法僅需約 24 小時即可在 8 張 A100 80GB GPU 上完成所有四個 LIBERO 套件的微調。選擇 OpenVLA 作為主干模型,因其完整性、成熟度以及穩健的開源代碼與評估流程,已被學術界廣泛采用。
為保證公平對比,在 LIBERO 仿真環境中重新評估了 OpenVLA 基線模型,使用來自 Hugging Face 的四個單任務微調模型作為基線。由于硬件差異與隨機性,結果可能與原始報告略有不同。所有在 LIBERO 上報告的結果均在一張 24GB RTX-4090 GPU 上評估。
基礎多任務 SFT 的效果
如下表1所示,在基礎多任務 SFT(SFT-4LIBERO+輔助任務)中增加輔助任務會持續降低性能。隨著任務數量的增加,退化現象愈發嚴重,表明模型難以處理領域偏移且無法收斂。一個可能的因素是每個任務的訓練步數減少。例如,在 SFT-4LIBERO+5single+1bimanual(訓練 75K 步)中,每個任務的步數從 SFT-4LIBERO 的 18.75K 降至 7.5K。為驗證這一點,將訓練步數增加至 187.5K。雖然性能略有提升,但仍顯著低于 MetaVLA(無論是否包含輔助任務)。此外,如下圖 6 所示,在 187.5K 步時,三項指標——Accuracy、Imitation Loss 與 L1 Loss——的訓練曲線均顯示其適應性不足。這支持了我們的觀點:MetaVLA 具備更高的可擴展性,能在不出現優化不穩定的情況下有效利用輔助數據。由于計算限制,對該觀點的更嚴格證明留待未來工作。

上下文感知元協同訓練的效果
如下表 1 所示,MetaVLA(無論是否包含輔助任務)在所有 LIBERO 任務及平均性能上均優于所有基線模型,包括 OpenVLA 基線與 SFT-4LIBERO。引入六個輔助任務時,其性能相比 OpenVLA 提升 4.4%,相比 SFT-4LIBERO 提升 3.1%,尤其在 LIBERO-Long 上分別提升 8.0% 與 5.1%。此外,MetaVLA 將模型數量減少至 1 個,并將訓練步數從 240K 降至 75K。

消融實驗
上下文批大小的影響
如下圖4所示,在設定下,成功率隨批大小的增加而單調提升。相對較小的上下文批大小32能獲得最佳性能,同時不會對內存占用造成額外負擔。詳細結果見表 5。


輔助任務選擇的影響
如表1所示,MetaVLA 在所有三種輔助任務設置下均優于其 SFT-4-LIBERO 對應模型,表明其在相機視角、動作空間和上下文任務數量變化下具有穩健的泛化能力。這些結果突出了擴展上下文庫的潛在機會。
參數規模變化的影響
為排除性能提升僅僅源于參數規模增加的可能性,本文進行了消融實驗,其中架構保持不變,但上下文庫被替換,僅包含來自 OpenVLA 預訓練數據集(OpenVLA Contributors,2024)的任務——bridge orig 和 fractal20220817 數據。該結果在表1中被記為 MetaVLA-Pretrained-Context-ONLY。與 MetaVLA 相比,在所有 LIBERO 套件上均出現顯著下降。這表明性能提升并非僅由于參數規模增加,而是源于完整的設計組合以及與多樣且信息豐富的異質輔助任務的集成。
多任務協同訓練機制的影響
為評估任務共享協同訓練的影響,將 MetaVLA 的完整目標集(所有四個 LIBERO 套件)替換為一次僅包含一個套件。為簡化起見,采用僅包含四個 LIBERO 套件且無輔助任務的精簡上下文庫——與表1中 MetaVLA 的設置一致。在該設置下,通過 SFT 獨立訓練四個模型,每個模型對應一個套件,并使用與 OpenVLA(OpenVLA Team,2024)相同的總訓練步數(240K)。將此配置稱為 MetaVLA-EACH。 在評估中,報告了 OpenVLA 基線和 MetaVLA-EACH 在 240K(最終步驟)和 120K(中期訓練)下的結果,以突出 MetaVLA 的早期收斂優勢。
?
下表2中的結果揭示了三個關鍵發現:(1) MetaVLA-EACH 在最終訓練步驟上優于 Hugging Face OpenVLA 基線(OpenVLA Team,2024);(2) 它在所有套件中更早達到更高的成功率;(3) 在復雜套件(Goal,Long)上性能持續提升,而在較簡單的套件(Spatial,Object)上更早收斂——表明任務多樣性對更具挑戰性的任務更有益。

這些發現突出了 MAR 在可擴展、基于記憶的元學習框架中的有效性。然而,與完整的 MetaVLA(表1)相比,MetaVLA-EACH 犧牲了統一泛化性和訓練效率,需要四個模型和更多計算量(120K 對比 75K 步)。
隨機學習的影響
如方程 中的 ELBO 下界所示,MAR 同時優化重構損失和 KL 散度項。在表1中,MetaVLA+Stochastic 包含該隨機正則化,而 MetaVLA 未包含。隨機變體在 Spatial 套件上提高了性能,在 Goal 和 Object 套件上表現相當,但在 Long 套件上表現較差。由于 KL 項鼓勵上下文分布與目標分布之間的接近——而這一假設在更復雜的設置中可能不成立——假設 Long 任務中較大的領域偏移導致了性能下降。相比之下,確定性變體僅依賴重構損失,提供更精確的建模,因此在更具挑戰性的任務中更為有效。基于此原因,隨機模塊在其他所有 MetaVLA 實驗中均被禁用,以提高實用性。
效率討論


為什么我們的方法有效?
多任務協同訓練促進了相關域內任務之間的知識共享,而 MAR 利用多樣化的輔助數據來提升目標性能并緩解領域偏移帶來的優化不穩定性。如下圖5所示,MetaVLA 在所有三個收斂指標——Accuracy、Imitation Loss 和 L1 Loss——上均持續優于樸素的多任務 SFT。前兩個指標評估生成離散標記的質量,而 L1 Loss 衡量機器人執行的連續動作結果。這些結果表明本文方法的有效性和穩定性。

隨著上下文批量大小增大,性能單調提升;隨著輔助任務多樣性的增加,性能持續改善。盡管由于內存和計算限制,未能窮盡所有組合,但這些趨勢表明了上下文擴展(Context Scaling)的潛力——增加上下文庫的批量大小和任務多樣性可能進一步提升目標任務性能。此外,鑒于 MetaVLA 對上下文多樣性的魯棒性,將網頁級數據擴充至上下文庫中——此前僅在預訓練階段探索過——可能帶來額外收益。我們將此留待未來工作探討。
結論
MetaVLA,一種輕量級、即插即用的框架,用于緩解 VLA 后訓練中的低效與脆弱性。通過上下文感知元協同訓練(Context-Aware Meta Co-Training),該方法在不破壞優化穩定性的情況下集成輔助任務,實現了更好的收斂性、效率與泛化能力。在 LIBERO 上,MetaVLA 優于逐任務微調與樸素多任務 SFT,同時降低了訓練成本與模型數量。展望未來,計劃將其擴展至更廣泛的骨干網絡、更大規模的數據集以及真實機器人部署,以推動高效、可擴展的通用 VLA 系統發展。
本文轉自AI生成未來 ,作者:AI生成未來

















