斯坦福、英偉達和伯克利提出具身Test-Time Scaling Law

2025-10-15 09:05:05

Vision-Language-Action（VLA）模型在視覺運動控制中展現出了卓越能力，但如何在復雜的真實世界中保持魯棒性仍是一個長期挑戰。

本文的第一作者為斯坦福大學博士生 Jacky Kwok。共同通訊作者包括英偉達自動駕駛研究總監 Marco Pavone、斯坦福大學計算機系教授兼 DeepMind 科學家 Azalia Mirhoseini，以及 UC 伯克利教授 Ion Stoica。

Vision-Language-Action（VLA）模型在視覺運動控制中展現出了卓越能力，但如何在復雜的真實世界中保持魯棒性仍是一個長期挑戰。研究團隊展示了一個關鍵發現：在推理階段，結合「生成 - 驗證」（generate-and-verify）范式從而增加計算量（test-time compute）可以顯著提升 VLA 模型的泛化能力與可靠性。

與此同時，論文系統性地探討了具身智能中的 Test-Time Scaling Law：隨著推理階段的采樣與驗證規模增長，VLA 模型在任務成功率和穩定性方面呈現出可預測的提升規律。

論文標題：RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models
論文地址：https://arxiv.org/abs/2506.17811
代碼鏈接：robomonkey-vla.github.io
作者郵箱：jackykwok@stanford.edu
接收會議：CoRL 2025

具身 Test-Time Scaling Law

團隊通過大量實驗發現：當在推理階段增加候選動作的生成數量時，VLA 的動作誤差會持續下降。具體來說，無論是反復從機器人策略模型中采樣動作、對部分采樣動作施加高斯擾動，還是在離散動作空間中進行隨機采樣，這些方法在有「理想驗證器」（oracle verifier）的前提下，都能顯著優于單次推理的 OpenVLA 基線。

團隊還揭示出一個冪律規律（power law）：在多種主流 VLA 模型（包括 CogACT、Octo、OpenVLA 和 SpatialVLA）中，動作誤差與高斯擾動采樣數量之間呈現出穩定的冪律關系。這意味著，機器人控制問題不應僅僅被視為一個「生成」任務；相反，生成候選動作 + 驗證篩選的范式，能在不改動訓練模型的前提下顯著提升性能。研究者希望這一發現能夠推動動作驗證器（scalable action verifiers）的發展，為通用機器人模型提供更穩健的落地路徑。

核心問題

在提出具身 Test-Time Scaling Law 之后，研究團隊進一步聚焦于三個關鍵問題：

驗證器訓練：是否能夠利用訓練得到的動作驗證器（action verifier）來替代 oracle verifier，以提升 VLA 的穩定性？
合成數據擴展：能否構建大規模合成數據來訓練驗證器，從而推動下游任務的性能提升？
實際部署可行性：如何設計高效的算法與系統，使 test-time scaling 在真實機器人上實現低延遲、可擴展的部署？

方法概述

階段一?動作驗證器訓練

研究者首先利用機器人數據集，用 VLA 為每個狀態采樣 N 個候選動作，并通過聚類將其壓縮為 K 個具有代表性的動作。隨后，基于候選動作與真實動作（ground truth action）的 RMSE 差異構造合成偏好數據（synthetic action preference dataset），并用其微調一個基于 VLM 的動作驗證器（VLM-based verifier），賦予模型對動作優劣的判別能力。該驗證器的訓練損失函數遵循 Bradley-Terry 模型，并在此基礎上加入了對偏好強度（preference levels）的修正項。

階段二?推理階段的計算擴展

在實際部署中，系統會根據任務指令和環境觀測，用 VLA 采樣 N? 個初始動作。研究者對這些動作的平移與旋轉部分擬合高斯分布，并通過多數投票（majority voting）確定抓取器的開合狀態，構建出高效的動作分布。由此便可以在幾乎不增加計算開銷的前提下，快速采樣出 K? 個候選動作。最后，利用在階段一中訓練好的 VLM 動作驗證器，對這些候選動作進行評估和排序，從中挑選出最優動作執行。

實驗結果

研究表明將 VLA 模型與 RoboMonkey 結合可以帶來顯著性能提升：

在真實世界的 out-of-distribution tasks 上 + 25%
在 in-distribution SIMPLER 環境上 + 9%
在 LIBERO-Long benchmark+7%

這些結果表明，RoboMonkey 不僅提升了整體成功率，還能在部署時有效緩解以下關鍵問題：

抓取不精準
任務推進失敗
碰撞問題

擴展合成數據

實驗結果表明，擴展合成數據集規模對驗證器性能有顯著提升作用。隨著數據規模逐步增加，RoboMonkey 驗證器的準確性呈近似對數線性（log-linear）增長，并在 SIMPLER 環境上的成功率顯著提高。

高效推理部署

為了讓 Test-Time Scaling 在真實系統中具備可部署性，研究團隊在 SGLang 之上實現了一個專用的 VLA serving 引擎。該引擎支持高速的 VLA 動作重復采樣，并通過高斯擾動高效地構建動作分布（action proposal distribution）。這一系統優化顯著降低了推理階段的開銷。

此外，從系統架構的角度來看，RoboMonkey 在相同的延遲約束（latency target）下，如果配備了更大容量的高帶寬存儲器（HBM），GPU 就能夠支持更高的吞吐量（throughput），從而進一步提升機器人基礎模型的泛化能力。

總結

本文的主要貢獻可總結如下：

提出具身推理縮放定律 —— 實驗證明，在多個 VLA 模型中，動作誤差與采樣數量之間呈現冪律關系。
可擴展的驗證器訓練流程 —— 構建了一條自動生成動作偏好數據的方法，并基于此提出了訓練 VLM 動作驗證器的框架。
驗證 Test-Time Scaling 的有效性 —— 證明了所提出的 test-time scaling 框架能夠在無需重新訓練 VLA 的前提下顯著增強 VLA 模型的表現。

責任編輯：張燕妮來源：機器之心

AI 視覺模型