斯坦福、英偉達和伯克利提出具身Test-Time Scaling Law
本文的第一作者為斯坦福大學博士生 Jacky Kwok。共同通訊作者包括英偉達自動駕駛研究總監 Marco Pavone、斯坦福大學計算機系教授兼 DeepMind 科學家 Azalia Mirhoseini,以及 UC 伯克利教授 Ion Stoica。
Vision-Language-Action(VLA)模型在視覺運動控制中展現出了卓越能力,但如何在復雜的真實世界中保持魯棒性仍是一個長期挑戰。研究團隊展示了一個關鍵發現:在推理階段,結合「生成 - 驗證」(generate-and-verify)范式從而增加計算量(test-time compute)可以顯著提升 VLA 模型的泛化能力與可靠性。
與此同時,論文系統性地探討了具身智能中的 Test-Time Scaling Law:隨著推理階段的采樣與驗證規模增長,VLA 模型在任務成功率和穩定性方面呈現出可預測的提升規律。

- 論文標題:RoboMonkey: Scaling Test-Time Sampling and Verification for Vision-Language-Action Models
- 論文地址:https://arxiv.org/abs/2506.17811
- 代碼鏈接:robomonkey-vla.github.io
- 作者郵箱:jackykwok@stanford.edu
- 接收會議:CoRL 2025
具身 Test-Time Scaling Law

團隊通過大量實驗發現:當在推理階段增加候選動作的生成數量時,VLA 的動作誤差會持續下降。具體來說,無論是反復從機器人策略模型中采樣動作、對部分采樣動作施加高斯擾動,還是在離散動作空間中進行隨機采樣,這些方法在有「理想驗證器」(oracle verifier)的前提下,都能顯著優于單次推理的 OpenVLA 基線。
團隊還揭示出一個冪律規律(power law):在多種主流 VLA 模型(包括 CogACT、Octo、OpenVLA 和 SpatialVLA)中,動作誤差與高斯擾動采樣數量之間呈現出穩定的冪律關系。這意味著,機器人控制問題不應僅僅被視為一個「生成」任務;相反,生成候選動作 + 驗證篩選的范式,能在不改動訓練模型的前提下顯著提升性能。研究者希望這一發現能夠推動動作驗證器(scalable action verifiers)的發展,為通用機器人模型提供更穩健的落地路徑。
核心問題
在提出具身 Test-Time Scaling Law 之后,研究團隊進一步聚焦于三個關鍵問題:
- 驗證器訓練:是否能夠利用訓練得到的動作驗證器(action verifier)來替代 oracle verifier,以提升 VLA 的穩定性?
- 合成數據擴展:能否構建大規模合成數據來訓練驗證器,從而推動下游任務的性能提升?
- 實際部署可行性:如何設計高效的算法與系統,使 test-time scaling 在真實機器人上實現低延遲、可擴展的部署?
方法概述
階段一?動作驗證器訓練

研究者首先利用機器人數據集,用 VLA 為每個狀態采樣 N 個候選動作,并通過聚類將其壓縮為 K 個具有代表性的動作。隨后,基于候選動作與真實動作(ground truth action) 的 RMSE 差異構造合成偏好數據(synthetic action preference dataset),并用其微調一個基于 VLM 的動作驗證器 (VLM-based verifier),賦予模型對動作優劣的判別能力。該驗證器的訓練損失函數遵循 Bradley-Terry 模型,并在此基礎上加入了對偏好強度(preference levels)的修正項。

階段二?推理階段的計算擴展

在實際部署中,系統會根據任務指令和環境觀測,用 VLA 采樣 N? 個初始動作。研究者對這些動作的平移與旋轉部分擬合高斯分布,并通過多數投票(majority voting)確定抓取器的開合狀態,構建出高效的動作分布。由此便可以在幾乎不增加計算開銷的前提下,快速采樣出 K? 個候選動作。最后,利用在階段一中訓練好的 VLM 動作驗證器,對這些候選動作進行評估和排序,從中挑選出最優動作執行。
實驗結果

研究表明將 VLA 模型與 RoboMonkey 結合可以帶來顯著性能提升:
- 在真實世界的 out-of-distribution tasks 上 + 25%
- 在 in-distribution SIMPLER 環境上 + 9%
- 在 LIBERO-Long benchmark+7%
這些結果表明,RoboMonkey 不僅提升了整體成功率,還能在部署時有效緩解以下關鍵問題:
- 抓取不精準
- 任務推進失敗
- 碰撞問題
擴展合成數據

實驗結果表明,擴展合成數據集規模對驗證器性能有顯著提升作用。隨著數據規模逐步增加,RoboMonkey 驗證器的準確性呈近似對數線性(log-linear)增長,并在 SIMPLER 環境上的成功率顯著提高。
高效推理部署

為了讓 Test-Time Scaling 在真實系統中具備可部署性,研究團隊在 SGLang 之上實現了一個專用的 VLA serving 引擎。該引擎支持高速的 VLA 動作重復采樣,并通過高斯擾動高效地構建動作分布(action proposal distribution)。這一系統優化顯著降低了推理階段的開銷。
此外,從系統架構的角度來看,RoboMonkey 在相同的延遲約束(latency target)下,如果配備了更大容量的高帶寬存儲器(HBM),GPU 就能夠支持更高的吞吐量(throughput),從而進一步提升機器人基礎模型的泛化能力。
總結
本文的主要貢獻可總結如下:
- 提出具身推理縮放定律 —— 實驗證明,在多個 VLA 模型中,動作誤差與采樣數量之間呈現冪律關系。
- 可擴展的驗證器訓練流程 —— 構建了一條自動生成動作偏好數據的方法,并基于此提出了訓練 VLM 動作驗證器的框架。
- 驗證 Test-Time Scaling 的有效性 —— 證明了所提出的 test-time scaling 框架能夠在無需重新訓練 VLA 的前提下顯著增強 VLA 模型的表現。


































