解決特斯拉「監督稀疏」難題,DriveVLA-W0用世界模型放大自動駕駛Data Scaling Law
在自動駕駛領域,VLA 大模型正從學術前沿走向產業落地的 “深水區”。近日,特斯拉(Tesla)在 ICCV 的分享中,就將其面臨的核心挑戰之一公之于眾 ——“監督稀疏”。

這一問題直指當前 VLA 模型的 “七寸”:其輸入是高維、稠密的視覺信息流,但其監督信號卻往往是低維、稀疏的駕駛動作(如路徑點)。那么即便使用 PB 級的海量數據,VLA 模型的巨大潛力也無法被有效釋放。
正當業界熱議這一瓶頸時,一支來自國內頂尖學術機構與華為合作的團隊,已經悄然給出了破解這一難題的 “錦囊”。一篇名為 《DriveVLA-W0: World Models Amplify Data Scaling Law in Autonomous Driving》 的新工作,為解決這一 “監督稀疏” 提供了極具洞見的解決方案。該研究提出,世界模型(World Model)是解鎖 VLA 數據規模定律(Data Scaling Law)的關鍵鑰匙。

- 論文標題:DriveVLA-W0: World Models Amplify Data Scaling Law in Autonomous Driving
- 論文鏈接:https://arxiv.org/abs/2510.12796
VLA 的 “監督赤字”:Data Scaling Law 為何在自動駕駛失效?
自動駕駛領域的研究者普遍希望復現 Data Scaling Law 在 LLM 上的成功:通過擴大模型參數和數據規模,實現自動駕駛性能的飛躍。
但 DriveVLA-W0 指出,VLA 模型面臨著與 LLM 截然不同的困境:“監督赤字”(Supervision Deficit)。
一個數十億參數的 VLA 模型,其輸入是高維、稠密的視覺信息流,但其監督信號卻往往是低維、稀疏的駕駛動作(如路徑點)。模型的大部分表征能力被浪費,導致其無法充分學習駕駛環境的復雜動態。
研究團隊的實驗證實了這一點:在稀疏的動作監督下,VLA 模型的性能會隨著數據量的增加迅速飽和,Data Scaling Law 的效應在此大打折扣。
破解之道:用世界模型提供 “稠密” 的自監督信號
如何填補這一 “赤字”?DriveVLA-W0 的答案是:與其依賴稀疏的 “動作”,不如讓模型學習稠密的 “世界”。
研究團隊創造性地引入了世界模型,將 “預測未來圖像” 作為一項稠密的自監督訓練任務。

傳統 VLA(左)僅依賴稀疏的動作監督。DriveVLA-W0(右)則額外引入了稠密的視覺預測任務,迫使模型理解環境。
當模型被要求去預測下一幀的完整視覺畫面時,它必須去學習和理解這個世界的真實運行規律 —— 例如,其他車輛的運動趨勢、行人與車輛的交互關系等。
這一設計為 VLA 模型提供了遠比 “動作” 更豐富和稠密的學習信號,從根本上緩解了 “監督赤字” 問題。
核心貢獻:世界模型 “放大” 了 Data Scaling Law
如果說解決 “監督赤字” 是這項工作的起點,那么其更核心的貢獻在于發現了:世界模型能夠顯著 “放大”(Amplifies)數據規模定律。

在 700K 到 70M 的數據規模上,DriveVLA-W0(紅線)的性能提升斜率顯著優于基線(藍線),展現了更強的擴展潛力。
研究團隊在高達 7000 萬幀的內部大規模數據集上進行了嚴格的 Scaling 實驗。結果清晰地顯示:
基線模型(僅動作監督): 隨著數據量增大,性能提升迅速放緩。
DriveVLA-W0(世界模型): 性能隨著數據量增加,實現了持續且顯著的提升,與基線模型的性能差距越拉越大。
在 70M 幀的規模下,世界模型的加入,使模型的碰撞率降低了 20.4%。這證明了世界模型帶來的 “質變”,是單純堆砌動作數據所無法企及的。
兼顧性能與效率:輕量級 MoE 專家
DriveVLA-W0 并非一個不考慮落地的 “學術模型”。針對 VLA 大模型在自動駕駛中面臨的 “高延遲” 痛點,團隊還提出了一種輕量級的 MoE “動作專家”(Action Expert)架構 。
該設計在不犧牲性能的前提下,顯著降低了模型的推理延遲,僅為基線 VLA 的 63.1% ,為 VLA 模型的實時部署提供了可能。

結語
這項研究工作不僅為特斯拉等行業先行者提出的 “真問題” 提供了清晰的解題思路,也為自動駕駛乃至整個具身智能領域,展示了世界模型在 “生成” 之外的另一條核心價值路徑 —— 作為強大的自監督引擎,撬動 VLA 模型的 Data Scaling Law。


































