特斯拉世界模擬器亮相ICCV!VP親自解密端到端自動駕駛技術路線
特斯拉世界模擬器來了!
這些看似真實的駕駛場景,全都是用模擬器生成:

這個模擬器在今年的計算機視覺頂會ICCV上亮相,由特斯拉自動駕駛副總裁Ashok Elluswamy親自講解。
網友看了之后表示,這個模型實在是泰褲辣。

同時,Elluswamy也首次揭秘了特斯拉的自動駕駛技術路線圖,表示端到端才是智能駕駛的未來。
世界模擬器生成自動駕駛場景
除了開頭看到的多場景駕駛視頻,特斯拉的世界模擬器還可以為自動駕駛任務生成新的挑戰場景。
比如右側的車輛突然連并兩條線,闖入預設的駕駛路徑。

也可以讓AI在已有的場景中執行自動駕駛任務,躲避行人和障礙物。

模型生成的場景視頻,除了讓自動駕駛模型在里面練手,也可以當成電子游戲,供人類玩耍體驗。

當然除了駕駛相關,對其他具身智能場景——比如特斯拉的擎天柱機器人——也同樣有用。

與這個模型一同被揭秘的,還有特斯拉在自動駕駛上的一整套方法論。
特斯拉VP:端到端才是自動駕駛的未來
ICCV演講中,特斯拉自動駕駛副總裁Ashok Elluswamy揭秘了特斯拉FSD的技術細節,同時還在X上發表了文字版本。
Ashok首先明確,端到端AI才是自動駕駛的未來。

特斯拉利用端到端神經網絡實現自動駕駛,這個端到端神經網絡會利用來自各個攝像頭的圖像、運動信號(例如車速)、音頻、地圖等數據,生成驅動汽車的控制指令。
與端到端相對的另一種方法是采用大量傳感器的模塊化駕駛,這類系統的優勢是在初期更容易開發和調試,但相比之下,端到端的優勢更加明顯:
- 將人類價值觀規則化極其困難,但從數據中學習則容易;
- 模塊化方法中感知、預測和規劃之間的接口定義不明確,但在端到端中梯度從控制一直流向傳感器輸入,從而整體優化整個網絡;
- 端到端方法可輕松擴展以處理現實世界機器人的繁重和長尾問題;
- 端到端具有確定性延遲的同質計算。
Ashok舉了一些例子,比如車輛行駛過程中發現前方路面存在積水,此時有兩種策略,一是直接從積水上開過,二是借用對向車道繞過積水。
駛入對向車道是危險的,但在這個具體場景中視野開闊,在避開水坑所需的路程之內對向車道沒有車輛,借用對向車道避開水坑是一種可行的選擇。

這種權衡取舍就很難用傳統的編程邏輯來表達,而對于人類來說,這在觀察場景時卻相當簡單。
基于以上考慮及其他因素,特斯拉采用了端到端的自動駕駛架構,當然,端到端系統也仍有許多挑戰需要克服。
特斯拉如何解決端到端自動駕駛困難
端到端自動駕駛面臨的困難,其中之一就是評估。特斯拉推出的世界模擬器,也正是針對這一難題。
該模擬器使用特斯拉篩選出的同樣的海量數據集進行訓練,其功能并非預測給定狀態下的行動,而是根據當前狀態和下一步行動來合成未來狀態。
這樣的狀態可以與智能體或策略AI模型連接起來,以閉環方式運行,從而評估性能。
同時,這些視頻并不局限于評估,它還可以用于閉環大規模強化學習,從而實現超越人類的表現。

除了評估之外,端到端自動駕駛還面臨“維數災難”,以及可解釋性和安全性保證的問題。
在現實世界中,想讓自動駕駛系統安全運行,就需要處理高幀率、高分辨率、長上下文輸入。
假設輸入信息包括7個攝像頭×36FPS×5 百萬像素×30秒的場景畫面、未來幾英里的導航地圖和路線、100Hz的運動數據,以及48KHz的音頻數據,大約會有20億輸入Token。
神經網絡需要學習正確的因果映射,將這20億個Token精簡為2個,即車輛的下一個轉向和加速動作。在不學習虛假相關性的情況下學習正確的因果關系是一個極其棘手的問題。
為此,特斯拉通過龐大的車隊,每天收集相當于500年駕駛總和的數據,并使用復雜的數據引擎篩選最高質量的數據樣本。
使用這樣的數據進行訓練,就能讓模型獲得極高的泛化能力,從而應對極端情況。

對于可解釋和安全性問題,如果車輛的行為不符合預期,端到端系統的調試可能就會變得很困難,但模型也可以生成可解釋的中間Token,可以根據情況用作推理Token。

特斯拉的生成式高斯潑濺就是這樣一項任務,它具有出色的泛化能力,無需初始化即可建模動態物體,并可與端到端模型聯合訓練。
其中所有的高斯函數都是基于量產車配置的攝像頭生成的。

除了3D幾何之外,推理還可以通過自然語言和視頻背景進行。該推理模型的一個小版本已經在FSD v14.x版本中運行。

更多技術細節,可以到Ashok的文章和原始演講視頻當中一探究竟。
端到端自動駕駛兩大路線:VLA還是世界模型?
雖然端到端被視為自動駕駛的未來,但在業界,具體的軟件算法路線也一直存在VLA和世界模型之爭。
以國內為例,華為和蔚來都是世界模型路線的代表,元戎啟行和理想則選擇VLA路線,另外也有一些玩家認為應該將兩者結合。
VLA玩家認為,該范式一方面可以應用互聯網已有的海量數據,積累豐富常識,進而理解世界。另一方面模型通過語言能力實際上是具備了思維鏈能力,能夠理解長時序數據并進行推理。
更尖銳的觀點認為,有些廠家不用VLA是因為算力不夠,帶不動VLA模型。
世界模型玩家們則堅持世界模型更接近問題本質,例如華為車BU CEO靳玉志認為“VLA這樣的路徑看似取巧,并不能真正走向自動駕駛”。
而現在,特斯拉的方案之所以備受關注,也正是因為在自動駕駛發展歷程中,馬斯克從未有過“選錯”。
特斯拉選什么路線,VLA還是世界模型,關于端到端自動駕駛兩大技術路線的歷史性決戰。
你看好VLA,還是世界模型?




































