清華叉院、理想提出DriveVLM,視覺(jué)大語(yǔ)言模型提升自動(dòng)駕駛能力
與生成式 AI 相比,自動(dòng)駕駛也是近期 AI 最活躍的研究和開(kāi)發(fā)領(lǐng)域之一。要想構(gòu)建完全的自動(dòng)駕駛系統(tǒng),人們面臨的主要挑戰(zhàn)是 AI 的場(chǎng)景理解,這會(huì)涉及到復(fù)雜、不可預(yù)測(cè)的場(chǎng)景,例如惡劣天氣、復(fù)雜的道路布局和不可預(yù)見(jiàn)的人類(lèi)行為。
現(xiàn)有的自動(dòng)駕駛系統(tǒng)通常包括 3D 感知、運(yùn)動(dòng)預(yù)測(cè)和規(guī)劃組成部分。具體來(lái)說(shuō),3D 感知僅限于檢測(cè)和跟蹤熟悉的物體,忽略了罕見(jiàn)物體及其屬性, 運(yùn)動(dòng)預(yù)測(cè)和規(guī)劃則關(guān)注物體的軌跡動(dòng)作,通常會(huì)忽略物體和車(chē)輛之間的決策級(jí)交互。
自動(dòng)駕駛需要從數(shù)據(jù)驅(qū)動(dòng)迭代到知識(shí)驅(qū)動(dòng),通過(guò)訓(xùn)練具備邏輯推理能力的大模型才能真正解決長(zhǎng)尾問(wèn)題,只有這樣才能邁向開(kāi)放世界的 L4 級(jí)能力。隨著 GPT4、Sora 等大模型通過(guò)涌現(xiàn)、規(guī)模效應(yīng)展現(xiàn)出強(qiáng)大 few-shot/zero-shot 能力,人們正在思考一條新路。
最近清華大學(xué)交叉信息研究院、理想汽車(chē)提交的新論文中,作者提出了 DriveVLM,受到最近生成式 AI 領(lǐng)域興起的視覺(jué)語(yǔ)言模型(VLM)啟發(fā),DriveVLM 在視覺(jué)理解和推理方面表現(xiàn)出了非凡的能力。
在業(yè)界,這是第一個(gè)提出自動(dòng)駕駛快慢系統(tǒng)的工作,方法充分結(jié)合了主流自動(dòng)駕駛 pipeline 和具備邏輯思考的大模型 pipeline,并第一個(gè)完成端測(cè)部署的大模型工作(基于 Orin 平臺(tái))。
DriveVLM 包含一個(gè) Chain-of-Though (CoT) 流程,該流程具有三個(gè)關(guān)鍵模塊:場(chǎng)景描述、場(chǎng)景分析和分層規(guī)劃。場(chǎng)景描述模塊用語(yǔ)言描述駕駛環(huán)境,并識(shí)別場(chǎng)景中的關(guān)鍵對(duì)象;場(chǎng)景分析模塊深入研究關(guān)鍵對(duì)象的特征及其對(duì)自我車(chē)輛的影響;分層規(guī)劃模塊從元?jiǎng)幼骱蜎Q策描述到路徑點(diǎn)逐步制定計(jì)劃。
這些模塊分別對(duì)應(yīng)于傳統(tǒng)自動(dòng)駕駛系統(tǒng)流程的感知 - 預(yù)測(cè) - 規(guī)劃流程三部分組件,不同之處在于它們處理對(duì)象感知、意圖級(jí)預(yù)測(cè)和任務(wù)級(jí)規(guī)劃,這些在過(guò)去是非常具有挑戰(zhàn)性的。
雖然 VLM 在視覺(jué)理解方面表現(xiàn)出色,但它們?cè)诳臻g基礎(chǔ)和推理方面存在局限性,而且其算力需求對(duì)端側(cè)推理速度提出了挑戰(zhàn)。因此,作者進(jìn)一步提出了 DriveVLMDual,這是一種結(jié)合了 DriveVLM 和傳統(tǒng)系統(tǒng)優(yōu)點(diǎn)的混合系統(tǒng)。DriveVLM-Dual 可選擇將 DriveVLM 與傳統(tǒng) 3D 感知和規(guī)劃模塊(如 3D 物體探測(cè)器、占用網(wǎng)絡(luò)和運(yùn)動(dòng)規(guī)劃器)集成,使系統(tǒng)能夠?qū)崿F(xiàn) 3D 接地和高頻規(guī)劃能力。這種雙系統(tǒng)設(shè)計(jì)類(lèi)似于人腦的慢速和快速思維過(guò)程,可以有效地適應(yīng)駕駛場(chǎng)景中不同的復(fù)雜性。
同時(shí),新研究定義了場(chǎng)景理解和規(guī)劃(SUP)任務(wù),并提出了新的評(píng)估指標(biāo)來(lái)評(píng)估 DriveVLM 和 DriveVLM-Dual 的場(chǎng)景分析和元?jiǎng)幼饕?guī)劃能力。此外,作者還進(jìn)行了全面的數(shù)據(jù)挖掘和注釋管道,為 SUP 任務(wù)構(gòu)建內(nèi)部 SUP-AD 數(shù)據(jù)集。
經(jīng)過(guò) nuScenes 數(shù)據(jù)集和自有數(shù)據(jù)集上的大量實(shí)驗(yàn),人們證明了 DriveVLM 的優(yōu)越性,尤其是在少量鏡頭的情況下。此外,DriveVLM-Dual 超越了最先進(jìn)的端到端運(yùn)動(dòng)規(guī)劃方法。
論文《DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models》

論文鏈接:https://arxiv.org/abs/2402.12289
項(xiàng)目連接:https://tsinghua-mars-lab.github.io/DriveVLM/
DriveVLM 的整體流程如圖 1 所示:
- 將連續(xù)幀視覺(jué)圖像進(jìn)行編碼,通過(guò)特征對(duì)齊模塊,與 LMM 進(jìn)行交互;
- 從場(chǎng)景描述開(kāi)始引導(dǎo) VLM 模型的思考,先引導(dǎo)時(shí)間、場(chǎng)景、車(chē)道環(huán)境等靜態(tài)場(chǎng)景,再引導(dǎo)影響駕駛決策關(guān)鍵障礙物;
- 對(duì)關(guān)鍵障礙物進(jìn)行分析,通過(guò)傳統(tǒng) 3D 檢測(cè)和 VLM 理解的障礙物進(jìn)行匹配,進(jìn)?步確認(rèn)障礙物的有效性并消除幻覺(jué),描述該場(chǎng)景下的關(guān)鍵障礙物的特征和對(duì)我們駕駛的影響;
- 給出關(guān)鍵的「元決策」,如減速、停車(chē)、左右轉(zhuǎn)等,在根據(jù)元決策給出駕駛策略描述,并最終給出主車(chē)未來(lái)的駕駛軌跡。

圖 1.DriveVLM 和 DriveVLM-Dual 模型管道。一系列圖像由大視覺(jué)語(yǔ)言模型 (VLM) 處理,以執(zhí)行特殊的思想鏈 (CoT) 推理,從而得出駕駛規(guī)劃結(jié)果。大型 VLM 涉及視覺(jué)變換器編碼器和大語(yǔ)言模型(LLM)。視覺(jué)編碼器產(chǎn)生圖像標(biāo)記;然后基于注意力的提取器將這些標(biāo)記與 LLM 對(duì)齊;最后,LLM 進(jìn)行 CoT 推理。CoT 過(guò)程可以分為三個(gè)模塊:場(chǎng)景描述、場(chǎng)景分析和層次規(guī)劃。
DriveVLM-Dual 是一種混合系統(tǒng),利用 DriveVLM 對(duì)環(huán)境的綜合理解和決策軌跡的建議,提升了傳統(tǒng)自動(dòng)駕駛 Pipeline 的決策和規(guī)劃能力。它將 3D 感知結(jié)果合并為語(yǔ)言提示,以增強(qiáng) 3D 場(chǎng)景理解能力,并通過(guò)實(shí)時(shí)運(yùn)動(dòng)規(guī)劃器進(jìn)一步細(xì)化軌跡路點(diǎn)。
盡管 VLM 擅長(zhǎng)識(shí)別長(zhǎng)尾物體和理解復(fù)雜場(chǎng)景,但它們經(jīng)常難以精確理解物體的空間位置和詳細(xì)運(yùn)動(dòng)狀態(tài),這一不足構(gòu)成了重大挑戰(zhàn)。更糟糕的是,VLM 巨大的模型體量導(dǎo)致高延遲,阻礙了自動(dòng)駕駛的實(shí)時(shí)響應(yīng)能力。為了應(yīng)對(duì)這些挑戰(zhàn),作者提出了 DriveVLM-Dual,讓 DriveVLM 和傳統(tǒng)自動(dòng)駕駛系統(tǒng)進(jìn)行合作。這種新方法涉及兩個(gè)關(guān)鍵策略:結(jié)合 3D 感知進(jìn)行關(guān)鍵對(duì)象分析,給出高維駕駛決策信息,以及高頻軌跡細(xì)化。
另外,為了充分發(fā)揮 DriveVLM 和 DriveVLMDual 在處理復(fù)雜和長(zhǎng)尾駕駛場(chǎng)景方面的潛力,研究人員正式定義了一項(xiàng)名為場(chǎng)景理解規(guī)劃的任務(wù),以及一組評(píng)估指標(biāo)。此外,作者提出了一種數(shù)據(jù)挖掘和注釋協(xié)議來(lái)管理場(chǎng)景理解和規(guī)劃數(shù)據(jù)集。
為了充分訓(xùn)練模型,作者全新開(kāi)發(fā)了?套 Drive LLM 的標(biāo)注工具和標(biāo)注方案,通過(guò)自動(dòng)化挖掘、感知算法預(yù)刷、GPT-4 大模型總結(jié)和人工標(biāo)注等多種方式相結(jié)合,形成了目前這?套高效的標(biāo)注方案,每?個(gè) Clip 數(shù)據(jù)都包含了多達(dá)數(shù)十種標(biāo)注內(nèi)容。

圖 2. SUP-AD 數(shù)據(jù)集的帶注釋樣本。
作者還提出了一個(gè)全面的數(shù)據(jù)挖掘和注釋管道,如圖 3 所示,為所提出的任務(wù)構(gòu)建場(chǎng)景理解規(guī)劃 (SUP-AD,Scene Understanding for Planning in Autonomous Driving) 數(shù)據(jù)集,包含 100k+ 圖像和 1000k+ 圖文對(duì) 。具體來(lái)說(shuō),作者首先從大型數(shù)據(jù)庫(kù)中進(jìn)行長(zhǎng)尾對(duì)象挖掘和具有挑戰(zhàn)性的場(chǎng)景挖掘來(lái)收集樣本,然后從每個(gè)樣本中選擇一個(gè)關(guān)鍵幀并進(jìn)一步進(jìn)行場(chǎng)景注釋。

圖 3. 用于構(gòu)建場(chǎng)景理解和規(guī)劃數(shù)據(jù)集的數(shù)據(jù)挖掘和注釋管道(上圖)。從數(shù)據(jù)集中隨機(jī)采樣的場(chǎng)景示例(如下)展示了數(shù)據(jù)集的多樣性和復(fù)雜性。
SUP-AD 分為訓(xùn)練、驗(yàn)證和測(cè)試部分,比例為 7.5 : 1 : 1.5。作者在訓(xùn)練分割上訓(xùn)練模型,并使用新提出的場(chǎng)景描述和元?jiǎng)幼髦笜?biāo)來(lái)評(píng)估驗(yàn)證 / 測(cè)試分割上的模型性能。
nuScenes 數(shù)據(jù)集是一個(gè)大規(guī)模的城市場(chǎng)景駕駛數(shù)據(jù)集,有 1000 個(gè)場(chǎng)景,每個(gè)場(chǎng)景持續(xù)約 20 秒。關(guān)鍵幀在整個(gè)數(shù)據(jù)集上以 2Hz 的頻率均勻注釋。在這里,作者采用位移誤差(DE)和碰撞率(CR)作為指標(biāo)來(lái)評(píng)估模型在驗(yàn)證分割上的性能。
作者展示了 DriveVLM 與幾種大型視覺(jué)語(yǔ)言模型的性能,并將它們與 GPT-4V 進(jìn)行比較,如表 1 所示。DriveVLM 利用 Qwen-VL 作為其骨干,其實(shí)現(xiàn)了與其他開(kāi)源 VLM 相比的最佳性能,具有應(yīng)答和靈活交互的特點(diǎn)。其中前兩個(gè)大模型已開(kāi)源,使用了同樣的數(shù)據(jù)進(jìn)進(jìn)了微調(diào)訓(xùn)練,GPT-4V 使用了復(fù)雜的 Prompt 進(jìn)行 Prompt 工程。

表 1. 在 SUP-AD 數(shù)據(jù)集上的測(cè)試集結(jié)果。這里使用了 GPT-4V 的官方 API,對(duì)于 Lynx 和 CogVLM,利用訓(xùn)練分割來(lái)進(jìn)行微調(diào)。
如表 2 所示,DriveVLM-Dual 與 VAD 配合時(shí),在 nuScenes 規(guī)劃任務(wù)上取得了最先進(jìn)的性能。這表明新方法雖然是為理解復(fù)雜場(chǎng)景而定制的,但在普通場(chǎng)景中也表現(xiàn)出色。請(qǐng)注意,DriveVLM-Dual 比 UniAD 有了顯著提升:平均規(guī)劃位移誤差降低了 0.64 米,碰撞率降低了 51%。

表 2. nuScenes 驗(yàn)證數(shù)據(jù)集的規(guī)劃結(jié)果。DriveVLM-Dual 實(shí)現(xiàn)了最佳性能。? 表示使用 Uni-AD 的感知和占用預(yù)測(cè)結(jié)果。? 表示與 VAD 合作,所有模型都以自我狀態(tài)作為輸入。

圖 4. DriveVLM 的定性結(jié)果。橙色曲線代表模型在接下來(lái) 3 秒內(nèi)計(jì)劃的未來(lái)軌跡。
DriveVLM 的定性結(jié)果如圖 4 所示。在圖 4a 中,DriveVLM 準(zhǔn)確預(yù)測(cè)當(dāng)前場(chǎng)景條件,并結(jié)合有關(guān)接近我們的騎車(chē)人的有思考的規(guī)劃決策。DriveVLM 還有效地理解了前方交警手勢(shì),向自我車(chē)輛發(fā)出繼續(xù)前進(jìn)的信號(hào),并且還考慮了右側(cè)騎三輪車(chē)的人,從而做出正確的駕駛決策。這些定性結(jié)果證明了 DriveVLM 模型具有理解復(fù)雜場(chǎng)景并制定合適駕駛計(jì)劃的卓越能力。

圖 7:SUP-AD 數(shù)據(jù)集中的各種駕駛場(chǎng)景。

圖 9. SUP-AD 數(shù)據(jù)集中牛群和羊群的示例。一群牛在本車(chē)前方緩慢移動(dòng),要求策略推理出本車(chē)緩慢行駛并與牛保持安全距離。

圖 16. DriveVLM 輸出的可視化。DriveVLM 可以精確檢測(cè)倒下的樹(shù)木及其位置,隨后規(guī)劃合適的繞行軌跡。


































