真實場景也能批量造「險」!VLM+擴散模型打造真實域自動駕駛極限測試
近期,懂車帝的《懂車智煉場》欄目對量產自動駕駛系統的NOA輔助駕駛功能進行了安全關鍵場景測試。
結果顯示,在黑夜施工工地、高速公路前方車輛發生事故以及障礙物后突然駛出車輛等高風險場景中,目前尚無任何系統能夠在測試中做到完全避免事故。
這類安全關鍵場景在真實道路上雖不常見,但一旦發生,可能導致人員傷亡或嚴重交通事故。
為了提升自動駕駛系統在此類情境下的可靠性,必須在多樣化且高風險的安全關鍵場景中進行廣泛測試。
然而,這類極端場景在現實中采集難度極高——發生頻率低、風險大、難以批量獲取。
在仿真環境中,類似的場景雖然可以批量制造,但現有模擬器在畫面真實度上與現實仍有差距,難以直接用于真實域下端到端系統的極限測試。
為此,來自浙江大學與與哈工大(深圳)的研究團隊提出了SafeMVDrive——首個面向真實域的多視角安全關鍵駕駛視頻生成框架。
它將VLM關鍵車輛選擇器與兩階段軌跡生成結合,驅動多視角視頻生成模型,在真實域中實現批量制造高保真安全關鍵視頻,可用于對端到端自動駕駛系統的安全性測試。
論文地址:https://arxiv.org/abs/2505.17727
項目地址:https://zhoujiawei3.github.io/SafeMVDrive/
代碼地址:https://github.com/zhoujiawei3/SafeMVDrive
數據集地址:https://huggingface.co/datasets/JiaweiZhou/SafeMVDrive
為了實現高質量真實域多視角安全關鍵場景,研究人員首先嘗試將安全軌跡模擬與多視角視頻生成模型結合,用真實域視頻驅動極限測試。然而在實踐中,他們發現存在兩大挑戰:
一是安全關鍵車輛的選擇?,F有方法大多依賴簡單的啟發式規則(如選擇最近車輛),缺乏對場景關系的視覺理解,容易選錯目標車輛,導致生成場景的安全關鍵性不足或生成失?。?/span>
二是多視角視頻生成模型的泛化性問題。由于現有模型在訓練時幾乎沒有接觸過碰撞或近距離互動等極端場景數據,在這些情況下的生成質量明顯下降。
為此,研究團隊提出了兩項關鍵創新:
- VLM關鍵車輛選擇器:引入經過GRPO微調的視覺語言模型,從多視角真實畫面中推理交通互動關系,精準識別最有可能制造危險的對抗車輛;
- 雙階段軌跡生成:先生成符合物理規律的碰撞軌跡,再轉化為「接近碰撞但成功規避」的軌跡,既保留緊張刺激的安全關鍵特征,又保持視頻生成的高保真度。
SafeMVDrive能夠批量生成高保真、多視角的安全關鍵駕駛視頻,顯著提高極端場景的覆蓋率,并在保持畫質與真實感的同時,為端到端自動駕駛系統的極限壓測提供更具挑戰性的測試數據。
效果展示
對于給定的多視角圖像,SafeMVDrive能夠在真實域生成高質量的安全關鍵多視角視頻,其中不僅包含目標車輛的安全關鍵行為(如加塞、急剎、后方突然加速),還呈現出自車(當前多視角攝像機安裝車輛)的相應規避動作。

側方車輛突然加塞,自車輕微向右轉向避讓

后方車輛突然加速,自車向左變道以躲避

后方車輛突然加速,自車同步提速進行規避

前方車輛突然減速,自車變道并減速避讓
如下圖所示,相比于將開源數據集中的自然軌跡用于多視角視頻生成模型(Origin),以及簡單的將碰撞軌跡模擬生成的軌跡與多視角視頻生成模型結合(Naive)而言,SafeMVDrive兼顧視頻真實性質量以及場景危險性。

第一列自然軌跡生成的視頻較常見,第二列碰撞軌跡生成的視頻未段車輛變形失真,第三列本框架生成的視頻兼具真實性與安全關鍵性
方法概述
SafeMVDrive的核心目標,是從一個給定的初始場景中批量生成真實域多視角安全關鍵駕駛視頻。

整個方法由三大模塊組成:
VLM車輛選擇器:多視角畫面中鎖定安全關鍵車
在極端駕駛場景的構造中,第一步是決定哪輛車會對自車構成威脅。
傳統方法常依賴非視覺信息即數據集標注并結合啟發式規則(如距離最近的車輛)選擇。這種簡單的規則往往無法覆蓋復雜的交通場景,并且可能因為數據集漏標注導致選擇的車輛無法以自然的軌跡與自車發生碰撞。
如下圖所示,右圖展示的是非視覺信息即數據集標注,失去了對于安全關鍵車輛信息判斷至關重要的障礙物標注,導致傳統的啟發式規則方法錯誤判斷認為大巴可以與自車發生自然軌跡的碰撞,實際上其并無法繞過障礙物與自車發生碰撞。

研究人員提出利用初始場景的多視角圖像中的視覺信息,配合VLM的場景理解能力實現更有效的安全關鍵車輛選擇。
首先,研究人員利用碰撞軌跡模擬自動化生成「初始場景——安全關鍵車輛」配對數據集,之后利用GRPO算法微調VLM,最終地得到了基于VLM的安全關鍵車輛選擇器。
雙階段軌跡生成:從「碰撞」到「規避」
現有安全關鍵軌跡生成方法多以制造碰撞事件為目標,但由于當前多視角視頻生成器缺乏真實多視角碰撞數據,這類碰撞控制信號往往導致生成畫質下降。
為此,研究人員提出雙階段規避軌跡生成策略,在保留安全關鍵特征的同時生成可被現有視頻生成器真實渲染的規避場景。
第一階段為碰撞軌跡模擬:基于可控擴散軌跡生成模型,從初始單幀場景出發,通過test-time loss guidance引導對抗車輛與自車發生有效碰撞。研究人員設計了三類損失:
對抗損失:在碰撞發生前按時間衰減加權,最小化兩車間距離,鼓勵對抗車輛快速逼近自車,并在碰撞后將損失置零以避免不自然的「粘連」行為;
無碰損失:約束除自車與對抗車輛外的其他車輛避免碰撞;
在路損失:懲罰駛入非可行駛區域的軌跡,保持交通合理性。
第二階段為規避軌跡轉化:在保持第一階段所有非自車軌跡不變的前提下,僅更新自車軌跡,并以無碰損失和在路損失引導自車規避對抗車輛,從而將原本的碰撞場景自然轉化為安全關鍵的規避場景。
這種方式既保留了對抗車輛的威脅性動作,又確保了生成結果的真實感和物理合理性。
最終,經過篩選的規避軌跡被用于驅動多視角視頻生成器,得到兼具安全關鍵性與視覺真實感的駕駛視頻。
多視角視頻生成:真實域合成高保真「險情」
在SafeMVDrive的最后一步,研究團隊采用了多視角視頻生成模塊,將雙階段軌跡生成器輸出的「規避型」安全關鍵軌跡轉化為高保真真實域視頻。
具體來說,他們選用UniMLVG作為骨干網絡,該模型不僅支持顯式控制自車與周圍車輛的運動軌跡,還能在較長時間跨度內保持視頻質量穩定。
轉換過程中,生成的規避軌跡會被編碼成逐幀控制信號(3D邊界框、高清地圖、相機參數),并結合多視角初始幀與時間及天氣文本描述輸入視頻生成器。
由于安全關鍵場景持續時間較長,SafeMVDrive采用自回歸滾動生成方式:每段視頻的最后一幀作為下一段的起始幀,對應時間窗口的控制信號則用于引導后續生成。
通過這種迭代,完整的碰撞規避軌跡最終被渲染為真實域的多視角「險情」視頻,兼顧安全關鍵性與畫面真實感
實驗結果
研究團隊從兩個方面進行了評估:生成視頻的真實感與安全關鍵性,以及對抗車輛選擇的準確度。
高保真危險場景批量生成
如下表所示,SafeMVDrive在生成真實域多視角視頻的同時,顯著提升了安全關鍵場景的覆蓋率和多樣性。

在碰撞率指標上,它生成的場景比開源數據集中自然軌跡用于多視角視頻生成模型(Origin)更具挑戰性,且在保持高碰撞率的同時,畫質與真實感依然接近真實視頻,遠優于將碰撞軌跡模擬生成的軌跡直接與多視角視頻生成模型結合生成的視頻(Naive)。
精準鎖定安全關鍵車輛
如下圖所示,在對抗車輛選擇任務中,VLM關鍵車輛選擇器通過多視角畫面推理交通關系,有效的分析場景并且選擇了合適的安全關鍵車輛。

如下表所示,VLM關鍵車輛選擇器兼顧了精度與召回率,識別出的目標車輛更符合真實交通邏輯,明顯優于基線方法。這保證了后續生成的安全關鍵車輛模擬的高效率以及場景的豐富度。

作者介紹
本文由浙江大學與哈工大(深圳)的研究團隊共同完成,感謝所有參與的作者。以下為部分作者簡介:
周家葳,哈工大(深圳)碩士研究生,研究方向為自動駕駛內容生成與世界模型。
呂林燁,哈工大(深圳)博士研究生,主要關注人工智能安全,涵蓋自動駕駛與大語言模型。
李渝,浙江大學「百人計劃」研究員,長期從事人工智能軟硬件安全與測試方法研究。




































