如何基于多模態大模型進行智駕訓練 原創
基于多模態大模型為智駕場景模型訓練生成視覺數據,是當前自動駕駛領域一個非常前沿且富有潛力的方向。它能夠以極低的成本、極高的效率創造海量、多樣化的長尾場景數據,突破真實數據收集的瓶頸。
傳統的智駕數據依賴于昂貴的傳感器和車隊路采,而多模態大模型的方法核心在于:利用大模型對世界知識的理解和強大的生成能力,將文本或簡單草圖等“抽象描述”轉化為高度逼真和結構化的“視覺數據”。
常用的做法是使用3d建模軟件虛擬出一個真實空間并且搭配物理引擎,來滿足模型的訓練要求。但這樣的存在如下的問題。
1.數據和現實環境中的光影色彩存在區別,并且很難模擬現實環境中的特殊天氣環境。
2.3d建模的環境本身構建就比較困難,其次要提高它的真實。光影效果的代價也比較大。
所以本文提出一種成本較低的,基于真實世界照片合成汽車駕駛畫面用于模型訓練。尤其是在高危的,對環境敏感的場景,比如:車輛的安全檢測、緊急制動的模型訓練中。
需求分析
輸入:這是一個告訴轉彎的路段,沒有紅綠燈,但是路上有錐形桶,無法通行。
輸出:

面臨的挑戰
這個需求看上去好像是需要直接通過文字生成圖片,但實際這樣的效果卻并不好。
1.大模型用文字生成的圖像對于街景的理解較差。
2.大模型對于交通道路的理解較差,例如立交橋可能會生成出面條的樣子的道路。
3.模型對于駕駛位觀察各事物之間視角的理解較差。
4.大模型生成的圖片與真實世界的駕駛圖片還有較大差距。包括:光源角度,距離感,環境因素,空氣可見度等
總體思路
為了解決這些挑戰,我們可以轉換一下思路。我們可以
1.先將原始圖片中的素材進行解構。
2.因為原始素材中的圖片遮擋導致了部分信息的損失,可以使用模型將其信息恢復。這樣就會得到一個種類齊全。素材多樣的 子元素庫
3.將子元素 匹配出自然語言
4.將檢索到的子元素進行組合。

這樣就可以得到復雜多樣的合成圖片。既可以精確控制圖片內容,又可以充分利用真實世界場景。
概要設計
素材獲取與修復
具體的,對于這個場景的處理辦法如果可以把不同照片中的要素自由組合。

1.分離:將圖片中的各個元素分離。在我們這個例子中,圖片被分離出:駕駛艙、自然道路、樁頭、紅綠燈、對向車輛。情況下,道路中還可能會出現臨時的障礙物,如人,動物等。
2.修復:因為自然圖片當中多個圖層之間互相重疊遮擋。導致圖片信息損失,各子元素分離后還需要進行修復。才能獲得完整的原素材。
3.入檢索庫:因為不同素材所具備的屬性不同,所以他們需要在不同的邏輯庫中進行存儲,用以區分。這樣,檢索時,更可以根據他們的不同差異化的特征維度獲取到合適的組合材料。
4.重構:將子素材進行總和。這一步特別的,需要關注各組素材在自然空間中的位置限制、比例大小,進行符合現實的拼裝。
5.光影恢復:因為原素材所在環境存在差異,將不同素材拼裝后,還需要根據環境光影特點對圖片中的內容進行一次恢復。

可組合子元素的額外屬性分析標記
為了開發一個系統,通過理解文字來檢索圖片素材并將這些素材組合用于自動駕駛圖像輸入,需要確保素材組合后符合自然特征。為了實現這一目標。在從原始素材庫中分離可組合子元素時,不光需要關注圖像分割的準確性,還需要關注從原圖像環境中提取出元素的其他特征。如:
- 車艙前景?:為了可以和其他元素在空間上配合自然,需要標注車寬、車高、車輛品牌、配置標簽。
- 道路背景?:為了固定設施障礙在道路上合理布置,需要標注道路圖片的透視點、可行區域、十字路口、信號燈布置點燈信息。
- 固定設施?:固定設施如紅綠燈。因為不同的紅綠燈的安裝方式存在較大差異,出現的位置是有嚴格限制且不一致。分離元素時需要對這些特殊的元素進行分類記錄。
- 臨時障礙物:這類障礙物出現的位置較隨意。需求從原圖中的透視關系中分析出圖像的基準大小。
- o移動物?:移動物主要是人、動物燈,除了分析臨時障礙物,還需要分析運動方向,動作姿勢、物體種類。

文生圖的query(請求)分析
在收到用戶請求時,這里自然語言可能會存在信息缺失的問題,但是在組圖前,我們必須對全部實體屬性賦值。為了解決這些問題。我們需要從自然語言中理解并分解需求,最終轉化成知識圖譜。如下圖中展示的案例:一段 “關于十字路口場景” 文生圖的描述文字。

原始文本:“這是一個十字路口的場景,前方綠燈,限速30,但是路上有錐形桶,無法通行?!?/p>
1.?文本提示與核心對象提取?:
- 背景?:路,標簽是:十字路口。但是沒有給出車輛所在車道。也沒有說明在十字路口走出多遠。
- 障礙?:樁桶。但是沒有數量和位置。
- 紅綠燈?:位置在前方,當前狀態為綠色。
- 限速牌:限速30?。
2.屬性補齊:通過理解文本中的場景描述,系統補全了各對象的屬性,形成了完整的知識圖譜。
- 背景?:推測出相關屬性 —— 從停止線走出十字路口10%、在直行車道上。
- 障礙?:推測出相關屬性 —— 裝桶數量(2)、位置(右側路中)。
- 限速牌?:按推測出相關屬性 —— 位置在前方右側。
人工交互修訂校對
找到合適的視覺或數據素材后,還需要按照具體需求將這些素材進行拼裝和調整。我們還提供了一部可選的人工干預的步驟:

為此,我們還有一個人工交互調整生成圖片的干預選項。這里面對于交互的優化有
- 固定設施可以選擇顯示或者隱藏。
- 固定設施可以通過修改屬性更改外觀、形態和固定位置。
- 對于障礙物,移動物,可以自由變換。
- 物體移動的時候,會根據透視關系自動調整大小。
實現路徑
1. 從簡單開始:先嘗試為特定的長尾場景(如“遮擋的行人”)生成數據,而不是生成整個駕駛場景。
2. 建立評估流程:嚴格進行A/B測試,比較“只用真實數據”和“真實數據+生成數據”訓練的模型性能。
3. 工具鏈搭建:構建一個集成了提示詞生成、多模態模型調用、數據后處理和自動評估的端到端工具鏈。?

發展趨勢和挑戰
3D世界模型集成:未來的趨勢是將2D生成與3D神經渲染和世界模型(如NeRF、GAIA-1、GenSim)結合。先在3D空間中生成一個一致的、可駕駛的動態場景,然后再渲染出多視角、多時間步的2D圖像,從根本上解決時空一致性問題。
仿真與生成的融合:在游戲引擎(如Unity、Unreal Engine)中構建基礎場景,然后利用大模型進行場景內容填充和紋理風格化,結合兩者的優勢。
閉環數據生成:自動識別自動駕駛模型在測試中失敗的具體案例(例如,未能檢測到雨中的行人),然后針對性地生成大量類似場景的數據,用于模型的迭代增強。
總而言之,基于多模態大模型生成智駕訓練數據是一條極具潛力的捷徑,但它目前還不能完全替代真實數據,而是作為真實數據的有力補充和增強,特別是在解決長尾問題和極端場景方面,它能發揮不可替代的價值。
本文轉載自??數智飛輪?? 作者:藍田

















