北大&銀河通用發布UrbanVLA:首個城市微出行VLA模型,讓它像老司機一樣認路、避障

文章鏈接:https://arxiv.org/pdf/2510.23576
項目鏈接:https://pku-epic.github.io/UrbanVLA-Web/


圖1:UrbanVLA 的實際部署展示了在具有未知布局、動態障礙物和不同光照的各種環境中的zero-shot泛化能力,并突出了其執行跨度超過 500 米的長距離城市微移動任務的能力。
亮點直擊
- 首個專為城市微出行設計的路由條件VLA框架:首次提出了一個專門用于城市微出行(如送貨機器人)的路由條件視覺-語言-動作(Vision-Language-Action, VLA)模型,它能夠將導航工具(如地圖App)提供的高層級、有噪聲的路線指令與車載視覺感知結合起來,實現可靠的長距離導航。
- 創新的“模擬到現實”兩階段訓練流程:設計了一個包含監督微調(SFT)和強化學習微調(RFT)的訓練流程。SFT階段使用模擬器和網絡視頻數據進行學習,RFT階段則使用“模擬+真實”的混合數據,通過離線強化學習(IQL)顯著提升了模型在真實世界中的安全性和適應性。
- 提出啟發式軌跡提升(HTL)算法:為了解決訓練數據中理想化路徑與現實世界中含噪聲路徑的差異問題,提出了HTL算法。該算法能從原始的專家軌跡中“提煉”出符合現實世界模糊性的高級路線信息,從而防止模型對路徑指令過擬合,增強了其在真實世界中的泛化能力。
- 卓越的性能表現:無論是在模擬器測試還是在真實世界部署中,UrbanVLA都表現出色。在模擬器中,其性能遠超基于激光雷達(LiDAR)的強基線模型;在現實世界中,它成功完成了超過500米的復雜長距離導航任務,證明了框架的有效性和可擴展性。
解決的問題
旨在解決城市微出行設備(如送貨機器人、輔助輪椅)在復雜、動態和非結構化的城市環境中進行長距離、可靠導航的挑戰。傳統方法,如基于SLAM的導航,嚴重依賴高精度地圖,難以擴展到大規模多變的城市環境。而現有的學習方法通常將導航簡化為點目標導航,難以處理導航工具(如谷歌地圖)提供的僅有拓撲連續性但幾何不精確的粗糙路線指令。此外,現有的VLA模型雖然在短距離導航上表現不錯,但在長距離城市導航中,它們難以理解有噪聲的路線、遵守復雜的交通規則(如人行道禮儀、交通信號燈)以及適應動態障礙物。
提出的方案
UrbanVLA,一個端到端的路由條件VLA框架。其核心流程如下:
- 輸入:模型接收兩種輸入:一是來自導航工具的結構化路線描述(論文中稱為“roadbooks”,包含一系列路點和轉向指令);二是來自機器人多個攝像頭的實時RGB圖像。
- 模型架構:模型基于一個預訓練的導航基礎模型(NavFoM),并采用一個大型語言模型(LLM)作為骨干。它將編碼后的路線指令(語言)和視覺觀測(圖像)融合處理。
- 兩階段訓練:
- 監督微調(SFT):在第一階段,模型通過模仿學習來掌握基本的導航能力。訓練數據來自MetaUrban模擬器中的專家軌跡和從網絡視頻(Sekai數據集)中解析出的真實人類導航軌跡。
- 強化學習微調(RFT):在第二階段,為了提升模型的安全性和對真實世界復雜性的適應能力,作者使用一個“模擬+真實”的混合數據集,并采用離線強化學習算法——隱式Q學習(Implicit Q-Learning, IQL)對模型進行微調。這使得模型能更好地處理障礙物、與行人互動并遵守交通規則。
- 輸出:模型直接預測出一條安全的、可執行的未來軌跡路點,引導機器人沿著高級路線前進。
所用技術點
- 模型基礎:Vision-Language-Action (VLA) 模型,基于預訓練的NavFoM模型,并使用Qwen2作為LLM骨干。
- 視覺編碼器:使用DINOv2和SigLIP兩個預訓練的視覺編碼器來提取圖像特征。
- 訓練范式:結合了監督微調 (Supervised Fine-Tuning, SFT)和離線強化學習微調 (Offline Reinforcement Fine-Tuning, RFT)。
- 核心算法:
a.隱式Q學習(Implicit Q-Learning, IQL):一種高效的離線強化學習算法,用于在RFT階段從固定的專家數據中學習,以提高策略的安全性和魯棒性,同時避免對分布外(OOD)動作的過度估計。
b.啟發式軌跡提升 (Heuristic Trajectory Lifting, HTL):一種數據處理算法,通過去噪、檢測關鍵拐點、增加高斯噪聲和重新平滑等步驟,從精確的軌跡數據中生成更符合現實世界模糊性的高級路線指令。
- 數據來源:訓練數據結合了MetaUrban模擬器數據、Sekai網絡視頻導航數據,以及真實世界中通過人類遙操作采集的數據。
達到的效果
UrbanVLA在模擬和真實世界測試中均取得了SOTA性能。
- 模擬器性能:在MetaUrban的PointNav和SocialNav任務上,UrbanVLA的性能顯著優于所有基線方法。例如,在PointNav任務的未見場景測試中,它的成功率(SR)達到了97%,比表現最好的基線模型高出37%。在更復雜的SocialNav任務中,它的社交導航分數(SNS)達到了0.85,而所有基于LiDAR的基線模型都未能超過0.65,展示了其在遵守社交規范方面的強大能力。
- 真實世界性能:在真實世界的部署中,UrbanVLA能夠在多樣的城市環境中完成超過500米的長距離導航任務,成功處理了過街天橋、行人互動、街道轉彎和避障等復雜場景。消融實驗證明,HTL算法對于模型在真實世界的泛化至關重要,而RFT階段則有效提升了模型在未見場景中的表現。
方法
A. 問題定義

流程概覽。圖2展示了本方法的整體流程。

利用一個預訓練的導航基礎模型NavFoM作為我們的基礎模型,并采用一個通過監督微調(SFT)和強化學習微調(RFT)組成的兩階段微調策略。具體來說,我們應用一個提示模板(prompt template)將宏觀的“路書”指令編碼成語言形式 I。遵循現有的VLM方法,如[26], [41], [42],將 I 嵌入以獲得語言令牌(language tokens)E?,并使用預訓練的視覺編碼器對視覺觀測O???進行編碼以獲得視覺令牌(visual tokens)E?。然后,我們將E?和E?一同送入大型語言模型(LLM)骨干網絡。在SFT階段,遵循先前的工作,讓這個雙分支的VLA學習執行兩種任務:VideoQA和路由條件的導航。分別使用一個語言頭和一個動作頭對生成的令牌進行解碼,以獲取語言回答和導航軌跡。
在RFT階段,進一步在一個結合了模擬和真實環境專家演示的混合數據集上對UrbanVLA進行微調。本文采用隱式Q學習(IQL),一個被廣泛使用的離線強化學習算法,來有效利用這些有限的混合數據,同時緩解分布外(OOD)樣本帶來的過高估計問題。為了估計每個狀態-動作對(s, a)的Q值和V值,將語言指令 I 和視覺觀測 O??? 編碼成一個統一的狀態表示 s(使用精調后的LLM骨干網絡),并將生成的軌跡(重塑為一維向量)視為動作 a。獎勵函數 r(s, a) 經過精心設計,同時考慮了軌跡效率和導航安全,以便在真實世界中高效收集數據,并實現模擬與現實之間的一致性。
B. UrbanVLA 架構
高層級路線編碼。城市導航任務中的高層級路線指令需要被轉換成一種VLA模型可解釋的形式,并且要與主流的城市導航工具的數據模式對齊,以便于大規模部署。因此,我們將路線指令轉換成一個包含兩個部分的結構化語言表示。首先,一個從高層級路線中采樣的路點集合,為智能體提供了前方路徑的整體幾何形狀和方向。其次,距離和方向指令(例如,“在30米后右轉”)為智能體在路塊之間轉換提供了必要信息,這是成功進行城市導航的關鍵場景。
具體來說,給定一個高層級的導航路線R,首先以d米的間距對前方D米范圍內的路線軌跡進行重采樣(使用D=40,d=2,得到20個路點),并將其轉換到機器人坐標系中。隨后,在訓練時,本文應用一個角點檢測算法將路線分割成不同的路塊,然后從這些路段中推導出路塊級別的距離和方向提示;而在真實世界場景中,這些信息可以直接從城市導航工具的API中獲取。最后,將上述信息格式化成一個指令模板,以獲得導航指令 I。


而對于VideoQA任務,模型會自回歸地生成一組語言令牌,然后通過語言模型頭進行解碼,如圖2所示。 您是對的!非常抱歉,我的疏忽導致方法部分的 C 和 D 小節被遺漏了。這是一個嚴重的錯誤,感謝您的指正。
我現在為您補上這部分內容的完整、詳細的翻譯。
C. 訓練策略
監督微調 (Supervised Fine-tuning) 。首先對基礎模型NavFoM應用監督微調(SFT)。在此階段,模型從兩方面學習:一是在模擬器中由一個PPO專家生成的城市導航演示,二是捕捉真實世界中人類導航行為的網絡規模城市出行數據。SFT階段旨在為模型注入基礎的目標抵達能力,同時讓模型接觸到城市導航任務的多樣性和復雜性,從而增強其向真實世界場景的泛化能力。
利用這類演示數據的一個關鍵挑戰在于,導航“路書”無法直接獲得。真實世界的演示通常只提供真值軌跡,而模擬器通常提供由ORCA等全局規劃器生成的完美路線信息。如果直接使用這種理想化的路線作為條件,可能會導致模型對輸入軌跡產生過擬合,從而損害其在真實世界場景中的泛化能力。
為了解決這個問題,引入了啟發式軌跡提升 (Heuristic Trajectory Lifting, HTL) ,這是一種啟發式算法,它能從城市導航數據的原始軌跡中“提升”出高層級的路線信息,從而鼓勵模型從視覺線索中學習,而不是僅僅依賴于理想化的路線輸入。原始軌跡會首先被預處理:我們使用Savitzky-Golay濾波器對網絡視頻軌跡進行去噪,而ORCA生成的軌跡則直接使用。接著,移除自相交或其他低質量的路徑。然后,檢測出重要的拐點以形成粗略的路點,并據此將軌跡分割成段。為了捕捉真實世界導航的模糊性,每個路段都會被施加高斯位置噪聲,這反映了高層級指令(例如,“直行”)實際上對應的是一個可行的路徑走廊,而非單條精確曲線。最后,這些帶噪聲的路段會被平滑地合并,并以固定的空間步長重新采樣,最終得到抽象化后的路線 R。
這個流程使我們能夠從模擬和真實世界兩種來源生成一個大規模的(高層級路線,視覺觀測,軌跡真值)元組數據集,為我們的導航策略的監督微調提供了堅實的基礎。我們隨后使用這個數據集,通過一個均方誤差(MSE)損失函數來優化模型。
強化學習微調 (Reinforcement Fine-tuning) 。在SFT所獲得能力的基礎上,UrbanVLA在路線跟隨、目標抵達以及在多樣的城市環境(如交叉路口、轉彎和不同街道布局)中導航已表現出強大的性能。為了進一步提升其技能,特別是在碰撞規避和處理模糊線索方面,采用了一種基于隱式Q學習(IQL)的離線強化學習方法,該方法非常適合處理離線數據,并能有效緩解分布外(out-of-distribution)行為引發的問題。

獎勵函數 r(s, a) 的設計考慮了幾個關鍵因素。首先,它的組成部分應該易于獲取,以便在人類專家遙操作期間高效收集數據,而無需大量后處理。其次,獎勵函數應同時適用于模擬和真實世界環境,提供一個統一的學習目標以對齊模擬與現實,從而提高數據效率。將其定義為:


基于此設計,收集了一個“模擬-真實”混合聚合數據集,其中包含在MetaUrban模擬器中使用PPO專家收集的2,400個片段(約40小時),以及約8小時通過人類遙操作收集的真實世界演示。大規模的模擬數據有助于Qθ(s, a)和Vψ(s)網絡的快速收斂,而人類遙操作數據則確保模型能學習適應復雜的真實世界場景。總而言之,RFT階段旨在高效利用人類遙操作數據,使模型能夠識別真實世界部署中的邊緣案例,并通過綜合考慮路線信息和視覺信息來做出導航決策。
實現細節 (Implementation Details)
模型在一個配備了8塊NVIDIA H100 GPU的集群服務器上進行訓練,總共耗時約12小時,即96個GPU小時。VideoQA數據集是從LongVU和Sekai中收集的。與導航任務中引入的滑動窗口機制不同,在處理VideoQA任務時,會保留所有視覺幀并輸入模型。使用交叉熵損失來監督其結果。
對于提到的角點檢測算法,具體采用了一種基于窗口的檢測算法:對每個點,我們計算由其鄰近k個點構成的向量之間的轉角。轉角超過閾值的點被標記為候選點。隨后的候選點通過取中點進行合并,并通過一個貪婪選擇步驟強制實施最小弧長間距,以移除冗余的角點。

實驗
實驗部分從模擬器測試和真實世界測試兩個維度全面評估了UrbanVLA的性能,并進行了詳盡的消融研究。
- 實驗設置:
- 模擬器:使用MetaUrban平臺,在PointNav(點導航)和SocialNav(社交導航)兩個基準任務上進行測試。模型在一個子集上訓練,在包含1000個場景的測試集和100個未見場景的測試集上進行評估。為了公平比較,模型的動作空間(軌跡規劃)被設定為與基線方法一致的單步最大移動距離。
- 真實世界:使用一臺Unitree Go2四足機器人,配備四個攝像頭、GPS和5G通信模塊。模型部署在遠程服務器上,通過網絡與機器人通信。實驗場景覆蓋了城市中的多種復雜環境,如過街天橋、人行橫道和有動態障礙物的區域。

圖 3:UrbanVLA 的實際部署。本系統包括一個配備 GPS、Wi-Fi、攝像頭和機載計算單元的四足機器人,以及一個可移動部署的控制臺,用于實時監控、發送導航目標、可視化地圖和模型預測,以及注釋用于強化學習的遠程操作數據。
- 定量實驗(模擬器):
- 如表1所示,UrbanVLA在PointNav和SocialNav任務上全面超越了所有基于LiDAR的基線方法(包括PPO、IQL、BC等)。
- 在PointNav任務中,UrbanVLA在測試集和未見場景集上的成功率(SR)分別達到了94%和97%,路徑效率(SPL)也相應達到了0.91和0.95,展現了極強的泛化能力和高效的路徑規劃能力。
- 在更具挑戰性的SocialNav任務中,UrbanVLA的社交導航分數(SNS)在測試集和未見場景集上分別達到了0.87和0.85,遠高于所有基線。這表明模型不僅能有效避障,還能遵守社交規范(如與行人保持距離)。
- 雖然模型的累積成本(Cost)相對較高,但考慮到其極高的成功率(意味著行駛距離更長,遇到障礙的概率更高),這個結果是合理的。這也反映了僅用RGB輸入來避障比用LiDAR更具挑戰性。

- 定性實驗(真實世界):
- 圖一和圖四展示了模型在真實世界中的表現。UrbanVLA成功完成了超過500米的長距離導航,能夠穩定地跟隨指定路線,并適應光照、天氣甚至夜間條件的變化。
- 實驗結果表明,模型能有效地將高層級的導航指令與視覺觀察對齊,從而在交叉路口正確轉彎、成功通過天橋,并適應不同的道路結構。同時,它還能避開靜態和動態的障礙物,與行人保持合理距離。

- **消融研究 **:
- HTL算法的有效性:表二對比了使用和不使用HTL算法的效果。在模擬器中,去掉HTL會使性能略微提升,因為模擬器中的路線是完美的。但在真實世界中,去掉HTL導致路線完成率(RC)從100%驟降至42%。這是因為沒有HTL的模型會過擬合于精確的路線指令,當真實世界的GPS信號出現偏差時,模型會固執地嘗試到達錯誤的地點,導致碰撞失敗。這證明了HTL對于提升模型在真實世界中的魯棒性至關重要。
- 強化學習的有效性:表三對比了僅使用SFT和結合SFT+RFT兩個階段訓練的效果。結果顯示,經過RFT階段后,模型在測試集和未見場景集上的性能都得到了穩定提升,尤其是在未見場景中,成功率提升了6%,成本降低了0.16。這說明RFT,特別是引入了真實世界遙操作數據后,顯著增強了模型的泛化能力。


結論
UrbanVLA:路由條件視覺-語言-動作框架,專為城市微出行設計。該框架將導航工具的輸出與車載視覺相結合,以實現可擴展且可靠的長距離導航。該模型通過在模擬和網絡視頻解析的軌跡上進行監督微調(SFT)進行訓練,隨后利用一個“模擬-真實”混合聚合數據集進行強化學習微調(RFT),以增強其安全性和適應性。本方法不僅改善了避障能力和社交合規性,還為在動態行人環境中部署具身智能體建立了一個實用的框架。未來的工作將探索更廣泛的多模態線索,并進一步提高模型對多樣化城市環境的適應能力。
本文轉自AI生成未來 ,作者:AI生成未來

















