ICCV 2025 Highlight | 大規模具身仿真平臺UnrealZoo
你是否曾為搭建具身仿真環境耗費數周學習卻效果寥寥? 是否因人工采集海量交互數據需要高昂成本而望而卻步? 又是否因找不到足夠豐富真實的開放場景讓你的智能體難以施展拳腳?
來自北京師范大學、北京航空航天大學、北京大學等機構的聯合研究團隊,為具身智能(Embodied AI)研究帶來了具身仿真環境平臺 UnrealZoo!這是一個基于虛幻引擎(Unreal Engine)構建的近真實三維虛擬世界集合,旨在 1:1 還原開放世界的復雜性與多變性。
目前,UnrealZoo 已收錄 100 余個高質量、高逼真、大尺度 3D 場景,從溫馨室內家居到繁華城市街道,從靜謐校園醫院到壯麗自然景觀,甚至涵蓋大型工業工廠等專業場景,全方位滿足不同研究需求。UnrealZoo 還內置了機器狗、無人機、汽車、人體、動物等多樣化具身形態,搭配靈活易用的交互接口,無需復雜配置即可快速上手。無論是算法驗證、數據合成還是智能體訓練,都能在 UnrealZoo 一站式完成!
該工作已被 ICCV 2025 接收并入選 Highlight Award(本屆共有 280 篇入選,占錄用論文總數的 10%)。

- 標題:UnrealZoo: Enriching Photo-realistic Virtual Worlds for Embodied AI
- 論文鏈接:https://openaccess.thecvf.com/content/ICCV2025/html/Zhong_UnrealZoo_Enriching_Photo-realistic_Virtual_Worlds_for_Embodied_AI_ICCV_2025_paper.html
- 項目主頁:http://unrealzoo.site
- 開源代碼:https://github.com/UnrealZoo/unrealzoo-gym
- 作者單位:北京師范大學,北京航空航天大學,北京大學,澳門城市大學,新加坡國立大學,北京通用人工智能研究院
UnrealZoo 做了什么?
UnrealZoo 是一個基于虛幻引擎 UE5 開發的高保真虛擬環境集合,環境內提供了 100 + 的場景地圖以及 66 個可自定義操控的具身實體,包括人類角色、動物、車輛、無人機等。不同智能體可以與其他智能體或者環境進行交互。
為支持豐富的任務需求以提供更好的使用體檢,UnrealZoo 基于開源工具 UnrealCV 提供了一套易用的 Python 接口和工具,并優化了渲染和通信效率,以支持數據收集、環境增強、分布式訓練和多智能體交互等各種潛在應用。
此外,研究團隊還通過實驗深入探索了 UnrealZoo 在視覺導航與主動目標跟蹤等關鍵任務的應用潛力,揭示了擴充訓練場景豐富度對模型泛化性的提升的必要性,以及當前基于強化學習(RL)和大型視覺 - 語言模型(VLM)的視覺智能體在開放世界中所面臨的巨大挑戰。完整的 UE5 場景已經在 Modelscope 開放下載。
Modelscope 地址:https://www.modelscope.cn/datasets/UnrealZoo/UnrealZoo-UE5
為什么要搭建 UnrealZoo?
隨著具身智能(Embodied AI)的快速發展,智能體逐漸從簡單的任務執行者向能夠在復雜環境中進行感知、推理、規劃與行動的系統進化。雖然現有模擬器如 Habitat、AI-Thor 和 Carla 等,已在家庭場景或自動駕駛等領域取得了一定進展,但它們的應用場景往往局限于特定任務和環境。這也阻礙了具身智能體在多變的開放世界中的適應性和泛化能力的發展。這些能力對于具身智能體在真實世界中的廣泛應用至關重要。
為了彌補這一短板,具身智能研究迫切需要支持多樣化和高保真虛擬環境的模擬平臺,幫助智能體在更加復雜和動態的環境中進行訓練。3D 場景的多樣性與智能體形態的多變性將使智能體能夠在更多種類的任務中進行學習,從而提升其空間智能和任務執行能力。而隨著多智能體交互的加入,智能體不僅能獨立完成任務,還能模擬和人類類似的社會智能行為,如合作、競爭與溝通,極大地提升其在真實世界中的應用潛力。
更重要的是,開放世界中的訓練環境能夠幫助研究人員評估智能體在應對多種不確定性、動態變化和復雜任務時的表現,進而避免因直接在現實中部署時發生故障或造成硬件損失。
基于以上原因,UnrealZoo 為智能體提供了一個近真實、多樣化、靈活易用的仿真平臺,推動具身智能從虛擬世界走向現實世界,助力更加廣泛且真實的應用場景。


表 1:UnrealZoo (基于 UE4/5) 與其他主流虛擬環境的對比
本文貢獻
提出了 UnrealZoo,這是一個基于「虛幻引擎」(Unreal Engine) 和「虛幻計算機視覺」(UnrealCV)的逼真虛擬世界的綜合集合。UnrealZoo 具有各種復雜的開放世界和可玩實體,旨在推動具身人工智能及相關領域的研究。
這個高質量的集合包括 100+ 個不同規模的逼真場景,如房屋、超市、火車站、工廠、城市、村莊、寺廟和自然景觀。每個環境都由藝術家精心設計,以模擬逼真的照明、紋理和動態,與現實世界的體驗高度相似。還包括各種可玩實體,包括人類、動物、機器人、無人機、摩托車和汽車。這種多樣性使研究人員能夠研究智能體在不同表現形式中的泛化能力,或構建具有眾多異構智能體的復雜 3D 社會世界。
為了提高可用性,研究團隊進一步優化了「虛幻計算機視覺增強版」(UnrealCV+),并提供了一套易于使用的 Python API 和工具,包括環境增強、演示收集和分布式訓練 / 測試。這些工具允許對環境進行定制和擴展,以滿足未來應用中的各種需求,確保 UnrealZoo 隨著具身人工智能智能體的發展而保持適應性。
貢獻可以總結如下:
- 構建了 UnrealZoo,它包含 100 個高質量的逼真場景和一組具有多樣化特征的可玩實體,涵蓋了開放世界中對具身人工智能智能體最具挑戰性的場景。
- 優化了 UnrealCV API 的通信效率,并提供了帶有工具包的易于使用的 Gym 接口,以滿足各種需求。
- 進行實驗以證明 UnrealZoo 的可用性,展示了環境多樣性對具身智能體的重要性,并分析了當前基于強化學習和基于視覺語言模型的智能體在開放世界中的局限性。
UnrealZoo 技術方案
1. 多樣化場景收集
UnrealZoo 包含 100 + 個基于虛幻引擎 4 和 5 的場景,從虛幻引擎市場精心挑選,涵蓋多種風格,包括古代到虛構的各類場景。場景按類別、規模、空間結構、動力學和風格等標簽分類,以滿足不同測試和訓練需求,最大場景達 16 平方公里。

圖 1 UnrealZoo 通過結合多樣化的場景和可交互實體,豐富了高真實感虛擬世界。它支持訓練具有泛化能力的具身智能體,用于導航、主動追蹤以及社會交互等任務。

圖 2 UnrealZoo 內不同類型場景的統計分布,涵蓋多種風格, 如住宅、超市、火車站、工業工廠、城市、鄉村、寺廟以及自然景觀等。
2. 可交互智能體
??多樣化的智能體類型


無人機第一視角

駕駛汽車第一視角

駕駛摩托車第一視角

四足機器人
UnrealZoo 內包含人類、動物、汽車、摩托車、無人機、移動機器人和飛行相機等七種類型,共 66 個實體,各具不同的動作空間和視點,支持多種功能,如切換紋理外觀、捕獲不同類型圖像數據,可通過函數控制其屬性和運動。
??♂? 智能體在開放世界的探索

爬樓梯

攀爬高臺

下蹲穿越

跑跳
智能體的基礎移動能力。UnrealZoo 的運動系統基于 Smart Locomotion,賦予智能體在復雜三維空間中自由探索的能力。智能體不僅可以進行跑步、跳躍和攀爬等動作,還能夠在多層次、動態變化的環境中自如移動。通過這些運動方式,智能體需要準確評估距離、高度和空間布局,做出合理的運動決策。這對智能體的空間感知提出了新的挑戰,要求它們不僅能在平面上導航,還能理解和推理復雜的三維空間結構,從而提升其在開放世界中進行導航和互動的能力。

內置基于地圖的自主導航系統
導航系統。基于 NavMesh 開發,支持智能體在環境中自主導航,能在不同場景中根據地形和規則實現智能路徑規劃和避障。
??豐富的交互系統

物體拿放動作

球體碰撞交互

上下車動作

車輛破壞模擬

開關門動作

坐下
智能體與環境的交互。UnrealZoo 的交互系統為智能體提供了與物體和環境的靈活互動能力。智能體可以通過抓取、推動、開關等方式與物體進行物理交互,如開關門、移動箱子、駕駛車輛等,物體的物理特性(如重量、材質)會影響交互效果。同時,智能體還能夠感知和適應環境變化,利用傳感器(如視覺、深度信息)在復雜地形中進行導航,并根據實時變化(如天氣、時間變化)調整行動策略。這種物理與感知交互能力,使得智能體能夠在不同的虛擬環境中完成各種任務,如操作、導航和任務執行。

智能體之間的交互。UnrealZoo 還支持智能體之間的交互,使得多智能體環境中的合作與對抗成為可能。智能體可以共享信息,進行協作任務,或在競技場中與其他智能體競爭。例如,在災后救援任務中,多個智能體可以協調合作,完成物品搬運或場地清理任務;而在對抗場景中,智能體通過實時策略選擇與其他智能體互動,增強了多樣性與挑戰性。這種多層次的交互功能為人工智能提供了更加動態和真實的模擬環境,推動了 AI 在實際應用中的發展。
3. 通用編程接口
為提升可用性,UnrealZoo 進一步優化了 UnrealCV,并提供了一套易于使用的 Python API 和工具(UnrealCV+),包括環境增強、示范采集以及分布式訓練 / 測試。這些工具允許用戶根據未來應用的需求自定義和擴展環境,確保 UnrealZoo 能夠隨具身 AI 智能體的演進保持適應性。

圖 3 UnrealZoo 的詳細架構。灰色框表示 UE 二進制文件,包含場景和可交互實體。UnrealCV+ Server 作為插件嵌入到該二進制文件中。用戶端通過 Gym 接口進行 api 調用,通過配置文件自定義任務,并包含一個工具包,其中包含用于環境增強、種群控制等功能的一組 Gym 封裝器。
實驗結果
1. UnrealCV+ 效果測試

UnrealCV 為研究使用虛幻引擎提供 Python 接口。

表 2 Unreal Engine 4.27 中使用 UnrealCV 和 UnrealCV + 的幀率(FPS)對比。報告的結果為 6 個典型環境的平均性能表現。
UnrealCV+ 是對原版 UnrealCV 的改進版本,專為高效交互而優化(代碼已同步至 https://github.com/unrealcv/unrealcv)。原版 UnrealCV 主要用于生成計算機視覺合成數據,幀率(FPS)未針對實時交互優化。UnrealCV + 優化了渲染管道和服務器與客戶端之間的通信協議,顯著提高了 FPS,尤其是在大規模場景中通過并行處理物體級分割圖和深度圖。對于多智能體交互,UnrealCV + 引入了批量命令協議,允許客戶端一次發送多個命令,服務器處理并返回結果,從而減少通信時間。為了提高穩定性,unrealcv + 用進程間通信(IPC)套接字代替了 TCP 套接字,以應對高負載下的服務器 - 客戶端通信。
研究團隊還開發了基于 UnrealCV 命令系統的高級 Python API,簡化了環境交互,使初學者也能輕松使用和定制環境。
2. 視覺導航 / Visual Navigation
實驗設置
- 復雜環境:在 UnrealZoo 的環境中中,3D 探索的獨特優勢為視覺語言導航任務帶來了前所未有的挑戰。在開放世界中,智能體不僅需要應對二維平面上的導航,更需要理解和適應三維空間結構。本文的導航任務引入了比傳統室內場景或自動駕駛任務更高的復雜性。實驗中,智能體被放置在開放世界環境中,需要通過一系列動作(如奔跑、攀爬、跳躍、蹲下)來克服無結構地形中的各種障礙,以到達目標物體。
- 評估指標:使用兩個關鍵指標來評估視覺導航智能體:
- 平均回合長度(Average Episode Length, EL),表示每回合的平均步數。
- 成功率(Success Rate, SR),測量智能體成功導航到目標物體的百分比基線方法。
- 路徑長度加權的成功率 (Success weighted by Path Length, SPL)
基線方法
- 在線強化學習(Online RL):在 Roof 和 Factory 環境中分別訓練 RL 智能體,使用分布式在線強化學習方法(如 A3C)。模型輸入第一人稱視角的分割掩碼和智能體與目標之間的相對位置,并輸出直接控制信號進行導航。
- GPT-4o:使用 GPT-4o 模型來采取行動,利用其強大的多模態推理能力。模型輸入第一人稱視角的圖像和智能體與固定目標之間的相對位置,根據預定義的控制空間推理適當的動作。
- 人類玩家:人類玩家使用鍵盤控制智能體,類似于第一人稱視頻游戲。玩家從隨機起點導航到固定目標,基于視覺觀察做出決策。
實驗結果


圖 4 具身導航智能體在 Roof 場景中的示例序列。基于強化學習(RL)的智能體學會了攀爬箱子和墻壁,并跳躍障礙物,以短路徑到達目標位置。
- RL 智能體在較簡單環境中表現較好,但在復雜環境中表現不佳(需要進行攀爬、跳躍等立體空間感知)。
- GPT-4o 在兩種場景中都表現不佳,表明其在復雜 3D 場景推理中的局限性。
- 人類玩家在兩個任務中都表現出色,顯示出當前智能體與人類之間的顯著差距。
3. 主動視覺跟蹤 / Active Visual Tracking
實驗設置
- 環境選擇:利用 unrealzoo 的環境多樣性,選擇四個環境類別(室內場景、宮殿、荒野、現代場景)進行評估,每個類別包含 4 個獨立環境。實驗旨在捕捉環境合集中的廣泛特征,確保對智能體追蹤能力的全面評估。
- 評估指標:使用三個關鍵指標評估:
- 平均回合回報(Average Episodic Return, ER),提供整體跟蹤性能的洞察;
- 平均回合長度(Average Episode Length, EL),反映長期跟蹤效果;
- 成功率(Success Rate, SR),測量完成 500 步的回合百分比。
基線方法
- PID 方法:一種經典的控制方法,使用 PID 控制器通過最大化目標邊界框與預期位置之間的 IoU 來調整智能體的動作。
- OpenVLA:通過對 OpenVLA 進行了微調,使其適應追蹤任務。
- 離線強化學習(Offline RL):擴展自最近的離線 RL 方法,收集離線數據集并采用原始網絡架構。通過收集不同數量環境的離線數據集來分析數據多樣性的影響。
- GPT-4o:使用 GPT-4o 模型直接生成基于觀察圖像的動作,以跟蹤目標人物。設計了系統提示來幫助模型理解任務并標準化輸出格式。
實驗結果
面對不同環境挑戰的效果評估

圖 5 Offline-RL 訓練得到的智能體在四類環境中的平均成功率。智能體分別在三種離線數據集設置(1 個環境、2 個環境、8 個環境)下進行訓練。結果表明,隨著數據集中包含的環境多樣性增加,智能體的泛化能力顯著提升。然而,對于具有復雜空間結構的環境(如 Interior Scenes 和 Palace),成功率較低,突顯了在障礙物規避和導航方面的挑戰。

圖 6 用于測試追蹤智能體的 16 個環境概覽,左側的文本對應每一行的環境類別,每個環境下方的文本對應環境名稱。
- 隨著訓練環境數量的增加,智能體在所有類別中的長期跟蹤性能普遍提高。
- 在野外環境中(Wilds),使用 8 Envs. 數據集的成功率顯著提高,表明多樣化的環境數據對提高智能體在更復雜的開放世界環境中的泛化能力至關重要。
面對動態干擾的效果評估

- 動態干擾:在人群中進行跟蹤時,智能體需要處理動態干擾。實驗中,生成具有不同數量人類角色的群體作為干擾。
隨著干擾數量的增加,離線 RL 方法保持相對穩定的成功率,而其余基線模型在動態環境中表現不佳,顯示出其在動態干擾下的局限性。
跨實體泛化

- 跨實體泛化:將針對人類角色訓練的智能體轉移到機器人狗上進行評估。結果顯示成功率下降,表明研究社區應更多關注跨實體泛化。
控制頻率的影響

- 控制頻率:使用時間膨脹包裝器模擬不同的控制頻率。結果表明,當感知 - 控制循環的頻率低于 10 FPS 時,性能顯著下降。高控制頻率使 RL 智能體在社會跟蹤中表現更好,強調了在動態開放世界中完成任務時構建高效模型的重要性。
總結
- 論文提出了 UnrealZoo,一個多樣化的照片級虛擬世界合集,旨在推動具身 AI 研究的發展。
- 通過提供高質量的虛擬環境和優化的編程接口,UnrealZoo 能夠支持高效的單智能體和多智能體系統交互。
- 實驗結果表明,智能體在開放世界的空間感知和導航能力仍然具有很大發展空間,多樣化的訓練環境對智能體的泛化能力和魯棒性至關重要,而基于 RL 的方法在處理動態環境和社交互動方面表現出色。
- 未來的工作將繼續豐富虛擬世界的場景、實體和交互任務,推動具身 AI 在現實世界中的應用。





























