南大等8家單位,38頁、400+參考文獻(xiàn),物理模擬器與世界模型驅(qū)動的機(jī)器人具身智能綜述
本文作者來自:南京大學(xué)、香港大學(xué)、中南大學(xué)、地平線、中國科學(xué)院計算所、上海交通大學(xué)、慕尼黑工業(yè)大學(xué)、清華大學(xué)。
當(dāng)下,隨著機(jī)器人與人工智能技術(shù)的飛速進(jìn)展,“具身智能”(Embodied Intelligence)已成為業(yè)界與學(xué)界共同關(guān)注的核心課題。與純感知或生成任務(wù)不同,具身智能要求智能體在復(fù)雜環(huán)境中自主感知、預(yù)測并執(zhí)行動作,才能真正邁向通用智能(AGI)。而要實現(xiàn)這一宏大目標(biāo),物理模擬器與世界模型的深度融合被認(rèn)為是最具潛力的路徑:前者通過高度可控的虛擬環(huán)境,為算法訓(xùn)練提供安全、高效的多場景試錯土壤;后者則模擬了從感知到?jīng)Q策的 “腦內(nèi)演算” 過程,使智能體能夠在動作之前,先在內(nèi)部進(jìn)行環(huán)境預(yù)測與策略規(guī)劃。
這篇由南京大學(xué)、香港大學(xué)等機(jī)構(gòu)學(xué)者撰寫的綜述論文 —— A Survey: Learning Embodied Intelligence from Physical Simulators and World Models,使用 25 張圖、6 張表格、超 400 篇參考系統(tǒng)地梳理了兩大技術(shù)如何協(xié)同推動機(jī)器人從 “會做” 向 “會想” 演進(jìn)的全貌。

- 論文題目:A Survey: Learning Embodied Intelligence from Physical Simulators and World Models
- 工作內(nèi)容:基于物理模擬器與世界模型的具身智能學(xué)習(xí)
- 論文鏈接:https://arxiv.org/abs/2507.00917
- 倉庫鏈接:https://github.com/NJU3DV-LoongGroup/Embodied-World-Models-Survey
論文摘要
對通用人工智能(AGI)的追求使具身智能成為機(jī)器人研究的前沿課題。具身智能關(guān)注的是能夠在物理世界中感知、推理并行動的智能體。要實現(xiàn)魯棒的具身智能,不僅需要先進(jìn)的感知與控制能力,還需具備將抽象認(rèn)知扎根于現(xiàn)實交互中的能力。
在這一過程中,兩項基礎(chǔ)技術(shù) —— 物理模擬器與世界模型 —— 已成為關(guān)鍵推動力量。物理模擬器為訓(xùn)練與評估機(jī)器人智能體提供了可控、高保真度的環(huán)境,使復(fù)雜行為的開發(fā)變得安全而高效。相比之下,世界模型為機(jī)器人賦予了對環(huán)境的內(nèi)部表示能力,從而使其能夠進(jìn)行預(yù)測性規(guī)劃和超越直接感知的自適應(yīng)決策。
本文系統(tǒng)回顧了近年來通過物理模擬器與世界模型融合學(xué)習(xí)具身智能的研究進(jìn)展。我們分析了這兩者在提升智能體自主性、適應(yīng)性與泛化能力方面的互補(bǔ)作用,并探討了外部模擬與內(nèi)部建模之間的協(xié)同關(guān)系,如何推動從模擬訓(xùn)練走向真實部署的跨越。通過整合當(dāng)前的研究成果與開放問題,本文旨在為構(gòu)建更強(qiáng)大、更具泛化能力的具身智能系統(tǒng)提供全面的視角。我們還維護(hù)了一個持續(xù)更新的文獻(xiàn)與開源項目倉庫,地址為:https://github.com/NJU3DV-LoongGroup/Embodied-World-Models-Survey。
主要貢獻(xiàn):
- 智能機(jī)器人能力分級標(biāo)準(zhǔn): 提出一個涵蓋自主性、任務(wù)處理能力、環(huán)境適應(yīng)能力與社會認(rèn)知能力四個關(guān)鍵維度的五級能力分級體系(IR-L0 至 IR-L4)。
- 機(jī)器人學(xué)習(xí)技術(shù)分析: 系統(tǒng)回顧智能機(jī)器人在腿式運(yùn)動(如雙足行走、摔倒恢復(fù))、操作控制(如靈巧操作、雙手協(xié)調(diào))與人機(jī)交互(如認(rèn)知協(xié)作、社會嵌入)方面的最新技術(shù)進(jìn)展。
- 主流物理模擬器分析: 全面對比 Webots、Gazebo、MuJoCo、Isaac Gym/Sim/Lab 等主流模擬器的物理仿真能力、渲染質(zhì)量與傳感器支持能力。
- 世界模型的最新進(jìn)展: 首先回顧世界模型的代表性架構(gòu)及其潛在作用,例如作為可控模擬器、動態(tài)建模器與獎勵模型在具身智能中的應(yīng)用。進(jìn)一步探討專為自動駕駛與關(guān)節(jié)型機(jī)器人設(shè)計的最新世界模型方案。
研究內(nèi)容與結(jié)構(gòu)一覽

1、智能機(jī)器人五級能力分級(IR-L0 ~ IR-L4)
- IR-L0:基礎(chǔ)執(zhí)行 —— 完全依賴人類指令,無環(huán)境感知。
- IR-L1:規(guī)則響應(yīng) —— 有限的傳感器驅(qū)動,能在封閉環(huán)境下執(zhí)行預(yù)設(shè)任務(wù)。
- IR-L2:感知自適應(yīng) —— 引入視覺、LiDAR 等多模態(tài),具備基本路徑規(guī)劃與避障能力。
- IR-L3:類人協(xié)作 —— 多輪對話、情感識別,能在動態(tài)場景中與人類協(xié)同工作。
- IR-L4:完全自主 —— 具備自我生成目標(biāo)、長期學(xué)習(xí)與倫理決策能力 。
2、機(jī)器人核心技術(shù)回顧
- 運(yùn)動能力:從 Model Predictive Control、Whole-Body Control,到基于深度強(qiáng)化學(xué)習(xí)的端到端策略;
- 操控能力:單臂抓取到雙臂協(xié)作,乃至全身動作控制,輔以 VLM/LLM 驅(qū)動的視覺 — 語言 — 動作一體化模型;
- 交互能力:認(rèn)知協(xié)作、物理安全與社會嵌入三大維度的最新進(jìn)展 。
3、物理模擬器橫評
回顧主流模擬平臺(Webots、Gazebo、MuJoCo、Isaac Gym/Sim)的物理引擎精度、渲染質(zhì)量及傳感器組件支持;
對比其在異構(gòu)硬件與大規(guī)模并行訓(xùn)練中的表現(xiàn)差異,并指出未來優(yōu)化方向。
4、世界模型架構(gòu)與應(yīng)用
代表性結(jié)構(gòu):從預(yù)測網(wǎng)絡(luò)、生成式模型到多任務(wù)復(fù)合型 “動態(tài)+獎勵” 模型;
應(yīng)用場景:自動駕駛中的軌跡預(yù)測、關(guān)節(jié)機(jī)器人中的仿真 — 現(xiàn)實閉環(huán)校準(zhǔn)。
智能機(jī)器人分級標(biāo)準(zhǔn)

仿真器仿真能力對比

仿真器渲染能力對比

自動駕駛領(lǐng)域的世界模型代表性工作匯總

機(jī)器人領(lǐng)域的世界模型代表性工作匯總































