世界模型的變革之道:PAN 架構的突破

大家好,我是肆〇柒,今天要和大家探討一篇來自卡內基梅隆大學等人工智能機構提出的論文 《Critiques of World Models》。在科幻經典《沙丘》中,魁薩茨·哈德拉克(Kwisatz Haderach)能夠繼承祖先的記憶并模擬所有可能計劃的結局,這種超凡的能力為我們提供了一個極具吸引力的設想:是否也能為計算機系統賦予類似的 “預知” 能力,使其能夠在復雜多變的環境中做出精準決策?世界模型的研究正是致力于實現這一目標,而這篇論文則為我們提供了深入探索這一領域的全新視角。
在現實世界中,智能體(如機器人、自動駕駛汽車等)需要在復雜多變的環境中做出快速而準確的決策。世界模型作為一種算法化的替代模型,期望模擬真實世界環境的動態變化,以助力這些智能體進行推理和決策。它涵蓋了物理世界、心理世界、社會世界和進化世界等多種場景的模擬。

一個熟悉的模擬推理的例子
通過類比人類在面對復雜決策時的心理模擬過程,我們能夠更清晰地認識到世界模型的核心價值。例如,上圖展示了一個熟悉的模擬推理的例子,一個人通過心理模擬多種可能的結果來決定是否幫助一個哭泣的人。
世界模型的定義與作用
定義概述
世界模型(World Model,WM)是一種生成模型,它以之前的世界狀態 s 和動作 a 為輸入,通過某種轉換函數(例如條件概率分布
)來預測或模擬下一個世界狀態 s′。這種模型能夠模擬真實世界環境的動態變化,為虛擬智能體在物理世界、心理世界、社會世界和進化世界等多種場景下的推理和決策提供支持。下圖給出了一個可能的最優智能體的定義,展示了世界模型在智能體決策中的重要性。

最優智能體的定義
世界模型的作用在于使智能體能夠在不與真實環境直接交互的情況下開展 “思想實驗”。通過模擬未來可能發生的各種情況,智能體可以選擇最優的行動方案。例如,自動駕駛汽車在虛擬環境中進行大量模擬訓練,以優化其決策策略。與傳統基于邏輯推理的方法相比,世界模型的優勢在于它能夠更靈活、更廣泛地應對各種復雜場景。

在真實世界中世界模型對于模擬的重要性
上圖展示了在真實世界中,由于無法直接體驗或實驗真實世界的狀態和宇宙,世界模型對于模擬的重要性。
世界模型的研究現狀
各類模型簡介
近年來,世界模型領域的研究成果豐碩,涵蓋了游戲世界模型、3D 場景世界模型、物理世界模型、視頻生成模型和聯合嵌入預測模型(JEPA)等。
- 游戲世界模型 :如 Genie 2、Muse 和 Oasis 等模型能夠基于視覺和動作輸入渲染出合理的游戲軌跡,生成長達 1-2 分鐘的連續游戲內容。然而,這些系統大多局限于特定的游戲領域,如 Genie 2 和 Muse 依賴于限制性的主機風格輸入,Oasis 則僅限于類似我的世界的設置。此外,它們的時間連貫性較淺,當前的生成范圍(1-2 分鐘)難以代表完整的數小時游戲會話。
- 3D 場景世界模型 :World Labs 等模型專注于風格化的 3D 場景生成和 egocentric 導航。盡管視覺效果引人注目,但從現有演示來看,這些模型似乎僅限于模擬靜態環境,缺乏動態智能體、物理特性或豐富的交互性。這使得它們在涉及物理因果關系、多智能體行為或目標驅動規劃的任務中存在不足。
- 物理世界模型 :Wayve GAIA-2 和 NVIDIA Cosmos 等生成模型專門針對物理控制任務進行訓練,包括自動駕駛、機器人操作和體現導航等。這些系統在模擬不同條件(如天氣、照明和地理環境)下的低級物理和感官 - 運動控制方面表現出色,但它們與各自領域緊密耦合,通常依賴于特定任務的傳感器、數據或控制架構。
- 視頻生成模型 :OpenAI 的 Sora 和 Google DeepMind 的 Veo 等模型是從文本提示和 / 或先前幀生成高質量的視頻序列。盡管視覺效果驚艷,但這些模型僅生成固定軌跡,并且不支持基于替代動作的交互。它們缺乏對狀態、動作以及可能的對象級或概念級表示的明確定義,也無法提供模擬控制以推理不同決策下的反事實結果。
- 聯合嵌入預測模型(JEPA) :包括 V-JEPA 系列、DINO-WM 和 Meta FAIR 的 PLDM 在內的模型,以其概念上的優雅方法吸引了廣泛關注。這些模型放棄像素級生成,轉而預測未來的潛在嵌入,通常采用編碼器 - 編碼器架構,并使用基于能量的損失函數在潛空間(latent space)中進行監督。盡管這種設計有望提高可處理性,但關于其實際可用性的證據仍然稀缺,因為這些模型主要在簡單的玩具環境中通過簡單的啟發式方法和動作空間進行演示。V-JEPA 2 在應用于機器人手臂操作任務方面取得了進展,但其是否能夠泛化到更多樣化的任務(如制作早餐)或是否能夠擴展到具有長期依賴性的更高復雜度環境(如登山)仍有待觀察。
存在的不足
盡管上述各類模型在世界模型的某些方面取得了顯著進展,但大多數模型在現實應用場景中仍存在不足,尤其是在泛化能力、交互性和長期推理能力等方面。
- 泛化能力不足 :現有模型大多局限于特定領域或任務類型,難以將所學知識遷移到不同但相關的場景中。例如,游戲世界模型無法直接應用于物理控制任務,反之亦然。這種局限性限制了它們在現實世界中面對多樣化任務時的適應性。
- 交互性有限 :許多模型缺乏對動態智能體和豐富交互性的模擬。3D 場景世界模型通常只生成靜態環境,無法捕捉智能體之間的復雜交互動態。這使得它們在涉及多智能體協作或競爭的任務中表現不佳。
- 長期推理能力欠缺 :現有模型在長期規劃和推理方面存在明顯不足。游戲世界模型的生成范圍較短,難以支持完整的數小時游戲會話。在更復雜的現實任務中,如自動駕駛或機器人導航,需要智能體進行長期的路徑規劃和決策,而現有模型往往難以滿足這一要求。
對現有世界模型的批判
數據維度批判
一些觀點認為感官輸入(如視頻、音頻等)優于文本數據,因為物理世界的數據量更大。然而,這種觀點忽略了數據的信息密度和語義內容的重要性。盡管感官數據流(如視頻)在原始體積上看似龐大,但其中大量數據是低語義內容且高度冗余的。相比之下,自然語言是經過多代抽象交流和概念推理優化的,人類經驗壓縮形式。文本不僅捕捉物理現實,還涵蓋了心理、社會和反事實現象,這些現象通過直接感官觀察是難以或無法獲取的。
例如,像正義、動機或后悔這樣的概念在語言中被豐富地編碼,但卻沒有直接的感官等價物。此外,語言還提供了與集體人類記憶的接口,包括記錄的觀察、科學發現和工程失敗等,而這些僅通過原始感知輸入很難或無法推導出來。模型在文本訓練上可以編寫軟件或解決奧林匹克數學問題,而僅在原始視覺和運動數據上訓練的模型更適合于物理導航或操作任務。因此,通用世界模型的構建必須利用所有體驗模態,無論是文本、圖像、視頻、觸覺、音頻還是更多。這些模態并不是可以互換的,而是反映了體驗的不同層次(例如,視頻捕捉體現和物理世界的時空動態,而語言則編碼抽象概念和社會規范)。
過分強調某一模態而忽視其他模態,反映了對世界模型的本質和功能的根本性限制或偏見。成功的通用世界模型必須從這種分層結構的體驗中學習,以泛化到各種不同任務。
批判表示方式
關于世界狀態的表示方式,有人主張應使用連續嵌入而非離散 token ,以支持基于梯度的優化。然而,人類在推理過程中是否進行基于梯度的優化(如 SGD)或基于模式搜索(如 kNN)尚不確定。實際上,推理可能是認知和生理的結合,或者兩者兼而有之,不太可能有一種算法適用于所有情況。
連續表示雖然允許更平滑的梯度流動,但卻忽視了連續感官輸入固有的噪聲和高變異性,這使得它們在推理中變得脆弱。人類認知通過將原始感知分類為離散概念來對抗這種變異性,這些概念通常以語言、符號和結構化思想的形式出現。基于詞匯表的 token 不是負擔,而是一種資產:它們為以各種抽象層次表示概念提供了穩定、可組合的介質。它們構成了構建現代基于語言的 AI 系統(如 LLM)的基礎,這些系統基于離散單詞序列進行推理,這些單詞對應于人類從宇宙中各種感知(如物理、心理或社會世界)獲得的 token ,并允許通過(理想情況下)動態可控的上下文長度實現一種長期記憶。下圖展示了基于詞匯表的 token 如何有效地將感知輸入分類為離散概念用于推理,并說明了如何通過擴展或擴展離散代碼來處理不斷增加的數據復雜性。

基于詞匯表的 token 如何有效地將感知輸入分類為離散概念用于推理

架構層面批判
JEPA 等非自回歸、非生成式模型的提出,是為了避免自回歸生成模型在 token 生成過程中錯誤的指數級累積,并吸收信號變異性。然而,從本質上看,JEPA 的架構仍然是自回歸和生成式的。它通過遞歸應用編碼器 h 和世界模型 f 兩個操作符,定義了一個潛在轉換模型,這在功能上是自回歸和生成的,盡管它在符號上缺乏一個顯式的概率解碼器來生成可與真實下一個觀測數據進行比較的結果。下圖展示了一個被廣泛討論的世界模型框架,它以感官輸入(如視頻、音頻等)為基礎,通過編碼器將這些輸入轉換為固定大小的連續嵌入,然后通過世界模型預測下一個嵌入,并在潛空間(latent space)中進行重建損失的計算。

一個被廣泛討論的世界模型框架
此外,許多現實世界的系統(如三體問題、流體動力學或金融市場)本質上是混沌的,小偏差會隨著時間的推移呈指數增長。在這種情況下,無論模型類別如何,精確預測都是不可能的。然而,結構良好的自回歸模型(如連續情況下的卡爾曼濾波器和離散情況下的 HMM)仍然可以學習系統的一些有用、抽象屬性,這些屬性往往出奇地穩定和可預測。這表明,自回歸模型并非因為錯誤累積而本質上存在缺陷。
相比之下,JEPA 框架通過僅在潛空間(latent space)而非觀測空間進行監督,存在潛在的不可定義性風險:預測的潛在變量未直接基于可觀測數據進行約束,這使得很難診斷模型是否正在學習有意義的動態或退化為平凡解決方案。
批判目標選擇
JEPA 框架主張放棄基于概率的數據重建目標,轉而采用基于能量的潛在重建目標,以提升模型的可處理性。然而,這種目標選擇其實暗藏隱憂。下圖對比了備受爭議的 JEPA 世界模型架構(左側)與研究者新提出的生成式潛在預測(GLP)架構(右側)。GLP 架構涵蓋一個以擴散模型為基礎的下一個嵌入預測器,用于精準刻畫連續感知動態;同時搭配一個增強型 LLM 骨干,專門應對離散長視野結構的復雜任務。

比較了被批判的 JEPA 世界模型架構和生成式潛在預測架構


潛在重建損失與生成式重建損失之間的關系


比較了基于潛空間(latent space)重建的世界模型目標和基于生成式數據重建的目標
也就是,生成式損失 Lgen 錨定了學習表示與感官世界的結構,避免了潛在重建損失 Llatent 的崩潰。
批判使用方式
在使用世界模型進行決策時,模型預測控制(MPC)和強化學習(RL)是兩種主要的方法。有人主張放棄 RL,轉而采用 MPC,以減少訓練期間所需的試驗次數。然而,這兩種方法各有優劣。下圖比較了被批判的世界模型使用方法(左)與研究者提出的替代方法(右)。

比較了被批判的世界模型使用方法與替代方法
MPC 在推理期間的每個時間步都需要反復模擬潛在軌跡,這導致在推理期間計算開銷高昂,難以在快速變化的環境中有效響應。此外,MPC 通常只規劃幾步(例如,最多 10-20 步)的搜索視野,這限制了它的遠見能力。隨著視野的增加,MPC 的實施和優化變得更加困難,因為提議分布必須一次性對整個規劃視野內的整個動作序列進行采樣。
相比之下,RL 是一種通用、靈活且可擴展的方法,用于訓練智能體,不受決策方法或搜索視野的限制。特別是在使用世界模型進行探索和學習時,RL 顯示出更大的優勢。通過將真實環境替換為世界模型,智能體可以在模擬環境中進行訓練,從而減少與真實環境的交互次數,并提高安全性。
PAN 世界模型的提出
架構設計思路
論文中所闡述的 PAN(Physical, Agentic, and Nested)世界模型基于層次化、多模態和混合連續 / 離散表示的設計理念,整合生成式和自監督學習框架,目的是打造一個通用的、可操作的世界模型架構。下圖展示了研究者提出的通用世界建模框架 PAN-World 的架構。

PAN-World 架構
PAN 的設計原則包括:利用所有模態的體驗數據;采用混合連續和離散表示;基于增強型 LLM 骨干和生成式潛在預測架構的層次化生成建模;基于觀測數據的生成損失;以及利用世界模型模擬經驗以訓練智能體的強化學習(RL)。
特點詳細介紹
- 多模態數據利用 :PAN 能夠處理來自不同模態的感官輸入,如視頻、音頻、溫度、運動甚至疼痛等。通過這種方式,它可以全面捕捉現實世界的復雜性和多樣性。
- 混合表示方式 :PAN 結合了離散和連續表示的優勢。離散 token 為更穩健、可解釋和符號化的推理提供了基礎,而連續嵌入則有助于捕捉精細的感官細節。這種混合表示方式使得 PAN 能夠在不同層次的抽象和細節之間靈活切換。
- 層次化生成模型支持 :PAN 采用層次化的生成模型架構,將問題分解為多個層次的潛在預測。每個層次專注于不同粒度的表示,從而實現更高效、更準確的模擬和推理。
- 生成式損失函數應用 :PAN 使用基于觀測數據的生成式損失函數進行訓練。這種損失函數確保了模型的預測與真實世界的觀測數據保持一致,從而提高了模擬的準確性和可靠性。
- 模擬經驗訓練智能體 :PAN 通過模擬經驗來訓練智能體,使其能夠在虛擬環境中學習和優化決策策略。這提高了智能體的適應性和魯棒性,也減少了在真實環境中進行訓練的風險和成本。
PAN 世界模型的應用
登山探險案例展示
在登山探險這一復雜的任務中,PAN 世界模型展現出了其強大的能力和優勢。

由 PAN 世界模型驅動的模擬推理智能體
上圖描繪了研究者提出的由 PAN 世界模型驅動的模擬推理智能體。與傳統的依賴反應策略的 RL 智能體或在決策時刻昂貴地模擬未來的 MPC 智能體不同,該智能體利用 PAN 世界模型預先計算并緩存各種可能的世界狀態、相關動作及其模擬結果。在決策時,智能體根據當前的信念和預期結果選擇動作,實現更高效、靈活且有意向的規劃過程,更接近人類的思考模式。
- 多模態輸入處理 :PAN 能夠接收并處理多種模態的感官輸入,包括視覺、聽覺、溫度、運動信號等。這些輸入共同構成了對登山環境的全面感知,使智能體能夠準確地了解周圍環境的狀態。
- 未來狀態模擬 :基于接收到的多模態輸入,PAN 可以模擬未來可能的世界狀態。例如,它可以預測不同路線下的地形變化、天氣條件以及團隊成員的體力狀態等。這為智能體的決策提供了豐富的信息支持。
- 長期規劃與決策 :借助模擬的未來狀態,PAN 能夠協助智能體進行長期規劃和決策。智能體可以根據模擬結果選擇最優的行動方案,如合理安排裝備、規劃行進路線、調整攀登節奏等。這種基于模擬和推理的決策方式有助于提高登山的成功率和安全性。
自動駕駛案例拓展
在自動駕駛領域,PAN 世界模型同樣具有巨大的應用潛力。
- 多模態數據融合 :PAN 可以融合攝像頭圖像、雷達信號、激光雷達點云等多種模態的數據,實現對周圍環境的精確感知。通過這種方式,它能夠更全面地了解交通狀況、道路條件和其他車輛及行人的位置和運動狀態。
- 環境感知與預測 :基于多模態數據融合,PAN 能夠實時模擬未來可能出現的交通場景,如其他車輛的行駛軌跡、行人的移動方向等。這使得自動駕駛汽車能夠提前做出反應,避免潛在的危險情況。
- 路徑規劃與決策 :結合模擬的未來交通場景,PAN 可以為自動駕駛汽車提供優化的路徑規劃和決策支持。例如,在面對復雜的交通擁堵或緊急情況時,它可以幫助車輛選擇最佳的行駛路線,確保行駛的安全性和效率。
醫療診斷案例拓展
PAN 世界模型在醫療診斷領域也有著廣闊的應用前景。
- 多模態醫療數據整合 :PAN 能夠整合患者的病歷文本、醫學影像(如 X 光、CT、MRI 等)、生理信號(如心電圖、腦電圖等)等多種模態的醫療數據。通過這種方式,它能夠更全面地了解患者的病情和健康狀況。
- 病情預測與治療方案制定 :基于多模態醫療數據整合,PAN 可以模擬患者病情的未來發展趨勢,預測可能出現的并發癥或疾病進展。這為醫生制定個性化的治療方案提供了有力的支持,有助于提高治療效果和患者的生存率。
- 個性化治療優化 :結合模擬的病情預測,PAN 能夠協助醫生優化治療方案,如調整藥物劑量、確定手術時機等。這種基于數據驅動的個性化治療方式有助于提高醫療質量和患者的生活質量。
多領域應用拓展
除了上述案例,PAN 世界模型在機器人控制、智能教育等領域也具有潛在的應用價值。
- 機器人控制 :在機器人控制方面,PAN 可以通過模擬機器人的運動和與環境的交互,幫助優化機器人的任務規劃和控制策略。例如,在工業生產線上,PAN 可以模擬機器人手臂的操作過程,提高其操作精度和效率。
- 智能教育 :在智能教育領域,PAN 能夠根據學生的學習進度、知識掌握情況等多模態數據,模擬學生的學習過程和未來學習效果。這有助于教師制定個性化的教學計劃,提高教學效果和學生的學習積極性。
總結與感想:探索世界模型
我在閱讀《Critiques of World Models》這篇論文之后,讓我對世界模型有更全面的了解。論文從世界模型的定義和作用出發,詳細探討了其研究現狀和存在的問題,并提出了 PAN 架構作為一種創新的解決方案。這一過程既讓我們清晰地認識到世界模型的一些技術細節,也為人工智能領域的發展方向提供了新的思考。
現在,我們已經看到了好多不同類型的世界模型,它們各有各的本事。但說實話,這些模型都有點“挑食”,只在自己擅長的小領域里玩得轉,一碰到復雜點的情況就不太行了。比如,有些模型擅長玩游戲的模擬,但一說到物理世界的復雜交互,就有點“懵”了。
論文指出,世界模型的核心在于模擬真實世界的可能性以支持智能體的推理和決策,而非僅僅生成視頻或虛擬現實。通過批判性分析現有模型的不足,如泛化能力、交互性和長期推理能力的欠缺,論文為世界模型的研究和發展提供了新的方向和思路。這篇論文最精華的地方還在于,它不僅指出了這些模型的不足,還提出了一個全新的架構——PAN世界模型。這為世界模型的研究開辟了新的視野。它結合多模態數據、層次化表示和生成式學習,為構建通用人工智能(AGI)提供了全新的框架。與現有模型相比,PAN 在泛化能力、交互性和長期推理能力等方面具有顯著優勢。它能夠更有效地處理復雜多變的現實任務,為智能體的決策提供更準確、更可靠的模擬支持。
從科幻經典《沙丘》中魁薩茨·哈德拉克(Kwisatz Haderach)的超凡能力到現實世界中世界模型的研究,人類對智能和預知能力的追求從未停止。世界模型的研究還只是剛起步,未來還有好多可探索的地方,期待能有更多的研究進展可以進入大家的視野。
























