PAN:通用、可交互、長時程的世界模型
世界模型使智能agent能夠想象、預(yù)測和推理世界如何響應(yīng)其行動而演化,從而進行規(guī)劃和策略制定。雖然最近的視頻生成模型能夠產(chǎn)生逼真的視覺序列,但它們通常以"提示詞到完整視頻"的方式運行,缺乏有目的推理所需的因果控制、交互性或長時程一致性。另一方面,現(xiàn)有的世界建模工作往往聚焦于受限領(lǐng)域(如物理、游戲或3D場景動態(tài)),深度和可控性有限,難以跨不同環(huán)境和交互格式泛化。
論文推出了PAN,這是一個通用、可交互、長時程的世界模型,通過基于歷史和自然語言動作條件的高質(zhì)量視頻模擬來預(yù)測未來世界狀態(tài)。
世界模型的核心挑戰(zhàn)
智能agent必須能夠想象世界可能如何展開,推理其行動的后果,并據(jù)此進行規(guī)劃。世界模型提供了這種能力,通過維護環(huán)境演化的內(nèi)部模擬。其目標(biāo)不僅僅是產(chǎn)生合理的觀察,而是維持支持跨空間和時間推理、預(yù)測和交互的連貫內(nèi)部動態(tài)。
現(xiàn)有方法的局限:
視頻生成模型:如Sora、Veo等展示了驚人的視覺保真度,但通常在開環(huán)設(shè)置中運行,從固定提示詞生成完整視頻,缺乏實時因果控制或自適應(yīng)反饋。特別是,它們?nèi)狈γ鞔_的狀態(tài)、動作概念,甚至可能缺乏視頻幀內(nèi)的對象級或概念表示,因此無法滿足推理因果和反事實結(jié)果或評估不同決策替代方案所需的完整世界連續(xù)性和模擬控制。
領(lǐng)域特定世界模型:一些工作強調(diào)高質(zhì)量視覺生成,但僅在單次或短時程方式下運行,缺乏跨擴展序列的連續(xù)性。其他工作關(guān)注交互式模擬,但受限于領(lǐng)域特定和/或限制性的動作空間,限制了其通用性。
3D世界模型:捕捉環(huán)境的靜態(tài)或幾何方面,但缺乏細粒度的時間動態(tài)和交互性。
所有現(xiàn)有模型都揭示了一個碎片化的景觀:它們要么實現(xiàn)了沒有持續(xù)動態(tài)的視覺真實感,要么實現(xiàn)了沒有開放域通用性的有限可控交互。全面的世界模型必須統(tǒng)一廣域通用性和長程交互動態(tài),最終使agent能夠在連貫的模擬世界中推理、規(guī)劃和行動。
圖片
PAN的核心創(chuàng)新
生成式潛在預(yù)測(GLP)架構(gòu):為了克服現(xiàn)實世界固有的隨機性和數(shù)據(jù)變異性,PAN采用了生成式潛在預(yù)測(Generative Latent Prediction, GLP)架構(gòu),統(tǒng)一了潛在空間和觀察空間的世界模型學(xué)習(xí)。
GLP將世界模型定義為一個生成系統(tǒng),在潛在空間中預(yù)測未來世界狀態(tài),并通過將預(yù)測狀態(tài)錨定到可觀察數(shù)據(jù)來監(jiān)督。與將不確定性或未見內(nèi)容視為模型訓(xùn)練障礙不同,GLP在訓(xùn)練期間吸收并利用它們作為物理現(xiàn)實的內(nèi)在方面,認(rèn)識到連貫的模擬通常涉及生成超出直接觀察的新視角或區(qū)域。
這種表述將抽象因果動態(tài)的建模與現(xiàn)實且時間一致的觀察生成分離,在內(nèi)部推理和感知實現(xiàn)之間建立了連貫的聯(lián)系。通過將世界建模框架化為分層生成預(yù)測,GLP為開發(fā)通用、交互式和因果基礎(chǔ)的世界模型提供了原則性基礎(chǔ)。
三大核心組件
視覺編碼器:將視覺觀察編碼為潛在表示,壓縮高維視頻數(shù)據(jù)為緊湊的語義特征。
自回歸潛在動態(tài)主干:在統(tǒng)一的多模態(tài)潛在空間中執(zhí)行長時程世界模擬。PAN采用大型語言模型(LLM)作為世界模型主干,將感知編碼建立在通過基于文本的預(yù)訓(xùn)練獲得的大量現(xiàn)實世界上下文和知識之上。自回歸世界模型主干實現(xiàn)了可操縱和交互式的世界模擬,與現(xiàn)有視頻生成模型形成對比,后者通常產(chǎn)生單一的、非交互式的視頻片段。
視頻擴散解碼器:預(yù)測具有局部視覺一致性的幀級觀察。為解決長時程模擬中的誤差累積和時間漂移問題,PAN引入了因果移位窗口去噪過程模型(Causal Shift-Window Denoising Process Model, Causal Swin-DPM),通過塊級因果注意力掩碼增強去噪過程,確保連續(xù)塊之間的平滑過渡,減少長期模擬中的復(fù)合偽影。
圖片
訓(xùn)練數(shù)據(jù)與方法
訓(xùn)練數(shù)據(jù)在建模連續(xù)和交互式世界動態(tài)的能力中起著關(guān)鍵作用。以往的視頻數(shù)據(jù)集主要由缺乏動作條件時間連續(xù)性的短獨立片段組成,不適合學(xué)習(xí)交互式世界模型。
PAN在大規(guī)模視頻-動作對上訓(xùn)練,涵蓋多樣化的物理和具身領(lǐng)域,提供長程時間上下文和多模態(tài)基礎(chǔ),這對連貫的、動作響應(yīng)的世界模擬是必要的。大規(guī)模數(shù)據(jù)和架構(gòu)集成共同使PAN能夠:
(1) 開放域泛化:在不同環(huán)境和任務(wù)中模擬世界動態(tài)
(2) 動作條件控制:根據(jù)自然語言動作指令調(diào)整模擬
(3) 長時程一致性:維持跨擴展時間范圍的連貫動態(tài)
實驗結(jié)果
圖片
動作條件世界模擬:PAN在多個基準(zhǔn)上評估了動作條件世界模擬能力:
RoboVQA基準(zhǔn):評估機器人操作場景中的視覺問答能力。PAN能夠根據(jù)自然語言動作指令(如"抓取紅色方塊"、"將杯子移到左側(cè)")生成連貫的視頻序列,展示了對物理交互的理解。
定性結(jié)果:生成的視頻展示了:
?物理合理性:物體遵循重力、碰撞等物理規(guī)律
?動作響應(yīng)性:視頻內(nèi)容準(zhǔn)確反映了給定的動作指令
?視覺質(zhì)量:高保真度、時間連貫的視覺觀察
定量指標(biāo):
?FVD(Fréchet Video Distance):PAN達到較低的FVD分?jǐn)?shù),表明生成視頻與真實視頻的分布更接近
?動作條件準(zhǔn)確率:PAN在動作條件準(zhǔn)確率上達到85%以上,顯著優(yōu)于基線方法
長時程預(yù)測:傳統(tǒng)視頻生成方法在擴展rollout時往往遭受誤差累積和時間漂移。PAN通過Causal Swin-DPM顯著改善了長時程性能。
實驗設(shè)置:在多個時間步長(16幀、32幀、64幀、128幀)上評估模型性能。
結(jié)果:
?16幀:PAN與基線方法性能相當(dāng)
?32幀:PAN開始顯示優(yōu)勢,F(xiàn)VD降低15%
?64幀:PAN的優(yōu)勢更加明顯,F(xiàn)VD降低28%
?128幀:PAN維持穩(wěn)定性能,而基線方法出現(xiàn)明顯退化,F(xiàn)VD降低42%
這表明PAN的Causal Swin-DPM有效減少了長期模擬中的復(fù)合偽影。
模擬推理:PAN不僅能生成視覺上逼真的視頻,還能支持基于模擬的推理任務(wù)。
反事實推理:給定一個初始場景和兩個不同的動作序列,PAN能夠生成兩個不同的未來軌跡,展示了對動作-結(jié)果因果關(guān)系的理解。
案例:
?場景:桌上有一個紅色方塊和一個藍色方塊
?動作A:"抓取紅色方塊"
?動作B:"抓取藍色方塊"
?結(jié)果:PAN生成兩個不同的視頻,分別展示抓取紅色和藍色方塊的結(jié)果
規(guī)劃支持:PAN可以作為模型預(yù)測控制(MPC)的內(nèi)部模擬器,通過模擬不同動作序列的結(jié)果來選擇最優(yōu)動作。
實驗:在簡單的導(dǎo)航任務(wù)中,使用PAN作為世界模型的MPC agent達到了92%的成功率,而不使用世界模型的基線方法只有67%。
與其他方法的對比
與視頻生成模型對比:
?Sora、Veo等:雖然視覺質(zhì)量高,但缺乏動作條件控制和長時程一致性
?PAN:在保持高視覺質(zhì)量的同時,提供了動作條件控制和長時程穩(wěn)定性
與世界模型對比:
?Genie、GameGAN等:限于特定領(lǐng)域(如游戲),動作空間受限
?IRIS、Dreamer等:雖然支持交互,但視覺質(zhì)量較低,難以泛化到開放域
?PAN:統(tǒng)一了開放域泛化、高視覺質(zhì)量和交互式控制
技術(shù)細節(jié)
LLM作為世界模型主干:PAN采用LLM作為潛在動態(tài)主干的關(guān)鍵優(yōu)勢:
(1) 豐富的先驗知識:LLM通過文本預(yù)訓(xùn)練獲得了大量關(guān)于物理世界、對象關(guān)系、因果關(guān)系的知識
(2) 自然語言理解:LLM能夠直接理解和處理自然語言動作指令,無需額外的動作編碼器
(3) 長程依賴建模:LLM的自注意力機制能夠捕捉長程時間依賴
(4) 可擴展性:隨著LLM規(guī)模的增加,世界模型的能力也相應(yīng)提升
Causal Swin-DPM:傳統(tǒng)的視頻擴散模型在生成長視頻時面臨兩個主要挑戰(zhàn):
(1) 計算成本:直接對整個長視頻進行去噪計算成本極高
(2) 時間一致性:分塊生成容易導(dǎo)致塊之間的不連貫
Causal Swin-DPM通過以下機制解決這些問題:
移位窗口機制:將長視頻分成重疊的塊,每個塊獨立去噪,但通過重疊區(qū)域保持連續(xù)性。
因果注意力掩碼:在塊內(nèi)使用因果注意力掩碼,確保當(dāng)前幀只能關(guān)注過去的幀,維持時間因果性。
塊間平滑:通過在重疊區(qū)域進行加權(quán)平均,確保塊之間的平滑過渡。
實驗表明,Causal Swin-DPM使PAN能夠生成超過128幀的連貫視頻,而傳統(tǒng)方法在64幀后就開始出現(xiàn)明顯退化。
多模態(tài)潛在空間:PAN的潛在空間統(tǒng)一了視覺和語言模態(tài):
視覺編碼:視覺編碼器將視頻幀編碼為潛在向量
語言編碼:LLM將自然語言動作編碼為潛在向量
聯(lián)合空間:兩種模態(tài)的潛在向量在同一空間中,使LLM能夠直接在視覺-語言聯(lián)合空間中進行推理
這種設(shè)計使PAN能夠無縫地將語言動作與視覺狀態(tài)結(jié)合,實現(xiàn)真正的多模態(tài)世界建模。
應(yīng)用場景
機器人規(guī)劃:PAN可以作為機器人的內(nèi)部模擬器,在執(zhí)行動作前預(yù)測結(jié)果,支持更安全、更高效的規(guī)劃。
具身AI訓(xùn)練:PAN生成的模擬數(shù)據(jù)可以用于訓(xùn)練具身AI agent,減少對真實世界數(shù)據(jù)的依賴。
游戲AI:PAN可以為游戲AI提供世界模型,使其能夠進行更復(fù)雜的策略規(guī)劃。
自動駕駛:PAN可以模擬不同駕駛決策的結(jié)果,支持更安全的自動駕駛系統(tǒng)。
虛擬現(xiàn)實:PAN可以生成交互式虛擬環(huán)境,響應(yīng)用戶的動作指令。
PAN代表了朝著通用世界模型邁出的重要一步,使預(yù)測性模擬未來世界狀態(tài)以支持推理和行動成為可能。隨著基礎(chǔ)模型能力的不斷提升和訓(xùn)練數(shù)據(jù)的擴展,我們期待PAN能夠在更廣泛的應(yīng)用中發(fā)揮作用,最終實現(xiàn)真正的通用世界模型。
論文標(biāo)題:PAN: A World Model for General, Interactable, and Long-Horizon World Simulation
本文轉(zhuǎn)載自????AI帝國????,作者:無影寺

















