鍵鼠操控未來!DiT模型秒變“世界模型”,昆侖萬維Matrix-Game 2.0開源打造無限可能的虛擬世界!

論文鏈接:??https://arxiv.org/pdf/2508.13009??
項目鏈接:https://matrix-game-v2.github.io/?

亮點直擊
- Matrix-Game 2.0——一個專為實現實時性能與穩健泛化能力而設計的新型框架。其技術核心是一個集成動作控制模塊的視頻擴散 Transformer,并通過 Self-Forcing 技術蒸餾為一個因果性、少步長的自回歸模型。該架構結合高效的 KV 緩存機制,支持訓練與推理,在單張 H100 GPU 上實現25 幀/秒的生成速度,同時在超出訓練分布的復雜野外場景中保持分鐘級的時間一致性與精確的動作可控性。
- 模型的強泛化能力得益于本文提出的另一項創新:一個全面的數據生成流程,專門解決交互式訓練數據的根本瓶頸。該流程基于 Unreal Engine,包含基于導航網格的路徑規劃系統以提升數據多樣性,以及用于攝像機精確控制的四元數精度優化模塊。此外,在 Grand Theft Auto V(GTA5)環境中,開發了一個基于Script Hook的數據記錄系統,能夠同步采集視覺內容與對應的用戶交互。上述組件共同生成了具有幀級標注的大規模數據集,滿足兩個關鍵需求:(1)視覺內容與控制信號之間的精確對齊;(2)動態游戲內交互的有效建模。
- 通過同時解決效率與可控性問題,Matrix-Game 2.0在世界建模方面邁出了重要一步,提出了一個專為實時仿真與交互設計的高效框架。
實時交互生成結果




總結速覽
解決的問題
- 實時性能不足:現有交互式世界模型依賴雙向注意力機制和長推理路徑,導致延遲高,難以實現實時響應。
- 誤差累積嚴重:自回歸視頻擴散模型在長序列生成中誤差不斷積累,視頻質量隨時間下降。
- 數據瓶頸突出:缺乏大規模、高質量、精確標注的交互式視頻數據集,限制了模型訓練與泛化能力。
- 計算資源開銷大:生成長視頻需頻繁去噪迭代,計算與內存開銷隨幀數增加呈二次增長,難以部署于流式交互場景。
提出的方案
- Matrix-Game 2.0 框架:一個專為實時交互視頻生成設計的世界模型,采用少步長自回歸擴散機制,支持分鐘級長視頻生成。
- 三大核心組件:
- 可擴展的數據生成流程:基于 Unreal Engine 和 GTA5,自動生成 ~1200 小時高質量、幀級標注的視頻數據;
- 動作注入模塊:將鼠標與鍵盤輸入作為幀級控制條件注入生成過程;
- 少步長因果蒸餾機制:將原始擴散模型蒸餾為高效的因果結構,提升推理速度與穩定性。
- Self-Forcing 蒸餾技術:引導模型自監督學習因果生成路徑,減少誤差累積。
- KV 緩存機制:提升生成效率,支持長序列視頻的快速推理。
應用的技術
- 視頻擴散 Transformer 架構:結合動作控制與圖像生成能力,適配交互式視頻任務。
- 因果性自回歸生成機制:通過少步長推理實現流式視頻生成,支持實時交互。
- 高效數據生成系統:
- Unreal Engine 場景下使用導航網格和四元數控制提升交互多樣性與精度;
- GTA5 場景中通過 Script Hook 工具實現視覺與控制信號的同步采集。
- 幀級動作注入與控制建模:實現用戶輸入與視頻幀的精準對齊,提升動作可控性。
達到的效果
- 高幀率生成:在單張 H100 GPU 上實現25 FPS的實時生成速度。
- 長時間一致性:支持分鐘級視頻生成,保持時間一致性與動作響應的穩定性。
- 強泛化能力:在超出訓練分布的復雜野外場景中表現穩健,具備良好的現實適應性。
- 開源共享:公開模型權重與代碼庫,推動交互式世界建模領域研究發展。

數據 Pipeline 開發
本文設計并實現了全面的數據生成pipeline,以支持 Matrix-Game 2.0 的大規模訓練。具體而言,本文的工作解決了兩個關鍵挑戰:
- 生成與鍵盤和攝像機信號標注精確對齊的游戲視頻數據;
- 引入基于碰撞感知導航規則和強化學習訓練智能體的交互式視頻采集機制,以更好地建模游戲中的動態交互行為。
為了實現實際部署,本文開發并整理了一個多樣化的數據生成pipeline,涵蓋來自 Unreal Engine 和 GTA5 模擬環境的靜態與動態場景。
基于 Unreal Engine 的數據生成
高性能交互視頻生成模型的開發需要大規模數據集,這些數據集應包含視覺內容與控制信號(如精確對齊的鍵盤輸入和攝像機參數)之間的精確同步。現有數據集通常缺乏游戲畫面與對應輸入之間的準確時間對齊,而本文基于 Unreal Engine 的pipeline通過受控的合成數據生成系統性地解決了這一問題。Unreal Engine 提供的精確環境控制與確定性渲染使其特別適合用于創建具有標注準確性保障的可擴展多模態訓練數據。
如下圖 3 所示,基于 Unreal Engine 的數據pipeline以導航網格和 3D 場景為輸入。系統隨后使用自動化的移動與攝像機控制模塊模擬智能體的導航行為和動態視角切換。最終生成的視覺數據及其對應的動作標注通過集成的 MP4 編碼器與 CSV 生成器進行記錄與導出。

本文系統的關鍵創新包括:
(1)基于導航網格的路徑規劃模塊,用于生成多樣化的軌跡;
(2)精確的系統輸入與攝像機控制機制,以確保動作與視角的準確對齊;
(3)結構化的后處理pipeline,用于高質量的數據整理。
以下是對每個組件的詳細描述。
基于導航網格的路徑規劃系統
為了增強生成訓練數據的真實感與行為多樣性,開發了一個基于導航網格的高級路徑規劃系統,支持非玩家角色(NPC)的動態與自適應移動。該系統支持實時、確定性的路徑規劃,這是生成可復現且高保真訓練數據的關鍵要求。
本文實現基于 Unreal Engine 原生的 NavMesh 基礎設施,并在此基礎上進行了路徑規劃優化,使平均查詢延遲降低至小于 2 毫秒。此外,系統在智能體行為中引入了受控的隨機性,允許在嚴格遵守邏輯導航約束的同時,展現出多樣化且上下文一致的移動模式。這一方法通過引入真實的智能體交互動態與移動軌跡,顯著提升了訓練語料的豐富性,從而增強了下游視頻生成模型的泛化能力。下圖 4 展示了一個導航示例,圖中的綠色區域表示智能體可自由移動的區域,防止其撞墻或被卡住。

強化學習增強的智能體訓練 為了進一步提升數據采集智能體的行為真實感與決策能力,本文在基于碰撞的導航規則基礎上集成了強化學習(RL)框架,采用典型的 RL 方法,如 Proximal Policy Optimization (PPO)。RL 智能體的訓練使用以下獎勵函數:


多線程pipeline加速。數據處理pipeline被重新設計以支持多線程執行,使得在單張 RTX 3090 GPU 上實現雙流數據生成。系統采用獨立的渲染線程與共享內存池相結合,以實現資源的高效利用。一些代表性的軌跡示例如下圖 5 所示,綠色線段表示智能體的路徑。在復雜場景中,也可以規劃出合理路徑。

GTA5 交互式數據采集系統
為了便于獲取豐富的交互式動態場景,在 GTA5 中開發了一個完整的錄制系統,采用 Script Hook 集成方式,實現了視覺內容與對應用戶操作的同步采集。
使用 Script Hook V 實現了一個自定義插件架構,在 GTA5 環境中建立了錄制pipeline。該插件可同時捕捉鼠標與鍵盤操作,并實現幀級同步。每條采集數據包含 RGB 幀及對應的鼠標和鍵盤操作。


為在載具導航模擬過程中獲得最佳視角,系統通過逐幀位置更新實現精確的攝像機對齊,在整個模擬過程中保持相對于載具的最佳一致視角。

基于車輛動力學,系統推斷并記錄相應的鍵盤輸入,從而生成包含速度、加速度和轉向角在內的完整且時間對齊的交互數據。
此外,開發了一個運行時系統,用于動態訪問導航網格信息,以支持智能攝像機定位與運動預測。該系統對導航網格數據結構進行查詢,以提取空間約束與可通行路徑,從而實現攝像機軌跡的最優規劃。導航網格查詢過程包括實時空間數據檢索與路徑驗證,以確保攝像機運動限制在可通行區域內,同時保持最佳視角以實現高效數據采集。
定量數據評估
本文通過數據篩選pipeline收集了超過 120 萬段視頻片段,在多個關鍵指標上表現出強健性能。數據總體準確率超過 99%,攝像機旋轉精度提升了 50 倍。此外,該pipeline支持每張 GPU 同時運行兩路數據流,有效地將生產效率提高了一倍。下圖 7 展示了一個代表性的軌跡示例。GTA5 的游戲環境復雜多樣,圖中的線條表示智能體的運動路徑。本文可以規劃合理路徑,以避免智能體發生碰撞或阻塞,從而有效提升數據的準確性。

方法
本節介紹 Matrix-Game 2.0 的整體架構與關鍵組件。首先,本文使用多樣化的數據集訓練基礎模型。隨后,介紹了本文將該基礎模型轉化為少步長自回歸擴散模型的蒸餾方法,從而在保持視覺質量的同時實現長視頻序列的實時生成。
基礎模型架構
本文提出了 Matrix-Game 2.0,這是一個面向視覺驅動世界建模的新框架,探索無需語言描述即可理解與生成世界的智能能力。在當代研究中,文本引導已成為控制的主導模態——例如 SORA、HunyuanVideo 和 Wan,均依賴文本描述進行生成。然而,這類方法往往引入語義先驗,使生成過程偏向語言推理而非物理規律,從而削弱模型對視覺世界基本屬性的理解能力。
相比之下,Matrix-Game 2.0 完全去除語言輸入,專注于從圖像中學習空間結構與動態模式。這種去語義化建模方法的靈感來源于“空間智能”概念,強調模型能力應源于對視覺與物理規律的直覺理解,而非抽象語義支架。
如下圖 8(a) 所示,Matrix-Game 2.0 以單張參考圖像與相應動作為輸入,生成物理合理的視頻。首先使用 3D Causal VAE 對原始視頻數據在空間與時間維度上進行壓縮——空間壓縮因子為8x8 ,時間壓縮因子為 4——以提升訓練效率與建模能力。圖像輸入由 3D VAE 編碼器與 CLIP 圖像編碼器編碼,作為條件輸入。在用戶提供的動作引導下,Diffusion Transformer(DiT)生成視覺 token 序列,隨后通過 3D VAE 解碼器解碼為視頻。

為了實現用戶與生成內容之間的交互,Matrix-Game 2.0 引入了動作模塊,以實現可控的視頻生成。受 GameFactory 和 Matrix-Game 控制設計范式的啟發,本文將幀級動作信號嵌入 DiT 模塊中,如上圖 8(b) 所示。注入的動作信號分為兩類:通過鍵盤輸入的離散移動動作,以及通過鼠標移動實現的連續視角動作。具體而言,連續鼠標動作會直接拼接到輸入的潛在表示中,經過一個 MLP 層后傳入時間自注意力層。此外,鍵盤動作通過融合特征在交叉注意力層中被查詢,從而實現精確的交互可控性。不同于 Matrix-Game,本文采用旋轉位置編碼(Rotary Positional Encoding, RoPE)替代添加到鍵盤輸入上的正余弦嵌入,以支持長視頻生成。
實時交互式自回歸視頻生成
不同于采用全序列擴散模型、僅支持固定長度生成的 Matrix-Game,本文開發了一種用于實時長視頻合成的自回歸擴散模型。本文的方法通過 Self-Forcing 將雙向基礎模型轉化為高效的自回歸變體,該方法通過將每一幀條件于之前自生成的輸出,而非真實標簽,從而解決了暴露偏差問題。這顯著減少了教師強制(Teacher Forcing)或擴散強制(Diffusion Forcing)方法中常見的誤差累積問題。





KV 緩存機制通過維護最近潛變量和動作嵌入的固定長度緩存,實現高效的序列生成。本文的滾動緩存實現通過在超出容量時自動逐出最舊的 token 來管理內存,支持無限長度生成。為了解決圖像到視頻場景中可能出現的訓練-推理差距(例如在長視頻推理過程中首幀可能被排除),本文限制 KV 緩存窗口大小。這迫使模型更多依賴其學習到的先驗知識和對輸入動作的理解進行生成,同時通過在訓練期間使初始幀對后續潛變量幀不可見來提升魯棒性。
實驗
實驗設置


數據集。 訓練數據集由前文中所述的數據生成流程構建,總計約 800 小時的帶動作標注的視頻,分辨率為 360p。數據包括 153 小時的 Minecraft 視頻數據和 615 小時的 Unreal Engine 數據,每個視頻片段被整理為 57 幀。對于真實世界場景,本文使用開源的 Sekai 數據集,在數據清洗后獲得了額外的 85 小時訓練數據。由于 Sekai 數據集中的環境導航速度和幀率與 Unreal Engine 場景不同,本文對 Sekai 數據進行了幀重采樣,以對齊時間動態和運動表現。為了驗證本文框架的通用性,本文進一步收集了 574 小時的 GTA 駕駛數據和 560 小時的 Temple Run 游戲數據,這些數據具有動態場景交互,用于額外微調。所有視頻被統一調整為352x640分辨率。
評估指標與基線。 本文使用 Matrix-Game 1.0 中提出的綜合性 GameWorld Score Benchmark 對本文的通用實時模型進行評估。該基準提供了一個多維度評估框架,涵蓋四個關鍵能力:視覺質量、時間一致性、動作可控性和物理規則理解。鑒于當前開源交互式世界模型的稀缺性,本文在兩個不同領域分別進行評估:Minecraft 和野外場景。在 Minecraft 環境中,本文將 Oasis 作為主要基線進行對比;而在更復雜的野外場景生成任務中,本文采用 YUME 作為對比模型。所有實驗均使用一個包含 597 幀的復合動作序列,在 32 個 Minecraft 場景和 16 個多樣化野外場景圖像上進行評估,以覆蓋多樣的交互條件。
生成結果
本文在多個領域對 Matrix-Game 2.0 與現有最先進基線模型進行了全面的定性與定量評估,包括 Minecraft 環境和野外場景中的長視頻生成,以及 GTA 駕駛場景和 Temple Run 游戲的生成可視化。
Minecraft 場景結果。 下圖 11 和下表 1 展示了 Matrix-Game 2.0 相較于 Oasis 的優越性能。Oasis 在幾十幀之后出現明顯的質量下降,而本文的模型在長時間生成過程中始終保持出色表現。定量指標顯示在大多數評估維度上都有顯著提升,盡管在場景一致性和動作平滑性上分數略低。本文認為這是由于 Oasis 在崩潰后傾向于生成靜態幀,從而人為提高了這些特定指標。

野外場景結果。 下圖 12 中本文與 YUME 的對比表明,Matrix-Game 2.0 在野外場景生成中具有強大的魯棒性。YUME 在幾百幀后出現明顯的偽影和顏色飽和問題,而本文的模型保持了穩定的風格一致性。此外,YUME 的生成速度較慢,難以直接應用于交互式世界建模。下表 2 顯示了定量結果。由于 GameWorld Score Benchmark 中的動作可控性評估專為 Minecraft 設計,不能直接應用于野外場景。實證結果表明,YUME 在跨領域場景中動作控制性能顯著下降,而本文的方法保持了穩健的可控性。YUME 在崩潰后生成的內容趨于靜態,這也可能導致其在對象一致性和場景一致性方面得分較高。

更多定性結果。 下圖 13 展示了 Matrix-Game 2.0 在長視頻生成中的卓越能力,幾乎無質量下降。模型在 GTA 駕駛場景(下圖 14)和 Temple Run 游戲(下圖 15)中的出色表現進一步證明了其強大的領域適應性,展現出其作為世界建模基礎框架的潛力。


消融實驗
不同的 KV-cache 本地大小。 KV-cache 機制在 Matrix-Game 2.0 的自回歸生成過程中對保持上下文信息起著關鍵作用。本文的研究揭示了緩存大小選擇中的一個重要權衡:盡管更大的緩存(9 個潛在幀)在理論上可以提供更豐富的歷史上下文,但它們反而更早地產生視覺偽影(下圖 16)。對比分析顯示,采用 6 幀緩存的模型在長期生成質量方面表現更佳,顯著減少了失真和退化偽影。本文將這一現象歸因于模型在生成過程中對緩存信息的過度依賴。隨著緩存尺寸的增大,模型越來越依賴已存儲的緩存,而不是通過自身學習能力主動糾正累積誤差。這會產生一個復合效應,即早期幀中的偽影通過緩存機制被更強地記憶,并最終被當作有效的場景元素處理。本文的實證研究表明,適中的緩存大小(6 幀)在上下文保持與誤差糾正能力之間提供了良好平衡。

加速技術的對比分析。 為實現 25 FPS 的實時生成,本文通過若干關鍵改進系統性地優化了擴散模型與 VAE 組件。首先,本文將高效的 Wan2.1-VAE 架構與緩存機制整合,顯著加快了長視頻序列的解碼過程。其次,本文策略性地僅在 DiT 模塊的前半部分使用動作模塊,并在蒸餾過程中將去噪步驟從 4 步減少到 3 步。下表 3 中展示了定量對比結果。表 3 中的定量對比結果表明,這些加速策略能夠在保持生成質量的同時實現 25 FPS,從而達成最優的速度-質量權衡。

結論
Matrix-Game 2.0 通過精心構建的數據流程與有效的訓練框架,在實時交互式視頻生成方面實現了重大突破。首先,開發了一個全面的數據生成流程,克服了以往在獲取高質量交互場景訓練數據方面的限制。基于 Unreal Engine 的系統性流程,加之在 GTA5 環境中驗證的視頻錄制框架,為可擴展生產高保真動作標注視頻數據樹立了新標準。
其次,提出了一個結合動作調控與基于 Self-Forcing 蒸餾的自回歸擴散框架。該方法有效緩解了長期視頻合成中傳統存在的誤差累積問題,同時保持了實時性能。通過對擴散過程與 VAE 架構的系統性優化,實現了25 FPS的生成速度,支持無縫的人類參與式交互。
本文轉自AI生成未來 ,作者:AI生成未來

















