LeCun預(yù)言成真！790年長視頻，煉出最強(qiáng)開源「世界模型」

作者：新智元 2025-11-03 17:29:54

人工智能

AI第三種Scaling范式來臨！多模態(tài)原生世界模型Emu3.5出世，340億參數(shù)，基于790年長視頻數(shù)據(jù)完成訓(xùn)練。即生3D世界，每張圖片推理速度飆升20倍。

2025年，「世界模型」成為了AI巨頭們廝殺的戰(zhàn)場。

谷歌發(fā)布的Genie 3，一句話即可生成一個720p實(shí)時模擬的新世界。甚至，網(wǎng)友將其稱之為「游戲引擎2.0時代」。

李飛飛World Labs團(tuán)隊也推出了一款實(shí)時生成世界模型——RTFM，僅用一塊H100渲染出3D世界。

此外，還有Meta FAIR打造的「代碼世界模型」（CWM）、Runway的「通用世界模型」（GWM）、特斯拉的神經(jīng)網(wǎng)絡(luò)模擬器等，AI界玩家們都在積極布局。

尤其是，多模態(tài)領(lǐng)域的「世界模型」，成為了他們加碼的核心點(diǎn)。

一直以來，李飛飛、LeCun等站隊「世界模型」AI大佬們認(rèn)為，僅憑語言，AI是無法復(fù)制人類智能，還需要理解和模擬物理解釋。

世界模型，便是終極答案。它可以模仿人類對周圍環(huán)境形成的「心智模型」來預(yù)測世界。

就在上周，人工智能領(lǐng)域再次迎來一枚深水炸彈。

北京智源研究院（BAAI）正式發(fā)布了其悟界·Emu系列的最新成果——Emu3.5。

在技術(shù)交流會上，智源研究院院長王仲遠(yuǎn)博士將其定位為「開啟多模態(tài)世界大模型新紀(jì)元」的里程碑。

「并不一定所有的大模型技術(shù)路線都要完全跟隨別人已經(jīng)走過的路，我們自己也在開創(chuàng)一些新的技術(shù)路徑。」王仲遠(yuǎn)表示，「Emu系列是我們自己走出來的技術(shù)路線，我們是引領(lǐng)性的。」

與當(dāng)前主流的、將理解與生成分開處理的「模塊拼接式」多模態(tài)模型（如LLM+CLIP及DiT架構(gòu)）不同，Emu3.5回歸「第一性原理」，像人類一樣從連續(xù)、長時程的視覺經(jīng)驗(yàn)中學(xué)習(xí)，用統(tǒng)一的自回歸架構(gòu)實(shí)現(xiàn)了對多模態(tài)世界的原生理解與生成。

「通過悟界·Emu3，我們驗(yàn)證了自回歸架構(gòu)實(shí)現(xiàn)多模態(tài)理解與生成大一統(tǒng)的可行性，」王仲遠(yuǎn)表示，「從Emu3到Emu3.5，我們證明了多模態(tài)也存在一個Scaling的范式。」

這個340億參數(shù)的模型，在長文本渲染、復(fù)雜圖像編輯、視覺故事生成等多個維度上，其表現(xiàn)足以讓業(yè)界驚嘆「Wow」。更重要的是，它所展現(xiàn)出的對物理世界動態(tài)、因果、時空、邏輯的深刻理解，預(yù)示著AI正加速從數(shù)字世界邁向物理世界。

智源公開了長達(dá)45頁的詳盡技術(shù)報告，將其數(shù)據(jù)處理、模型架構(gòu)、訓(xùn)練方式、推理加速等技術(shù)細(xì)節(jié)全盤托出。

圖片

項目主頁：https://zh.emu.world

技術(shù)報告：https://arxiv.org/pdf/2510.26583

這背后，是智源對「引領(lǐng)人工智能原始創(chuàng)新」的堅持，也是對未來技術(shù)路線的自信。

悟界·Emu3.5為當(dāng)前全球大模型競賽中的幾個根本性問題，提供了一條來自中國的、邏輯自洽且潛力巨大的原創(chuàng)解法：

多模態(tài)應(yīng)該如何統(tǒng)一？——通過原生的、端到端的自回歸「Next-State Prediction」范式
世界模型應(yīng)該學(xué)習(xí)什么？——學(xué)習(xí)蘊(yùn)含了長時程、高一致性等世界知識的長視頻數(shù)據(jù)
如何實(shí)現(xiàn)規(guī)模化？——借助「預(yù)訓(xùn)練+多模態(tài)RL」的第三種Scaling范式，復(fù)用現(xiàn)有LLM基礎(chǔ)設(shè)施
如何落地？——通過DiDA等推理加速技術(shù)，解決效率瓶頸

第一性原理，像人一樣學(xué)習(xí)，從Next-Token到Next-State

「人類的學(xué)習(xí)，不是從文本學(xué)習(xí)開始的。」王仲遠(yuǎn)在發(fā)布會上反復(fù)強(qiáng)調(diào)這個觀點(diǎn)。

嬰兒睜開眼，首先感知的是視覺世界，通過觀察、交互，逐步理解物理規(guī)律、因果關(guān)系。語言是在這個基礎(chǔ)上發(fā)展起來的、用于溝通和泛化的工具。

當(dāng)前的大語言模型（LLM）在耗盡互聯(lián)網(wǎng)文本數(shù)據(jù)后，增長已顯疲態(tài)。而多模態(tài)領(lǐng)域，技術(shù)路線尚未收斂。主流的視頻和圖像生成模型，如Sora、Nano Banana，大多采用Diffusion Transformer（DiT）等混合架構(gòu)，本質(zhì)上仍是「拼裝」——理解和生成模塊分離，難以實(shí)現(xiàn)真正的、統(tǒng)一的智能。

Emu系列從誕生之初，就選擇了另一條更艱難但更本質(zhì)的道路：原生多模態(tài)。

Emu3.5繼承并極大地發(fā)展了這一理念。它采用了一個極其簡潔但強(qiáng)大的統(tǒng)一范式：預(yù)測下一個狀態(tài)（Next-State Prediction）。

與LLM預(yù)測下一個文本Token類似，Emu3.5將圖像、文本、乃至動作指令都「Token化」，置于一個統(tǒng)一的序列中，然后用一個單一的、端到端的自回歸Transformer模型來預(yù)測序列中的下一個Token。

這個「Token」可以是一段文字描述，也可以是構(gòu)成圖像的一個「視覺詞塊」，甚至可以是一個指導(dǎo)機(jī)器人手臂運(yùn)動的指令。

這種架構(gòu)的優(yōu)越性是顯而易見的：

統(tǒng)一性：它徹底打破了理解與生成的壁壘。模型在生成圖像時，是基于對上下文（包括之前的圖像和文字）的深刻理解。
可擴(kuò)展性：它能完美復(fù)用為LLM構(gòu)建的、已極其成熟的訓(xùn)練、推理和強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施。這意味著，所有在LLM上驗(yàn)證過的Scaling Law和優(yōu)化技術(shù)，理論上都可以在Emu3.5上「再來一遍」。

「我們終于可以在多模態(tài)大模型上實(shí)現(xiàn)Scaling up了。」王仲遠(yuǎn)對此充滿信心。

第三種Scaling范式，790年長視頻數(shù)據(jù)與大規(guī)模多模態(tài)RL

如果說統(tǒng)一的架構(gòu)是骨架，那么海量且高質(zhì)量的數(shù)據(jù)就是血肉。

Emu3.5的訓(xùn)練數(shù)據(jù)量堪稱恐怖：超過13萬億多模態(tài)Token。

其核心，不再是短視頻剪輯或靜態(tài)的圖文對，而是累計時長達(dá)790年的互聯(lián)網(wǎng)長視頻，涵蓋了紀(jì)錄片、教學(xué)視頻、Vlog、游戲動畫等。

「長視頻里有語音、有交互的文本，它有一個長的上下文，有一致性。」Emu系列研發(fā)負(fù)責(zé)人王鑫龍解釋道。相比孤立的數(shù)據(jù)點(diǎn)，長視頻天然蘊(yùn)含了豐富的時空連續(xù)性、因果邏輯和上下文一致性，是學(xué)習(xí)世界模型的絕佳養(yǎng)料。

為了消化這些海量數(shù)據(jù)，智源團(tuán)隊構(gòu)建了一套復(fù)雜的自動化數(shù)據(jù)處理流水線，包括場景分割、語音轉(zhuǎn)文字（ASR）、關(guān)鍵幀提取、質(zhì)量評估、冗余去除和多模態(tài)摘要生成等。

在訓(xùn)練上，Emu3.5的路徑清晰而堅定：

大規(guī)模預(yù)訓(xùn)練

在超過10萬億Token上進(jìn)行第一階段預(yù)訓(xùn)練，讓模型學(xué)會基礎(chǔ)的多模態(tài)對齊和生成能力。整個訓(xùn)練過程「非常穩(wěn)定」，在多個未見過的下游任務(wù)驗(yàn)證集上，損失函數(shù)隨著算力投入穩(wěn)步下降，這正是「Scaling范式」存在的有力證據(jù)。

大規(guī)模多模態(tài)強(qiáng)化學(xué)習(xí)（RL）

這是Emu3.5的另一大創(chuàng)舉。眾所周知，強(qiáng)化學(xué)習(xí)是激發(fā)LLM（如GPT-4o、DeepSeek-R1）推理和遵循指令能力的關(guān)鍵。但將其應(yīng)用于更復(fù)雜、序列更長的多模態(tài)領(lǐng)域，困難重重。

得益于統(tǒng)一的自回歸架構(gòu)，Emu3.5首次實(shí)現(xiàn)了統(tǒng)一多任務(wù)、多模態(tài)的強(qiáng)化學(xué)習(xí)。團(tuán)隊構(gòu)建了一個包含通用獎勵（如美學(xué)、圖文一致性）和任務(wù)特定獎勵（如OCR準(zhǔn)確率、人臉I(yè)D保持）的復(fù)雜獎勵系統(tǒng)，通過GRPO算法，在統(tǒng)一的獎勵空間內(nèi)進(jìn)行優(yōu)化。

圖片

這套「大規(guī)模長視頻預(yù)訓(xùn)練 + 大規(guī)模多模態(tài)RL」的組合拳，被王仲遠(yuǎn)稱為繼語言模型預(yù)訓(xùn)練、后訓(xùn)練之后的「第三種Scaling范式」。它指明了一條道路：通過不斷增加視頻數(shù)據(jù)、模型參數(shù)和算力，多模態(tài)世界模型的能力將可預(yù)見地持續(xù)提升。

黑科技DiDA，自回歸模型推理飆升20倍

自回歸模型「一個Token一個Token」的生成方式，導(dǎo)致其在生成高清圖像（通常一張圖就需要數(shù)千個Token）時速度很慢。這也是為什么Diffusion模型在生成領(lǐng)域長期占據(jù)主導(dǎo)地位。

為了攻克這一難題，Emu3.5團(tuán)隊研發(fā)了名為離散擴(kuò)散自適應(yīng)（Discrete Diffusion Adaptation, DiDA）的黑科技。

DiDA的核心思想是，在模型完成大規(guī)模的自回歸預(yù)訓(xùn)練和后訓(xùn)練之后，通過一個輕量級的「適應(yīng)」階段，將其從「逐個Token預(yù)測」的模式，轉(zhuǎn)換為「并行生成」的模式。

圖片

具體來說，它借鑒了離散擴(kuò)散的思想，將圖像生成過程變成一個「去噪」過程：模型不再是從左到右生成，而是一次性生成所有「帶噪聲」的視覺Token，然后在幾個步驟內(nèi)并行地、雙向地修正它們，最終恢復(fù)出清晰的圖像。

效果如何？每張圖片的推理速度提升約20倍，且?guī)缀鯖]有性能損失！

這意味著，Emu3.5的自回歸模型，在推理效率上首次能夠與頂級的閉源Diffusion模型（如Midjourney）相媲美。這不僅是工程上的巨大勝利，更從根本上解決了原生多模態(tài)架構(gòu)的商業(yè)化落地瓶頸。

從圖像編輯到具身操作，開源最優(yōu)

理論的先進(jìn)性最終要靠效果說話。Emu3.5交出的答卷，足以讓任何從業(yè)者感到興奮。

頂級的Any-to-Image生成與編輯：

Emu3.5不僅能生成帶有復(fù)雜公式、中英文對聯(lián)的高質(zhì)量圖片，其圖像編輯能力更是達(dá)到了新的高度。在ImgEdit、GEdit-Bench等權(quán)威benchmarks上，Emu3.5的得分全面超越了包括Gemini 1.5 Flash、Qwen-VL-Max在內(nèi)的所有公開模型。

高層語義理解：將指定的人物、特定的場景和任意物品進(jìn)行組合，Emu3.5可以創(chuàng)作出一個符合邏輯的全新世界，展現(xiàn)了其強(qiáng)大的想象力和世界構(gòu)建能力。

圖片

數(shù)字與空間理解：指令「將圖片中標(biāo)號為4的物體換成電影海報」，模型能精準(zhǔn)定位并替換。

圖片

視角變換：給定一張建筑正面圖，指令「切換到俯視圖」，模型能像擁有3D建模能力一樣，合理地生成新視角。

圖片

長時序、高一致性的「世界學(xué)習(xí)」能力：

這部分能力，是Emu3.5作為「世界模型」的核心體現(xiàn)，也是它與其他生成模型拉開代差的地方。在與Gemini 2.5 Flash Image的并列生成對比中，Emu3.5在視覺敘事、視覺指導(dǎo)、世界探索和具身操作等任務(wù)上的勝率均顯著更高。

視覺敘事（Visual Narrative）：給定一個主題，Emu3.5能生成一系列圖文并茂、情節(jié)連貫、主角形象高度一致的繪本故事。這得益于其長序列建模能力，解決了傳統(tǒng)模型生成多圖時「張張換人」的痛點(diǎn)

給圖里的寶寶寫個故事，要講他夏天晚上和螢火蟲玩

視覺指導(dǎo)（Visual Guidance）：如何倒水？如何疊衣服？Emu3.5能像一本活的說明書，通過「圖片+文字」的步驟，清晰地展示一個任務(wù)的全過程

模型輸出結(jié)果：如何用黏土和顏料手工制作一個宇航員模型

模型輸出結(jié)果：如何從種子開始種羽衣甘藍(lán)？

世界探索（World Exploration）：

用戶可以用文字定義一個場景，如「一個陽光明媚的現(xiàn)代客廳」，然后通過「向左轉(zhuǎn)」、「向前走」等指令，模型會生成符合邏輯的、連續(xù)的探索畫面，仿佛置身于一個可交互的虛擬世界。這部分前面的視頻已經(jīng)展示了。

具身操作（Embodied Manipulation）：

這是Emu3.5最具想象力的應(yīng)用之一。給定一個任務(wù)，如「用松靈機(jī)械臂把桌面收拾好，12 步完成」，模型能生成一個包含12個步驟的、由松靈機(jī)器人手臂執(zhí)行的圖文序列。它不僅規(guī)劃了子任務(wù)，還生成了每個關(guān)鍵步驟的視覺狀態(tài)。這為解決具身智能領(lǐng)域「數(shù)據(jù)稀缺」的痛點(diǎn)提供了全新的思路——用世界模型生成海量的、泛化的仿真數(shù)據(jù)。

智源研究院不僅發(fā)布了模型，更公開了詳盡的技術(shù)報告。這種開放的姿態(tài)，旨在邀請全球社區(qū)共同探索這條由中國開創(chuàng)的新路。「我們希望這條路后續(xù)成為主流的路。」王仲遠(yuǎn)說，「登珠穆朗瑪峰南坡和北坡也許都可以登頂，我們希望我們走的是大家認(rèn)可的一條路。」

Emu3.5的參數(shù)僅為340億，使用的視頻數(shù)據(jù)不到互聯(lián)網(wǎng)公開數(shù)據(jù)的1%。它的能力上限，遠(yuǎn)未觸及。

未來隨著模型規(guī)模、數(shù)據(jù)規(guī)模的進(jìn)一步擴(kuò)大，這個「世界模型基座」還將帶來怎樣的驚喜，我們拭目以待。

參考資料：

https://zh.emu.world/

https://arxiv.org/pdf/2510.26583

責(zé)任編輯：武曉燕來源：新智元