LeCun預(yù)言成真!790年長視頻,煉出最強(qiáng)開源「世界模型」
2025年,「世界模型」成為了AI巨頭們廝殺的戰(zhàn)場。
谷歌發(fā)布的Genie 3,一句話即可生成一個720p實(shí)時模擬的新世界。甚至,網(wǎng)友將其稱之為「游戲引擎2.0時代」。
李飛飛World Labs團(tuán)隊也推出了一款實(shí)時生成世界模型——RTFM,僅用一塊H100渲染出3D世界。

此外,還有Meta FAIR打造的「代碼世界模型」(CWM)、Runway的「通用世界模型」(GWM)、特斯拉的神經(jīng)網(wǎng)絡(luò)模擬器等,AI界玩家們都在積極布局。
尤其是,多模態(tài)領(lǐng)域的「世界模型」,成為了他們加碼的核心點(diǎn)。

一直以來,李飛飛、LeCun等站隊「世界模型」AI大佬們認(rèn)為,僅憑語言,AI是無法復(fù)制人類智能,還需要理解和模擬物理解釋。
世界模型,便是終極答案。它可以模仿人類對周圍環(huán)境形成的「心智模型」來預(yù)測世界。
就在上周,人工智能領(lǐng)域再次迎來一枚深水炸彈。
北京智源研究院(BAAI)正式發(fā)布了其悟界·Emu系列的最新成果——Emu3.5。

在技術(shù)交流會上,智源研究院院長王仲遠(yuǎn)博士將其定位為「開啟多模態(tài)世界大模型新紀(jì)元」的里程碑。
「并不一定所有的大模型技術(shù)路線都要完全跟隨別人已經(jīng)走過的路,我們自己也在開創(chuàng)一些新的技術(shù)路徑。」王仲遠(yuǎn)表示,「Emu系列是我們自己走出來的技術(shù)路線,我們是引領(lǐng)性的。」
與當(dāng)前主流的、將理解與生成分開處理的「模塊拼接式」多模態(tài)模型(如LLM+CLIP及DiT架構(gòu))不同,Emu3.5回歸「第一性原理」,像人類一樣從連續(xù)、長時程的視覺經(jīng)驗(yàn)中學(xué)習(xí),用統(tǒng)一的自回歸架構(gòu)實(shí)現(xiàn)了對多模態(tài)世界的原生理解與生成。
「通過悟界·Emu3,我們驗(yàn)證了自回歸架構(gòu)實(shí)現(xiàn)多模態(tài)理解與生成大一統(tǒng)的可行性,」王仲遠(yuǎn)表示,「從Emu3到Emu3.5,我們證明了多模態(tài)也存在一個Scaling的范式。」
這個340億參數(shù)的模型,在長文本渲染、復(fù)雜圖像編輯、視覺故事生成等多個維度上,其表現(xiàn)足以讓業(yè)界驚嘆「Wow」。更重要的是,它所展現(xiàn)出的對物理世界動態(tài)、因果、時空、邏輯的深刻理解,預(yù)示著AI正加速從數(shù)字世界邁向物理世界。
智源公開了長達(dá)45頁的詳盡技術(shù)報告,將其數(shù)據(jù)處理、模型架構(gòu)、訓(xùn)練方式、推理加速等技術(shù)細(xì)節(jié)全盤托出。
圖片
項目主頁:https://zh.emu.world
技術(shù)報告:https://arxiv.org/pdf/2510.26583
這背后,是智源對「引領(lǐng)人工智能原始創(chuàng)新」的堅持,也是對未來技術(shù)路線的自信。
悟界·Emu3.5為當(dāng)前全球大模型競賽中的幾個根本性問題,提供了一條來自中國的、邏輯自洽且潛力巨大的原創(chuàng)解法:
- 多模態(tài)應(yīng)該如何統(tǒng)一?——通過原生的、端到端的自回歸「Next-State Prediction」范式
- 世界模型應(yīng)該學(xué)習(xí)什么?——學(xué)習(xí)蘊(yùn)含了長時程、高一致性等世界知識的長視頻數(shù)據(jù)
- 如何實(shí)現(xiàn)規(guī)模化?——借助「預(yù)訓(xùn)練+多模態(tài)RL」的第三種Scaling范式,復(fù)用現(xiàn)有LLM基礎(chǔ)設(shè)施
- 如何落地?——通過DiDA等推理加速技術(shù),解決效率瓶頸
第一性原理,像人一樣學(xué)習(xí),從Next-Token到Next-State
「人類的學(xué)習(xí),不是從文本學(xué)習(xí)開始的。」王仲遠(yuǎn)在發(fā)布會上反復(fù)強(qiáng)調(diào)這個觀點(diǎn)。
嬰兒睜開眼,首先感知的是視覺世界,通過觀察、交互,逐步理解物理規(guī)律、因果關(guān)系。語言是在這個基礎(chǔ)上發(fā)展起來的、用于溝通和泛化的工具。
當(dāng)前的大語言模型(LLM)在耗盡互聯(lián)網(wǎng)文本數(shù)據(jù)后,增長已顯疲態(tài)。而多模態(tài)領(lǐng)域,技術(shù)路線尚未收斂。主流的視頻和圖像生成模型,如Sora、Nano Banana,大多采用Diffusion Transformer(DiT)等混合架構(gòu),本質(zhì)上仍是「拼裝」——理解和生成模塊分離,難以實(shí)現(xiàn)真正的、統(tǒng)一的智能。
Emu系列從誕生之初,就選擇了另一條更艱難但更本質(zhì)的道路:原生多模態(tài)。
Emu3.5繼承并極大地發(fā)展了這一理念。它采用了一個極其簡潔但強(qiáng)大的統(tǒng)一范式:預(yù)測下一個狀態(tài)(Next-State Prediction)。
與LLM預(yù)測下一個文本Token類似,Emu3.5將圖像、文本、乃至動作指令都「Token化」,置于一個統(tǒng)一的序列中,然后用一個單一的、端到端的自回歸Transformer模型來預(yù)測序列中的下一個Token。
這個「Token」可以是一段文字描述,也可以是構(gòu)成圖像的一個「視覺詞塊」,甚至可以是一個指導(dǎo)機(jī)器人手臂運(yùn)動的指令。
這種架構(gòu)的優(yōu)越性是顯而易見的:
- 統(tǒng)一性:它徹底打破了理解與生成的壁壘。模型在生成圖像時,是基于對上下文(包括之前的圖像和文字)的深刻理解。
- 可擴(kuò)展性:它能完美復(fù)用為LLM構(gòu)建的、已極其成熟的訓(xùn)練、推理和強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施。這意味著,所有在LLM上驗(yàn)證過的Scaling Law和優(yōu)化技術(shù),理論上都可以在Emu3.5上「再來一遍」。
「我們終于可以在多模態(tài)大模型上實(shí)現(xiàn)Scaling up了。」王仲遠(yuǎn)對此充滿信心。
第三種Scaling范式,790年長視頻數(shù)據(jù)與大規(guī)模多模態(tài)RL
如果說統(tǒng)一的架構(gòu)是骨架,那么海量且高質(zhì)量的數(shù)據(jù)就是血肉。
Emu3.5的訓(xùn)練數(shù)據(jù)量堪稱恐怖:超過13萬億多模態(tài)Token。
其核心,不再是短視頻剪輯或靜態(tài)的圖文對,而是累計時長達(dá)790年的互聯(lián)網(wǎng)長視頻,涵蓋了紀(jì)錄片、教學(xué)視頻、Vlog、游戲動畫等。
「長視頻里有語音、有交互的文本,它有一個長的上下文,有一致性。」Emu系列研發(fā)負(fù)責(zé)人王鑫龍解釋道。相比孤立的數(shù)據(jù)點(diǎn),長視頻天然蘊(yùn)含了豐富的時空連續(xù)性、因果邏輯和上下文一致性,是學(xué)習(xí)世界模型的絕佳養(yǎng)料。
為了消化這些海量數(shù)據(jù),智源團(tuán)隊構(gòu)建了一套復(fù)雜的自動化數(shù)據(jù)處理流水線,包括場景分割、語音轉(zhuǎn)文字(ASR)、關(guān)鍵幀提取、質(zhì)量評估、冗余去除和多模態(tài)摘要生成等。
在訓(xùn)練上,Emu3.5的路徑清晰而堅定:
- 大規(guī)模預(yù)訓(xùn)練
在超過10萬億Token上進(jìn)行第一階段預(yù)訓(xùn)練,讓模型學(xué)會基礎(chǔ)的多模態(tài)對齊和生成能力。整個訓(xùn)練過程「非常穩(wěn)定」,在多個未見過的下游任務(wù)驗(yàn)證集上,損失函數(shù)隨著算力投入穩(wěn)步下降,這正是「Scaling范式」存在的有力證據(jù)。
- 大規(guī)模多模態(tài)強(qiáng)化學(xué)習(xí)(RL)
這是Emu3.5的另一大創(chuàng)舉。眾所周知,強(qiáng)化學(xué)習(xí)是激發(fā)LLM(如GPT-4o、DeepSeek-R1)推理和遵循指令能力的關(guān)鍵。但將其應(yīng)用于更復(fù)雜、序列更長的多模態(tài)領(lǐng)域,困難重重。
得益于統(tǒng)一的自回歸架構(gòu),Emu3.5首次實(shí)現(xiàn)了統(tǒng)一多任務(wù)、多模態(tài)的強(qiáng)化學(xué)習(xí)。團(tuán)隊構(gòu)建了一個包含通用獎勵(如美學(xué)、圖文一致性)和任務(wù)特定獎勵(如OCR準(zhǔn)確率、人臉I(yè)D保持)的復(fù)雜獎勵系統(tǒng),通過GRPO算法,在統(tǒng)一的獎勵空間內(nèi)進(jìn)行優(yōu)化。
圖片
這套「大規(guī)模長視頻預(yù)訓(xùn)練 + 大規(guī)模多模態(tài)RL」的組合拳,被王仲遠(yuǎn)稱為繼語言模型預(yù)訓(xùn)練、后訓(xùn)練之后的「第三種Scaling范式」。它指明了一條道路:通過不斷增加視頻數(shù)據(jù)、模型參數(shù)和算力,多模態(tài)世界模型的能力將可預(yù)見地持續(xù)提升。
黑科技DiDA,自回歸模型推理飆升20倍
自回歸模型「一個Token一個Token」的生成方式,導(dǎo)致其在生成高清圖像(通常一張圖就需要數(shù)千個Token)時速度很慢。這也是為什么Diffusion模型在生成領(lǐng)域長期占據(jù)主導(dǎo)地位。
為了攻克這一難題,Emu3.5團(tuán)隊研發(fā)了名為離散擴(kuò)散自適應(yīng)(Discrete Diffusion Adaptation, DiDA)的黑科技。
DiDA的核心思想是,在模型完成大規(guī)模的自回歸預(yù)訓(xùn)練和后訓(xùn)練之后,通過一個輕量級的「適應(yīng)」階段,將其從「逐個Token預(yù)測」的模式,轉(zhuǎn)換為「并行生成」的模式。
圖片
具體來說,它借鑒了離散擴(kuò)散的思想,將圖像生成過程變成一個「去噪」過程:模型不再是從左到右生成,而是一次性生成所有「帶噪聲」的視覺Token,然后在幾個步驟內(nèi)并行地、雙向地修正它們,最終恢復(fù)出清晰的圖像。
效果如何?每張圖片的推理速度提升約20倍,且?guī)缀鯖]有性能損失!
這意味著,Emu3.5的自回歸模型,在推理效率上首次能夠與頂級的閉源Diffusion模型(如Midjourney)相媲美。這不僅是工程上的巨大勝利,更從根本上解決了原生多模態(tài)架構(gòu)的商業(yè)化落地瓶頸。
從圖像編輯到具身操作,開源最優(yōu)
理論的先進(jìn)性最終要靠效果說話。Emu3.5交出的答卷,足以讓任何從業(yè)者感到興奮。
- 頂級的Any-to-Image生成與編輯:
Emu3.5不僅能生成帶有復(fù)雜公式、中英文對聯(lián)的高質(zhì)量圖片,其圖像編輯能力更是達(dá)到了新的高度。在ImgEdit、GEdit-Bench等權(quán)威benchmarks上,Emu3.5的得分全面超越了包括Gemini 1.5 Flash、Qwen-VL-Max在內(nèi)的所有公開模型。
- 高層語義理解:將指定的人物、特定的場景和任意物品進(jìn)行組合,Emu3.5可以創(chuàng)作出一個符合邏輯的全新世界,展現(xiàn)了其強(qiáng)大的想象力和世界構(gòu)建能力。
圖片
圖片
- 數(shù)字與空間理解:指令「將圖片中標(biāo)號為4的物體換成電影海報」,模型能精準(zhǔn)定位并替換。
圖片
- 視角變換:給定一張建筑正面圖,指令「切換到俯視圖」,模型能像擁有3D建模能力一樣,合理地生成新視角。
圖片
- 長時序、高一致性的「世界學(xué)習(xí)」能力:
這部分能力,是Emu3.5作為「世界模型」的核心體現(xiàn),也是它與其他生成模型拉開代差的地方。在與Gemini 2.5 Flash Image的并列生成對比中,Emu3.5在視覺敘事、視覺指導(dǎo)、世界探索和具身操作等任務(wù)上的勝率均顯著更高。
視覺敘事(Visual Narrative):給定一個主題,Emu3.5能生成一系列圖文并茂、情節(jié)連貫、主角形象高度一致的繪本故事。這得益于其長序列建模能力,解決了傳統(tǒng)模型生成多圖時「張張換人」的痛點(diǎn)
給圖里的寶寶寫個故事,要講他夏天晚上和螢火蟲玩
視覺指導(dǎo)(Visual Guidance):如何倒水?如何疊衣服?Emu3.5能像一本活的說明書,通過「圖片+文字」的步驟,清晰地展示一個任務(wù)的全過程
模型輸出結(jié)果:如何用黏土和顏料手工制作一個宇航員模型
模型輸出結(jié)果:如何從種子開始種羽衣甘藍(lán)?
- 世界探索(World Exploration):
用戶可以用文字定義一個場景,如「一個陽光明媚的現(xiàn)代客廳」,然后通過「向左轉(zhuǎn)」、「向前走」等指令,模型會生成符合邏輯的、連續(xù)的探索畫面,仿佛置身于一個可交互的虛擬世界。這部分前面的視頻已經(jīng)展示了。
- 具身操作(Embodied Manipulation):
這是Emu3.5最具想象力的應(yīng)用之一。給定一個任務(wù),如「用松靈機(jī)械臂把桌面收拾好,12 步完成」,模型能生成一個包含12個步驟的、由松靈機(jī)器人手臂執(zhí)行的圖文序列。它不僅規(guī)劃了子任務(wù),還生成了每個關(guān)鍵步驟的視覺狀態(tài)。這為解決具身智能領(lǐng)域「數(shù)據(jù)稀缺」的痛點(diǎn)提供了全新的思路——用世界模型生成海量的、泛化的仿真數(shù)據(jù)。

智源研究院不僅發(fā)布了模型,更公開了詳盡的技術(shù)報告。這種開放的姿態(tài),旨在邀請全球社區(qū)共同探索這條由中國開創(chuàng)的新路。「我們希望這條路后續(xù)成為主流的路。」王仲遠(yuǎn)說,「登珠穆朗瑪峰南坡和北坡也許都可以登頂,我們希望我們走的是大家認(rèn)可的一條路。」
Emu3.5的參數(shù)僅為340億,使用的視頻數(shù)據(jù)不到互聯(lián)網(wǎng)公開數(shù)據(jù)的1%。它的能力上限,遠(yuǎn)未觸及。
未來隨著模型規(guī)模、數(shù)據(jù)規(guī)模的進(jìn)一步擴(kuò)大,這個「世界模型基座」還將帶來怎樣的驚喜,我們拭目以待。
參考資料:




































