Emu3.5:能夠原生預測下一狀態的多模態世界模型,媲美Nano Banana
Emu3.5是由北京智源研究院剛剛推出的大規模多模態世界模型,原生就能預測視覺和語言的下一個狀態。它用統一的下一token預測目標進行端到端預訓練,訓練數據包含超過10萬億token,主要來自互聯網視頻的連續幀和轉錄文本。

這個模型天然接受交錯的視覺-語言輸入,生成交錯的視覺-語言輸出。之后還用大規模強化學習進行后訓練,增強多模態推理和生成能力。

為了提高推理效率,團隊提出了離散擴散適配(DiDA),把逐token解碼轉換成雙向并行預測,每張圖像的推理速度提升約20倍,性能還不打折。
Emu3.5展示了強大的原生多模態能力,包括長程視覺-語言生成、任意到圖像(X2I)生成、復雜文本圖像生成。它還表現出可泛化的世界建模能力,能在不同場景和任務中實現時空一致的世界探索和開放世界具身操作。

在圖像生成和編輯任務上,Emu3.5達到了與Gemini 2.5 Flash Image(Nano Banana)相當的性能,在一系列交錯生成任務上表現更優。
項目已經開源,代碼和模型權重可在GitHub獲取。
實際能做什么
分步驟視覺指導:比如教你如何用粘土和顏料雕刻火星探險者人偶,從準備材料到上色密封,每一步都有圖示。

講生動故事:可以根據提示生成連貫的視覺故事。比如一個粘土宇航員在外星森林墜毀,遇到皮卡丘,一起探索發光蘑菇森林的完整敘事。

智能圖像編輯:能精確理解編輯指令。把燃燒的木料改成玻璃材質、讓狗擁抱貓、向右平移視角、轉換成鳥瞰視圖,甚至移除文檔上的手寫注釋。

具身操作:能理解物理世界任務并生成操作步驟。比如折疊衣服、清理臺面、超市揀貨,每一步都有對應的視覺演示。

世界探索:保持長程一致性的空間探索。可以指令它探索舒適客廳、現代起居室、復古教室、埃菲爾鐵塔、天壇等場景,生成連貫的第一人稱視角探索視頻。

技術報告已在arXiv發布,詳細介紹了模型架構、訓練方法和評估結果,感興趣可以查閱。
開源地址:https://github.com/baaivision/Emu3.5
論文地址:https://arxiv.org/abs/2510.26583
本文轉載自??AI工程化??,作者:ully

















