無(wú)需訓(xùn)練的世界模型?西湖大學(xué)WorldForge開(kāi)啟空間智能新路徑,讓AI讀懂3D世界
近來(lái),由AI生成的視頻片段以前所未有的視覺(jué)沖擊力席卷了整個(gè)互聯(lián)網(wǎng),視頻生成模型創(chuàng)造出了許多令人驚嘆的、幾乎與現(xiàn)實(shí)無(wú)異的動(dòng)態(tài)畫(huà)面。
然而,生成內(nèi)容的精準(zhǔn)可控性仍是制約其應(yīng)用推廣的短板,例如,模型可以生成“海灘邊的排球比賽”的動(dòng)態(tài)場(chǎng)景,但創(chuàng)作者很難指揮鏡頭何時(shí)推拉、如何搖移、從哪兒起落。
為補(bǔ)齊“可控性”這塊短板,業(yè)界通常會(huì)在特定數(shù)據(jù)上微調(diào)或重訓(xùn)現(xiàn)有的視頻生成模型,但微調(diào)一個(gè)大模型所需的時(shí)間成本和算力成本高昂,甚至還可能會(huì)削弱模型內(nèi)在的世界知識(shí),損害模型的泛化能力與畫(huà)面質(zhì)感。
其背后反映出的問(wèn)題是當(dāng)前視頻模型尚未真正內(nèi)化三維結(jié)構(gòu)與運(yùn)動(dòng)規(guī)律,更多依賴外部監(jiān)督去“硬性施控”,而這也是當(dāng)前火熱的世界模型(World Model)所面臨的挑戰(zhàn),比如近期的一些世界模型的探索(如 Google 的 Genie系列)依然走“數(shù)據(jù)與算力堆料”的大規(guī)模訓(xùn)練路徑,技術(shù)與資源門(mén)檻居高不下,也引出一個(gè)直面的問(wèn)題:邁向空間智能,是否只能靠這一條路?
西湖大學(xué)AGI實(shí)驗(yàn)室提出的WorldForge給出了另一種答案:繞開(kāi)訓(xùn)練泥潭,轉(zhuǎn)向“推理時(shí)引導(dǎo)”——為現(xiàn)有視頻生成模型裝上精密的路徑導(dǎo)航,通過(guò)不改權(quán)重、即插即用的引導(dǎo)策略,讓“隨性”的 AI 也能迅速聽(tīng)懂導(dǎo)演的鏡頭語(yǔ)言。

WorldForge的核心秘籍:在推理環(huán)節(jié)“寫(xiě)入”引導(dǎo)信號(hào)
WorldForge的構(gòu)想十分巧妙:它不試圖去改變視頻模型本身的權(quán)重,而是在其每一步去噪生成的過(guò)程中,巧妙地施加時(shí)空信息引導(dǎo)與修正。
△WorldForge整體流程圖
這一框架主要由三大協(xié)同工作的創(chuàng)新模塊構(gòu)成:
1. 步內(nèi)遞歸修正 (IRR):為“想象”設(shè)定邊界
AI生成視頻的過(guò)程,本質(zhì)上是從一片混沌的噪聲中,一步步“猜”出清晰的畫(huà)面。如果放任其自由猜測(cè),結(jié)果自然天馬行空。要想讓它按照預(yù)設(shè)的軌跡運(yùn)動(dòng),就必須在它每一次預(yù)測(cè)后,進(jìn)行及時(shí)引導(dǎo)與糾偏。
為此,IRR模塊設(shè)計(jì)了一個(gè)“預(yù)測(cè)-校正”的微循環(huán)。在模型推理的每個(gè)時(shí)間步中,它先讓模型大膽預(yù)測(cè),然后再定位與參考內(nèi)容重合的已知區(qū)域,用真實(shí)信息覆蓋回注。依托這種不間斷的逐步校正,軌跡偏離得以及時(shí)消除,最終使生成內(nèi)容遵循預(yù)設(shè)軌跡。
2. 流門(mén)控潛在融合 (FLF):拆分“外觀/運(yùn)動(dòng)”,把控制打到點(diǎn)上
視頻生成模型的潛在表征空間里,掌管物體運(yùn)動(dòng)的特征和負(fù)責(zé)畫(huà)面質(zhì)感的特征往往交織在一起。簡(jiǎn)單粗暴地向所有特征通道都注入運(yùn)動(dòng)信號(hào),很可能在改變視角的同時(shí),也破壞了場(chǎng)景的細(xì)節(jié)紋理、建筑的材質(zhì)光感等。因此,精準(zhǔn)控制視角的核心挑戰(zhàn)在于如何在注入運(yùn)動(dòng)信息的同時(shí),不破壞原有的生成質(zhì)量。
FLF模塊首先通過(guò)光流得分來(lái)評(píng)判每個(gè)特征通道的運(yùn)動(dòng)相關(guān)度,然后將軌跡信號(hào)精準(zhǔn)注入到運(yùn)動(dòng)相關(guān)度高的通道中。實(shí)現(xiàn)動(dòng)靜分離與定點(diǎn)制導(dǎo)。
3. 雙路徑自校正引導(dǎo) (DSG):用高質(zhì)量先驗(yàn)修正強(qiáng)引導(dǎo)的副作用
注入到模型中的引導(dǎo)信號(hào)通常并不完美,常常含有噪聲與深度誤差。若完全依賴該信號(hào),容易導(dǎo)致畫(huà)質(zhì)下降。
為了解決這個(gè)問(wèn)題,DSG利用了IRR的去噪過(guò)程中產(chǎn)生的兩條并行去噪路徑,在遵循軌跡的同時(shí),利用模型自身的高質(zhì)量先驗(yàn)糾正引導(dǎo)帶來(lái)的偏差:第一條是模型初始預(yù)測(cè)產(chǎn)生的非引導(dǎo)路徑,該路徑保持模型原生預(yù)測(cè),細(xì)節(jié)與質(zhì)感更好,但不受軌跡約束;第二條是注入軌跡信號(hào)后的引導(dǎo)路徑,該路徑由于注入了軌跡約束,服從先驗(yàn)軌跡約束,但也容易繼承引導(dǎo)信號(hào)中的噪聲。在每個(gè)時(shí)間步,DSG 計(jì)算兩路徑輸出的差異并生成校正項(xiàng),將引導(dǎo)路徑結(jié)果向非引導(dǎo)路徑的高質(zhì)量解收斂。由此同時(shí)保證軌跡精確與畫(huà)面質(zhì)量穩(wěn)定。

貫通單圖與視頻,駕馭動(dòng)靜全場(chǎng)景
得益于這套精巧的控制策略,WorldForge在實(shí)際應(yīng)用中展現(xiàn)出了驚人的能力。
- 單視圖生成 3D 靜態(tài)場(chǎng)景
只需一張照片,WorldForge 即可重建出一致的三維靜態(tài)場(chǎng)景。并且能夠?qū)崿F(xiàn)以物體為中心拍攝的360°環(huán)繞視頻。這表示AI可以從二維平面讀懂三維世界,為探索更高效、輕量化的世界模型實(shí)現(xiàn)路徑提供了全新可能。


- 視頻電影級(jí)重運(yùn)鏡
用戶可以自由設(shè)計(jì)全新的鏡頭軌跡“重拍”已有的視頻,無(wú)論是平滑的推拉搖移,還是復(fù)雜的弧線跟拍,WorldForge都能完美執(zhí)行,并智能補(bǔ)全因視角變化而新出現(xiàn)的場(chǎng)景區(qū)域,效果領(lǐng)先同類需要大量訓(xùn)練的SOTA模型。

- 視頻內(nèi)容二次創(chuàng)作
除軌跡操控外,WorldForge同樣支持視頻內(nèi)容的編輯,例如主體替換、物體擦除/添加、虛擬試穿等二次創(chuàng)作。


以引導(dǎo)激發(fā)潛能:一種世界模型構(gòu)建的新思路
WorldForge為視頻生成領(lǐng)域引入了一種新穎的交互與控制思路。
它巧妙地繞開(kāi)了對(duì)大模型本身的修改,轉(zhuǎn)而在生成環(huán)節(jié)運(yùn)用外部引導(dǎo),以此來(lái)“喚醒”并結(jié)構(gòu)化模型內(nèi)部潛在的世界知識(shí),讓原本自由的生成過(guò)程遵循指定的時(shí)空邏輯。
更重要的是,這項(xiàng)工作為“可控世界模型”的構(gòu)建開(kāi)辟了一條新的研究路徑。它證明了在不增加訓(xùn)練成本、不損耗先驗(yàn)知識(shí)的前提下,通過(guò)精巧的推理期引導(dǎo),同樣可以實(shí)現(xiàn)對(duì)復(fù)雜動(dòng)態(tài)場(chǎng)景的有效控制。展望未來(lái),沿著這一思路繼續(xù)深化,我們有望通過(guò)更自然的語(yǔ)言或動(dòng)作交互,讓模型成為一個(gè)能精準(zhǔn)理解并執(zhí)行我們創(chuàng)意的視覺(jué)執(zhí)行者。
論文鏈接:https://arxiv.org/abs/2509.15130
項(xiàng)目主頁(yè):https://worldforge-agi.github.io/



































