李飛飛發(fā)布全新世界模型,單GPU就能跑!
李飛飛的世界模型創(chuàng)業(yè),最新成果來了!
剛剛,教母親自宣布對外推出全新模型RTFM(A Real-Time Frame Model),不僅具備實(shí)時運(yùn)行、持久性和3D一致性,更關(guān)鍵的是——
單張H100 GPU就能跑。

此外,RTFM的設(shè)計遵循三大核心原則:
效率:僅需單張H100 GPU,RTFM便能以交互級幀率實(shí)時完成推理運(yùn)算。
可擴(kuò)展性:該架構(gòu)具備隨數(shù)據(jù)量與算力增長而持續(xù)擴(kuò)展的能力。它通過端到端的通用架構(gòu)從海量視頻數(shù)據(jù)中自主學(xué)習(xí),無需依賴顯式3D表征即可構(gòu)建三維世界模型。
持久性:用戶可無限時長與RTFM交互,所有場景將永久留存。該系統(tǒng)構(gòu)建的持久化3D世界不會因視角轉(zhuǎn)換而消失。
下面具體來看。
世界模型需要大量計算資源
強(qiáng)大的世界模型能夠?qū)崟r重建、生成并模擬具有持久性、可交互且物理精確的世界。這類模型將徹底改變從媒體到機(jī)器人技術(shù)等各行各業(yè)。
過去一年,生成式視頻建模的進(jìn)展已成功應(yīng)用于生成式世界建模領(lǐng)域。
隨著技術(shù)發(fā)展,一個事實(shí)愈發(fā)清晰:生成式世界模型對算力的需求將遠(yuǎn)超當(dāng)今的大型語言模型。
若直接套用現(xiàn)有視頻架構(gòu),生成60幀的4K交互視頻流每秒需產(chǎn)生超過10萬個token(約等于《弗蘭肯斯坦》或首部《哈利·波特》的篇幅)。
而要維持一小時以上的持續(xù)交互,需處理的上下文token更將突破1億大關(guān)。基于當(dāng)前計算基礎(chǔ)設(shè)施,這既不可行也不具備經(jīng)濟(jì)性。

李飛飛團(tuán)隊(duì)深信“慘痛教訓(xùn)”揭示的規(guī)律:
那些能隨算力增長優(yōu)雅擴(kuò)展的簡潔方法終將在AI領(lǐng)域占據(jù)主導(dǎo),因?yàn)樗鼈兡芟硎軘?shù)十年來推動技術(shù)發(fā)展的算力成本指數(shù)級下降紅利。生成式世界模型正處在絕佳位置,必將從持續(xù)降低的算力成本中獲益。
這也就引出一個關(guān)鍵問題:生成式世界模型是否會被當(dāng)前硬件條件所限制?能否現(xiàn)在就預(yù)覽這項(xiàng)技術(shù)的雛形?
于是,李飛飛團(tuán)隊(duì)設(shè)定了一個明確目標(biāo):設(shè)計一款足夠高效、可立即部署,并能隨算力提升持續(xù)擴(kuò)展的生成式世界模型。
他們的目的是打造僅需單張H100 GPU即可驅(qū)動的模型,在保持交互幀率的同時,確保虛擬世界永不消散。實(shí)現(xiàn)這些技術(shù)指標(biāo),將讓他們提前窺見未來——在當(dāng)下硬件上體驗(yàn)明日模型可能達(dá)到的高度。
這一目標(biāo)深刻影響著他們從任務(wù)設(shè)定到模型架構(gòu)的整個系統(tǒng)設(shè)計。通過精心優(yōu)化推理堆棧的每個環(huán)節(jié),融合架構(gòu)設(shè)計、模型蒸餾與推理優(yōu)化的前沿突破,他們致力于在當(dāng)今硬件上呈現(xiàn)對未來模型最高保真度預(yù)覽。
世界模型作為學(xué)習(xí)渲染器
傳統(tǒng)的3D圖形管線采用顯式3D表征(如三角網(wǎng)格、高斯?jié)姙R)構(gòu)建世界模型,再通過渲染生成2D圖像。這些管線依賴人工設(shè)計的數(shù)據(jù)結(jié)構(gòu)與算法來模擬3D幾何、材質(zhì)、光照、陰影及反射等效果。
數(shù)十年來,這類方法始終是計算機(jī)圖形學(xué)領(lǐng)域的中流砥柱,但其難以隨數(shù)據(jù)量與算力增長實(shí)現(xiàn)線性擴(kuò)展。
RTFM則另辟蹊徑。基于生成式視頻建模的最新突破,研究團(tuán)隊(duì)通過訓(xùn)練單一神經(jīng)網(wǎng)絡(luò),輸入場景的單張或多張2D圖像,即可從全新視角生成該場景的2D圖像,全程無需構(gòu)建任何顯式3D表征。

RTFM還采用作用于幀序列的自回歸擴(kuò)散變換器架構(gòu),通過海量視頻數(shù)據(jù)進(jìn)行端到端訓(xùn)練,實(shí)現(xiàn)基于歷史幀的后續(xù)幀預(yù)測。
RTFM 可以被視為一種可學(xué)習(xí)的渲染器(learned renderer)。它首先將輸入的圖像幀轉(zhuǎn)換為神經(jīng)網(wǎng)絡(luò)中的激活(即KV cache),這些激活以隱式方式表示整個世界,在生成新幀的過程中,網(wǎng)絡(luò)通過注意力機(jī)制從這種表示中讀取信息,從而根據(jù)輸入視角生成與之保持一致的世界新視圖。
從輸入視圖轉(zhuǎn)換為世界表示,以及再從該表示中渲染新幀的機(jī)制,并不是通過手工設(shè)計的,而是通過端到端的數(shù)據(jù)訓(xùn)練自動學(xué)得的。
RTFM只需在訓(xùn)練過程中觀察到這些現(xiàn)象,就能夠?qū)W會建模諸如反射、陰影等復(fù)雜效果。
可以說,RTFM模糊了“重建”(在已有視角之間進(jìn)行插值)與“生成”(創(chuàng)造輸入視角中不可見的新內(nèi)容)之間的界限,而這兩者在計算機(jī)視覺中歷史上一直被視為兩個獨(dú)立的問題。
當(dāng)RTFM被提供大量輸入視角時,由于任務(wù)約束更強(qiáng),它更傾向于執(zhí)行重建;當(dāng)輸入視角較少時,它則被迫進(jìn)行超出已有視角的外推生成。
將姿態(tài)幀作為空間記憶
現(xiàn)實(shí)世界的一個關(guān)鍵特性是持久性(persistence):當(dāng)你移開視線時,世界不會消失或完全改變,無論你離開多長時間,你總是可以回到之前去過的地方。
這對自回歸幀模型來說一直是一個挑戰(zhàn)。世界僅通過二維圖像幀被隱式表示,因此,實(shí)現(xiàn)持久性要求模型在用戶探索世界的過程中,對不斷增長的幀集合進(jìn)行推理。這意味著每生成一幀的成本都比前一幀更高,因此模型對世界的記憶實(shí)際上受到其計算資源預(yù)算的限制。
RTFM通過將每一幀建模為在三維空間中具有一個姿態(tài)(位置和方向)來規(guī)避這一問題。他們通過向模型提供待生成幀的姿態(tài)來生成新幀。

模型對世界的記憶(包含在其幀中)具有空間結(jié)構(gòu)。它將帶有姿態(tài)的幀作為空間記憶使用。這為模型提供了一個弱先驗(yàn)——即它所建模的世界是三維歐幾里得空間——而無需強(qiáng)制模型顯式預(yù)測該世界中物體的三維幾何形狀。
RTFM的空間記憶使得持久性不受限制。在生成新幀時,他們會從已姿態(tài)幀的空間記憶中檢索附近幀,以為模型構(gòu)建一個定制的上下文。
團(tuán)隊(duì)將這一技術(shù)稱為上下文切換(context juggling):模型在不同空間區(qū)域生成內(nèi)容時會使用不同的上下文幀。這使得RTFM能夠在長時間交互中保持對大型世界的持久記憶,而無需對不斷增長的幀集合進(jìn)行推理。
最后,該模型即日起以預(yù)覽版形式開放體驗(yàn),現(xiàn)在就可以試起來了…
試完歡迎回來補(bǔ)個反饋評論哦,筆芯~
參考鏈接:[1]https://x.com/drfeifei/status/1978840835341914164[2]https://x.com/theworldlabs/status/1978839175320186988[3]https://www.worldlabs.ai/blog/rtfm































