Sora2還在5秒打轉,字節AI生視頻已經4分鐘“起飛”
從5秒到4分鐘,Sora2也做不到的分鐘級長視頻生成,字節做到了!
先來看一個前方潛水員拍攝的“真實”海底世界Vlog:

華生,有發現么?不同于一般的AI生成視頻,只有短短幾秒鐘……這個片子全程1分40秒,都是“水分”、都是AI。
這就是字節和UCLA聯合提出的新方法——Self-Forcing++,無需更換模型架構或重新收集長視頻數據集,就能輕松生成分鐘級長視頻,也不會后期畫質突然變糊或卡住。
通過利用教師知識和自生成視頻片段指導自回歸生成,最長生成視頻可達4分15秒,而且高質量、還開源。
話不多說,再看幾個視頻效果嘗嘗鮮。
長達3分鐘的無人機視角下的海岸線,be like:

時長拉到極致,4分15秒跟隨大象的腳步縱覽草原美景。

而相同時長下,此前的長視頻生成SOTA SkyReels做出的效果是醬紫的:(重生之我成為一只螞蟻)

Self-Forcing++在短時長上繼承了Self-Forcing的高質量畫面效果,長時長生成也能達成性能指標All kill,視覺穩定性大幅領先CausVid等方法。
或許,AI電影時代離我們已不再遙遠……下面來康康更多詳細內容。
從5秒到4分15秒
先一起來思考下這個問題:為啥現在的AI視頻質量這么高,但還是很容易被人捉蟲AI生成?
其實bug就出自視頻長度。
無論是Sora2、字節Wan,還是騰訊混元、谷歌Veo,視頻內容再真假難辨,長度卻都只有5到10秒。
即使勉勉強強做出長視頻,也是只有前幾秒能看,后面畫面通通崩壞。
原因無他,傳統擴散視頻生成模型依賴Transformer結構,即使改用雙向教師模型將知識蒸餾給學生模型,由于模型本身無法生成長視頻的限制,還是會持續不斷積累誤差。
于是針對這一問題,字節提出Self-Forcing++方法抑制后期質量下降,不再依賴長視頻教師模型訓練,而是讓模型在自己的錯誤中成長。

首先是視頻長度上,分別從噪聲初始化、蒸餾方式、緩存機制三方面優化訓練過程:
- 反向噪聲初始化讓學生模型生成遠超5秒(實驗用100秒)的干凈幀序列,再按擴散噪聲調度向序列中重新注入噪聲。
- 擴展分布匹配蒸餾在幀序列生成后,從中隨機抽取5秒連續窗口,計算學生與教師模型在窗口內的分布差異(KL散度),然后通過最小化該差異完成訓練。
- 滾動KV緩存訓練在訓練與推理階段均采用滾動KV緩存,訓練時用該緩存生成遠超教師監督時長的序列,用于擴展DMD計算。
簡單來說,就是讓LLM在犯錯-修正-再犯錯的循環中,逐漸學會長時間的穩定生成。

另外,由于自回歸模型使用滑動窗口或稀疏注意力生成長序列時,容易出現長時記憶丟失的情況,還需要引入組相對策略優化(GRPO)改善視頻平滑性。
通過計算每一步的重要性權重,結合當前自回歸生成的對數概率總和,衡量生成策略的合理性,再將相鄰幀光流的相對大小作為運動連續性代理指標,引導模型優化,最終可有效減少畫面突變異常。

研究人員同時發現,現有長視頻評估所使用的VBench基準并不完全準確,一些過亮的壞視頻也會被誤判為好。
為此他們將Gemini-2.5-Pro作為評委,讓模型按照過曝光、誤差積累等維度以0-100分評分,可以更為精準地衡量視覺穩定性(Visual Stability)。
這一點在后續的實驗結果中也得以驗證。
兼顧時長和質量
研究人員主要設計了兩類場景評估,分別對比該方法與基準模型(包括自回歸模型與雙向模型)在短時長視頻質量和長時長生成上的效果。
其中短時長場景(5s)仍然采用VBench基準,根據946個提示詞從16個維度評估生成質量。

結果顯示,Self-Forcing++在語義得分(80.37)和總得分(83.11)上均超過NOVA、SkyReels-V2、CausVid等模型,只略低于Wan2.1的總得分84.67。
說明Self-Forcing++雖并未專門針對短視頻進行訓練,但其在短時長場景中仍能保持高視覺質量與語義一致性。

在50秒生成時,視覺穩定性得分為90.94,遠超CausVid(40.47)和Self-Forcing(40.12),動態程度更是Self-Forcing得分的1.6倍,文本對齊得分(26.37)也高于多數基準,證明其在中長時長場景的穩定性。

而在75秒到100秒生成中,文本對齊得分可達26.04、動態程度為54.12,相比CausVid分別提升6.67%和56.4%,相比Self-Forcing則提升18.36%和104.9%。
視覺穩定性得分(84.22)為Self-Forcing(32.03)的2.6倍,且framewise質量(60.66)與基準模型相當,說明其在極長時長下仍能保持高保真度與一致性。

長視頻生成通常存在的失效模式,如運動停滯、保真度退化,Self-Forcing++均未出現類似情況,視頻全程保持連貫運動和穩定亮度及質量。
最終實驗驗證得出,Self-Forcing++可最長生成4分15秒的視頻,比原先的5秒提升近50倍,且在保真度和一致性上優于基線方法。































