邊打字邊出片,交互式生成長視頻!英偉達聯合MIT開源新SOTA
你還在為拍視頻頭疼嗎?
想象一下你正在寫一個故事,主角從城市街頭一路打到未來太空,劇情越來越精彩,突然你靈光一閃——
「如果他這時候變身成反派,故事會不會更炸?」
以前,你得重新寫劇本、找素材、剪輯、渲染……
現在,你只需要打一句話,AI實時生成新劇情,而且畫面連貫、節奏流暢,邊想邊出片,像電影一樣!
近日,NVIDIA聯合MIT等機構重磅推出LongLive,把交互式視頻生成性能干到SOTA,最長實現4分鐘,可以實時交互式長視頻生成。

項目地址:https://nvlabs.github.io/LongLive/
論文鏈接:https://arxiv.org/abs/2509.22622
項目主頁:https://nvlabs.github.io/LongLive/

視頻1:交互式視頻生成結果展示
LongLive的驚艷不止于實時交互,別家模型「跑長跑就掉鞋」,我們把終點線直接拉到4分鐘——240秒一鏡到底,人物不崩、劇情不跳、鏡頭不晃。

視頻2:和其他模型在長視頻生成上的視覺對比。LongLive生成速度快的同時,還保持了視覺一致性和語義上的連貫
對比Sora2,由于Sora2每次只能生成10秒視頻,Sora2借助GPT-5對輸入進行了優化,盡可能地增加背景和上下文信息,來提示Sora2生成的連貫性。

視頻3:Sora2與LongLive在長視頻生成上的對比。Sora2在視頻質感、運鏡以及物理規律模擬等方面非常強大,但難免會出現突變和不一致。LongLive連續性好且生成速度快
VBench-Long權威測評顯示,LongLive在長視頻賽道拿下84.87總分,領先同量級選手近4分;背景一致性94.8、主角一致性94.0,全程零閃變,比SkyReels-V2快了41倍。

表1:LongLive和其他模型在長視頻生成上的User Study對比
回到日常短視頻(15-30秒)場景,一樣「穩又快」:20.7幀/秒生成速度,比播放速度還快;VBench短片段評分86.97,視覺效果依舊SOTA。

表2:LongLive在VBench 短視頻評測榜單上的性能比較
一句話,無論15秒爆款還是240分鐘大片,LongLive都給你影院級穩感和絲滑產出
現在,很多擴散模型的做法由于雙向注意力機制導致長時域生成過慢。而另一些則是「把一段視頻一段視頻分別生成然后拼起來」,所以越長越崩,人物形象完全錯誤,還有一些方法由于訓練階段使用短視頻,推理階段則推長視頻導致訓推不一致。
總結為:
- 不用KV-cache,時間太慢并且形象錯亂。
- 使用KV-cache,實時交互困難。
- 訓不動長視頻,推理則錯誤累計。
而LongLive完美解決這些痛點,一個真正面向長視頻生成交互式的訓練和推理算法。滾動式窗口支持長視頻訓練,單張GPU實現240s實時交互生成。

視頻4:240s長視頻生成效果
LongLive三板斧
LongLive的核心秘訣是「三把鑰匙」,專門解決「長、順、快」不可能三角:
長跑鑰匙——Streaming Long Tuning
專為「長度」而生:訓練時就讓模型自己跑完240秒,邊生成邊學習,像陪練一樣陪它沖過終點,從此不再「train-short-test-long」,越長越穩。

圖2:流式長視頻微調流程圖。
劇情鑰匙——KV-Recache
換劇情時,舊畫面不丟,新指令立刻生效。就像導演現場改劇本,演員自然接戲,不會「出戲」或「重來」。

圖3:不同策略對比來看,LongLive提出的KV re-cahce完美解決所有痛點
時間錨點和聚光燈注意力——Frame Sink和Short-Window
把開頭幾幀永久「釘」在記憶里,后面無論怎么拍,人物長相、場景風格都不會跑。相當于給整部片上了「定妝鎖」。

圖4:LongLive提出的sink策略保持風格一致
只看最近關鍵幾幀,算力減半,畫面反而更穩。就像攝影師只追焦主角,背景再亂也不影響鏡頭清晰度。

圖5:LongLive提出的Shift Window策略極致的加速生成和降低算力消耗
三招齊下,才能讓你「邊聊邊拍」240 秒依舊不崩、不跳、不重來,這才是 LongLive敢把「交互式長視頻」做成「打字速度」的大秘訣。
LongLive把「寫一句話」變成「拍一部大片」,長視頻一鏡到底、隨時改戲、立等可取——從此,長視頻不再是專業團隊的專利,而是每個人隨手可得的創意游樂場。
真正的交互式視覺時代已悄然開啟,AI的每個靈感都值得被實時看見,被長久記住。



































