ICCV 2025 | 視頻生成邁入“多段一致”新時代!TokensGen用“壓縮Token”玩轉長視頻生成

文章鏈接:https://arxiv.org/pdf/2507.15728
項目鏈接:https://vicky0522.github.io/tokensgen-webpage/

亮點直擊
- TokensGen,通過壓縮視頻Token橋接短片段生成與長程一致性。
- To2V模型(片段級內容控制),基于預訓練骨干網絡(CogVideoX)構建的視頻Tokenizer,將短片段編碼為高語義密度的壓縮Token。
- T2To模型(長程一致性控制),創新性設計視頻Token擴散Transformer,直接從文本提示生成分鐘級視頻的完整Token序列。
- 自適應FIFO-Diffusion(片段間平滑過渡),解決傳統FIFO-Diffusion中因填充或幀復制導致的邊界失真問題,實現影院級過渡效果。
- 工業級擴展性:方案支持分鐘級生成,為影視/虛擬現實提供新工具。

根據文本提示,TokensGen 可生成長達 2 分鐘的長視頻,保持一致的動作和內容。此外,TokensGen 支持零拍攝提示引導的長視頻到視頻編輯。
總結速覽
解決的問題
- 內存瓶頸:傳統擴散模型生成長視頻時計算開銷大,難以處理分鐘級內容。
- 長期一致性不足:現有方法(如自回歸或分層生成)易導致內容漂移、運動不連貫。
- 片段過渡生硬:短片段直接拼接易出現邊界偽影,缺乏平滑性。
提出的方案
- 兩階段框架:
- To2V模型:基于文本和視頻Token生成高質量短片段,通過視頻Tokenizer(Video Tokenizer)壓縮語義信息。
- T2To模型:擴散Transformer一次性生成全局一致的分鐘級視頻Token,確保長期邏輯連貫。
- 自適應FIFO-Diffusion:對角去噪策略無縫銜接相鄰片段,消除邊界偽影。
應用的技術
- 視頻Tokenizer:將短片段壓縮為高語義密度Token,降低計算復雜度。
- 擴散Transformer(Diffusion Transformer):在Token空間建模長視頻的時空分布。
- 對角去噪(Diagonal Denoising):改進FIFO-Diffusion,動態融合片段間重疊區域。
達到的效果
- 長期一致性:T2To模型全局規劃內容,人物/場景保持穩定。
- 高效生成:Tokenizer表示減少內存占用(相比幀級建模)。
- 平滑過渡
- 兼容性:可集成其他短片段控制技術(如多提示詞組合)。
TokensGen 長視頻生成
概述


CogVideoX 架構

To2V模型:片段內內容控制
本文設計了一種條件式短視頻生成模型 To2V,通過文本和視頻提示引導,實現短視頻生成的精確內容控制。To2V 基于預訓練的文本引導視頻生成模型 CogVideoX,并包含兩個關鍵組件:
- 視頻Tokenizer(Video Tokenizer):將輸入視頻片段編碼為緊湊的語義Token。
- 交叉注意力分支(Cross-Attention Branch):與CogVideoX集成,實現語義Token與噪聲潛在表示(noisy latents)之間的交叉注意力。
視頻Tokenizer視頻Tokenizer由以下部分組成(如上圖3右側所示):
- 3D因果變分自編碼器(3D-VAE)
- 分塊模塊(Patchify Module)
- 重采樣器(Resampler)


交叉注意力分支為有效將語義Token與 CogVideoX 結合添加了一個獨立的交叉注意力分支來處理新增的語義條件。該分支包含:
- 語義Token自適應層歸一化(Sem AdaLN)
- 3D交叉注意力模塊(3D Cross-Attention Module)
流程如下:


T2To模型:長期內容一致性

片段間時間一致性

為解決這一問題,本文提出改進版 自適應FIFO(adaptive-FIFO),在去噪過程開始時采用自適應填充策略:

通過更好地對齊初始填充與模型學習到的分布,并確保部分填充分區的連續性,該方法實現了更平滑的片段過渡和更高的幀質量。
訓練策略
對于 To2V模型,固定基礎模型預訓練模塊的權重,僅訓練視頻Tokenizer的 重采樣器(Resampler) 和 交叉注意力分支(Cross-Attention Branch)。對于 T2To模型,我們用基礎模型的權重初始化,并訓練所有模塊。
本文采用與 CogVideoX 相似的訓練策略,包括:
- 多分辨率幀打包(Multi-Resolution Frame Pack)
- 顯式均勻采樣(Explicit Uniform Sampling)
對于 T2To模型,我們將不同時長的視頻打包到同一批次中,并應用注意力掩碼(attention mask)標記有效幀,同時計算損失時也使用注意力掩碼,以確保注意力模塊聚焦于輸入噪聲潛在表示的正確區域(類似 Patch’n Pack 的方法)。對于 To2V 和 T2To模型,均采用顯式均勻采樣策略選擇時間步(timesteps)。
實驗結果
實現細節

基線對比
定性比較。本文將所提方法與多種近期多提示長視頻生成方法對比,包括 Video-Infinity、DiTCtrl、Kling ,以及一個在 CogVideoX 上采用 FIFO-Diffusion并搭配自適應填充策略的基線。對于多提示方法,使用 GPT-4o 將提示分割為 24 段以指導每段生成。FIFO 和本文的方法使用相同文本提示(縮寫為:“一個人騎馬沿小徑走向寧靜的河流”)。結果如下圖 5 所示。Video-Infinity 主要通過背景變化實現轉場,但未能捕捉有意義的前景運動,人物和馬在每段中基本靜止,導致吸引力不足且敘事漂移。DiTCtrl 展示了間歇對齊的關鍵幀,但片段間轉場生硬,造成突兀場景切換和情節斷裂。Kling 生成視覺一致的幀,但存在異常運動(如主體突然轉向)和偶爾的場景構圖不連續,破壞觀看體驗并偏離故事主線。FIFO(CogVideoX 上帶自適應填充)隨著視頻延長出現逐漸過飽和及外觀或色彩方案的突變,在生成復雜場景的數百幀時尤為明顯。相比之下,本文的方法實現了更平滑的運動轉場和主體表現,在整個分鐘級序列中始終貼合提示。

定量比較
本文在 MiraData測試集中隨機選取 100 條提示進行定量對比研究。如下表 1 所示,本文的方法在 VBench 的 Motion Smoothness 和 Dynamic Degree 指標上均獲得最高分。注意到 VBench 中部分指標(如 Subject and Background Consistency 和 Temporal Flickering)可能對動態性較弱的視頻評分更高,因此我們進一步開展用戶研究以全面評估。用戶研究中,為每種方法生成 12 個時長 1-2 分鐘的視頻結果,涵蓋人物、車輛、自然場景等類別,所有視頻均發布于項目網頁。為確保無偏反饋,將視頻隨機排序后交由 24 名參與者評估,從文本-視覺對齊度、運動與內容一致性兩個維度打分。如表 1 右側所示,本文的方法在兩項指標上均顯著優于基線,體現了其長程控制能力。這些結果表明,本文的方法能有效保持與文本提示的語義對齊,同時在長序列中維持平滑運動與穩定內容。

消融實驗


FIFO 消融。本文對比三種變體:(1) 完全禁用 FIFO,(2) 使用 FIFO 但無自適應填充,(3) 完整方案(FIFO+自適應填充)。下圖 7 顯示,禁用 FIFO 會導致片段間場景突變,出現主體瞬移或背景跳變;移除自適應填充則會在視頻初始幀引入嚴重偽影(因模型依賴偏離訓練分布的重復幀),這些偽影會傳播至后續幀。而我們的自適應填充策略使填充幀符合模型分布,有效消除片段邊界的不連續現象。

長視頻編輯
除生成全新內容外,本文的方法可靈活適配多種長視頻編輯場景。To2V 模型能夠將文本提示與源視頻數據結合,在保留原始素材核心結構的同時注入新語義。如下圖 8 所示,直接將目標文本提示與源視頻作為輸入條件生成編輯后的長視頻。更多結果詳見項目網頁。

結論與討論
TokensGen——一個兩階段框架,通過 To2V 模型生成文本和視頻提示引導的短視頻片段以捕捉細粒度運動與內容,T2To模型利用壓縮語義token保持片段間長程一致性,結合自適應 FIFO-Diffusion 策略維持時序連續性,從而解決長視頻生成中的片段語義控制、長程連貫性與平滑過渡等關鍵挑戰。該流程可高效擴展預訓練短視頻模型至長視頻場景,實現可擴展、靈活且資源高效的生成方案。
盡管 TokensGen 能有效保持長程一致性,但仍存在細粒度細節流失問題:聚焦高層語義的 token 可能導致長序列中前景對象的漸進變化(詳見附錄)。復雜場景中,其捕捉精細時空線索的能力可能不足,需探索超越免調參 FIFO 的細粒度 token 化與短期一致性策略。當前框架僅在游戲畫面和自然景觀數據集上驗證,但可擴展至更大規模數據。未來工作可探索多尺度 token 化或混合表示,在保持可擴展性與資源效率的同時增強細粒度可控性。
本文轉自AI生成未來 ,作者:AI生成未來

















