英偉達發布“平民版”Sora,720P分鐘級視頻,一塊顯卡就能跑!

論文鏈接:https://arxiv.org/pdf/2509.24695
項目鏈接:https://nvlabs.github.io/Sana/Video/
亮點直擊
- SANA-Video,一種小型擴散模型,旨在實現高效訓練和快速推理,同時不影響輸出質量。
- 通過大幅降低計算門檻,SANA-Video 使高質量視頻生成對更廣泛的用戶和系統變得更加可訪問和實用。改進主要體現在三個關鍵組件上:線性 DiT、帶 KV 緩存的塊線性注意力、高效數據過濾和訓練。
- 模型在生成 720p 視頻時的延遲比最先進的 Wan2.1 快了 13 倍以上(見圖 1(b)),同時在多個基準測試中表現出色。
本文將 SANA-Video 量化并以 NVFP4 精度部署在 RTX 5090 GPU 上,生成一個 5 秒的 720p 視頻僅需 29 秒。希望本文的模型能夠被日常用戶高效使用,提供一個快速視頻生成的強大基礎模型。

總結速覽
效果一覽



1.具身智能

2.游戲

3.自動駕駛

解決的問題
SANA-Video 解決了高分辨率、長時間視頻生成中的高計算成本和低效率問題,尤其是在消費級硬件上的部署困難。
提出的方案
引入 SANA-Video,這是一種小型擴散模型,能夠高效生成高質量視頻。該模型通過優化計算資源使用和改進訓練及推理效率,使得視頻生成更加經濟實用。
應用的技術
- 線性 DiT:使用線性注意力代替傳統自注意力,降低計算復雜度,從 降至 ,并增強視頻生成速度。
- 帶 KV 緩存的塊線性注意力:設計塊狀自回歸方法,使用常量內存狀態來支持長視頻生成,減少傳統 KV 緩存需求。
- 高效數據過濾和訓練策略:通過預訓練模型、數據過濾和多階段訓練策略降低訓練成本。
達到的效果
SANA-Video 在生成 720p 視頻時的延遲比最先進的模型快 13 倍以上,訓練成本僅為 MovieGen 的 1%。在 RTX 5090 GPU 上以 NVFP4 精度部署后,生成 5 秒 720p 視頻的速度從 71 秒加速到 29 秒,實現了低成本、高質量的視頻生成。
SANA-Video


訓練策略
階段1:文本到圖像(T2I)上的 VAE 適配。 由于圖像和視頻 VAE 之間的不匹配,從頭開始訓練視頻 DiT 模型資源密集。本文首先通過高效地將現有的 T2I 模型適配到新的視頻 VAE 來解決這個問題。具體來說,本文利用不同的視頻 VAE 生成不同分辨率的視頻。對于 480P 視頻,高壓縮比的 VAE 限制了整體性能,因此本文采用 Wan-VAE。對于 720P 高分辨率視頻,本文引入了本文的視頻 VAE,DCAE-V,它提供了更高的壓縮比以實現更高效的生成。這兩種 VAE 的適配都非常高效,在 5-10k 的訓練步驟內收斂,進一步證明了本文的 Linear DiT 的強泛化能力。
階段2:從 T2I 模型繼續預訓練。 從預訓練的 T2I 模型初始化視頻 Linear DiT 是利用已經學習的視覺和文本語義知識的一種高效且有效的方法。因此,本文使用從第一階段適配的模型初始化本文的 SANA-Video,并引入額外的設計以建模長時間上下文和運動信息。額外的時間設計是為線性注意力量身定制的,改善了注意力操作的局部性。新添加的層通過跳躍連接進行零初始化,這在早期訓練過程中最小化了它們對預訓練權重的影響。在這種身份初始化之后,SANA-Video 以粗到細的方式進行訓練。它首先在低分辨率、短視頻(例如 192P 2.5 秒)上進行訓練,然后在不同的數據過濾標準下(附錄 D)轉向高分辨率、長視頻(例如 480P 5 秒)。這種粗到細的方法有效地鼓勵 SANA-Video 快速學習動態信息,并通過使用更少但質量更高的數據來細化細節。
階段3:自回歸塊訓練。 持續的預訓練使 SANA-Video 成為一個高效的小型擴散模型,主要用于高分辨率的 5 秒視頻生成。為了能夠生成更長的視頻,本文在下文中分析了線性注意力的屬性,并提出了用于自回歸生成的常量內存塊 KV 緩存。在此設計的基礎上,本文進行自回歸塊訓練,分為兩個步驟:首先訓練自回歸模塊,然后通過改進的自強制塊訓練解決曝光偏差問題。此過程產生了一個高質量、高效的長視頻生成模型。
高效的線性 DiT 預訓練
SANA-Video 采用 SANA作為基礎架構,并創新性地調整了線性擴散變壓器塊,以應對 T2V 任務的獨特挑戰,如上圖 2 所示。提出了以下幾個專用設計:


然而,直接將 RoPE 應用于查詢和鍵(如在普通注意力中)可能會因 softmax 和 ReLU 相似性函數之間的差異而使線性注意力機制在數值上不穩定。RoPE 變換可能改變 ReLU 輸出的非負性質,可能導致標準線性注意力公式(方程 2)中的分母變為零。為了解決這個問題,本文修改了計算:雖然分子中包括了查詢和鍵上的 RoPE,但本文在分母中去掉了鍵或查詢之一的 RoPE。這確保了分母保持正值,保證了訓練的穩定性(上圖 3 (b)),同時仍然受益于位置編碼。


具有時空混合的 Mix-FFN。如上圖 3 所示,本文將 SANA-Video 中的線性注意力圖與 Wan2.1 中的 softmax 注意力圖進行了比較。本文觀察到,相較于 softmax 注意力,線性注意力更加密集且對局部細節的關注較少。SANA 通過在 Mix-FFN 中加入卷積來改善圖像生成中的局部性問題。在 Mix-FFN 的基礎上,本文通過時間一維卷積增強了它。時間卷積與快捷連接一起被附加到塊的末尾(上圖 2(b)),實現了無縫的時間特征聚合,同時保留了初始化。該模塊有助于捕捉沿時間軸的局部關系,從而在生成的視頻中實現更好的運動連續性和一致性。如本文的消融研究所示(下圖 6(a)),這一添加顯著降低了訓練損失并改善了運動性能。

塊線性注意力
本節概述了實現高效長視頻生成的關鍵組件。受因果線性注意力的固有屬性啟發,本文在塊線性注意力模塊中探索了常量內存的全局 KV 緩存,該模塊支持長上下文注意力,同時占用較小且固定的 GPU 內存。基于該模塊,本文引入了一個兩階段的自回歸模型繼續訓練范式:使用單調增加的 SNR 采樣器進行自回歸塊訓練,以及用于長上下文注意力的改進自強制方法。
帶有 KV 緩存的塊線性注意力

塊線性注意力中的 KV 緩存。 與因果普通注意力中急劇增加的計算和內存成本相比,線性注意力具有顯著的效率優勢,自然支持具有全局注意力的長視頻生成,同時保持常量內存。考慮因果注意力設置,線性注意力(方程 2)對于第 i個 token 的輸出可以重新表述為:





自回歸塊訓練
自回歸 SANA-Video 變體的持續訓練始于預訓練的 5 秒 SANA-Video 模型。為了與預訓練模型的分布對齊,本文提出了一種單調遞增的 SNR 采樣器。具體來說,隨機選擇一個塊,并使用 SNR 采樣器為其采樣一個時間步長。然后,通過傳播概率 為剩余的塊采樣時間步長,確保所有時間步長單調遞增,即后面的塊具有比前面塊更大的時間步長。這個提出的時間步長采樣器提供了兩個關鍵優勢。首先,單調遞增的時間步長比隨機時間步長具有更小的采樣空間,從而導致更快的收斂和更好的性能。其次,將 SNR 采樣器應用于隨機選擇的塊可以保證每個塊都經過充分的信息訓練。
然而,單調遞增的 SNR 采樣器無法解決自回歸生成中的一個嚴重問題,即曝光偏差。在訓練過程中,條件塊是地面實況,而在推理過程中則是生成的內容,這導致了錯誤累積并限制了長視頻生成的性能。Self-Forcing 旨在通過自回歸展開解決在基礎注意力 DiT 模型中的這一問題。在本文的工作中,本文改進了 Self-Forcing,以更好地利用本文恒定內存的全局 KV 緩存。由于因果基礎注意力的顯存需求增加,Self-Forcing 在設計的窗口大小內使用局部注意力。因此,它將自生成內容的長度設置為與預訓練模型相同(即 5 秒)。相比之下,SANA-Video 中的塊線性注意力支持一個小且恒定 GPU 內存的長上下文全局 KV 緩存。這使得本文可以自生成更長的視頻(例如 1 分鐘)并選擇一個片段進行訓練,這更好地對齊了訓練和推理之間的條件信號。
推理過程中的塊線性注意力

深度壓縮視頻自動編碼器
SANA-Video 使用 Wan-VAE 在 480P 視頻生成中實現了高效和高質量。然而,即使使用本文高效的線性注意力,生成 720P 視頻的速度仍然慢了 2.3 倍。對于全注意力的 DiT 模型,這種效率下降更為嚴重(例如 Wan 2.1 1.3B 慢 4 倍),這促使本文探索一種能夠壓縮更多 token 的更高效的 VAE。本文將 DCAE 微調為 DCAE-V,具有空間下采樣因子F=32 ,時間因子T=4 ,以及通道數 C=32。潛在通道的數量與本文預訓練的 T2I 模型對齊,使得從圖像到視頻模型在相同的潛在空間中快速適應。
同時進行的 Wan2.2-5B 模型也實現了 32 倍的空間壓縮,通過結合具有空間下采樣因子 16 的 VAE 和 2 的補丁嵌入壓縮。DCAE-V 相對于 Wan2.2-VAE 的優勢有兩個。首先,DCAE-V 的 32 個潛在通道與本文預訓練的 T2I 模型對齊,提高了收斂速度。其次,為了實現相同的壓縮比,Wan2.2-VAE 需要模型預測一個更大的潛在維度(192 對比 DCAE-V 的 32),這對于小型擴散模型來說是一項困難的任務。如下表 3 所示,DCAE-V 展示了與其他最先進的 VAE(如 Wan2.1、Wan2.2 和 LTX-Video)相當的重建性能。這種高壓縮使本文的模型能夠在性能上與更大的模型(例如 Wan2.1-14B 和 Wan2.2-5B)相媲美,同時表現出顯著的加速,如下表 2 所示。具體來說,SANA-Video 可以在僅 36 秒內生成一個 720P 5 秒的視頻,比 Wan2.1-14B 加速了 53 倍。與與本文共享相同壓縮比的 Wan2.2-5B 相比,SANA-Video 實現了 3.2 倍的加速。


數據過濾 Pipeline
為了策劃本文的訓練數據集,收集了公共的真實和合成數據,并實施了一個多階段的過濾范式。首先,本文使用 PySceneDetect 和 FFMPEG 將原始視頻剪輯成單個場景的短片。對于每個視頻片段,本文分析其美學和運動質量,并提供詳細的字幕。具體而言,運動質量通過 Unimatch(光流)和 VMAF(像素差異)測量,僅保留運動適中且清晰的片段。此外,平均光流被用作運動幅度的表示,注入提示以更好地控制運動。美學質量通過預訓練的視頻美學模型(DOVER)和使用 OpenCV 獲得的關鍵幀飽和度來測量,低美學評分和過度飽和的視頻會被移除。最后,本文根據嚴格的運動和美學標準收集了大約 5,000 個符合人類偏好的高質量視頻。SFT 數據收集了多樣且平衡的運動和風格類別,這可以進一步提高整體性能。
實驗
實現細節
流水線設置。 對于 DiT 模型,為了最佳利用預訓練的文本生成圖像模型 SANA,本文的 SANA-Video-2B 幾乎與原始 SANA 相同,包括擴散變換器模型和僅有解碼器的小型文本編碼器。對于 480P 視頻,本文使用 Wan2.1-VAE 自動編碼器。對于 720P 高分辨率視頻生成,本文微調了 DCAE 成為視頻深度壓縮自動編碼器(DCAE-V),以促進更高效的訓練和推理。本文的最終模型在 64 個 H100 GPU 上訓練了大約 12 天。
性能比較與分析
SANA-Video 與最先進技術的綜合效率和性能比較如下表 4 所示。本文采用 VBench 作為性能評估指標,并將 480P 81 幀視頻的生成延遲作為效率指標。如下表 4 所示,SANA-Video 展現了 60 秒的顯著延遲,使其成為比較中最快的模型。這意味著其吞吐量比 MAGI-1 快 7.2 倍,比 Step-Video 快超過 4 倍。在比較中,SANA-Video 在文本生成視頻中獲得了 83.71 的總分,與大型模型 Open-Sora-2.0(14B)相當,并超越了 Wan2.1(1.3B)。此外,SANA-Video 在圖像生成視頻中取得了 88.02 的總分,超越了大型 DiT 模型 Wan2.1(14B)和 HunyuanVideo-I2V(11B)。此外,SANA-Video 在所有方法中實現了最佳的語義/I2V 得分,展示了強大的視覺-文本語義對齊能力。

消融研究
本文隨后對前文中討論的重要架構修改進行了消融研究。如下圖 6 所示,本文提供了在 H100 GPU 上的訓練損失曲線和延遲配置文件。

線性注意力模塊。 采用了三個關鍵設計來增強本文的線性注意力模型。首先,本文整合了3D RoPE以將線性注意力集中在局部特征上(上圖3)。這提升了性能,如顯著降低的訓練損失所示(上圖6(a))。其次,為了解決線性注意力與標準注意力之間的差異,本文引入了空間-時間混合 FFN 模塊。其訓練損失曲線(圖6(b))表明,1D 時間卷積層顯著提升了性能。最后,線性注意力設計提供了顯著的效率優勢。如上圖6(c)所示,本文的模型在更高分辨率下的延遲變得更低,在480P下實現了2倍加速,在720P下實現了4倍加速,證明了其在高分辨率視頻生成中的優越效率。
單調增加的 SNR 采樣器。 本文將提出的單調增加的 SNR 采樣器與自回歸塊訓練中的隨機時間步采樣進行了比較。如上圖6(d)所示(兩列來自不同的塊),單調增加的 SNR 采樣器在各個塊中實現了更好的質量和更高的一致性。
長視頻生成。 本文將 SANA-Video 與先前的自回歸視頻生成方法在 VBench 上進行了比較,如表5所示。SANA-Video 的性能與 Self-Forcing 相當,同時優于 SkyReel-V2 和 CausVid。

應用和部署
作為一個預訓練模型,SANA-Video 可以輕松擴展到多個視頻生成應用。首先,本文將 SANA-Video 應用于幾個世界模型應用(圖1和附錄E):具身 AI、自動駕駛和游戲生成。(其次,本文將模型量化為 NVFP4 以實現高效推理。
4位量化的設備端部署。 為了促進高效的邊緣部署,本文使用 SVDQuant 將 SANA-Video 從 BF16 量化為 NVFP4 格式。為了平衡效率和保真度,本文選擇性地量化以下層:自注意力中的 QKV 和輸出投影,交叉注意力中的查詢和輸出投影,以及前饋層中的 1x1 卷積。其他組件(歸一化層、時間卷積和交叉注意力中的 KV 投影)保持較高精度,以保持語義質量并防止累積誤差。如圖7所示,這一策略將單個 RTX 5090 GPU 上生成一個 720p 5秒視頻的端到端時間從71秒減少到29秒,實現了2.4倍的延遲加速,同時保持了與 BF16 基線無法區分的質量。
結論
SANA-Video,這是一種小型擴散模型,能夠以極快的速度和較低的硬件要求高效生成高分辨率、高質量和長時間的視頻。SANA-Video 的重要性在于以下幾個改進:以線性注意力作為核心操作,在大量令牌的視頻生成任務中顯著提高了效率;具有常量內存 KV 緩存的塊線性注意力,支持生成分鐘級長的視頻且內存成本固定;有效的數據過濾和模型訓練策略,將訓練成本縮減到在 64 個 H100 GPU 上僅需 12 天。在如此低的成本下,SANA-Video 展示了比現代最先進的小型擴散模型快 16 倍的速度,同時性能具有競爭力。
本文轉自AI生成未來 ,作者:AI生成未來

















