英偉達發布“平民版”Sora，720P分鐘級視頻，一塊顯卡就能跑！

zhangyannni

發布于 2025-10-21 09:18

瀏覽

0收藏

英偉達發布“平民版”Sora，720P分鐘級視頻，一塊顯卡就能跑！-AI.x社區

論文鏈接：https://arxiv.org/pdf/2509.24695
項目鏈接：https://nvlabs.github.io/Sana/Video/

亮點直擊

SANA-Video，一種小型擴散模型，旨在實現高效訓練和快速推理，同時不影響輸出質量。
通過大幅降低計算門檻，SANA-Video 使高質量視頻生成對更廣泛的用戶和系統變得更加可訪問和實用。改進主要體現在三個關鍵組件上:線性 DiT、帶 KV 緩存的塊線性注意力、高效數據過濾和訓練。
模型在生成 720p 視頻時的延遲比最先進的 Wan2.1 快了 13 倍以上（見圖 1(b)），同時在多個基準測試中表現出色。

本文將 SANA-Video 量化并以 NVFP4 精度部署在 RTX 5090 GPU 上，生成一個 5 秒的 720p 視頻僅需 29 秒。希望本文的模型能夠被日常用戶高效使用，提供一個快速視頻生成的強大基礎模型。

英偉達發布“平民版”Sora，720P分鐘級視頻，一塊顯卡就能跑！-AI.x社區

總結速覽

效果一覽

英偉達發布“平民版”Sora，720P分鐘級視頻，一塊顯卡就能跑！-AI.x社區

1.具身智能

英偉達發布“平民版”Sora，720P分鐘級視頻，一塊顯卡就能跑！-AI.x社區

2.游戲

英偉達發布“平民版”Sora，720P分鐘級視頻，一塊顯卡就能跑！-AI.x社區

3.自動駕駛

英偉達發布“平民版”Sora，720P分鐘級視頻，一塊顯卡就能跑！-AI.x社區

解決的問題

SANA-Video 解決了高分辨率、長時間視頻生成中的高計算成本和低效率問題，尤其是在消費級硬件上的部署困難。

提出的方案

引入 SANA-Video，這是一種小型擴散模型，能夠高效生成高質量視頻。該模型通過優化計算資源使用和改進訓練及推理效率，使得視頻生成更加經濟實用。

應用的技術

線性 DiT：使用線性注意力代替傳統自注意力，降低計算復雜度，從降至，并增強視頻生成速度。
帶 KV 緩存的塊線性注意力：設計塊狀自回歸方法，使用常量內存狀態來支持長視頻生成，減少傳統 KV 緩存需求。
高效數據過濾和訓練策略：通過預訓練模型、數據過濾和多階段訓練策略降低訓練成本。

達到的效果

SANA-Video 在生成 720p 視頻時的延遲比最先進的模型快 13 倍以上，訓練成本僅為 MovieGen 的 1%。在 RTX 5090 GPU 上以 NVFP4 精度部署后，生成 5 秒 720p 視頻的速度從 71 秒加速到 29 秒，實現了低成本、高質量的視頻生成。

SANA-Video

英偉達發布“平民版”Sora，720P分鐘級視頻，一塊顯卡就能跑！-AI.x社區

訓練策略

階段1：文本到圖像（T2I）上的 VAE 適配。 由于圖像和視頻 VAE 之間的不匹配，從頭開始訓練視頻 DiT 模型資源密集。本文首先通過高效地將現有的 T2I 模型適配到新的視頻 VAE 來解決這個問題。具體來說，本文利用不同的視頻 VAE 生成不同分辨率的視頻。對于 480P 視頻，高壓縮比的 VAE 限制了整體性能，因此本文采用 Wan-VAE。對于 720P 高分辨率視頻，本文引入了本文的視頻 VAE，DCAE-V，它提供了更高的壓縮比以實現更高效的生成。這兩種 VAE 的適配都非常高效，在 5-10k 的訓練步驟內收斂，進一步證明了本文的 Linear DiT 的強泛化能力。

階段2：從 T2I 模型繼續預訓練。 從預訓練的 T2I 模型初始化視頻 Linear DiT 是利用已經學習的視覺和文本語義知識的一種高效且有效的方法。因此，本文使用從第一階段適配的模型初始化本文的 SANA-Video，并引入額外的設計以建模長時間上下文和運動信息。額外的時間設計是為線性注意力量身定制的，改善了注意力操作的局部性。新添加的層通過跳躍連接進行零初始化，這在早期訓練過程中最小化了它們對預訓練權重的影響。在這種身份初始化之后，SANA-Video 以粗到細的方式進行訓練。它首先在低分辨率、短視頻（例如 192P 2.5 秒）上進行訓練，然后在不同的數據過濾標準下（附錄 D）轉向高分辨率、長視頻（例如 480P 5 秒）。這種粗到細的方法有效地鼓勵 SANA-Video 快速學習動態信息，并通過使用更少但質量更高的數據來細化細節。

階段3：自回歸塊訓練。 持續的預訓練使 SANA-Video 成為一個高效的小型擴散模型，主要用于高分辨率的 5 秒視頻生成。為了能夠生成更長的視頻，本文在下文中分析了線性注意力的屬性，并提出了用于自回歸生成的常量內存塊 KV 緩存。在此設計的基礎上，本文進行自回歸塊訓練，分為兩個步驟：首先訓練自回歸模塊，然后通過改進的自強制塊訓練解決曝光偏差問題。此過程產生了一個高質量、高效的長視頻生成模型。

高效的線性 DiT 預訓練

SANA-Video 采用 SANA作為基礎架構，并創新性地調整了線性擴散變壓器塊，以應對 T2V 任務的獨特挑戰，如上圖 2 所示。提出了以下幾個專用設計：

英偉達發布“平民版”Sora，720P分鐘級視頻，一塊顯卡就能跑！-AI.x社區

然而，直接將 RoPE 應用于查詢和鍵（如在普通注意力中）可能會因 softmax 和 ReLU 相似性函數之間的差異而使線性注意力機制在數值上不穩定。RoPE 變換可能改變 ReLU 輸出的非負性質，可能導致標準線性注意力公式（方程 2）中的分母變為零。為了解決這個問題，本文修改了計算：雖然分子中包括了查詢和鍵上的 RoPE，但本文在分母中去掉了鍵或查詢之一的 RoPE。這確保了分母保持正值，保證了訓練的穩定性（上圖 3 (b)），同時仍然受益于位置編碼。

英偉達發布“平民版”Sora，720P分鐘級視頻，一塊顯卡就能跑！-AI.x社區

具有時空混合的 Mix-FFN。如上圖 3 所示，本文將 SANA-Video 中的線性注意力圖與 Wan2.1 中的 softmax 注意力圖進行了比較。本文觀察到，相較于 softmax 注意力，線性注意力更加密集且對局部細節的關注較少。SANA 通過在 Mix-FFN 中加入卷積來改善圖像生成中的局部性問題。在 Mix-FFN 的基礎上，本文通過時間一維卷積增強了它。時間卷積與快捷連接一起被附加到塊的末尾（上圖 2(b)），實現了無縫的時間特征聚合，同時保留了初始化。該模塊有助于捕捉沿時間軸的局部關系，從而在生成的視頻中實現更好的運動連續性和一致性。如本文的消融研究所示（下圖 6(a)），這一添加顯著降低了訓練損失并改善了運動性能。

英偉達發布“平民版”Sora，720P分鐘級視頻，一塊顯卡就能跑！-AI.x社區

塊線性注意力

本節概述了實現高效長視頻生成的關鍵組件。受因果線性注意力的固有屬性啟發，本文在塊線性注意力模塊中探索了常量內存的全局 KV 緩存，該模塊支持長上下文注意力，同時占用較小且固定的 GPU 內存。基于該模塊，本文引入了一個兩階段的自回歸模型繼續訓練范式：使用單調增加的 SNR 采樣器進行自回歸塊訓練，以及用于長上下文注意力的改進自強制方法。

帶有 KV 緩存的塊線性注意力

英偉達發布“平民版”Sora，720P分鐘級視頻，一塊顯卡就能跑！-AI.x社區

塊線性注意力中的 KV 緩存。 與因果普通注意力中急劇增加的計算和內存成本相比，線性注意力具有顯著的效率優勢，自然支持具有全局注意力的長視頻生成，同時保持常量內存。考慮因果注意力設置，線性注意力（方程 2）對于第 i個 token 的輸出可以重新表述為：

英偉達發布“平民版”Sora，720P分鐘級視頻，一塊顯卡就能跑！-AI.x社區

自回歸塊訓練

自回歸 SANA-Video 變體的持續訓練始于預訓練的 5 秒 SANA-Video 模型。為了與預訓練模型的分布對齊，本文提出了一種單調遞增的 SNR 采樣器。具體來說，隨機選擇一個塊，并使用 SNR 采樣器為其采樣一個時間步長。然后，通過傳播概率為剩余的塊采樣時間步長，確保所有時間步長單調遞增，即后面的塊具有比前面塊更大的時間步長。這個提出的時間步長采樣器提供了兩個關鍵優勢。首先，單調遞增的時間步長比隨機時間步長具有更小的采樣空間，從而導致更快的收斂和更好的性能。其次，將 SNR 采樣器應用于隨機選擇的塊可以保證每個塊都經過充分的信息訓練。

然而，單調遞增的 SNR 采樣器無法解決自回歸生成中的一個嚴重問題，即曝光偏差。在訓練過程中，條件塊是地面實況，而在推理過程中則是生成的內容，這導致了錯誤累積并限制了長視頻生成的性能。Self-Forcing 旨在通過自回歸展開解決在基礎注意力 DiT 模型中的這一問題。在本文的工作中，本文改進了 Self-Forcing，以更好地利用本文恒定內存的全局 KV 緩存。由于因果基礎注意力的顯存需求增加，Self-Forcing 在設計的窗口大小內使用局部注意力。因此，它將自生成內容的長度設置為與預訓練模型相同（即 5 秒）。相比之下，SANA-Video 中的塊線性注意力支持一個小且恒定 GPU 內存的長上下文全局 KV 緩存。這使得本文可以自生成更長的視頻（例如 1 分鐘）并選擇一個片段進行訓練，這更好地對齊了訓練和推理之間的條件信號。

推理過程中的塊線性注意力

英偉達發布“平民版”Sora，720P分鐘級視頻，一塊顯卡就能跑！-AI.x社區

深度壓縮視頻自動編碼器

SANA-Video 使用 Wan-VAE 在 480P 視頻生成中實現了高效和高質量。然而，即使使用本文高效的線性注意力，生成 720P 視頻的速度仍然慢了 2.3 倍。對于全注意力的 DiT 模型，這種效率下降更為嚴重（例如 Wan 2.1 1.3B 慢 4 倍），這促使本文探索一種能夠壓縮更多 token 的更高效的 VAE。本文將 DCAE 微調為 DCAE-V，具有空間下采樣因子F=32 ，時間因子T=4 ，以及通道數 C=32。潛在通道的數量與本文預訓練的 T2I 模型對齊，使得從圖像到視頻模型在相同的潛在空間中快速適應。

同時進行的 Wan2.2-5B 模型也實現了 32 倍的空間壓縮，通過結合具有空間下采樣因子 16 的 VAE 和 2 的補丁嵌入壓縮。DCAE-V 相對于 Wan2.2-VAE 的優勢有兩個。首先，DCAE-V 的 32 個潛在通道與本文預訓練的 T2I 模型對齊，提高了收斂速度。其次，為了實現相同的壓縮比，Wan2.2-VAE 需要模型預測一個更大的潛在維度（192 對比 DCAE-V 的 32），這對于小型擴散模型來說是一項困難的任務。如下表 3 所示，DCAE-V 展示了與其他最先進的 VAE（如 Wan2.1、Wan2.2 和 LTX-Video）相當的重建性能。這種高壓縮使本文的模型能夠在性能上與更大的模型（例如 Wan2.1-14B 和 Wan2.2-5B）相媲美，同時表現出顯著的加速，如下表 2 所示。具體來說，SANA-Video 可以在僅 36 秒內生成一個 720P 5 秒的視頻，比 Wan2.1-14B 加速了 53 倍。與與本文共享相同壓縮比的 Wan2.2-5B 相比，SANA-Video 實現了 3.2 倍的加速。

英偉達發布“平民版”Sora，720P分鐘級視頻，一塊顯卡就能跑！-AI.x社區

數據過濾 Pipeline

為了策劃本文的訓練數據集，收集了公共的真實和合成數據，并實施了一個多階段的過濾范式。首先，本文使用 PySceneDetect 和 FFMPEG 將原始視頻剪輯成單個場景的短片。對于每個視頻片段，本文分析其美學和運動質量，并提供詳細的字幕。具體而言，運動質量通過 Unimatch（光流）和 VMAF（像素差異）測量，僅保留運動適中且清晰的片段。此外，平均光流被用作運動幅度的表示，注入提示以更好地控制運動。美學質量通過預訓練的視頻美學模型（DOVER）和使用 OpenCV 獲得的關鍵幀飽和度來測量，低美學評分和過度飽和的視頻會被移除。最后，本文根據嚴格的運動和美學標準收集了大約 5,000 個符合人類偏好的高質量視頻。SFT 數據收集了多樣且平衡的運動和風格類別，這可以進一步提高整體性能。

實驗

實現細節

流水線設置。 對于 DiT 模型，為了最佳利用預訓練的文本生成圖像模型 SANA，本文的 SANA-Video-2B 幾乎與原始 SANA 相同，包括擴散變換器模型和僅有解碼器的小型文本編碼器。對于 480P 視頻，本文使用 Wan2.1-VAE 自動編碼器。對于 720P 高分辨率視頻生成，本文微調了 DCAE 成為視頻深度壓縮自動編碼器（DCAE-V），以促進更高效的訓練和推理。本文的最終模型在 64 個 H100 GPU 上訓練了大約 12 天。

性能比較與分析

SANA-Video 與最先進技術的綜合效率和性能比較如下表 4 所示。本文采用 VBench 作為性能評估指標，并將 480P 81 幀視頻的生成延遲作為效率指標。如下表 4 所示，SANA-Video 展現了 60 秒的顯著延遲，使其成為比較中最快的模型。這意味著其吞吐量比 MAGI-1 快 7.2 倍，比 Step-Video 快超過 4 倍。在比較中，SANA-Video 在文本生成視頻中獲得了 83.71 的總分，與大型模型 Open-Sora-2.0（14B）相當，并超越了 Wan2.1（1.3B）。此外，SANA-Video 在圖像生成視頻中取得了 88.02 的總分，超越了大型 DiT 模型 Wan2.1（14B）和 HunyuanVideo-I2V（11B）。此外，SANA-Video 在所有方法中實現了最佳的語義/I2V 得分，展示了強大的視覺-文本語義對齊能力。

英偉達發布“平民版”Sora，720P分鐘級視頻，一塊顯卡就能跑！-AI.x社區

消融研究

本文隨后對前文中討論的重要架構修改進行了消融研究。如下圖 6 所示，本文提供了在 H100 GPU 上的訓練損失曲線和延遲配置文件。

英偉達發布“平民版”Sora，720P分鐘級視頻，一塊顯卡就能跑！-AI.x社區

線性注意力模塊。 采用了三個關鍵設計來增強本文的線性注意力模型。首先，本文整合了3D RoPE以將線性注意力集中在局部特征上（上圖3）。這提升了性能，如顯著降低的訓練損失所示（上圖6(a)）。其次，為了解決線性注意力與標準注意力之間的差異，本文引入了空間-時間混合 FFN 模塊。其訓練損失曲線（圖6(b)）表明，1D 時間卷積層顯著提升了性能。最后，線性注意力設計提供了顯著的效率優勢。如上圖6(c)所示，本文的模型在更高分辨率下的延遲變得更低，在480P下實現了2倍加速，在720P下實現了4倍加速，證明了其在高分辨率視頻生成中的優越效率。

單調增加的 SNR 采樣器。 本文將提出的單調增加的 SNR 采樣器與自回歸塊訓練中的隨機時間步采樣進行了比較。如上圖6(d)所示（兩列來自不同的塊），單調增加的 SNR 采樣器在各個塊中實現了更好的質量和更高的一致性。

長視頻生成。 本文將 SANA-Video 與先前的自回歸視頻生成方法在 VBench 上進行了比較，如表5所示。SANA-Video 的性能與 Self-Forcing 相當，同時優于 SkyReel-V2 和 CausVid。

英偉達發布“平民版”Sora，720P分鐘級視頻，一塊顯卡就能跑！-AI.x社區

應用和部署

作為一個預訓練模型，SANA-Video 可以輕松擴展到多個視頻生成應用。首先，本文將 SANA-Video 應用于幾個世界模型應用（圖1和附錄E）：具身 AI、自動駕駛和游戲生成。（其次，本文將模型量化為 NVFP4 以實現高效推理。

4位量化的設備端部署。 為了促進高效的邊緣部署，本文使用 SVDQuant 將 SANA-Video 從 BF16 量化為 NVFP4 格式。為了平衡效率和保真度，本文選擇性地量化以下層：自注意力中的 QKV 和輸出投影，交叉注意力中的查詢和輸出投影，以及前饋層中的 1x1 卷積。其他組件（歸一化層、時間卷積和交叉注意力中的 KV 投影）保持較高精度，以保持語義質量并防止累積誤差。如圖7所示，這一策略將單個 RTX 5090 GPU 上生成一個 720p 5秒視頻的端到端時間從71秒減少到29秒，實現了2.4倍的延遲加速，同時保持了與 BF16 基線無法區分的質量。

結論

SANA-Video，這是一種小型擴散模型，能夠以極快的速度和較低的硬件要求高效生成高分辨率、高質量和長時間的視頻。SANA-Video 的重要性在于以下幾個改進：以線性注意力作為核心操作，在大量令牌的視頻生成任務中顯著提高了效率；具有常量內存 KV 緩存的塊線性注意力，支持生成分鐘級長的視頻且內存成本固定；有效的數據過濾和模型訓練策略，將訓練成本縮減到在 64 個 H100 GPU 上僅需 12 天。在如此低的成本下，SANA-Video 展示了比現代最先進的小型擴散模型快 16 倍的速度，同時性能具有競爭力。

本文轉自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/71p5kebT3PIvulUsJn-iKA??

標簽

視頻生成

模型

贊

回復

舉報

社區頭條

回復

51CTO

51CTO博客

51CTO學堂

英偉達發布“平民版”Sora，720P分鐘級視頻，一塊顯卡就能跑！

總結速覽

效果一覽

1.具身智能

2.游戲

3.自動駕駛

解決的問題

提出的方案

應用的技術

達到的效果

SANA-Video

訓練策略

高效的線性 DiT 預訓練

塊線性注意力

帶有 KV 緩存的塊線性注意力

自回歸塊訓練

推理過程中的塊線性注意力

深度壓縮視頻自動編碼器

數據過濾 Pipeline

實驗

實現細節

性能比較與分析

消融研究

應用和部署

結論

目錄