速度狂飆12倍!清華FlashVSR:首次實現超高清視頻實時超分辨率,超越所有擴散VSR模型

文章鏈接:https://arxiv.org/pdf/2510.12747
項目鏈接:https://zhuang2002.github.io/FlashVSR
代碼鏈接:https://github.com/OpenImagingLab/FlashVSR
模型鏈接:https://huggingface.co/JunhaoZhuang/FlashVSR

高分辨率視頻修復的效率和性能比較與最先進的 VSR 模型(如 DOVE 和 SeedVR2-3B)相比,FlashVSR 能還原更清晰的紋理和更細致的結構。它使用單個 A100 GPU 在 768×1408 視頻上實現了接近實時的 17 FPS 性能,與最快的一步擴散 VSR 模型相比,速度提高了 11.8 倍。(放大以獲得最佳視圖)
亮點直擊
- 首個實時流式擴散VSR框架—— 通過蒸餾與稀疏注意力實現端到端實時處理。
- 高效可擴展設計—— 稀疏局部注意力解決分辨率泛化與計算冗余兩難。
- 輕量條件解碼器 + 大規模數據集—— 同時兼顧速度、質量與訓練規模,奠定未來高分辨率視頻超分的基礎。
總結速覽
解決的問題
對 擴散模型在真實場景視頻超分辨率(VSR)中的三大瓶頸問題 提出改進:
- 高延遲問題:現有方法需對視頻分塊(chunk)處理,導致重疊幀冗余計算與高“lookahead”延遲。
- 高計算復雜度問題:視頻生成模型通常采用全局三維注意力(dense 3D attention),計算量隨分辨率平方增長,難以實時運行。
- 訓練-測試分辨率不匹配問題:模型多在中等分辨率上訓練,在高分辨率(如1440p)上泛化性能下降。
提出的方案
FlashVSR提出了首個基于擴散模型的實時流式視頻超分辨率框架,通過三項關鍵創新實現高效與可擴展性:
- 三階段蒸餾訓練Pipeline(Train-friendly Distillation Pipeline)
- (i) 先訓練一個全注意力聯合圖像-視頻VSR模型作為教師模型;
- (ii) 再微調為塊稀疏因果注意力模型;
- (iii) 最后蒸餾成單步(one-step)VSR模型,實現高效推理與流式超分。
- 局部約束稀疏注意力(Locality-constrained Sparse Attention)
- 先池化計算粗注意力圖,僅對得分最高的top-k區域進行全注意力;
- 同時引入空間局部窗口約束,保證訓練與推理階段的位置編碼范圍一致,從而改善高分辨率泛化。
- 輕量條件解碼器(Tiny Conditional Decoder)
- 以低分辨率幀作為條件輸入,輔助高分辨率重建;
- 在保持視覺質量的同時,解碼速度提升約7倍,顯著降低運行瓶頸。
應用的技術
- 擴散模型 (Diffusion-based VSR):利用一階擴散過程實現高質量時空恢復;
- 塊稀疏注意力 (Block-sparse Attention):減少不必要的計算區域;
- 局部窗口約束 (Local Windows):解決訓練-推理分辨率不匹配問題;
- 三階段知識蒸餾 (Three-stage Distillation):高效訓練流式單步模型;
- 條件VAE解碼器 (Conditional Decoder):降低解碼負擔,加速生成;
- 大規模數據集 VSR-120K:包含 12 萬視頻與 18 萬圖像,為聯合訓練提供支撐。
達到的效果
- 實時性能:在單張 A100 GPU 上實現17 FPS(768×1408);
- 低延遲:僅需8 幀前瞻(lookahead latency),遠優于以往 80 幀的分塊方法;
- 高效率:較最強單步擴散VSR模型(SeedVR2-3B)加速約12倍;
- 高泛化:可穩定擴展至1440p 超高清分辨率,保持細節質量;
- SOTA 性能:在定量與主觀指標上均超越現有擴散VSR模型。
方法
本文提出了 FlashVSR,這是一種高效的基于擴散模型的單步流式視頻超分辨率(VSR)框架,可在單張 A100 GPU 上以接近實時的速度進行推理(17 FPS,分辨率為 768 × 1408)。此外,為了訓練高質量的 VSR 模型,我們還構建了一個大規模高質量數據集 VSR-120K。
如下圖 2 所示,FlashVSR 基于三階段蒸餾框架構建,并結合局部約束稀疏注意力以緩解訓練與推理分辨率之間的差距,同時引入輕量條件解碼器以降低 3D VAE 解碼器的計算開銷。以下將詳細介紹各部分內容。

VSR-120K 數據集
為克服現有 VSR 數據集規模和質量的限制,本文構建了 VSR-120K,一個用于圖像–視頻聯合超分辨訓練的大規模數據集。從 Videvo、Pexels 和 Pixabay 等開放資源庫中收集原始數據,包括 60 萬段視頻片段和 22 萬張高分辨率圖像。
在質量控制方面,采用 LAION-Aesthetic 預測器和 MUSIQ 進行視覺質量評估,并使用 RAFT 進行運動過濾。最終數據集包含 12 萬段視頻(平均長度超過 350 幀)和 18 萬張高質量圖像。
三階段蒸餾管線
為構建一個高質量且高效的 VSR 模型,本文設計了一個三階段蒸餾管線:(1) 圖像–視頻聯合訓練以建立強教師模型,(2) 因果稀疏注意力適配以實現流式高效,(3) 分布匹配蒸餾以獲得單步學生模型。
階段 1:視頻–圖像聯合超分訓練我們將一個預訓練的視頻擴散模型(WAN2.1 1.3B)適配為超分辨任務,通過在視頻與圖像上聯合訓練來實現,其中圖像被視為單幀視頻(f=1),從而實現統一的三維注意力形式。如圖 2 的階段 1 所示,應用一個塊對角段掩碼以限制注意力在同一段內進行。


局部約束稀疏注意力
對于超分辨率任務,在中等分辨率上訓練的模型可能無法很好地泛化到超高分辨率(如 1440p),導致如下圖 3 所示的重復模式與模糊現象。分析表明,這種問題源于位置編碼的周期性:當推理時的位置范圍遠超訓練范圍時,某些維度會重復其模式,從而削弱自注意力的表現,如圖 3 底部所示。

本文引入了局部約束注意力機制,在推理時限制每個查詢僅關注有限的空間鄰域,從而使注意力范圍與訓練時保持一致。借助相對位置編碼(RoPE)的形式化,這一簡單約束消除了位置范圍上的訓練–推理差距。該方法彌合了分辨率差距,并在高分辨率輸入上保持一致性能,如圖 3 中部所示。
輕量條件解碼器
在獲得單步流式模型后,發現 VAE 解碼器在推理過程中占據主要時間(約 70% 的運行時間),成為瓶頸。



其中λ = 2。TC 解碼器在保持相當質量的同時,實現了比原始 VAE 解碼器快近 7 倍的解碼速度,并且在相同參數預算下始終優于無條件的小型解碼器。
實驗
實現細節

數據集、指標與基線
在三個合成數據集(YouHQ40、REDS、SPMCS)、一個真實世界數據集(VideoLQ)以及一個 AI 生成數據集(AIGC30)上進行評估。合成 LR 幀使用與訓練相同的降質管線生成。使用 PSNR、SSIM、LPIPS、MUSIQ、CLIPIQA 和 DOVER對具有真實值的數據集(YouHQ40、REDS、SPMCS)進行評估,而對于沒有真實值的數據集(VideoLQ、AIGC30),僅使用無參考指標(MUSIQ、CLIPIQA、DOVER)。將 FlashVSR 與 RealViFormer(非擴散 Transformer)、STAR和 Upscale-A-Video(多步擴散),以及 DOVE和 SeedVR2-3B(單步擴散)進行比較。
與現有方法的比較
定量比較。 將 FlashVSR 與最先進的真實世界視頻超分辨方法進行比較。對于基于多步擴散的模型,我們采用其默認配置,STAR 使用 15 個采樣步,Upscale-A-Video 使用 30 個采樣步。下表1 報告了定量結果。FlashVSR 在所有數據集上持續優于競爭方法,特別是在 MUSIQ、CLIPIQA 和 DOVER 等感知指標上表現突出。此外,與使用 Wan 原始 VAE 解碼器相比,所提出的 TC 解碼器在保持高效的同時進一步提升了重建指標。我們還注意到 RealViFormer 在 REDS 上具有固有優勢,因為該數據集包含在其訓練集中。評估結果突出了 FlashVSR 在實現高質量視頻超分辨方面的有效性。

定性比較。 為了在真實場景中提供更直觀的視覺質量對比,我們在 VideoLQ 和 AIGC30 上展示了定性結果,如下圖 5 所示。為清晰起見,我們還放大了選定的局部區域,以更好地展示各方法的 LR 幀和輸出之間的差異。FlashVSR 相比基線生成了更清晰、更具細節的重建結果,其紋理和結構更加自然。例如,在圖 5 的最后一行中,FlashVSR 恢復了更清晰的手部紋理和書架細節,結果在視覺上更為逼真。這些定性觀察與感知指標上的定量提升一致。

效率分析。 下表2 報告了在 768 × 1408 分辨率下 101 幀視頻的效率比較。通過流式推理、塊稀疏注意力、單步蒸餾和輕量級條件解碼器,FlashVSR 相較于所有基線模型實現了顯著的效率提升。它比 Upscale-A-Video(30 步)快 136 倍,比 STAR(15 步)快 114 倍,甚至比最快的單步模型 SeedVR2-3B 還快 11.8 倍,同時使用的峰值顯存更少(11.1 GB 對比 52.9 GB)。STAR 使用分塊推理(塊大小 32,重疊 0.5),大多數方法一次性處理整個序列。相比之下,FlashVSR 采用流式推理,將前瞻延遲降低至僅 8 幀(STAR 為 32 幀,其他方法為 101 幀)。這些結果證明了 FlashVSR 在實際部署中的可行性。

消融研究
稀疏注意力。 在 REDS 上評估稀疏注意力的影響。如下表 3 所示,具有 13.6% 稀疏度的 FlashVSR 在重建和感知質量方面與全注意力基線(KV-cache 大小為 85 幀)幾乎相同。在768x1408下,其每 8 幀的推理時間從 1.105s 減少到 0.355s(加速約 3.1 倍),從而在不損失視覺質量的情況下顯著提升了效率。這表明稀疏注意力能夠有效剪除冗余交互,減輕計算開銷,同時保留實現高質量視頻超分辨所需的關鍵時空依賴。

微型條件解碼器。 在 200 個隨機選擇的未見視頻上評估所提出的 TC 解碼器,其中所有輸入均通過 Wan VAE 編碼器壓縮,并分別由三個解碼器重建:原始 Wan 解碼器、TC 解碼器,以及一個無條件變體。如下表 4 和圖 5 所示,TC 解碼器在視覺質量上與 Wan 解碼器幾乎相同,其定量指標也非常接近。對于一段768x1408分辨率的 101 幀視頻,其解碼時間為 1.60s,而 Wan 解碼器為 11.13s,實現了約 7 倍加速。此外,在 PSNR、SSIM 和 LPIPS 上,TC 解碼器始終優于無條件變體,表明引入 LR 幀條件的有效性。TC 解碼器在保持最小保真度損失的同時顯著提升了解碼速度,使其非常適合于實際的視頻超分辨部署。

局部約束注意力。 前面圖 3 展示了所提出的局部約束注意力掩碼如何通過對齊訓練與推理階段的位置編碼范圍,緩解超高分辨率下的重復紋理和模糊問題。為了定量驗證其有效性,在 15 個高分辨率視頻(1536x2688,平均 305 幀)上進行評估。我們根據邊界處理方式(見圖 3)考慮兩種變體:Boundary-Preserved 和 Boundary-Truncated,兩者的感受野均限制為 1152x1152,并與全局注意力匹配稀疏度。結果如下表 5 所示。與全局注意力相比,兩種變體在所有指標上均有一致提升。值得注意的是,Boundary-Truncated 在感知質量上略有優勢,而 Boundary-Preserved 在保持較好保真的同時表現出競爭力。這些結果證實了局部約束注意力能夠有效提升超高分辨率視頻的超分辨性能。

結論
FlashVSR,一種高效的基于擴散的一步流式視頻超分辨框架。通過結合流式蒸餾、局部約束稀疏注意力和微型條件解碼器,FlashVSR 以接近實時的效率和強大的超高分辨率擴展能力實現了最先進的質量。我們的結果證明了 FlashVSR 的有效性和實用性,凸顯了其在真實世界視頻應用中的潛力。
本文轉自AI生成未來 ,作者:AI生成未來

















