復旦大學聯合華為諾亞提出VidRD框架,實現迭代式的高質量視頻生成
復旦大學聯合華為諾亞方舟實驗室的研究者基于圖像擴散模型(LDM)提出了一種迭代式生成高質量視頻的方案 ——VidRD (Reuse and Diffuse)。該方案旨在對生成視頻的質量和序列長度上進行突破,實現了高質量、長序列的可控視頻生成。有效減少了生成視頻幀間的抖動問題,具有較高的研究和實用價值,為當前火熱的AIGC社區貢獻了一份力量。
潛在擴散模型(LDM)是一種基于去噪自編碼器(Denoising Autoencoder)的生成模型,它可以通過逐步去除噪聲來從隨機初始化的數據生成高質量的樣本。但由于在模型訓練和推理過程中都存在著計算和內存的限制,一個單獨的 LDM 通常只能生成數量非常有限的視頻幀。盡管現有的工作嘗試使用單獨的預測模型來生成更多的視頻幀,但這也會帶來額外的訓練成本并產生幀級的抖動。
在本文中,受到潛在擴散模型(LDMs)在圖像合成方面的顯著成功的啟發,提出了一個名為“Reuse and Diffuse”的框架,簡稱VidRD。該框架可以在 LDM 已經生成的少部分視頻幀之后,產生更多的視頻幀,從而實現迭代式地生成更長、更高質量以及多樣化的視頻內容。VidRD 加載了預訓練的圖像 LDM 模型進行高效訓練,并使用添加有時序信息的 U-Net 網絡進行噪聲去除。

- 論文標題:Reuse and Diffuse: Iterative Denoising for Text-to-Video Generation
- 論文地址:https://arxiv.org/abs/2309.03549
- 項目主頁:https://anonymous0x233.github.io/ReuseAndDiffuse/
本文的主要貢獻如下:
- 為了生成更加平滑的視頻,本文基于時序感知的 LDM 模型提出了一種迭代式的 “text-to-video” 生成方法。通過重復使用已經生成視頻幀的潛空間特征以及每次都遵循先前的擴散過程,該方法可以迭代式地生成更多的視頻幀。
- 本文設計了一套數據處理方法來生成高質量的 “文本 - 視頻” 數據集。針對現有的動作識別數據集,本文利用多模態大語言模型來為其中的視頻賦予文本描述。針對圖像數據,本文采用隨機縮放和平移的方法來產生更多的視頻訓練樣本。
- 在 UCF-101 數據集上,本文驗證了 FVD 和 IS 兩種評價指標以及可視化結果,定量和定性的結果顯示:相較于現有方法,VidRD 模型均取得了更好的效果。
方法介紹

圖 1. 本文提出的 VidRD 視頻生成框架示意圖
本文認為采用預訓練的圖像 LDM 作為高質量視頻合成的 LDM 訓練起點是一種高效而明智的選擇。同時,這一觀點得到了 [1, 2] 等研究工作的進一步支持。在這樣的背景下,本文精心設計的模型基于預訓練的穩定擴散模型構建,充分借鑒并繼承了其優良的特性。這其中包括一個用于精準潛在表示的變分自編碼器(VAE)和一個功能強大的去噪網絡 U-Net。圖 1 以清晰、直觀的方式展示了該模型的整體架構。
在本文的模型設計中,一個顯著的特點是對預訓練模型權重的充分利用。具體來說,大部分網絡層,包括 VAE 的各組件和 U-Net 的上采樣、下采樣層,均使用穩定擴散模型的預訓練權重進行初始化。這一策略不僅能顯著加速模型的訓練過程,還能從一開始就確保模型表現出良好的穩定性和可靠性。本文的模型可以在一個初始的包含少量幀的視頻片段的條件下,通過重用原始的潛在特征和模仿之前的擴散過程,迭代地生成額外的幀。此外,對于用于在像素空間和潛在空間之間進行轉換的自編碼器,本文在其解碼器中注入了和時序相關的網絡層,并對這些層進行了微調,以提高時間一致性。
為了保證視頻幀間的連續性,本文在模型中添加了 3D Temp-conv 和 Temp-attn 層。Temp-conv 層緊跟在 3D ResNet 后面,該結構可以實現 3D 卷積操作,以捕捉空間和時間的關聯,進而理解視頻序列匯總的動態變化和連續性。Temp-Attn 結構與 Self-attention 相似,用于分析和理解視頻序列中的幀間關系,使模型能夠精準地同步幀間的運行信息。這些參數在訓練時隨機初始化,旨在為模型提供時序結構上的理解和編碼。此外,為了適配該模型結構,數據的輸入也做了相應的適配和調整。

圖 2. 本文提出的高質量 “文本 - 視頻” 訓練數據集構建方法
為了訓練 VidRD 模型,本文提出了一種構建大規模 “文本 - 視頻” 訓練數據集的方法,如圖 2 所示,該方法可以處理 “文本 - 圖像” 數據和無描述的 “文本 - 視頻” 數據。此外,為了實現高質量的視頻生成,本文也嘗試對訓練數據進行了去水印操作。
盡管當前市場上高質量的視頻描述數據集相對稀缺,但存在大量的視頻分類數據集。這些數據集擁有豐富的視頻內容,每段視頻都伴隨一個分類標簽。如 Moments-In-Time、Kinetics-700 和 VideoLT 就是三個代表性的大規模視頻分類數據集。Kinetics-700 涵蓋了 700 個人類動作類別,包含超過 60 萬的視頻片段。Moments-In-Time 則囊括了 339 個動作類別,總共有超過一百萬的視頻段落。而 VideoLT 則包含了 1004 個類別和 25 萬段未經編輯的長視頻。
為了充分利用現有的視頻數據,本文嘗試對這些視頻進行自動化地更加詳細的標注。本文采用了 BLIP-2、MiniGPT4 等多模態大語言模型,通過針對視頻中的關鍵幀,結合其原始的分類標簽,本文設計了許多 Prompts,以通過模型問答的方式產生標注。這種方法不僅增強了視頻數據的語音信息,而且可以為現有沒有詳細描述的視頻帶來更加全面、細致的視頻描述,從而實現了更加豐富的視頻標簽生成,以幫助 VidRD 模型帶來更好的訓練效果。
此外,針對現有的非常豐富的圖像數據,本文也設計了詳細的方法將圖像數據轉換為視頻格式以進行訓練。具體操作為在圖像的不同位置、按照不同的速度進行平移和縮放,從而為每張圖像賦予獨特的動態展現形式,模擬現實生活中移動攝像頭來捕捉靜止物體的效果。通過這樣的方法,可以有效利用現有的圖像數據進行視頻訓練。
效果展示
描述文本分別為:“Timelapse at the snow land with aurora in the sky.”、“A candle is burning.”、“An epic tornado attacking above a glowing city at night.”、以及“Aerial view of a white sandy beach on the shores of a beautiful sea.”。更多可視化效果可見項目主頁。

圖 3. 生成效果與現有的方法進行可視化對比
最后,如圖 3 所示,分別為本文生成結果與現有方法 Make-A-Video [3] 和 Imagen Video [4] 的可視化比較,展現了本文模型質量更好的生成效果。



































