碾壓SOTA!騰訊HunyuanVideo-Foley開源:讓視頻自動生成電影級音效,沉浸感拉滿! 精華
文章鏈接:https://arxiv.org/abs/2508.16930
項目鏈接:https://szczesnys.github.io/hunyuanvideo-foley/

亮點直擊
- 提出了一種高效的TV2A數(shù)據(jù)pipeline,能夠自動整理包含10萬小時級別文本-視頻-音頻對的大規(guī)模高質(zhì)量數(shù)據(jù)集。
- 引入了一種REPA損失函數(shù),利用預訓練音頻特征為音頻建模過程提供語義和聲學指導,有效提升音頻生成質(zhì)量與穩(wěn)定性。
- 提出了HunyuanVideo-Foley,一種新穎的TV2A框架,能夠從視頻和文本輸入生成高質(zhì)量、語義和時序?qū)R的音頻。本方法緩解了模態(tài)不平衡問題,顯著增強了視覺-語義對齊能力,同時保持文本-語義對齊性能,實現(xiàn)了SOTA表現(xiàn)。
總結(jié)速覽
解決的問題
- 多模態(tài)數(shù)據(jù)稀缺:現(xiàn)有公開數(shù)據(jù)集(如VGGSound)規(guī)模小、質(zhì)量低,缺乏高質(zhì)量的視頻-音頻-文本多模態(tài)數(shù)據(jù),限制了模型的泛化能力。
- 模態(tài)不平衡:現(xiàn)有方法過度依賴文本模態(tài),忽視視頻語義,導致生成的音頻與視頻內(nèi)容在細節(jié)上不一致(如忽略畫面中的腳步聲、鳥鳴等)。
- 音頻質(zhì)量不足:現(xiàn)有方法生成的音頻存在背景噪聲和語義不一致的偽影,無法達到專業(yè)級音效標準。
提出的方案
HunyuanVideo-Foley,一個端到端的文本-視頻-音頻生成框架,主要包括:
- 構(gòu)建大規(guī)模多模態(tài)數(shù)據(jù)集:通過自動化標注和過濾流程,構(gòu)建了一個約10萬小時的高質(zhì)量文本-視頻-音頻數(shù)據(jù)集。
- 表示對齊策略(REPA):使用自監(jiān)督音頻特征對齊隱空間擴散模型的隱藏表示,提升音頻質(zhì)量和生成穩(wěn)定性。
- 多模態(tài)擴散Transformer(MMDiT):設(shè)計雙流音視頻融合模塊和文本語義注入機制,解決模態(tài)競爭問題,增強多模態(tài)對齊。
應用的技術(shù)
- 自動化數(shù)據(jù)pipeline:用于大規(guī)模多模態(tài)數(shù)據(jù)集的標注、清洗和構(gòu)建。
- 自監(jiān)督音頻特征提取:使用預訓練模型(如Li, Shao, and Li 2023)提取高質(zhì)量音頻表示,用于REPA對齊損失。
- 多模態(tài)擴散Transformer(MMDiT):
- 雙流自注意力機制 + 旋轉(zhuǎn)位置編碼(RoPE)加強音視頻時序?qū)R;
- 跨注意力機制注入文本語義。
- 增強型自編碼器(基于DAC改進):將離散token改為連續(xù)128維表示,提升音頻重建能力。
- 流匹配(flow-matching)訓練范式:用于端到端的多模態(tài)音頻生成。
達到的效果
- 音頻保真度高:生成的音頻質(zhì)量顯著提升,背景噪聲減少,語義一致性增強。
- 多模態(tài)對齊能力強:
- 語義對齊:音頻與視頻內(nèi)容細節(jié)一致(如同時生成海浪、腳步聲、鳥鳴);
- 時序?qū)R:音頻與視頻動態(tài)精確同步。
- 生成穩(wěn)定性提升:通過REPA損失和增強自編碼器,提高了生成過程的穩(wěn)定性和重建質(zhì)量。
- 綜合評估表現(xiàn)優(yōu)異:在音頻保真度、視覺-語義對齊、時序?qū)R和分布匹配等方面達到新的SOTA性能。
方法
TV2A數(shù)據(jù)pipeline
TV2A任務提出了一個復雜的多模態(tài)生成挑戰(zhàn),需要大規(guī)模、高質(zhì)量的文本-視頻-音頻數(shù)據(jù)集來生成穩(wěn)健且可泛化的音頻。然而,當前開源數(shù)據(jù)集缺乏必要的質(zhì)量和規(guī)模來充分支持這一高要求任務。為彌補這一差距,我們開發(fā)了一個全面的數(shù)據(jù)pipeline,旨在系統(tǒng)性地識別并排除不合適的內(nèi)容。
如下圖1所示,本文的多階段過濾過程首先消除缺少音頻流的視頻。隨后,采用場景檢測算法對原始視頻進行分割,然后將其切分為8秒間隔的片段。這些片段經(jīng)過靜音比率分析,超過80%靜音閾值的片段將被丟棄。鑒于互聯(lián)網(wǎng)平臺上普遍存在嚴重壓縮和質(zhì)量下降的內(nèi)容,實施帶寬檢測以確保音頻質(zhì)量,僅保留有效采樣率超過32 kHz的樣本。
音頻質(zhì)量是生成式音頻任務中的關(guān)鍵因素。使用劣質(zhì)設(shè)備捕獲的視頻通常表現(xiàn)出大量背景噪聲和環(huán)境干擾,使其不適合生成影院級質(zhì)量的音頻。為解決這一問題,采用AudioBox-aesthetic-toolkit進行音頻質(zhì)量評估。此外,信噪比(SNR)測量作為補充指標。使用這些參數(shù),憑經(jīng)驗設(shè)計了一個標準來過濾并僅保留高質(zhì)量的音頻片段。V2A領(lǐng)域的另一個挑戰(zhàn)是確保音頻-視頻對齊,包括語義和時序?qū)R。利用ImageBind和AV-align分別處理語義和時序?qū)R。

經(jīng)過上述過濾過程后,使用語音-音樂檢測和音頻分類模型對剩余視頻片段進行標注。這些標注為每個片段提供類別標簽,從而實現(xiàn)有效的類別分布管理并確保訓練數(shù)據(jù)集中具有平衡的表征。隨后,使用GenAU為每個片段生成音頻字幕,提供音頻內(nèi)容的簡明描述。利用此數(shù)據(jù)pipeline,構(gòu)建了一個高質(zhì)量的TV2A數(shù)據(jù)集,包含約10萬小時的文本-視頻-音頻材料,為模型訓練提供了穩(wěn)健支持。
TV2A框架概述
為實現(xiàn)模態(tài)平衡和高質(zhì)量的TV2A生成,引入了HunyuanVideo-Foley框架。如下圖2所示,HunyuanVideo-Foley采用混合架構(gòu),包含N1個多模態(tài)Transformer塊(視覺-音頻流)和緊隨其后的N2個單模態(tài)Transformer塊(僅音頻流)。在訓練過程中,視頻幀通過預訓練的視覺編碼器編碼為視覺特征,而文本字幕通過預訓練的文本編碼器處理以提取語義特征。同時,原始音頻經(jīng)過音頻編碼器產(chǎn)生隱空間表示,這些表示受到加性高斯噪聲的擾動。時序?qū)R機制利用源自Synchformer的幀級同步特征,通過門控調(diào)制路徑協(xié)調(diào)生成過程。

模態(tài)平衡的MMDiT架構(gòu)


交錯RoPE確保模型能夠有效捕獲音頻隱空間表示和視覺特征之間的固有時序結(jié)構(gòu),從而在生成過程中提高生成質(zhì)量和時序一致性。
同步特征調(diào)制。該模型實現(xiàn)了一種結(jié)合調(diào)制和門控層的動態(tài)條件調(diào)節(jié)方案。條件信號c被表述為同步特征和流時間步嵌入的總和,如公式(2)所示:



該條件調(diào)節(jié)機制確保在多模態(tài)交互和單模態(tài)處理階段均保持時序一致性。
REPA訓練策略


通過最大化預訓練表示與DiT層內(nèi)部表示之間的余弦相似度,REPA損失能夠在音頻生成建模過程中提供更有效的語義和聲學指導,從而增強語義對齊性和生成音頻的質(zhì)量。
實驗
實驗設(shè)置
自編碼器。在自編碼器框架中,我們開發(fā)了DAC-VAE,通過將DAC中的殘差向量量化(RVQ)塊替換為變分自編碼器架構(gòu)。該方法在隱空間采用高斯分布建模,并用KL散度正則化替代量化損失,從而實現(xiàn)連續(xù)編碼。我們的DAC-VAE使用32個NVIDIA H20 GPU,批次大小為256,在約10萬小時的音頻數(shù)據(jù)上訓練了70萬步。采用AdamW優(yōu)化器,學習率為1e-4進行優(yōu)化。實現(xiàn)的系統(tǒng)工作在48kHz采樣率下,隱空間向量維度為128,潛在速率為50Hz。
實現(xiàn)細節(jié)。HunyuanVideo-Foley包含18個MMDiT層和36個單模態(tài)音頻DiT層,隱藏維度為1536,12個注意力頭。訓練在128個H20 GPU上進行,有效批次大小為2048,在我們提出的數(shù)據(jù)pipeline構(gòu)建的10萬小時級別TV2A數(shù)據(jù)集上訓練20萬步,使用AdamW優(yōu)化器,學習率為1e-4。我們對每種模態(tài)應用了0.1的分類器無關(guān)引導(CFG)丟棄率。為進行評估,在Kling-Audio-Eval、VGGSound測試集和MovieGen-Audio-Bench上對HunyuanVideo-Foley與現(xiàn)有SOTA模型進行了客觀指標比較。此外,在MovieGen-Audio-Bench上進行主觀測試,通過人工評估來感知質(zhì)量。
評估指標。為進行全面評估,采用多維度指標套件,評估關(guān)鍵維度:使用PANNs和PaSST作為特征提取器,通過Fr`echet 距離(FD)和Kullback-Leibler散度(KL)進行分布匹配;通過使用PANNs分類器計算的Inception Score(IS)以及包含制作質(zhì)量(PQ)、制作復雜度(PC)、內(nèi)容享受度(CE)和內(nèi)容有用性(CU)的AudioBox-Aesthetics來測量音頻質(zhì)量;通過ImageBind(IB)量化視覺-語義對齊性,測量輸入視頻與生成音頻嵌入之間的余弦相似度;通過Synchformer預測的DeSync評估時序?qū)R性;通過LAION-CLAP分數(shù)(Wu等人2024)評估文本-語義一致性。對于主觀評估,我們采用平均意見得分(MOS)來評估音頻質(zhì)量(MOS-Q)、語義對齊性(MOS-S)和時序?qū)R性(MOS-T)。在音頻重建方面,我們采用語音質(zhì)量感知評估(PESQ)、短時客觀可懂度(STOI)、尺度不變信號失真比(SI-SDR)和梅爾距離。
主要結(jié)果
文本-視頻-音頻生成。下表1展示了在Kling-Audio-Eval數(shù)據(jù)集上的客觀評估結(jié)果。與基線相比,HunyuanVideo-Foley在多個指標上表現(xiàn)出優(yōu)越性能,包括分布匹配(FD、KL)、音頻質(zhì)量(PQ)、視覺-語義對齊(IB)和時序同步(DeSync)。與當前最先進模型MMAudio相比,HunyuanVideo-Foley在IS、CE和CLAP分數(shù)上表現(xiàn)稍遜,但在FD(9.01到6.07)、KL(2.17到1.89)和IB(0.30到0.38)分數(shù)上實現(xiàn)了顯著改進。

下表2顯示了在VGGSound-Test上的客觀評估。值得注意的是,HunyuanVideo-Foley在分布匹配指標(FD、KL)上表現(xiàn)不如某些基線,但在音頻質(zhì)量指標(IS、PQ)上領(lǐng)先。這種差異可能源于VGGSound中的大多數(shù)音頻樣本使用非專業(yè)設(shè)備錄制,導致音頻質(zhì)量普遍較差,與HunyuanVideo-Foley的輸出存在顯著分布差距。盡管如此,本文的模型在IB分數(shù)上保持SOTA性能,同時在DeSync和CLAP指標上取得了可比結(jié)果。

下表3展示了在MovieGen-Audio-Bench上的客觀和主觀評估結(jié)果。HunyuanVideo-Foley展現(xiàn)出卓越的生成質(zhì)量,在幾乎所有客觀指標和所有主觀評估中均優(yōu)于基線。與強基線MMAudio相比,本文的模型在音頻質(zhì)量(PQ)、時序?qū)R(DeSync)和視覺-語義對齊(IB)方面表現(xiàn)出顯著改進,同時在文本-語義對齊(CLAP)方面保持相當性能。

在所有三個數(shù)據(jù)集上的綜合評估表明,HunyuanVideo-Foley在視覺-語義對齊(IB)方面相比所有基線均實現(xiàn)了實質(zhì)性改進。本文的模型還在音頻質(zhì)量(PQ)和時序?qū)R(DeSync)方面領(lǐng)先,同時保持具有競爭力的文本語義對齊(CLAP)。在分布匹配方面,HunyuanVideo-Foley在Kling-Audio-Eval數(shù)據(jù)集上實現(xiàn)了最佳性能。這些結(jié)果共同證明HunyuanVideo-Foley在TV2A生成中確立了新的最先進性能。
音頻重建。對于音頻重建,在DAC與Stable Audio Open采用的連續(xù)VAE之間進行了比較研究。評估涵蓋三個不同領(lǐng)域:用于一般聲音的AudioSet、用于音樂的Song Describer和用于語音場景的LibriTTS-Clean測試集。如下表4所示,提出的DAC-VAE在三個評估集的所有指標上均實現(xiàn)了優(yōu)越性能。這些實驗驗證了DAC-VAE在不同音頻領(lǐng)域提供穩(wěn)健的重建性能,確立了其作為通用音頻重建框架的有效性。

消融研究
為深入研究不同模型架構(gòu)對性能的影響并驗證所提出設(shè)計的有效性,我們在MovieGen-Audio-Bench上進行了細致的消融實驗。消融研究主要關(guān)注MMDiT中的多模態(tài)條件調(diào)節(jié)方法、單模態(tài)音頻DiT的有效性以及表示對齊的最佳實現(xiàn)策略。
模型架構(gòu)。對于MMDiT的架構(gòu),設(shè)計了兩個替代實驗:(1) 采用聯(lián)合自注意力進行文本-音頻-視頻三流模態(tài)對齊;(2) 使用并行交叉注意力分別對齊音頻-文本和音頻-視頻模態(tài)。所有配置保持相同的實驗設(shè)置,排除REPA并采用單模態(tài)DiT。如下表5所示,所提出的方法(首先通過聯(lián)合注意力實現(xiàn)音頻-視頻對齊,然后通過交叉注意力將文本特征注入到音頻-視頻序列中)在大多數(shù)指標上優(yōu)于替代方案,特別是在時序?qū)R(DeSync)方面表現(xiàn)出顯著改進。此外,當用傳統(tǒng)RoPE策略替換交錯RoPE時,我們觀察到各項指標性能下降,證實交錯RoPE有效增強了音頻-視頻模態(tài)對齊。為驗證單模態(tài)Transformer的有效性,我們進一步用音頻-視頻雙流DiT替換單模態(tài)DiT。結(jié)果顯示,僅音頻Transformer相比替換方法實現(xiàn)了更優(yōu)性能。

表示對齊。對于表示對齊,比較了兩種廣泛使用的預訓練音頻自監(jiān)督模型:EAT和ATST。表6顯示使用ATST可獲得最佳結(jié)果,在音頻質(zhì)量、時序?qū)R和文本-語義對齊方面均有明顯改進。值得注意的是,結(jié)合EAT和ATST會導致大多數(shù)指標性能下降,這歸因于兩個模型間特征分布的差異,使其無法在表示對齊過程中提供穩(wěn)健指導。此外,研究了在不同階段和層應用REPA的效果。下表7中的結(jié)果顯示,當在單模態(tài)DiT中應用REPA時可獲得最佳性能,其他觀察表明當應用于單模態(tài)塊的較淺層時效果更好。


討論
平衡的視覺與文本語義。HunyuanVideo-Foley的結(jié)構(gòu)創(chuàng)新源于其對視覺和文本特征注入采用差異化注意力機制的戰(zhàn)略性使用。該方法有效解決了生成音頻過度依賴文本語義而忽視視頻語義的問題。實驗表明,HunyuanVideo-Foley在視覺-語義對齊(IB)方面實現(xiàn)了卓越性能,同時保持了具有競爭力的文本-語義對齊,這表明聯(lián)合注意力對于對齊與音頻具有強時序?qū)P(guān)系的視頻特征特別有效,而分離的交叉注意力則能更好地處理傳達全局上下文信息的文本特征。
通過REPA策略和數(shù)據(jù)集擴展增強音頻保真度。HunyuanVideo-Foley通過引入REPA訓練策略顯著提高了基于擴散的生成質(zhì)量。該方法有效地將DiT的隱藏表示與穩(wěn)健的自監(jiān)督特征對齊。此外,本文提出的數(shù)據(jù)pipeline促進了高質(zhì)量數(shù)據(jù)集的可擴展構(gòu)建,進一步提升了模型性能。
結(jié)論
HunyuanVideo-Foley,一種帶有REPA策略的新型TV2A框架,能夠?qū)崿F(xiàn)高保真音頻生成,并平衡視覺動態(tài)與文本上下文的對齊。同時,提出了一種高效的數(shù)據(jù)pipeline,為TV2A數(shù)據(jù)擴展提供了穩(wěn)健支持。綜合實驗結(jié)果表明,HunyuanVideo-Foley在文本-視頻-音頻生成中實現(xiàn)了新的SOTA性能,特別是在視頻-語義對齊、時序同步和音頻質(zhì)量方面表現(xiàn)優(yōu)異。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來

















