你能永遠陪我聊天嗎?復旦&微軟提出StableAvatar: 首個端到端無限時長音頻驅動的人類視頻生成新框架!
在《流浪地球 2》中圖恒宇將 AI 永生數字生命變為可能,旨為將人類意識進行數字化備份并進行意識上傳,以實現人類文明的完全數字化。
如今隨著擴散模型的興起極大,涌現出大量基于音頻驅動的數字人生成工作。具體而言,語音驅動人類視頻生成旨在基于參考圖像與音頻,合成面部表情與身體動作與音頻高度同步的自然人像視頻,在電影制作、游戲制作、虛擬現實、直播帶貨等領域具有廣泛的應用前景。
但是,現有方法僅能生成時長不足 15 秒的短視頻,一旦模型嘗試生成超過 15 秒的視頻,就會出現明顯的身體變形與外觀不一致現象,尤其集中在面部區域,這使目前數字人技術還無法達到《流浪地球 2》中圖恒宇所創造的 AI 永生數字生命那樣的程度,嚴重限制了其實際應用價值。
為了解決這一問題,一些方法嘗試在音頻驅動人類視頻生成中引入一致性保持機制,但很少有工作深入探討問題的根本原因。現有策略——無論是利用運動幀(Motion Frame),還是在推理過程中采用多種滑動窗口機制——都只能在一定程度上提升長視頻的平滑性,卻無法從根本上緩解無限時長頭像視頻的質量退化問題。
另一種可行方案是將長音頻切分為多個片段,分別處理后再拼接成連續的視頻。然而,這種方式不可避免地會在片段銜接處引入不一致和突兀的過渡。
因此,對于語音驅動的人類視頻生成而言,實現端到端的無限時長高保真視頻生成依然是一項極具挑戰性的任務。

為了解決上述問題,來自復旦、微軟、西交等研究團隊提出 StableAvatar 框架,以實現無限時長音頻驅動的高保真人類視頻生成,目前代碼已開源,包括推理代碼和訓練代碼。

- 論文標題:StableAvatar: Infinite-Length Audio-Driven Avatar Video Generation
- 論文地址:https://arxiv.org/abs/2508.08248
- 項目主頁:https://francis-rings.github.io/StableAvatar/
- 項目代碼:https://github.com/Francis-Rings/StableAvatar
- 項目 Demo:https://www.bilibili.com/video/BV1hUt9z4EoQ
方法簡介
如下圖所示,StableAvatar 是基于 Wan2.1-1.3B 基座模型開發的,首先將音頻輸入 Wav2Vec 模型中提取 audio embeddings,隨后通過我們提出的音頻適配器(Audio Adapter)進行優化,以減少潛變量分布誤差的累積。

經過優化的 audio embeddings 會輸入至去噪 DiT 中進行處理。參考圖像的處理通過兩條路徑輸入擴散模型:
- 沿時間軸將參考圖像與零填充幀拼接,并通過凍結的 3D VAE Encoder 轉換為潛變量編碼(latent code)。該潛變量編碼在通道軸上與壓縮后的視頻幀及二值掩碼(第一幀為 1,后續所有幀為 0)拼接。
- 通過 CLIP Encoder 編碼參考圖像以獲得 image embeddings,并將其輸入到去噪 DiT 的每個圖像-音頻交叉注意力模塊中,用于約束生成對象的外觀。
在推理階段,我們將原始輸入視頻幀替換為隨機噪聲,而保持其他輸入不變。我們提出了一種新穎的音頻原生引導(Audio Native Guidance)方法,以替代傳統的 Classify-Free-Guidance,從而進一步促進唇形同步與面部表情生成。此外,我們引入了一種動態加權滑動窗口去噪策略,通過在時間維度上融合潛變量,以提升長視頻生成過程中的視頻平滑性。
Timestep-aware Audio Adapter
以往的方法在生成超過 15 秒的虛擬人視頻時,往往出現明顯的面部與身體扭曲,以及顏色漂移。這主要源于它們的音頻建模方式:直接將第三方預訓練的音頻嵌入通過交叉注意力注入擴散模型。由于當前的擴散主干缺乏音頻相關的先驗知識,在注入過程中會在跨片段之間逐步累積潛在分布誤差,使得后續片段的潛在分布逐漸偏離最優解。
為了解決這一問題,本文提出了一種新穎的 Timestep-aware Audio Adapter,其中音頻嵌入通過多個仿射調制和交叉注意力模塊與時間步嵌入和潛在特征進行交互,如上圖(a)所述。
具體而言,初始音頻嵌入(Query)依次與初始潛變量(Key 和 Value)進行交叉注意力計算,隨后結合 timestep embeddings 進行 affine modulation,從而得到優化后的音頻嵌入。由于 timestep embeddings 與潛變量高度相關,這一設計潛在地迫使擴散模型在每個時步上建模音頻–潛變量的聯合特征分布,從而有效緩解因缺乏音頻先驗而導致的潛變量分布誤差累積,優化后的音頻嵌入(Key 和 Value)最后通過交叉注意力與潛變量(Query)交互后注入擴散模型。
Audio Native Guidance
為了進一步增強音頻同步性和面部表情,本文提出了一種新穎的 Audio Native Guidance 機制,用以替代傳統的 CFG,它未考慮音頻與潛在特征的聯合關系。本文修改了去噪得分函數,以引導去噪過程朝著最大化音頻同步性與自然性的方向前進。
由于優化后的 audio embeddings 本質上也依賴于潛變量,而不僅僅依賴外部音頻信號,我們的 Audio Native Guidance 不再將 audio embeddings 作為一個獨立于潛變量的外部特征,而是將其作為一個與潛變量相關的擴散模型的內部特征,我們的引導機制能夠直接作用于擴散模型的采樣分布,將生成過程引導至音頻–潛變量的聯合分布,并使擴散模型在整個去噪過程中不斷優化其生成結果。
具體而言,被 Timestep-aware Audio Adapter 優化后的音頻嵌入特征依賴于潛在變量和給定音頻,因此我們將
也作為去噪 DiT 的一個額外的預測目標,從而引導擴散模型捕捉音頻-潛變量聯合分布,去噪過程如下:

其中
和
分別指修改后的采樣過程、原始采樣過程、輸入外部音頻和兩種引導尺度參數,依據貝葉斯公式可以將上述化解為:

由于
是常數,因此去掉這一項后公式化解為:

我們進一步將上述公式轉化為得分函數形式:

因此最終推導公式為:

其中
和
分別表示擴散模型、文本描述和參考圖像。Audio Native Guidance 機制將
視為擴散模型的一個額外預測目標,使模型在去噪過程中受聯合的音頻—潛變量分布引導,從而強化音頻與潛變量之間的相關性。即便基礎模型缺乏音頻先驗,該方法也能有效抑制音頻驅動視頻生成中的分布誤差累積。
Dynamic Weighted Sliding-Window Strategy
與先前的滑窗去噪策略相比,我們在相鄰窗口的重疊潛變量上引入了滑動融合機制,其中融合權重依據相對幀索引采用對數插值分布。融合后的潛變量會回注到兩個相鄰窗口中,從而保證中央窗口的兩側邊界均由混合特征構成。
借助對數加權函數,可在視頻片段之間的過渡中引入一種漸進式平滑效果:早期階段的權重變化更為顯著,而后期階段變化趨于平緩,從而實現跨視頻片段的無縫銜接,具體算法流程如下面算法表和圖像所述。

生成結果示例





實驗對比





































