從“機械臉”到“自然聊”——音頻驅動人像動畫迎來質變突破:阿里發布FantasyTalking2 精華

文章鏈接:https://arxiv.org/abs/2508.11255 項目鏈接:https://fantasy-amap.github.io/fantasy-talking2/

亮點直擊
- Talking-Critic,一個統一的多模態獎勵模型,能夠準確量化生成肖像動畫與多維度人類期望之間的對齊程度。
- 引入了Talking-NSQ,一個包含41萬樣本的大規模肖像動畫偏好數據集,它系統地涵蓋了用戶在音視頻同步、視覺質量和運動自然度方面的偏好。
- 提出了一種新穎的偏好對齊方法,稱為TLPO,該方法能夠跨時間步和網絡層自適應地整合多個偏好目標。大量實驗表明,本文的方法在多個指標上顯著優于現有基線。
總結速覽
解決的問題
- 多維偏好沖突: 現有音頻驅動肖像動畫方法在運動自然度(Motion Naturalness)、唇部同步準確性(Lip-sync Accuracy)和視覺質量(Visual Quality)等多個維度上存在目標沖突,難以同時優化。
- 數據稀缺: 缺乏大規模、高質量、帶有多維人工偏好標注的數據集,限制了模型泛化到復雜動作、特殊發音等場景的能力。
- 對齊困難: 傳統的線性加權獎勵模型無法有效處理復雜且相互沖突的人類偏好,導致模型難以與用戶的細粒度、多維度期望對齊。
提出的方案
- Talking-Critic(獎勵模型): 引入一個多模態獎勵模型,用于學習人類對齊的獎勵函數,以量化生成視頻在多個維度上滿足人類期望的程度。
- Talking-NSQ(數據集): 利用上述獎勵模型,自動化標注并構建了一個大規模多維人類偏好數據集,包含約41萬個偏好對,涵蓋運動自然度、唇部同步和視覺質量三個關鍵維度。
- TLPO(優化框架): 提出了Timestep-Layer adaptive multi-expertPreferenceOptimization(時間步-層自適應多專家偏好優化)框架。該框架首先為每個偏好維度訓練獨立的輕量級專家模塊(LoRA),然后通過一個融合門機制,根據去噪時間步和網絡層動態調整各專家模塊的權重,實現多目標的精細協同優化。
應用的技術
- 獎勵模型(Reward Model): 訓練一個能夠預測多維度人類偏好分數的模型(Talking-Critic),用于自動化數據標注和提供訓練信號。
- 大規模數據集構建: 利用獎勵模型對現有先進模型的輸出進行自動評分和比較,構建大規模偏好數據集(Talking-NSQ)。
- 基于LoRA的多專家訓練: 使用低秩自適應(LoRA)技術為每個偏好維度獨立訓練輕量級的專用“專家”模塊,避免完全微調大模型。
- 動態融合門機制: 設計了一種門控機制,根據擴散模型去噪過程的不同時間步(Timestep)和不同網絡層(Layer)的特性,自適應地融合多個專家的輸出,解決偏好沖突。
- 偏好優化(Preference Optimization): 將來自人類(通過獎勵模型代理)的偏好信號融入擴散模型的訓練過程中,實現對模型輸出的精細對齊。
達到的效果
- 獎勵模型性能提升: Talking-Critic獎勵模型在預測人類偏好評分方面顯著優于(significantly outperforms)現有方法。
- 生成質量全面改進: 與基線模型相比,采用TLPO框架的模型在唇同步準確性(Lip-sync Accuracy)、運動自然度(Motion Naturalness)和視覺質量(Visual Quality)等多個維度上都取得了實質性改進(substantial improvements)。
- 綜合評估領先: 在定性(主觀視覺評估)和定量(客觀指標)評估中均展現出卓越的性能(superior performance),生成了更具表現力和人性化的肖像動畫。
方法
Talking-Critic 獎勵
以往的視頻獎勵建模方法主要利用視覺-語言模型進行訓練。相比之下,本文的音頻驅動肖像動畫任務需要包含文本、視頻和音頻模態的多模態輸入,這使得傳統的視覺-語言模型不足以勝任獎勵建模。受益于統一視覺-音頻-語言模型(VALMs)的最新進展,多模態理解和對齊方面取得了重大突破。本文采用 Qwen2.5-Omni 作為基礎模型,該模型引入了 TMRoPE,這種位置嵌入方法將音頻和視頻幀組織成按時間順序交錯的結構,實現了卓越的視聽對齊。
?
如下圖 2(a) 所示,為了充分利用 Qwen2.5-Omni 的潛力來評估肖像動畫,本文通過專門的指令微調將其適配為一個獎勵模型。本文構建了一個包含三個關鍵維度的偏好數據集:MN(運動自然度)、LS(唇部同步)和 VQ(視覺質量)。在構建過程中,本文實施了嚴格的平衡采樣策略,確保每次比較的正負樣本數量相等,從而使模型能夠無偏差地學習人類偏好。最終得到的微調獎勵模型為下游任務(如 DPO)提供了可靠的指導信號。

時間步-層自適應多專家偏好優化
對于多目標偏好優化,現有方法通過各種策略獲得每個樣本的聚合分數,從而創建反映整體質量的正/負對。這種方法統一處理所有偏好目標。然而,它通常導致某些維度的過度優化,而以其他維度的性能為代價。具體來說,在人體肖像動畫中,一個總體排名最好的樣本可能表現出較差的唇部同步準確性,而一個總體得分最低的樣本可能在這方面表現出色。這種細粒度偏好之間的沖突阻礙了有效、精細的對齊,并限制了模型沿著較不顯著維度學習的能力。為了解決這個問題,本文提出了一種兩階段訓練策略。如上圖 2(c) 所示,第一階段通過多專家對齊方法學習解耦的偏好。其次,本文引入了一種時間步-層自適應融合機制,以有效整合這些多樣化的偏好,實現魯棒的多目標對齊。


對于運動自然度專家LoRA和視覺質量LoRA,本文在所有像素域上執行偏好損失。最終,本文獲得了三個專家模塊。
時間步-層自適應協同融合(Timestep-Layer Adaptive Collaborative Fusion)。由于每個專家都通過隔離的數據進行了獨立的維度優化,簡單地整合它們進行推理可能會導致專家之間的偏好沖突,從而降低整體性能。先前的研究已經確定,生成偏好在去噪時間步之間是不同的,并且DiT層具有不同的功能角色。這些發現促使本文設計了一種時間步-層自適應融合策略,實現多專家模塊的協同對齊。



這種時間步-層動態融合持續重新平衡專家的貢獻,解決沖突并防止單一指標主導。通過促進協作而非競爭,它推動模型產生帕累托最優輸出。
實驗
數據集構建
多維獎勵數據收集。為了訓練本文的 Talking-Critic 獎勵模型,構建了一個高質量、多維的人類偏好數據集。該數據集包含真實和合成數據,并由專業標注人員提供了跨 MN、LS 和 VQ 維度的二元偏好標注。具體來說,從 OpenHuman-Vid獲取了約 4K 個真實世界視頻片段。為了最大化樣本多樣性,還使用四種最先進的(SOTA)音頻驅動肖像模型和隨機無分類器引導尺度生成了 6K 個合成視頻。隨后,所有視頻都由人類標注者根據特定維度的二元選擇問題進行評估。每個樣本由三名標注者獨立評估。在存在分歧的情況下,會咨詢第四位資深標注者進行仲裁并做出最終決定。這一細致的過程產生了一個包含約 10K 樣本的多維偏好數據集。此外,按照相同的程序創建了一個包含 1K 樣本的驗證集。
?
偏好數據收集。如上圖 2(b) 所示,提出了一個全自動流水線來構建用于多專家偏好訓練的大規模多維偏好數據集 Talking-NSQ,最終得到 410K 個帶標注的偏好對。具體來說,對于每個輸入音頻片段和參考圖像,使用同一組 SOTA 模型生成候選視頻。每個模型為每個輸入生成四個視頻變體以確保多樣性。然后,本文使用預訓練的 Talking-Critic 對這些視頻在三個不同維度上進行評分,并構建相應的正負對。這種維度解耦允許單個視頻貢獻給多個偏好集,顯著提高了數據利用效率。此過程為運動自然度生成了 180K 對,為唇同步準確性生成了 100K 對,為視覺質量生成了 130K 對。
?
此外,對于時間步-層自適應融合訓練階段,本文構建了 18K 個全維度偏好對。這是通過對高質量真實視頻引入受控退化來實現的。隨機選擇四種 SOTA 模型基于真實視頻合成新視頻。然后,將原始高質量真實視頻作為正樣本與新生成的退化視頻作為負樣本進行匹配,創建偏好對。
獎勵學習

評估協議與基線。使用本文整理的 1K 個人工標注測試集來評估 Talking-Critic 的偏好對齊準確性,并與基線 Qwen2.5-Omni 模型進行比較。進一步采用 Sync-C 進行唇同步準確性評估,采用視覺質量(IQA)分數 進行視覺質量評估,并采用 SAM 從幀中分割前景人物,同時分別測量光流分數 以評估主體動態(SD)進行人物運動比較。對于 Sync-C、美學和 SD 指標,通過最大化區分高質量和低質量樣本的準確性來自動確定最佳決策閾值。
?
定量結果。下表 2 表明,與基礎模型相比,本文獎勵模型在所有三個維度上都實現了與人類偏好顯著更接近的對齊。相比之下,現有的定量評估方法只能局限于某個維度的評估,無法精確對齊人類偏好。特別是,Sync-C 傾向于給夸張的唇部運動分配更高的置信度,而人類標注者始終偏好自然、流暢的發音——這導致 Sync-C 分數與實際人類偏好明顯錯位。

TLPO 偏好優化

評估協議與基線。評估是在遵循先前工作 的基準測試集上進行的,該測試集涵蓋了廣泛的場景、初始姿勢和音頻內容。對于運動自然度,本文使用 HKC 和 HKV 評估手部質量和運動豐富度,并通過 SD 指標量化整體主體動態。使用 Sync-C 測量唇同步的置信度。對于視覺質量,采用 FID 和 FVD 來評估整體生成質量,并部署 q-align 來獲得視覺質量(IQA)和美學(AES)的細粒度分數。雖然上述指標僅為運動自然度、唇同步和視覺質量提供了粗略的代理,但進行了用戶研究,以更精確地檢查與人類偏好的對齊情況。與最新的公開最先進方法進行比較,包括 FantasyTalking 、HunyuanAvatar、OmniAvatar 和 MultiTalk ,在推理過程中使用空提示以進行公平比較。
?
定量結果。下表 1 顯示本文的方法在所有指標上都達到了最先進的結果,生成的輸出具有更自然的運動變化、顯著改善的唇部同步和卓越的整體視頻質量。這一性能源于 TLPO 偏好優化機制,該機制能夠更好地理解肖像動畫中的細粒度人類偏好,同時根據視頻模型去噪要求和 DiT 層特性動態確定偏好的范圍和權重。該框架實現了與視頻模型偏好輸出的精確對齊,從而更好地滿足注重綜合質量的實際應用場景。

定性結果 下圖 3 展示了所有方法的比較結果。左側,本文的 TLPO 模型生成自然且動態的全身運動,而競爭方法要么產生靜態姿勢,要么表現出夸張和扭曲的肢體運動。中間部分突出了 TLPO 即使在具有挑戰性的遠距離鏡頭中也具有穩健的唇部同步性能,而基線方法則表現出嚴重的不同步和錯位。右側,視覺質量比較揭示了其他方法的渲染缺陷。
?
FantasyTalking 產生明顯的偽影,OmniAvatar 存在過度曝光和細節模糊的問題,而 HunyuanAvatar 和 MultiTalk 都丟失了顯著的面部細節。相比之下,TLPO 保持了高視覺保真度和結構完整性,尤其是在復雜的面部區域。

用戶研究 為了進一步驗證本文提出的方法與人類偏好的一致性,二十四名參與者被要求對每個生成的視頻在三個維度(MN、LS 和 VQ)上進行 0-10 分的評分。如下表 4 所示,與基線相比,本文方法獲得了優異的評分,在唇部同步、運動自然度和視覺質量上相對于最強基線(MultiTalk)分別實現了 12.7%、15.0% 和 13.7% 的相對改進。這項綜合評估凸顯了本文的方法在生成符合人類偏好的逼真且多樣化的人類動畫方面的優越性。

消融研究
通過幾項消融研究探討了每個提出設計的貢獻。首先,為了評估本文的融合機制,測試了一個沒有時間步門控的變體,僅依賴層間融合。還將本文提出的融合粒度與兩種替代方案進行比較:專家級融合(為每個專家分配一個權重)和模塊級融合(為單個線性層(例如查詢投影)分配權重)。此外,通過在全維度偏好對上訓練單個 LoRA 來建立原生 DPO 基線。還用 IPO和 SimPO替代,以評估替代的偏好優化方法。最后,本文通過改變偏好模塊中 LoRA 的秩來研究其影響。
?
如下表 3 和下圖 4 所示,沒有時間步門控的變體比基線略有改進,但性能不如本文完整的 TLPO 方法。這是因為擴散過程中的不同時間步具有不同的優化要求,需要靈活調整相應的偏好注入。專家級和模塊級融合都導致次優性能。這是因為不同的 DiT 層位于不同的流形中并服務于不同的生成功能,使得層級別融合優于專家級別融合。相比之下,模塊級融合引入了過多的新參數,這使訓練過程復雜化并導致次優結果。


DPO 及其變體實現了可比的性能,并伴有中等的視覺質量改進,但在運動自然度和唇部同步方面的增強可忽略不計。盡管本文確保了偏好數據中優質樣本在所有維度上都優于劣質樣本,但目標之間學習難度的差異引入了訓練模糊性。因此,模型優先優化更容易實現的保真度目標以減輕合成偽影,而難以捕捉細微的運動自然度和唇部同步偏好,導致改進有限。這驗證了由于視覺質量、唇部同步和運動自然度固有的競爭目標,對其進行解耦優化的必要性。性能隨著 LoRA 秩的增加而單調提高,并在大約 128 時達到飽和。
結論
通過 TLPO——一種新穎的擴散模型多目標偏好優化框架——解決了在音頻驅動的人類動畫中平衡運動自然度、視覺保真度和唇部同步的挑戰。本文解決方案將相互競爭的偏好解耦到專門的專家模塊中,以實現精確的單維度對齊,同時一個時間步和層雙重感知融合機制在整個去噪過程中動態地調整知識注入。這有效解決了多偏好競爭問題,使得所有目標能夠同時優化而無需權衡,從而實現全面的對齊。定性和定量實驗表明,
FantasyTalking2 在關鍵指標上超越了現有的 SOTA 方法:角色運動自然度、唇部同步準確性和視覺質量。本工作確立了細粒度偏好融合在基于擴散的模型中的至關重要性,并為高表現力和逼真的人類動畫提供了一個穩健的解決方案。
本文轉自AI生成未來 ,作者:AI生成未來

















