ICCV`25 | 定制視頻革命!中科大DualReal:讓身份與運動共舞的高保真定制視頻引擎

論文鏈接:https://arxiv.org/abs/2505.02192
開源代碼鏈接:https://github.com/wenc-k/DualReal
項目主頁鏈接:https://wenc-k.github.io/dualreal-customization/
亮點直擊
- 傳統的身份—運動視頻定制方法,通常對兩種模態采用孤立訓練范式,忽略了身份與運動特征間的內在約束與依賴,從而損害了彼此的定制性能。
- DualReal在主體身份和運動動態兩個模式上進行自適應聯合訓練,實現高質量的定制化生成任務。
- DualReal是首個基于DiT架構的“身份—運動定制視頻生成”范式。給定用戶偏好的若干身份圖像和運動視頻,DualReal 經短時間訓練即可生成雙模式的高一致性定制視頻。目前已開源所有推理與訓練代碼,并提供多組測試權重
總結速覽
解決的問題
1、傳統視頻定制化生成多聚焦于“身份驅動”或“運動驅動”單一維度,忽略兩者的內在約束與協同依賴,導致對某一模式過擬合時而帶來的一致性退化問題。

- 固定身份定制,并逐步增加運動訓練步數(紅框代表最佳身份一致性)。
- 發現:運動先驗會不可逆地損害身份一致性;且針對不同身份,無法找到統一的運動訓練程度來最小化身份退化。
2、在聯合訓練范式中,如何動態協調身份與運動特征的比例,以適配 DiT 模型在不同去噪階段和不同深度網絡層的需求

- 隨著去噪程度加深,模型越來越重視身份學習(橙色虛線)。
- 在 DiT 最深的網絡層組,趨勢相反:隨著去噪深入,模型更側重于運動建模(紅色實線)。
提出的方案
- DualReal:針對上述問題,在 DiT 框架下提出了一種基于微調的個性化身份—運動視頻定制方法。
應用的技術
- 雙域感知適配模塊 (Dual?aware Adaptation)
- 在每次去噪迭代前切換身份/運動訓練階段。
- 利用凍結分支的先驗信息指導當前分支學習,并通過梯度掩碼實現維度隔離與正則化。
- 階段融合控制器 (StageBlender Controller)
- 根據不同去噪階段及 DiT 網絡各深度層次,分配細粒度權重,自適應控制身份與運動適配器輸出的貢獻。
- 有效解決多階段、多層次的維度競爭問題。
達到的效果
- 高保真且流暢的定制化視頻輸出:結合先進的 DiT 視頻生成模型,DualReal 在保持主體身份高保真的同時,實現了流暢的定制運動。
- 在評測基準上,身份一致性指標CLIP-I指標提升21.7%,DINO-I指標提升31.8%,在多項運動動態指標上均實現領先。
方法
雙域感知適配模塊
為了在解決維度沖突的同時實現身份和動作的聯合訓練,我們創新性地提出了雙域感知適配模塊。該方法利用一個模式的先驗來引導另一個模式的訓練,同時通過正則化策略防止信息泄漏,如圖3下半部分所示:

聯合身份-運動優化

正則化策略

我們在正向傳播過程中,保持一個凍結的適配器處于待命狀態,以告知當前適配器的模式種類,從而在數據流中實現跨模式特征參考。而來自凍結適配器的特征可以作為內在正則化,約束維度過擬合,從而促進相互參考學習,不產生干擾和損害。
階段融合控制器
為了解決不同處理階段的維度競爭問題,我們提出了階段融合控制器。
該控制器通過對縮放系數進行時間感知,使雙域感知適配模塊能夠根據下圖所示的機制自適應地分配特定模式的權重,以此實現粒度解耦。

具體來說,階段融合控制器根據去噪時間步和融合的文本-視覺特征,動態生成多組針對不同DiT深度層的縮放權重。

實驗
實驗設置
- 評估數據集:
- 對于身份定制,我們嚴格從先前工作和互聯網平臺(包括寵物、毛絨玩具等)中選擇了50個主體,每個主體包含3–10張圖像。
- 對于動作定制,我們從公共數據集中收集了21個具有挑戰性動態模式的動作序列。
- 此外,每個案例提供了50個不同的提示詞(包含不同的修飾或環境),以評估方法的可編輯性和場景多樣性。
- 基線方法:在現有方法中,DreamVideo能夠同時定制身份和動作。為了公平比較,我們在相同的DiT骨干上實現了兩種方法:(1)CogVideoX-5B:按照DreamBooth范式先對身份數據、再對動作數據進行全參數順序微調;(2)LoRA微調:分別訓練兩個LoRA模塊用于身份和動作,然后在推理時融合其參數。此外,MotionBooth的身份模塊在訓練過程中引入了無關的隨機視頻以保留模型的動作能力,因此我們也將其與我們的方法進行比較。
- 評估指標:我們使用了三個維度的七項指標。
- 文本-視頻一致性:通過CLIP-T分數衡量,計算為文本提示與所有生成幀之間的CLIP余弦相似度。
- 身份保真度:使用DINO-I和CLIP-I分數量化,分別通過DINO ViT-S/16和增強的CLIP嵌入評估生成幀與參考身份圖像之間的特征相似度。
- 時間動作質量:使用四項指標評估,包括T-Cons用于時間一致性,Motion Smoothness(MS)用于整體流暢度,Temporal Flickering(TF)用于相鄰幀之間的高頻不一致性(通過平均絕對差衡量),以及Dynamic Degree(DD)利用RAFT光流估計來量化動作強度(我們計算方法相對于基準的偏差,來確定動作強度的一致性)。MS、TF和DD均采用綜合視頻基準VBench。
主要結果
- 定性結果:下圖中的定性實驗表明,雖然MotionBooth保持了身份保真度,但它無法有效建模動作模式;DreamVideo在推理過程中因模式沖突而導致身份不一致;CogVideoX-5B和LoRA由于其解耦的訓練方法,也難以保持身份。相比之下,DualReal 實現了高身份一致性和連貫的動作,展示了聯合訓練在平衡模式沖突方面的優勢。

- 定量結果:如下表所示,DualReal 在CLIP-I和DINO-I指標上平均提高了21.7%和31.8%,在三項動作質量指標(T-Cons、Motion Smoothness和Temporal Flickering)上取得了最佳結果,并在CLIP-T上排名第二;我們評估了所有動作數據,計算其平均DD為12.02。我們的指標與之略有偏差,證明動作幅度沒有失真。總體而言,我們的方法在保持文本一致性的同時,顯著增強了動作連貫性和身份保真度,進一步驗證了我們的自適應聯合訓練方法。

消融實驗
下圖、表顯示了DualReal 中每個關鍵組件對身份保真度的貢獻。可以看出,缺少任何一個主要組件都會導致性能下降,其中去除雙域感知適配模塊的影響尤為顯著,這強調了動態切換訓練焦點和正則化策略在保持高一致性方面的重要性。


如下表所示,當階段融合控制器的組數過小時或過大時性能都會有所下降,而組大小為7時性能最佳。這表明組基數過小時可能缺乏足夠的上下文,過大時可能稀釋關鍵細節,因此平衡的組基數對于最佳性能至關重要。

總結
DualReal,一種面向給定主體身份與運動動態的定制化視頻生成新方法。DualReal 通過自適應地聯合訓練身份與運動兩大維度,有效化解了二者之間的沖突,并進一步協調適配其在去噪階段和網絡結構的比例,實現對任意樣本的通用定制。
本文轉自AI生成未來 ,作者:AI生成未來

















