優(yōu)于所有開源和商業(yè)模型！首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布！

angel

發(fā)布于 2025-5-9 08:41

瀏覽

0收藏

優(yōu)于所有開源和商業(yè)模型！首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布！-AI.x社區(qū)

文章鏈接：https://arxiv.org/pdf/2505.04512
項目鏈接：https://hunyuancustom.github.io/

優(yōu)于所有開源和商業(yè)模型！首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布！-AI.x社區(qū)

亮點(diǎn)直擊

多模態(tài)條件融合: 首次實(shí)現(xiàn)圖像、音頻、視頻、文本四模態(tài)聯(lián)合驅(qū)動的定制視頻生成，突破傳統(tǒng)單模態(tài)（如圖像）限制。
身份一致性強(qiáng)化: 通過時序拼接和跨幀特征增強(qiáng)，顯著提升生成視頻中主題的ID一致性，優(yōu)于開源和商業(yè)模型。
模塊化條件注入: 提出AudioNet和視頻Patchify對齊等獨(dú)立模塊，實(shí)現(xiàn)多模態(tài)條件的高效解耦與融合，兼顧靈活性與性能。

效果速覽

優(yōu)于所有開源和商業(yè)模型！首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布！-AI.x社區(qū)

總結(jié)速覽

解決的問題

身份一致性不足：現(xiàn)有視頻生成方法在生成特定主題視頻時難以保持身份（ID）一致性。
輸入模態(tài)單一：多數(shù)方法僅支持圖像驅(qū)動，缺乏對多模態(tài)（如音頻、視頻、文本）條件的靈活支持。
可控性受限：現(xiàn)有模型在細(xì)粒度定制（如多主題生成、多模態(tài)對齊）上表現(xiàn)不佳，限制了實(shí)際應(yīng)用。

提出的方案

基于HunyuanVideo的多模態(tài)定制視頻生成框架，支持圖像、音頻、視頻和文本條件輸入。

文本-圖像融合模塊：基于LLaVA實(shí)現(xiàn)多模態(tài)理解，增強(qiáng)文本與圖像的交互。
圖像ID增強(qiáng)模塊：通過時序拼接強(qiáng)化跨幀身份特征。
多模態(tài)條件注入機(jī)制：

AudioNet：通過空間交叉注意力實(shí)現(xiàn)分層音頻-視頻對齊。
視頻驅(qū)動模塊：通過隱空間壓縮和特征對齊網(wǎng)絡(luò)整合條件視頻。

應(yīng)用的技術(shù)

多模態(tài)理解：LLaVA-based文本-圖像融合模塊。
時序建模：圖像ID增強(qiáng)模塊利用視頻模型的時間序列信息傳輸能力。
跨模態(tài)對齊：

音頻-視頻：AudioNet的層級特征對齊。
視頻-隱空間：基于VAE的壓縮和Patchify特征對齊網(wǎng)絡(luò)。

達(dá)到的效果

身份一致性：在單主題和多主題場景中均顯著優(yōu)于現(xiàn)有方法（如ConsisID、VACE等）。
多模態(tài)支持：支持圖像、音頻、視頻、文本的靈活組合輸入，生成高質(zhì)量視頻。
下游任務(wù)魯棒性：在音頻驅(qū)動、視頻驅(qū)動等任務(wù)中表現(xiàn)優(yōu)異，適用于廣告、虛擬試穿等實(shí)際場景。

方法

概述

HunyuanCustom是一個以主體一致性為核心的多模態(tài)定制生成模型，基于Hunyuan視頻生成框架構(gòu)建。如下圖2所示，它能夠根據(jù)文本、圖像、音頻和視頻輸入生成主體一致的視頻。具體而言，HunyuanCustom引入了基于LLaVA的圖像-文本融合模塊，促進(jìn)圖像與文本的交互，使圖像中的身份信息能有效融入文本描述。此外，還提出了身份增強(qiáng)模塊，該模塊沿時間軸拼接圖像信息，并利用視頻模型的高效時序建模能力來增強(qiáng)視頻中的主體身份。為支持音頻和視頻的條件注入，HunyuanCustom為每種模態(tài)設(shè)計了獨(dú)立的注入機(jī)制，這些機(jī)制與圖像級身份條件模塊有效解耦。最終，HunyuanCustom實(shí)現(xiàn)了對圖像、音頻和視頻條件的解耦控制，在面向主體的多模態(tài)視頻定制中展現(xiàn)出巨大潛力。

優(yōu)于所有開源和商業(yè)模型！首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布！-AI.x社區(qū)

多模態(tài)任務(wù)

HunyuanCustom支持來自文本、圖像、音頻和視頻的條件輸入。所有任務(wù)均建立在生成ID一致性視頻的能力基礎(chǔ)上。任務(wù)可分為以下4類：

文本驅(qū)動視頻生成：文本到視頻的生成能力源自基礎(chǔ)模型HunyuanVideo，支持生成與給定文本提示對齊的視頻；
圖像驅(qū)動視頻定制：HunyuanCustom的核心能力是接收輸入圖像、提取身份信息，并在文本描述引導(dǎo)下生成與該身份對應(yīng)的視頻，從而實(shí)現(xiàn)定制化視頻生成。HunyuanCustom同時支持人類和非人類身份，并進(jìn)一步允許多身份輸入，實(shí)現(xiàn)多主體交互生成；
音頻驅(qū)動視頻定制：在主體定制基礎(chǔ)上，HunyuanCustom將音頻作為附加模態(tài)。給定人類身份、文本提示和對應(yīng)音頻，系統(tǒng)可使主體在文本描述的上下文中執(zhí)行與音頻同步的動作（如說話、演奏、唱歌）。這通過允許指定身份在任意場景和動作中自由表現(xiàn)，顯著增強(qiáng)了可控性，擴(kuò)展了傳統(tǒng)音頻驅(qū)動的人體動畫；
視頻驅(qū)動視頻定制：HunyuanCustom還支持視頻到視頻生成，通過基于身份定制的對象替換或插入實(shí)現(xiàn)。給定源視頻和指定目標(biāo)身份的圖像，系統(tǒng)可將視頻中的對象替換為指定身份。此外，它還能根據(jù)文本引導(dǎo)將身份插入背景視頻，實(shí)現(xiàn)靈活的對象添加。

多模態(tài)數(shù)據(jù)構(gòu)建

本文的數(shù)據(jù)經(jīng)過嚴(yán)格的處理流程，以確保高質(zhì)量的輸入從而提升模型性能。實(shí)驗(yàn)結(jié)果表明，高質(zhì)量數(shù)據(jù)在主體一致性、視頻編輯和音頻驅(qū)動視頻生成等任務(wù)中起著關(guān)鍵作用。雖然不同任務(wù)可能遵循各自特定的數(shù)據(jù)處理步驟，但初始處理階段是共通的，關(guān)鍵差異在于后續(xù)步驟。鑒于此，本節(jié)將深入探討視頻數(shù)據(jù)準(zhǔn)備的詳細(xì)方法，重點(diǎn)關(guān)注共享的預(yù)處理技術(shù)以及為不同任務(wù)設(shè)計的特定后處理方案。

優(yōu)于所有開源和商業(yè)模型！首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布！-AI.x社區(qū)

本文的數(shù)據(jù)來源多樣，為確保嚴(yán)格遵守《通用數(shù)據(jù)保護(hù)條例》（GDPR）框架的原則，我們采用數(shù)據(jù)合成和隱私保護(hù)計算技術(shù)來規(guī)范數(shù)據(jù)收集過程。原始數(shù)據(jù)涵蓋廣泛領(lǐng)域，主要包括八大類別：人類、動物、植物、景觀、車輛、物體、建筑和動漫。除自行收集的數(shù)據(jù)外，我們還嚴(yán)格篩選并處理了開源數(shù)據(jù)集（如OpenHumanvid），顯著擴(kuò)展了數(shù)據(jù)分布的多樣性并提升了模型性能。實(shí)驗(yàn)結(jié)果證實(shí)，引入高標(biāo)準(zhǔn)數(shù)據(jù)對實(shí)現(xiàn)模型性能的顯著提升至關(guān)重要。

數(shù)據(jù)過濾與預(yù)處理。由于我們的數(shù)據(jù)集分布廣泛且包含開源數(shù)據(jù)，視頻的時長、分辨率和質(zhì)量存在顯著差異。為解決這些問題，本文實(shí)施了一系列預(yù)處理技術(shù)。首先，為避免訓(xùn)練數(shù)據(jù)中的轉(zhuǎn)場，使用PySceneDetect將原始視頻分割為單鏡頭片段。針對視頻中的文本區(qū)域，采用textbpn-plus-plus過濾掉文本過多的片段，并裁剪包含字幕、水印和標(biāo)識的視頻。由于視頻尺寸和時長分布不均，進(jìn)行了裁剪和對齊，將短邊標(biāo)準(zhǔn)化為512或720像素，并將視頻長度限制為5秒（129幀）。最后，考慮到PySceneDetect無法檢測漸變轉(zhuǎn)場且textbpn-plus-plus對小文本檢測能力有限，同時為確保美學(xué)質(zhì)量、運(yùn)動幅度和場景亮度，使用koala-36M模型進(jìn)一步優(yōu)化。然而，由于koala-36M的訓(xùn)練數(shù)據(jù)與我們的數(shù)據(jù)集存在差異，且其缺乏對美學(xué)質(zhì)量和運(yùn)動幅度的細(xì)粒度評估，我們建立了自己的評估標(biāo)準(zhǔn)，針對數(shù)據(jù)集設(shè)定0.06的koala閾值以進(jìn)行精細(xì)過濾。實(shí)驗(yàn)結(jié)果證實(shí)了我們的數(shù)據(jù)選擇和處理方法對提升模型性能的重要性。

主體提取
單主體提取：為從視頻中提取主要主體，首先使用Qwen7B模型標(biāo)注每幀中的所有主體并提取其ID。隨后，采用聚類算法（如并查集）計算每個ID在幀中的出現(xiàn)頻率，選擇出現(xiàn)次數(shù)最多的ID作為目標(biāo)主體。必要時可選擇多個ID；但如果所有ID的出現(xiàn)次數(shù)均低于預(yù)設(shè)閾值（如50幀），則丟棄該視頻。接著，我們使用YOLO11X進(jìn)行人體分割以獲取邊界框，并利用InsightFace檢測人臉位置并生成人臉邊界框。若人臉邊界框在人體邊界框中的占比小于0.5，則認(rèn)為YOLO11X的檢測結(jié)果有誤，并丟棄相應(yīng)邊界框。

非人類主體提取：對于非人類主體，使用QwenVL從視頻中提取主體關(guān)鍵詞，并采用GroundingSAM2基于這些關(guān)鍵詞生成掩碼和邊界框。若邊界框尺寸小于源視頻尺寸的0.3倍，則將其丟棄。為確保訓(xùn)練數(shù)據(jù)的類別分布均衡，我們使用QwenVL將主體分類為八大預(yù)定義類別之一：動物、植物、景觀、車輛、物體、建筑和動漫，隨后對這些類別進(jìn)行平衡采樣以實(shí)現(xiàn)公平分布。

多主體提取：針對多主體場景，使用QwenVL從單人數(shù)據(jù)集中篩選涉及人與物體交互的視頻。由于需要將視頻描述中的主體關(guān)鍵詞與圖像中的關(guān)鍵詞對齊，直接使用QwenVL重新提取主體關(guān)鍵詞可能導(dǎo)致與視頻提示中的關(guān)鍵詞錯位。因此，采用Florence2提取視頻描述中所有提及主體的邊界框，隨后使用GroundingSAM2對這些邊界框區(qū)域進(jìn)行主體提取。接著應(yīng)用聚類算法移除不包含所有主體的幀。為解決硬拷貝問題，使用視頻前5秒進(jìn)行模型訓(xùn)練，后續(xù)15秒用于主體分割。

視頻分辨率標(biāo)準(zhǔn)化。首先基于所有主體邊界框計算聯(lián)合邊界框，并確保裁剪區(qū)域至少包含聯(lián)合邊界框面積的70%。為使模型支持多分辨率輸出，本文定義了多種寬高比，包括1:1、3:4和9:16。

視頻標(biāo)注。本文采用HunYuan團(tuán)隊開發(fā)的結(jié)構(gòu)化視頻標(biāo)注模型對視頻進(jìn)行標(biāo)注。該模型提供詳細(xì)的描述信息，包括視頻的長描述、短描述、背景風(fēng)格和鏡頭運(yùn)動描述。在訓(xùn)練過程中，這些結(jié)構(gòu)化標(biāo)注用于增強(qiáng)視頻描述，從而提升模型的魯棒性和性能。

掩碼數(shù)據(jù)增強(qiáng)。在視頻編輯中，直接使用提取的主體掩碼進(jìn)行訓(xùn)練可能導(dǎo)致對不同類型或形狀的物體替換過擬合。例如，將無耳朵的玩偶替換為有耳朵的玩偶時，生成的視頻可能仍顯示無耳朵的玩偶，這與預(yù)期結(jié)果不符。因此，在訓(xùn)練過程中，我們采用掩碼膨脹或?qū)⒀诖a轉(zhuǎn)換為邊界框等技術(shù)以軟化掩碼邊界。這些方法有助于在最終視頻中實(shí)現(xiàn)更真實(shí)且符合預(yù)期的編輯效果。通過此類增強(qiáng)策略，我們旨在緩解過擬合問題，并確保編輯后的視頻更貼近預(yù)期。這一方法提升了模型在不同物體類型和形狀上的靈活性與適用性。

音頻數(shù)據(jù)處理。首先，利用LatentSync評估片段中音頻與視頻的同步性。丟棄同步置信度分?jǐn)?shù)低于3的視頻，并將音視頻偏移調(diào)整為零。同時，計算hyperIQA質(zhì)量分?jǐn)?shù)，并移除分?jǐn)?shù)低于40的視頻以確保數(shù)據(jù)高質(zhì)量。最后，使用Whisper提取音頻特征，這些特征將作為后續(xù)模型訓(xùn)練的輸入。

圖像驅(qū)動的視頻定制

HunyuanCustom的核心任務(wù)是基于輸入圖像I（代表特定身份）和文本描述T生成視頻。關(guān)鍵挑戰(zhàn)在于使模型有效理解圖像中嵌入的身份信息，并將其與文本上下文結(jié)合以實(shí)現(xiàn)交互式理解。為此，HunyuanCustom引入了基于LLaVA的文本-圖像交互模塊，促進(jìn)視覺與文本輸入的聯(lián)合建模，從而增強(qiáng)模型對身份及伴隨描述的理解。此外，還引入了身份增強(qiáng)模塊，將圖像衍生的特征沿視頻序列傳播，利用視頻模型的時序建模能力強(qiáng)化生成視頻中的身份一致性。

基于LLaVA的文本-圖像交互。在視頻定制任務(wù)中，有效整合圖像-文本信息是此前定制方法的關(guān)鍵難點(diǎn)。這些方法要么缺乏對圖像與文本交互理解的設(shè)計，要么依賴額外訓(xùn)練的分支網(wǎng)絡(luò)實(shí)現(xiàn)交互。HunyuanCustom利用Hunyuan Video在LLaVA文本空間中訓(xùn)練的文本理解能力，結(jié)合LLaVA固有的多模態(tài)交互理解能力，通過將HunyuanVideo的原始文本輸入擴(kuò)展為圖像與文本雙輸入，基于LLaVA出色的多模態(tài)理解能力實(shí)現(xiàn)有效的圖文交互理解。

優(yōu)于所有開源和商業(yè)模型！首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布！-AI.x社區(qū)

身份增強(qiáng)。LLaVA模型作為多模態(tài)理解框架，旨在捕捉文本與圖像的相關(guān)性，主要提取類別、顏色、形狀等高層次語義信息，但常忽略文本、紋理等細(xì)節(jié)。然而在視頻定制中，身份高度依賴這些圖像細(xì)節(jié)，僅靠LLaVA分支難以保持身份一致性。為此，我們提出身份增強(qiáng)模塊：通過在時間軸上拼接視頻隱變量與目標(biāo)圖像，并利用視頻模型在時間維度的高效信息傳遞能力，有效增強(qiáng)視頻身份一致性。

優(yōu)于所有開源和商業(yè)模型！首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布！-AI.x社區(qū)

模型能力擴(kuò)展

為使模型具備更廣泛的表征能力并學(xué)習(xí)更復(fù)雜的模式，我們對預(yù)訓(xùn)練視頻生成模型和LLaVA模型的權(quán)重進(jìn)行全參數(shù)微調(diào)，充分釋放其潛力以提供更優(yōu)的視頻定制效果。

多模態(tài)主體中心視頻生成

現(xiàn)有視頻定制方法主要聚焦主體身份保持，缺乏對主體驅(qū)動生成的深入探索。我們進(jìn)一步研究以多模態(tài)音視頻信息為條件、圍繞主體身份實(shí)現(xiàn)圖像-音頻-視頻聯(lián)合驅(qū)動的特定主體生成。

音頻驅(qū)動視頻定制

音頻是視頻生成不可或缺的組成部分。現(xiàn)有音頻驅(qū)動人體動畫模型通常以人物圖像和音頻為輸入，使圖像人物說出對應(yīng)語音。但這種圖像-視頻范式導(dǎo)致生成視頻中人物的姿勢、服飾和場景與輸入圖像完全一致。借助HunyuanCustom對角色身份信息的有效捕獲與保持，我們整合音頻輸入實(shí)現(xiàn)文本描述場景中角色說話的視頻生成，稱為音頻驅(qū)動視頻定制。

優(yōu)于所有開源和商業(yè)模型！首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布！-AI.x社區(qū)

視頻驅(qū)動視頻定制

實(shí)際視頻創(chuàng)作中，編輯常涉及修改視頻主體的外觀與運(yùn)動，這與HunyuanCustom的主體生成能力天然契合。視頻蘊(yùn)含豐富的時空信息，對內(nèi)容提取與生成模型集成提出雙重挑戰(zhàn)。現(xiàn)有方法如VACE通過適配器模塊注入視頻條件，導(dǎo)致計算成本翻倍；而[Bai et al., 2025a]將條件視頻與生成片段隱變量沿時間軸拼接，引發(fā)序列長度倍增與注意力計算平方增長。HunyuanCustom采用更高效的視頻條件注入策略：先通過預(yù)訓(xùn)練因果3D-VAE壓縮條件視頻，經(jīng)特征對齊后直接加至噪聲視頻隱變量，實(shí)現(xiàn)高效視頻條件融合。

視頻隱變量特征對齊

條件視頻作為無噪聲輸入，其特征通過預(yù)訓(xùn)練因果3D-VAE編碼器提取，經(jīng)HunyuanVideo視頻分詞器壓縮序列化后，由四層全連接網(wǎng)絡(luò)映射至隱空間，與噪聲視頻隱變量對齊。

身份解耦視頻條件注入

我們探索兩種注入策略：(1) 沿token維度拼接條件視頻特征與視頻隱變量后降維；(2) 沿時間軸逐幀直接相加。實(shí)驗(yàn)表明加法策略能更有效保留內(nèi)容信息。得益于特征對齊預(yù)處理，條件視頻特征與視頻隱變量高度匹配，支持輕量化高效注入。

實(shí)驗(yàn)

實(shí)現(xiàn)細(xì)節(jié)

評估指標(biāo)

身份一致性：使用Arcface計算參考人臉與生成視頻各幀嵌入的平均余弦相似度
主體相似度：通過YOLOv11檢測人體區(qū)域，計算DINO-v2特征相似度
文本-視頻對齊：采用CLIP-B評估文本提示與生成視頻的匹配度
時序一致性：基于VBench，用CLIP-B計算幀間相似度
動態(tài)程度：參照VBench計算物體運(yùn)動量

單主體視頻定制對比實(shí)驗(yàn)

基線方法

與當(dāng)前最優(yōu)視頻定制方法對比，包括商業(yè)產(chǎn)品（Vidu 2.0、Keling 1.6、Pika、Hailuo）和開源方法（Skyreels-A2、VACE）。每組生成100個人類身份視頻和100個非人類身份視頻以全面評估方法通用性。

定性對比

下圖4-5顯示：Vidu、Skyreels A2與我們的方法在提示對齊和主體一致性上表現(xiàn)較好，但得益于基礎(chǔ)模型Hunyuanvideo-13B的優(yōu)異生成能力，我們的視頻質(zhì)量更優(yōu)。商業(yè)產(chǎn)品中，Keling存在首幀復(fù)制粘貼（圖4第2行）和主體移動模糊問題（圖5第2行）；Pika一致性差且易出現(xiàn)字幕異常；Hailuo僅能保持面部ID一致性。開源方法VACE無法保持ID一致性（圖4第7行）。HunyuanCustom在保持身份一致性的同時兼具高質(zhì)量與多樣性。

優(yōu)于所有開源和商業(yè)模型！首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布！-AI.x社區(qū)

定量對比

優(yōu)于所有開源和商業(yè)模型！首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布！-AI.x社區(qū)

多主體視頻定制實(shí)驗(yàn)與應(yīng)用

定性對比

下圖6顯示：Pika存在主體消失（男子）或動作失敗（女子開門）問題；Vidu 與VACE丟失非人類物體細(xì)節(jié)；SkyReels A2幀不穩(wěn)定且出現(xiàn)芯片變形。HunyuanCustom能同時保持人類與非人類主體身份，生成符合提示的高質(zhì)量穩(wěn)定視頻。

優(yōu)于所有開源和商業(yè)模型！首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布！-AI.x社區(qū)

虛擬人廣告應(yīng)用

虛擬人體廣告。利用我們的多主題定制能力，混元定制技術(shù)實(shí)現(xiàn)了以前方法無法實(shí)現(xiàn)的應(yīng)用。一個重要的應(yīng)用是虛擬人體廣告，混元定制技術(shù)將人體圖像和產(chǎn)品圖像作為輸入，生成相應(yīng)的廣告視頻。結(jié)果如下圖 7 所示，表明混元定制技術(shù)有效地保持了人體的身份，同時保留了目標(biāo)產(chǎn)品的細(xì)節(jié)，包括其上的文字。此外，人與產(chǎn)品之間的互動看起來很自然，視頻緊密地遵循給定的提示，突出了混元定制技術(shù)在生成廣告視頻方面的巨大潛力。

優(yōu)于所有開源和商業(yè)模型！首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布！-AI.x社區(qū)

音頻驅(qū)動視頻定制化實(shí)驗(yàn)

音頻驅(qū)動的單主體定制。現(xiàn)有音頻驅(qū)動人體動畫方法需輸入人物圖像和音頻，生成視頻中人物的姿態(tài)、服飾及環(huán)境均與輸入圖像保持一致，無法生成其他姿態(tài)和場景的視頻，限制了應(yīng)用范圍。相比之下，我們的HunyuanCustom支持音頻驅(qū)動的人物定制，能夠根據(jù)文本描述的場景和姿態(tài)生成人物口型與輸入音頻同步的視頻，實(shí)現(xiàn)更靈活可控的音頻驅(qū)動人體動畫。如下圖8所示，HunyuanCustom生成的視頻既嚴(yán)格遵循文本提示，又完美保持人物身份特征。該系統(tǒng)可有效實(shí)現(xiàn)與其他物體（第3-4行）或人類（第5-6行）的交互，這一特性將顯著提升其在直播和廣告領(lǐng)域的應(yīng)用價值。此外，模型能生成多樣化場景和姿態(tài)的視頻：例如明朝背景場景（第7行）中人物自動穿著符合時代特征的服飾而無需顯式提示，第8行則展示了與輸入圖像神態(tài)迥異但生動逼真的女性表情。這證明了HunyuanCustom強(qiáng)大的世界建模和泛化能力。綜上，音頻驅(qū)動HunyuanCustom可在保持身份特征的前提下，根據(jù)文本提示生成涵蓋多樣場景和姿態(tài)的高差異化視頻。

優(yōu)于所有開源和商業(yè)模型！首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布！-AI.x社區(qū)

音頻驅(qū)動虛擬試穿。基于其多主體定制能力，HunyuanCustom還支持音頻驅(qū)動的多主體視頻定制，具有廣泛的應(yīng)用前景。本文進(jìn)一步探索其在文本和音頻雙驅(qū)動下的虛擬試穿生成能力。下圖9結(jié)果顯示，該系統(tǒng)成功將虛擬試穿與音頻驅(qū)動視頻生成相結(jié)合，在自然呈現(xiàn)指定服飾的同時完美保持目標(biāo)人物身份特征，并與給定音頻實(shí)現(xiàn)生動口型同步，彰顯了其多模態(tài)視頻定制能力的優(yōu)越性。

優(yōu)于所有開源和商業(yè)模型！首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布！-AI.x社區(qū)

視頻驅(qū)動視頻定制化實(shí)驗(yàn)

視頻主體替換。依托強(qiáng)大的主體一致性保持能力，HunyuanCustom還支持視頻驅(qū)動的視頻編輯，可應(yīng)用于多種場景。我們在視頻主體替換任務(wù)上對比了HunyuanCustom與VACE和Keling的性能，該任務(wù)需要輸入源視頻、指定替換區(qū)域的物體掩碼以及目標(biāo)主體圖像。如下圖10所示，VACE因嚴(yán)格遵循輸入掩碼導(dǎo)致邊界偽影，使得主體形狀不自然且運(yùn)動連續(xù)性斷裂；Keling則呈現(xiàn)"復(fù)制-粘貼"效應(yīng)，主體直接疊加在視頻上導(dǎo)致背景融合生硬。相較之下，HunyuanCustom有效避免了邊界偽影，實(shí)現(xiàn)與視頻背景的無縫融合，并保持優(yōu)異的主體身份特征——這證明了其在視頻編輯任務(wù)中的卓越性能。

優(yōu)于所有開源和商業(yè)模型！首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布！-AI.x社區(qū)

消融實(shí)驗(yàn)

本文在主體定制任務(wù)上進(jìn)行了消融研究，對比三個變體模型：（1）去除LLaVA的模型；（2）去除身份增強(qiáng)模塊的模型；（3）采用通道級拼接而非時序拼接進(jìn)行身份增強(qiáng)的模型。下圖11結(jié)果顯示，去除LLaVA的模型身份保持能力顯著下降，表明LLaVA不僅傳遞提示信息，更能提取關(guān)鍵身份特征——該變體完全未能捕獲目標(biāo)圖像的重要細(xì)節(jié)。保留LLaVA但去除身份增強(qiáng)的模型雖能捕捉全局身份信息，卻丟失細(xì)節(jié)特征，印證了身份增強(qiáng)模塊對細(xì)節(jié)優(yōu)化的有效性。最后，采用通道拼接替代時序拼接的模型生成質(zhì)量較差：雖能保持身份特征，但初始幀存在嚴(yán)重模糊效應(yīng)（與Vidu的結(jié)果類似），這說明時序拼接能通過強(qiáng)時序建模先驗(yàn)有效捕獲目標(biāo)信息，同時最小化對生成質(zhì)量的影響。綜上，我們的模型在確保高生成質(zhì)量的同時，成功捕獲全局和局部身份細(xì)節(jié)，充分驗(yàn)證了設(shè)計有效性。

優(yōu)于所有開源和商業(yè)模型！首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布！-AI.x社區(qū)

結(jié)論

本研究提出HunyuanCustom——一種新型多模態(tài)定制視頻生成模型，攻克了主體一致性視頻生成的關(guān)鍵技術(shù)難題，實(shí)現(xiàn)了以身份特征為核心的多模態(tài)視頻定制。通過將圖像、音頻和視頻模態(tài)與文本驅(qū)動條件機(jī)制相結(jié)合，HunyuanCustom構(gòu)建了一個可生成高保真身份特征視頻的魯棒框架。該模型整合了文本-圖像融合模塊、圖像身份增強(qiáng)模塊以及高效的音視頻特征注入流程，確保生成視頻既嚴(yán)格遵循用戶需求，又兼具高度真實(shí)性與靈活性。

大量實(shí)驗(yàn)表明，HunyuanCustom在單主體/多主體生成、音頻驅(qū)動/視頻驅(qū)動視頻定制等任務(wù)中均超越現(xiàn)有方法。其在身份一致性、真實(shí)度及視頻-文本對齊等方面的卓越表現(xiàn)，確立了其作為可控視頻定制領(lǐng)域領(lǐng)先解決方案的地位。本工作為可控視頻生成的后續(xù)研究開辟了新路徑，進(jìn)一步拓展了人工智能生成內(nèi)容（AIGC）在創(chuàng)意產(chǎn)業(yè)等領(lǐng)域的應(yīng)用潛力。

本文轉(zhuǎn)自AI生成未來，作者：AI生成未來

原文鏈接:??https://mp.weixin.qq.com/s/fLhq8CetSDiG25kmj8vdow??

標(biāo)簽

視頻

生成

已于2025-5-9 08:43:06修改

贊

回復(fù)