精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!

發(fā)布于 2025-5-9 08:41
瀏覽
0收藏

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2505.04512 
項目鏈接:https://hunyuancustom.github.io/ 

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

亮點(diǎn)直擊

  • 多模態(tài)條件融合: 首次實(shí)現(xiàn)圖像、音頻、視頻、文本四模態(tài)聯(lián)合驅(qū)動的定制視頻生成,突破傳統(tǒng)單模態(tài)(如圖像)限制。
  • 身份一致性強(qiáng)化: 通過時序拼接和跨幀特征增強(qiáng),顯著提升生成視頻中主題的ID一致性,優(yōu)于開源和商業(yè)模型。
  • 模塊化條件注入: 提出AudioNet和視頻Patchify對齊等獨(dú)立模塊,實(shí)現(xiàn)多模態(tài)條件的高效解耦與融合,兼顧靈活性與性能。

效果速覽

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

總結(jié)速覽

解決的問題

  • 身份一致性不足:現(xiàn)有視頻生成方法在生成特定主題視頻時難以保持身份(ID)一致性。
  • 輸入模態(tài)單一:多數(shù)方法僅支持圖像驅(qū)動,缺乏對多模態(tài)(如音頻、視頻、文本)條件的靈活支持。
  • 可控性受限:現(xiàn)有模型在細(xì)粒度定制(如多主題生成、多模態(tài)對齊)上表現(xiàn)不佳,限制了實(shí)際應(yīng)用。

提出的方案

基于HunyuanVideo的多模態(tài)定制視頻生成框架,支持圖像、音頻、視頻和文本條件輸入。

  • 文本-圖像融合模塊:基于LLaVA實(shí)現(xiàn)多模態(tài)理解,增強(qiáng)文本與圖像的交互。
  • 圖像ID增強(qiáng)模塊:通過時序拼接強(qiáng)化跨幀身份特征。
  • 多模態(tài)條件注入機(jī)制
  • AudioNet:通過空間交叉注意力實(shí)現(xiàn)分層音頻-視頻對齊。
  • 視頻驅(qū)動模塊:通過隱空間壓縮和特征對齊網(wǎng)絡(luò)整合條件視頻。

應(yīng)用的技術(shù)

  • 多模態(tài)理解:LLaVA-based文本-圖像融合模塊。
  • 時序建模:圖像ID增強(qiáng)模塊利用視頻模型的時間序列信息傳輸能力。
  • 跨模態(tài)對齊
  • 音頻-視頻:AudioNet的層級特征對齊。
  • 視頻-隱空間:基于VAE的壓縮和Patchify特征對齊網(wǎng)絡(luò)。

達(dá)到的效果

  • 身份一致性:在單主題和多主題場景中均顯著優(yōu)于現(xiàn)有方法(如ConsisID、VACE等)。
  • 多模態(tài)支持:支持圖像、音頻、視頻、文本的靈活組合輸入,生成高質(zhì)量視頻。
  • 下游任務(wù)魯棒性:在音頻驅(qū)動、視頻驅(qū)動等任務(wù)中表現(xiàn)優(yōu)異,適用于廣告、虛擬試穿等實(shí)際場景。

方法

概述

HunyuanCustom是一個以主體一致性為核心的多模態(tài)定制生成模型,基于Hunyuan視頻生成框架構(gòu)建。如下圖2所示,它能夠根據(jù)文本、圖像、音頻和視頻輸入生成主體一致的視頻。具體而言,HunyuanCustom引入了基于LLaVA的圖像-文本融合模塊,促進(jìn)圖像與文本的交互,使圖像中的身份信息能有效融入文本描述。此外,還提出了身份增強(qiáng)模塊,該模塊沿時間軸拼接圖像信息,并利用視頻模型的高效時序建模能力來增強(qiáng)視頻中的主體身份。為支持音頻和視頻的條件注入,HunyuanCustom為每種模態(tài)設(shè)計了獨(dú)立的注入機(jī)制,這些機(jī)制與圖像級身份條件模塊有效解耦。最終,HunyuanCustom實(shí)現(xiàn)了對圖像、音頻和視頻條件的解耦控制,在面向主體的多模態(tài)視頻定制中展現(xiàn)出巨大潛力。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

多模態(tài)任務(wù)

HunyuanCustom支持來自文本、圖像、音頻和視頻的條件輸入。所有任務(wù)均建立在生成ID一致性視頻的能力基礎(chǔ)上。任務(wù)可分為以下4類:

  • 文本驅(qū)動視頻生成:文本到視頻的生成能力源自基礎(chǔ)模型HunyuanVideo,支持生成與給定文本提示對齊的視頻;
  • 圖像驅(qū)動視頻定制:HunyuanCustom的核心能力是接收輸入圖像、提取身份信息,并在文本描述引導(dǎo)下生成與該身份對應(yīng)的視頻,從而實(shí)現(xiàn)定制化視頻生成。HunyuanCustom同時支持人類和非人類身份,并進(jìn)一步允許多身份輸入,實(shí)現(xiàn)多主體交互生成;
  • 音頻驅(qū)動視頻定制:在主體定制基礎(chǔ)上,HunyuanCustom將音頻作為附加模態(tài)。給定人類身份、文本提示和對應(yīng)音頻,系統(tǒng)可使主體在文本描述的上下文中執(zhí)行與音頻同步的動作(如說話、演奏、唱歌)。這通過允許指定身份在任意場景和動作中自由表現(xiàn),顯著增強(qiáng)了可控性,擴(kuò)展了傳統(tǒng)音頻驅(qū)動的人體動畫;
  • 視頻驅(qū)動視頻定制:HunyuanCustom還支持視頻到視頻生成,通過基于身份定制的對象替換或插入實(shí)現(xiàn)。給定源視頻和指定目標(biāo)身份的圖像,系統(tǒng)可將視頻中的對象替換為指定身份。此外,它還能根據(jù)文本引導(dǎo)將身份插入背景視頻,實(shí)現(xiàn)靈活的對象添加。

多模態(tài)數(shù)據(jù)構(gòu)建

本文的數(shù)據(jù)經(jīng)過嚴(yán)格的處理流程,以確保高質(zhì)量的輸入從而提升模型性能。實(shí)驗(yàn)結(jié)果表明,高質(zhì)量數(shù)據(jù)在主體一致性、視頻編輯和音頻驅(qū)動視頻生成等任務(wù)中起著關(guān)鍵作用。雖然不同任務(wù)可能遵循各自特定的數(shù)據(jù)處理步驟,但初始處理階段是共通的,關(guān)鍵差異在于后續(xù)步驟。鑒于此,本節(jié)將深入探討視頻數(shù)據(jù)準(zhǔn)備的詳細(xì)方法,重點(diǎn)關(guān)注共享的預(yù)處理技術(shù)以及為不同任務(wù)設(shè)計的特定后處理方案。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

本文的數(shù)據(jù)來源多樣,為確保嚴(yán)格遵守《通用數(shù)據(jù)保護(hù)條例》(GDPR)框架的原則,我們采用數(shù)據(jù)合成和隱私保護(hù)計算技術(shù)來規(guī)范數(shù)據(jù)收集過程。原始數(shù)據(jù)涵蓋廣泛領(lǐng)域,主要包括八大類別:人類、動物、植物、景觀、車輛、物體、建筑和動漫。除自行收集的數(shù)據(jù)外,我們還嚴(yán)格篩選并處理了開源數(shù)據(jù)集(如OpenHumanvid),顯著擴(kuò)展了數(shù)據(jù)分布的多樣性并提升了模型性能。實(shí)驗(yàn)結(jié)果證實(shí),引入高標(biāo)準(zhǔn)數(shù)據(jù)對實(shí)現(xiàn)模型性能的顯著提升至關(guān)重要。


數(shù)據(jù)過濾與預(yù)處理。由于我們的數(shù)據(jù)集分布廣泛且包含開源數(shù)據(jù),視頻的時長、分辨率和質(zhì)量存在顯著差異。為解決這些問題,本文實(shí)施了一系列預(yù)處理技術(shù)。首先,為避免訓(xùn)練數(shù)據(jù)中的轉(zhuǎn)場,使用PySceneDetect將原始視頻分割為單鏡頭片段。針對視頻中的文本區(qū)域,采用textbpn-plus-plus過濾掉文本過多的片段,并裁剪包含字幕、水印和標(biāo)識的視頻。由于視頻尺寸和時長分布不均,進(jìn)行了裁剪和對齊,將短邊標(biāo)準(zhǔn)化為512或720像素,并將視頻長度限制為5秒(129幀)。最后,考慮到PySceneDetect無法檢測漸變轉(zhuǎn)場且textbpn-plus-plus對小文本檢測能力有限,同時為確保美學(xué)質(zhì)量、運(yùn)動幅度和場景亮度,使用koala-36M模型進(jìn)一步優(yōu)化。然而,由于koala-36M的訓(xùn)練數(shù)據(jù)與我們的數(shù)據(jù)集存在差異,且其缺乏對美學(xué)質(zhì)量和運(yùn)動幅度的細(xì)粒度評估,我們建立了自己的評估標(biāo)準(zhǔn),針對數(shù)據(jù)集設(shè)定0.06的koala閾值以進(jìn)行精細(xì)過濾。實(shí)驗(yàn)結(jié)果證實(shí)了我們的數(shù)據(jù)選擇和處理方法對提升模型性能的重要性。

主體提取
單主體提取:為從視頻中提取主要主體,首先使用Qwen7B模型標(biāo)注每幀中的所有主體并提取其ID。隨后,采用聚類算法(如并查集)計算每個ID在幀中的出現(xiàn)頻率,選擇出現(xiàn)次數(shù)最多的ID作為目標(biāo)主體。必要時可選擇多個ID;但如果所有ID的出現(xiàn)次數(shù)均低于預(yù)設(shè)閾值(如50幀),則丟棄該視頻。接著,我們使用YOLO11X進(jìn)行人體分割以獲取邊界框,并利用InsightFace檢測人臉位置并生成人臉邊界框。若人臉邊界框在人體邊界框中的占比小于0.5,則認(rèn)為YOLO11X的檢測結(jié)果有誤,并丟棄相應(yīng)邊界框。


非人類主體提取:對于非人類主體,使用QwenVL從視頻中提取主體關(guān)鍵詞,并采用GroundingSAM2基于這些關(guān)鍵詞生成掩碼和邊界框。若邊界框尺寸小于源視頻尺寸的0.3倍,則將其丟棄。為確保訓(xùn)練數(shù)據(jù)的類別分布均衡,我們使用QwenVL將主體分類為八大預(yù)定義類別之一:動物、植物、景觀、車輛、物體、建筑和動漫,隨后對這些類別進(jìn)行平衡采樣以實(shí)現(xiàn)公平分布。


多主體提取:針對多主體場景,使用QwenVL從單人數(shù)據(jù)集中篩選涉及人與物體交互的視頻。由于需要將視頻描述中的主體關(guān)鍵詞與圖像中的關(guān)鍵詞對齊,直接使用QwenVL重新提取主體關(guān)鍵詞可能導(dǎo)致與視頻提示中的關(guān)鍵詞錯位。因此,采用Florence2提取視頻描述中所有提及主體的邊界框,隨后使用GroundingSAM2對這些邊界框區(qū)域進(jìn)行主體提取。接著應(yīng)用聚類算法移除不包含所有主體的幀。為解決硬拷貝問題,使用視頻前5秒進(jìn)行模型訓(xùn)練,后續(xù)15秒用于主體分割。


視頻分辨率標(biāo)準(zhǔn)化。首先基于所有主體邊界框計算聯(lián)合邊界框,并確保裁剪區(qū)域至少包含聯(lián)合邊界框面積的70%。為使模型支持多分辨率輸出,本文定義了多種寬高比,包括1:1、3:4和9:16。


視頻標(biāo)注。本文采用HunYuan團(tuán)隊開發(fā)的結(jié)構(gòu)化視頻標(biāo)注模型對視頻進(jìn)行標(biāo)注。該模型提供詳細(xì)的描述信息,包括視頻的長描述、短描述、背景風(fēng)格和鏡頭運(yùn)動描述。在訓(xùn)練過程中,這些結(jié)構(gòu)化標(biāo)注用于增強(qiáng)視頻描述,從而提升模型的魯棒性和性能。


掩碼數(shù)據(jù)增強(qiáng)。在視頻編輯中,直接使用提取的主體掩碼進(jìn)行訓(xùn)練可能導(dǎo)致對不同類型或形狀的物體替換過擬合。例如,將無耳朵的玩偶替換為有耳朵的玩偶時,生成的視頻可能仍顯示無耳朵的玩偶,這與預(yù)期結(jié)果不符。因此,在訓(xùn)練過程中,我們采用掩碼膨脹或?qū)⒀诖a轉(zhuǎn)換為邊界框等技術(shù)以軟化掩碼邊界。這些方法有助于在最終視頻中實(shí)現(xiàn)更真實(shí)且符合預(yù)期的編輯效果。通過此類增強(qiáng)策略,我們旨在緩解過擬合問題,并確保編輯后的視頻更貼近預(yù)期。這一方法提升了模型在不同物體類型和形狀上的靈活性與適用性。


音頻數(shù)據(jù)處理。首先,利用LatentSync評估片段中音頻與視頻的同步性。丟棄同步置信度分?jǐn)?shù)低于3的視頻,并將音視頻偏移調(diào)整為零。同時,計算hyperIQA質(zhì)量分?jǐn)?shù),并移除分?jǐn)?shù)低于40的視頻以確保數(shù)據(jù)高質(zhì)量。最后,使用Whisper提取音頻特征,這些特征將作為后續(xù)模型訓(xùn)練的輸入。

圖像驅(qū)動的視頻定制

HunyuanCustom的核心任務(wù)是基于輸入圖像I(代表特定身份)和文本描述T生成視頻。關(guān)鍵挑戰(zhàn)在于使模型有效理解圖像中嵌入的身份信息,并將其與文本上下文結(jié)合以實(shí)現(xiàn)交互式理解。為此,HunyuanCustom引入了基于LLaVA的文本-圖像交互模塊,促進(jìn)視覺與文本輸入的聯(lián)合建模,從而增強(qiáng)模型對身份及伴隨描述的理解。此外,還引入了身份增強(qiáng)模塊,將圖像衍生的特征沿視頻序列傳播,利用視頻模型的時序建模能力強(qiáng)化生成視頻中的身份一致性。


基于LLaVA的文本-圖像交互。在視頻定制任務(wù)中,有效整合圖像-文本信息是此前定制方法的關(guān)鍵難點(diǎn)。這些方法要么缺乏對圖像與文本交互理解的設(shè)計,要么依賴額外訓(xùn)練的分支網(wǎng)絡(luò)實(shí)現(xiàn)交互。HunyuanCustom利用Hunyuan Video在LLaVA文本空間中訓(xùn)練的文本理解能力,結(jié)合LLaVA固有的多模態(tài)交互理解能力,通過將HunyuanVideo的原始文本輸入擴(kuò)展為圖像與文本雙輸入,基于LLaVA出色的多模態(tài)理解能力實(shí)現(xiàn)有效的圖文交互理解。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)


身份增強(qiáng)。LLaVA模型作為多模態(tài)理解框架,旨在捕捉文本與圖像的相關(guān)性,主要提取類別、顏色、形狀等高層次語義信息,但常忽略文本、紋理等細(xì)節(jié)。然而在視頻定制中,身份高度依賴這些圖像細(xì)節(jié),僅靠LLaVA分支難以保持身份一致性。為此,我們提出身份增強(qiáng)模塊:通過在時間軸上拼接視頻隱變量與目標(biāo)圖像,并利用視頻模型在時間維度的高效信息傳遞能力,有效增強(qiáng)視頻身份一致性。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

模型能力擴(kuò)展

為使模型具備更廣泛的表征能力并學(xué)習(xí)更復(fù)雜的模式,我們對預(yù)訓(xùn)練視頻生成模型和LLaVA模型的權(quán)重進(jìn)行全參數(shù)微調(diào),充分釋放其潛力以提供更優(yōu)的視頻定制效果。

多模態(tài)主體中心視頻生成

現(xiàn)有視頻定制方法主要聚焦主體身份保持,缺乏對主體驅(qū)動生成的深入探索。我們進(jìn)一步研究以多模態(tài)音視頻信息為條件、圍繞主體身份實(shí)現(xiàn)圖像-音頻-視頻聯(lián)合驅(qū)動的特定主體生成。

音頻驅(qū)動視頻定制

音頻是視頻生成不可或缺的組成部分。現(xiàn)有音頻驅(qū)動人體動畫模型通常以人物圖像和音頻為輸入,使圖像人物說出對應(yīng)語音。但這種圖像-視頻范式導(dǎo)致生成視頻中人物的姿勢、服飾和場景與輸入圖像完全一致。借助HunyuanCustom對角色身份信息的有效捕獲與保持,我們整合音頻輸入實(shí)現(xiàn)文本描述場景中角色說話的視頻生成,稱為音頻驅(qū)動視頻定制。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

視頻驅(qū)動視頻定制

實(shí)際視頻創(chuàng)作中,編輯常涉及修改視頻主體的外觀與運(yùn)動,這與HunyuanCustom的主體生成能力天然契合。視頻蘊(yùn)含豐富的時空信息,對內(nèi)容提取與生成模型集成提出雙重挑戰(zhàn)。現(xiàn)有方法如VACE通過適配器模塊注入視頻條件,導(dǎo)致計算成本翻倍;而[Bai et al., 2025a]將條件視頻與生成片段隱變量沿時間軸拼接,引發(fā)序列長度倍增與注意力計算平方增長。HunyuanCustom采用更高效的視頻條件注入策略:先通過預(yù)訓(xùn)練因果3D-VAE壓縮條件視頻,經(jīng)特征對齊后直接加至噪聲視頻隱變量,實(shí)現(xiàn)高效視頻條件融合。

視頻隱變量特征對齊

條件視頻作為無噪聲輸入,其特征通過預(yù)訓(xùn)練因果3D-VAE編碼器提取,經(jīng)HunyuanVideo視頻分詞器壓縮序列化后,由四層全連接網(wǎng)絡(luò)映射至隱空間,與噪聲視頻隱變量對齊。

身份解耦視頻條件注入

我們探索兩種注入策略:(1) 沿token維度拼接條件視頻特征與視頻隱變量后降維;(2) 沿時間軸逐幀直接相加。實(shí)驗(yàn)表明加法策略能更有效保留內(nèi)容信息。得益于特征對齊預(yù)處理,條件視頻特征與視頻隱變量高度匹配,支持輕量化高效注入。

實(shí)驗(yàn)

實(shí)現(xiàn)細(xì)節(jié)

評估指標(biāo)

  • 身份一致性:使用Arcface計算參考人臉與生成視頻各幀嵌入的平均余弦相似度
  • 主體相似度:通過YOLOv11檢測人體區(qū)域,計算DINO-v2特征相似度
  • 文本-視頻對齊:采用CLIP-B評估文本提示與生成視頻的匹配度
  • 時序一致性:基于VBench,用CLIP-B計算幀間相似度
  • 動態(tài)程度:參照VBench計算物體運(yùn)動量

單主體視頻定制對比實(shí)驗(yàn)

基線方法

與當(dāng)前最優(yōu)視頻定制方法對比,包括商業(yè)產(chǎn)品(Vidu 2.0、Keling 1.6、Pika、Hailuo)和開源方法(Skyreels-A2、VACE)。每組生成100個人類身份視頻和100個非人類身份視頻以全面評估方法通用性。

定性對比

下圖4-5顯示:Vidu、Skyreels A2與我們的方法在提示對齊和主體一致性上表現(xiàn)較好,但得益于基礎(chǔ)模型Hunyuanvideo-13B的優(yōu)異生成能力,我們的視頻質(zhì)量更優(yōu)。商業(yè)產(chǎn)品中,Keling存在首幀復(fù)制粘貼(圖4第2行)和主體移動模糊問題(圖5第2行);Pika一致性差且易出現(xiàn)字幕異常;Hailuo僅能保持面部ID一致性。開源方法VACE無法保持ID一致性(圖4第7行)。HunyuanCustom在保持身份一致性的同時兼具高質(zhì)量與多樣性。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

定量對比

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

多主體視頻定制實(shí)驗(yàn)與應(yīng)用

定性對比

下圖6顯示:Pika存在主體消失(男子)或動作失敗(女子開門)問題;Vidu 與VACE丟失非人類物體細(xì)節(jié);SkyReels A2幀不穩(wěn)定且出現(xiàn)芯片變形。HunyuanCustom能同時保持人類與非人類主體身份,生成符合提示的高質(zhì)量穩(wěn)定視頻。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

虛擬人廣告應(yīng)用

虛擬人體廣告。利用我們的多主題定制能力,混元定制技術(shù)實(shí)現(xiàn)了以前方法無法實(shí)現(xiàn)的應(yīng)用。一個重要的應(yīng)用是虛擬人體廣告,混元定制技術(shù)將人體圖像和產(chǎn)品圖像作為輸入,生成相應(yīng)的廣告視頻。結(jié)果如下圖 7 所示,表明混元定制技術(shù)有效地保持了人體的身份,同時保留了目標(biāo)產(chǎn)品的細(xì)節(jié),包括其上的文字。此外,人與產(chǎn)品之間的互動看起來很自然,視頻緊密地遵循給定的提示,突出了混元定制技術(shù)在生成廣告視頻方面的巨大潛力。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

音頻驅(qū)動視頻定制化實(shí)驗(yàn)

音頻驅(qū)動的單主體定制。現(xiàn)有音頻驅(qū)動人體動畫方法需輸入人物圖像和音頻,生成視頻中人物的姿態(tài)、服飾及環(huán)境均與輸入圖像保持一致,無法生成其他姿態(tài)和場景的視頻,限制了應(yīng)用范圍。相比之下,我們的HunyuanCustom支持音頻驅(qū)動的人物定制,能夠根據(jù)文本描述的場景和姿態(tài)生成人物口型與輸入音頻同步的視頻,實(shí)現(xiàn)更靈活可控的音頻驅(qū)動人體動畫。如下圖8所示,HunyuanCustom生成的視頻既嚴(yán)格遵循文本提示,又完美保持人物身份特征。該系統(tǒng)可有效實(shí)現(xiàn)與其他物體(第3-4行)或人類(第5-6行)的交互,這一特性將顯著提升其在直播和廣告領(lǐng)域的應(yīng)用價值。此外,模型能生成多樣化場景和姿態(tài)的視頻:例如明朝背景場景(第7行)中人物自動穿著符合時代特征的服飾而無需顯式提示,第8行則展示了與輸入圖像神態(tài)迥異但生動逼真的女性表情。這證明了HunyuanCustom強(qiáng)大的世界建模和泛化能力。綜上,音頻驅(qū)動HunyuanCustom可在保持身份特征的前提下,根據(jù)文本提示生成涵蓋多樣場景和姿態(tài)的高差異化視頻。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

音頻驅(qū)動虛擬試穿。基于其多主體定制能力,HunyuanCustom還支持音頻驅(qū)動的多主體視頻定制,具有廣泛的應(yīng)用前景。本文進(jìn)一步探索其在文本和音頻雙驅(qū)動下的虛擬試穿生成能力。下圖9結(jié)果顯示,該系統(tǒng)成功將虛擬試穿與音頻驅(qū)動視頻生成相結(jié)合,在自然呈現(xiàn)指定服飾的同時完美保持目標(biāo)人物身份特征,并與給定音頻實(shí)現(xiàn)生動口型同步,彰顯了其多模態(tài)視頻定制能力的優(yōu)越性。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

視頻驅(qū)動視頻定制化實(shí)驗(yàn)

視頻主體替換。依托強(qiáng)大的主體一致性保持能力,HunyuanCustom還支持視頻驅(qū)動的視頻編輯,可應(yīng)用于多種場景。我們在視頻主體替換任務(wù)上對比了HunyuanCustom與VACE和Keling的性能,該任務(wù)需要輸入源視頻、指定替換區(qū)域的物體掩碼以及目標(biāo)主體圖像。如下圖10所示,VACE因嚴(yán)格遵循輸入掩碼導(dǎo)致邊界偽影,使得主體形狀不自然且運(yùn)動連續(xù)性斷裂;Keling則呈現(xiàn)"復(fù)制-粘貼"效應(yīng),主體直接疊加在視頻上導(dǎo)致背景融合生硬。相較之下,HunyuanCustom有效避免了邊界偽影,實(shí)現(xiàn)與視頻背景的無縫融合,并保持優(yōu)異的主體身份特征——這證明了其在視頻編輯任務(wù)中的卓越性能。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

消融實(shí)驗(yàn)

本文在主體定制任務(wù)上進(jìn)行了消融研究,對比三個變體模型:(1)去除LLaVA的模型;(2)去除身份增強(qiáng)模塊的模型;(3)采用通道級拼接而非時序拼接進(jìn)行身份增強(qiáng)的模型。下圖11結(jié)果顯示,去除LLaVA的模型身份保持能力顯著下降,表明LLaVA不僅傳遞提示信息,更能提取關(guān)鍵身份特征——該變體完全未能捕獲目標(biāo)圖像的重要細(xì)節(jié)。保留LLaVA但去除身份增強(qiáng)的模型雖能捕捉全局身份信息,卻丟失細(xì)節(jié)特征,印證了身份增強(qiáng)模塊對細(xì)節(jié)優(yōu)化的有效性。最后,采用通道拼接替代時序拼接的模型生成質(zhì)量較差:雖能保持身份特征,但初始幀存在嚴(yán)重模糊效應(yīng)(與Vidu的結(jié)果類似),這說明時序拼接能通過強(qiáng)時序建模先驗(yàn)有效捕獲目標(biāo)信息,同時最小化對生成質(zhì)量的影響。綜上,我們的模型在確保高生成質(zhì)量的同時,成功捕獲全局和局部身份細(xì)節(jié),充分驗(yàn)證了設(shè)計有效性。

優(yōu)于所有開源和商業(yè)模型!首個圖文聲影四模態(tài)定制視頻生成器HunyuanCustom震撼發(fā)布!-AI.x社區(qū)

結(jié)論

本研究提出HunyuanCustom——一種新型多模態(tài)定制視頻生成模型,攻克了主體一致性視頻生成的關(guān)鍵技術(shù)難題,實(shí)現(xiàn)了以身份特征為核心的多模態(tài)視頻定制。通過將圖像、音頻和視頻模態(tài)與文本驅(qū)動條件機(jī)制相結(jié)合,HunyuanCustom構(gòu)建了一個可生成高保真身份特征視頻的魯棒框架。該模型整合了文本-圖像融合模塊、圖像身份增強(qiáng)模塊以及高效的音視頻特征注入流程,確保生成視頻既嚴(yán)格遵循用戶需求,又兼具高度真實(shí)性與靈活性。


大量實(shí)驗(yàn)表明,HunyuanCustom在單主體/多主體生成、音頻驅(qū)動/視頻驅(qū)動視頻定制等任務(wù)中均超越現(xiàn)有方法。其在身份一致性、真實(shí)度及視頻-文本對齊等方面的卓越表現(xiàn),確立了其作為可控視頻定制領(lǐng)域領(lǐng)先解決方案的地位。本工作為可控視頻生成的后續(xù)研究開辟了新路徑,進(jìn)一步拓展了人工智能生成內(nèi)容(AIGC)在創(chuàng)意產(chǎn)業(yè)等領(lǐng)域的應(yīng)用潛力。


本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/fLhq8CetSDiG25kmj8vdow??

標(biāo)簽
已于2025-5-9 08:43:06修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
好吊色欧美一区二区三区| 久久不射电影网| 久久婷婷五月综合色国产香蕉| 天堂av网在线| 麻豆精品久久久| 久久久精品日本| jjzz黄色片| 春暖花开亚洲一区二区三区| 中文字幕久久午夜不卡| 91色在线视频| 国产一级精品视频| 欧美电影免费播放| 日韩欧美激情一区| 欧美黄网站在线观看| 午夜免费视频在线国产| 成人av资源站| 成人春色激情网| 国产乱码久久久久久| 成人综合专区| 日韩av在线看| 一本之道在线视频| 蜜臀国产一区| 亚洲国产精品久久不卡毛片 | 男人操女人免费| 黄色在线免费| 久久亚洲一级片| 99在线观看| 一级片aaaa| 国产一区91| 米奇精品一区二区三区在线观看| 一区二区三区免费在线观看视频| 国产精品中文| 一本在线高清不卡dvd| 国产在线视频综合| av播放在线观看| 91免费版在线看| 97在线中文字幕| 正在播放亚洲精品| 久久福利一区| 97婷婷大伊香蕉精品视频| 黄色录像二级片| 成人久久一区| 国产一区二区三区18| 五月开心播播网| 中文字幕亚洲在线观看 | 中文字幕亚洲色图| 中文字幕一区二区三区人妻电影| 1204国产成人精品视频| 欧美剧情片在线观看| 亚洲黄色a v| 欧美成人a交片免费看| 精品福利视频导航| 国产一区二区三区小说| 四虎影视成人| 伊人夜夜躁av伊人久久| 成人午夜免费剧场| 成年人黄视频在线观看| 中文字幕在线播放不卡一区| 手机成人在线| 国产三级电影在线| 国产欧美综合色| 日本在线观看一区二区| 久久天堂电影| 国产农村妇女毛片精品久久麻豆 | 欧美剧在线观看| 爱爱视频免费在线观看| 久久精品国内一区二区三区水蜜桃| 伊人精品在线观看| 国产视频123区| 日韩一区亚洲二区| 久久精品国产免费观看| 国产va在线播放| 亚洲网站啪啪| 欧美一区二区三区……| 亚洲综合图片网| 蜜臀av在线播放一区二区三区| 国产精品色视频| 国产一区二区在线播放视频| 国产一区二区三区高清播放| 亚洲自拍中文字幕| 隣の若妻さん波多野结衣| 成人黄色一级视频| 免费在线国产精品| 日本综合在线| 亚洲五月六月丁香激情| 丰满人妻中伦妇伦精品app| 亚洲第一会所001| 91精品一区二区三区久久久久久| 亚洲国产欧美91| 精品精品国产毛片在线看| 亚洲免费视频网站| 欧日韩不卡视频| 欧美午夜影院| 国产国语videosex另类| 国产精品丝袜黑色高跟鞋| 成人午夜电影小说| 日本一区二区三区在线视频 | 夜夜躁狠狠躁日日躁av| 国产精品一区在线观看你懂的| 国产一区喷水| 中国日本在线视频中文字幕| 一区二区三区欧美在线观看| 国产原创中文在线观看| 欧美视频免费看| 亚洲白拍色综合图区| 国产一区二区三区四区五区六区 | 国产精彩视频在线观看| 三级影片在线观看欧美日韩一区二区| 成人精品视频久久久久 | 亚洲视频在线观看视频| 日韩三级久久久| 亚洲一区二区三区免费在线观看| 91精品国产综合久久久久久蜜臀| 天天操天天操天天操| 中文字幕五月欧美| 国产成人在线免费看| aa亚洲一区一区三区| 精品亚洲aⅴ在线观看| 亚洲成人生活片| 天堂在线一区二区| 国产视频一区二区不卡| 黄色在线观看网站| 日本久久一区二区三区| 中文字幕18页| 香蕉av一区二区| 国产成人在线播放| 午夜成人鲁丝片午夜精品| 亚洲欧美中日韩| 欧美黑人又粗又大又爽免费| www.丝袜精品| 欧美另类老女人| 真实的国产乱xxxx在线91| 99国产精品视频免费观看| 日韩视频 中文字幕| 久久人人视频| 亚洲色图美腿丝袜| 日韩免费av片| 国产成人啪免费观看软件| 一区二区日本伦理| 97精品国产99久久久久久免费| 亚洲精品国产综合区久久久久久久 | 日韩电视剧在线观看免费网站| 粉嫩av性色av蜜臀av网站| 免费在线看成人av| 日韩av影视| 欧美电影h版| 亚洲精品一区二区三区婷婷月| 久久久久久久福利| 国产精品18久久久久久久网站| aiss精品大尺度系列| 欧美日韩国产免费| 亚洲最大成人网站| 亚洲国产激情| 国产91一区二区三区| 在线观看中文| 欧美一二三区精品| frxxee中国xxx麻豆hd| 久久精品国产在热久久| 亚洲午夜精品久久久中文影院av| 超碰这里只有精品| 中文字幕日韩在线播放| 一区二区三区免费在线| 国产精品初高中害羞小美女文| 91激情视频在线| 国产一区二区三区电影在线观看 | 在线不卡欧美精品一区二区三区| 亚洲ⅴ国产v天堂a无码二区| 日产国产高清一区二区三区| 亚洲精品一区二区三| 欧美一区二区三区婷婷| 久久久国产一区二区| 99在线观看免费| 一二三区精品福利视频| 三级视频网站在线观看| 久久av一区| 亚洲不卡1区| 99久久婷婷国产综合精品首页 | 在线观看91精品国产入口| 成人无码av片在线观看| 久久国产欧美日韩精品| 欧洲金发美女大战黑人| 成人高潮a毛片免费观看网站| 91黄色8090| 成全电影播放在线观看国语| 3d成人h动漫网站入口| 欧美人妻精品一区二区免费看| 成人免费视频视频在线观看免费| 国产精品网站免费| 成人激情视频| 动漫一区二区在线| 偷拍精品精品一区二区三区| 久久久成人av| 天堂av中文字幕| 欧美视频完全免费看| 色欲人妻综合网| 91浏览器在线视频| 日本黄大片一区二区三区| 欧美日韩国产高清| 欧美日韩国产精品一卡| 亚洲三级电影| 2018国产精品视频| 青青青青在线| 亚洲国产精品悠悠久久琪琪| 中文字字幕在线中文乱码| 夜夜嗨av一区二区三区中文字幕 | 国产亚洲欧美在线精品| 综合分类小说区另类春色亚洲小说欧美 | 亚洲女同同性videoxma| 一本一道久久久a久久久精品91| 18国产精品| 国产精品久久久久久搜索| 欧美videos另类精品| 在线视频一区二区| 五月天久久久久久| 91精品国产综合久久久久久久久久| 日韩在线观看第一页| 综合在线观看色| 鲁丝一区二区三区| 高潮精品一区videoshd| 国产三级国产精品国产专区50| 欧美日韩视频一区二区三区| 亚洲不卡中文字幕| 国产精品美女在线观看直播| 亚洲一区二区中文字幕| 欧美影视资讯| 欧美亚洲国产精品| 大黄网站在线观看| 美女福利精品视频| av电影在线观看一区二区三区| 精品小视频在线| 天堂av手机版| 亚洲精品一线二线三线| 国产麻豆精品一区| 欧美日韩一区二区三区四区| jizz国产在线观看| 偷拍一区二区三区四区| 免费一级特黄特色大片| √…a在线天堂一区| 欧美aaa级片| 久久婷婷成人综合色| 青青草视频网站| 成人手机电影网| 激情综合激情五月| 国产成人免费在线视频| www日本在线观看| 国产精品一区二区三区四区 | 久操免费在线视频| 亚洲免费观看视频| 亚洲天堂网av在线| 中文字幕日韩一区二区| www.com.av| 国产精品成人免费在线| 国产传媒视频在线| 国产精品不卡在线| 91香蕉一区二区三区在线观看| 国产精品高潮久久久久无| 91免费公开视频| 亚洲欧美日韩一区二区三区在线观看 | 亚洲成人影音| 99蜜桃在线观看免费视频网站| 香港久久久电影| 97在线资源站| 国产欧美自拍一区| 久久香蕉综合色| 一区三区在线欧| 日韩欧美精品久久| 国产精品国产一区| 路边理发店露脸熟妇泻火| 在线一区电影| 国产毛片视频网站| 久久精品一区二区三区中文字幕| 亚洲精品高清无码视频| 久久99精品久久久久久国产越南| 在线免费观看av网| 国产黄色成人av| www.超碰97| 中文字幕乱码亚洲精品一区| 日本福利片在线观看| 亚洲自拍偷拍麻豆| 久久国产精品免费看| 色婷婷av久久久久久久| 在线免费观看一区二区| 日韩欧美专区在线| 天天干在线观看| 在线电影中文日韩| 色帝国亚洲欧美在线| 91av在线播放视频| 成人国产一区| 98国产高清一区| 香蕉久久夜色精品国产更新时间| 色噜噜狠狠色综合网| 欧美激情性爽国产精品17p| 欧美精品久久久久久久免费| 蜜臀av一区二区在线免费观看| 伊人影院在线观看视频| 久久这里都是精品| www欧美com| 欧美日韩亚洲天堂| 国产巨乳在线观看| 亚洲精品在线看| 91中文在线| 国产精品99久久久久久久久| 2021年精品国产福利在线| 午夜精品亚洲一区二区三区嫩草| 欧美久久成人| 久草福利视频在线| 成人黄页毛片网站| 四虎884aa成人精品| 色综合久久综合网欧美综合网| 国产男女猛烈无遮挡| 亚洲香蕉成人av网站在线观看| 2021国产在线| 国产精品久久久久久久app| 超碰一区二区三区| 一区二区三区四区| 欧美一级二区| 白嫩情侣偷拍呻吟刺激| 亚洲免费在线电影| 糖心vlog精品一区二区| 亚洲精品av在线| 怡红院红怡院欧美aⅴ怡春院| 国产精品毛片a∨一区二区三区|国| 精品午夜电影| 台湾无码一区二区| 久久国内精品视频| wwwww黄色| 一本大道av伊人久久综合| 女人18毛片一区二区三区| 久久天天躁狠狠躁夜夜av| 国产麻豆久久| 欧美精品尤物在线| 激情综合自拍| 亚洲天堂小视频| 亚洲精品日日夜夜| 国产有码在线观看| 亚洲社区在线观看| 成人免费直播| 好吊色欧美一区二区三区四区| 午夜精品999| 青青草精品在线| 中文字幕一区二区三| 在线免费观看日韩视频| 最近2019年好看中文字幕视频| 免费成人动漫| 欧美日韩国产不卡在线看| 午夜一区不卡| 三级电影在线看| 午夜欧美大尺度福利影院在线看| 亚洲产国偷v产偷v自拍涩爱| 美女av一区二区三区| 欧美高清一级片| 男插女免费视频| 国产一区美女在线| 激情综合五月网| 欧美成人一区二区三区| 色综合999| 精品久久久三级| 久久精品女人| 男人的天堂官网| 欧美日韩你懂的| 国产在线观看免费麻豆| 91成人伦理在线电影| 好看的av在线不卡观看| 黄色激情在线观看| 五月天丁香久久| 免费在线稳定资源站| 国产精品黄色影片导航在线观看| 日本道不卡免费一区| www.cao超碰| 一区二区高清免费观看影视大全| 国产91免费看| 欧美在线观看网站| 日韩久久久久| 日本高清免费在线视频| 亚洲一区二区美女| 日韩欧美在线番号| 国产美女高潮久久白浆| 影视亚洲一区二区三区| 野战少妇38p| 色婷婷精品久久二区二区蜜臀av| 成年人免费在线视频| 亚洲一区二区三区乱码aⅴ蜜桃女| 亚洲性色视频| 国内精品久久99人妻无码| 欧美视频在线观看一区| 欧洲黄色一区| 欧洲一区二区日韩在线视频观看免费| 另类的小说在线视频另类成人小视频在线 | 另类一区二区三区| 久久久久久久久久伊人| 91在线观看污| 一级α片免费看刺激高潮视频| 欧美大成色www永久网站婷| 美女福利一区| 中日韩av在线播放| 亚洲大片一区二区三区| 成年人在线观看网站| 91视频在线免费观看| 视频一区中文字幕国产| 青青草原国产视频|