可靈團(tuán)隊(duì)提出MIDAS：壓縮比64倍、延遲低于500ms，多模態(tài)互動(dòng)數(shù)字人框架實(shí)現(xiàn)交互生成新突破！

發(fā)布于 2025-9-24 18:21

瀏覽

0收藏

數(shù)字人視頻生成技術(shù)正迅速成為增強(qiáng)人機(jī)交互體驗(yàn)的核心手段之一。然而，現(xiàn)有方法在實(shí)現(xiàn)低延遲、多模態(tài)控制與長(zhǎng)時(shí)序一致性方面仍存在顯著挑戰(zhàn)。大多數(shù)系統(tǒng)要么計(jì)算開(kāi)銷(xiāo)巨大，無(wú)法實(shí)時(shí)響應(yīng)，要么只能處理單一模態(tài)輸入，缺乏真正的交互能力。

為了解決這些問(wèn)題，快手可靈團(tuán)隊(duì)（Kling Team）提出了一種名為 MIDAS（Multimodal Interactive Digital-human Synthesis）的新型框架，通過(guò)自回歸視頻生成結(jié)合輕量化擴(kuò)散去噪頭，實(shí)現(xiàn)了多模態(tài)條件下實(shí)時(shí)、流暢的數(shù)字人視頻合成。

該系統(tǒng)具備三大核心優(yōu)勢(shì)：

64×高壓縮比自編碼器，將每幀壓縮至最多60個(gè)token，大幅降低計(jì)算負(fù)荷；
低于500ms端到端生成延遲，支持實(shí)時(shí)流式交互；
4步擴(kuò)散去噪，在效率與視覺(jué)質(zhì)量間取得最佳平衡。

該項(xiàng)研究已被廣泛實(shí)驗(yàn)驗(yàn)證，在多語(yǔ)言對(duì)話、歌唱合成甚至交互式世界建模等任務(wù)中表現(xiàn)出色，為數(shù)字人實(shí)時(shí)交互提供了全新解決方案。
可靈團(tuán)隊(duì)提出MIDAS：壓縮比64倍、延遲低于500ms，多模態(tài)互動(dòng)數(shù)字人框架實(shí)現(xiàn)交互生成新突破！-AI.x社區(qū)
論文地址：https://arxiv.org/pdf/2508.19320

一、核心創(chuàng)新

多模態(tài)指令控制機(jī)制

MIDAS 支持從音頻、姿態(tài)到文本等多種輸入信號(hào)。通過(guò)一個(gè)統(tǒng)一的多模態(tài)條件投影器，將不同模態(tài)編碼到共享潛在空間，形成全局指令令牌，構(gòu)建 frame-by-frame 的 chunk 注入，引導(dǎo)自回歸模型生成語(yǔ)義和空間一致的數(shù)字人動(dòng)作與表情。可靈團(tuán)隊(duì)提出MIDAS：壓縮比64倍、延遲低于500ms，多模態(tài)互動(dòng)數(shù)字人框架實(shí)現(xiàn)交互生成新突破！-AI.x社區(qū)

因果潛在預(yù)測(cè) + 擴(kuò)散渲染

模型可嵌套任意類似大語(yǔ)言模型的自回歸架構(gòu)，逐幀預(yù)測(cè)潛在表示，再由一個(gè)輕量級(jí)擴(kuò)散頭進(jìn)行去噪和高清渲染。這種設(shè)計(jì)既保證了生成的連貫性，也大幅降低了計(jì)算延遲，適合實(shí)時(shí)流式生成。

高壓縮率自編碼器（DC-AE）

為實(shí)現(xiàn)高效的自回歸建模，團(tuán)隊(duì)設(shè)計(jì)了壓縮比高達(dá)64倍的DC-AE，將每幀圖像表示為最多60個(gè)令牌，支持分辨率最高達(dá)384×640的圖像重建，并引入因果時(shí)序卷積與RoPE注意力機(jī)制保障時(shí)序一致性。可靈團(tuán)隊(duì)提出MIDAS：壓縮比64倍、延遲低于500ms，多模態(tài)互動(dòng)數(shù)字人框架實(shí)現(xiàn)交互生成新突破！-AI.x社區(qū)

大規(guī)模多模態(tài)對(duì)話數(shù)據(jù)集

為訓(xùn)練模型，研究者構(gòu)建了一個(gè)約2萬(wàn)小時(shí)的大規(guī)模對(duì)話數(shù)據(jù)集，涵蓋單人、雙人對(duì)話場(chǎng)景，涵蓋多語(yǔ)言、多風(fēng)格內(nèi)容，為模型提供了豐富的語(yǔ)境與交互樣本。

二、方法概要

模型架構(gòu)：采用 Qwen2.5-3B 作為自回歸主干網(wǎng)絡(luò)，擴(kuò)散頭基于 PixArt-α / mlp 結(jié)構(gòu)。
訓(xùn)練策略：引入可控噪聲注入，通過(guò)20級(jí)噪聲桶和對(duì)應(yīng)嵌入，緩解自回歸模型在推理階段的曝光偏差問(wèn)題。
推理機(jī)制：支持分塊流式生成，每塊6幀，可實(shí)現(xiàn)480ms級(jí)別的低延遲響應(yīng)。

三、效果展示

雙人對(duì)話生成系統(tǒng)可實(shí)時(shí)處理雙人對(duì)話音頻流，生成與語(yǔ)音同步的口型、表情和傾聽(tīng)姿態(tài)，支持自然輪流對(duì)話:

視頻地址：https://www.bilibili.com/video/BV1aVJQzPEDv/
雙工對(duì)話示例

跨語(yǔ)言歌唱合成在沒(méi)有顯式語(yǔ)言標(biāo)識(shí)的情況下，模型精準(zhǔn)實(shí)現(xiàn)中文、日文、英文歌曲的唇形同步，生成視頻可達(dá)4分鐘無(wú)顯著漂移:

視頻地址：https://www.bilibili.com/video/BV1aVJQzPEQw/
多語(yǔ)言歌唱合成效果

通用交互世界模型通過(guò)在Minecraft數(shù)據(jù)集上訓(xùn)練，MIDAS可響應(yīng)方向控制信號(hào)，展現(xiàn)出良好的場(chǎng)景一致性與記憶能力，驗(yàn)證了其作為交互式世界模型的潛力:

視頻地址：https://www.bilibili.com/video/BV1VoJ9zkEHY/
Minecraft環(huán)境下的交互生成示例

四、總結(jié)

MIDAS在雙邊對(duì)話、多語(yǔ)言生成等任務(wù)中，MIDAS均實(shí)現(xiàn)實(shí)時(shí)生成（<500ms延遲), 并且擴(kuò)散頭僅需4步去噪，在效率與質(zhì)量間取得最佳平衡，支持長(zhǎng)達(dá)幾分鐘的連續(xù)生成，且質(zhì)量衰減顯著低于基線方法。

MIDAS不僅為實(shí)時(shí)數(shù)字人生成提供了端到端的解決方案，更探索了多模態(tài)自回歸模型在交互式媒體生成中的潛力。其模塊化設(shè)計(jì)允許靈活擴(kuò)展至更多模態(tài)與控制信號(hào)，為虛擬人直播、元宇宙交互、多模態(tài)AI智能體等應(yīng)用奠定了技術(shù)基礎(chǔ)。

團(tuán)隊(duì)表示，未來(lái)將進(jìn)一步探索更高分辨率、更復(fù)雜交互邏輯下的生成能力，并推進(jìn)系統(tǒng)在真實(shí)產(chǎn)品環(huán)境中的部署。

標(biāo)簽

人工智能

贊

回復(fù)