可靈團(tuán)隊(duì)提出MIDAS:壓縮比64倍、延遲低于500ms,多模態(tài)互動(dòng)數(shù)字人框架實(shí)現(xiàn)交互生成新突破!
數(shù)字人視頻生成技術(shù)正迅速成為增強(qiáng)人機(jī)交互體驗(yàn)的核心手段之一。然而,現(xiàn)有方法在實(shí)現(xiàn)低延遲、多模態(tài)控制與長(zhǎng)時(shí)序一致性方面仍存在顯著挑戰(zhàn)。大多數(shù)系統(tǒng)要么計(jì)算開(kāi)銷(xiāo)巨大,無(wú)法實(shí)時(shí)響應(yīng),要么只能處理單一模態(tài)輸入,缺乏真正的交互能力。
為了解決這些問(wèn)題,快手可靈團(tuán)隊(duì)(Kling Team) 提出了一種名為 MIDAS(Multimodal Interactive Digital-human Synthesis)的新型框架,通過(guò)自回歸視頻生成結(jié)合輕量化擴(kuò)散去噪頭,實(shí)現(xiàn)了多模態(tài)條件下實(shí)時(shí)、流暢的數(shù)字人視頻合成。
該系統(tǒng)具備三大核心優(yōu)勢(shì):
-
64×高壓縮比自編碼器,將每幀壓縮至最多60個(gè)token,大幅降低計(jì)算負(fù)荷;
-
低于500ms端到端生成延遲,支持實(shí)時(shí)流式交互;
-
4步擴(kuò)散去噪,在效率與視覺(jué)質(zhì)量間取得最佳平衡。
該項(xiàng)研究已被廣泛實(shí)驗(yàn)驗(yàn)證,在多語(yǔ)言對(duì)話、歌唱合成甚至交互式世界建模等任務(wù)中表現(xiàn)出色,為數(shù)字人實(shí)時(shí)交互提供了全新解決方案。

論文地址:https://arxiv.org/pdf/2508.19320
一、核心創(chuàng)新
多模態(tài)指令控制機(jī)制
MIDAS 支持從音頻、姿態(tài)到文本等多種輸入信號(hào)。通過(guò)一個(gè)統(tǒng)一的多模態(tài)條件投影器,將不同模態(tài)編碼到共享潛在空間,形成全局指令令牌,構(gòu)建 frame-by-frame 的 chunk 注入,引導(dǎo)自回歸模型生成語(yǔ)義和空間一致的數(shù)字人動(dòng)作與表情。
因果潛在預(yù)測(cè) + 擴(kuò)散渲染
模型可嵌套任意類似大語(yǔ)言模型的自回歸架構(gòu),逐幀預(yù)測(cè)潛在表示,再由一個(gè)輕量級(jí)擴(kuò)散頭進(jìn)行去噪和高清渲染。這種設(shè)計(jì)既保證了生成的連貫性,也大幅降低了計(jì)算延遲,適合實(shí)時(shí)流式生成。
高壓縮率自編碼器(DC-AE)
為實(shí)現(xiàn)高效的自回歸建模,團(tuán)隊(duì)設(shè)計(jì)了壓縮比高達(dá)64倍的DC-AE,將每幀圖像表示為最多60個(gè)令牌,支持分辨率最高達(dá)384×640的圖像重建,并引入因果時(shí)序卷積與RoPE注意力機(jī)制保障時(shí)序一致性。
大規(guī)模多模態(tài)對(duì)話數(shù)據(jù)集
為訓(xùn)練模型,研究者構(gòu)建了一個(gè)約2萬(wàn)小時(shí)的大規(guī)模對(duì)話數(shù)據(jù)集,涵蓋單人、雙人對(duì)話場(chǎng)景,涵蓋多語(yǔ)言、多風(fēng)格內(nèi)容,為模型提供了豐富的語(yǔ)境與交互樣本。
二、方法概要
-
模型架構(gòu):采用 Qwen2.5-3B 作為自回歸主干網(wǎng)絡(luò),擴(kuò)散頭基于 PixArt-α / mlp 結(jié)構(gòu)。
-
訓(xùn)練策略:引入可控噪聲注入,通過(guò)20級(jí)噪聲桶和對(duì)應(yīng)嵌入,緩解自回歸模型在推理階段的曝光偏差問(wèn)題。
-
推理機(jī)制:支持分塊流式生成,每塊6幀,可實(shí)現(xiàn)480ms級(jí)別的低延遲響應(yīng)。

三、效果展示
雙人對(duì)話生成系統(tǒng)可實(shí)時(shí)處理雙人對(duì)話音頻流,生成與語(yǔ)音同步的口型、表情和傾聽(tīng)姿態(tài),支持自然輪流對(duì)話:
- 視頻地址:https://www.bilibili.com/video/BV1aVJQzPEDv/
雙工對(duì)話示例
跨語(yǔ)言歌唱合成在沒(méi)有顯式語(yǔ)言標(biāo)識(shí)的情況下,模型精準(zhǔn)實(shí)現(xiàn)中文、日文、英文歌曲的唇形同步,生成視頻可達(dá)4分鐘無(wú)顯著漂移:
- 視頻地址:https://www.bilibili.com/video/BV1aVJQzPEQw/
多語(yǔ)言歌唱合成效果
通用交互世界模型通過(guò)在Minecraft數(shù)據(jù)集上訓(xùn)練,MIDAS可響應(yīng)方向控制信號(hào),展現(xiàn)出良好的場(chǎng)景一致性與記憶能力,驗(yàn)證了其作為交互式世界模型的潛力:
- 視頻地址:https://www.bilibili.com/video/BV1VoJ9zkEHY/
Minecraft環(huán)境下的交互生成示例
四、總結(jié)
MIDAS在雙邊對(duì)話、多語(yǔ)言生成等任務(wù)中,MIDAS均實(shí)現(xiàn)實(shí)時(shí)生成(<500ms延遲), 并且擴(kuò)散頭僅需4步去噪,在效率與質(zhì)量間取得最佳平衡,支持長(zhǎng)達(dá)幾分鐘的連續(xù)生成,且質(zhì)量衰減顯著低于基線方法。
MIDAS不僅為實(shí)時(shí)數(shù)字人生成提供了端到端的解決方案,更探索了多模態(tài)自回歸模型在交互式媒體生成中的潛力。其模塊化設(shè)計(jì)允許靈活擴(kuò)展至更多模態(tài)與控制信號(hào),為虛擬人直播、元宇宙交互、多模態(tài)AI智能體等應(yīng)用奠定了技術(shù)基礎(chǔ)。
團(tuán)隊(duì)表示,未來(lái)將進(jìn)一步探索更高分辨率、更復(fù)雜交互邏輯下的生成能力,并推進(jìn)系統(tǒng)在真實(shí)產(chǎn)品環(huán)境中的部署。

















