視頻AI的"統一時刻":UniVideo如何實現理解、生成與編輯的三位一體

大家好,我是肆〇柒。今天閱讀一份由加拿大滑鐵盧大學(University of Waterloo)與快手科技可靈團隊聯合研發的突破性工作——UniVideo。這項研究首次將統一多模態模型從圖像領域成功擴展至視頻領域,解決了長期以來視頻AI只能處理,而不能真正理解復雜指令的問題。通過雙流架構,研究團隊成功構建了一個既能理解多模態指令,又能生成高質量視頻內容的統一系統,為視頻創作帶來了革命性變革。
現在,我們想象一下,只需一句指令:"把視頻中穿西裝的人換成參考圖中的湯姆·克魯斯,背景變為熱帶海灘,整體轉為梵高風格",就能在幾分鐘內完成原本需要5-6個不同軟件、數小時操作的視頻編輯任務。UniVideo的研究,正在將這一愿景變為現實。與當前90%以上僅能處理純文本指令的視頻模型不同,UniVideo首次實現了對復雜多模態指令的準確理解與執行,讓視頻AI真正具備了"思考"能力。




UniVideo 整體能力概覽
上圖直觀展示了UniVideo作為統一系統的完整能力圖譜,涵蓋文本到視頻/圖像生成、上下文生成、視覺提示理解、上下文編輯和自由形式編輯等多種任務。從"生成一個基于視覺提示的視頻"到"將沙發替換為參考圖像中的汽車",UniVideo通過單一框架處理多樣化的指令,突破了視頻AI領域的孤島困境。這種能力不是簡單的功能疊加,而是從根本上重構了視頻AI的交互方式。
真正的突破:讓AI"理解"而不僅僅是"處理"視頻
UniVideo的核心創新在于其雙流架構設計,這一設計解決了現有視頻模型無法處理復雜多模態指令的問題。當下,傳統方法面臨兩大瓶頸:純文本指令模型難以定位視頻中的特定對象,而使用查詢Token的方法則在處理長視頻時遭遇嚴重容量限制。當視頻超過30幀時,這些方法的身份一致性從0.85急劇下降至0.32。

模型架構
上圖清晰展示了UniVideo的架構設計:理解流塊(Understanding Stream Block)、生成流塊(Generation Stream Block)和單流塊(Single Stream Block)。理解流由Multimodal Large Language Model(MLLM)組成,生成流則基于Multimodal DiT(MMDiT)。MLLM作為"理解分支"處理視覺-文本理解,而MMDiT則專注于視頻生成,兩者通過可訓練的連接器緊密協作。
理解流采用Qwen2.5VL-7B作為基礎,保留了完整的多模態理解能力,能處理文本、圖像和視頻輸入。關鍵的是,研究團隊選擇凍結MLLM參數,避免聯合訓練導致的理解能力退化。生成流基于HunyuanVideo-T2V-13B,接收雙重輸入信號:來自MLLM的高層語義信息和通過VAE編碼的細粒度視覺細節。這種設計既保證了語義準確性,又保留了視覺細節,對視頻編輯和身份保持至關重要。
連接機制是UniVideo的靈魂所在。具有4× expansion擴展的MLP連接器(an MLP with a 4× expansion)將Qwen2.5VL-7B的特征維度對齊到HunyuanVideo-T2V-13B的輸入空間,如同將導演的創意"翻譯"成攝像師能精確執行的技術指令。消融實驗數據表明,若移除視覺輸入直接饋送至MMDiT,身份一致性(SC)將從0.78暴跌至0.18,證明了雙流設計的必要性。
在位置編碼設計上,UniVideo采用的3D位置編碼系統能夠保持幀間空間索引一致性,僅遞增時間維度,比Qwen2-VL的MRoPE方法更有效。這一設計對于維持視頻中對象的身份一致性至關重要,特別是在處理多參考圖像和長視頻序列時。因為后者"在引入新的視覺輸入時會偏移所有軸"(offsets all axes whenever a new visual input is introduced)。這一技術細節對理解UniVideo如何在129幀視頻中保持人物身份一致性至關重要,解決了傳統2D擴展方法無法處理長視頻序列的根本缺陷。
統一訓練:如何讓一個模型掌握六種能力?
基于這一精心設計的雙流架構,UniVideo通過三階段訓練策略,將六種能力無縫融合為一個統一系統。第一階段是Connector對齊,僅訓練MLP連接器15,000步,使用約5000萬預訓練樣本,包括4000萬文本到圖像和1000萬文本到視頻,學習率為1×10??,恒定調度器。數據采樣比為文本到圖像70%、文本到視頻20%、圖像重建10%。這一階段使模型能夠生成基于MLLM輸入的圖像和視頻。
第二階段進行MMDiT微調,凍結MLLM,微調連接器和MMDiT 5,000步,使用約1萬高質量文本到圖像和文本到視頻樣本,學習率降至2.0×10??,EMA比例0.9999。數據采樣比為高質量文本到圖像70%、高質量文本到視頻20%、圖像重建10%。此階段使UniVideo達到與專用MMDiT骨干相當的生成性能。
第三階段是多任務聯合訓練的關鍵,凍結MLLM,訓練連接器和MMDiT 15,000步,混合多種任務數據。學習率保持2.0×10??,EMA比例0.9999。數據采樣策略經過精心設計:圖像編輯占30%,上下文視頻生成占20%,高質量文本到視頻占5%,高質量文本到圖像占5%,圖像到視頻占10%,圖像風格遷移占10%,上下文視頻編輯占10%,上下文圖像風格遷移占10%。

UniVideo所使用的多模態訓練數據概覽。每個任務都以其輸入模態和示例數量為特征
上表詳細列出了訓練數據的精確構成:
- 文本到圖像:4000萬樣本
- 高質量文本到圖像:1萬樣本
- 圖像重建:4000萬樣本
- 文本到視頻:1000萬樣本
- 高質量文本到視頻:1萬樣本
- 圖像到視頻:1萬樣本
- 圖像編輯:100萬樣本
- 圖像風格遷移:1萬樣本
- 上下文視頻編輯:1萬樣本
- 上下文視頻生成:1萬樣本
- 上下文圖像風格遷移:1萬樣本
訓練數據的構建方法也頗具技術深度:
- ID相關任務:使用SAM2獲取對象分割掩碼,然后訓練視頻修復模型來創建編輯輸入片段
- 風格遷移:先使用T2V模型生成高質量風格化視頻,再使用視頻ControlNet模型將其轉換為真實對應物
- 圖像和視頻數據:利用FLUX.1 Kontext等圖像編輯模型創建多樣化圖像編輯數據,以及開源數據如OmniEdit、ImgEdit和ShareGPT-4o-Image
UniVideo與單任務模型在不同上下文任務中的消融研究
上表數據顯示,與單任務模型相比,UniVideo在上下文視頻生成任務中身份一致性(SC)提升0.11,在上下文視頻編輯任務中提示遵循(PF)提升0.16。具體來看:
- 上下文生成:UniVideo比單任務模型SC提升0.05(單ID)和0.02(多ID)
- 上下文編輯:UniVideo比單任務模型SC提升0.07(替換)和0.16(刪除)
- 平均提升:PF提升0.16,SC提升0.11,Overall提升0.06
這表明統一訓練不僅沒有導致任務混淆,反而通過知識遷移增強了各項能力。值得注意的是,圖像編輯數據量(100萬)是上下文視頻編輯數據(1萬)的100倍,這一比例設計使模型能夠從大規模圖像編輯數據中學習概念,然后遷移到視頻編輯領域。
零樣本泛化:UniVideo的"魔法"從何而來?
UniVideo展現出兩種引人注目的泛化能力,即使在未見過的任務上也能表現出色。

零樣本泛化
上圖展示了這些能力:一方面,雖然未在自由形式視頻編輯數據上訓練,UniVideo能將圖像編輯能力遷移到視頻領域;另一方面,它能組合多種能力處理訓練中未見過的任務組合。
論文中明確將零樣本泛化分為兩類:(i)從圖像編輯數據遷移至視頻編輯能力;(ii)處理訓練中未見過的任務組合。在任務組合方面,UniVideo能同時執行多種編輯操作。例如,模型可以理解"刪除視頻中的馬,將背景改為秋天落葉場景,同時將人物材質變為玻璃"這樣的復雜指令,無需額外訓練。下表顯示,在ID替換任務中,UniVideo的提示遵循(PF)達到0.91,身份一致性(SC)達0.85,優于所有基線模型。

UniVideo與單任務模型在不同上下文任務中的消融研究
在跨模態遷移方面,UniVideo能處理訓練數據中不存在的視頻編輯任務。例如,"將視頻中的人物材質變為玻璃"這一指令在訓練集中不存在,但模型成功利用從100萬圖像編輯數據中學到的"玻璃材質"概念完成任務。表5證實,在ID替換任務中,UniVideo的CLIP-I達到0.728,優于Pika2.2的0.704。

在上下文視頻編輯任務中與特定任務專家模型的定量比較
更令人驚訝的是,UniVideo能執行綠幕摳像任務——"將視頻中的男女從背景中摳出",而無需任何掩碼輸入。這是現有視頻編輯模型無法做到的,因為它們通常需要明確的掩碼來指示編輯區域。UniVideo通過多模態大型語言模型(MLLM)理解“摳像”的語義含義,然后由多模態擴散模型(MMDiT)將其轉化為精確的像素級操作。UniVideo并未在通用自由形式視頻編輯數據上進行訓練。它將這種能力從多樣化的圖像編輯數據以及上下文視頻編輯數據(僅限于身份刪除、交換、添加和風格化)遷移到視頻領域,這揭示了其能力遷移背后的技術機制。

上下文視頻生成測試集的構建流程
上圖展示了評估基準的構建方法:研究團隊構建了一個ID池,包含從卡通到現實主題的多樣化圖像,涵蓋人類、動物和常見物體。然后從這個池中選擇ID圖像并設計適當的提示。單ID測試案例可以有一個ID圖像(如貓示例)或同一ID的多個鏡頭(如人類示例);多ID測試案例中ID數量范圍從2到4,數量越大難度越高,提示詞關注ID圖像之間的互動。這種嚴謹的評估設計確保了測試結果的可靠性和可比性。
視覺Prompt理解:讓草圖成為你的"視頻魔法書"
除了處理復雜的多任務指令組合,UniVideo還展現出對非傳統視覺提示的理解能力,這使其能將手繪草圖或帶注釋的圖像轉化為高質量視頻。

視覺提示詞理解
上圖詳細展示了這一工作流程:當用戶提供帶注釋的視覺提示時,MLLM首先生成密集字幕描述,然后MMDiT直接整合這些密集提示詞嵌入進行視頻生成。
與那些需要調用多個下游生成器的傳統Agent方法不同,UniVideo采用了一種更為簡化的架構設計:多模態擴散模型(MMDiT)直接整合了由多模態大型語言模型(MLLM)生成的密集提示詞嵌入。這一設計避免了傳統Agent方法中調用多個下游生成器的復雜流程,正是UniVideo架構的關鍵優勢所在。
這種能力使視頻創作門檻大幅降低。用戶無需編寫詳細的文本提示,只需在畫布上繪制簡單草圖并添加標注,例如"女人從車中走出"或"突然爆炸,一輛蘭博基尼從火球中沖出",UniVideo就能生成相應的視頻內容。

視覺提示輸入結果
上圖展示了兩種視覺提示類型:前三個例子是在畫布上繪制的參考圖像和故事計劃,最后一個例子是在輸入圖像上直接繪制的注釋。
技術原理上,MLLM將視覺提示轉化為結構化計劃和密集提示詞嵌入,指導MMDiT在合成過程中的操作。當用戶提供帶箭頭標注"人物向左移動"的圖像時,模型能準確生成相應運動;當用顏色標記"此處爆炸"時,模型能生成逼真的爆炸效果。這種能力使視頻創作過程更直觀、更高效,特別適合不擅長文字描述的創作者。

單ID測試用例示例

多ID測試用例示例
上兩圖進一步展示了UniVideo在處理復雜場景時的能力。在多ID測試案例中,當指令要求"將視頻中穿西裝的人換成參考圖中的湯姆·克魯斯,背景變為熱帶海灘,整體轉為梵高風格"時,UniVideo能準確理解并執行這些復雜指令,而基線模型往往混淆不同角色。
為什么UniVideo比專用模型更強大?
UniVideo在多項基準測試中展現出卓越性能。

視覺理解與視頻生成的定量比較
上表提供了全面的對比數據:
- MMBench理解測試:UniVideo 83.5分 vs. LLaVA-NeXT 79.3分
- MMMU理解測試:UniVideo 58.6分 vs. LLaVA-NeXT 51.1分
- MM-Vet理解測試:UniVideo 66.6分 vs. LLaVA-NeXT 57.4分
- VBench視頻生成:UniVideo 82.58分 vs. HunyuanVideo 83.24分
這些數據表明,UniVideo在理解能力上顯著優于現有模型,同時在視頻生成質量上接近專用模型。在上下文視頻生成任務中,UniVideo表現尤為突出。表4顯示,在單參考生成中,其身份一致性(SC)達0.88,顯著優于Pika2.2的0.45和Kling1.6的0.68;在多參考(≥2)生成中,SC達0.81,而基線模型普遍低于0.75。
評估指標的明確定義對于理解這些結果至關重要。在進行人類評估時,研究者遵循了Instruct-Imagen和OmniGen2的協議,以開展系統性的研究。每個樣本至少由三名標注者從以下三個方面進行評分:(i)主體一致性(SC),(ii)提示遵循度(PF),以及(iii)整體視頻質量(Overall)。每個類別的評分范圍為{0, 0.5, 1},其中0表示不一致或極差的質量,而1表示完全一致或高質量。

與Sota任務特定專家的比較
上圖直觀展示了UniVideo與SoTA任務特定專家模型的對比結果。在ID替換任務中,當指令要求"Let the woman have the hair style in <img1>"時,UniVideo能準確執行而Pika2.2等模型則出現明顯失真;在ID插入任務中,UniVideo能將參考圖中的物體自然融入視頻場景,而VACE等模型則產生不連貫的合成效果。
UniVideo的另一項革命性突破是無需掩碼的視頻編輯能力。表5表明,在ID替換任務中,UniVideo的CLIP-I達0.728,DINO-I達0.427,優于所有需要掩碼的基線模型。這證明模型能僅憑指令理解編輯意圖,無需用戶手動指定編輯區域,大幅簡化了操作流程。

MMDIT的UniVideo和無視覺的UniVideo的消融研究
上表的消融實驗進一步證實了雙流設計的必要性:
- 單ID上下文生成:移除視覺輸入后,身份一致性(SC)從0.88降至0.32,下降幅度達5.6倍
- 多ID上下文生成:SC從0.81降至0.23,下降幅度達3.5倍
- 上下文編輯:平均SC從0.78降至0.18,下降幅度達4.3倍
這些數據有力證明了保留視覺細節對視頻身份一致性的決定性影響。當視覺信號僅通過MLLM的語義編碼傳遞時,大量像素級細節丟失,導致身份一致性驟降;而VAE直連設計保留了這些細節,使模型能精確識別和保持目標對象特征。

模型能力對比
上表提供了關鍵的模型能力對比:UniVideo是唯一一個在理解、圖像生成、視頻生成、圖像編輯、視頻編輯和上下文視頻生成等六項能力上都打勾(?)的模型,而其他模型如QwenImage僅支持圖像相關任務,VACE僅支持視頻生成但不支持編輯。這一全面性使UniVideo成為視頻創作的全能工具。
從技術到現實:UniVideo如何改變我們的生活?
UniVideo的技術突破將深刻影響視頻創作領域。

ID插入測試用例示例

ID替換測試用例示例

ID刪除測試用例示例

風格化測試用例示例
以上展示了UniVideo在各種編輯任務中的實際應用。這些圖表詳細說明了如何將UNICBench中的元素轉換為UniVideo的輸入,例如:
- ID插入:將"An octopus at the edge of the sea"轉換為"Add an octopus from the image at the edge of the sea"
- ID替換:將"Use the man's face in the reference image to replace the man's face in the video"
- ID刪除:直接使用"Delete the computer in the video"指令
- 風格遷移:使用"Transform the video into the style of the reference image"指令
對于內容創作者而言,它將視頻制作從"專業技能"轉變為"人人可做"的活動。小商家只需上傳產品照片和簡單指令,即可生成專業廣告視頻,將制作時間從數小時縮短到幾分鐘。
在影視后期領域,UniVideo降低了特效制作門檻。獨立電影人可以通過"將角色材質變為玻璃"等簡單指令實現專業級特效,無需昂貴軟件和專業團隊。這種能力使創意表達不再受技術限制,讓故事本身成為焦點。
教育領域也將受益。教師可以畫個簡筆地球和箭頭,立即生成地球自轉動畫;不會說英語的設計師可以用草圖生成國際團隊能理解的視頻。視覺提示理解能力消除了語言障礙,使跨語言溝通更加高效。
理性看待UniVideo的局限與未來
盡管UniVideo取得了顯著進展,但仍面臨一些挑戰。它有時無法嚴格遵循編輯指令,偶爾會過度編輯與指令無關的區域。例如,在執行“將沙發變為汽車”的指令時,可能會意外改變人物的服裝。這表明模型在精確區域控制方面仍有提升空間。
在運動保真度方面,UniVideo也存在明顯不足:由于骨干網絡的限制,該模型在完全保留原始視頻的運動特性方面也存在困難。尤其是在處理像舞蹈這樣復雜動作的視頻時,UniVideo很難完整地保留原始視頻中的運動細節。這一局限性表明,未來需要開發更強大的視頻生成骨干網絡來提升模型的運動保真度。
UniVideo代表了一個"組裝的多模態生成系統"(an assembled multimodal generative system),而非原生訓練的多模態模型。盡管UniVideo在自由形式視頻編輯領域展現出了令人興奮的能力,UniVideo能夠泛化到自由形式視頻編輯;但其成功率仍低于圖像編輯。這一差距凸顯了視頻編輯本身所具有的復雜性。
具體數據表明,圖像編輯成功率約為95%,而視頻編輯成功率約為85%,存在約10個百分點的差距。此外,過度編輯問題在復雜場景中尤為明顯,模型有時會修改非目標區域。運動保真度挑戰也限制了模型在處理高度動態視頻時的表現。
未來的研發方向可以包括構建大規模視頻編輯數據集、改進視頻骨干網絡以提升運動保真度,以及開發端到-end訓練的原生多模態模型。研究團隊還指出,UniVideo的當前設計為未來研究提供了明確方向。
為什么UniVideo真正改變了游戲規則?
UniVideo的真正突破不在于單一技術指標,而在于它證明了統一架構能夠有效整合視頻理解、生成與編輯能力。比如下表中就提供了關鍵證據:UniVideo是唯一一個在理解、圖像生成、視頻生成、圖像編輯、視頻編輯和上下文視頻生成等六項能力上都打勾(?)的模型。

模型在理解、生成、編輯和上下文生成等方面的能力。?表示支持;?表示不支持。最后一行UniVideo已突出顯示
這一突破的核心啟示在于:視頻AI的未來不僅在于生成質量,更在于理解能力與任務整合。語義-視覺雙通道協同設計、跨模態知識遷移和視覺提示理解,共同構成了下一代視頻AI的基礎。
當AI能真正"理解"視頻而不僅僅是"處理"視頻,每個人都能像導演一樣思考,像專業團隊一樣創作。這不僅是技術進步,更是創意表達方式的革命——視頻AI的統一時刻,已然到來。
UniVideo不僅是一個技術突破,更是視頻AI發展的重要轉折點。它證明了"統一架構+多任務訓練"能夠突破視頻生成/編輯的碎片化現狀,為未來視頻AI發展指明方向。無論你是內容創作者、AI研究者還是普通用戶,現在都是關注和嘗試UniVideo的最佳時機。它不僅代表了技術前沿,更預示著視頻創作平權的未來——每個人都能像導演一樣思考,像專業團隊一樣創作。
當AI能真正"理解"視頻,而不僅僅是"處理"視頻,我們距離創造無限可能的視覺世界還有多遠?UniVideo給出了一個令人振奮的答案:不遠了。






























