不止補幀,更能補世界!港中文&快手可靈最新VideoCanvas實現(xiàn)真正任意時空視頻補全

文章鏈接:https://arxiv.org/pdf/2510.08555 項目鏈接:https://onevfall.github.io/project_page/videocanvas/ Git鏈接:https://onevfall.github.io/project_page/videocanvas/
亮點直擊
- 引入并形式化了任意時空視頻補全任務(wù),這是一個統(tǒng)一的框架,涵蓋了廣泛的可控視頻生成場景。
- VideoCanvas,第一個將In-Context Conditioning范式應(yīng)用于任意時空補全任務(wù)的框架。進一步引入混合條件策略:Spatial Zero-Padding和Temporal RoPE Interpolation。該方法無需重新訓練 VAE,即可高效微調(diào) DiT 模型,從而實現(xiàn)精細的時空控制。
- 設(shè)計并發(fā)布了VideoCanvasBench,這是第一個專門用于任意時空補全的基準測試,并證明VideoCanvas在多種設(shè)置下實現(xiàn)了最先進的性能,優(yōu)于現(xiàn)有的條件范式。

任意時間戳Patches到視頻

任意時間戳圖像到視頻

視頻轉(zhuǎn)換

視頻修復和外擴
總結(jié)速覽
解決的問題
- 現(xiàn)有可控視頻生成方法(如首幀驅(qū)動、片段延伸、視頻補全等)過于任務(wù)特定、缺乏統(tǒng)一框架,難以靈活應(yīng)對任意時空控制需求。
- 隱空間視頻擴散模型中的因果型VAE存在時間模糊性,多個像素幀被壓縮成一個隱空間變量,導致難以實現(xiàn)精確的幀級條件控制。
- 空間層面上,不同形狀與位置的局部patch難以統(tǒng)一處理,模型對零填充(zero-padding)輸入不具魯棒性。
提出的方案
- VideoCanvas—— 一個統(tǒng)一的“任意時空視頻補全(Arbitrary Spatio-Temporal Video Completion)”框架。
- 將視頻生成視為在“時空畫布(video canvas)”上作畫:用戶可在任意時間與空間位置放置圖像或patch,模型自動補全生成完整視頻。
- 設(shè)計一種混合式條件編碼策略(Hybrid Conditioning Strategy),將空間與時間控制解耦:
- 空間控制:通過零填充(zero-padding)在VAE隱空間中定位任意形狀patch;
- 時間控制:通過Temporal RoPE Interpolation(時間位置插值)為條件幀分配連續(xù)的分數(shù)時間索引,從而解決VAE的時間歧義問題。
應(yīng)用的技術(shù)
- 基于In-Context Conditioning (ICC)框架擴展,實現(xiàn)無新增參數(shù)的精細時空控制。
- 使用Temporal RoPE Interpolation技術(shù)實現(xiàn)連續(xù)時間嵌入,使幀級控制在凍結(jié)的VAE與DiT骨干上即可完成。
- 通過零填充方式對任意空間區(qū)域進行統(tǒng)一表示,無需修改模型結(jié)構(gòu)或重新訓練VAE。
- 構(gòu)建VideoCanvasBench基準,用于評估任意時空視頻補全任務(wù)下的幀間一致性與跨場景創(chuàng)造力。
達到的效果
- 首次實現(xiàn)在凍結(jié)的隱空間擴散模型上進行像素幀級(pixel-frame-aware)時空控制。
- 統(tǒng)一了圖像到視頻、補全、擴展與插值等多種視頻生成任務(wù)。
- 在VideoCanvasBench基準上顯著超越現(xiàn)有控制范式,在視頻一致性與生成靈活性上均達到最新的SOTA性能。
- 證明了無需結(jié)構(gòu)修改或重新訓練,即可實現(xiàn)高效、精細且統(tǒng)一的可控視頻生成。
方法
任務(wù)定義與問題設(shè)定

VideoCanvas 流程
為解決任意時空補全的挑戰(zhàn),提出 VideoCanvas,這是一個基于 In-Context Conditioning (ICC) 范式的統(tǒng)一框架。我們首次將 ICC 應(yīng)用于該任務(wù),并引入一種新的混合條件策略,將空間與時間對齊解耦,從而在凍結(jié)的 VAE 和零新增參數(shù)的微調(diào) DiT 上實現(xiàn)精細、像素幀級別的控制。整個流程如下圖 3 所示。



該目標訓練 DiT 將條件 token 視為固定上下文,同時為目標視頻生成連貫的補全內(nèi)容。
VideoCanvasBench
現(xiàn)有的基準測試集中于諸如 I2V 或外延繪制(outpainting)等固定任務(wù),無法評估我們方法核心的靈活時空控制能力。因此,我們引入 VideoCanvasBench,這是第一個系統(tǒng)性設(shè)計用于任意時空視頻補全的基準測試。
該基準測試評估兩種互補的能力:單一場景內(nèi)的高保真補全(同源,homologous)以及跨不同來源的創(chuàng)造性合成(非同源,non-homologous)。它由三類任務(wù)組成:
(1) AnyP2V,在固定錨點時間戳(開始、中間、結(jié)束)使用部分patch。我們構(gòu)建了所有七種可能的組合——單幀(S、M、E)、雙幀(S+M、S+E、M+E)以及三幀(S+M+E)——用于在不同時間稀疏度下評估插值的保真度。 (2) AnyI2V,在相同時間戳處使用完整幀條件,旨在測試完整幀內(nèi)容的補全過程。 (3) AnyV2V,涵蓋視頻級別的補全場景,如修補(inpainting)、擴展(outpainting)以及非同源片段間的過渡。
VideoCanvasBench 包含超過 2000 個測試案例。
實驗
本文的實驗旨在回答兩個核心問題: (1) 本文提出的 Temporal RoPE Interpolation 是否能解決因果 VAE 的時間模糊性,從而在超越原生 VAE 步長的情況下實現(xiàn)精確的像素幀對齊? (2) 即使在隱空間變量槽所帶來的粗粒度條件下,In-Context Conditioning (ICC) 范式是否在本質(zhì)上優(yōu)于先前的機制,如隱空間變量替換(Latent Replacement)和通道拼接(Channel Concatenation)?
本文通過不同像素幀對齊策略的消融實驗回答第一個問題,并通過在我們的基準測試上進行范式級比較回答第二個問題。
設(shè)置

基線方法。由于我們的任務(wù)是新的,現(xiàn)有工作尚無直接解決方案。為公平比較,我們在相同骨干網(wǎng)絡(luò)上比較三種具有代表性的條件范式(如圖 2b 所示): (1) Latent Replacement,用于 LTX-Video 和 HunyuanVideo; (2) Channel Concatenation,廣泛用于 CogVideoX 和 Wan; (3) 我們的 **In-Context Conditioning (ICC)**。 所有范式均在相同設(shè)置下訓練,并受限于由 VAE 步長定義的同一組可控幀,從而確保嚴格且可控的比較。更多細節(jié)見附錄 B。
評估指標
自動化指標。保真度通過 PSNR 和 FVD進行衡量,感知質(zhì)量通過四個指標評估:美學質(zhì)量、成像質(zhì)量、時間一致性以及動態(tài)程度。
用戶研究。為了補充自動化指標,我們對 30 個隨機采樣的案例進行了包含 25 名參與者的用戶研究。在每個案例中,參與者在三選一的強制選擇設(shè)置中觀看三種方法的并列輸出,并從三個維度進行評分:視覺質(zhì)量(質(zhì)量和動態(tài)性)、語義質(zhì)量(與文本和圖像的忠實度)以及整體偏好(總體選擇)。結(jié)果以相對于競爭方法的勝率(%)形式報告。
消融研究:像素-幀對齊策略
如下圖 2(a) 所示,因果視頻 VAE 將多個像素幀映射到一個隱空間變量中,這在以特定幀為條件時會造成歧義。一種直觀的解決方法是保留目標幀并在 VAE 編碼前將其余幀填充為零,我們將其稱為像素空間填充(Pixel-space Padding)。雖然這種方法在時間上是精確的,但它迫使凍結(jié)的 VAE 處理高度分布外的輸入,常常破壞顏色和紋理。

為了剖析這一問題,比較了四種對齊策略:
(i) 隱空間條件(Latent-space Conditioning):使用 VAE(視頻模式)對整個視頻進行編碼以獲得隱空間變量序列;在指定的時間戳,將相應(yīng)的隱空間變量切片注入作為條件輸入。(ii) 像素空間填充(Pixel-space Padding):構(gòu)建一個像素空間視頻,其中非目標幀被置零;使用 VAE(視頻模式)對整個填充視頻進行編碼。(iii) 無 RoPE 插值(w/o RoPE Interpolation):獨立地使用 VAE(圖像模式)對每個條件幀進行編碼;將每個條件 token 分配到由 VAE 壓縮窗口確定的離散時間槽(無插值)。(iv) 本文完整方法:帶有時間 RoPE 插值(Temporal RoPE Interpolation)。
定性證據(jù)。雖然像素空間填充理論上可以“指向”正確的幀,但它會引入明顯的偽影,因為 VAE 從未在填零輸入上訓練過。下圖 5展示了這一點:填充結(jié)果出現(xiàn)明顯的顏色偏移和紋理模糊,而基于 RoPE 的對齊能夠以高保真度保留條件幀。

定量分析。進一步在目標索引 (2, 3, 4) 處評估單幀 I2V。如下圖 4 和表 1 所示,隱空間條件的 PSNR 曲線幾乎平坦,表明運動坍縮。無 RoPE 插值恢復了動態(tài)性,但由于槽位未對齊,PSNR 峰值發(fā)生偏移。像素空間填充在正確索引處達到峰值,但整體保真度較低。相比之下,我們的 RoPE 插值方法精確對齊目標幀并實現(xiàn)了最佳保真度。綜合來看,這些結(jié)果表明兩點:首先,基于填充的解決方案盡管時間精確,但由于 VAE 信號損壞而降低質(zhì)量;其次,隱空間條件和僅使用整數(shù)對齊無法解決幀級歧義。相反,本文的 ICC 結(jié)合時間 RoPE 插值在細粒度控制和高保真生成方面均表現(xiàn)出獨特優(yōu)勢。


主要結(jié)果:范式比較
在確立基于填充的方案因質(zhì)量退化而不可行之后,接下來在相同設(shè)置下比較三種具有代表性的條件范式——隱空間變量替換(Latent Replacement)、通道拼接(Channel Concatenation)以及我們的上下文內(nèi)條件(In-Context Conditioning, ICC),其中每個隱空間變量對應(yīng)一個像素幀。這確保了性能差異僅來自條件機制本身(而非零填充)。
定量比較。下表 2 展示了 VideoCanvasBench 在三個任務(wù)類別(AnyP2V、AnyI2V 和 AnyV2V)上的結(jié)果。數(shù)據(jù)揭示了在所有任務(wù)類別中的一致趨勢。隱空間變量替換在靜態(tài)相似性指標(如 PSNR)中獲得了表面上較高的得分,但以犧牲運動生成為代價。其極低的動態(tài)程度(Dynamic Degree)表明其生成的視頻幾乎是靜止的,這也反映在其較差的 FVD 上,確認了與真實視頻的顯著分布差距。通道拼接生成了更多動態(tài),但在參考保真度(PSNR、FVD)和關(guān)鍵感知指標上始終落后于我們的方法。相比之下,我們的 ICC 實現(xiàn)了最佳平衡,在保持競爭性保真度的同時獲得了最高的動態(tài)程度。更重要的是,用戶研究驗證了 ICC 的優(yōu)越性,在所有三個任務(wù)層面上,ICC 都被人類評估者壓倒性地偏好。

定性比較。下圖 6 展示了具有代表性的案例。在雙幀 I2V 任務(wù)(圖 6a)中,隱空間變量替換在條件幀周圍坍縮為靜態(tài)重復,而通道拼接在鹿的身體上引入了不自然的扭曲。相比之下,ICC 在保持身份一致的同時生成了平滑且合理的運動。在更具挑戰(zhàn)性的雙幀 P2V 設(shè)置中(圖 6b),基線方法的弱點更加明顯。隱空間變量替換產(chǎn)生了突兀且不自然的過渡,而通道拼接則遭受嚴重的身份漂移,使袋鼠在視頻中途莫名其妙地變成了狗。只有 ICC 在整個序列中同時保持了運動、身份和結(jié)構(gòu)一致性,避免了凍結(jié)和語義損壞。

定量與定性證據(jù)均得出了相同的結(jié)論。消融研究表明,時間 RoPE 插值在不犧牲保真度的情況下,獨特地實現(xiàn)了細粒度的像素-幀對齊;而范式比較顯示,即使在粗粒度的隱空間變量級別上,ICC 也始終優(yōu)于隱空間變量替換和通道拼接。綜上所述,這些發(fā)現(xiàn)確立了 ICC 作為任意時空視頻生成中最穩(wěn)健且最有效的條件機制。
應(yīng)用與新興能力
除了在受控比較中超越現(xiàn)有范式外,VideoCanvas 框架的真正優(yōu)勢在于其所解鎖的多樣化與創(chuàng)造性應(yīng)用。通過將視頻合成視為統(tǒng)一的補全問題,我們的模型展現(xiàn)出多個強大的新興能力,如在預(yù)覽圖(下圖 1)。

靈活的時間控制(AnyI2V)。時間 RoPE 插值所啟用的首個關(guān)鍵能力是對任意時間戳的細粒度控制。如 AnyI2V 示例所示,我們的模型突破了首幀或首尾幀設(shè)置的限制。它可以從時間線上任意位置放置的任意數(shù)量的全幀條件中生成連貫的視頻敘事,成功處理了先前方法無法定義的復雜插值與外推場景。
任意時空控制(AnyP2V)。基于這種時間靈活性,本文的框架實現(xiàn)了真正的時空控制。AnyP2V 任務(wù)展示了這一核心能力,模型可以從一組稀疏、彼此獨立的patch中生成完整視頻,每個patch位于任意空間位置和任意時間戳。如我們的結(jié)果所示,模型能夠在保持條件物體身份的同時,成功合成合理的運動與上下文,即使所提供的patch非常小。這展示了模型對“是什么”、“在哪里”、“何時”的聯(lián)合推理能力。
創(chuàng)意視頻過渡。利用其處理非同源條件的能力,我們的模型在創(chuàng)造性合成方面表現(xiàn)出色。如視頻過渡任務(wù)所示,它能夠在兩個完全不同的場景之間生成平滑且邏輯的演變(例如,將無人機變形為蝴蝶)。這展示了模型理解并插值高層語義的復雜能力,這一能力受到最新生成模型的啟發(fā)。
長時視頻擴展。本文的框架通過迭代式補全實現(xiàn)長時視頻合成。短片段可以通過自回歸方式生成下一個片段并以前一段的結(jié)尾為條件,延長至一分鐘長度。該過程可通過交互式文本提示引導以演變敘事,甚至可以通過生成從視頻結(jié)尾回到開頭的過渡來創(chuàng)建完美的無縫循環(huán)。
統(tǒng)一的視頻繪制與相機控制。此外,我們的時空畫布表述自然地涵蓋了多種其他任務(wù)。通過提供帶掩碼的視頻作為條件,模型能夠執(zhí)行修補(inpainting)和擴展(outpainting);通過在畫布上逐步平移或縮放條件幀,它可以模擬諸如變焦和平移等動態(tài)相機效果,展示了其在創(chuàng)意后期制作中的潛力。
結(jié)論
本文引入并形式化了任意時空視頻補全任務(wù)。為解決因果 VAE 中的時間歧義核心挑戰(zhàn),我們提出了基于上下文內(nèi)條件(In-Context Conditioning)的 VideoCanvas 框架。還提出了一種結(jié)合空間零填充(Spatial Zero-Padding)與時間 RoPE 插值(Temporal RoPE Interpolation)的混合條件策略,從而通過高效的 DiT 微調(diào),在凍結(jié)的 VAE 上實現(xiàn)細粒度的像素幀級控制。除了在我們新基準 VideoCanvasBench 上獲得強大的定量與定性結(jié)果外,我們的方法還展示了在多種應(yīng)用中的卓越靈活性,例如任意時空patch到視頻、任意時間戳圖像到視頻、長時擴展、繪制與相機控制。我們相信該工作為下一代可控視頻合成建立了穩(wěn)健且可泛化的基礎(chǔ)。
討論。目前大多數(shù)領(lǐng)先的視頻基礎(chǔ)模型使用未在零填充時間數(shù)據(jù)上預(yù)訓練的因果 VAE,因此無法通過簡單的零填充實現(xiàn)任意時空控制。此類輸入會引起分布偏移,需要對 VAE 與 DiT 主干進行高成本的重新訓練。我們的模型中心框架通過無需修改凍結(jié)的 VAE 來實現(xiàn)細粒度控制,從而繞過了這一問題。而未來的基礎(chǔ)模型可能在預(yù)訓練階段引入類似能力,通過零填充數(shù)據(jù)實現(xiàn)時間敏感控制,使數(shù)據(jù)中心范式成為進一步進展的互補路徑。
此外,盡管我們的獨立幀編碼在稀疏條件下非常有效,但在密集輸入時存在計算權(quán)衡。未來的研究可以探索結(jié)合我們細粒度對齊與更高效 token 剪枝策略的混合機制,以優(yōu)化密集條件序列的處理。總體而言,我們相信該工作提供了穩(wěn)健且可泛化的基礎(chǔ),并將激發(fā)進一步關(guān)于靈活且統(tǒng)一視頻合成的研究。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來

















