視頻生成Prompt何須僅是文字!字節&港中文發布Video-As-Prompt
本工作由第一作者在字節跳動智創北美團隊實習期間完成。第一作者卞宇軒目前為香港中文大學計算機科學與工程系博士二年級學生,研究方向為可控視頻生成,師從徐強教授,并曾在字節跳動、騰訊等公司實習。個人主頁:https://yxbian23.github.io/
視頻創作中,你是否曾希望復刻變成 Labubu 的特效,重現吉卜力風格化,跳出短視頻平臺爆火的同款舞蹈,或模仿復雜有趣的希區柯克運鏡?
在現在的 AI 視頻生成中,這些依賴抽象語義控制的創作,因缺乏統一的條件表征,實現起來往往異常困難。
最基礎和直接的想法是針對每一種抽象語義單獨訓練 LoRA 或針對某一類語義條件設計專門的模型架構完成針對性的特征提取和可控生成。
然而,語義條件可能無窮無盡,一個條件訓練一個模型會導致實際使用非常復雜,計算消耗非常龐大,且面對未曾訓練的其他語義條件,模型沒有任何泛化性能;針對某一類語義設計模型架構一定程度上在單獨子集解決了這個問題(例如:相機控制,風格遷移),但面對著不同語義類別,仍需要不斷切換模型,其任務專一的設計也無法完成不同語義類別的統一建模,阻礙了統一模型和模型規?;倪M展。
為了解決這一痛點,香港中文大學與字節跳動團隊聯合提出了一種全新的語義可控的視頻生成框架 Video-As-Prompt。它引入了一種「視頻參考」的新范式,用戶只需提供一段參考視頻和對應的語義描述共同作為 prompt,模型就能直接「克隆」指定語義并應用于新內容,從根本上實現了抽象語義下可控視頻生成范式的統一。
該工作的訓練、推理代碼和目前最大的高質量多語義數據集均已開源。該工作所提出的數據集規模宏大,包含超過 100K 視頻,覆蓋超過 100 個不同的高質量語義條件。

- 論文標題:Video-As-Prompt: Unified Semantic Control for Video Generation
- 項目主頁:https://bytedance.github.io/Video-As-Prompt/
- 論文:https://arxiv.org/pdf/2510.20888
- Demo:https://www.youtube.com/watch?v=S3zpLIMOU4c
- 模型:https://huggingface.co/collections/ByteDance/video-as-prompt
- 數據集:https://huggingface.co/datasets/BianYx/VAP-Data
- 代碼:https://github.com/bytedance/Video-As-Prompt
Video-As-Prompt 能力展示
Video-As-Prompt 支持四大類復雜語義的克隆和遷移:復雜概念、藝術風格、指定動作和相機運鏡,基于其強大的克隆能力,Video-As-Prompt 衍生出諸多應用:
- 用包含不同語義的不同參考視頻驅動同一張圖片:

- 用包含相同語義的不同參考視頻驅動同一張圖片:

- 用同一個參考視頻驅動不同圖片:

- 結合文本實現語義編輯:

更多的 demo 效果請參考項目主頁。
Video-As-Prompt 算法解讀
實現一個統一的語義可控視頻生成模型的關鍵就在于:
- 如何構建統一的語義條件表征
- 如何在語義條件表征和生成視頻之間建立有效的語義信息映射
- 如何找到可擴展的架構以實現高效訓練
Video-As-Prompt 通過讓具有指定語義的參考視頻充當生成上下文 prompt,實現了抽象語義條件下的統一可控視頻生成。
- 語義條件表征
提出使用參考視頻作為統一的抽象語義條件表征,無需針對不同語義進行分類和設計針對編碼模型,大大提升了模型架構的通用性、可拓展性,同時降低了用戶使用的難度。
- 語義信息映射
將參考視頻當作「視頻 prompt」,從 in-context generation 的角度完成統一的語義映射。
- 可擴展的架構
直接訓練視頻生成基模通常會導致在數據有限的情況下發生災難性遺忘。為了穩定訓練,研究者采用 Mixture-of-Transformers(MoTs):一個凍結的視頻擴散 Transformer(DiT)加上一個從主干初始化的可 trainable 并行專家 Transformer 聯合建模。

具體來說,專家處理參考視頻代表的語義條件 tokens,而凍結的 DiT 處理待生成的視頻 tokens。每個 DiT 都保留各自的 Q、K、V 投影、前饋層和歸一化層;在每一層連接兩部分的 Q/K/V,并運行全注意力機制,以實現雙向信息融合和上下文控制。
Video-As-Prompt 實驗結果
為了支持統一的語義控制視頻生成,研究者構建并發布了 VAP-Data 用于促進相關研究大規模訓練,和對應的 Benchmark 用于公平評測,這是目前開源用于語義可控視頻生成的最大數據集,其中包含超過 100 個語義條件下的 100K 個精選配對視頻樣本。

研究人員主要和兩類方法進行了比較:
- 統一的結構化控制視頻生成:VACE 的三個變體(分別采取原始參考視頻,參考視頻的深度、光流作為控制條件)
- 離散的語義控制視頻生成:原始的視頻 DiT 基座,視頻 DiT 基座 + 針對每種語義單獨訓練 LoRA,Kling/Vidu 等商業 API
總體而言,Video-As-Prompt 的性能在整體視頻質量、文本一致性、語義一致性(Gemini-2.5-Pro 判別)和人工偏好上都與閉源模型 Kling/Vidu 相當并優于其他開源基線,并且是首個針對所有語義條件統一控制且可擴展和推廣的模型。
并且,通過將所有語義條件視為統一的視頻提示,Video-As-Prompt 支持多種語義控制的生成任務。此外,當給定一個不屬于訓練數據的語義參考時,從參考視頻建模范式中學習到的上下文生成能力使 Video-As-Prompt 能夠執行由新語義參考引導的零樣本生成,這超越了之前所有的方法,并為未來的統一可控生成提供了新的可能。

左邊為訓練時完全不曾見過的相關語義參考視頻,右邊為 zero-shot 推理結果
總結
Video-As-Prompt 是一個統一的、語義控制的視頻生成框架,它提出參考視頻克隆生成的生成范式,將參考視頻視為 video prompt,并通過 Mixture-of-Transformers 實現即插即用的上下文控制,提供了可擴展的語義控制和零樣本泛化能力。其統一的參考視頻建模(「Video-As-Prompt」)框架,驗證了基于參考視頻的可控生成這一思路的巨大潛力。
同時,開源的大規模視頻參考生成數據集也將為社區的相關研究提供強有力的數據支持,有望推動 AIGC 視頻創作進入一個生成更可控、語義更豐富的新階段。





































