導演之魂,端到端電影制作更進一步!港科大&螞蟻等最新HoloCine一鍵生成完整電影場景

論文鏈接:https://arxiv.org/pdf/2510.20822
項目鏈接:https://holo-cine.github.io/

圖 1.僅憑文字提示,HoloCine 就能整體生成連貫的電影多鏡頭視頻敘事。圖中展示了我們模型的多功能性,包括各種原創場景(前三行)和向《泰坦尼克號》致敬的電影場景(后三行)。所有場景都表現出卓越的角色一致性和敘事連貫性。最后一排的擴展畫面展示了流暢的鏡頭內運動和質量。

亮點直擊
- HoloCine,這是一種通過兩個專門設計的架構解鎖整體生成潛力的新框架。為了實現精確的導演控制,本文的窗口交叉注意機制本地化注意力,將每個鏡頭的文本提示與對應的視頻片段直接對齊,從而實現清晰的、以敘事為驅動的過渡。為了克服計算瓶頸,本文的稀疏鏡頭間自注意機制利用混合模式:在鏡頭內保持密集注意以確保運動連續性,同時使用基于簡潔摘要的稀疏連接以實現鏡頭間的高效通信。該設計使計算復雜度接近于與鏡頭數量的線性關系,從而實現分鐘級的整體生成。最后,為了訓練本文的框架,開發了一個強大的數據策劃 Pipeline,構建了一個大規模、分層標注的多鏡頭場景數據集。
- HoloCine 在主要現有范式中顯著超越了強大的基線——包括強大的預訓練模型、兩階段關鍵幀到視頻的流程,以及其他整體方法。本文方法在長期一致性、敘事忠實度和精確鏡頭過渡控制方面確立了新的最先進水平。消融研究進一步確認了本文新組件的關鍵角色:窗口交叉注意對于實現精細的導演控制至關重要,而稀疏鏡頭間自注意對于可擴展性至關重要,以較少的計算成本提供與完全注意力相媲美的質量。
- 分析顯示,HoloCine 展現了出色的新興能力。這些能力包括多鏡頭中對角色和場景細節的持續記憶,以及對電影語言的細膩控制,表明該模型已發展出對視覺敘事的更深層次的隱含理解。通過實現分鐘級的整體生成,本文工作將范式從孤立短片轉變為指導完整的電影場景,為自動化、端到端電影制作鋪平了道路。
總結速覽
解決的問題
- 現有的文本生成視頻模型在生成單一短片方面效果良好,但在創建連貫的多鏡頭敘事上存在不足。這一問題制約了完整故事的講述能力。
提出的方案
- 提出 HoloCine 模型,通過整體生成方法確保從第一個到最后一個鏡頭的全局一致性,填補多鏡頭間“敘事差距”。
應用的技術
- 采用窗口交叉注意機制,實現精確導演控制,對文本提示和鏡頭進行精準對齊。
- 利用稀疏鏡頭間自注意機制(在鏡頭內密集注意,鏡頭間稀疏連接)提高效率,實現分鐘級的整體生成。
- 構建大規模、分層標注的多鏡頭場景數據集以加強模型訓練。
達到的效果
- 在敘事連貫性、角色和場景記憶以及電影語言掌握上設立了新標準。
- 通過實驗驗證效果顯著超越現有基線模型。
- 實現從短片合成向自動化電影制作的轉變,推動端到端電影創作的發展。
方法
本文目標是在單個整體處理中,從分層文本提示生成連貫的多鏡頭視頻序列。為了實現這一目標,本文提出HoloCine,一個基于強大的 DiT 視頻擴散模型 Wan2.2構建的框架。在以下章節中,本文詳細介紹了數據策劃和分層標注 Pipeline、用于顯式鏡頭邊界控制的窗口交叉注意機制,以及使整體生成計算高效的稀疏鏡頭間自注意機制。

圖 2.整體生成pipeline結構,其中所有鏡頭潛影都是聯合處理的。窗口交叉注意(Window Cross-Attention)通過將每個鏡頭與特定的文本提示對齊,提供精確的方向控制。稀疏鏡頭間自我關注(Sparse Inter-shot Self-Attention)可大幅降低計算成本,同時保持長距離一致性。
數據策劃和標注
多鏡頭視頻生成的主要障礙之一是缺乏大規模、高質量的數據集。公共視頻數據集通常由孤立的短視頻片段組成。為了解決這一問題,本文開發了一個全面的數據策劃 Pipeline,將電影和電視劇處理為結構化的多鏡頭數據集。
鏡頭分割和過濾。 本文的 Pipeline 首先從公共來源收集大量電影內容。然后,本文使用鏡頭邊界檢測算法將每個視頻劃分為單獨的鏡頭,記錄其開始和結束時間戳。這些片段隨后進行嚴格的過濾過程,本文使用 [51] 移除字幕,并刪除過短、過暗或美學評分低的片段。
多鏡頭樣本組裝: 為構建連貫的多鏡頭樣本,本文從源視頻中順序分組時間上連續的鏡頭以形成訓練樣本。此分組以目標總時長(例如 5、15 或 60 秒)為指導,將鏡頭聚合直到達成特定容限內的閾值為止。這個過程生成了一組多樣化的樣本,包含不同數量的鏡頭,創建了用于高效訓練的統一批次。最終數據集包含 40 萬個樣本,具有可控的鏡頭分布跨這些時長級別。
分層標題: 每個多鏡頭樣本使用 Gemini 2.5 Flash 標注分層提示結構。一個全局提示描述了整體場景,包括人物、環境和劇情。接下來,一系列每鏡頭提示詳細描述了每個鏡頭中的具體動作、攝像機移動和人物。特殊的 [shot cut] 標簽插入在每鏡頭提示之間,以明確劃分鏡頭邊界。這種兩級結構為模型提供了全球上下文和細粒度、時間局部化的指導。
整體多鏡頭生成
HoloCine 的基礎是其整體生成過程,其中視頻中所有鏡頭的潛在表示在擴散模型內同時處理。這種聯合處理主要通過共享的自注意機制,使模型能夠自然地保持角色身份、背景和整體風格的長距離一致性,確保所有鏡頭邊界的連貫性。

本文架構直接整合了兩個專門機制來解決這些方面:用于精確導演控制的窗口交叉注意,以及用于計算效率的稀疏鏡頭間自注意。
窗口交叉注意
窗口交叉注意機制設計用于提供精確導演控制,同時滿足兩個基本需求:在每個鏡頭中生成什么內容,以及何時在鏡頭之間進行轉換。它通過在視頻片段與文本提示片段之間創建局部鏈接來實現這一點。


這種局部化的注意力為模型提供了明確的信號,以執行清晰、時間對齊的鏡頭轉換,有效地允許文本提示來“指導”鏡頭的剪切。
稀疏鏡頭間自注意
雖然整體設計能夠實現高質量生成,但在整個視頻標記序列中應用完整的自注意對于較長的視頻來說在計算上是不可行的。為了解決這個問題,本文提出了一種稀疏鏡頭間自注意機制,它可以大幅減少復雜性,同時保留必要的信息流。
本文的關鍵直覺是,一鏡之內與一鏡之間的一致性的性質是不同的。具體來說,鏡內一致性需要密集的幀間時間建模,以確保平滑的運動和動作連續性。相反,鏡間一致性主要涉及角色、環境和風格的持續性——這不需要一個鏡頭的每一幀都關注到另一個鏡頭的每一幀。基于此,本文構建了本文的自注意機制。

實驗
對本文提出的框架 HoloCine 進行了全面的實驗評估。首先描述了 HoloCine 的訓練和實現細節。然后介紹了電影多鏡頭視頻生成任務的基準和指標,展示了本文在這些基準上優越的表現。隨后,分析了本文提出的關鍵模塊的效果,包括窗口交叉注意力和稀疏鏡頭間自注意機制。最后,討論了模型的一些高級能力,包括新興的記憶能力和電影語言的可控性。
實現細節
實現細節

注意力實現。 本文提出的注意力機制的實現經過優化以提升效率。對于本文的稀疏鏡頭間自注意力,計算成本是首要考慮,本文利用了 FlashAttention-3 中高效的 varlen(可變長度)序列功能。對于每個查詢鏡頭,通過將其自身的密集局部標記與共享的全局摘要標記連接起來構建其對應的 Key 和 Value 上下文。這些結果變量長度序列然后被打包成單個張量,使得 GPU 能夠在一次優化的內核啟動中計算復雜的稀疏關注模式而沒有填充標記的開銷。相比之下,對于窗口交叉注意力,由于文本提示序列較短且該操作僅占總計算的一小部分,本文僅應用注意力掩碼來限制注意力區域。這種方法非常有效,并且幾乎沒有性能損耗。
對比
設置
本文與三個類別的強基準進行比較,這些基準代表了多鏡頭長視頻生成的主要范式:
? 預訓練視頻擴散模型。本文測試了強大的預訓練視頻擴散模型 Wan2.2 14B 在多鏡頭任務中的能力。本文為模型提供了完整的層次化提示(結合全局和每個鏡頭描述),并讓其在一次運行中生成整個多鏡頭序列。該基準評估一個最先進的模型是否能夠在沒有本文提出的架構修改的情況下理解和執行多鏡頭指令。
? 兩階段關鍵幀到視頻生成。該范式首先生成一組一致的關鍵幀,每個鏡頭一個,然后使用強大的 I2V 模型將它們動畫化成視頻剪輯。本文評估了關鍵幀生成階段的兩種最先進方法:StoryDiffusion,實現完整的多鏡頭圖像序列,以及 IC-LoRA,利用上下文學習生成關鍵幀。為了公平對比,將基模型 wan2.2 14B 作為這兩個流程的 I2V 組件。
? 整體多鏡頭生成。本文與最新的整體多鏡頭視頻生成工作 CineTrans 進行比較。
為便于全面評價多鏡頭視頻生成任務,本文構建了一個新的基準數據集。利用 Gemini 2.5 Pro 的能力生成了 100 個多樣性的分層文本提示,每個提示都包含鏡頭轉換的明確指示。該測試集覆蓋了廣泛的體裁和敘事結構,能夠穩健評估模型在復雜序列中保持一致性和控制力的能力。為確保公平對比,本文為兩階段方法調整了層次化提示。本文通過將全局背景與特定鏡頭指令合并為每個鏡頭生成一個獨特的提示。這個過程涉及解決抽象人物 ID 標簽(如 [character1])到完整文本描述的轉換,確保所有方法都接收到等價的語義信息。
本文注意到大多數相關工作,如 LCT、Mixture of Concept 和 Captain Cinema 并未開源。因此,直接的定量比較不可行。本文將在附錄中提供與他們發表結果的定性比較。
評估指標。 從五個關鍵方面評估模型:總體視頻質量、語義一致性(提示符合性)、鏡頭內一致性、鏡頭間一致性和轉場控制。對于總體質量、提示符合性和鏡頭內一致性,本文使用綜合的 VBench 基準。為了專門評估鏡頭間一致性,計算了標注包含相同角色的鏡頭對之間基于 ViCLIP 的相似性分數。此外,為了更好地評估模型遵循明確剪輯指令的能力,提出了剪輯準確度(SCA)指標。
定量結果。 如下表 1 所示,HoloCine 在絕大多數指標中取得了卓越的性能,確立了新的SoTA水平。它在多鏡頭任務的所有核心類別中都獲得了最高分:轉場控制、鏡頭間一致性、鏡頭內一致性和語義一致性。盡管本文注意到 StoryDiffusion+Wan2.2 在美學質量上略勝一籌,本文認為本文的整體生成方法在統一建模過程內產生所有鏡頭,從根本上更適合這一任務。這一架構選擇正是 HoloCine 堅持一致性和控制力的原因,證明了其在創建連貫敘事上的有效性,而之前的范式曾在這方面表現掙扎。

定性結果。 下圖 3 中,本文通過復雜的敘事提示提供了定性比較,以說明本文方法的優越性。預訓練基模型 Wan2.2 未能理解多鏡頭指令,只生成了一個靜態鏡頭,沒有任何過渡。兩階段方法雖然能夠生成不同的圖像,但在提示忠實度和長距離一致性上有困難。例如,第二鏡頭的提示是“女人沉思表情的中景特寫”,但 StoryDiffusion + Wan2.2 和 IC-LoRA + Wan2.2 都生成了男孩和女人在一起的中景。長距離一致性的問題在第 4 和第 5 鏡頭中尤為明顯,角色的特征與初始鏡頭有顯著的差異。提示的復雜性和視頻的長度要求也對 CineTrans 構成了挑戰,導致顯著的圖像降質,并阻礙其正確執行指定的鏡頭過渡。相比之下,本文的方法成功解析了層次化提示,生成了連貫的五個不同鏡頭的序列。如圖所示,每個鏡頭與其對應的文本描述嚴格匹配,同時在整個視頻中保持了高度的角色和風格一致性,展現了本文整體生成方法的有效性。

與商業模型的比較。 為了進一步評估 HoloCine 的能力,本文與領先的閉源商業模型進行了定性比較。如下圖 4 所示,盡管 Vidu 和 Kling 2.5 Turbo 等模型生成了視覺上令人印象深刻的片段,但它們在多鏡頭敘述核心任務上存在困難。面對層次化提示,它們產生了單一的連續鏡頭,未能理解或執行指定的鏡頭過渡。相比之下,HoloCine 展現了與最新的先進模型 Sora 2 同樣的敘事理解和控制能力。兩個模型都成功解析提示,生成了連貫的不同鏡頭序列——從中景過渡到戲劇性特寫——同時保持高度的角色和風格一致性。這個結果驗證了本文的框架在創建復雜、有導向的敘事能力方面可與該領域的領先專有解決方案媲美。

消融研究
本文進行了一系列的消融研究來驗證關鍵架構選擇。定性結果如下圖 5 所示。為了便于快速實驗,所有消融研究均在 wan2.2 5B 模型上進行。

窗口交叉注意力。 沒有本文的窗口交叉注意力,此模型在鏡頭控制上表現出嚴重的退化,表現在鏡頭切割精度(SCA)和每個鏡頭的語義一致性評分顯著降低。如上圖 5 頂行所示,模型未能執行鏡頭切換,忽略了對新內容的提示指令(例如,鏡頭 3 的特寫),并保持在初始場景中。這證實了本文的窗口化注意力對精確鏡頭邊界和內容控制至關重要。
稀疏與全自注意力。 本文將稀疏自注意力與完整的密集注意力基線進行比較。雖然兩者都能生成高質量、一致性高的視頻(上圖 5 第二和第四行),但全注意力模型在生成長序列方面計算成本過高。相比之下,本文的稀疏注意力機制提供了一個非常有效的平衡。它保留了絕大部分的生成質量,同時在效率和可擴展性方面提供了根本性的改進,使復雜、場景級別的生成成為可能。
鏡頭間總結 token。 本文的稀疏注意力設計的一個關鍵方面是通過總結標記促進鏡頭間通信,每個鏡頭關注所有其他鏡頭的首幀標記。為了驗證這一點,本文訓練了一個變體,限制自注意力嚴格在每個鏡頭內,不進行信息交換。這導致一致性的災難性喪失(上圖 5 第三行),老人身份和外貌在鏡頭間發生劇烈變化。這表明本文的鏡頭間總結標記機制是保持整個場景敘述連續性和角色一致性的關鍵組件。
高級功能
突現的記憶能力
本文的模型不僅能夠生成高質量且連貫的鏡頭,還表現出令人驚訝的突現記憶能力。這一能力表明模型并不僅僅在學習淺顯的視覺過渡,而是在構建場景和物體的隱含和持久表示。本文在三個關鍵方面展示了這種記憶。
視角跨場景的物體/角色恒常性。 本文的模型在不同鏡頭和角度間保持角色身份的一致性。例如,在下圖 6(a) 中,藝術家的關鍵特征——她的金色頭發、灰色 T 恤和圍裙——在中距鏡頭 [鏡頭 2]、側面視圖 [鏡頭 3] 和隨后微笑的鏡頭 [鏡頭 6] 中都保持不變,這表明角色表示的穩定性。

長距離一致性與重現。 模型表現出強大的長距離一致性,在完全不同的鏡頭打斷后仍能夠回憶其主題。上圖 6(b) 顯示了 A-B-A 序列,其中 [鏡頭 1] 中引入的教授,在圖書館環境的干擾鏡頭 [鏡頭 2] 之后,于 [鏡頭 5] 中被準確再現。他獨特的外貌完美地被保留,證明了記憶可以超越相鄰鏡頭。
細粒度細節的持久性。 至關重要的是,模型的記憶擴展到細粒度的、非顯著的細節中,表明了整體場景理解。如上圖 6(c) 所示,一個特定的藍色磁鐵(高亮顯示)出現在 [鏡頭 1] 的背景中。在一個介入鏡頭后,模型正確地回憶并在 [鏡頭 5] 中以原始位置呈現了完全相同的磁鐵,盡管它并不是提示的核心元素。
電影語言的可控性
通過在海量的電影數據和高級描述提示上進行訓練,本文的模型對電影制作技術產生了細致入微的理解。因此,它在解釋和執行標準電影指令方面表現出高保真度,實現了精確的敘事和風格控制。
鏡頭規模控制。 模型能夠準確呈現標準鏡頭規模。如下圖 7(a) 所示,針對同一個雕像的[遠景]、[中景]和[特寫鏡頭]的提示,模型生成的輸出正確對應于既定的電影定義。

相機角度控制。 本文的模型精確遵循文本中指定的相機角度指令。如上圖 7(b) 所示,針對同一物體的[低角度]、[眼平角度]和[高角度]描述,模型生成了對應的視圖。這表明它能夠將文本中的電影指令轉換為場景中正確的幾何相機位置。
相機運動控制。 本文的模型能夠制作提示中指定的各種動態流暢的相機運動。如上圖 7(c) 所示,模型準確執行這些指令以創建引人入勝的視覺敘事。例如,[向上傾斜]指令生成平滑的垂直相機運動,優雅地展現樹的全高。[后退移動]指令使相機物理上向后移動,逐步展現藝術家工作室的更廣范圍背景。此外,[跟蹤]鏡頭能正確地跟隨一個物體的運動,在這個例子中是保持飛翔鷹在畫面中心。對相機運動的掌握對于創建專業且吸引人的電影序列至關重要。
限制
雖然本文的模型在保持視覺一致性方面表現出色,但在因果推理方面存在局限。它可能無法理解某一動作應如何改變物體的物理狀態。下圖 8 清晰地展示了這一點。對于一個空玻璃杯[鏡頭 1]和正在向其倒水的動作[鏡頭 2],模型未能呈現出邏輯結果。相反,模型在[鏡頭 3]中重新生成了一個空玻璃杯,將視覺一致性置于動作的物理后果之上。這突顯了未來工作的一個關鍵挑戰:從感知一致性推進到邏輯的因果推理。

結論
HoloCine 架構在文本到視頻生成中彌合了“敘事鴻溝”,這是一種整體框架,能夠合成完整的多鏡頭場景以確保全局敘事一致性。本文的架構通過窗口交叉注意力機制實現了精確的導演控制,同時借助稀疏鏡頭間自注意機制克服了過高的計算成本,使分鐘級別的生成成為可能。HoloCine 不僅在一致性和鏡頭控制方面建立了新的前沿,還發展出了顯著的突現能力,如角色的持久記憶和對電影語言的細致理解。雖然本文的工作將因果推理識別為未來研究的關鍵挑戰,但 HoloCine 是邁向復雜視覺敘事自動化創作的重要一步。通過實現分鐘級的整體生成,它將范式從孤立的片段轉向導演整個場景,使端到端影片生成成為可觸及的、令人興奮的未來。
本文轉自AI生成未來 ,作者:AI生成未來

















