音畫同步視頻生成重磅開源！Character AI和耶魯大學推出Ovi，讓音、畫在一個大腦里思考

2025-11-14 09:34:26

人工智能新聞

Character AI和耶魯大學的研究團隊聯手推出OVI（Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation）。

OpenAI的Sora 2，谷歌的Veo 3.1能音畫同步生成視頻，但都是閉源產品。

開發者們苦苦等待的的源神阿里的wan 2.5，也沒選擇開源。

這不，終于有人打破了寂靜。

Character AI和耶魯大學的研究團隊聯手推出OVI（Ovi: Twin Backbone Cross-Modal Fusion for Audio-Video Generation）。

它沒有遵循先生成畫面再配聲音，或反之的傳統路徑，而是將音頻和視頻這兩種模態，視為一個不可分割的整體，在同一個生成過程中同步誕生。

這套方法的核心，是一種被稱為雙骨干交叉模態融合的架構。

想象一下，OVI擁有兩個并行且結構完全相同的大腦，一個負責視覺，一個負責聽覺。它們并非各自為政，而是在思考的每一步都進行著深度交流。這種設計，從根本上消除了音畫不同步的問題，不再需要復雜的多階段流程或后期對齊。

過去，要讓AI生成的視頻音畫同步，是一件極其棘手的事情。

開發者們嘗試了各種方法，比如先固定聲音，再根據聲音生成視頻畫面（A2V），或者反過來（V2A）。

也有些方法是先各自生成，再用后期技術強行對齊，如同給電影配音，但效果往往差強人意。

還有一些方法依賴于特定的捷徑，比如只關注人臉區域的口型同步，但這大大限制了模型的通用性，無法處理更廣泛的場景。

這些多階段的處理方式，不僅增加了系統的復雜性，也難以保證時間上的精確同步。

OVI為開源的音視頻生成技術提供了一條全新的、可行的道路。

OVI讓音畫天生同步

OVI的架構設計精妙而對稱。

它擁有兩個并行的分支，一個處理視頻，一個處理音頻，兩者都構建在相同的擴散變換器（Diffusion Transformer, DiT）架構之上。

視頻分支的能力，繼承自一個強大的預訓練視頻模型Wan2.2 5B。

而音頻分支，雖然是從零開始訓練的，但其架構設計與視頻分支完全一致，就像一對同卵雙胞胎。

這種對稱性是關鍵。

它保證了兩種模態在模型內部具有相同的潛在維度、相同的transformer塊數量、相同的注意力頭數和頭維度。

因為架構上的完全對稱，音頻和視頻的語言得以互通，無需任何額外的翻譯層。這不僅避免了不必要的參數和計算開銷，也讓信息交換變得更加直接高效。

在模型的每一個transformer處理塊中，都含有一對交叉注意力層。

在這里，音頻流會關注視頻流，同時視頻流也會關注音頻流。

具體來說，音頻信息會作為查詢信號，去視頻信息中尋找相關的鍵和值，這使得音頻能夠看到與之相關的視覺內容。

反之亦然，視頻信息也會作為查詢信號，去音頻信息中尋找對應，這讓視頻能夠聽到匹配的聲音。

這種雙向的、實時的信息交互，貫穿了整個生成過程。

模型因此能夠自主學習到音頻和視頻之間復雜的對應關系，比如嘴唇的微妙運動如何與特定的發音同步，或者一個物體的動作如何與它發出的聲音精確匹配。

OVI用數學技巧對齊時間

音頻和視頻雖然共享架構，但它們的時間分辨率天生不同。

在OVI中，一段5秒的視頻，其潛在變量會跨越31個時間幀。

而同樣時長的音頻，在采樣和編碼后，會形成157個時間token。

這是一個157對31的不等關系，如何讓它們在時間上精確對齊？

OVI采用了一種名為旋轉位置嵌入（Rotary Positional Embedding, RoPE）的技術，并對其進行了巧妙的縮放。

RoPE是一種為模型輸入信息標注時間順序的方法。OVI將音頻分支的RoPE頻率，乘以一個縮放因子31/157，約等于0.197。

這個簡單的數學操作，相當于給節奏更快的音頻帶上了一個節拍器，使其時間步點與視頻的較粗糙的幀率完美匹配。

對齊前后的效果差異是顯著的。

在沒有進行RoPE縮放時，音頻和視頻的交叉關注矩陣在對角線上是錯位的，信息無法有效同步。

而經過縮放后，對角線變得清晰而銳利，表明音頻和視頻的token在時間上實現了精準的一對一關注，為同步生成打下了堅實基礎。

處理用戶輸入的提示詞時，OVI也采取了統一的策略。

它使用一個凍結的T5編碼器來理解一個組合后的提示。

這個提示詞會將描述視覺事件的文本，與描述可聽語音的文本連接在一起。

例如，一段提示可能是：一個男人坐在公園長椅上，<S>‘今天天氣真好’<E>，周圍有鳥叫聲<AUDCAP>男人聲音低沉，鳥鳴清脆</AUDCAP>。

其中<S>和<E>標記了語音的起止，而<AUDCAP>和</AUDCAP>則標記了對所有聲音的描述。

這個統一的文本嵌入，會同時被用于指導音頻和視頻的生成。

這樣做的好處是直觀的。

視覺場景的細節（公園長椅），可以提升音頻的特異性和多樣性（鳥叫聲）。

而聲音的細節描述（男人聲音低沉），則可以反過來指導視頻中人物的面部表情和動作。

單一的語義上下文，不僅簡化了訓練和推理過程，也極大地改善了跨模態的對齊效果。

OVI的訓練食譜極為考究

要訓練一個統一的音視頻生成器，一個高質量、大規模、多樣化且音畫同步的多模態數據集是成功的基石。

OVI的團隊為此設計了一套復雜而嚴謹的多階段數據處理流程。

他們精心策劃了兩個互補的數據語料庫。

一個是由成對的音頻和視頻組成的語料庫，用于教會模型理解兩種模態之間的對應關系。

另一個是純音頻語料庫，用于音頻模型的預訓練和微調，以建立強大的聲音生成能力。

這個純音頻庫又被分為兩個子集：一個包含較長音頻（最長12秒），用于初始預訓練；另一個則包含較短音頻，用于后續的微調。

這種兩階段的訓練方法，讓模型先在長音頻中學習聲音的普遍規律，再在短音頻上進行精細調整，以更好地適應最終生成任務的需求。

對于成對的音視頻數據，處理流程分為四個步驟：分割與過濾、同步檢測、字幕描述和打包。

第一步，使用場景檢測算法，從海量視頻中切分出符合標準的121幀（約5秒，24fps）的視頻片段。

團隊設定了嚴格的篩選標準：視頻分辨率必須大于720x720像素；使用光流模型過濾掉靜態或幾乎沒有運動的視頻；同時，利用美學預測器剔除低質量的內容。

為了讓模型具備更廣泛的生成能力，數據集中還特意混合了單人、多人以及無人物的視頻，避免模型過度擬合于某一特定場景。

第二步，同步檢測是重中之重。

團隊使用了廣泛應用的SyncNet模型，它通過學習聲音和嘴部圖像之間的聯合嵌入，來判斷語音和口型是否同步。

為了處理數百萬規模的視頻數據，團隊對SyncNet進行了優化。只有同步偏移在3幀以內，且置信度得分高于1.5的視頻片段才會被保留。

實驗表明，即使是少量不同步的數據，也會嚴重損害模型的唇語同步能力，因此必須采用如此嚴格的標準。

第三步，為視頻添加詳細的字幕描述。

團隊使用了一個強大的多模態大語言模型（MLLM）來完成這項任務。

這個模型會接收視頻中的七個關鍵幀和完整的音軌，然后生成一段交織著視覺事件和語音內容的詳細描述。

語音內容會被<S>和<E>標簽包裹，而對整體音頻環境的描述則被<AUDCAP>和</AUDCAP>包裹。

對于包含語音的片段，音頻描述會強調說話者的聲學特征，如年齡、性別、口音、音高、情感和語速。

對于沒有語音的片段，描述則會詳述存在的音效、背景聲或音樂元素。

第四步，打包數據。

在將數據送入模型前，所有視頻幀都會被調整到720x720的固定分辨率，音頻則被轉換為原始的波形字節流，確保模型接收到的輸入格式是統一的。

對于純音頻數據，預處理流程相對簡化。

音頻被提取為兩種不同長度：用于預訓練的數據最長為12秒，用于微調的數據則精確到5.04秒，以匹配視頻片段的時長。

同樣地，MLLM也被用來為這些音頻生成轉錄和詳細的聲學描述。

OVI的訓練策略分步進行

為了提升效率，OVI的音頻塔在一個緊湊的潛在空間中進行操作，而不是直接處理原始的音頻波形。

它使用了MMAudio的預訓練1D VAE（變分自編碼器）來完成音頻的編碼和解碼。

在訓練時，OVI的音頻塔（OVI-AUD）被分為兩個子階段。

首先是預訓練階段，音頻骨干在數十萬小時的、主要是語音的長音頻數據上從零開始學習。

這使得模型能夠廣泛接觸到各種自然的聲學變化，如音高、情感等，從而學會生成具有一致說話者特征的音頻。

接下來是微調階段，團隊使用填充到5.04秒的短音頻，對預訓練好的模型進行微調。

這一步是為了讓音頻骨干的輸出與未來要生成的視頻在時長上完全匹配。同時，此階段還引入了大量的音效數據，使OVI-AUD不僅僅是一個語音模型，更是一個能夠處理復雜聲音場景的通用音頻生成器。

當音頻和視頻兩個骨干都準備就緒后，就進入了最終的融合訓練階段。

團隊將預訓練好的音頻和視頻骨干結合在一起，并從零開始初始化它們之間的交叉模態注意力模塊。

為了減少計算資源的消耗，訓練過程中凍結了所有的前饋網絡（FFN）層，使得110億總參數中只有57億是可訓練的。

通過只微調單模態的自注意力和所有的交叉注意力模塊，團隊成功地對齊了音頻和視頻，同時保留了它們在預訓練階段學到的強大表示能力。

在推理生成時，音頻和視頻兩個分支共享相同的時間表，并通過一個求解器聯合生成，確保了最終輸出的同步性。

OVI的生成效果令人信服

為了直觀地展示OVI的學習效果，研究團隊可視化了音頻到視頻（A2V）的交叉模態注意力圖。

這張圖可以告訴我們，當模型在生成某種聲音時，它的注意力集中在畫面的哪個區域。

當音頻內容是語音時，模型的注意力會高度集中在說話者的嘴部區域。

當音頻是鼓聲時，注意力則聚焦在鼓上。

當音頻是動物的叫聲時，注意力會與發出聲音的動物身體部位對齊。

這有力地證明了OVI的融合模型能夠有效地將音頻線索與相關的視覺內容同步起來。

為了量化評估OVI的性能，團隊進行了多項對比實驗。

首先，他們獨立評估了音頻塔（OVI-AUD）的音頻生成能力，將其與業界頂尖的文本到音頻（T2A）和文本到語音（TTS）模型進行了比較。

然后，他們評估了OVI完整的聯合音視頻生成（JAVG）能力，并與JavisDiT和UniVerse-1這兩個開源模型進行了對比。

評估的核心是一項由50名真人參與者進行的盲對偏好研究。

參與者會看到由不同模型生成的兩段帶音頻的視頻，并選擇他們更偏好哪一個。

在Verse-Bench數據集上，無論是在音頻質量、視頻質量還是音畫同步這三個維度上，參與者都壓倒性地偏愛OVI的生成結果。

這表明OVI的統一設計和訓練框架，不僅保持了強大的性能，而且顯著推動了開源社區在聯合音視頻生成領域的發展，使其能力更接近像Veo 3這樣的前沿閉源模型。

團隊也注意到，與作為其基礎的純視頻模型Wan2.2相比，OVI生成視頻的質量有輕微下降。

這是可以預見的，因為聯合訓練使用的數據集，在規模上小于Wan2.2預訓練時所用的海量視頻語料庫。

但重要的是，這種權衡是微小的，并不會削弱OVI在聯合音視頻生成任務中的整體優越性。

在純音頻生成的評估中，OVI-AUD的表現同樣出色。

作為一個能夠同時處理文本到音頻（T2A）和文本到語音（TTS）的統一模型，OVI-AUD在各自的指標上，都實現了與那些專門為此任務設計的頂尖模型相當的性能。

這證明了OVI-AUD作為一個堅實的基礎，完全有能力支撐起更復雜的音視頻融合任務。

真實世界的視頻往往同時包含復雜的音效和連貫的語音，這是那些專用的、只能處理單一任務的模型所無法支持的。

一項有趣的消融研究揭示了OVI設計決策的智慧。

最初，團隊曾嘗試為音頻塔設計兩個獨立的文本編碼器：一個CLAP編碼器處理音效描述，一個T5編碼器處理語音轉錄。

他們本以為這樣可以避免兩種任務互相干擾。

但實踐發現，這種分離的設計反而限制了模型的發揮。模型可以很好地單獨處理音效或語音，卻難以將它們融合成一個統一連貫的音頻流。

于是，團隊改用了前文提到的組合文本提示方法，將語音轉錄和音效描述融合到單個T5文本嵌入中。

這一修改在保持了語音正確性（WER指標相當）的同時，顯著提升了音頻的保真度和對齊度指標。

更重要的是，統一的文本嵌入也讓聯合音視頻生成變得更加簡單和高效，因為音頻和視頻塔現在可以基于完全相同的文本指令進行創作，增強了多模態的連貫性。

OVI第一版生成5秒長的720p分辨率短視頻，這限制了它在創作長篇敘事、處理鏡頭轉換等方面的應用。

但剛剛升級的Ovi 1.1，將最初的5秒視頻+音頻生成時間擴展到10秒，從而實現了更豐富的故事講述、更長的對話和更具表現力的角色。

OVI的開源貢獻是開創性的。

它提出了一個統一的音視頻生成框架，通過架構對稱性和塊級雙向融合，讓時間和語義在線索被聯合學習，而非順序處理。

它的基礎音頻塔能夠同時處理語音和多樣的音效，支持了通用的同步生成，無需任何額外的輔助模塊。

這為后來的開發者們提供了非常難得的基礎和借鑒。

免費試玩：

https://huggingface.co/spaces/akhaliq/Ovi

責任編輯：張燕妮來源： AIGC開放社區

AI 模型開源