基于 DiT 大模型與字體級分割的視頻字幕無痕擦除方案,助力短劇出海

當短劇出海、跨境電商等新興領域打造全球化內容時,面臨著一個棘手的基礎問題——原始視頻的中文字幕。原始字幕對于海外觀眾來說,不僅是無效信息,還嚴重干擾觀看體驗。傳統方案——直接添加對應外語字幕會導致畫面雜亂,而使用馬賽克或基于 GAN 的字幕擦除補全方案會導致畫面模糊、幀間閃爍,都無法徹底解決這一挑戰,使得優質內容的出海之路障礙重重。
如今,火山引擎視頻點播帶來了破局之道——應用基于 DiT 大模型與字體級分割的無痕字幕擦除功能。該方案以兩大核心技術突破和強大工程能力,重新定義字幕擦除標準,不僅可以實現全片真實自然的“無痕擦除”,更靈活支持多字幕框、指定時間段的精準擦除。
一、兩大技術突破:從"能用"到"優質"的代際跨越
1. 基于 DiT 的視頻字幕擦除模型:視頻修復的“大模型革新”
視頻擦除修復(Video Inpainting)技術旨在移除視頻字幕區域并修復背景,需確保修復區域在像素空間和時序維度上均保持穩定與一致。盡管當前主流學術方法(如 ProPainter、DiffuEraser)較早期技術已有顯著進步,但在字幕擦除場景下仍面臨關鍵挑戰:
- 未知像素區域修復偽影與幻覺顯著:基于 GAN 或 UNet 架構的擴散模型對視頻中未出現的像素區域進行“腦補”時,常產生不真實的偽影或內容扭曲(幻覺),且時間穩定性差。生成內容的真實性和時序穩定性不足。
- 已知像素區域修復模糊問題突出:傳統方案依賴光流、前后向傳播等幀間特征融合手段,本質為平滑處理,易導致修復區域模糊。
- 輔助先驗依賴制約性能:需輸入光流(Optical Flow)、文本提示(Text Prompt)等先驗信息,不僅增加計算開銷,且光流精度直接限制修復上限。
- 筆畫級精細修復能力薄弱:常規訓練基于隨機掩碼(Random Mask),對字幕這類需要像素級精準處理的場景適配性不足,導致筆畫邊緣修復效果粗糙。
針對上述問題,我們設計了基于 DiT 的視頻字幕擦除修復創新型模型架構。其核心點有:
1.1 強魯棒性預訓練基底
本模型基于 DiT 架構,在大規模數據上進行了預訓練,對二次元、現代、古裝、奇幻等多種風格的短劇內容展現出強大的泛化能力。尤其在圖像未知區域的生成上,其內容的合理性與真實性大幅領先于傳統方案。
1.2 擺脫輔助先驗依賴
- Transformer 自注意力機制驅動時序連貫:與傳統的光流計算與特征前后向傳播不同,火山引擎視頻點播通過 Transformer 捕捉視頻序列的長距離時間依賴,直接學習幀與幀之間的時間依賴信息,使得生成的相鄰幀在內容、動作、物體位置等方面保持了合理的連貫性。
- MMDiT 架構輕量化改造:移除文生視頻任務中必需的 Text Prompt 與 Cross-Attention 模塊,并通過大量實驗驗證,在字幕修復場景中,該調整既不降低生成質量,又能大幅減少計算量,避免因文本描述不準確導致的內容幻覺問題。
輕量化主體架構如下:

基于 DiT 的視頻擦除修復創新型模型架構
1.3 兩階段訓練策略提升魯棒性與修復精細度
由于原始視頻生成模型不具備修復能力,且模型已移除 Cross-Attention 模塊,我們采用兩階段漸進式訓練框架,通過分階段優化實現性能提升:
階段 | 訓練目標 | 數據來源 | 數據量 | mask 形式 | 分辨率 |
First | 提供基礎修復補全能力,保證魯棒性 | WebVid-10M | 2000 hours | Random mask | 360P |
Second | 適配短劇等垂類視頻以及字體級 mask,提升修復精細度 | 短劇、短視頻 | 250 hours | Font mask | 720P |
基于 DiT 架構的模型以大模型底層能力重構視頻修復邏輯,實現“像素級無痕”修復,無論是對手、臉等人體部位,還是衣物紋理、柵格等復雜結構,均能做到無痕擦除與修復,畫面整體 PSNR 達38以上,推動視頻編輯從傳統算法邁向大模型驅動的智能系統。
- 擦除在首飾區域上的字幕,完美還原首飾的紋理,在動態場景下表現依然穩定

- 擦除覆蓋在衣服上的字幕,呈現與背景一致的質感與圖案

- 擦除覆蓋在衣服上的字幕,裙子和方巾的圖案貼近原片

2. 字體級分割模型:從“粗放擦除”到“像素級修復”
字幕擦除前需要精準定位目標區域。通常來說,擦除區域越大,修復范圍越大,越容易產生偽影、模糊等問題,實現無痕修復的難度隨之顯著增加。當前主流技術多依賴 OCR 檢測框進行整體覆蓋(如下圖),但這種方式存在明顯局限:一方面,它忽略了字體間距與字符內部空隙,導致不必要的修復面積擴大,既增加技術難度與耗時;另一方面,字體空隙中關鍵的指導性像素信息被丟失,嚴重制約了修復效果的上限。

基于OCR 檢測框進行整體擦除的分割方案

基于OCR 檢測框進行整體擦除的分割方案
要實現字體級的精細分割仍面臨諸多挑戰,其中最突出的兩點在于:
- 字體樣式的復雜性:視頻字幕可能包含宋體、黑體、手寫體等多字體混合排版,同時存在陰影、描邊、漸變等復雜樣式,還可能帶有滾動、淡入淡出等動態效果,或涉及中英雙語疊加等多語言混排場景。
- 背景干擾問題:部分字幕與背景顏色、紋理高度相似,例如白色字幕疊加在淺色背景上,或存在半透明效果,進一步增加分割難度。
針對上述挑戰,我們從數據構建和模型架構兩方面進行了針對性設計:
- 數據層面:為提升分割算法的魯棒性,確保對不同樣式字體的精細處理,我們收集了2000+常見字體庫,借助像素級2D圖形渲染庫 Skia 生成了20萬+訓練數據,全面覆蓋中英雙語、多字體類型及陰影描邊等復雜樣式。
- 模型架構:考慮到字體領域的特殊性,例如部分字體筆畫纖細、結構稀疏等,我們設計了 CNN 與 Transformer 融合的分割模型。其中 CNN 部分借鑒了 OCR 檢測網絡的結構,并采用相關預訓練模型進行初始化,以增強對文字特征的捕捉能力。

字體級分割模型架構
通過上述技術手段,字體級分割模型可助力擦除補全模型實現對單個字符的獨立背景填充,有效避免了傳統塊填充導致的背景模糊或紋理重復問題。該技術以像素級精度平衡了字幕移除與背景保護,推動視頻字幕擦除從“能用”邁向“優質”階段。
- 鞋部上的字幕可通過精細分割,保留圖案輪廓的完整性,避免修復后出現“馬賽克”

- 衣服配飾上的精美花紋可通過精細分割,保留更多參考像素,提升后續的修復質量

二、工程實力與全球化方案:高效驅動多語言內容流轉
在工程層面,火山引擎多媒體實驗室聯合工程團隊構建了兼顧精度與效率的技術體系:
- 萬集測試,穩定如磐:經過超萬集視頻數據集驗證,擦除任務成功率100%,支持跨境電商批量處理千支商品視頻、影視公司高效修復百集短劇,全程穩定;
- 分鏡處理+集群高并發,速度飛躍:創新視頻分鏡技術,結合服務器集群分布式計算,視頻越長處理效率提升越顯著——1小時視頻處理耗時較傳統方案壓縮50%以上,徹底終結 “漫長等待”。
在多語言支持上,方案突破了中英文限制,支持處理多個小語種字幕擦除,既能助力中國短劇出海移除中文字幕,也能為海外視頻進入國內提供小語種字幕擦除服務,雙向打通全球內容流轉。
火山引擎視頻點播形成了“擦除-翻譯-口型同步”的一站式閉環:集成英文、日文、西班牙語等多種語言翻譯能力,針對短劇場景優化俚語與文化語境適配,結合語音韻律與面部動作分析技術,實現翻譯字幕與人物口型的動態對齊,較傳統人工流程效率提升20倍,一鍵完成從原視頻到多語言本地化內容的全流程處理。
三、尾話
當字幕不再是跨語言傳播的障礙,當修復后的畫面以卓越品質呈現,火山引擎正用技術消弭視覺隔閡,讓每一個精心打磨的鏡頭,都能在全球觀眾眼中綻放原有的光彩,讓出海內容創作更簡單,傳播更高效。





























