超越 VTM-RA!快手雙向智能視頻編碼器BRHVC亮相NeurIPS2025
在視頻編碼領域,雙向編碼(RA 模式)一直是高效壓縮的「秘密武器」,長期以來被廣泛應用于點播、視頻存儲等場景。然而,在基于深度學習的智能視頻編碼中,這項技術也面臨新的挑戰:雙向編碼采用復雜的大跨度分層參考結構,這導致運動的精確處理變得困難,參考幀的價值利用也存在明顯差異。雙向智能視頻編碼的潛力遠未被完全激發,仍有巨大的優化空間等待探索。
為破解上述難題,快手音視頻技術團隊提出了全新的雙向智能視頻編碼方法 —— BRHVC。該方法不僅在壓縮性能上顯著超越業內最先進的端到端智能視頻編碼方案,也成功超越最新標準的 VTM-RA 編碼。相關研究成果成功被人工智能領域頂級學術會議 NeurIPS 2025 錄用。

- 論文標題:Neural B-frame Video Compression with Bi-directional Reference Harmonization
- 論文地址:https://arxiv.org/abs/2511.08938
視頻編碼(又稱視頻壓縮)的核心價值在于破解海量視頻數據與有限傳輸、存儲資源之間的根本矛盾。未壓縮的高清視頻碼率高達 1-3 Gbps,1 分鐘 4K 視頻占用近 20 GB 空間,這種數據量遠超現有網絡帶寬和存儲設備的承受能力。
對此,視頻編碼通過消除時空冗余、量化視覺不敏感信息,將視頻碼率壓縮至 1/100~1/1000,使短視頻、直播、視頻會議、云游戲等應用成為可能。從經濟角度看,視頻編碼技術每年為行業節省數萬億帶寬成本,降低數據中心能耗,讓用戶能享受到低碼率高質量的視頻服務。
背景:
從低時延模式到雙向模式的擴展
視頻編碼中的低時延模式(Low Delay, LD)采用單向 P 幀編碼,僅參考前一幀進行前向預測編碼。該方法延遲較小,更適用于直播場景,可以滿足實時交互需求,但壓縮效率偏低。雙向模式(Random Access, RA)采用雙向分層 B 幀編碼,每個 B 幀可同時參考前后兩幀,利用時域上的雙向信息,在相同畫質下可比低延遲模式節省 20+% 碼率,是點播、存儲等高畫質場景首選。
目前端到端智能視頻編碼方法主要針對 LD 模式進行優化,在 RA 模式上的研究還不夠深入。這是由于 RA 模式的參考幀順序有著獨特的設計,與 LD 模式和其他基于深度學習的視頻任務存在本質區別,研發難度更大,進而約束了 RA 模式的性能。為進一步提高雙向編碼的壓縮性能,研究團隊基于以下兩個任務痛點做出了改進:
長跨度幀的運動處理

該問題的根源在于 RA 編碼結構(如右圖)固有的時間維度放大效應。與 LD 模式固定 1 幀的參考跨度不同,RA 模式采用分層 B 幀結構,初始層級的幀間隔隨層級指數級增長,最高可達 32 幀距離。這種長時距使得運動幅度與復雜度呈非線性激增。當物體在 32 幀間隔內持續移動時,其位移可能超過數百像素,同時伴隨遮擋、形變、光照變化等復雜現象?,F有光流網絡(如 SpyNet)基于局部相關性假設,感受野受限于卷積核尺寸,面對大位移運動時極易陷入局部最優,導致運動場估計出現「斷裂」或「漂移」。
不平衡的參考貢獻問題

長跨度下兩個參考幀的信息價值存在顯著差異,如何有效利用參考幀的這一特性是一個關鍵問題。目前的方法沒有顯式建模出兩個參考幀的重要性權重,即預先認為兩幀具有同等的參考價值,這與很多現實情況相悖。
以上圖為例,在編碼當前幀(如上圖 (b))的「號碼牌」時,左邊的幀由于遮擋而無法提供有效的參考信息,只有右邊的幀有足夠的參考價值。為了進一步定量分析這種不平衡的參考貢獻問題,研究團隊設計了專門實驗:

用參考左右兩幀的雙向模型作為基準,用 BD-rate 表示相同質量下測試算法碼率相對基準碼率的增加比例(越小越好)。上圖橫坐標表示幀跨度,紅色柱體表示只輸入兩個參考幀中較差的幀,綠色柱體表示只輸入兩個參考幀中較好的幀,灰色表示兩者的 BD-rate 差值。從圖中可以看到,在幀跨度較大(即 32 和 16)時,不平衡的參考貢獻問題非常嚴重,這將極大影響后續幀的編碼效率。
算法設計

整體框架如圖所示,研究團隊提出一種創新的雙向智能視頻編碼框架 BRHVC(Bi-directional Reference Harmonization Video Compression),其中提出包括雙向運動聚合(Bi-directional Motion Converge, BMC)和雙向上下文融合(Bi-directional Contexual Fusion, BCF)兩個模塊,有效解決了上述長跨度幀的運動難處理問題和參考貢獻不平衡問題,從而顯著提升了壓縮性能。
雙向運動聚合(BMC)

BMC 模塊針對長跨度運動估計難題,將光流網絡生成的多尺度光流(原始、1/2 分辨率、1/4 分辨率)收斂至單一隱變量進行聯合壓縮,并引入雙向參考幀間的互運動特征作為先驗,動態適配不同幀類型的信息需求。這種設計突破過往光流壓縮的局限,使網絡在解碼端能重構出覆蓋更大感受野的準確運動場,顯著提升大位移場景下的運動補償精度。

BMC 的可視化效果如上圖所示,圖左半部分表示長跨度的參考,右半部分表示短跨度的參考,上半部分表示所提 BRHVC 用到的 BMC 模塊,下半部分表示基準 Baseline 模型。可以看到,BMC 對多尺度光流進行單獨生成和整體壓縮,可以有效避免大跨度下光流生成時遇到的光流雜亂錯誤的情況。
雙向上下文融合(BCF)

BCF 模塊則針對不平衡參考貢獻問題,在編碼端通過計算當前幀與雙向運動補償結果在像素域的相似度差異,生成空間自適應權重圖與偏置項,將參考特征在通道維度按重要性重新加權融合;解碼端則利用熵解碼后的潛變量重建權重信息,實現與編碼端協同。

上圖展示了權重特征在不同幀跨度上的區別??梢钥吹?,BCF 處理得到的顯式權重建模很好地解決了長跨度幀的遮擋問題,使得所提的 BRHVC 能夠聚焦更多注意力在更有參考價值的區域上,從而提高壓縮性能。
總之,BRHVC 的兩個關鍵模塊形成遞進式優化 —— BMC 提供高質量多尺度運動表征,BCF 在此基礎上實現智能信息篩選,最終使 BRHVC 在 HEVC 數據集上超越 VTM-RA 編碼,成功實現雙向智能視頻編碼對傳統標準的超越,具有重要意義。
實驗效果


研究團隊使用了業內標準數據集 HEVC Class B 至 E、UVG 及 MCL-JCV,分辨率跨度從 240p 到 1080p,并遵循 Intra Period 為 32 的配置以公平評估。實驗對比涵蓋了 H.265 標準編碼器 HM-16.5、最新標準的 H.266 編碼器 VTM-17.0 的 LD/RA 模式、最新的低時延智能視頻編碼方法(如 DCVC-DC、DCVC-FM 等)以及雙向智能編碼方法 DCVC-B。
結果表明,在 HEVC 數據集上,BRHVC 相比于傳統編碼器 VTM-LDB 平均實現 32.0% 的碼率節省,其中在 Class D 序列上增益高達 44.7%;同時,BRHVC 相比于傳統編碼器 VTM-RA 實現 1.1% 的碼率節省,在編碼效率上成功超越 VTM-RA。

研究團隊對 BRHVC 的兩個模塊進行了消融實驗,結果表明 BMC 和 BCF 兩個模塊有著較高的解碼收益性價比,能夠獲得相對基準模型約 12.3% 的顯著碼率節省。
總結
本研究系統梳理并深入剖析了雙向智能視頻壓縮面臨的核心挑戰,特別是長跨度幀的運動處理和不平衡參考貢獻問題。盡管傳統預測編碼能夠借助前后參考幀顯著提高壓縮效率,但在長跨度場景下,參考幀之間的信息價值往往呈現明顯異質性,使得模型難以充分發揮雙向預測的潛在優勢。
針對這一瓶頸,快手研究團隊提出了全新的 BRHVC 編碼框架,通過引入雙向運動融合(BMC)與雙向上下文融合(BCF)兩大關鍵創新模塊,實現了對參考信息的自適應調和。得益于更精準的運動刻畫和更均衡的參考融合機制,BRHVC 在壓縮性能上超越最新傳統標準 VTM-RA 編碼器,取得了雙向智能視頻壓縮領域的重要突破,也為未來智能視頻編碼的發展提供了新的方向。































