清華大學x生數科技:從波形到隱空間,AudioLBM引領音頻超分新范式
音頻超分辨率(Audio Super-Resolution, Audio SR),即從低采樣率音頻恢復出高采樣率版本,是提升語音清晰度、音樂細節與沉浸式音頻體驗的關鍵技術。
無論是在老舊錄音修復、語音通信增強,還是音樂制作與多模態生成中,高分辨率音頻都能顯著提升聽感與表現力。然而,由于高頻細節在低采樣率信號中被嚴重損失,這一任務一直是音頻生成領域的核心挑戰。
值得注意的是,近期由OpenAI推出的有聲視頻模型Sora 2已能生成采樣率高達96 kHz的音頻,為高保真音頻生成樹立了新的技術標桿。而現有學術界的音頻超分模型大多仍局限于48 kHz以內,缺乏能夠穩定支持更高采樣率的通用框架。
在這一背景下,清華大學與生數科技(Shengshu AI)團隊圍繞橋類生成模型與音頻超分任務展開系統研究,先后在語音領域頂級會議ICASSP 2025和機器學習頂級會議NeurIPS 2025發表了兩項連續成果:
輕量化語音波形超分模型Bridge-SR,以及面向高達192 kHz母帶級音頻的多功能超分框架AudioLBM。
其中,AudioLBM覆蓋語音、音效與音樂等多類內容,在通用高分辨率音頻生成方面展現出重要的擴展潛力。
從數據到數據:Bridge-SR的探索
2025年發表于ICASSP的Bridge-SR工作首次將薛定諤橋(Schr?dinger Bridge)模型引入語音超分任務,在“數據到數據”的生成范式下建立了低分辨率波形與高分辨率波形之間的可解橋接過程。
不同于擴散模型從隨機噪聲逐步生成信號的“噪聲到數據”方式,Bridge-SR直接利用低分辨率波形作為生成先驗,使模型在輕量化網絡(僅1.7M參數)下就能以“數據到數據”范式實現高效、高保真的語音超分,并在VCTK語音測試集上優于多項主流方法。
這一工作為先驗驅動的音頻超分提供了新思路,也為后續更通用、更高質量的音頻超分模型奠定了理論與實驗基礎。
△圖一:波形空間的輕量化橋類超分模塊設計
通過非對稱的噪聲調度設計,頻域幅度譜、相位譜的輔助監督,與一階PF-ODE采樣,Bridge-SR在音頻波形空間采用基線模型中最輕量級的1.7M網絡即實現了語音超分的質量突破。
△圖二:VCTK Benchmark測試集的語音超分質量對比
近日,團隊繼續深入研究,開發針對語音、音效、音樂全音頻信號的通用超分模型,設計“隱空間橋類模型”AudioLBM,在Any-to-48 kHz的音頻超分任務中大幅超越基線模型,實現音頻超分新范式。并成功實現了96kHz和192kHz音頻超分的工程突破,使得母帶音質不再稀缺。
從隱變量到隱變量:AudioLBM的突破
在 Bridge-SR 的基礎上,團隊進一步提出了AudioLBM,論文已發表于 NeurIPS 2025。
該研究探索了從“波形域生成”到“隱空間建模”的轉變,實現了基于橋類模型的通用音頻超分。AudioLBM首次在波形連續隱空間中構建低分辨率到高分辨率的隱變量橋接生成過程。
研究團隊通過變分自編碼器(VAE)將波形壓縮為連續隱空間表征,并在該空間中學習概率生成映射,從而保留輸入波形的結構化先驗信息,同時提升模型的泛化建模能力。
下圖為,音頻超分任務(上)、傳統在頻譜隱空間的擴散模型(中)、和波形隱空間橋類模型(下):

為應對高分辨率數據稀缺問題,提升訓練效率,AudioLBM提出了頻率感知機制(frequency-aware LBM),在訓練中顯式感知先驗采樣率與基于團隊設計的信號處理手段自動檢測的目標采樣率,使模型能夠學習“任意采樣率到任意采樣率”(any-to-any)的超分過程。
進一步地,為了有效實現采樣率上限突破,團隊設計了級聯橋類模型(cascaded LBM),將模型能力從48 kHz擴展至96 kHz與192 kHz,首次實現了音頻超分研究中覆蓋192 kHz工業級采樣率的探索。
通過先驗增強(prior augmentation)與潛空間模糊(latent blurring)策略,模型能夠在多階段生成中保持高頻細節與能量一致性。同時,團隊對各階段壓縮網絡和橋模型進行級聯微調,有效利用低分辨率模型作為更高分辨率模型的強大先驗。
△圖四:級聯橋類模型設計
在跨語音、音效與音樂的多域評測中,AudioLBM在Any-to-48kHz超分任務上取得新的SOTA(state-of-the-art)表現:
△圖五:通用音頻超分的質量對比
相較于基線模型AudioSR與FlowHigh,在對數譜距離(LSD)上均明顯下降,同時在96 kHz與192 kHz任務中保持穩定性能。該方法在統一框架下實現了對語音、音效與音樂的高保真重建,顯著提升了通用性。實現了從語音到音樂的統一高分辨率生成。
△圖六:音頻超分結果的頻譜展示
針對音頻數據的其他表征空間,如波形空間、譜空間,團隊也做出消融實驗。對于語音、音效、音樂通用音頻超分任務,波形隱空間達到最佳效果:
△圖七:音頻波形空間、譜空間、波形隱空間超分結果與真值的頻譜展示
作者介紹
此兩項目的第一作者均為李暢和陳澤華。
李暢是中國科學技術大學少年班學院的本科生,主要研究方向是語音,音頻相關的生成建模與表征學習,曾以第一作者身份在多個CCF-A/B類會議發表音頻相關學術研究。

陳澤華是清華大學計算機系水木學者博士后,博士畢業于英國帝國理工學院電氣與電子工程系,主要研究方向為概率生成模型,及其在語音、音效、生物電信號合成等方面的應用。在語音和機器學習領域的重要會議與期刊上持續發表相關研究工作。

【Bridge-SR】論文地址:https://arxiv.org/pdf/2501.07897樣本展示:https://bridge-sr.github.io/
【AudioLBM】論文地址:https://arxiv.org/pdf/2509.17609樣本展示:https://audiolbm.github.io/























