首個(gè)全面梳理語(yǔ)音大模型發(fā)展脈絡(luò)的權(quán)威綜述，入選ACL 2025主會(huì)

2025-06-18 08:53:00

本論文深入剖析了 SpeechLM 的技術(shù)架構(gòu)，發(fā)現(xiàn)其由三個(gè)關(guān)鍵組件構(gòu)成：語(yǔ)音分詞器、語(yǔ)言模型和聲碼器。

本文第一作者：崔文謙，香港中文大學(xué)博士生，致力于語(yǔ)音大模型，多模態(tài)大模型，AI音樂(lè)生成等方向的研究。

由香港中文大學(xué)團(tuán)隊(duì)撰寫(xiě)的語(yǔ)音語(yǔ)言模型綜述論文《Recent Advances in Speech Language Models: A Survey》已成功被 ACL 2025 主會(huì)議接收！這是該領(lǐng)域首個(gè)全面系統(tǒng)的綜述，為語(yǔ)音 AI 的未來(lái)發(fā)展指明了方向。

ArXiv鏈接：https://arxiv.org/abs/2410.03751
GitHub鏈接：https://github.com/dreamtheater123/Awesome-SpeechLM-Survey

為什么語(yǔ)音大模型是 AI 的下一個(gè)風(fēng)口？

想象一下，如果 AI 能夠像人類一樣自然地進(jìn)行語(yǔ)音對(duì)話，不再需要傳統(tǒng)的「語(yǔ)音轉(zhuǎn)文字（ASR）- 文本大模型處理（LLM）- 文字轉(zhuǎn)語(yǔ)音（TTS）」的繁瑣流程，而是直接理解和生成語(yǔ)音，那將是怎樣的體驗(yàn)？這就是語(yǔ)音大模型（語(yǔ)音語(yǔ)言模型，SpeechLM）要解決的核心問(wèn)題。

傳統(tǒng)的語(yǔ)音交互系統(tǒng)存在三大痛點(diǎn)：信息丟失、延遲嚴(yán)重、錯(cuò)誤累積。當(dāng)語(yǔ)音轉(zhuǎn)換為文字時(shí)，音調(diào)、語(yǔ)氣、情感等副語(yǔ)言信息完全丟失；多個(gè)模塊串聯(lián)導(dǎo)致響應(yīng)延遲明顯；每個(gè)環(huán)節(jié)的錯(cuò)誤會(huì)層層累積，最終影響整體效果。

SpeechLM 的出現(xiàn)徹底改變了這一局面。它能夠端到端地處理語(yǔ)音，既保留了語(yǔ)音中的豐富信息，又大幅降低了延遲，為真正自然的人機(jī)語(yǔ)音交互鋪平了道路。

技術(shù)架構(gòu)：三大核心組件構(gòu)建語(yǔ)音智能

本論文深入剖析了 SpeechLM 的技術(shù)架構(gòu)，發(fā)現(xiàn)其由三個(gè)關(guān)鍵組件構(gòu)成：語(yǔ)音分詞器、語(yǔ)言模型和聲碼器。

語(yǔ)音分詞器（Speech Tokenizer）負(fù)責(zé)將連續(xù)的音頻信號(hào)轉(zhuǎn)換為離散或連續(xù)的 token 表示。根據(jù)建模目標(biāo)的不同，可以分為語(yǔ)義理解型、聲學(xué)生成型和混合型三類。語(yǔ)義理解型專注于提取語(yǔ)音的語(yǔ)義內(nèi)容，聲學(xué)生成型則重點(diǎn)保留音頻的聲學(xué)特征，而混合型試圖兼顧兩者的優(yōu)勢(shì)。
語(yǔ)言模型（Language Model）是整個(gè)系統(tǒng)的核心，主要采用基于 Transformer 的自回歸架構(gòu)。通過(guò)擴(kuò)展詞匯表實(shí)現(xiàn)同時(shí)處理文本和語(yǔ)音 token，實(shí)現(xiàn)真正的多模態(tài)建模能力。
聲碼器（Token-to-wav Synthesizer，Vocoder）則將語(yǔ)言模型生成的 token 轉(zhuǎn)換回可聽(tīng)的音頻波形，完成從抽象表示到具體語(yǔ)音的最后一步轉(zhuǎn)換。

訓(xùn)練策略：從預(yù)訓(xùn)練到指令微調(diào)的完整流程

訓(xùn)練一個(gè)高質(zhì)量的 SpeechLM 需要精心設(shè)計(jì)的訓(xùn)練策略。我們的綜述詳細(xì)梳理了當(dāng)前主流的訓(xùn)練方法，包括三個(gè)關(guān)鍵階段。

預(yù)訓(xùn)練階段是基礎(chǔ)，可以選擇冷啟動(dòng)或繼續(xù)預(yù)訓(xùn)練兩種方式。冷啟動(dòng)從零開(kāi)始訓(xùn)練，而繼續(xù)預(yù)訓(xùn)練則基于已有的文本語(yǔ)言模型進(jìn)行適配，后者通常能獲得更好的效果。關(guān)鍵在于如何有效對(duì)齊文本和語(yǔ)音的表示空間，使模型能夠充分利用兩種模態(tài)的共同信息與互補(bǔ)信息。

指令微調(diào)階段讓模型學(xué)會(huì)遵循各種指令執(zhí)行不同任務(wù)。研究者們通過(guò)構(gòu)建大規(guī)模的指令跟隨數(shù)據(jù)集，讓 SpeechLM 具備了處理多樣化語(yǔ)音任務(wù)的能力。

后對(duì)齊階段則通過(guò)人類反饋強(qiáng)化學(xué)習(xí)等技術(shù)，進(jìn)一步優(yōu)化模型的輸出質(zhì)量和安全性，確保生成的語(yǔ)音既自然又符合人類偏好。

交互范式：實(shí)現(xiàn)真正自然的語(yǔ)音對(duì)話

語(yǔ)音交互的未來(lái)不僅在于理解和生成，更在于如何實(shí)現(xiàn)真正自然的對(duì)話體驗(yàn)。傳統(tǒng)的語(yǔ)音交互采用「你說(shuō)完我再說(shuō)」的模式，但真實(shí)對(duì)話中人們經(jīng)常會(huì)打斷對(duì)方或同時(shí)說(shuō)話。為了讓 AI 具備這種自然對(duì)話能力，研究者們正在開(kāi)發(fā)具有實(shí)時(shí)交互能力的 SpeechLM。

關(guān)鍵突破在于全雙工建模技術(shù)，它包括兩個(gè)核心特性：用戶中斷能力，即模型可以被用戶打斷并適當(dāng)響應(yīng)；同時(shí)響應(yīng)能力，即模型能夠在處理輸入的同時(shí)生成輸出。通過(guò)流式處理和全雙工架構(gòu)，SpeechLM 能夠支持真正的雙向同時(shí)通信，讓人機(jī)交互變得更加自然流暢。

應(yīng)用場(chǎng)景：重新定義人機(jī)交互的邊界

SpeechLM 的應(yīng)用潛力遠(yuǎn)超我們的想象。在語(yǔ)義相關(guān)應(yīng)用方面，它能夠進(jìn)行自然的語(yǔ)音對(duì)話、語(yǔ)音翻譯、自動(dòng)語(yǔ)音識(shí)別、關(guān)鍵詞檢測(cè)等任務(wù)。更重要的是，這些任務(wù)都可以在統(tǒng)一的框架下完成，無(wú)需針對(duì)每個(gè)任務(wù)訓(xùn)練專門的模型。

在說(shuō)話人相關(guān)應(yīng)用中，SpeechLM 展現(xiàn)出了強(qiáng)大的說(shuō)話人識(shí)別、驗(yàn)證和分離能力，甚至可以根據(jù)指令生成特定音色的語(yǔ)音。這為個(gè)性化語(yǔ)音助手和多人對(duì)話系統(tǒng)開(kāi)辟了新的可能性。

最令人興奮的是副語(yǔ)言學(xué)應(yīng)用，SpeechLM 能夠理解和生成帶有特定情感、語(yǔ)調(diào)和風(fēng)格的語(yǔ)音。它不僅能識(shí)別說(shuō)話者的情緒狀態(tài)，還能根據(jù)指令生成相應(yīng)情感色彩的語(yǔ)音回應(yīng)，讓人機(jī)交互變得更加生動(dòng)自然。

評(píng)估體系：多維度衡量模型性能

如何科學(xué)評(píng)估 SpeechLM 的性能是一個(gè)重要課題。我們的論文系統(tǒng)梳理了當(dāng)前的評(píng)估方法，包括自動(dòng)評(píng)估和人工評(píng)估兩大類。

自動(dòng)評(píng)估涵蓋了表示質(zhì)量、語(yǔ)言學(xué)能力、副語(yǔ)言學(xué)特征、生成質(zhì)量和多樣性、實(shí)時(shí)交互能力以及下游任務(wù)性能等多個(gè)維度。每個(gè)維度都有相應(yīng)的指標(biāo)和基準(zhǔn)測(cè)試，為模型比較提供了客觀標(biāo)準(zhǔn)。

人工評(píng)估則主要通過(guò)平均意見(jiàn)分?jǐn)?shù)（MOS）等主觀指標(biāo)，從人類感知的角度評(píng)估語(yǔ)音的自然度、韻律質(zhì)量和音色相似度等特征。

挑戰(zhàn)與未來(lái)：通往通用語(yǔ)音智能的道路

盡管 SpeechLM 取得了顯著進(jìn)展，但仍面臨諸多挑戰(zhàn)。組件選擇的最優(yōu)化、端到端訓(xùn)練、實(shí)時(shí)語(yǔ)音生成、安全風(fēng)險(xiǎn)防控以及稀有語(yǔ)言支持等問(wèn)題都需要進(jìn)一步研究。

特別值得關(guān)注的是安全性問(wèn)題。SpeechLM 可能生成有害內(nèi)容或泄露隱私信息，如何建立有效的安全防護(hù)機(jī)制是當(dāng)務(wù)之急。同時(shí)，如何讓 SpeechLM 更好地服務(wù)于資源稀缺的語(yǔ)言和方言，也是推動(dòng)技術(shù)普惠的重要方向。

結(jié)語(yǔ)：開(kāi)啟語(yǔ)音 AI 的新紀(jì)元

這篇即將在 ACL 2025 主會(huì)議上發(fā)表的綜述論文，不僅是對(duì) SpeechLM 領(lǐng)域的全面梳理，更是對(duì)未來(lái)發(fā)展方向的深入思考。我們相信，隨著技術(shù)的不斷進(jìn)步，SpeechLM 將徹底改變?nèi)藱C(jī)交互的方式，開(kāi)啟語(yǔ)音 AI 的新紀(jì)元。

讓我們一起期待這個(gè)激動(dòng)人心的未來(lái)，在那里，AI 不僅能聽(tīng)懂我們說(shuō)什么，更能理解我們?cè)趺凑f(shuō)，并以同樣自然的方式與我們對(duì)話。這不僅是技術(shù)的突破，更是人類與 AI 關(guān)系的根本性變革。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心