首個(gè)全面梳理語(yǔ)音大模型發(fā)展脈絡(luò)的權(quán)威綜述,入選ACL 2025主會(huì)
本文第一作者:崔文謙,香港中文大學(xué)博士生,致力于語(yǔ)音大模型,多模態(tài)大模型,AI音樂(lè)生成等方向的研究。
由香港中文大學(xué)團(tuán)隊(duì)撰寫(xiě)的語(yǔ)音語(yǔ)言模型綜述論文《Recent Advances in Speech Language Models: A Survey》已成功被 ACL 2025 主會(huì)議接收!這是該領(lǐng)域首個(gè)全面系統(tǒng)的綜述,為語(yǔ)音 AI 的未來(lái)發(fā)展指明了方向。

- ArXiv鏈接:https://arxiv.org/abs/2410.03751
- GitHub鏈接:https://github.com/dreamtheater123/Awesome-SpeechLM-Survey

為什么語(yǔ)音大模型是 AI 的下一個(gè)風(fēng)口?
想象一下,如果 AI 能夠像人類一樣自然地進(jìn)行語(yǔ)音對(duì)話,不再需要傳統(tǒng)的「語(yǔ)音轉(zhuǎn)文字(ASR)- 文本大模型處理(LLM)- 文字轉(zhuǎn)語(yǔ)音(TTS)」的繁瑣流程,而是直接理解和生成語(yǔ)音,那將是怎樣的體驗(yàn)?這就是語(yǔ)音大模型(語(yǔ)音語(yǔ)言模型,SpeechLM)要解決的核心問(wèn)題。
傳統(tǒng)的語(yǔ)音交互系統(tǒng)存在三大痛點(diǎn):信息丟失、延遲嚴(yán)重、錯(cuò)誤累積。當(dāng)語(yǔ)音轉(zhuǎn)換為文字時(shí),音調(diào)、語(yǔ)氣、情感等副語(yǔ)言信息完全丟失;多個(gè)模塊串聯(lián)導(dǎo)致響應(yīng)延遲明顯;每個(gè)環(huán)節(jié)的錯(cuò)誤會(huì)層層累積,最終影響整體效果。
SpeechLM 的出現(xiàn)徹底改變了這一局面。它能夠端到端地處理語(yǔ)音,既保留了語(yǔ)音中的豐富信息,又大幅降低了延遲,為真正自然的人機(jī)語(yǔ)音交互鋪平了道路。

技術(shù)架構(gòu):三大核心組件構(gòu)建語(yǔ)音智能
本論文深入剖析了 SpeechLM 的技術(shù)架構(gòu),發(fā)現(xiàn)其由三個(gè)關(guān)鍵組件構(gòu)成:語(yǔ)音分詞器、語(yǔ)言模型和聲碼器。

- 語(yǔ)音分詞器(Speech Tokenizer)負(fù)責(zé)將連續(xù)的音頻信號(hào)轉(zhuǎn)換為離散或連續(xù)的 token 表示。根據(jù)建模目標(biāo)的不同,可以分為語(yǔ)義理解型、聲學(xué)生成型和混合型三類。語(yǔ)義理解型專注于提取語(yǔ)音的語(yǔ)義內(nèi)容,聲學(xué)生成型則重點(diǎn)保留音頻的聲學(xué)特征,而混合型試圖兼顧兩者的優(yōu)勢(shì)。
- 語(yǔ)言模型(Language Model)是整個(gè)系統(tǒng)的核心,主要采用基于 Transformer 的自回歸架構(gòu)。通過(guò)擴(kuò)展詞匯表實(shí)現(xiàn)同時(shí)處理文本和語(yǔ)音 token,實(shí)現(xiàn)真正的多模態(tài)建模能力。
- 聲碼器(Token-to-wav Synthesizer,Vocoder)則將語(yǔ)言模型生成的 token 轉(zhuǎn)換回可聽(tīng)的音頻波形,完成從抽象表示到具體語(yǔ)音的最后一步轉(zhuǎn)換。
訓(xùn)練策略:從預(yù)訓(xùn)練到指令微調(diào)的完整流程
訓(xùn)練一個(gè)高質(zhì)量的 SpeechLM 需要精心設(shè)計(jì)的訓(xùn)練策略。我們的綜述詳細(xì)梳理了當(dāng)前主流的訓(xùn)練方法,包括三個(gè)關(guān)鍵階段。
預(yù)訓(xùn)練階段是基礎(chǔ),可以選擇冷啟動(dòng)或繼續(xù)預(yù)訓(xùn)練兩種方式。冷啟動(dòng)從零開(kāi)始訓(xùn)練,而繼續(xù)預(yù)訓(xùn)練則基于已有的文本語(yǔ)言模型進(jìn)行適配,后者通常能獲得更好的效果。關(guān)鍵在于如何有效對(duì)齊文本和語(yǔ)音的表示空間,使模型能夠充分利用兩種模態(tài)的共同信息與互補(bǔ)信息。
指令微調(diào)階段讓模型學(xué)會(huì)遵循各種指令執(zhí)行不同任務(wù)。研究者們通過(guò)構(gòu)建大規(guī)模的指令跟隨數(shù)據(jù)集,讓 SpeechLM 具備了處理多樣化語(yǔ)音任務(wù)的能力。
后對(duì)齊階段則通過(guò)人類反饋強(qiáng)化學(xué)習(xí)等技術(shù),進(jìn)一步優(yōu)化模型的輸出質(zhì)量和安全性,確保生成的語(yǔ)音既自然又符合人類偏好。
交互范式:實(shí)現(xiàn)真正自然的語(yǔ)音對(duì)話
語(yǔ)音交互的未來(lái)不僅在于理解和生成,更在于如何實(shí)現(xiàn)真正自然的對(duì)話體驗(yàn)。傳統(tǒng)的語(yǔ)音交互采用「你說(shuō)完我再說(shuō)」的模式,但真實(shí)對(duì)話中人們經(jīng)常會(huì)打斷對(duì)方或同時(shí)說(shuō)話。為了讓 AI 具備這種自然對(duì)話能力,研究者們正在開(kāi)發(fā)具有實(shí)時(shí)交互能力的 SpeechLM。
關(guān)鍵突破在于全雙工建模技術(shù),它包括兩個(gè)核心特性:用戶中斷能力,即模型可以被用戶打斷并適當(dāng)響應(yīng);同時(shí)響應(yīng)能力,即模型能夠在處理輸入的同時(shí)生成輸出。通過(guò)流式處理和全雙工架構(gòu),SpeechLM 能夠支持真正的雙向同時(shí)通信,讓人機(jī)交互變得更加自然流暢。
應(yīng)用場(chǎng)景:重新定義人機(jī)交互的邊界
SpeechLM 的應(yīng)用潛力遠(yuǎn)超我們的想象。在語(yǔ)義相關(guān)應(yīng)用方面,它能夠進(jìn)行自然的語(yǔ)音對(duì)話、語(yǔ)音翻譯、自動(dòng)語(yǔ)音識(shí)別、關(guān)鍵詞檢測(cè)等任務(wù)。更重要的是,這些任務(wù)都可以在統(tǒng)一的框架下完成,無(wú)需針對(duì)每個(gè)任務(wù)訓(xùn)練專門的模型。
在說(shuō)話人相關(guān)應(yīng)用中,SpeechLM 展現(xiàn)出了強(qiáng)大的說(shuō)話人識(shí)別、驗(yàn)證和分離能力,甚至可以根據(jù)指令生成特定音色的語(yǔ)音。這為個(gè)性化語(yǔ)音助手和多人對(duì)話系統(tǒng)開(kāi)辟了新的可能性。
最令人興奮的是副語(yǔ)言學(xué)應(yīng)用,SpeechLM 能夠理解和生成帶有特定情感、語(yǔ)調(diào)和風(fēng)格的語(yǔ)音。它不僅能識(shí)別說(shuō)話者的情緒狀態(tài),還能根據(jù)指令生成相應(yīng)情感色彩的語(yǔ)音回應(yīng),讓人機(jī)交互變得更加生動(dòng)自然。
評(píng)估體系:多維度衡量模型性能
如何科學(xué)評(píng)估 SpeechLM 的性能是一個(gè)重要課題。我們的論文系統(tǒng)梳理了當(dāng)前的評(píng)估方法,包括自動(dòng)評(píng)估和人工評(píng)估兩大類。
自動(dòng)評(píng)估涵蓋了表示質(zhì)量、語(yǔ)言學(xué)能力、副語(yǔ)言學(xué)特征、生成質(zhì)量和多樣性、實(shí)時(shí)交互能力以及下游任務(wù)性能等多個(gè)維度。每個(gè)維度都有相應(yīng)的指標(biāo)和基準(zhǔn)測(cè)試,為模型比較提供了客觀標(biāo)準(zhǔn)。
人工評(píng)估則主要通過(guò)平均意見(jiàn)分?jǐn)?shù)(MOS)等主觀指標(biāo),從人類感知的角度評(píng)估語(yǔ)音的自然度、韻律質(zhì)量和音色相似度等特征。

挑戰(zhàn)與未來(lái):通往通用語(yǔ)音智能的道路
盡管 SpeechLM 取得了顯著進(jìn)展,但仍面臨諸多挑戰(zhàn)。組件選擇的最優(yōu)化、端到端訓(xùn)練、實(shí)時(shí)語(yǔ)音生成、安全風(fēng)險(xiǎn)防控以及稀有語(yǔ)言支持等問(wèn)題都需要進(jìn)一步研究。
特別值得關(guān)注的是安全性問(wèn)題。SpeechLM 可能生成有害內(nèi)容或泄露隱私信息,如何建立有效的安全防護(hù)機(jī)制是當(dāng)務(wù)之急。同時(shí),如何讓 SpeechLM 更好地服務(wù)于資源稀缺的語(yǔ)言和方言,也是推動(dòng)技術(shù)普惠的重要方向。
結(jié)語(yǔ):開(kāi)啟語(yǔ)音 AI 的新紀(jì)元
這篇即將在 ACL 2025 主會(huì)議上發(fā)表的綜述論文,不僅是對(duì) SpeechLM 領(lǐng)域的全面梳理,更是對(duì)未來(lái)發(fā)展方向的深入思考。我們相信,隨著技術(shù)的不斷進(jìn)步,SpeechLM 將徹底改變?nèi)藱C(jī)交互的方式,開(kāi)啟語(yǔ)音 AI 的新紀(jì)元。
讓我們一起期待這個(gè)激動(dòng)人心的未來(lái),在那里,AI 不僅能聽(tīng)懂我們說(shuō)什么,更能理解我們?cè)趺凑f(shuō),并以同樣自然的方式與我們對(duì)話。這不僅是技術(shù)的突破,更是人類與 AI 關(guān)系的根本性變革。
































