小米發布 MiMo-Audio:用 1 億小時音頻預訓練打造“通用語音大模型” 原創
當下大家談論大模型,更多關注點還停留在文本和多模態。但在語音領域,真正能兼顧理解和生成的通用模型卻鳳毛麟角。最近,小米 MiMo 團隊帶來了一個重量級新品——MiMo-Audio,一個參數量高達 70 億的音頻語言大模型。它的特別之處在于:不僅能“聽懂”語音,還能像 GPT 一樣做“下一步預測”,實現跨語種語音翻譯、聲音風格轉換、語音續寫等復雜任務。
更讓人驚訝的是,MiMo-Audio 的訓練規模突破了 1 億小時音頻,相當于一個人連續聽 1.1 萬年才走完的時長。這背后不僅是算力堆砌,更是架構和訓練策略上的深度創新。
一、為什么 MiMo-Audio 值得關注?
1. 語音 AI 的短板
過去的語音 AI 模型往往各司其職:ASR(自動語音識別)負責轉文字,TTS(語音合成)負責生成語音,中間要經過復雜的任務堆疊。 問題是:一旦換任務,就得重新設計和微調。更別提語音里包含的情感、語調、身份特征,大多數模型都會在“壓縮—還原”的過程中丟失。
2. 小米的破局思路
MiMo-Audio 的核心理念很直接:統一一切,只做下一步預測。 它沒有設計復雜的多頭任務網絡,也沒有分散成 ASR、TTS 等子任務,而是把語音轉化成高保真離散 token,與文本 token 混合,交給大模型統一建模。這意味著,模型既能像 GPT 預測下一個字,也能預測下一個語音片段。
這種方法聽起來簡單,但背后是極高的工程難度:如何在不丟失語音細節的情況下,把聲音變成大模型可理解的“字母表”?
二、關鍵技術突破

1. 高保真 RVQ Tokenizer
MiMo 團隊自研了一套 殘差向量量化(RVQ)分詞器,每秒生成約 200 個 token,能完整保留語音的音色、韻律和說話人特征。 相比傳統聲學 token,這種方法幾乎沒有信息損失,堪稱“無損語音分詞”。這讓大模型第一次可以真正“理解”一個人的聲音,而不僅是把它轉成文字。
2. Patch 化序列建模
語音的時間維度遠比文字密集。MiMo-Audio 通過把 4 幀語音合成一個 patch,把 25Hz 的語音流壓縮到 6.25Hz,讓 70 億參數的語言模型能在可控的長度內處理超長音頻。 這種“打包壓縮—再解壓”的方式,既保持了語音細節,又避免了計算爆炸。

3. 單一目標函數:下一步預測
MiMo-Audio 不再人為區分“理解”還是“生成”,而是把所有訓練都統一成下一步預測(next-token prediction)。 無論是語音續寫、翻譯,還是語音編輯,模型都能在統一框架下完成,大幅降低了架構復雜度。
三、從“規模”到“涌現”
Xiaomi 在報告里強調:“規模本身就是算法。” MiMo-Audio 的訓練分為兩個階段:
- 第一階段只關注文本和語音交織的 token 預測,讓模型學會對齊語音與語義;
- 第二階段則引入語音生成損失,覆蓋語音續寫、語音翻譯、語音到語音對話等任務。
在數據規模超過 1 億小時之后,模型突然出現了“涌現能力”:
- 語音續寫:像小說續寫一樣,模型可以自然地補全一段未說完的話,保留原說話人的聲音與情緒;
- 聲音轉換:輸入一句話,就能把普通話變成天津話、英語口音,甚至直接模仿另一位說話人的聲音;
- 情緒遷移:把平淡的語音變成憤怒、悲傷或愉快的版本;
- 跨語種翻譯:直接實現語音到語音翻譯,不必中轉成文本。
這種能力并非任務驅動調教的結果,而是大規模預訓練下自然涌現的現象,和 GPT-3 在文本領域的 few-shot 能力非常相似。
四、性能與評測
MiMo-Audio 在多個公開基準上取得了領先成績:
- SpeechMMLU:語音理解推理任務,得分超越 GPT-4o-Audio;
- MMAU:綜合音頻理解基準,縮小了語音與文本任務之間的差距,僅剩 3.4 分;
- 多語音對話:在 Big Bench Audio、MultiChallenge Audio 上表現優異,能流暢參與多語境的語音對話。
更重要的是,小米還開源了 MiMo-Audio-Eval 工具包,讓研究者和開發者可以自行復現評測結果。


五、應用場景的想象空間
MiMo-Audio 的設計不僅是學術突破,還非常契合落地需求:
- 語音助手升級過去的語音助手主要是“聽懂—執行—播報”,聲音單調缺乏個性。MiMo-Audio 可以直接用用戶的語氣續寫對話,讓助手聽起來更“像人”。
- 內容創作播客、小說、有聲書主播,可以通過簡單的語音片段生成完整長篇錄音,還能自由切換語音風格。
- 跨語種溝通實時語音到語音翻譯,無需中轉文本,保留情緒和韻律,更適合跨境會議和多語言場景。
- 游戲與虛擬人角色配音不再需要大量錄音,只要幾分鐘音頻,就能生成千變萬化的對話,極大降低成本。
六、開放生態與未來趨勢
MiMo 團隊已經開源了:
- Tokenizer:高保真語音分詞器;
- 模型權重:基礎版與指令微調版;
- 評測工具包:MiMo-Audio-Eval;
- 在線 Demo:展示語音續寫、情緒遷移、語音翻譯等功能。
在語音 AI 的發展路徑上,MiMo-Audio 提供了一種極具啟發的方向:用統一的大模型架構替代分散的任務堆疊。這意味著未來的語音 AI 可能會像今天的 GPT 一樣,成為一個“萬能基座”,開發者只需在其上做輕量化微調,就能快速適配各種語音應用。
七、總結與思考
MiMo-Audio 的突破可以概括為三點:
- 技術上:通過 RVQ 高保真分詞器 + Patch 化建模 + 單一目標函數,解決了語音理解與生成的統一問題;
- 規模上:1 億小時訓練數據帶來了涌現能力,讓模型具備了少樣本學習的通用語音智能;
- 生態上:開源權重與工具,推動語音 AI 從實驗室走向產業化。
對于開發者而言,這不僅是一個研究課題,更是一個新機會:下一代語音應用的想象力,可能正被小米這樣的大模型一步步點燃。
你覺得,未來幾年里,語音 AI 會不會像今天的文本大模型一樣,成為新的“超級入口”?
本文轉載自??Halo咯咯?? 作者:基咯咯

















