Meta開源史上最強語音“基座模型”:一口氣支持1600+種語言
剛剛,Meta AI FAIR團隊發布了其在自動語音識別(ASR)領域的最新成果:Omnilingual ASR。
這是一個模型套件,能為超過1600種語言提供自動語音識別能力,其規模和質量都達到了新的水平。
值得關注的是,該框架被設計為社區驅動,世界各地的人們只需提供少量自己的樣本,就能將Omnilingual ASR擴展到新的語言。
同時開源的,還有一系列相關:
- Omnilingual ASR Corpus:一個包含350種服務欠缺語言的轉錄語音的大型數據集
- Omnilingual wav2vec 2.0:一個擴展到70億參數的、大規模多語言語音表征模型
- 語言探索Demo:一個可供人們探索模型所覆蓋語言的演示
目前,大多數ASR系統都集中在互聯網上資源豐富的一小部分語言上,這加劇了低資源語言使用者面臨的數字鴻溝。
Meta FAIR團隊推出的Omnilingual ASR,旨在通過一個通用轉錄系統,讓高質量的語音轉文本技術能夠惠及代表性最不足的語言社區。其最終目標是打破語言障礙,實現跨語言和文化背景的交流。
下載:
https://github.com/facebookresearch/omnilingual-asr
語言探索demo:
https://aidemos.atmeta.com/omnilingualasr/language-globe

轉錄工具:
https://huggingface.co/spaces/facebook/omniasr-transcriptions
paper:
前所未有的語言覆蓋范圍與性能
盡管ASR技術近年來在許多高資源語言上已接近完美,但擴大語言覆蓋范圍一直是一項資源密集型任務,現有AI架構對數據的需求過高,難以實現通用擴展。
Omnilingual ASR通過引入兩種架構變體來解決這一研究瓶頸。
首先,團隊首次將其wav2vec 2.0語音編碼器擴展到70億參數,從原始、未轉錄的語音數據中生成了豐富的、大規模多語言語義表征。
接著,團隊構建了兩種解碼器變體,將這些表征映射到字符序列:
1.一種依賴傳統的連接主義時間分類(CTC)目標。2.另一種利用了在LLM中常見的傳統Transformer解碼器。
這種被稱為LLM-ASR的方法,在ASR性能上實現了階段性提升,尤其是在長尾語言上。
結果顯示,其7B-LLM-ASR系統在超過1600種語言上達到了SOTA性能,其中78%的語言字符錯誤率(CER)低于10。

自帶語言(Bring Your Own Language)
除了擴展到1600多種語言外,Omnilingual ASR還改變了引入新語言的范式。
在大多數現有系統中,添加新語言需要專家驅動的微調。而Omnilingual ASR引入了首個能夠僅憑少量上下文示例就擴展到全新語言的大規模ASR框架。
這得益于其受LLM啟發的系統,該系統從大語言模型領域引入了上下文學習能力。
在實踐中,這意味著一個使用不支持語言的用戶,只需提供少數幾個成對的音頻-文本樣本,就能獲得可用的轉錄質量——無需大規模訓練數據、專業知識或高端計算資源。

一套面向不同用例的模型
此次,Meta發布了一整套模型和一個數據集,為利益相關者擴展和改進任何語言的語音技術提供了所需的一切。
- 模型家族:提供兩種解碼器變體,從專為低功耗設備設計的輕量級300M版本,到為各種用例提供頂級精度的強大7B模型。
- 基礎模型:通用語音基礎模型wav2vec 2.0也提供多種尺寸,可用于ASR之外的其他語音相關任務。
所有模型均在許可寬松的Apache 2.0許可下發布,數據則在CC-BY許可下提供。這些資產基于FAIR的開源fairseq2框架構建。
與全球合作伙伴共建
Omnilingual ASR的訓練語料庫在數量和語言多樣性上都是為ASR組建的最大語料庫之一,整合了公開可用的數據集和通過多個合作伙伴關系收集的社區來源語音記錄。
為了覆蓋那些幾乎沒有數字足跡的語言,團隊與當地組織合作,招募并補償母語者,通常是在偏遠或記錄不足的地區。這部分委托收集的訓練語料庫作為Omnilingual ASR Corpus發布。迄今為止,這是有史以來最大的超低資源自然語音ASR數據集,覆蓋了數百種ASR系統前所未見的語言。
此外,通過語言技術合作伙伴計劃,團隊與Mozilla基金會的Common Voice和Lanfrica/NaijaVoices等組織合作,直接與當地社區協作。這些合作關系為Omnilingual ASR注入了深厚的語言學知識和文化理解,確保技術能滿足當地需求。




























