當 AI 學會 25 種語言:達摩院 Babel 如何讓全球 90% 人口共享智能紅利? 原創 精華
阿里巴巴達摩院推出的Babel多語言大語言模型(LLM)是一項突破性技術,旨在通過支持25種最常用語言(覆蓋全球90%以上人口)來彌合語言鴻溝。其核心技術特點及創新如下:
1. 模型架構與擴展技術
Babel采用結構化層擴展方法(Structured Layer Extension),通過增加參數規模提升模型能力,而非依賴傳統持續預訓練(continuous pretraining)。例如:
- Babel-9B:專注于推理效率和微調優化,適合研究與本地化部署;
- Babel-83B:參數規模對標商業模型(如GPT-4o),在多語言NLP任務中刷新性能記錄,平均得分達73.2,顯著超越Qwen2.5-72B(69.8)和Llama3.1-70B(66.9)。
這一設計理念與達摩院早期多語言模型(如PolyLM、SeaLLMs)一脈相承。例如,SeaLLMs通過優化非拉丁語言的長文本處理能力(可達ChatGPT的9倍效率),而PolyLM則通過課程學習(curriculum learning)策略實現多語言知識遷移。Babel進一步將這些技術整合,并通過層擴展實現規?;嵘?。
2. 語言覆蓋與數據優化
Babel特別關注低資源語言的覆蓋,如孟加拉語、烏爾都語、斯瓦希里語、爪哇語等,這些語言在開源LLM中長期被忽視。其數據策略包括:
- 多源高質量語料:整合Wikipedia、新聞、教科書及結構化語料(如MADLAD-400、CulturaX);
- 基于LLM的質量分類器:用于數據清洗與篩選,確保訓練數據的純凈度。
類似技術曾在Qwen2模型中應用,例如使用模型本身過濾低質量數據并合成新數據,同時優化多語言混合比例以模擬人類學習過程。
3. 性能表現
推理與翻譯任務:Babel-9B在MGSM推理任務中得43.4,Flores-200翻譯任務中得55.1,均優于同類9B模型(如GLM4-9B、Gemma2-9B)。
低資源語言提升:Babel在低資源語言上的表現較此前模型提升5-10%,部分得益于達摩院在東南亞語言(如高棉語、老撾語)處理上的技術積累。
4. 應用場景與微調
Babel的監督微調(SFT)模型基于超過100萬對話數據集訓練,性能接近GPT-4o等商業模型。這與SeaLLM-chat的文化適應性微調策略類似,后者通過本地化調整實現對社會規范和法律背景的精準理解。
5. 技術生態關聯
- 與PolyLM的關系:PolyLM(支持15種非英語語言)可視為Babel的前期探索,兩者均強調多語言平衡性與課程學習,但Babel通過更大參數規模(83B)和層擴展技術實現躍升。
- 與語音識別項目的區別:證據中提及的其他“Babel”項目(如IARPA Babel語音識別計劃)與達摩院的LLM無直接關聯,需注意區分。
總結
Babel的推出標志著達摩院在多語言LLM領域的技術整合與突破,其結構化層擴展、低資源語言支持及數據優化策略為行業樹立了新標桿。未來,結合達摩院在東南亞語言模型(SeaLLMs)和多語言遷移學習(PolyLM)中的經驗,Babel有望進一步推動全球化AI服務的普惠性。
本文轉載自公眾號Halo咯咯 作者:基咯咯
原文鏈接:??https://mp.weixin.qq.com/s/D0Ks4coVd2rsmuCYJkMG7g??

















