突發!微軟與OpenAI同日開火:語音之戰+通用大模型,AI霸權決戰打響
就在OpenAI發布最新的語音大模型之際,微軟掏出了自研語音大模型!
微軟AI掌門人、DeepMind聯合創始人Mustafa Suleyman正式宣布:
微軟AI正式推出MAI-Voice-1以及MAI-1-預覽版!而且還有更多內容即將推出。

MAI-Voice-1語音模型效率極高:單GPU秒出1分鐘音頻!使用Copilot即可體驗。
在Mustafa Suleyman看來,這是他用過表現力最豐富、最自然的語音生成模型。

而MAI-1預覽版模型是微軟AI首個端到端內部訓練的自研基礎模型。
這標志著在多年依賴OpenAI模型之后,微軟AI部門正式與OpenAI及整個行業正面競爭,也意味著微軟在AI競賽中,開始掌握更多主動權。

在接受采訪時,Suleyman 表示:「微軟是世界上最大的公司之一。我們必須具備內部能力,來打造世界最強的模型。」

MAI-Voice-1,究竟能力如何
在微軟官方給出的指標中,最能引起我們注意的,是「單卡<1秒,生成1分鐘音頻」。
這使其成為當前少見的極致低時延TTS/對話式語音生成系統之一。
除此之外,語音的自然和富有表現力也是重點,這覆蓋到了單人敘述與多說話人對話兩種常見內容形態。
新聞播報、播客對談、故事講述、冥想/引導等,你能想到的,統統沒問題。
你可以選擇9種不同的語音:

也可以選擇多達31種不同的情緒和播報場景:

你還可以讓模型扮演一個激情四射的體育解說員,點燃你的情緒:

具體到落地上,我們可以通過Copilot Labs,在Copilot Daily中以AI主播播報要聞、在Copilot Podcasts生成播客式討論,Copilot Labs 提供可玩Demo(可以自定義內容、敘述風格等)。
下面是兩段該模型生成的語音Demo,你可以聽聽看,滿分5分想給幾分?是否還有AI味呢?歡迎在評論區留下您的測評意見。


微軟與OpenAI難舍難分
長期以來,微軟主要依靠OpenAI的人工智能模型,為核心產品提供AI功能。
OpenAI目前估值約5000億美元,微軟一家的投資就超過了130億美元,而OpenAI也依賴微軟的云基礎設施來運行其模型。
但現在宣布:「未來幾周,我們將在Copilot的部分文本任務中逐步推出MAI-1-preview,以便從用戶反饋中學習和改進。」
目前,微軟仍在Bing、Windows 11及其他產品中使用OpenAI的模型。
但雙方的關系日漸惡化。

去年,微軟在年度財報中正式將OpenAI列入競爭對手名單,之前多年來只包含亞馬遜、蘋果、谷歌和 Meta等科技巨頭。
近幾個月,OpenAI也轉向CoreWeave、谷歌和甲骨文等其他云服務商,以滿足激增的算力需求。
與OpenAI同期發布語音模型,意欲何為
就在昨天,OpenAI也發布了最新的語音生成大模型GPT-Realtime,整體嵌入在Realtime API中。
該模型在語音自然性、情感豐富度、低延遲響應上顯著提升,能夠在一句話之內實現語調、語言的無縫切換,還支持工具調用、指令跟隨能力。
為什么微軟選擇在此時發布新模型?
此次發布雖然只有語音模型和預覽版通用模型,但釋放出的信號不容忽視。
其一,語音將成為AI助手的重要戰場。
MAI?Voice?1的效率和表達力有望推動語音助手晉級的「數字伙伴」。
而富有情感和個性的數字伙伴,是Grok等模型時下開始發力的一個新突破點,潛力頗大。
其二,OpenAI不再是唯一選擇。
大模型發展進入「百模大戰」階段,各巨頭紛紛推出自研產品。
微軟此舉既是對OpenAI合作的補充,也為自己與OpenAI的重大商業談判中增加了可觀的籌碼。
其三,MoE架構成大模型新趨勢。
MAI?1?preview采用MoE架構,訓練規模適中但更關注指令遵循和響應效率,能兼顧性能與成本。
隨著LLM細分應用增多,多專家模型將成為重要方向。
其四,生態開放值得期待。
微軟表示將在Copilot及第三方測試平臺開放模型,鼓勵開發者提供反饋。
在媒體采訪中,Mustafa Suleyman表示:
人工智能不僅是科技的未來,更是未來幾十年商業運行和價值創造的核心。
因此,研發最強的模型,不僅是技術追求,更是微軟作為企業的戰略必然。
我們必須擁有自己的核心能力。
在14個月前,他和團隊從Inflection加入微軟后,就一直全力推動這件事。
如今,微軟終于發布了兩款自研模型。

Suleyman強調,微軟未來會繼續使用OpenAI的模型,也會用開源模型,但關鍵在于「編排器」(orchestrator)。
這是一種模型調度系統,能夠根據任務自動選擇合適的模型來完成特定請求,類似「路由器」。
他認為,這種編排能力將成為微軟的重要知識產權。
外界普遍猜測,微軟推出自研模型,是否意味著與OpenAI的關系在降溫?
對此,Suleyman回應道:
我們的目標是進一步加深與OpenAI的合作,并保持長期良好的伙伴關系。
雙方的合作已經非常成功,未來我相信仍會繼續下去。
微軟如何自研大模型
這次微軟AI透露:「MAI-1-preview是MoE模型,使用約1.5萬張NVIDIA H100 GPU進行了預訓練和后訓練。」
在LMArena文本任務榜單上,MAI-1排名第13,落后于DeepSeek、谷歌、OpenAI和xAI等主要AI玩家的模型。

相比之下,xAI的Grok模型則動用了超過10萬張同類芯片。
微軟AI只用相對小規模的集群,也能訓練出非常強大的模型。
Suleyman認為自研的新模型表現遠超其硬件規模,完全可以和世界上最強的模型媲美,而且現在才剛剛開始調優。
一旦模型投入實際應用并開始收集反饋,隨著不斷迭代,性能還會顯著提升。
對微軟AI來說,這僅僅是個開始。
微軟AI算力充沛,已經在使用全球最大的數據中心之一,并配備了Nvidia下一代GB-200芯片,研發下一版本模型。
而且,他們有一個龐大的五年規劃,并會持續投資算力。
規模很重要,但效率同樣關鍵。
這意味著要精挑細選高質量的訓練數據,確保每一次浮點運算、每一次GPU迭代都發揮最大價值。
現在訓練模型的核心能力,已經越來越變成了一種「工藝」——選對數據,避免把算力浪費在無效的token上。
Suleyman 表示,公司利用了一些源自開源社區的技術,使得有限資源發揮了更大作用。
這是微軟首次完整端到端訓練的大模型。在研發過程中,團隊也遇到了不少挑戰。
Suleyman坦言:「構建這樣規模的集群、訓練如此龐大的數據,需要不斷的調試、迭代和耐心。這是每一家實驗室都會面臨的難題。」

他對團隊的表現非常滿意:「我們從中學到了很多,也積累了足夠的經驗去打造更多優秀的模型。」
他把這比喻成「轉動飛輪」:一旦模型研發進入正循環,每一代都會推動下一代更快成長。
之前,Suleyman在Inflection,甚至DeepMind都有相關經驗,不過那時候算力規模較小,GPU還沒有動輒十萬張。
這次的首個模型訓練成功,他認為關鍵在于文化:
優秀的文化吸引了優秀的人,是優秀的團隊才能構建出優秀的模型。
而最終,這個團隊的價值觀,也會自然地被注入到模型和產品中。

Suleyman還透露他們已經在開發下一個模型了:規模更大,訓練架構也做了一些新的調整。
現在一切都已經啟動了,接下來幾個月、幾年里都會有很多值得期待的東西。

































