Qwen3-Next:比 GPT-5 和 Gemini 2.5 更輕、更快、更聰明? 原創(chuàng)
過去兩年,大模型領(lǐng)域的變化快到讓人應(yīng)接不暇。幾乎每隔一周,社區(qū)就會(huì)迎來一個(gè)“新明星”。這一次,讓圈子里沸騰的不是谷歌,也不是 OpenAI,而是阿里巴巴 quietly 推出的 Qwen3-Next。
沒有鋪天蓋地的營(yíng)銷,沒有大張旗鼓的發(fā)布會(huì),它只是安安靜靜地掛在 Hugging Face 上,卻憑借 更高效的訓(xùn)練與推理、極具突破性的稀疏激活機(jī)制,以及媲美頂尖模型的表現(xiàn),引起了全球開發(fā)者和研究者的關(guān)注。
那么,Qwen3-Next 到底特別在哪?為什么很多人說它可能改變開源 AI 的競(jìng)爭(zhēng)格局?今天我們就來拆解這款新模型。
一、Qwen3-Next 到底是什么?
Qwen3-Next-80B-A3B 是阿里巴巴新一代大語言模型。它的設(shè)計(jì)思路跟傳統(tǒng)“大而全”的模型完全不同。
- 參數(shù)規(guī)模:總參數(shù)量 800 億,看上去不算驚人;
- 上下文長(zhǎng)度:支持 32K token,遠(yuǎn)超多數(shù)開源模型;
- 激活機(jī)制:真正的核心在于,它并不是每次都調(diào)用所有參數(shù),而是只激活大約 30 億。
這意味著,它就像一個(gè)巨大的專家團(tuán)隊(duì),遇到不同任務(wù)時(shí)只調(diào)動(dòng)最合適的“專家小組”。這就是名字里 80B(總量)和 A3B(激活量) 的由來。
阿里還推出了兩類衍生版本:
- Instruct 模型:專注日常任務(wù)和指令跟隨;
- Thinking 模型:強(qiáng)化復(fù)雜推理與鏈?zhǔn)剿伎寄芰Α?/li>
換句話說,你既能得到一個(gè)“效率極高的通才助手”,也能按需調(diào)用“專業(yè)的思考型顧問”。
二、核心技術(shù)亮點(diǎn)
如果只看“稀疏激活”,可能覺得概念不新鮮。但 Qwen3-Next 的架構(gòu)細(xì)節(jié)頗有看點(diǎn):
- 混合注意力機(jī)制
- 75% 使用線性注意力(Gated DeltaNet),保證超長(zhǎng)上下文處理效率;
- 25% 保留傳統(tǒng)注意力,用來維持召回能力。
- 極度稀疏的 MoE(Mixture of Experts)
- 總共有 512 個(gè)專家,每次推理只啟用 10+1 個(gè);
- 全局負(fù)載均衡,避免訓(xùn)練過程崩潰。
- 穩(wěn)定訓(xùn)練技巧
- 輸出門控防止注意力塌陷;
- RMSNorm 歸一化改進(jìn);
- 公平路由初始化減少不穩(wěn)定性。
- 多 Token 預(yù)測(cè)(MTP)
- 提高 speculative decoding 的接受率;
- 訓(xùn)練與推理更一致,速度明顯提升。
- 算力效率
- 訓(xùn)練消耗不到 Qwen3-30B 的 80%;
- 解碼速度比 Qwen3-32B 快 4–10 倍。
一句話總結(jié):Qwen3-Next 不靠“堆算力”取勝,而是通過 架構(gòu)創(chuàng)新 + 算法優(yōu)化 讓性能與效率兼得。
三、如何使用 Qwen3-Next?
阿里在可用性上也做了不少努力,幾乎覆蓋了所有主流場(chǎng)景:
- 網(wǎng)頁(yè)版:直接訪問 chat.qwen.ai,無需復(fù)雜配置;
- API 接口:兼容 OpenAI API,開發(fā)者遷移幾乎無成本;
- Hugging Face:可下載權(quán)重本地運(yùn)行,支持二次微調(diào);
- NVIDIA API Catalog:也能在算力生態(tài)里一鍵調(diào)用。

對(duì)于研究者而言,這意味著你既可以“開箱即用”,也能“自由改造”。這種開放度在大廠模型里并不多見。
四、上手體驗(yàn):能打嗎?
從實(shí)測(cè)來看,Qwen3-Next 的能力并不是紙面數(shù)據(jù),而是真能“跑起來”的。測(cè)試分三個(gè)方向:
- 智能體能力給定一個(gè)復(fù)雜任務(wù)(比如閱讀論文、寫博客、再生成社交媒體帖子),它能自動(dòng)生成多模態(tài)內(nèi)容,并保持邏輯連貫。
- 代碼生成能力輸入“做一個(gè)類似 Reddit+Instagram 的網(wǎng)站”,它能直接產(chǎn)出前端代碼,還能部署一個(gè)可訪問 demo。
- 多模態(tài)能力輸入視頻字幕文件,它能總結(jié)內(nèi)容并生成封面圖提示詞,完成從理解到生成的閉環(huán)。
體驗(yàn)上的唯一小瑕疵是:一些內(nèi)置工具需要手動(dòng)啟用(比如代碼測(cè)試、文檔配圖),還沒做到完全自動(dòng)化。但整體感覺,它比同類推理型模型更自然、更高效。
五、性能與對(duì)比
很多人會(huì)問:800 億參數(shù)能和 GPT-5、Gemini 2.5 比嗎?
答案是——在不少基準(zhǔn)測(cè)試上,它確實(shí)能肩并肩,甚至在復(fù)雜推理任務(wù)中超越 Gemini-2.5-Flash-Thinking。
- 在 MMLU、BBH 等綜合推理測(cè)試中,表現(xiàn)接近密集模型 Qwen3-235B;
- 在 GSM8K、MATH 等數(shù)學(xué)和編程基準(zhǔn)上,憑借稀疏激活的效率優(yōu)勢(shì),反而更有性價(jià)比;
- 多語言場(chǎng)景下也表現(xiàn)穩(wěn)定,沒有“只會(huì)英文”的短板。



這讓人重新思考:是不是“大模型 = 堆參數(shù)”這條路,真的走到盡頭了?
六、未來的意義
Qwen3-Next 不僅僅是一款新模型,更像是一種新思路的驗(yàn)證:
- 不需要無限制擴(kuò)展參數(shù)量,也能達(dá)到頂尖表現(xiàn);
- 更輕量的架構(gòu),讓開源社區(qū)和中小企業(yè)也有機(jī)會(huì)跟上前沿;
- 強(qiáng)調(diào)效率 + 可用性,為行業(yè)大規(guī)模落地提供了范本。
未來,大模型競(jìng)爭(zhēng)可能不再是“誰更大”,而是“誰更聰明、更經(jīng)濟(jì)”。Qwen3-Next,顯然在這個(gè)轉(zhuǎn)向中率先走了一步。
七、結(jié)語
如果說 GPT-4 開啟了大模型時(shí)代,那么 Qwen3-Next 則在提醒我們:下一階段的競(jìng)爭(zhēng),不一定靠 brute force,而是靠智慧。
在企業(yè)私有化部署、開發(fā)者實(shí)驗(yàn)、甚至研究探索中,它都可能成為一張“性價(jià)比極高”的底牌。
那么問題來了:你更看好大參數(shù)密集模型,還是像 Qwen3-Next 這樣精打細(xì)算的稀疏模型?
?
?本文轉(zhuǎn)載自???Halo咯咯??? 作者:基咯咯

















