Qwen3-Max:阿里巴巴的萬億參數(shù)模型,真正意義上的“思考模式”來了 原創(chuàng)
在過去兩年,大模型的迭代節(jié)奏越來越快,從 GPT-4 到 Claude、Gemini,再到國內(nèi)的百花齊放,大家早已見怪不怪。但就在 2025 年 9 月,阿里巴巴正式發(fā)布了 Qwen3-Max ——一個超過 萬億參數(shù)(1T+) 的 Mixture-of-Experts(MoE)大模型。
與以往的“預(yù)覽版”不同,這一次,阿里直接把它推向了生產(chǎn)級落地。不僅在 Qwen Chat 面向普通用戶開放,還通過 阿里云 Model Studio API 提供開發(fā)者調(diào)用。這意味著,它已經(jīng)不只是實(shí)驗(yàn)室里的新鮮玩具,而是真正能跑在業(yè)務(wù)里的“大模型引擎”。
今天,我們就來拆解一下:Qwen3-Max 到底帶來了哪些突破?它和前一代相比,有什么質(zhì)的變化?又為什么特別強(qiáng)調(diào)“思考模式(Thinking Mode)”?
一、規(guī)模與架構(gòu):從 360 億 Token 到萬億參數(shù)的跨越
阿里官方明確表示,Qwen3-Max 是迄今為止最強(qiáng)大的 Qwen 模型,不僅在規(guī)模上跨過了 1T 參數(shù)大關(guān),還采用了 稀疏激活的 MoE 架構(gòu)。
這里我們簡單解釋一下:
- MoE(Mixture-of-Experts)就像一個大型團(tuán)隊,每個專家只在需要時被調(diào)用,避免所有人都同時上場,從而既保證模型容量,又控制計算成本。
- Qwen3-Max 在訓(xùn)練時使用了36 萬億(36T)Token,大約是 Qwen2.5 的兩倍。數(shù)據(jù)分布覆蓋多語言、代碼、STEM 學(xué)科與推理任務(wù),明顯針對企業(yè)級場景做了優(yōu)化。
訓(xùn)練后,它還遵循了 四階段配方:
- 長鏈路推理冷啟動(CoT cold-start);
- 以推理為核心的強(qiáng)化學(xué)習(xí)(Reasoning RL);
- “思考模式”與“非思考模式”的融合訓(xùn)練;
- 通用領(lǐng)域的再強(qiáng)化(General RL)。
這套流程不僅是規(guī)模的堆砌,更是針對推理、編程和復(fù)雜任務(wù)定制的優(yōu)化方案。
二、兩種模式:Instruct 與 Thinking 的分工
Qwen3-Max 最大的亮點(diǎn)之一,就是明確區(qū)分了 兩條產(chǎn)品線:
- Qwen3-Max-Instruct
- 對標(biāo)傳統(tǒng) ChatGPT 類體驗(yàn)
- 主打聊天、代碼生成、常規(guī)推理
- 追求低延遲、快速響應(yīng)
- Qwen3-Max-Thinking
- 面向復(fù)雜的“Agent” 類場景
- 支持多步推理、工具調(diào)用、長鏈路思考
- 適用于代碼執(zhí)行、搜索檢索、任務(wù)規(guī)劃
一個關(guān)鍵細(xì)節(jié)是:思考模式必須啟用 ??incremental_output=true?? 的流式輸出。如果開發(fā)者忘記設(shè)置這個參數(shù),模型就不會進(jìn)入真正的“深度思考”狀態(tài)。這是阿里在 API 層面給出的明確契約,也避免了調(diào)用時的混亂。
換句話說:
- Instruct模式像一個聰明的助手,反應(yīng)快但不“深度糾結(jié)”;
- Thinking模式則像一個團(tuán)隊智囊,需要多花點(diǎn)時間思考,但能把問題考慮得更透徹,甚至?xí)鲃诱{(diào)用工具解決難題。
三、性能實(shí)測:代碼、Agent、數(shù)學(xué)全面升級
那么,這個“萬億參數(shù) + 思考模式”的組合,實(shí)際表現(xiàn)如何?
1. 編程(SWE-Bench Verified)
Qwen3-Max-Instruct 在 SWE-Bench Verified 上拿到了 69.6 分。
- 這一成績超過了 DeepSeek V3.1(非思考模式)的基線;
- 略低于 Claude Opus 4(非思考模式)。

要知道,SWE-Bench 不只是寫幾行代碼,而是要在真實(shí)的代碼庫環(huán)境里完成修復(fù)和提交。能在這里站穩(wěn)腳跟,說明 Qwen3-Max 的代碼推理和上下文理解能力,已經(jīng)不輸國際一線大模型。
2. 智能 Agent(Tau2-Bench)
在 Tau2-Bench ——一個專門評測 工具調(diào)用與任務(wù)規(guī)劃 的基準(zhǔn)上,Qwen3-Max 取得了 74.8 分,領(lǐng)先于同類對手。
這背后的意義在于:
- 企業(yè)在搭建 AI Agent 時,不再需要寫一堆“手工策略”;
- 模型本身已經(jīng)學(xué)會了“什么時候該調(diào)用工具、調(diào)用哪個工具”。

對于想要部署 AI 客服、自動化運(yùn)維、企業(yè)知識庫的團(tuán)隊來說,這是一大好消息。
3. 數(shù)學(xué)與推理(AIME25 等)
Qwen3-Max-Thinking 模式在 AIME25 等數(shù)學(xué)基準(zhǔn)上,幾乎達(dá)到了“接近滿分”的表現(xiàn)。

雖然這些結(jié)果目前大多是廠商披露或社區(qū)復(fù)現(xiàn),還沒有完整的技術(shù)報告支撐,但至少表明:通過延長推理鏈路 + 工具輔助,復(fù)雜任務(wù)的可解性顯著提升。
四、如何看待這些提升?
從企業(yè)應(yīng)用的角度,我們可以把 Qwen3-Max 的進(jìn)步總結(jié)為三點(diǎn):
- 代碼層面: SWE-Bench 的提升,意味著它不僅能寫“Demo 代碼”,還能真正改動大型倉庫,支持生產(chǎn)級代碼輔助。
- Agent 層面: Tau2-Bench 的成績,意味著它能更好地替代“人工腳本”,讓 AI 自己學(xué)會判斷和選擇。
- 推理層面: 數(shù)學(xué)任務(wù)的突破說明,長鏈路推理 + 工具調(diào)用的結(jié)合,是未來大模型的必經(jīng)之路。
換句話說,Qwen3-Max 的價值不在于簡單對話,而在于它能直接作為“企業(yè) AI 中臺”的核心引擎。
五、實(shí)用示例:如何調(diào)用 Qwen3-Max?
阿里云開放的 API 已經(jīng)支持開發(fā)者調(diào)用,我們來看一個 Python 示例:
from openai import OpenAI
import os
client = OpenAI(
api_key=os.getenv("API_KEY"),
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
completion = client.chat.completions.create(
model="qwen3-max",
messages=[
{'role': 'user', 'content': 'Give me a short introduction to large language model.'}
]
)
print(completion.choices[0].message)如果你要開啟“思考模式”,只需要在調(diào)用時添加:
completion = client.chat.completions.create(
model="qwen3-max-thinking",
messages=[ ... ],
incremental_output=True
)注意:
- ?
?qwen3-max-instruct??? 與??qwen3-max-thinking?? 是不同的模型名; - 思考模式必須啟用流式輸出,否則無法進(jìn)入長鏈路推理。
六、未來展望:阿里的大模型戰(zhàn)役
Qwen3-Max 的發(fā)布,至少釋放了三個信號:
- 國內(nèi)廠商已經(jīng)能量產(chǎn)萬億參數(shù)模型,并不再停留在“實(shí)驗(yàn)室階段”;
- 思考模式將成為大模型的必備特性,未來更多 Agent 應(yīng)用都會依賴這種長鏈路推理;
- 開放生態(tài)正在形成:從 Qwen Chat 到 Model Studio API,阿里在積極吸引開發(fā)者加入。
對于企業(yè)來說,現(xiàn)在正是嘗試的最佳時機(jī)。無論是代碼自動化、Agent 智能體,還是數(shù)學(xué)推理、知識庫問答,Qwen3-Max 都提供了一個高性能的起點(diǎn)。
結(jié)語
過去我們說大模型像“萬能的聰明助手”,而 Qwen3-Max 的思考模式,更像是一個會反復(fù)推敲、會自己動手找工具的“超級智囊”。
它的價值,不僅僅在于分?jǐn)?shù)和參數(shù),而在于能否成為企業(yè)真實(shí)場景中的可靠底座。
阿里已經(jīng)邁出了第一步,接下來,就看開發(fā)者和企業(yè)如何把這臺“萬億級引擎”跑起來。
你怎么看?如果給你一個能真正“思考”的大模型,你會用它來解決什么問題?
本文轉(zhuǎn)載自??Halo咯咯?? 作者:基咯咯

















