阿里剛剛開源Qwen3新思考模型:Agent能力超強,支持100萬上下文
今天凌晨,阿里巴巴開源了Qwen3家族最新模型Qwen3-30B-A3B-Thinking-2507。
2507與之前阿里開源的Qwen3-30B-A3B-Thinking和Qwen3-235B-A22B-Thinking相比,在Agent智能體、AIME25數學、LiveCodeBench編程、GPQA解決復雜能力等方面,性能全部實現大幅度提升。
同時,2507也超過了谷歌的最新小參數模型Gemini-2.5-Flash-Thinking。

開源地址:https://huggingface.co/Qwen/Qwen3-30B-A3B-Thinking-2507
https://modelscope.cn/models/Qwen/Qwen3-30B-A3B-Thinking-2507
對于阿里的新模型,網友表示,瘋狂優秀的本地模型,絕對是我能在 20GB 以內裝下的最佳選擇。思考模式真的帶來了天壤之別,恭喜你們,太給力了!

對于這么小的一個模型而言,它在各方面的性能提升都令人印象深刻。

不錯,性能很強。現在只需要融合多模態能力,并支持 8 小時的音頻和視頻轉錄等功能就更好了。

干得漂亮,各位。真難以想象完成這項工作付出了多少努力,那些不眠之夜和全神貫注的時刻。

Qwen 團隊的工作令人贊嘆!Qwen3-30B-A3B-Thinking-2507模型在推理能力上的提升以及超大的上下文窗口具有顛覆性意義,為復雜問題的解決開辟了令人期待的新可能。期待探索它的潛力!

干的非常好,Qwen做的很棒。

Qwen3-30B-A3B-Thinking-2507總參數量達到 305 億,其中激活的參數量為 33億,非嵌入參數量為 299 億。該模型包含 48層,采用 Grouped Query Attention機制,Q 的注意力頭數為 32,KV 的注意力頭數為 4。
此外,它還具備 128 個專家,其中激活的專家數量為8。原生支持256K上下文,但通過擴展可增加至100萬。
在性能方面,Qwen3-30B-A3B-Thinking-2507相比其他模型在多個任務上都有出色表現。例如,在知識類的 MMLU-Pro 任務中得分為 80.9、MMLU-Redux為91.4、GPQA為73.4、SuperGPQA為56.8;在推理類的AIME25任務中得分為85.0、HMMT25為71.4、LiveBench 20241125 為 76.8;

在編碼類的LiveCodeBench v6(25.02 - 25.05)任務中得分為66.0、CFEval 為 2044、OJBench 為 25.1;在對齊類的IFEval 任務中得分為88.9、Arena-Hard v2 為 56.0、Creative Writing v3為84.4、WritingBench為85.0;
在Agent智能體類的BFCL - v3 任務中得分為72.4、TAU1 - Retail 為67.8、TAU1 - Airline為48.0、TAU2 - Retail 為 58.8、TAU2 - Airline 為 58.0、TAU2 - Telecom 為 26.3;
在多語言類的 MultiIF 任務中得分為 76.4、MMLU-ProX 為 76.4、INCLUDE為 74.4、PolyMATH為52.6。
Qwen3-30B-A3B-Thinking-2507在工具調用能力方面表現出色,推薦使用 Qwen - Agent 來充分發揮其代理能力,Qwen - Agent 內部封裝了工具調用模板和工具調用解析器,大大降低了編碼復雜性。可以通過 MCP 配置文件、Qwen - Agent 的集成工具或自行集成其他工具來定義可用工具。
為了達到最佳性能,建議采用這些設置:在采樣參數方面,建議使用溫度為0.6、TopP 為 0.95、TopK為20、MinP為0,對于支持的框架,還可以在0到2之間調整 presence_penalty 參數以減少無休止的重復,但使用較高值可能會偶爾導致語言混合和模型性能略有下降;
在輸出長度方面,建議大多數查詢使用 32768個token的輸出長度,對于高度復雜問題如數學和編程競賽的基準測試,建議將最大輸出長度設置為 81920 個token,為模型提供足夠的空間來生成詳細全面的回答,從而提升整體性能。




































