AIME'25滿分炸場!Qwen一波七連發,全家桶大更新
它來了,它來了!
新一代旗艦模型Qwen3-Max帶著滿分成績,正式地來了——
國產大模型首次在AIME25和HMMT這兩個數學評測榜單拿下100分!

和前不久Qwen3-Max-Preview一致,參數量依舊是超萬億的規模。
但這次正式的發布在版本上有了一個劃分:
- 指令版(Instruct)
- 思考版(Thinking)
而且Qwen3-Max在性能上也有了一定的提升(情商智商,雙商增強)。
剛才我們提到的數學滿分,正是思考版所拿下的成績。
至于指令版,則是在SWE-Bench評測(大模型用coding解決真實世界問題)中斬獲69.6分,位列全球第一梯隊。
以及在Tau2 Bench測試(考察Agent工具調用能力)中,超過Claude Opus4和DeepSeek V3.1,拿下74.8分的成績。

強,確實是有點強。
但有一說一,如果說Qwen3-Max是一把“火”,那么在剛剛的云棲大會上,通義團隊還散出了很多的“星”。
視覺:Qwen3-VL重磅開源
從Qwen3-Max散出來的第一個“星”,就是視覺理解模型Qwen3-VL。
其實它在今天凌晨的時候已經開源,屬于“微鮮”出爐,但確實是大家比較期待的那一個。

具體而言,這次的型號叫做Qwen3-VL-235B-A22B,同樣分為指令版和推理版。
其中,指令版本在多項主流視覺感知評測中,性能達到甚至超過Gemini 2.5 Pro;而推理版本則是在眾多多模態推理的評測基準下取得了SOTA的表現。

除此之外,Qwen3-VL-235B-A22B指令版還支持在帶圖推理,并且在四項基準測試中的成績均有所提升。

網友在看到成績之后,甚至直呼:
Qwen3-VL真是個怪物(太強了)。

實際測試效果現在也已經放出來了。
例如把一張手繪的網頁“喂”給Qwen3-VL,它就能唰唰唰地給出HTML和CSS:

再如給它下面這張圖:

并讓Qwen3-VL完成如下任務:
找出屬于以下類別的所有實例:“頭部、手部、男性、女性、眼鏡”。請以JSON格式報告邊界框坐標。

更復雜的視頻理解,Qwen3-VL也是不在話下:

更多案例可以通過下面的視頻了解一下:

從技術層面來看,Qwen3-VL還是采用了原生動態分辨率設計,但在結構設計上進行了更新

一是采用MRoPE-Interleave。原始MRoPE按時間 (t)、高度 (h)、寬度 (w) 順序劃分,使時間信息集中在高頻維度。Qwen3-VL改為t、h、w交錯分布,實現全頻覆蓋,提升對長視頻的理解,同時保持圖像理解能力。
二是引入DeepStack,融合ViT多層特征,增強視覺細節捕捉和圖文對齊。
團隊將視覺tokens的單層注入擴展為LLM多層注入,并優化特征token化:對ViT不同層輸出分別token化并輸入模型,從而保留從低層到高層的多層次視覺信息。實驗表明,該設計顯著提升了多種視覺理解任務的表現。
三是將視頻時序建模由T-RoPE升級為 文本時間戳對齊機制。通過“時間戳-視頻幀”交錯輸入,實現幀級時間與視覺內容的精細對齊,并原生支持“秒數”和“HMS”兩種輸出。如此一來,便改進提升了模型在事件定位、動作邊界檢測、跨模態時間問答等復雜時序任務中的語義感知與時間精度。
全模態:Qwen3-Omni開源
Qwen3-Omni雖然是昨天凌晨已經開源,但在這次云棲大會中也是一同亮相,主打的就是一個全模態。
它是首個原生端到端全模態人工智能模型,在一個模型中統一了文本、圖像、音頻和視頻,并且在22個音視頻基準測試中達到了SOTA的水平。
目前已經開源的版本包括:
- Qwen3-Omni-30B-A3B-Instruct
- Qwen3-Omni-30B-A3B-Thinking
- Qwen3-Omni-30B-A3B-Captioner
不過基于Qwen3-Omni還衍生出了更多好玩且強悍的細分大模型。
例如今天發布的Qwen3-LiveTranslate就是其中一個——視、聽、說全模態同傳大模型!
目前,它已經實現了覆蓋18種語言的離線和實時兩種音視頻翻譯能力。
從公開測試的成績來看,Qwen3-LiveTranslate-Flash的準確率已經超過了Gemini-2.5-Flash、GPT-4o-Audio-Preview等:

即便是在環境嘈雜的地方,Qwen3-LiveTranslate-Flash依舊是能hold得?。?/span>

至于具體效果,來感受一下具體實操的效果:

英文原文:What is mask? This is mask. This is mask. This is mask. This is Musk.
視覺增強前:什么是口罩?這是口罩,這是口罩,這是口罩,這是口罩。
視覺增強后:什么是口罩?這是面膜,這是口罩,這是面具,這是馬斯克。
網友看罷,也是有億點點震驚在身上的:
我都覺得有點恐怖了。

除了翻譯之外,Qwen版Banana——Qwen3-Image-Edit的新版本,也是非常有趣的一個模型。
不僅支持多圖融合,提供“人物+人物”,“人物+商品”,“人物+場景” 等多種玩法,還增強了人物、商品、文字等單圖一致性。
而且它還原生支持ControlNet,可通過關鍵點圖改變人物姿勢,還可輕松實現換裝需求。

編程:Qwen3-Coder升級
新升級的Qwen3-Coder-Plus玩了一套“組合拳”:Qwen Code、Claude Code系統聯合訓練。
如此打法之下,它的性能效果得到了顯著的提升;可以看到相較于之前的版本,在各項基準測試中的分數都有所增長:

與此同時,與之相關的編程產品Qwen Code也有了升級動作,增加了對多模態模型和sub-agent的支持。
換言之,你現在用Qwen Code的時候,可以輸入圖像了:

然后已經有網友開始在實測了,Qwen3-Coder-Plus打造的一座3D寶塔效果是這樣的:

Qwen的終點,不只是開源
最后,總結一下這次云棲大會中的亮點。
首先就是從前天至今,阿里通義千問已經陸陸續續發布、開源大大小小近十款模型,已經是讓國內外業界人士對阿里云的開源速度嘆為觀止。

但有一說一,在聽完阿里云智能集團董事長兼CEO吳泳銘的演講之后,我們發現,通義千問要做的事情,遠不止于此。
因為吳泳銘表示,實現AGI已然是確定性事件,但這還僅是起點,終極目標是發展出能自我迭代、全面超越人類的超級人工智能(ASI)。
而要實現ASI,則需要以互聯網為起點,經歷四個階段:
第一階段是智能涌現(學習人)、其次是自主行動(輔助人)、接下來是自我迭代(超越人),最后就是超級人工智能(ASI)。

除此之外,吳泳銘還非常有遠見地認為:
大模型將是下一代操作系統,自然語言是以后的源代碼,AI Cloud是下一代計算機。
未來全世界或只會有5-6個超級云計算平臺。

但需要明確的一點是,AI越強,人類越強。
One More Thing
哦對了,通義千問那個新一代基礎模型架構——Qwen3-Next,今天也正式發布了!
它的模型總參數量大約是80B,但實際上,僅僅在激活3B的情況下,它的性能就可以跟Qwen3-235B媲美。
計算效率,可以說是直接Pro Max了~
而且與密集模型Qwen3-32B相比,它的訓練成本降低了超90%,長文本推理吞吐量提升超過10倍。
不得不說,未來大模型的訓練和推理效率,要變得更加有意思了。




























