阿里一口氣發(fā)了N款新模型,讓我們向源神致敬
阿里的早上這個發(fā)布會,給我看麻了。
一場阿里的云棲大會,我真的感覺,他們把家底全都掏出來了。。。
發(fā)了不知道多少個模型。
我雖然這次有事很可惜沒去成現(xiàn)場,但是還是破天荒的8點(diǎn)多起床一下蹲了直播。
結(jié)果一直等到快10點(diǎn)才開始= =
過程中,我都看懵了,就一股腦子發(fā)啊,各種各樣的模型,挨個掏。
我大概數(shù)了下, 純今天新發(fā)布的新模型有兩個,一個是整個Qwen系列最強(qiáng)的Qwen3-Max,另一個是爆火的Wan2.2的后續(xù)模型Wan2.5,這玩意支持跟Veo3一樣的音畫同出的特性,是有點(diǎn)東西的。
然后也正式發(fā)布了前幾天為了預(yù)熱提前發(fā)布的模型,比如目前Qwen里面最強(qiáng)的Qwen3-VL模型,還有一個全模態(tài)模型Qwen3-Omni,還有全新的模型架構(gòu)帶來的Qwen3-Next等等。
不知道為什么,總讓我有一種Google的既視感。
一邊開發(fā)布會,另一邊,阿里的股票直接漲飛了。

我最快速度整理+體驗(yàn)了一波,給大家直接一文總結(jié)一下,來自阿里的全發(fā)布。
話不多說,我們,開始。
一. Qwen3-Max
最牛逼最新的,肯定就當(dāng)屬Q(mào)wen3-Max正式版了,直接對標(biāo)GPT-5、Claude Opus 4這些世界頂尖模型。

上一次發(fā)Max還是今年1月29日除夕發(fā)布的,半年后,他們終于把Qwen3-Max掏出來了。
在LMArena上,之前的Qwen3-Max-Instruct的預(yù)覽版,在這個全球最權(quán)威的匿名模型對戰(zhàn)平臺上,并列前三,直接把GPT-5-Chat都甩在了身后。

這次的Max,是真的把參數(shù)堆滿了。
模型總參數(shù)超過了1萬億,用了36萬億的tokens進(jìn)行預(yù)訓(xùn)練,突出一個量大管飽。
他們自己的Blog的標(biāo)題也非常的蘋果味。
大就是好。

MoE模型,1萬億的大小,支持100萬Token的上下文。
這次發(fā)布的Qwen3-Max,也跟別家一樣,分了兩個版本,一個Instruct版,一個更猛的Thinking版。
Qwen3-Max-Instruct這個版本,就是我們現(xiàn)在能直接用到的,不帶深度思考的。
主要是在代碼和Agent能力上,還是非常強(qiáng)的。

AIME2025基本一騎絕塵,在LiveCodeBench v6這個強(qiáng)調(diào)復(fù)雜工程題、未公開題上的泛化能力的測試集上,也得到了不錯的效果。
τ2-Bench這個新的強(qiáng)調(diào)AI在動態(tài)環(huán)境中的推理、工具使用、用戶引導(dǎo)與協(xié)調(diào)能力的Agent評測集,Qwen3-Max也是最強(qiáng)的,74.8分,直接干翻了Claude Opus 4和DeepSeek-V3.1。
SWE-Bench這個專門解決真實(shí)世界編程難題的測試集上,它拿了69.6分,也是穩(wěn)穩(wěn)的世界第一梯隊(duì)。
不過感覺后面可以更多的看看 SWE-Bench Pro了。
Thinking版目前發(fā)了能力圖,但是還沒放出來。

在AIME 25和HMMT這兩個地獄難度的數(shù)學(xué)推理競賽題集上,Qwen3-Max-Thinking,拿了100分。
滿分。
直接跟GPT-5 Pro打平了。
這玩意還是有點(diǎn)酷的,可惜,現(xiàn)在還體驗(yàn)不到。
目前Qwen3-Max-Instruct已經(jīng)在官網(wǎng)上線了:

可以看到深度推理那塊是灰的,不過據(jù)說也快上線了。
大家可以去體驗(yàn)一下。
哦對了,Qwen3-Max目前不開源。
二. Wan-2.5
這段時間,開源的Wan2.2已經(jīng)爆了。
你在X上,隨處可以那種做人物動畫遷移拿到百萬觀看的帖子。

阿里直接趁熱打鐵,把Wan2.5掏了出來。

一些升級到1080P、能跑10s時長這種基礎(chǔ)參數(shù)啥的我就不說了。
有一個很好玩的東西,是我覺得可以一提的,就是他們的新能力。
音畫同出。
聽到這個詞是不是很陌生?但是如果我說是是Veo3的那個原生的輸出帶角色音頻的視頻,你們應(yīng)該就會有印象了。
而這次,Wan2.5,也是第一次支持這個能力,不僅可以跟Veo3一樣,用Prompt控制,而且,還可以上傳圖片+音頻直出。
你可以在通義萬相上玩:???https://tongyi.aliyun.com/??

我直接給大家放一個例子。

直接一張圖+1段音頻,就可以跑出表演還不錯的視頻。
很酷。
還有更好玩的。


真的,能玩起來的花活實(shí)在太多了。
得益于音畫同步直出的能力,在數(shù)字人和人物表演上,能力大幅加強(qiáng)。
而且解決了Veo3一直以來一個很尷尬的問題,就是沒法保持音色一致性。
但是現(xiàn)在,Wan2.5可以支持上傳音頻驅(qū)動了。
那保持一致性,就太簡單了。
這可能給AI短劇,又帶來一波很酷的飛躍。
三. Qwen3-VL
Qwen3-VL今天凌晨提前開源了。
目前是Qwen 系列中最強(qiáng)大的視覺語言模型,原生支持256K token上下文,還能擴(kuò)展到100萬上下文,大概支持長達(dá)2小時的視頻。

這次開源的是VL系列的旗艦?zāi)P蚎wen3-VL-235B-A22B,有Instruct與Thinking兩個版本,帶推理和不帶推理的。
在跑分上是有點(diǎn)東西的,在一些能力上,甚至優(yōu)于Gemini2.5 Pro了。

這里也放一下他們的片子,我覺得這種視覺模型,一定得配視覺化的看起來才爽。

而且有幾個特點(diǎn)我覺得是有點(diǎn)牛逼的。
一個是有視覺Agent能力,能理解按鈕、調(diào)用工具等等,在PC或者手機(jī)上完成一些Agent任務(wù)。

這個還是挺強(qiáng)的。
各種識別+推理能力也是非常的牛逼,我的好基友@劉聰NLP測了不少這塊的Case。
比如有一個很坑的題:
找到2024年GDP值最大的省份,并且計(jì)算占全國GDP的百分之多少?
圖片
而Qwen3-VL-235B-A22B,都沒開推理,也是一次就對了。

四. Qwen3-Omni
Qwen3-Omni是一個開源的全模態(tài)模型,阿里的盤子真的鋪的太大了,模型也真的太全了。
這個是昨天凌晨提前發(fā)了,但是在今天的云棲大會上,正式發(fā)布了。

這是一個純粹的端到端模型,Qwen3-Omni在訓(xùn)練的時候?qū)W習(xí)了很多跨模態(tài)的數(shù)據(jù),原生支持文本、圖像、音頻和視頻的輸入,支持119種文本語言交互、19種語音理解語言與10種語音生成語言。
對,你可以直接進(jìn)行端到端語音對話,延遲只有211毫秒。
還支持function call和MCP,能非常方便的和現(xiàn)有工具結(jié)合。
我直接用它,來識別歌曲。
還是挺好玩的。

五. 其他
還沒完,嗯。。。
還有Qwen3-Coder-Plus,推理速度更快,使用更少的 token 可達(dá)到更優(yōu)的效果,代碼安全性增強(qiáng)。
還有Qwen3-Next,總參數(shù)80B僅激活 3B,性能就可媲美千問3旗艦版235B模型,訓(xùn)練成本較密集模型Qwen3-32B大降超90%,長文本推理吞吐量提升10倍以上,就離譜。
還有全新的語音模型家族通義百聆,涵蓋語音識別大模型Fun-ASR、語音合成大模型Fun-CosyVoice。

Fun-ASR基于數(shù)千萬小時真實(shí)語音數(shù)據(jù)訓(xùn)練而成,具備強(qiáng)大的上下文理解能力與行業(yè)適應(yīng)性,能實(shí)時處理10多種語言。
Fun-CosyVoice可提供上百種預(yù)制音色,完全可以拿去做各種客服、有聲書、AI玩具啥的。
還有Qwen3-LiveTranslate-Flas,實(shí)時多模態(tài)翻譯,只有3秒多的延遲。。
還有Qwen3Guard,專為全球?qū)崟rAI安全構(gòu)建的Qwen3基礎(chǔ)安全審核模型,非常適合做RL獎勵建模。
還有圖片編輯模型Qwen-Image-Edit-2509。。。
阿里,真的,就離譜。。。
開源給我人開傻了。
寫在最后
總而言之,阿里這次發(fā)布會給我的感覺就是四個字。
傾其所有。

為了這個繁榮昌盛的AI生態(tài)。
幾乎是構(gòu)建了一個從底層模型到上層應(yīng)用,覆蓋文本、視覺、音頻、視頻的全模態(tài)、全場景的超級生態(tài)。
而且我看了下數(shù)據(jù),現(xiàn)在,開源屆,現(xiàn)在真的就是Qwen一統(tǒng)江湖了。

這個肌肉,秀的是真的6。
不得不夸一句。
今天的光,屬于阿里。
本文轉(zhuǎn)載自??數(shù)字生命卡茲克??,作者:數(shù)字生命卡茲克


















