吳泳銘預(yù)告的旗艦推理模型更了!阿里重磅推出QwQ-Max預(yù)覽版,Agent或成正式版王炸! 原創(chuàng)
編輯 | 伊風(fēng)
出品 | 51CTO技術(shù)棧(微信號(hào):blog51cto)
吳泳銘親自預(yù)告過的,阿里旗艦推理模型,新消息來了。
剛剛,它的預(yù)覽版正式發(fā)布和上線體驗(yàn)——就是這個(gè)QwQ-Max-Preview!
一眼看去,我愿稱之為最萌的推理模型,看blog主頁的名稱,感覺思維鏈中的模型正在很努力的思考中……
圖片
Qwen Chat 中已經(jīng)可以體驗(yàn)預(yù)覽版模型:??https://chat.qwen.ai/??
點(diǎn)進(jìn)模型的blog,發(fā)現(xiàn)這里有一個(gè)隱藏彩蛋,內(nèi)容是由QwQ-Max-Preview自己寫的,我們可以看到AI做自我介紹時(shí)的思維鏈:
首先,該模型屬于 Qwen 系列,是基于 Qwen2.5-Max 構(gòu)建的。這是一個(gè) 預(yù)覽版,所以他們可能希望強(qiáng)調(diào)它是在正式發(fā)布前的 搶先體驗(yàn)。它的主要優(yōu)勢包括 深度推理、數(shù)學(xué)、編程、通用領(lǐng)域任務(wù),以及在 Agent 相關(guān)任務(wù) 中的出色表現(xiàn)。他們還提到了 未來的更新 以及 計(jì)劃以 Apache 2.0 許可證開源。
圖片
blog地址:??https://qwenlm.github.io/blog/qwq-max-preview/??
預(yù)覽版已經(jīng)來了,QwQ-Max正式版還會(huì)遠(yuǎn)嗎?我們先來看一波預(yù)覽版的搶先體驗(yàn)夠不夠精彩:
官方給的栗子1:編寫一個(gè)腳本,在一個(gè)球體內(nèi)模擬 100 個(gè)彈跳的黃色小球,確保正確處理碰撞檢測。讓球體緩慢旋轉(zhuǎn),并確保小球始終保持在球體內(nèi)部。
效果已經(jīng)很驚艷,如果要挑刺的話,那就是有幾個(gè)小球的運(yùn)動(dòng)速度略顯奇怪:

官方給的栗子2:做個(gè)俄羅斯方塊 和 2048 結(jié)合的游戲。(PS:Grok 3發(fā)布時(shí)也測了一個(gè)類似的例子,是把俄羅斯方塊和寶石迷陣相結(jié)合的。)
你別說,看上去還挺好玩,就是感覺難度有一點(diǎn)點(diǎn)大:

此外,QwQ-Max-Preview 將配備多種Agent,例如推理生圖、火車票查找、代碼解釋器等等。
看這幾個(gè)Agent的細(xì)分程度,盲猜QwQ-Max在Agent會(huì)有很大的動(dòng)作,而且下圖中的Tools工具似乎可以在一次詢問中多選,讓人對正式版的使用效果期待拉滿了。
圖片
官方也給了一個(gè)推理畫圖的例子,還順便畫了個(gè)淘寶二維碼。掃了一下果然就跳轉(zhuǎn)成功了:

1.一手實(shí)測:QwQ-Max-Preview回答R1熱門問題,是否各有千秋?
到實(shí)測這個(gè)Part,小編覺得如果還是測一把“草莓”和“9.9>9.11”,就有點(diǎn)太無聊了。
畢竟DeepSeek R1之所以如此出圈,不是因?yàn)槟艽饘@幾個(gè)案例,而是真的能幫助用戶解決生活中的問題,甚至解答人生中的困惑。
上圖:雖說如此,但還是測了這個(gè)案例,QwQ-Max-Preview輕松通關(guān)
然后在小紅書看看,用戶都在使用DeepSeek R1問些什么吧。
我們就以有1w+筆記的“如何當(dāng)父母才不累”,以及第二名“普通人如何利用信息差搞錢”這兩個(gè)問題來橫向比較下兩個(gè)推理模型吧。
圖片
使用如何“如何當(dāng)父母才不累”這個(gè)話題進(jìn)行實(shí)測,QwQ-Max-Preview能夠分析用戶的具體情況、深層需求,并提供實(shí)用建議,進(jìn)行了完整的思考。
圖片
兩個(gè)模型在輸出的內(nèi)容上大概方向一致,QwQ-Max-Preview更注重提供建議。此外,R1在思維鏈中特別指出要“保持口語化”,提供的答案更有“情緒”一些也相對詳細(xì)。
上圖:兩個(gè)模型都提到了“接受不完美”
而在第二個(gè)問題上,QwQ-Max-Preview同樣能完成接地氣、具有邏輯的思考。同時(shí)千問還不忘和自家的產(chǎn)品“夢幻聯(lián)動(dòng)”一把,提供了“拼多多進(jìn)貨,批量采購后在淘寶加價(jià)賣出”“閑魚搜索‘倒閉庫存’”等建議。
圖片
在這個(gè)回答上,R1做的稍微好的一點(diǎn)是區(qū)分了“低門檻起步方式”“進(jìn)階變現(xiàn)模式”等層次,看起來更有操作性。
當(dāng)然,QwQ-Max-Preview畢竟只是預(yù)覽版,從實(shí)測體驗(yàn)上,其回答問題更加流暢絲滑。不會(huì)像R1那樣需要等待才開始思考,也不會(huì)提心吊膽會(huì)彈出“服務(wù)器繁忙”。
對了,千問團(tuán)隊(duì)今天宣布,QwQ-Max也是要做APP的(推特消息是面向海外用戶的,不知道國內(nèi)是更新通義上,還是也單做APP ?)。期待正式版的QwQ-Max,能在輸出問題的格式和口語化方面繼續(xù)進(jìn)步,繼續(xù)締造AI應(yīng)用的傳奇!
圖片
2.旗艦推理模型的基座——Qwen2.5-Max
這里在幫朋友們回顧下QwQ-Max-Preview的基座,Qwen2.5-Max。
Qwen2.5-Max在除夕夜發(fā)布,是阿里家的超大規(guī)模MoE模型,采用超過20萬億tokens的預(yù)訓(xùn)練數(shù)據(jù)。
該模型在多個(gè)基準(zhǔn)測試中超越DeepSeek V3、GPT-4o等領(lǐng)先AI,支持指令模型和基座模型。
也就是說QwQ-Max的推理模型,其基座是強(qiáng)于DeepSeek R1的基座V3的。
另外,今天推出的預(yù)覽版并非阿里首個(gè)推理模型。
去年通義就有了QwQ系列,不過是一個(gè)32B小模型的預(yù)覽版。
??https://huggingface.co/Qwen/QwQ-32B-Preview??
圖片
3.寫在最后
這周的大模型更新已經(jīng)到了神仙打架的級(jí)別了。
從預(yù)覽版來看,QwQ-Max正式版絕對值得一看,尤其是正式版后開放的Agent功能,期待能給智能體的市場帶來一些顛覆性的創(chuàng)新。
本文轉(zhuǎn)載自??51CTO技術(shù)棧??,作者:伊風(fēng)

















