Qwen拿半成品刷下AIME'25滿分,給別人留點面子吧……
半成品模型,已經刷下高難度數學推理測試AIME 25滿分戰績。
開源之王Qwen又在深夜放大招了。

Qwen3“超大杯”推理版露出廬山真面目,雖然還是“早期預覽版”,仍在訓練中,但在當前的Checkpoint,已經能在AIME 25和HMMT25(哈佛-MIT數學競賽)中達到100%的準確率。
什么概念?就是一整個全場看呆的節奏:

此前,AIME 25的最好成績由GPT-5系列把持,GPT-5 Codex(high)的準確率是98.7%,GPT-5(high)是94.3%。而Qwen3 235B的成績是91%。

△圖源:Artificial Analysis
這不Ilya和奧特曼還在為當年的“真還傳”扯頭花嘛,有網友感嘆:
這個完成度令人難以置信。OpenAI還在搞抓馬,而Qwen已經默默耕耘驚艷眾人。

目前,這個Qwen3-Max-Thinking的早期預覽版已經可以在Qwen Chat中免費試用,API也已上線阿里云。官方承諾,訓練還在繼續,后續會持續更新版本。

實測Qwen3-Max-Thinking
技術細節方面,Qwen官方尚未透露更多信息,但如果你感興趣,現在就可以實測見真章。
我們已經測試了一波,以供參考。
先上經典題:小球碰撞測試。
編寫一個Python程序,讓一個小球在旋轉的六邊形內彈跳,小球運動遵循物理規律

Qwen3-Max-Thinking一次成功,效果很不錯。
既然是AIME 25滿分選手,那么接下來,我們直接上IMO競賽題。
求所有實數α,對于任一正整數n,整數 ?α? + ?2α? + … + ?nα? 一定是n的倍數。(注:?z?表示小于或等于z的最大整數。例如:?-π? = -4,?2? = ?2.9? = 2。)
面對這道有數論意味的代數題,模型思考了5分鐘左右,給出答案:

回答正確。
完整答案如下:

前端方面,我們用簡單的提示詞,要求Qwen3-Max-Thinking用Three.js構建3D太陽系。

一開始,模型偷了個懶,只繪制了4顆行星,并且雖然設置了控制行星運動速度的按鍵,但實際并沒有自轉和公轉的效果。

經過人工提醒之后,Qwen3-Max-Thinking補全了八大行星,優化了前端效果,不過公轉的問題還是沒有解決。

需要說明的是,Thinking模式下,Qwen3-Max的思考時間還挺久的……如果一時間想不明白,還會出現中英文各想一遍的情況(doge)。

初步體驗下來,Qwen3-Max-Thinking有很多值得深挖的地方,不過也正如Qwen技術負責人林俊旸所說,“要做到面面俱到確實有點難”。
我們還需要更多時間。工作尚未完成。

而對于網友們來說,更重要的是——
“啥時候開源?”

體驗地址:
https://chat.qwen.ai/
API地址:
https://modelstudio.console.alibabacloud.com/?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3-max-preview



























