Qwen拿半成品刷下AIME'25滿分，給別人留點面子吧……

2025-11-04 15:59:15

Qwen3“超大杯”推理版露出廬山真面目，雖然還是“早期預覽版”，仍在訓練中，但在當前的Checkpoint，已經能在AIME 25和HMMT25（哈佛-MIT數學競賽）中達到100%的準確率。

半成品模型，已經刷下高難度數學推理測試AIME 25滿分戰績。

開源之王Qwen又在深夜放大招了。

Qwen3“超大杯”推理版露出廬山真面目，雖然還是“早期預覽版”，仍在訓練中，但在當前的Checkpoint，已經能在AIME 25和HMMT25（哈佛-MIT數學競賽）中達到100%的準確率。

什么概念？就是一整個全場看呆的節奏：

此前，AIME 25的最好成績由GPT-5系列把持，GPT-5 Codex（high）的準確率是98.7%，GPT-5（high）是94.3%。而Qwen3 235B的成績是91%。

這不Ilya和奧特曼還在為當年的“真還傳”扯頭花嘛，有網友感嘆：

這個完成度令人難以置信。OpenAI還在搞抓馬，而Qwen已經默默耕耘驚艷眾人。

目前，這個Qwen3-Max-Thinking的早期預覽版已經可以在Qwen Chat中免費試用，API也已上線阿里云。官方承諾，訓練還在繼續，后續會持續更新版本。

實測Qwen3-Max-Thinking

技術細節方面，Qwen官方尚未透露更多信息，但如果你感興趣，現在就可以實測見真章。

我們已經測試了一波，以供參考。

先上經典題：小球碰撞測試。

編寫一個Python程序，讓一個小球在旋轉的六邊形內彈跳，小球運動遵循物理規律

Qwen3-Max-Thinking一次成功，效果很不錯。

既然是AIME 25滿分選手，那么接下來，我們直接上IMO競賽題。

求所有實數α，對于任一正整數n，整數 ?α? + ?2α? + … + ?nα? 一定是n的倍數。（注：?z?表示小于或等于z的最大整數。例如：?-π? = -4，?2? = ?2.9? = 2。）

面對這道有數論意味的代數題，模型思考了5分鐘左右，給出答案：

回答正確。

完整答案如下：

前端方面，我們用簡單的提示詞，要求Qwen3-Max-Thinking用Three.js構建3D太陽系。

一開始，模型偷了個懶，只繪制了4顆行星，并且雖然設置了控制行星運動速度的按鍵，但實際并沒有自轉和公轉的效果。

經過人工提醒之后，Qwen3-Max-Thinking補全了八大行星，優化了前端效果，不過公轉的問題還是沒有解決。

需要說明的是，Thinking模式下，Qwen3-Max的思考時間還挺久的……如果一時間想不明白，還會出現中英文各想一遍的情況（doge）。

初步體驗下來，Qwen3-Max-Thinking有很多值得深挖的地方，不過也正如Qwen技術負責人林俊旸所說，“要做到面面俱到確實有點難”。

我們還需要更多時間。工作尚未完成。

而對于網友們來說，更重要的是——

“啥時候開源？”

責任編輯：武曉燕來源：量子位