太卷了!專屬 Coding 的新一代 Arena 榜單來了,有國產模型登上榜首
大模型編程最近太猛了。
自從編碼成了大模型的核心能力后,各大模型廠商都卷得要命,從卷模型參數和性能,到卷開發工具鏈,編碼能力的提升,簡直是一場軍備競賽。
近幾個月以來,以 Claude 4.5、GLM-4.6、kimi-k2 等為代表的編碼模型,都具備了執行復雜項目開發,構建真實應用程序的能力。
卷模型能力只是個開始,各大廠商也已全面進軍智能編碼產品,各類 IDE 產品層出不窮。就連服務套餐也開始卷出「和 AI 砍價」的新花樣,智能編程領域逐漸成為了新的紅海。
在模型能力飛漲的情況下,業界知名的大模型公共基準測試平臺 LMArena 也敏銳地意識到,「問題已經不再是模型能否編寫代碼,而是它如何端到端構建真實應用程序。」
這個匯集了全球數百萬用戶真實反饋的「盲測」競技場,其榜單排名已成為各大 AI 公司新模型宣發時彰顯實力的「標配」。
就在昨天,LMArena 做出了今年最大的更新,發布了新世代大模型編碼評估系統:Code Arena,這可以說是編程大模型能力評估領域的重大事件。

曾經大模型編碼的「黃金標準」 WebDev Arena 是首個引入大規模、人機協同的 AI 編碼基準測試的榜單。開發者可以觀察模型構建真實應用程序、與輸出交互并對性能進行投票,使評估過程更具參與性和透明度。
相比于舊時代的 WebDev Arena 編碼榜單,Code Arena 從底層重構而成,它不僅評估代碼是否能運行,更評估其性能表現、交互自然度,以及對設計意圖的忠實程度。
最重要的是,這個新系統測量的是「代碼的動態過程」—— 捕捉模型在真實開發條件下如何思考、規劃與構建的全過程。這不是靜態基準測試。這是在真實世界中由真實 Arena 用戶進行的實際評估。
Code Arena 的發布,標志著大模型編碼評估標準的又一次進化,重塑了大模型評估的標桿。
在這個全新的榜單里,我們驚喜地發現,國產大模型智譜 GLM-4.6 赫然列于榜首,超越了 Gemini 和 Grok,與 Claude、GPT-5 并列排名第一。

智譜 GLM-4.6 于 9 月 30 日發布,一登場便以媲美 Claude Sonnet 4 的卓越編碼能力,成為彼時的「國內最強 Coding 模型」。

時隔一個半月,GLM-4.6 的 Coding 能力仍能在最新發布的編程評估榜單中,與 Claude、GPT-5 并列第一,持續領跑全球第一梯隊,足見其穩定,超前的編碼能力。
事實上,其實力早已得到驗證。
10 月初,就在 GLM 4.6 發布幾天后,編程智能體 Cline 的產品經理 Nick Baumann 發帖表示,根據 Cline 遙測數據對數百萬次「diff edits」(代碼修改)操作的分析,zAI 的 GLM-4.6 模型達到了 94.9% 的成功率,而 Anthropic 的 Claude Sonnet 4.5 成功率為 96.2%。

他認為,這一數據意義重大,因為就在三個月前,(開放)開源模型與頂尖閉源模型在同類任務上的性能差距還高達 5 到 10 個百分點。而現在,這個差距已經縮小到了「基點」(basis points),表明兩者在最困難的編碼任務之一上的能力正在迅速趨同。
此外,Baumann 提到 Cline 的社區用戶中已經出現了轉向使用 GLM-4.6 完成日常工作的熱潮。
有趣的是,AI 編程獨角獸 Cognition 近期推出的最新 AI 模型 SWE-1.5,被質疑是基于 GLM 4.6 模型進行定制(精調 / 強化學習),并運行在全球最大的 AI 推理芯片公司 Cerebras 的硬件上。

有人對 SWE 1.5 進行了大模型「越獄」,結果模型直接回答自己是智譜 AI 開發的 GLM 大模型。
而值得一提的是,Cerebras 決定將 GLM-4.6 作為默認推薦模型,其在給所有用戶的郵件中表示:qwen-3-coder-480b 將于 2025 年 11 月 5 日被停止使用,同時推出 GLM-4.6 作為新的基座模型。

以上 GLM-4.6 的光輝戰績,不僅證明了其作為開源世界「最強 Coding 模型」受到廣泛認可,更讓業界再次見證了國產大模型的硬核實力。
正如 Cline 產品經理所觀察到的,從幾個月前的「5 到 10 個百分點」差距,到如今的「基點」之差,這背后是國產力量從「追趕」到「并跑」乃至「領跑」的驚人加速度。
在過去由 Llama 系列主導的開源開放生態中,以 DeepSeek、Qwen、GLM、Kimi 等為代表的中國開源模型,正憑借其卓越的性能和極高的成本效益,成為全球 AI 開發者的新選擇。
這,正是國產大模型力量崛起的最佳注腳。


























