太卷了！專屬 Coding 的新一代 Arena 榜單來了，有國產模型登上榜首

作者：機器之心 2025-11-14 09:19:49

人工智能

就在昨天，LMArena 做出了今年最大的更新，發布了新世代大模型編碼評估系統：Code Arena，這可以說是編程大模型能力評估領域的重大事件。

大模型編程最近太猛了。

自從編碼成了大模型的核心能力后，各大模型廠商都卷得要命，從卷模型參數和性能，到卷開發工具鏈，編碼能力的提升，簡直是一場軍備競賽。

近幾個月以來，以 Claude 4.5、GLM-4.6、kimi-k2 等為代表的編碼模型，都具備了執行復雜項目開發，構建真實應用程序的能力。

卷模型能力只是個開始，各大廠商也已全面進軍智能編碼產品，各類 IDE 產品層出不窮。就連服務套餐也開始卷出「和 AI 砍價」的新花樣，智能編程領域逐漸成為了新的紅海。

在模型能力飛漲的情況下，業界知名的大模型公共基準測試平臺 LMArena 也敏銳地意識到，「問題已經不再是模型能否編寫代碼，而是它如何端到端構建真實應用程序。」

這個匯集了全球數百萬用戶真實反饋的「盲測」競技場，其榜單排名已成為各大 AI 公司新模型宣發時彰顯實力的「標配」。

就在昨天，LMArena 做出了今年最大的更新，發布了新世代大模型編碼評估系統：Code Arena，這可以說是編程大模型能力評估領域的重大事件。

曾經大模型編碼的「黃金標準」 WebDev Arena 是首個引入大規模、人機協同的 AI 編碼基準測試的榜單。開發者可以觀察模型構建真實應用程序、與輸出交互并對性能進行投票，使評估過程更具參與性和透明度。

相比于舊時代的 WebDev Arena 編碼榜單，Code Arena 從底層重構而成，它不僅評估代碼是否能運行，更評估其性能表現、交互自然度，以及對設計意圖的忠實程度。

最重要的是，這個新系統測量的是「代碼的動態過程」—— 捕捉模型在真實開發條件下如何思考、規劃與構建的全過程。這不是靜態基準測試。這是在真實世界中由真實 Arena 用戶進行的實際評估。

Code Arena 的發布，標志著大模型編碼評估標準的又一次進化，重塑了大模型評估的標桿。

在這個全新的榜單里，我們驚喜地發現，國產大模型智譜 GLM-4.6 赫然列于榜首，超越了 Gemini 和 Grok，與 Claude、GPT-5 并列排名第一。

智譜 GLM-4.6 于 9 月 30 日發布，一登場便以媲美 Claude Sonnet 4 的卓越編碼能力，成為彼時的「國內最強 Coding 模型」。

時隔一個半月，GLM-4.6 的 Coding 能力仍能在最新發布的編程評估榜單中，與 Claude、GPT-5 并列第一，持續領跑全球第一梯隊，足見其穩定，超前的編碼能力。

事實上，其實力早已得到驗證。

10 月初，就在 GLM 4.6 發布幾天后，編程智能體 Cline 的產品經理 Nick Baumann 發帖表示，根據 Cline 遙測數據對數百萬次「diff edits」（代碼修改）操作的分析，zAI 的 GLM-4.6 模型達到了 94.9% 的成功率，而 Anthropic 的 Claude Sonnet 4.5 成功率為 96.2%。

他認為，這一數據意義重大，因為就在三個月前，（開放）開源模型與頂尖閉源模型在同類任務上的性能差距還高達 5 到 10 個百分點。而現在，這個差距已經縮小到了「基點」（basis points），表明兩者在最困難的編碼任務之一上的能力正在迅速趨同。

此外，Baumann 提到 Cline 的社區用戶中已經出現了轉向使用 GLM-4.6 完成日常工作的熱潮。

有趣的是，AI 編程獨角獸 Cognition 近期推出的最新 AI 模型 SWE-1.5，被質疑是基于 GLM 4.6 模型進行定制（精調 / 強化學習），并運行在全球最大的 AI 推理芯片公司 Cerebras 的硬件上。

有人對 SWE 1.5 進行了大模型「越獄」，結果模型直接回答自己是智譜 AI 開發的 GLM 大模型。

而值得一提的是，Cerebras 決定將 GLM-4.6 作為默認推薦模型，其在給所有用戶的郵件中表示：qwen-3-coder-480b 將于 2025 年 11 月 5 日被停止使用，同時推出 GLM-4.6 作為新的基座模型。

以上 GLM-4.6 的光輝戰績，不僅證明了其作為開源世界「最強 Coding 模型」受到廣泛認可，更讓業界再次見證了國產大模型的硬核實力。

正如 Cline 產品經理所觀察到的，從幾個月前的「5 到 10 個百分點」差距，到如今的「基點」之差，這背后是國產力量從「追趕」到「并跑」乃至「領跑」的驚人加速度。

在過去由 Llama 系列主導的開源開放生態中，以 DeepSeek、Qwen、GLM、Kimi 等為代表的中國開源模型，正憑借其卓越的性能和極高的成本效益，成為全球 AI 開發者的新選擇。

這，正是國產大模型力量崛起的最佳注腳。

責任編輯：趙寧寧來源：機器之心

大模型編程大模型編碼