GPT-5編程測評大反轉!表面不及格,實際63.1%的任務沒交卷,全算上成績比Claude高一倍
Scale AI的新軟件工程基準SWE-BENCH PRO,出現反轉!
表面上看,“御三家”集體翻車,沒一家的解決率超過25%:
GPT-5、Claude Opus 4.1、Gemini 2.5分別以23.3%、22.7%、13.5%的解決率“榮”登前三。

但深入數據背后,則暗藏玄機。
前OpenAI研究員Neil Chowdhury表示,如果只看已提交的任務,GPT-5能達到63%的準確率,比Claude Opus 4.1的31%,高了近一倍!

(這怎么不算G又贏!?)
換句話說,GPT-5在擅長的題目上依舊穩健,與老基準SWE-Bench-Verified的74.9%差距不大,而Claude跟其他模型則直接拉垮到底。
那么,究竟是什么基準測試,讓這些頂級模型如此狼狽?
SWE-BENCH PRO
先說結論,不是模型變菜了,而是題變難了。
與平均正確率高達70%的SWE-Bench-Verified相比,SWE-BENCH PRO嚴格得可不止一星半點。
一方面,作為OpenAI于2024年8月發布的測試集,SWE-Bench-Verified中的很多代碼庫已被用作大語言模型的預訓練語料,存在著數據污染的風險。
另一方面,SWE-Bench-Verified還包含不少瑣碎的問題,例如500個問題中有161個只需一兩行修改。
這與工業軟件工程中通常涉及的跨多文件、數百行修改的場景差距較大,從而無法真正反映實際開發場景中所面臨的挑戰。
基于此,SWE-BENCH PRO主打全新題目,以確保模型在訓練階段從未接觸過測試內容,從而更真實地考驗模型的實際能力。

涵蓋1865個商業應用、B2B服務和開發者工具的多元化代碼庫
具體來說,SWE-BENCH PRO將這些代碼庫構建為以下三個子集:
- 公共集:來自采用copy-left許可證的11個公共代碼庫的731個問題。
- 商業集:來自276個源自初創公司代碼庫的問題。
- 保留集:來自采用copy-left許可證的12個公共代碼庫的858個問題。
(注:公共集將在HuggingFace上發布,商業集和保留集保持私有,商業集的測試結果會公開,保留集用于驗證模型是否過擬合。每個問題由任務描述、相關測試集和可運行環境構成。)
這些從強Copyleft許可證(GPL)代碼庫和真實的初創公司獲取的商業代碼庫能夠有效地解決SWE-Bench-Verified存在的數據污染問題。
為了確保任務的復雜性,研究團隊還排除了像1-10行代碼編輯這樣瑣碎的編輯,保留了需要進行大量多文件修改的問題。
此外,為了防止模型對任何單一代碼庫產生過擬合,這些代碼庫都處于活躍狀態并覆蓋消費者應用、B2B服務和開發者工具平臺。
接下來,就讓我們看看研究者是如何在這些問題上進行測試的。
human in the loop的測試環節
為了將模型評估的重點放在當模型獲得充分細節后,能否實現給定的修復或補丁上。
研究團隊在SWE-Bench Verified的基礎上,將SWE-BENCH PRO中的每個問題都經過了人工增強,并加入了問題陳述、需求說明以及接口信息。
首先,研究團隊提供一個待解決問題的問題陳述并在必要時補充上下文信息。

其次,針對潛在的歧義問題,對于每個問題,列出了一系列需求并指定相應的類和函數。

之后,在環境方面,每個任務都在一個容器化的、用于特定語言的環境中進行評估。
在測試階段,研究通過fail2pass測試驗證問題是否已解決,通過pass2pass測試確保現有功能保持完整。
其中,為了確保測試質量,fail2pass測試會經過人工篩選,去掉與任務不相關或過于寬泛的測試。
對于偶爾失敗的測試,則會運行三次,以確保結果穩定。
實驗結論
正如我們開頭提到的,大語言模型在SWE-BENCH PRO上的解決率僅為中等水平,遠低于SWE-Bench Verified中的70% 。

其中,在公共集上,GPT-5和Claude Opus 4.1分別實現了23.3%和22.7%的最高解決率,顯著優于小規模模型,Claude Sonnet 4也達到了16.3%的解決率。
不過,像DeepSeek Qwen-3 32B和GPT-4o這樣的老模型表現就多少有點不盡人意了,僅為3.4%和3.9%。

在商業集上,即便是最優模型的得分也低于20%。
這表明當前模型在解決真實商業場景中的問題時,能力仍然非常有限。

針對這一苦澀的實驗結果,研究人員展開了進一步的分析,結論如下:
首先,編程語言的難度、代碼庫以及模型的種類被視為影響模型表現的關鍵因素。
- Go和Python通常表現較好,一些模型在這些語言上的解決率超過 30%,而JavaScript和TypeScript則波動較大,從0%到超過30%不等。
- 不同代碼庫的解決率差異也很明顯,一些代碼庫普遍偏低(低于 10%),另一些則超過50%。
- 前沿模型如Claude Opus 4.1和GPT-5在大多數編程語言和代碼庫中表現穩定,小規模模型則更易出現接近零的解決率。
其次,不同的模型的失敗原因往往各不相同。

- OPUS 4.1的主要失敗模式是語義理解不足,錯誤解答占35.9%,語法錯誤占24.2%,表明其技術執行能力較強,但在問題理解和算法正確性方面存在挑戰。
- GPT-5的結果顯示在工具使用的有效性上可能存在差異,但錯誤解答相對較少。
- SONNET 4的主要失敗模式是上下文溢出(35.6%)和顯著的無休止文件讀取行為(17.0%),表明其在上下文管理和文件導航策略上存在局限。
- GEMINI 2.5的失敗模式則較為均衡,涵蓋工具錯誤(38.8%)、語法錯誤(30.5%)和錯誤解答(18.0%),顯示其在多個維度上保持了一定能力。
- QWEN3 32B作為開源模型,表現出最高的工具錯誤率(42.0%),凸顯了集成化工具使用對于高效代理的重要性。
不難看出,GPT-5雖然延續了以往“會就會,不會就不會”的答題策略,但面對高企的未回答率(63.1%),它的表現仍然不夠看。
那么,誰會成為第一個突破30%的大模型呢?

參考鏈接
[1]https://x.com/vbingliu
[2]https://scale.com/leaderboard/swe_bench_pro_public
[3]https://x.com/ChowdhuryNeil/status/1969817448229826798
[4] https://scale.com/research/swe_bench_pro





























