精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-5編程測評大反轉!表面不及格,實際63.1%的任務沒交卷,全算上成績比Claude高一倍

人工智能
Scale AI的新軟件工程基準SWE-BENCH PRO,出現反轉!表面上看,“御三家”集體翻車,沒一家的解決率超過25%:GPT-5、Claude Opus 4.1、Gemini 2.5分別以23.3%、22.7%、13.5%的解決率“榮”登前三。

Scale AI的新軟件工程基準SWE-BENCH PRO,出現反轉!

表面上看,“御三家”集體翻車,沒一家的解決率超過25%

GPT-5Claude Opus 4.1Gemini 2.5分別以23.3%、22.7%、13.5%的解決率“榮”登前三

圖片

但深入數據背后,則暗藏玄機。

前OpenAI研究員Neil Chowdhury表示,如果只看已提交的任務,GPT-5能達到63%的準確率,比Claude Opus 4.1的31%,高了近一倍!

圖片

(這怎么不算G又贏!?)

換句話說,GPT-5在擅長的題目上依舊穩健,與老基準SWE-Bench-Verified的74.9%差距不大,而Claude跟其他模型則直接拉垮到底。

那么,究竟是什么基準測試,讓這些頂級模型如此狼狽?

SWE-BENCH PRO

先說結論,不是模型變菜了,而是題變難了。

與平均正確率高達70%SWE-Bench-Verified相比,SWE-BENCH PRO嚴格得可不止一星半點。

一方面,作為OpenAI于2024年8月發布的測試集,SWE-Bench-Verified中的很多代碼庫已被用作大語言模型的預訓練語料,存在著數據污染的風險。

另一方面,SWE-Bench-Verified還包含不少瑣碎的問題,例如500個問題中有161個只需一兩行修改。

這與工業軟件工程中通常涉及的跨多文件、數百行修改的場景差距較大,從而無法真正反映實際開發場景中所面臨的挑戰。

基于此,SWE-BENCH PRO主打全新題目,以確保模型在訓練階段從未接觸過測試內容,從而更真實地考驗模型的實際能力。

圖片

涵蓋1865個商業應用、B2B服務和開發者工具的多元化代碼庫

具體來說,SWE-BENCH PRO將這些代碼庫構建為以下三個子集:

  • 公共集:來自采用copy-left許可證的11個公共代碼庫的731個問題。
  • 商業集:來自276個源自初創公司代碼庫的問題。
  • 保留集:來自采用copy-left許可證的12個公共代碼庫的858個問題。

(注:公共集將在HuggingFace上發布,商業集和保留集保持私有,商業集的測試結果會公開,保留集用于驗證模型是否過擬合。每個問題由任務描述、相關測試集和可運行環境構成。)

這些從強Copyleft許可證(GPL)代碼庫和真實的初創公司獲取的商業代碼庫能夠有效地解決SWE-Bench-Verified存在的數據污染問題。

為了確保任務的復雜性,研究團隊還排除了像1-10行代碼編輯這樣瑣碎的編輯,保留了需要進行大量多文件修改的問題。

此外,為了防止模型對任何單一代碼庫產生過擬合,這些代碼庫都處于活躍狀態并覆蓋消費者應用、B2B服務和開發者工具平臺。

接下來,就讓我們看看研究者是如何在這些問題上進行測試的。

human in the loop的測試環節

為了將模型評估的重點放在當模型獲得充分細節后,能否實現給定的修復或補丁上。

研究團隊在SWE-Bench Verified的基礎上,將SWE-BENCH PRO中的每個問題都經過了人工增強,并加入了問題陳述、需求說明以及接口信息。

首先,研究團隊提供一個待解決問題的問題陳述并在必要時補充上下文信息。

圖片

其次,針對潛在的歧義問題,對于每個問題,列出了一系列需求并指定相應的類和函數。

圖片

之后,在環境方面,每個任務都在一個容器化的、用于特定語言的環境中進行評估。

在測試階段,研究通過fail2pass測試驗證問題是否已解決,通過pass2pass測試確保現有功能保持完整。

其中,為了確保測試質量,fail2pass測試會經過人工篩選,去掉與任務不相關或過于寬泛的測試。

對于偶爾失敗的測試,則會運行三次,以確保結果穩定。

實驗結論

正如我們開頭提到的,大語言模型在SWE-BENCH PRO上的解決率僅為中等水平,遠低于SWE-Bench Verified中的70% 。

圖片

其中,在公共集上,GPT-5和Claude Opus 4.1分別實現了23.3%和22.7%的最高解決率,顯著優于小規模模型,Claude Sonnet 4也達到了16.3%的解決率。

不過,像DeepSeek Qwen-3 32B和GPT-4o這樣的老模型表現就多少有點不盡人意了,僅為3.4%和3.9%。

圖片

在商業集上,即便是最優模型的得分也低于20%。

這表明當前模型在解決真實商業場景中的問題時,能力仍然非常有限。

圖片

針對這一苦澀的實驗結果,研究人員展開了進一步的分析,結論如下:

首先,編程語言的難度代碼庫以及模型的種類被視為影響模型表現的關鍵因素。

  • Go和Python通常表現較好,一些模型在這些語言上的解決率超過 30%,而JavaScript和TypeScript則波動較大,從0%到超過30%不等。
  • 不同代碼庫的解決率差異也很明顯,一些代碼庫普遍偏低(低于 10%),另一些則超過50%。
  • 前沿模型如Claude Opus 4.1和GPT-5在大多數編程語言和代碼庫中表現穩定,小規模模型則更易出現接近零的解決率。

其次,不同的模型的失敗原因往往各不相同。

圖片

  • OPUS 4.1的主要失敗模式是語義理解不足,錯誤解答占35.9%,語法錯誤占24.2%,表明其技術執行能力較強,但在問題理解和算法正確性方面存在挑戰。
  • GPT-5的結果顯示在工具使用的有效性上可能存在差異,但錯誤解答相對較少。
  • SONNET 4的主要失敗模式是上下文溢出(35.6%)和顯著的無休止文件讀取行為(17.0%),表明其在上下文管理和文件導航策略上存在局限。
  • GEMINI 2.5的失敗模式則較為均衡,涵蓋工具錯誤(38.8%)、語法錯誤(30.5%)和錯誤解答(18.0%),顯示其在多個維度上保持了一定能力。
  • QWEN3 32B作為開源模型,表現出最高的工具錯誤率(42.0%),凸顯了集成化工具使用對于高效代理的重要性。

不難看出,GPT-5雖然延續了以往“會就會,不會就不會”的答題策略,但面對高企的未回答率(63.1%),它的表現仍然不夠看。

那么,誰會成為第一個突破30%的大模型呢?

圖片

參考鏈接

[1]https://x.com/vbingliu

[2]https://scale.com/leaderboard/swe_bench_pro_public

[3]https://x.com/ChowdhuryNeil/status/1969817448229826798

[4] https://scale.com/research/swe_bench_pro

責任編輯:武曉燕 來源: 量子位
相關推薦

2024-07-16 13:24:38

2023-09-03 12:56:43

2024-04-02 10:13:25

在線小工具開發

2011-12-14 20:23:31

HTC

2010-04-20 21:48:48

2023-06-15 13:45:41

模型AI

2017-04-11 09:33:12

JS面試題應聘者

2025-05-30 09:17:00

2009-06-15 08:47:33

微軟Windows 7操作系統

2025-05-23 08:47:00

2025-02-08 14:10:00

模型系統AI

2022-06-24 08:20:56

requests爬蟲Python

2025-06-19 09:06:00

2009-09-16 10:05:06

GoogleChrome 3.0瀏覽器

2025-08-26 09:00:00

2025-09-16 09:05:14

2012-07-04 09:30:49

程序員開發效率

2023-04-10 14:22:26

PCIe6.0PCIe

2012-07-04 08:48:59

程序員

2011-07-05 17:14:39

Raritan力登年度環境計劃
點贊
收藏

51CTO技術棧公眾號

亚洲国产免费av| 中文字幕一区二区三区四区不卡 | 国产精品伦子伦| 无码小电影在线观看网站免费| 久久久综合视频| 成人在线中文字幕| 精品久久免费视频| 欧美丝袜一区| 精品国偷自产国产一区| 日本久久精品一区二区| 色黄网站在线观看| 久久久久久久久伊人| 91久久极品少妇xxxxⅹ软件| 久久久成人免费视频| 国产国产精品| 亚洲视频在线免费观看| 蜜臀视频在线观看| 亚洲午夜国产成人| 在线观看视频91| 精品国偷自产一区二区三区| 毛片免费不卡| 国产欧美一区视频| 精品一区二区国产| 99在线小视频| 久久99精品国产.久久久久久| 97在线观看视频| 九九九免费视频| 97人人精品| 一本色道久久88综合日韩精品| 在线播放第一页| 高清不卡一区| 欧美日韩国产成人在线91| 国产aaa一级片| 国产白丝在线观看| 1区2区3区国产精品| 日韩理论片在线观看| 亚洲欧美自偷自拍| 国产69精品一区二区亚洲孕妇| 国产精品色午夜在线观看| 国产在线观看黄色| 亚洲图片在线| 久久久久久久久久久国产| 蜜臀av午夜精品久久| 999久久久精品国产| 中日韩午夜理伦电影免费 | 日韩免费电影在线观看| 欧美刺激午夜性久久久久久久| 8x8x成人免费视频| 天堂久久一区| 欧美高清视频www夜色资源网| 日韩肉感妇bbwbbwbbw| 青青热久免费精品视频在线18| 色综合中文综合网| 亚洲人成色77777| 欧美一区 二区 三区| 日本韩国欧美在线| 中文字幕在线导航| 欧美高清影院| 在线播放视频一区| 成人啪啪18免费游戏链接| 成人爽a毛片| 亚洲国产精品yw在线观看| 亚洲精品第二页| 日韩成人av在线资源| 亚洲老司机av| 亚洲不卡的av| 国产精品国产三级国产在线观看 | 日本一区视频在线观看| 成人精品福利| 亚洲日本丝袜连裤袜办公室| 99热一区二区三区| 川上优av中文字幕一区二区| 欧美视频二区36p| 亚洲天堂av线| 国产精品免费精品自在线观看| 日韩欧美中文一区二区| 中文字幕 日本| 国产剧情在线观看一区| 日韩在线视频网站| 国产一级特黄a高潮片| 校园激情久久| 国产日韩欧美综合| 丰满少妇在线观看bd| 久久久午夜电影| 国产精品亚洲天堂| √天堂8资源中文在线| 欧美吻胸吃奶大尺度电影 | 日本亚洲视频| 精品亚洲一区二区| 登山的目的在线| 在线午夜精品| 亚洲free性xxxx护士hd| 人人妻人人澡人人爽久久av| 欧美国产日韩精品免费观看| 影音先锋成人资源网站| 中老年在线免费视频| 欧美精品久久天天躁| 中文成人无字幕乱码精品区| 日韩精品免费一区二区三区| 久久久在线视频| 亚洲无码精品在线播放| 成人av免费在线观看| 亚洲精品人成| 蜜桃在线视频| 日韩一区二区麻豆国产| 久久中文字幕精品| 亚洲高清不卡| 91热精品视频| 第一页在线观看| 富二代精品短视频| 久久艹这里只有精品| 国产精品密蕾丝视频下载| 欧美久久精品一级黑人c片| 亚洲 欧美 日韩 在线| 国产91精品一区二区麻豆亚洲| 手机在线观看国产精品| 福利在线免费视频| 日韩午夜在线影院| 亚洲一二三四视频| 久久精品免费| 国产中文一区二区| 黄网在线免费看| 欧美剧情片在线观看| 久久亚洲AV无码专区成人国产| 欧美午夜一区二区福利视频| 国产一区二区在线播放| 国产在线视频网址| 欧美日韩一二三四五区| 挪威xxxx性hd极品| 欧美精选在线| 亚洲在线视频观看| 国产三级在线播放| 欧美精品xxxxbbbb| 黄色一级片一级片| 日韩国产在线观看一区| 欧美在线激情| 忘忧草在线www成人影院| 日韩av一卡二卡| 日本一区二区欧美| 93久久精品日日躁夜夜躁欧美| 日本免费a视频| 欧美国产亚洲精品| 欧美精品情趣视频| 亚洲乱熟女一区二区| 亚洲影院在线观看| 少妇极品熟妇人妻无码| 欧美喷水视频| 国产欧美韩日| 欧美aa在线观看| 亚洲男人天堂2019| 成人免费毛片视频| 日本一区二区成人| 天天干天天操天天做| 日韩伦理一区| 成人妇女淫片aaaa视频| 九义人在线观看完整免费版电视剧| 欧美日韩大陆在线| 日韩一区二区不卡视频| 国产精品一区2区| 国产一级不卡视频| 国产极品模特精品一二| 77777少妇光屁股久久一区| 三级视频网站在线| 在线亚洲一区二区| 黄色录像二级片| 成人福利视频在线看| 青青草精品视频在线| 偷拍视屏一区| 国产精品免费在线免费| 国产精品刘玥久久一区| 日韩精品一区二区三区swag| 亚州国产精品视频| 国产蜜臀av在线一区二区三区| 亚欧美在线观看| 欧美影视一区| 久久久久久久久久久久久久久久av| 久久毛片亚洲| 日韩视频中文字幕| 欧美一区二区黄片| 在线精品国精品国产尤物884a| 99热在线观看精品| 成人免费av资源| 九色porny91| 夜间精品视频| 欧美亚洲一级二级| 高清国产一区二区三区四区五区| 久久久久久久久爱| 成年午夜在线| 亚洲成在人线av| 亚洲精品一区二区二区| 洋洋av久久久久久久一区| 国产免费一区二区三区网站免费| 国产在线播放一区| 青青在线视频免费| 欧美视频四区| 午夜欧美性电影| 精品三级在线观看视频| 国产精选久久久久久| 成人女同在线观看| 中文字幕精品www乱入免费视频| 成人黄色在线观看视频| 欧美综合一区二区| 91看片在线播放| 椎名由奈av一区二区三区| 国产精品无码一区二区三区免费| 激情深爱一区二区| 妞干网在线免费视频| 国产精品大片免费观看| 亚洲一区二区精品在线观看| 天堂在线精品| 懂色av一区二区三区在线播放| 色综合天天色| 欧美一级片在线播放| 日本三级在线观看网站| 日韩在线观看精品| 国产有码在线| 精品视频在线播放色网色视频| 国产普通话bbwbbwbbw| 欧洲av一区二区嗯嗯嗯啊| 黄色在线免费观看| 亚洲电影在线免费观看| 波多野结衣亚洲色图| 国产精品美女久久久久久2018| 国产亚洲无码精品| 不卡一区在线观看| 久久久久久久久久久影视| 精品亚洲国产成人av制服丝袜| 91蝌蚪视频在线观看| 性伦欧美刺激片在线观看| 精品人妻少妇一区二区| 国产精品九九| 日韩精品手机在线观看| 亚洲综合色站| 黄色a级在线观看| 99精品国产一区二区三区| 午夜精品一区二区三区四区| 精品国产一区二区三区av片| 欧美激情导航| 少妇精品久久久| 欧美日韩高清免费| 国产精品片aa在线观看| 欧美日韩高清在线一区| 免费视频国产一区| 麻豆亚洲一区| 国产一区二区三区网| 日韩经典在线视频| 人人狠狠综合久久亚洲婷婷| 婷婷久久伊人| 国产精品黑丝在线播放| 麻豆md0077饥渴少妇| 亚洲视频在线免费| 国产精品日韩三级| 激情综合电影网| 国模无码视频一区二区三区| aa亚洲婷婷| 国产成人av影视| 蜜臀精品一区二区三区在线观看 | 精品国产乱码一区二区三区| 亚洲一区亚洲二区| 综合伊人久久| 久久99欧美| 欧美限制电影| 一级黄色片播放| 99视频精品| 欧美少妇性生活视频| 美女爽到高潮91| 中文字幕在线观看视频www| www.成人在线| 国产视频三区四区| 亚洲理论在线观看| 日本一级黄色大片| 欧美性生活久久| 精品美女www爽爽爽视频| 亚洲成人网久久久| 国产三级在线免费| 久久亚洲欧美日韩精品专区| 成人女同在线观看| 国产精品亚发布| 亚洲超碰在线观看| 日本一区二区免费看| 一本精品一区二区三区| 波多野结衣家庭教师在线| 日本美女一区二区三区| 亚洲少妇一区二区| 国产喂奶挤奶一区二区三区| 成人免费精品动漫网站| 欧美小视频在线| 国产男女无套免费网站| 日韩精品在线影院| 成人黄视频在线观看| 全球成人中文在线| 亚洲三级av| 亚洲精品中文字幕在线| 亚洲毛片视频| 在线播放免费视频| 久久蜜臀精品av| 激情综合五月网| 精品视频999| 午夜影院免费视频| 日韩一区二区福利| 国产日韩电影| 成人h视频在线观看| 欧美伦理在线视频| a级黄色一级片| 国产精品资源网站| 呻吟揉丰满对白91乃国产区| 五月天国产精品| 99热这里只有精品在线观看| 在线播放日韩精品| 最新日韩精品| 国产成人精品一区二区三区福利| 日韩欧美不卡| 国产成人精品无码播放| 99免费精品在线观看| 丝袜 亚洲 另类 欧美 重口| 欧美调教femdomvk| 免费看男男www网站入口在线| 久久久久国产一区二区三区| 中文字幕成人| 一区高清视频| 日本视频中文字幕一区二区三区| 国产 中文 字幕 日韩 在线| 亚洲精品久久久久久国产精华液| 一级片aaaa| 在线中文字幕日韩| 亚洲天堂1区| 四虎永久国产精品| 日韩精品福利网| 国产色视频一区二区三区qq号| 亚洲福利国产精品| 国产小视频免费观看| 欧美高清videos高潮hd| 精品国产一区二| 色撸撸在线观看| 激情欧美一区二区| 九九热视频在线免费观看| 欧美精品123区| 欧美成人hd| 91九色国产社区在线观看| 99国产精品免费视频观看| 亚洲娇小娇小娇小| 成人免费视频在线观看| 99久久久国产精品无码网爆| 久久久99久久精品女同性| 国产乱码精品一区二区三区亚洲人 | 亚洲人成网站77777在线观看| 国产中文字幕在线免费观看| 26uuu亚洲| 无码人妻熟妇av又粗又大| 国产午夜精品一区二区三区| 久久69成人| 婷婷视频在线播放| 国产99久久久国产精品免费看| 日韩a级片在线观看| 欧美xxxx在线观看| 成人免费网站观看| 色噜噜狠狠色综合网| 久久精品国产99久久6| 日本一级二级视频| 精品国产免费人成电影在线观看四季| 国内老司机av在线| 久久久久久久久一区二区| 久久久蜜桃一区二区人| 农村老熟妇乱子伦视频| 欧美一区二区三区四区五区| 成人女同在线观看| 日本午夜精品一区二区| 麻豆精品视频在线观看视频| 国产又黄又爽又无遮挡| 亚洲精品短视频| 欧美精品高清| 欧美一级黄色录像片| 99精品视频在线播放观看| 亚洲精品国产欧美在线观看| 操91在线视频| 台湾亚洲精品一区二区tv| xx欧美撒尿嘘撒尿xx| 亚洲午夜久久久| 欧美高清电影在线| 成人久久久久久久| 一本色道久久综合亚洲精品不卡| 免费黄色在线网址| 精品国产网站在线观看| 欧美天堂视频| 久久国产精品免费观看| 久久这里只有精品视频网| 91精东传媒理伦片在线观看| 国内精品一区二区三区四区| 国产精品免费不| 韩国黄色一级片| 欧美在线一区二区| 国产精品探花在线| 亚洲欧洲一区二区福利| 成人精品电影在线观看| 最近中文字幕在线观看| 91精品国产乱码久久久久久蜜臀 | 国产中文字幕二区| 中文字幕一区二区三区四区不卡| 五月婷婷久久久| 97超碰在线播放|