精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

OpenAI掀「百萬美金」編程大戰!Claude 3.5 Sonnet狂賺40萬拿下第一

人工智能 新聞
OpenAI剛剛發布SWE-Lancer編碼基準測試,直接讓AI模型挑戰真實外包任務!這些任務總價值高達100萬美元。有趣的是,測試結果顯示,Anthropic的Claude 3.5 Sonnet在「賺錢」能力上竟然超越了OpenAI自家的GPT-4o和o1模型。

昨天馬斯克剛剛發布了號稱「地表最聰明」的Grok 3模型,搶走了所有關注。

這邊OpenAI就開始坐不住了,立刻扔出了SWE-Lancer(AI編碼測試基準),看一下AI到底能在現實任務中掙到多少錢。

SWE-Lance是一個全新的、更貼近現實的基準測試,用于評估AI模型的編碼性能。它包含了來自Upwork的1400多個自由軟件工程任務,這些任務在現實世界中的總報酬價值100萬美元。

參加評測的包括GPT-4o、o1和Anthropic Claude 3.5 Sonnet在內的前沿模型,結果多少有些尷尬,掙到最多錢的竟是隔壁Anthropic的Claude 3.5 Sonnet。

下圖5展示了各模型在完整的SWE-Lancer數據集上所獲得的報酬總額,其中Claude 3.5 Sonnet掙到了最高的403,325美元,高于OpenAI自家的GPT-4o以及o1。

不過這也基本符合大家對這幾款模型的真實感受。

眾所周知,現實世界中軟件工程師的工作涵蓋整個技術棧,并且必須對復雜的跨代碼庫交互和權衡進行推理。

為了更好地衡量AI編碼的能力和影響,OpenAI提出了SWE-Lancer——第一個使用由專業工程師創建的E2E(端到端)測試的基準,提供更全面、真實的評估,更難并且更難被鉆空子。

SWE-Lancer包含兩種任務類型:IC SWE(獨立開發者)任務和SWE管理任務。IC SWE任務要求模型生成代碼補丁以解決實際問題,而SWE管理任務要求模型作為技術負責人,選擇給定問題的最佳實現方案。

論文地址:https://arxiv.org/abs/2502.12115

開源項目:https://github.com/openai/SWELancer-Benchmark

基準構建

SWE-Lancer的基準構建過程旨在確保數據集包含高質量和代表性的任務。

研究團隊首先選擇Expensify開源存儲庫,因為它是一個擁有大量用戶的上市公司,并且在Upwork上提供具有實際報酬的軟件工程任務。然后,100名專業軟件工程師審查任務,確保其清晰、明確和可執行,高價值任務會經過更嚴格的驗證。

該流程還包括從經過驗證的Github問題生成IC SWE任務和SWE管理任務。研究團隊為IC SWE任務開發全面的端到端Playwright測試,模擬真實世界的用戶流程,并由專業工程師進行三次驗證。

此外,每個IC SWE任務都配備一個用戶工具,允許模型模擬用戶操作并查看結果,從而進行迭代調試。

下圖展示了SWE-Lancer基準測試中多樣化的任務:涵蓋了不同的目標、類型、角色,并提供了具體示例。

實驗結果

根據下圖5顯示,所有模型在完整的SWE-Lancer數據集上獲得的報酬都遠低于100萬美元的潛在總報酬。

為了展示模型在各項實驗中的表現,研究人員在下表1中列出了IC SWE任務和SWE管理任務的通過率(pass@1)、相應的「報酬」(即總報酬)和報酬率(即獲得的報酬與潛在總報酬之比)。

如下圖6所示,所有模型在SWE管理任務上的表現都優于IC SWE任務,后者的性能仍有較大提升空間。在IC SWE任務中,通過率和報酬率均低于30%。

SWE管理任務中,表現最優的模型——Claude 3.5 Sonnet——在高質量數據集(Diamond set)上達到了45%的得分。

3.5 Sonnet在這兩類任務上都展現出最強的性能,優于其他所有模型。

提高嘗試次數

為了評估性能如何隨著嘗試次數的增加而變化,研究團隊使用通過率指標(pass@k)評估了GPT-4o和o1。

如下圖7所示,所有模型的通過率都隨著嘗試次數的增加而持續提升。

這種趨勢在o1模型中特別明顯,增加6次嘗試后,解決任務的比例提高了近兩倍。GPT-4o在允許6次嘗試時(pass@6)達到了與o1首次嘗試(pass@1)相同的得分(16.5%)。

增加測試計算資源

在高質量數據集的IC SWE任務中,啟用o1和用戶工具的實驗表明,增加推理計算量能將通過率從9.3%(低計算量)提升至16.5%(高計算量),相應的報酬也從16,000美元增加到29,000美元,報酬率從6.8%提升至12.1%。

下圖8展示了不同計算資源水平下各價格區間任務的通過率分布,結果表明增加測試計算資源能特別提高在較難且報酬較高問題上的性能表現。

移除用戶工具

如下圖9所示,在IC SWE任務中,移除用戶工具對通過率(pass@1)的影響較小。

不過,研究人員觀察到較強的模型能夠更有效地利用用戶工具,因此在此消融實驗下會經歷更大的性能下降。

討論

結果表明,在基準測試中的真實自由職業工作對于前沿大語言模型來說仍具有相當的挑戰性。

表現最優的模型Claude 3.5 Sonnet在SWE-Lancer高質量數據集上獲得了208,050美元的報酬,成功解決了26.2%的IC SWE任務問題。然而,其大部分解決方案仍存在錯誤,要達到可信部署的標準還需要提高可靠性。

最強大的模型在各類任務中都表現出色。

下表2將任務按照應用程序邏輯(客戶端)、UI/UX、服務器端邏輯和系統范圍的質量和可靠性任務進行分類,并列出了GPT-4o、o1和Claude 3.5 Sonnet在每種任務類型上的pass@1通過率以及對應任務數量。

數據顯示,所有模型在SWE管理任務上的表現均優于IC SWE任務,且Claude 3.5 Sonnet表現最佳。

下表3將任務按照Bug修復、新功能或增強以及維護、QA、測試或可靠性改進進行分類。

數據顯示,各模型在Bug修復類型的任務上表現相對較好,而在新功能或增強類型的IC SWE任務上表現較差。

這些模型在SWE管理任務上的通過率通常是IC SWE任務的兩倍以上。特別是在用戶界面/用戶體驗(UI/UX)任務上,Sonnet 3.5比o1的表現高出近15%;在實施新功能或功能增強的任務上,也領先將近10%。

有效使用工具是區分頂級表現的關鍵。

研究發現,最強大的模型經常使用用戶工具,并能高效解析輸出結果來重現、定位和迭代調試問題。

用戶工具通常需要90到120秒的運行時間,在這段等待期間,像GPT-4o這樣相對較弱的模型往往會完全放棄使用該工具。表現最優的模型會考慮到這種延遲,設置合理的超時時間,并在結果可用時進行復查。

AI智能體在問題定位方面表現突出,但往往未能找出根本原因,導致解決方案不完整或存在缺陷。這些智能體能夠通過在整個代碼庫中進行關鍵詞搜索,以驚人的速度準確定位相關文件和函數。

然而,它們對問題如何跨越多個組件或文件的理解往往有限,未能解決根本原因,從而導致解決方案不正確或不夠全面。研究人員很少發現AI智能體嘗試重現問題或因找不到正確的修改位置而失敗的情況。

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-12-27 09:50:00

模型數據測試

2025-02-19 09:34:01

2024-12-26 14:42:23

2025-06-04 13:50:25

AI 編程Claude 模型人工智能

2024-12-27 10:27:58

2013-12-23 15:11:34

創業客戶

2025-02-28 09:22:00

2024-06-24 13:17:09

2024-06-21 09:58:38

2025-09-30 09:05:00

2025-02-25 09:43:19

2025-02-26 08:20:41

2025-09-30 07:29:02

2025-01-03 11:02:38

OpenAIAgent大模型

2024-06-21 09:57:00

2025-04-04 00:00:00

AI模型數據

2025-08-14 14:45:15

2024-06-21 13:11:30

2024-12-09 08:00:00

AI大模型人工智能

2013-03-20 14:26:52

獨立開發者手機游戲手游
點贊
收藏

51CTO技術棧公眾號

成人三级视频在线观看一区二区| 在线国产精品播放| 日本中文字幕亚洲| 欧美 日韩 国产 精品| 一区二区毛片| 正在播放欧美视频| 无人码人妻一区二区三区免费| 在线观看操人| 久久色在线观看| 国产精品午夜一区二区欲梦| 永久免费看黄网站| 色婷婷av一区二区三区丝袜美腿| 欧美日韩精品免费观看视频| 台湾无码一区二区| 都市激情一区| 高清不卡在线观看| 国产精品香蕉国产| 永久免费看片在线播放| 婷婷中文字幕一区| 精品视频www| 欧美体内she精高潮| 外国成人直播| 亚洲午夜激情网页| 亚洲一区三区| 男人久久精品| av不卡在线观看| 成人激情视频在线观看| 天天操天天干视频| 午夜精品剧场| 爽爽爽爽爽爽爽成人免费观看| 91精品啪在线观看国产| 日本亚洲欧洲无免费码在线| 午夜激情一区二区| 国产一级片91| 精品美女在线观看视频在线观看| 久久久久久久久久久久久久久99| 99在线观看视频| 亚洲系列第一页| 久久精品成人| 51精品国产黑色丝袜高跟鞋 | 久久久久久久久久久久久女国产乱 | 日韩电影中文 亚洲精品乱码| www.午夜av| 九九热这里有精品| 色婷婷av一区二区三区大白胸| 成年丰满熟妇午夜免费视频| 欧美日本一道| 国产精品电影一区二区| 色一情一乱一伦一区二区三区 | 中文字幕日韩精品在线| 欧美高清性xxxx| 老司机在线精品视频| 精品福利一二区| 97中文字幕在线观看| 日韩一级淫片| 精品国产1区二区| 丝袜熟女一区二区三区 | 欧美自拍资源在线| 欧美日本网站| 久久精品夜色噜噜亚洲a∨| 蜜桃久久精品乱码一区二区 | www国产亚洲精品久久麻豆| 高清视频在线观看一区| 黑人乱码一区二区三区av| 丰满白嫩尤物一区二区| 粉嫩av四季av绯色av第一区| 二区三区在线视频| av一二三不卡影片| 久久国产精品一区二区三区| 偷拍25位美女撒尿视频在线观看| 久久综合色综合88| 日韩av不卡播放| 在线免费看黄网站| 亚洲色图制服诱惑| 国产xxxx振车| 亚洲天堂免费电影| 精品婷婷伊人一区三区三| 在线视频观看91| 91综合精品国产丝袜长腿久久| 精品国产制服丝袜高跟| 变态另类丨国产精品| blacked蜜桃精品一区| 日韩在线国产精品| 久久这里只有精品国产| 中文一区在线| 国产精品视频精品视频| 国产免费黄色录像| 99这里都是精品| 先锋影音一区二区三区| 成人免费看片| 欧美日韩中文字幕在线| 黄大色黄女片18第一次| 亚洲精品高潮| 一区二区三区视频在线| www欧美com| 亚洲影音一区| 92看片淫黄大片看国产片| 免费av网站观看| 日本一区二区三区免费乱视频 | 91精品国模一区二区三区| 91精产国品一二三| 欧美精品系列| 久久久久久亚洲精品| 国产精品免费精品一区| 日本欧洲一区二区| 国产亚洲一区在线播放 | 天堂网av成人| 久久久精品一区二区| 国产精品男女视频| 国产乱码精品一区二区三区五月婷| 国内精品二区| 国产激情在线| 欧美影视一区二区三区| 久久久久99人妻一区二区三区| 奇米亚洲欧美| 久久久久久久国产| 91麻豆一区二区| www久久久久| 欧美亚洲黄色片| 亚洲国产一区二区久久| 亚洲欧美在线一区二区| 久草国产在线观看| 精品一区二区三区在线播放视频| 久久99精品久久久久久三级 | 成人三级做爰av| 精品国产一区探花在线观看| 97在线视频观看| www黄色在线观看| 国产精品国产自产拍高清av| 欧美日韩在线免费播放| 成人高潮a毛片免费观看网站| 精品国偷自产在线| 亚洲综合成人av| 久久久久99精品国产片| 国产精品333| 国产精东传媒成人av电影| 超薄丝袜一区二区| 国产一区二区三区四区视频| 国产日韩欧美精品综合| 国产免费一区二区三区视频| 九色丨蝌蚪丨成人| 国内精品久久久久久中文字幕| a视频免费在线观看| 亚洲欧洲日韩在线| 久久婷五月综合| 清纯唯美亚洲综合一区| 国产精品av免费在线观看| 三区在线观看| 色一区在线观看| 色哟哟精品观看| 日韩精品欧美精品| 日本在线播放一区| 992tv国产精品成人影院| 亚洲欧洲自拍偷拍| 日本视频www色| 国产欧美日韩综合| 国产小视频精品| 日韩中文首页| 91天堂在线观看| av网址在线免费观看| 日韩精品一区在线观看| 久久精品www人人爽人人| 成人黄色网址在线观看| 97国产在线播放| 国产99亚洲| 国产精品久久久久久久久久99| jizz在线观看| 91精品午夜视频| 国产在线视频99| 26uuu国产在线精品一区二区| 午夜视频在线瓜伦| 国产精品99一区二区三区| 2022国产精品| www在线观看黄色| 亚洲欧美另类在线观看| 中国精品一区二区| 综合自拍亚洲综合图不卡区| 国产精品一区二区无码对白| 亚洲免费一区二区| 亚洲一区二区三区四区中文| 奇米一区二区| 亲爱的老师9免费观看全集电视剧| 国产成人天天5g影院在线观看| 777色狠狠一区二区三区| 久久高清无码视频| 久久精品人人做人人综合| 999这里有精品| 亚洲福利国产| 亚洲国产精品视频一区| 亚洲一区二区三区四区电影| 日本精品久久久久久久| 乱人伦中文视频在线| 亚洲高清免费观看高清完整版| 99超碰在线观看| 亚洲免费在线播放| 一本色道综合久久欧美日韩精品| 麻豆精品一区二区| 国产精品成人久久电影| 97人人精品| 久久久久se| 老司机亚洲精品一区二区| 欧美在线视频免费| 亚洲按摩av| 伊人亚洲福利一区二区三区| 亚洲精品久久久久久无码色欲四季| 色婷婷综合久久久中文一区二区 | 欧美成人一品| 欧美日韩天天操| 伊人久久影院| 国产欧美最新羞羞视频在线观看| 2018av在线| 久久亚洲精品网站| av免费在线一区二区三区| 亚洲成人精品久久| 国产精品视频在线观看免费| 色婷婷精品久久二区二区蜜臂av| 久久国产精品波多野结衣| 亚洲欧美综合色| av电影网站在线观看| 成人在线视频一区二区| 手机在线国产视频| 日韩高清不卡在线| 国产午夜伦鲁鲁| 亚洲午夜一区| 超薄肉色丝袜足j调教99| 日韩av自拍| 日本在线观看不卡| 一本久久青青| 精品日韩美女| 福利在线一区| 国产精华一区| 香蕉大人久久国产成人av| 成人黄色大片在线免费观看| 成人精品三级| 国产精品成人一区| 免费成人动漫| 日本乱人伦a精品| 成av人片在线观看www| 欧美黑人性猛交| 污的网站在线观看| 久久深夜福利免费观看| 欧美jizzhd69巨大| 精品国产拍在线观看| 香蕉视频在线播放| 日韩在线观看免费全集电视剧网站| 黄色片在线看| 国产亚洲精品日韩| 国产精品麻豆一区二区三区 | 古典武侠综合av第一页| 综合激情网...| 国产精品亚洲一区| 日韩av午夜| 欧美日韩国产综合在线| 久久成人av| 日本一区二区三区四区在线观看| 国产精品嫩模av在线| 欧美日韩高清在线一区| 一区二区三区四区在线看| 欧美主播一区二区三区美女 久久精品人| 亚洲欧洲色图| 深夜福利成人| 婷婷另类小说| 日韩中文字幕在线免费| 亚洲一区二区毛片| 三级在线视频观看| 另类调教123区| 国产精品偷伦视频免费观看了 | 国产精品一区二区三区免费| 牛牛精品成人免费视频| 欧美日韩在线精品一区二区三区| 国产精品亚洲人成在99www| 午夜精品一区二区在线观看| 外国成人免费视频| 人妻激情另类乱人伦人妻| 国产亚洲亚洲| 在线观看亚洲色图| 国产成人精品aa毛片| 少妇精品无码一区二区三区| 26uuu久久综合| 激情五月激情综合| 亚洲一线二线三线久久久| 中文字幕一区在线播放| 欧美精品三级日韩久久| 日本精品一区二区在线观看| 国产一区二区三区精品久久久| 黄色av电影在线观看| 国内免费精品永久在线视频| 草莓视频成人appios| αv一区二区三区| 国产一区二区精品福利地址| 男同互操gay射视频在线看| 亚洲精品日韩久久| 在线观看日本一区二区| www.一区二区| 色婷婷粉嫩av| 婷婷丁香久久五月婷婷| 亚洲熟妇av乱码在线观看| 欧美精品一区二区三区视频| av成人手机在线| 欧美精品videossex88| 成人做爰视频www| 国产精品亚洲不卡a| 国产精品精品国产一区二区| 精品中文字幕av| 国产成人日日夜夜| 国产视频123区| 五月天精品一区二区三区| 国产在成人精品线拍偷自揄拍| 日韩av在线一区| 在线看一级片| 国产在线999| 九九在线精品| 国产96在线 | 亚洲| 韩国v欧美v日本v亚洲v| 白白色免费视频| 欧美日韩色婷婷| 亚洲国产av一区二区| 色诱女教师一区二区三区| 亚洲黄色中文字幕| 成人自拍网站| 91精品综合| 午夜久久久精品| 26uuu久久综合| 天堂网一区二区三区| 欧美成人福利视频| 成a人片在线观看| 国产日韩在线一区| 欧美艳星介绍134位艳星| 男人天堂1024| 成+人+亚洲+综合天堂| 麻豆chinese极品少妇| 日韩一二三区视频| 成人在线网址| 91久久大香伊蕉在人线| 91蜜臀精品国产自偷在线| 精品999在线| 亚洲国产精品99久久久久久久久| 不卡av电影在线| 亚洲欧美国产另类| xx欧美视频| 欧美伦理一区二区| 日日摸夜夜添夜夜添亚洲女人| 黄色录像a级片| 欧美日韩精品在线| 色中色在线视频| 91国自产精品中文字幕亚洲| 国产suv精品一区二区四区视频| 久久av综合网| av中文字幕在线不卡| 青青国产在线观看| 亚洲精品自拍偷拍| 日韩不卡免费高清视频| 欧美亚洲免费高清在线观看| 亚洲欧美成人| 日本二区在线观看| 欧美日韩一区在线观看| 免费av在线播放| 亚洲qvod图片区电影| 国内一区二区三区| 91视频啊啊啊| 色猫猫国产区一区二在线视频| 成人欧美亚洲| 91香蕉嫩草影院入口| 亚洲小说欧美另类婷婷| 黄色国产在线观看| 在线观看亚洲精品视频| 网友自拍视频在线| 不卡一区二区三区视频| 99精品热6080yy久久| 国产高清一区二区三区四区| 欧美日韩一区二区三区在线 | 26uuu另类亚洲欧美日本一| 国产一区二区电影在线观看| 天天操精品视频| 午夜精品国产更新| 超碰97在线免费观看| 亚洲a级在线播放观看| 狠狠爱www人成狠狠爱综合网 | 国产精品久99| 丰满少妇在线观看bd| 日本最新高清不卡中文字幕| 日韩大片在线播放| 欧洲成人午夜精品无码区久久| 欧美午夜精品久久久久久浪潮 | 97国产一区二区精品久久呦| 教室别恋欧美无删减版| 亚洲欧美一区二区三区不卡| 五月天激情综合| 麻豆网站在线| 久久久久久草| 国产一区视频导航| 无码人妻黑人中文字幕| 久久久精品999| 偷拍视屏一区| 午夜影院免费版| 色94色欧美sute亚洲线路一久| 91麻豆免费在线视频| 日本视频一区二区不卡| 丁香婷婷综合五月| 中文区中文字幕免费看|