精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Claude掙錢強于o1!OpenAI開源百萬美元編碼基準,檢驗大模型鈔能力

人工智能 新聞
模型在定位問題方面表現出色,但在追根溯源方面失敗,導致解決方案不完整或存在缺陷。

昨天,AI 圈可以說非常熱鬧。中午,馬斯克 xAI 發布了地表最強旗艦大模型 Grok-3;下午,DeepSeek 梁文鋒親自掛名的論文公開了全新注意力架構 NSA。

這下子,OpenAI 坐不住了,推出并開源了一個真實的、用于評估 AI 大模型編碼性能的全新基準 SWE-Lancer。該基準包含了來自全球性自由職業平臺 Upwork 的 1400 多個自由軟件工程任務,在現實世界中總價值達到了 100 萬美元。

這意味著,如果大模型能夠全部完成這些任務,則可以像人類一樣獲得百萬美元報酬。

具體來講,SWE-Lancer 包括了獨立工程任務(從 50 美元的 bug 修復到 32,000 美元的功能實現)和管理任務,其中模型選擇各種技術實施方案。獨立工程任務由經驗豐富的軟件工程師經過三重驗證的端到端測試進行評級,而管理任務則根據最初聘請的工程經理的選擇進行評估。

下圖為 SWE-Lancer 基準中的任務目標、任務類型、任務角色以及任務示例。

SWE-Lancer 任務更真實地反映了現代軟件工程的復雜性。任務是全棧式的,而且很復雜。自由職業者平均需要 21 天以上的時間才能完成每項任務。

SWE-Lancer 任務價格反映了真實市場價值。任務越難,報酬越高。

OpenAI 的評估結果顯示,包括自家 GPT-4o、o1 和 Anthropic Claude 3.5 Sonnet 在內的前沿模型仍然無法解決大多數任務。從下圖中可以看到,Claude 3.5 Sonnet 完成的任務最多,并且掙到了最高的 403,325 美元。

為了進一步促進未來的相關研究,OpenAI 開源了一個統一的 Docker 鏡像和一個公共評估分割 ——SWE-Lancer Diamond。通過將模型性能與現實世界的貨幣價值聯系起來,OpenAI 希望能夠更好地研究 AI 模型開發的經濟效益。

  • 論文標題:SWE-Lancer: Can Frontier LLMs Earn $1 Million from Real-World Freelance Software Engineering?
  • 論文地址:https://arxiv.org/pdf/2502.12115
  • 項目地址:https://github.com/openai/SWELancer-Benchmark

對于 OpenAI 開源的這個基準測試,有人認為很棒,并表示隨著軟件工程中 AI 能力的擴展,擁有標準化的評估方法非常重要,但應該是獨立的。期待看到社區對 SWE-Lancer Diamond 的使用反饋。

SWE-Lancer 簡介

SWE-Lancer 數據集包含來自 Expensify 開源庫在 Upwork(美國的一個自由職業平臺)上發布的 1,488 個軟件工程任務。

這些任務總價值為 100 萬美元,分為兩類:

個人貢獻者(IC)任務(解決 bug 或實現功能),包含 764 個任務,總價值為 414,775 美元。模型會獲得以下信息:(1) 問題文本描述(包括復現步驟和期望行為),(2) 問題修復前的代碼庫 checkpoint,以及 (3) 修復問題的目標。模型在評估期間無法訪問端到端測試。

管理任務(模型扮演經理的角色,選擇最佳方案來解決問題),這一類包含 724 個任務,總價值為 585,225 美元。模型需要扮演軟件工程經理的角色,選擇解決任務的最佳提案。模型會獲得以下信息:(1) 針對同一問題的多個解決方案(來自原始討論),(2) 問題修復前的代碼庫 checkpoint,以及 (3) 選擇最佳解決方案的目標。

圖 3 中使用 Diamond Set 中的示例對 SWE-Lancer 中不同類型的 IC SWE 問題進行細分。左側藍色代表任務主題,右側綠色代表任務類型。

OpenAI 研究人員和 100 名其他專業軟件工程師在 Upwork 上識別了潛在的任務,并在不更改任何文字的情況下,將這些任務輸入到 Docker 容器中,從而創建了 SWE-Lancer 數據集。該容器沒有網絡訪問權限,也無法訪問 GitHub,以避免模型抓取代碼差異或拉取請求詳情的可能。

研究者追蹤了模型解決的任務百分比以及模型通過解決這些任務所獲得的總報酬。由于這些任務來自真實場景,SWE-Lancer 的報酬能夠獨特地反映真實經濟價值,而不是理論上的估算。

研究人員寫道:他們的基準測試結果表明,現實世界中的自由職業工作對前沿語言模型來說仍然是一個挑戰。測試顯示,基礎模型還無法完全取代人類工程師。盡管它們可以幫助解決漏洞,但還沒有達到能夠獨立賺取自由職業收入的水平。

實驗結果

實驗使用了多個前沿語言模型,包括 Claude 3.5 Sonnet、GPT-4o 和 o1。

評估方法分為兩類:

  • IC 任務通過端到端測試評估,這些測試由專業軟件工程師編寫,模擬真實世界的應用行為。
  • 管理任務通過與原始工程經理的選擇對比來評估。

如圖 5 所示,在完整的 SWE-Lancer 數據集上,沒有一個模型能獲得 100 萬美元的全部任務價值。

如圖 6 所示,所有模型在 SWE Manager 任務上的表現均優于 IC SWE 任務。Claude 3.5 Sonnet 在 IC SWE 和 SWE Manager 任務上均表現最強,分別超出次佳模型(o1)9.7%(IC SWE 任務)和 3.4%(SWE Manager 任務)。

圖 8 展示了不同測試時計算量(test-time compute)水平下,按任務價格范圍劃分的 pass@1。結果表明,增加測試時計算量可以顯著提升模型在更復雜、更高價值任務上的表現。

如圖 9 所示,研究者觀察到性能更強的模型能更有效地利用用戶工具,因此在移除用戶工具后,它們的表現下降幅度更大。

報告指出:模型在定位問題方面表現出色,但在追根溯源方面失敗,導致解決方案不完整或存在缺陷。此外,模型能夠非常迅速地定位問題的源頭,通過在整個代碼庫中搜索關鍵詞來快速找到相關的文件和函數 —— 這通常比人類工程師更快。然而,它們往往對問題涉及的多個組件或文件缺乏深入理解,無法解決根本原因,從而導致解決方案不正確或不夠全面。

有趣的是,這些模型在需要推理以評估技術理解的管理任務上表現更好。

這些基準測試表明,AI 模型可以解決一些低級的編程問題,但還不能取代低級軟件工程師。這些模型仍然需要時間,但研究人員表示這種情況可能不會持續太久。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-02-19 15:40:00

OpenAI編程模型

2025-02-03 14:17:27

2024-09-24 11:01:03

2025-02-21 11:08:46

2024-09-13 10:06:21

2024-09-19 17:44:04

2025-02-19 09:34:01

2024-09-18 09:17:00

OpenAI模型開源

2024-09-13 06:32:25

2024-10-05 00:00:00

2024-12-26 17:13:17

AI模型訓練

2024-12-05 10:16:14

2024-12-09 11:06:31

2024-11-07 15:40:00

2024-12-09 08:00:00

AI大模型人工智能

2023-06-05 12:27:20

2024-09-13 09:26:17

2025-01-20 08:46:00

代碼測試模型

2025-04-29 09:06:00

2024-09-19 18:03:31

點贊
收藏

51CTO技術棧公眾號

北条麻妃一区二区三区| 亚洲视频综合| 欧美一区二区在线免费播放| 亚洲精品少妇一区二区| 色婷婷视频在线| 日韩电影一区二区三区四区| 欧美xxxx做受欧美| 国产黄色网址在线观看| 9999精品免费视频| 欧美日韩中文字幕日韩欧美| 一区二区视频在线免费| 天堂在线资源网| 久久99精品一区二区三区| 午夜精品一区二区三区在线视| 免费看黄色三级| 国产一区丝袜| 91精品国产欧美一区二区18| 色综合av综合无码综合网站| 污视频网站在线免费| 久久精品人人做人人爽人人| 成人欧美一区二区三区视频xxx| 伊人手机在线视频| 欧美精品色网| 中文字幕日韩欧美精品在线观看| 欧美激情一区二区三区p站| 国产亚洲欧美日韩精品一区二区三区 | 婷婷中文字幕一区三区| 中文字幕一区二区三区5566| 日本亚洲一区| 成人av中文字幕| 91久久嫩草影院一区二区| 人妻丰满熟妇av无码区| 在线欧美亚洲| 九九九热精品免费视频观看网站| 91导航在线观看| 神马影视一区二区| 亚洲成人在线视频播放| 国产精品99久久久久久人| 亚洲一二三四区| 午夜精品一区在线观看| 国产伦精品一区二区| 国产精品二区在线观看| 波多野结衣一区二区三区四区| 国内自拍视频一区二区三区| 日韩网站免费观看高清| xxxx日本黄色| 久久99影视| 91精品福利在线一区二区三区 | 7777精品伊人久久久大香线蕉超级流畅| 天天夜碰日日摸日日澡性色av| gogo在线观看| 亚洲男人的天堂在线aⅴ视频| 亚洲资源视频| 蜜桃视频在线观看www社区| 欧美国产欧美综合| 四虎永久国产精品| 九色视频网站在线观看| 久久综合给合久久狠狠狠97色69| 狠狠色伊人亚洲综合网站色| 蜜桃av鲁一鲁一鲁一鲁俄罗斯的| 懂色av中文一区二区三区| 动漫美女被爆操久久久| 欧美少妇bbw| 97se亚洲国产综合在线| 欧美成人在线免费观看| 毛片在线能看| 国产精品伦一区二区三级视频| 亚洲高清不卡一区| 欧美精品hd| 亚洲精品v日韩精品| 高清无码视频直接看| 久久香蕉一区| 狠狠色香婷婷久久亚洲精品| 亚洲乱码中文字幕久久孕妇黑人| 欧美成人影院| 欧美亚洲动漫制服丝袜| 在线能看的av网站| 日韩精品中文字幕吗一区二区| 日韩欧美二区三区| 99久久国产精| 色男人天堂综合再现| 欧美成aaa人片免费看| 亚洲国产精品午夜在线观看| 校园春色综合网| 国产精品久久99久久| 97超碰人人草| www.av精品| 深夜福利成人| www在线视频| 狠狠爱在线视频一区| 在线免费av播放| 97久久精品| 一本色道久久综合亚洲精品小说| 欧美三级黄色大片| 国产精品日韩久久久| 国产精品美女主播在线观看纯欲| 99久久国产免费| 99久久综合精品| 伊人久久婷婷色综合98网| 成人福利电影| 8v天堂国产在线一区二区| 久久精品女同亚洲女同13| 欧美亚洲国产一区| 欧美激情视频在线免费观看 欧美视频免费一 | 国产激情视频在线观看| 天天操天天色综合| 图片区乱熟图片区亚洲| 亚洲香蕉视频| 欧美韩日一区二区| 中文字幕精品一区二区精| 国产999精品久久久久久绿帽| 欧美日韩综合另类| 欧美男男video| 欧美日韩亚洲综合在线 欧美亚洲特黄一级| 女王人厕视频2ⅴk| 日韩电影一区| 欧美制服第一页| 成人av手机在线| 中文字幕av资源一区| 日本在线xxx| 99久久香蕉| 久久精品国产视频| 欧美日韩在线视频播放| 成人动漫精品一区二区| 妞干网这里只有精品| 日韩国产网站| 日韩av在线影院| 国产精品第九页| 国产精品77777竹菊影视小说| 视频一区视频二区视频三区视频四区国产 | 亚洲欧美综合久久久| 国产精品观看在线亚洲人成网| 色偷偷在线观看| 亚洲美女淫视频| 亚洲欧美日韩三级| 国产成人一区| 久久av红桃一区二区小说| 91成人在线免费| 久久久久久久久久久99999| 欧美激情 国产精品| av成人资源| 久久久久成人精品| 亚洲欧美强伦一区二区| 一区二区视频在线| 杨幂一区二区国产精品| 中文字幕一区二区三区欧美日韩 | 亚洲成av人片在线| 亚洲v在线观看| 午夜日韩电影| 99久久伊人精品影院| 永久免费网站在线| 欧美成人在线直播| 国产五月天婷婷| av亚洲精华国产精华精| 久无码久无码av无码| 国产成人澳门| 992tv在线成人免费观看| 免费激情视频网站| 欧美性猛交xxxx偷拍洗澡| 草草影院第一页| 日韩二区在线观看| 亚洲精品日韩在线观看| 91成人在线网站| 欧美人与性动交| 日韩一级在线播放| 欧美性xxxx极品hd满灌| 亚洲精品一区二区三区影院忠贞| 奇米精品一区二区三区在线观看一| 日韩欧美亚洲在线| 在线欧美激情| 久久久免费av| 日本天堂在线| 欧美日韩一区在线| 国产日韩欧美在线观看视频| 东方欧美亚洲色图在线| 欧美日韩亚洲一| blacked蜜桃精品一区| 91久热免费在线视频| 啪啪免费视频一区| 亚洲天堂色网站| 国产精品久久久久久免费播放| 亚洲自拍另类综合| 受虐m奴xxx在线观看| 久久福利视频一区二区| 日本中文字幕在线视频观看| 最新亚洲精品| 亚洲综合中文字幕在线| 麻豆mv在线看| 北条麻妃一区二区三区中文字幕 | 福利一区在线| 欧美俄罗斯乱妇| 国内在线精品| 日韩久久久精品| 久久国产乱子伦精品| 自拍偷拍亚洲综合| 久久精品一区二区免费播放 | 懂色av粉嫩av蜜乳av| 免费看日韩精品| 欧美视频免费看欧美视频| 日韩伦理视频| 精品国产一区二区三区四区精华| 黄色精品视频网站| 91a在线视频| а√中文在线8| 在线成人激情视频| 少妇人妻偷人精品一区二区| 欧美午夜精品一区二区三区| 国产午夜免费视频| 国产精品伦理在线| 巨胸大乳www视频免费观看| 国产成人aaaa| 一路向西2在线观看| 国产婷婷精品| 99热久久这里只有精品| 欧美国产偷国产精品三区| 国产尤物99| 免费欧美网站| 国产女人18毛片水18精品| 在线毛片观看| 亚州欧美日韩中文视频| 国产二区三区在线| 亚洲午夜未满十八勿入免费观看全集| www.午夜激情| 欧美一级在线观看| 91一区二区视频| 欧美日韩国产一级片| youjizz在线视频| 午夜激情一区二区| 久草福利资源在线观看| 亚洲欧美国产77777| 中文字幕第24页| 国产日韩一级二级三级| 国产福利在线观看视频| 成人高清视频在线| 成人啪啪18免费游戏链接| 国产美女一区二区三区| jizz欧美性11| 久久99久久精品| 岛国av免费在线| 国内精品伊人久久久久影院对白| 成人性生交免费看| 久久国产精品72免费观看| 亚洲欧美国产日韩综合| 免费观看日韩电影| 在线黄色免费观看| 久久成人免费网| 91亚洲免费视频| 老司机精品视频一区二区三区| 三级4级全黄60分钟| 久久激情视频| 无码精品国产一区二区三区免费| 国产九九精品| www.四虎成人| 久久亚洲视频| 午夜免费高清视频| 欧美aaa在线| 亚洲第一天堂久久| 国产成人精品一区二| 东京热av一区| 久久尤物电影视频在线观看| 亚洲黄色免费视频| 国产精品久久福利| 麻豆精品一区二区三区视频| 洋洋av久久久久久久一区| 国产污视频在线看| 欧美性xxxxx极品娇小| 中文字幕欧美色图| 欧美一区二区久久| 天堂在线资源8| 国产亚洲一区二区精品| av大片在线播放| 九九热这里只有精品6| av老司机在线观看| 日本一欧美一欧美一亚洲视频| 性欧美videohd高精| 国产美女主播一区| 成人午夜三级| 日韩伦理一区二区三区av在线| 日韩国产在线| 精品丰满人妻无套内射| 噜噜噜躁狠狠躁狠狠精品视频 | 久久这里只精品最新地址| 东京热无码av男人的天堂| 亚洲乱码国产乱码精品精的特点| 国产网友自拍视频| 欧美视频在线不卡| 亚洲国产日韩在线观看| 亚洲美女中文字幕| 黄色免费在线看| 午夜免费在线观看精品视频| 秋霞国产精品| 国产日韩二区| 99久久亚洲精品蜜臀| 久久久亚洲精品无码| 久久成人18免费观看| 国产毛片毛片毛片毛片毛片毛片| 中文字幕免费不卡| 五月天综合激情| 欧美二区乱c少妇| 免费在线黄色影片| 欧美福利视频在线观看| www.一区| 免费在线国产精品| 午夜精品久久| 国产视频1区2区3区| 91毛片在线观看| 免费一级黄色大片| 欧美人与禽zozo性伦| 日本人妖在线| 久久久久久久久久婷婷| 粉嫩一区二区三区在线观看| 蜜桃在线一区二区三区精品| 欧美一区二区三区免费看| 久久精品一区二| 菠萝蜜视频在线观看一区| 天天操夜夜操av| 日本乱人伦aⅴ精品| 色网站免费观看| 欧美激情视频一区二区| 成人午夜888| 亚洲国产婷婷香蕉久久久久久99| 亚洲看片免费| 成年女人免费视频| 亚洲精品日韩专区silk| 亚洲影院一区二区三区| 亚洲天堂成人在线| 欧美日韩视频网站| 久久精精品视频| 国产精品最新自拍| 日韩av无码一区二区三区不卡| √…a在线天堂一区| 一区二区视频播放| 怡红院精品视频| 欧美黄色三级| 日韩欧美99| 日本亚洲最大的色成网站www| 醉酒壮男gay强迫野外xx| 精品久久久久国产| 少妇高潮一区二区三区99小说| 欧美激情小视频| 精品视频高潮| 欧美黑人经典片免费观看| 99久久婷婷国产综合精品电影| 日韩精品成人在线| 亚洲精品国偷自产在线99热 | 欧美亚洲综合在线| av在线天堂播放| 国产精品尤物福利片在线观看| 国产探花一区| 国产九九在线观看| 亚洲三级在线观看| 精品欧美一区二区精品少妇| 欧美日韩福利视频| 国产精品tv| 99爱视频在线| 久久精品亚洲麻豆av一区二区| 你懂的国产在线| 亚洲欧洲日产国产网站| 日韩免费电影| 亚洲成人蜜桃| 激情综合一区二区三区| 一区二区成人免费视频| 欧美一级在线观看| 乱人伦视频在线| 午夜精品区一区二区三| 国内精品不卡在线| 日韩欧美亚洲视频| 亚洲欧美国产一区二区三区| 日本成人伦理电影| 日本一区二区免费高清视频| 精品一区二区免费视频| 久久综合综合久久| 精品亚洲一区二区三区在线观看| 91av一区| 国产一区二区四区| 国产喷白浆一区二区三区| 国产探花精品一区二区| 久久人人爽人人爽人人片av高清| 亚洲丝袜啪啪| 熟妇无码乱子成人精品| 亚洲超丰满肉感bbw| 精品视频一二区| 91传媒免费看| 久久精品伊人| 永久久久久久久| 亚洲视频在线看| 日韩成人视屏| 激情网站五月天| 亚洲精品视频一区| 国产在线电影| 国产精品一区二区三区精品| 日韩高清不卡一区二区三区| 久久国产精品二区| 中国人与牲禽动交精品| 国产欧美自拍一区| 日本黄大片一区二区三区| 亚洲无线码一区二区三区| 免费黄色在线网站| 麻豆久久久9性大片| 国产成人av电影在线播放|