精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

再看SWE-Bench:論一個好的benchmark是如何推動2025 Agentic編程范式的發展

發布于 2025-9-24 07:02
瀏覽
0收藏

今天繼續來看下經典的code benchmark之SWE-BENCH的細節,  其由普林斯頓大學和芝加哥大學聯合發表于ICLR 2024,Title: SWE-bench: CAN LANGUAGE MODELS RESOLVE REAL-WORLD GITHUB ISSUES? (SWE-bench:語言模型能解決真實的GitHub問題嗎?)。

這篇文章旨在解決當前語言模型(LMs)在代碼生成領域評估基準過于簡單、無法反映真實世界軟件工程復雜性的問題。為此,作者們提出了一個全新的、極具挑戰性的評估框架——SWE-bench。該框架包含從12個流行的Python項目中提取的2294個真實軟件工程問題(GitHub Issues)。任務要求語言模型在給定一個完整代碼庫和問題描述的情況下,通過編輯代碼來解決問題。

該方法的核心在于其高度的真實性和挑戰性。解決SWE-bench中的問題通常需要模型:

1.理解和協調跨多個文件、類和函數的代碼變更。

2.與執行環境交互。

3.處理超長上下文信息并進行復雜推理。

評估結果顯示,即便是最先進的專有模型(如Claude 2)和經過專門微調的開源模型(SWE-Llama),也只能解決極少數最簡單的問題,最佳模型的解決率僅為1.96%。這表明,當前的語言模型距離成為能夠自主解決實際軟件工程問題的智能體還有很長的路要走。SWE-bench為評估和推動下一代更實用、更智能、更自主的語言模型指明了方向。

一、概述

?Title:SWE-bench: CAN LANGUAGE MODELS RESOLVE REAL-WORLD GITHUB ISSUES?

?URL:?? https://arxiv.org/abs/2310.06770??

?Authors:Carlos E. Jimenez, John Yang, Alexander Wettig, Shunyu Yao, Kexin Pei, Ofir Press, Karthik Narasimhan

?Institutions:普林斯頓大學 (Princeton University), 芝加哥大學 (University of Chicago)

?Code:?? https://swebench.com??

1.Motivation

?現有編程基準例如HumanEval也被刷飽和了:當前流行的代碼生成基準(如HumanEval)大多包含自足的、可以通過幾行代碼解決的問題。這些基準已經飽和,無法有效地區分最先進模型的能力邊界。

?沒有衡量真實軟件工程開發的benchmark:真實的軟件工程任務,如修復一個bug或添加一個新功能,遠比生成一個獨立函數復雜。它需要開發者在龐大的代碼庫中導航,理解不同模塊間的依賴關系,并進行跨文件的修改?,F有基準未能評估模型在這方面的能力。

?代碼編程領域需要更具挑戰性的benchmark:為了推動語言模型在代碼領域的發展,迫切需要一個能夠準確反映其在真實世界應用中能力的挑戰性基準,從而指導未來的研發方向。

2.Methods

論文的核心方法是構建了一個名為SWE-bench的基準測試集,并在此之上評估現有語言模型。構建過程分為三步:數據抓取、屬性篩選執行驗證,以確保每個任務都是真實、高質量且可驗證的。評估時,模型接收一個GitHub issue和完整的代碼庫作為輸入,任務是生成一個Patch文件(patch)來解決該issue。如果生成的Patch能成功應用并通過所有相關單元測試,則認為任務解決成功。

再看SWE-Bench:論一個好的benchmark是如何推動2025 Agentic編程范式的發展-AI.x社區

詳細方法和步驟:

1)基準構建 (Benchmark Construction): 論文提出了一個三階段的流水線來從GitHub上大規模地篩選和構建高質量的任務實例。

再看SWE-Bench:論一個好的benchmark是如何推動2025 Agentic編程范式的發展-AI.x社區

image-20250916150618295

?階段一:倉庫選擇和數據抓取 (Repo selection and data scraping):從12個流行的開源Python倉庫(如django, scikit-learn, matplotlib等)中收集了約9萬個拉取請求(Pull Requests, PRs)。選擇流行倉庫是因為它們通常有更好的維護、更清晰的貢獻指南和更全面的測試覆蓋。

?階段二:基于屬性的過濾 (Attribute-based filtering):從抓取的PRs中篩選出滿足以下條件的候選任務:(1) PR是已合并(merged)狀態,表明其解決方案被接受;(2) PR明確地解決了一個或多個GitHub issue;(3) PR對測試文件進行了修改,這通常意味著貢獻者添加了新的測試來驗證問題是否被修復。

?階段三:基于執行的過濾 (Execution-based filtering):對每個候選任務進行嚴格的執行驗證。(1) 驗證代碼庫可以成功安裝;(2) 驗證在應用PRPatch前后,至少有一個測試用例的狀態從失?。╢ail)變為通過(pass)。這一步過濾掉了那些不重要或無法驗證的解決方案,最終得到了2294個高質量的任務實例。

2)任務形式與評估 (Task Formulation and Evaluation):

?模型輸入:一個GitHub issue的文本描述和一個完整的代碼庫快照。

?模型輸出:一個標準的Patch文件(??.patch??格式),描述了為解決問題需要對代碼庫進行的修改。

?評估指標:最終的衡量標準是解決率(Resolution Rate),即成功解決的任務實例所占的百分比。一個任務被視為“成功解決”需要滿足兩個條件:(1) 模型生成的Patch可以無誤地應用到代碼庫中;(2) 應用Patch后,所有相關的單元測試都能通過。

3)SWE-Llama 微調模型: 由于現有模型在處理長上下文和遵循復雜指令方面表現不佳,作者們還微調了CodeLlama模型。

?訓練數據:從另外37個Python倉庫中收集了約19000個issue-PR對作為訓練數據,這些倉庫與評估集中的倉庫沒有交集,以避免數據污染。

?微調方法:使用LoRA技術對CodeLlama-Python的7B和13B版本進行監督微調,使其學會根據issue和相關代碼文件生成對應的“Gold Patch”(gold patch)。

3.Conclusion

?現有LLM在解決真實世界開發任務能力嚴重不足:即使是目前最強大的語言模型(SOTA LMs),在處理真實世界的軟件工程任務時也表現極差。表現最好的Claude 2模型,在使用BM25檢索器提供相關文件的情況下,也僅能解決1.96%的問題。

再看SWE-Bench:論一個好的benchmark是如何推動2025 Agentic編程范式的發展-AI.x社區

?SWE-bench是一個有效的“試金石”:該基準成功地揭示了當前模型在復雜推理、長上下文理解和代碼庫級操作方面的巨大差距,為未來的研究設立了一個清晰且具有挑戰性的目標。

?真實世界任務的復雜性被低估:解決這些問題不僅需要代碼生成,還需要代碼定位、理解依賴關系和遵循現有代碼風格等高級技能,這些都是當前模型所欠缺的

4.Limitation

?目前只有python項目:目前SWE-bench中的所有任務都來自于Python項目。雖然收集流程可以擴展到其他語言,但這需要額外的工作。

?評估只看單元測試,沒看效率和規范等:評估完全依賴于已有的單元測試是否通過。這無法保證模型生成的代碼是高效、可讀或符合項目編碼規范的,也可能存在無法被現有測試捕獲的潛在問題。

?baseline方法比較簡單,沒有agent方法來評估:論文中的實驗主要采用了相對簡單的檢索方法(BM25和Oracle)來為模型提供上下文。未來可以探索更復雜的、基于智能體(agent-based)的交互式方法,但這超出了本文基線評估的范圍。

二、詳細內容

1.SWE-bench任務在不同倉庫的分布

再看SWE-Bench:論一個好的benchmark是如何推動2025 Agentic編程范式的發展-AI.x社區

image-20250916150923806

?總結:任務分布廣泛,其中??django??? (850個)、??sympy??? (386個) 和??scikit-learn?? (229個) 貢獻了最多的任務實例,體現了基準的多樣性。

2.SWE-bench任務實例的統計特征

再看SWE-Bench:論一個好的benchmark是如何推動2025 Agentic編程范式的發展-AI.x社區

?總結1:任務的上下文非常龐大(平均代碼庫有438K行代碼,3010個文件)。

?總結2:修改的代碼量相對較?。ㄆ骄庉?2.8行,1.7個文件),需要在真實軟件開發過程 中進行“大海撈針”。

3.不同模型在各倉庫上的解決率對比

再看SWE-Bench:論一個好的benchmark是如何推動2025 Agentic編程范式的發展-AI.x社區

image-20250916151010243

?總結:所有模型在各個倉庫上的表現趨勢相似,解決率普遍很低。這表明任務的難度是普遍存在的,并非特定于某個倉庫。有趣的是,不同模型解決的問題集合不完全重疊,說明它們的能力有所差異

4.Claude 2性能與上下文長度的關系

再看SWE-Bench:論一個好的benchmark是如何推動2025 Agentic編程范式的發展-AI.x社區

image-20250916151125521

?總結:隨著輸入上下文(代碼文件)的總長度增加,模型的性能顯著下降。這印證了“大海撈針”問題,即在大量無關上下文中定位和修改代碼對模型來說極其困難。

5.任務實例、模型預測與測試結果示例

再看SWE-Bench:論一個好的benchmark是如何推動2025 Agentic編程范式的發展-AI.x社區

image-20250916151216411

?說明:給了一個包括模型輸入(指令、issue、代碼)、Gold Patch、模型生成的Patch以及最終的測試結果樣例。

三、總結

總結1: 開創了coding評估的新范式(真實軟件開發任務): SWE-bench成功地將代碼模型的評估從“算法問題求解”提升到了 “真實世界軟件工程問題解決”的層面 。它不再是簡單的代碼生成,而是包含了代碼理解、定位、修改和驗證的完整閉環,極大地提升了評估的真實性和挑戰性。

總結2: 構建了可持續、抗飽和的基準: 其自動化的數據收集和驗證流程,使得SWE-bench可以輕松地從任何git倉庫中持續吸收新的問題補充進來,有效避免了像其他基準一樣快速飽和或被模型訓練數據污染的問題。

總結3: 清晰地揭示了當前AI coding能力的邊界: 指出了當前最先進的語言模型在自主軟件工程方面的嚴重不足,為社區提供了明確的研究方向,即如何提升模型在超長上下文處理、復雜邏輯推理和與工具交互方面的能力。

產業應用價值:

?推動Agentic AI在軟件工程領域的發展:SWE-bench的復雜性天然適合作為AI Agent的試驗場。解決這些問題需要模型規劃步驟、使用工具(如搜索、測試框架)、并根據反饋進行迭代,這正是AI Agent的核心能力?,F在從2025年9月回過頭來看,GPT-5-Codex在SWE-bench都刷到72.8%了,該bench還是顯著的推動了ai coding的發展,特別是推動了Agentic方法在編程任務上的進展。

本文轉載自??NLP PaperWeekly??,作者:NLP PaperWeekly

已于2025-9-24 10:45:55修改
收藏
回復
舉報
回復
相關推薦
国产精品老熟女视频一区二区| 日本少妇色视频| 性欧美ⅴideo另类hd| 99视频一区二区| 国产精品国产三级国产专播精品人 | 国产精品久久777777毛茸茸| 一区二区三区久久精品| 精品国产一二区| 91精品韩国| 亚洲美女偷拍久久| 欧美一区二区三区四区在线观看地址 | 91成人在线观看喷潮蘑菇| 中文字幕成在线观看| 亚洲视频狠狠干| 欧美日韩国产综合在线| 国产福利资源在线| 日韩成人免费看| 国内揄拍国内精品| 日韩精品123区| 日韩成人一级| 日韩精品一区二区在线| 五月婷婷之综合激情| 92久久精品| 亚洲欧美日韩成人高清在线一区| 鲁鲁狠狠狠7777一区二区| 999国产精品视频免费| 日韩国产成人精品| 538国产精品视频一区二区| 9999热视频| 日韩精品一卡| 亚洲人成电影在线播放| 国产精品一区二区人妻喷水| 精品国产鲁一鲁****| 在线精品视频小说1| 免费高清在线观看免费| 国内小视频在线看| 亚洲狼人国产精品| 一区二区三区四区| 色综合久久久久综合一本到桃花网| 99精品视频在线免费观看| 国产chinese精品一区二区| 国产精品久久久久久久一区二区| 日韩av中文在线观看| 秋霞午夜一区二区| 成年人视频在线免费看| 最新国产乱人伦偷精品免费网站| 欧美日韩国产va另类| 日韩一区二区三区四区视频| 欧美日韩在线观看视频小说| 国产午夜精品视频| 人人妻人人澡人人爽| 国产一区二区在线| 国产亚洲精品激情久久| 亚洲精品一区二区三区影院忠贞| 亚洲人成伊人成综合图片| 亚洲国产成人在线视频| 人体私拍套图hdxxxx| 看全色黄大色大片免费久久久| 精品久久久久久久久久久久久久久久久 | 7777精品伊人久久久大香线蕉超级流畅 | 亚洲精品一品区二品区三品区 | 小泽玛利亚一区二区三区视频| 性久久久久久| 国产成人91久久精品| 无码人妻一区二区三区免费| 日韩在线a电影| 国产精品夜间视频香蕉| 99久久久久久久| 国产成人精品免费在线| 国产在线一区二区三区欧美| 亚洲色图狠狠干| 久久婷婷久久一区二区三区| 日本精品一区二区三区高清 久久| 国产天堂在线| 亚洲四区在线观看| 91黄色在线看| 小早川怜子影音先锋在线观看| 日本韩国精品在线| 在线看免费毛片| 看全色黄大色大片免费久久久| 精品中文视频在线| 国产又粗又猛又爽又黄的视频四季| 国产精品久久久久久久久妇女| 精品少妇一区二区30p| 日韩乱码人妻无码中文字幕| 日韩不卡一区二区| caoporen国产精品| 极品白浆推特女神在线观看| 亚洲色图欧洲色图| 欧美亚洲精品一区二区| 国产一区影院| 亚洲第一福利网站| 久久视频精品在线观看| 亚洲天堂偷拍| 国产精品午夜视频| 成人久久久精品国产乱码一区二区| 26uuu久久天堂性欧美| 免费看av软件| 黑人巨大精品| 精品欧美乱码久久久久久1区2区| 一区二区精品免费| 女人色偷偷aa久久天堂| 国产成人亚洲综合| 亚洲av色香蕉一区二区三区| 久久久久99精品一区| 一二三在线视频| 成人教育av| 精品日韩欧美一区二区| 国产激情av在线| 国产精品人人爽人人做我的可爱| 91深夜福利视频| 欧美日本韩国一区二区| 一区二区三区日韩| 日韩在线不卡一区| 女人丝袜激情亚洲| 久久久久久久爱| 国产三级视频在线播放| 久久青草欧美一区二区三区| 国产xxxx振车| 日韩城人网站| 一区二区三区回区在观看免费视频| 久久久久久久久97| 国产一区二区三区高清播放| 欧洲精品码一区二区三区免费看| 欧美人与禽猛交乱配| 91精品国产综合久久婷婷香蕉| 欧美大波大乳巨大乳| 亚洲精品黄色| 成人av资源网| 欧美aaaxxxx做受视频| 欧美午夜理伦三级在线观看| 欧美熟妇一区二区| 亚洲高清不卡| 国产精品久久久久久久天堂第1集 国产精品久久久久久久免费大片 国产精品久久久久久久久婷婷 | 狠狠色香婷婷久久亚洲精品| 91视频免费入口| 小说区亚洲自拍另类图片专区| 国产精品入口福利| 欧美新色视频| 欧美日韩中文字幕综合视频| 天天躁日日躁狠狠躁av麻豆男男 | 成人福利一区| 欧美高清在线播放| 精品毛片在线观看| 亚洲一区免费视频| 国产精品亚洲一区二区无码| 国语对白精品一区二区| 91文字幕巨乱亚洲香蕉| 国产suv精品一区二区68| 色婷婷av一区二区三区之红樱桃| 国产午夜精品久久久久久久| 久热免费在线观看| 欧美人与牛zoz0性行为| 国产成人极品视频| 高清中文字幕一区二区三区| 欧美色精品在线视频| 国产视频不卡在线| 久久av资源网| 喜爱夜蒲2在线| 福利在线一区| 5278欧美一区二区三区| 国产小视频免费在线观看| 91传媒视频在线播放| 色www亚洲国产阿娇yao| 国产中文一区二区三区| 国产欧美123| 欧美精品中文字幕亚洲专区| 日本国产高清不卡| 无码人妻久久一区二区三区蜜桃| 77777影视视频在线观看| 欧美日韩免费观看一区二区三区| 欧美日韩生活片| 国产一区在线观看视频| a级黄色小视频| 国产麻豆一区二区三区精品视频| 国产精品电影一区| av片在线观看免费| 日韩av一区二区在线| 探花视频在线观看| 一区在线播放视频| 亚洲男女在线观看| 日韩电影在线观看电影| 国产 国语对白 露脸 | 欧美一区永久视频免费观看| 久久久久亚洲AV| 国产午夜亚洲精品午夜鲁丝片| 91高清国产视频| 激情欧美一区二区三区| 水蜜桃亚洲精品| 成人av影音| 国产精品久久久一区| 青草在线视频| 亚洲丝袜一区在线| а√中文在线资源库| 色婷婷激情综合| 国产精品白丝喷水在线观看| 99久久综合色| 亚洲一区二区福利视频| 亚洲一区免费| 在线观看三级网站| av亚洲免费| 精品国产第一页| 成人国产精品一区二区网站| 26uuu亚洲伊人春色| 3d玉蒲团在线观看| 国产一区二区三区18| 免费的黄色av| 717成人午夜免费福利电影| 日本一级片免费看| 亚洲黄色小说网站| 91无套直看片红桃在线观看| 91麻豆免费看片| 精品人妻无码中文字幕18禁| 日本vs亚洲vs韩国一区三区二区| 欧美一级欧美一级| 亚洲影视一区| 一区二区三区在线观看www| 亚洲小说图片视频| 国产日本一区二区三区| 精品亚洲a∨一区二区三区18| 国产精欧美一区二区三区| free性欧美| 免费91在线视频| 精品国产99久久久久久| 国产一区二区三区在线播放免费观看| 蜜臀av免费在线观看| 91精品黄色片免费大全| 一级黄色av片| 色综合久久久久| 久久青青草视频| 五月天视频一区| 国产午夜精品无码| 亚洲高清视频的网址| 欧美日韩成人免费观看| 亚洲久草在线视频| 人妻久久一区二区| 亚洲欧洲综合另类在线| www.97视频| 成人免费小视频| 永久免费未视频| 中文字幕中文字幕中文字幕亚洲无线| 欧美老女人性生活视频| 国产欧美日韩视频一区二区| 久久久久久久久久久久久久久| 色综合久久久| 黑人巨大精品欧美一区二区| 久久亚洲国产成人精品性色| 亚洲精品国产品国语在线app| 91精品一区二区三区蜜桃| 自拍偷拍亚洲综合| 国产大片免费看| 亚洲在线观看免费视频| 国产一级特黄a高潮片| 亚洲h精品动漫在线观看| 黄色片视频网站| 狠狠干狠狠久久| 狠狠狠狠狠狠狠| 欧美午夜精品免费| 国产又粗又猛又爽| 日韩美一区二区三区| 国产1区在线观看| 亚洲二区在线播放视频| 三级国产在线观看| 亚洲视频一区二区三区| 天堂а√在线官网| 欧美国产日韩中文字幕在线| 草草在线观看| 国产99久久精品一区二区永久免费 | 婷婷视频一区二区三区| 国产精品免费视频一区二区| 乱亲女h秽乱长久久久| 日韩av影视| 正在播放日韩欧美一页| 免费国产黄色网址| 丝袜美腿亚洲一区| 激情在线观看视频| av网站免费线看精品| 欧美黄色一级生活片| ●精品国产综合乱码久久久久 | 韩国三级在线观看久| 色偷偷偷亚洲综合网另类| 成人影院www在线观看| 91国语精品自产拍在线观看性色| 日本一道高清亚洲日美韩| 亚洲最大成人免费视频| 日韩最新在线| 亚洲综合激情五月| 亚洲欧美日本日韩| 图片区乱熟图片区亚洲| 91女神在线视频| 在线看的片片片免费| 欧美午夜激情小视频| 国产精品一区二区免费视频| 亚洲国产成人久久综合一区| 欧洲日本在线| 日本精品性网站在线观看| 日韩精品一区二区三区中文 | 国产噜噜噜噜噜久久久久久久久| 91精品国产自产在线丝袜啪| 欧美日韩亚洲一区二区三区四区| 亚洲精品国产首次亮相| 大肉大捧一进一出好爽动态图| 国产乱码精品一区二区三区av| 免费观看av网站| 夜夜嗨av一区二区三区四季av| 欧美性受xxx黑人xyx性爽| 精品美女在线播放| 亚洲精品承认| 国产99在线|中文| 激情小说一区| 国产日韩欧美大片| 免费av成人在线| 国产精品久久不卡| 一区二区三区毛片| 国产精品视频第一页| 亚洲图中文字幕| 美女搞黄视频在线观看| 春色成人在线视频| 91久久电影| 奇米视频7777| 国产欧美日韩精品一区| 成人午夜淫片100集| 精品国产乱码久久久久久牛牛 | 欧美一区二区三区黄片| 久久伊人精品一区二区三区| 日韩经典一区| 欧洲亚洲一区二区| 免费永久网站黄欧美| 800av在线播放| 午夜电影一区二区三区| 亚洲成a人片77777精品| 操日韩av在线电影| 国产精品一区三区在线观看| 一区二区不卡在线视频 午夜欧美不卡' | 大j8黑人w巨大888a片| 东方欧美亚洲色图在线| 欧美人妻精品一区二区免费看| 91精品国产综合久久久久久漫画| caoporn国产精品免费视频| 日韩美女主播视频| 免费看成人哺乳视频网站| 国产精品50p| 久久先锋影音av鲁色资源| 久久国产黄色片| 精品亚洲永久免费精品| 另类激情视频| 亚洲精品一品区二品区三品区| 日本在线不卡视频| 中文字幕黄色网址| 欧美精品电影在线播放| 黄色网在线免费看| 69174成人网| 亚洲国产国产亚洲一二三| 先锋资源av在线| 色综合色综合色综合| av成人手机在线| 成人免费观看a| 欧美日韩亚洲三区| 中文乱码人妻一区二区三区视频| 欧美日韩美女在线观看| 蜜桃视频在线播放| 国产精品久久久久久久美男| 欧美va久久久噜噜噜久久| 性鲍视频在线观看| 亚洲国产精品久久久久婷婷884 | 霍思燕三级露全乳照| 26uuu亚洲婷婷狠狠天堂| 久久久久精彩视频| 欧美成人午夜免费视在线看片| 精品伊人久久久| 免费看国产黄色片| 亚洲精品乱码久久久久久 | www 久久久| 国产无限制自拍| 国产亚洲成aⅴ人片在线观看 | 欧美mv和日韩mv国产网站| 九色porny丨国产首页在线| 亚欧精品在线| 国产91丝袜在线观看| 亚洲欧美偷拍视频| yellow中文字幕久久| 国产精品nxnn| 污色网站在线观看| 亚洲一区二区在线观看视频| 毛片网站在线观看| 2014亚洲精品| 六月婷婷一区| av激情在线观看| 亚洲女人天堂视频| 精品国产三级| 国产成人综合一区| 亚洲一区在线视频| 在线观看h片| 国产尤物99| 精品一区二区综合| 国产寡妇亲子伦一区二区三区四区| 久久精品国产免费观看| 自拍视频一区| 日韩大尺度视频| 精品视频123区在线观看|