Agent全自動搭建代碼運行環境,實時更新解決評測過擬合/數據污染問題|微軟
長期以來主流的代碼修復評測基準SWE-bench面臨數據過時、覆蓋面窄、手動維護成本高等問題,嚴重制約了AI模型真實能力的展現。
微軟發布全新代碼修復評測基準SWE-bench-Live,不僅引入了來自GitHub最新的Issue,顯著提升了對模型評估的實時性與準確性,還實現代碼運行環境的全自動化構建與自動更新,打破了傳統靜態評測基準的局限。

△圖1: SWE-bench-Live leaderboard.
全自動化環境搭建
傳統的代碼修復評測基準需要人工構建代碼運行環境,不僅成本高昂,且更新緩慢,難以跟上軟件開發環境的快速變化。SWE-bench-Live開創性地采用了基于Agent的智能化框架REPOLAUNCH,徹底解決了這些問題。
REPOLAUNCH可以根據Github中真實的Issue,自動搭建其Docker環境并執行測試驗證,整個流程完全無人干預,并且每月自動更新,持續提供最新鮮、最具代表性的評測數據。這種自動化的實時更新模式,消除了數據泄露與模型過擬合風險。

△圖2: 自動化流水線流程圖
REPOLAUNCH詳細流程
REPOLAUNCH的核心原理是利用智能agent技術模仿人類開發者的環境構建過程。具體流程包括:
- 相關文件自動識別:智能地提取CI/CD配置、README文件等關鍵信息。
- Docker環境自動選擇與搭建:自動識別項目依賴的基礎鏡像并快速構建容器。
- 智能Agent交互迭代調試:agent以ReAct模式(Reasoning+Action)進行持續迭代和環境調試,模擬開發者行為,快速定位并解決環境問題。
- 環境固化與驗證:成功搭建的環境以Docker鏡像形式固化,確保任何人都能輕松復現和使用。
不僅如此,REPOLAUNCH還具有廣泛的應用潛力,能夠支持更多下游任務。例如:
- 自動化新手環境配置:幫助缺乏經驗的開發者快速搭建復雜的開發環境。
- 構建強化學習反饋環境:為強化學習模型提供自動化的代碼交互反饋環境,加速模型的迭代與優化。
- 遺留項目環境重建:快速恢復歷史或廢棄代碼項目的環境,解決依賴版本沖突等問題。
實驗發現
首次基于SWE-bench-Live的全面評測結果顯示,當前頂尖大模型和代碼Agent的表現大幅下滑。
在完全相同的實驗設置下,在傳統評測基準SWE-bench Verified中達到43.2%準確率的OpenHands + Claude 3.7 Sonnet組合,轉到SWE-bench-Live后僅達到了19.25%的準確率。這一明顯差距揭示了傳統靜態基準中潛在的過擬合問題,表明實時、多樣的數據環境對模型能力的客觀評測至關重要。

△圖3:模型在不同基準上的表現對比圖
如圖進一步深入的實驗分析顯示,即使在SWE-bench-Live中,LLM在修復來自非原有SWE-bench倉庫的新Issue時,其成功率也顯著低于修復原有SWE-bench倉庫的Issue。這一現象說明,現有大模型可能已在傳統靜態評測中形成了一定的過擬合,對于未見過的新倉庫和新問題表現明顯下降,進一步凸顯了SWE-bench-Live實時、動態、多樣性評測的重要性。

△圖4:OpenHands+Claude 3.7 Sonnet在SWE-bench-Live不同倉庫來源的性能對比
多領域覆蓋與多樣化挑戰
SWE-bench-Live的首批任務涵蓋了1319個真實Issue,涉及93個開源項目,領域包括AI/ML、DevOps、Web開發、數據庫、科學計算等多個方向。這種多樣性與高頻實時更新使SWE-bench-Live的評估更加準確,更能反應模型能力的高低。
△圖5:倉庫分布和任務統計圖
進一步分析發現,當前AI模型在處理簡單、單文件修改任務時表現良好,但面對復雜、多文件、多行修改任務時準確率急劇下降。尤其是在面對代碼規模超過50萬行的大型項目時,模型的表現瓶頸尤為明顯。

目前,SWE-bench-Live已在GitHub和HuggingFace平臺全面開放,面向全球開發者和研究人員免費提供。歡迎社區成員積極參與,共同推動AI代碼修復技術的進步。
本文僅代表媒體視角進行內容整理與發布,不代表微軟官方立場,尤其不代表其對相關基準測試結果的任何態度或意圖。
官方主頁/Leaderboard:https://swe-bench-live.github.io
GitHub:https://github.com/microsoft/SWE-bench-Live
HuggingFace:https://huggingface.co/SWE-bench-Live





























