突破Claude-4編程上限！自進化Agent框架拿下新SOTA，底模越好性能越高，已開源

2025-08-19 11:26:46

人工智能

隨著Claude 4模型的發布，SE-Agent的性能被推向新的高度：在SWE-Bench Verify上，它取得了高達80%的Top-1 Resolution Rate，再次刷新了領域紀錄。

突破多步推理瓶頸，讓Claude-3.7-Sonnet解題成功率暴增20.6%。

在SWE-Bench Verified上刷新開源框架SOTA！

中科院、清華大學、階躍星辰等提出SE-Agent，一個創新的自進化（Self-Evolution）框架。

它不再滿足于簡單地“多想幾次”，而是讓智能體學會系統性地修訂、重組與精煉其整個思考過程，通過多軌跡間的相互啟發與對抗，探索更廣闊、更多樣化的解決方案空間。

隨著Claude 4模型的發布，SE-Agent的性能被推向新的高度：在SWE-Bench Verify上，它取得了高達80%的Top-1 Resolution Rate，再次刷新了領域紀錄。

這充分證明該框架可以隨著基礎模型升級而不斷進步。

圖片

核心思想：從“獨立嘗試”到“集體進化”

大語言模型（LLM）驅動的智能體在處理復雜推理和工具使用方面展現了驚人的潛力，尤其是在軟件工程等需要多步驟交互的任務上。然而，現有方法（如蒙特卡洛樹搜索 MCTS）常常陷入困境：它們將每次的解決嘗試（即“軌跡”）視為獨立事件，忽視了不同解決方案路徑之間的內在聯系，導致思維固化，難以跳出局部最優解。

通俗來說，傳統智能體就像一群各自為戰的士兵，雖然人數眾多，但缺乏協同。SE-Agent則引入了“進化”的視角，將每一次解決問題的完整路徑（軌跡）視為一個“物種”，通過三大核心操作，讓這些“物種”在一個“生態系統”中迭代進化，優勝劣汰。

圖片

SE-Agent的三大進化算子

1、修訂（Revision）-深度自省與定向改進

生成初始多樣性：首先，通過多樣的規劃策略和可控的“突變”，生成一個包含不同解題思路的初始軌跡池，確保進化的起點足夠豐富。

反思與修正：隨后，智能體對每一條初始軌跡進行“復盤”，分析其優缺點、邏輯斷點和潛在的改進空間，然后進行有針對性的修正，消除邏輯不一致和冗余推理，完成個體的自我完善。

2、重組（Recombination）-跨軌跡的“雜交”與學習

這是SE-Agent最具創新性的部分。它不再將軌跡視為孤島，而是促進它們之間的“知識共享”。

交叉融合（Crossover）：識別并提取不同軌跡中的高效片段（例如，一個軌跡擅長定位問題，另一個擅長編寫修復代碼），然后將這些“優勢基因”組合起來，創造出全新的、更強大的混合軌跡。

知識遷移（Transfer Learning）：將成功軌跡中的關鍵策略和洞見，系統性地“嫁接”到其他表現較差的軌跡上，實現“差生”向“優等生”的學習。

3、精煉（Refinement）-多維評估與優化選擇

在每一輪進化后，SE-Agent會通過一個多維度評估函數（綜合考量任務完成度、推理質量和效率）對所有新舊軌跡進行打分。

精英選擇：保留得分最高的“精英”軌跡，同時通過策略性選擇確保軌跡的多樣性，避免所有方案趨同。這個過程不斷迭代，直到找到能夠穩健解決問題的最優解。

在最具挑戰性的代碼基準上實現 SOTA

研究團隊以SWE agent作為我們的Baseline，在公認極具挑戰性的SWE-bench Verified基準（包含500個真實GitHub問題）上對SE-Agent進行了全面評測。結果顯示，SE-Agent在所有測試的LLM上都實現了顯著的性能提升。

開源模型表現（Pass@1）：

DeepSeek-V3：從31.6%提升至54.8%（+73%相對提升）
Qwen-2.5-72B：從18.8%提升至38.8%（+106%相對提升）
Llama-3.1-70B：從15.4%提升至32.6%（+112%相對提升）

閉源模型表現（Pass@1）：

GPT-4o：從22.4%提升至40.4%（+80%相對提升）
Claude-3.7-Sonnet：從40.6%提升至61.2%（+51%相對提升）

圖片

值得注意的是，SE-Agent在Claude-3.7-Sonnet上達到了61.2%的首次嘗試成功率，這創造了開源智能體框架在SWE-bench Verified上的最佳性能記錄。消融實驗進一步證明，修訂和重組兩大模塊對于框架的成功至關重要。

核心優勢與技術突破

SE-Agent的成功源于對現有智能體范式的幾大核心突破：

1、真正的解決方案多樣性：不同于傳統方法僅在表面表達上有所不同，SE-Agent通過軌跡級干預，生成本質上不同的解決路徑，大幅擴展了候選解決方案空間。

2、跨軌跡協同智能：SE-Agent充分利用軌跡間的豐富相互依賴關系和潛在協同效應，實現了集體智慧的最大化，突破了單一智能體的認知局限。

3、高效進化收斂：相比傳統遺傳算法，SE-Agent通過結構化的進化機制，能在顯著更少的進化周期內實現高質量結果。

4、模型無關的即插即用：SE-Agent作為一個獨立的優化模塊，可與現有智能體框架無縫集成，在多種 LLM 上都展現出一致的、強大的性能提升。

案例研究：SE-Agent如何跳出思維定勢？

在一個scikit-learn的真實Bug修復案例中，傳統智能體的問題顯露無遺。

圖片

傳統智能體（上圖）：所有嘗試都緊盯報錯信息出現的_validation.py文件，提出的修復方案幾乎是“換湯不換藥”的重復，始終無法觸及問題的根源，導致測試失敗。

SE-Agent（下圖）：通過軌跡的重組與進化，SE-Agent強迫自己探索了完全不同的方向。它跳出了最初報錯的文件，成功定位到根源在于multioutput.py文件缺少了一個關鍵字段的寫入。最終，通過一行代碼的根本性修復，完美通過了所有測試。

這個案例生動地說明了SE-Agent如何通過在軌跡層面進行演化，有效避免了“隧道視野”，從而發現那些隱藏更深、也更為關鍵的解決方案。

結論與技術影響

SE-Agent的提出，為提升LLM智能體的復雜推理能力提供了一個全新的、高效的范式。其重要影響在于：

1、開創了軌跡級優化范式：從傳統的參數調整轉向系統性的推理路徑操作，為智能體能力提升提供了新的理論基礎。

2、驗證了集體智慧機制：證明了通過跨軌跡學習實現智能體群體智慧的有機融合，是突破單一智能體認知瓶頸的有效途徑。

3、構建了自進化智能系統：為實現能夠持續自我改進的智能體系統鋪平了道路。

展望未來，研究團隊計劃將SE-Agent的自進化思想擴展到更廣泛的路徑搜索問題中，例如強化學習策略發現、具身智能規劃等，為通往更強大、更魯棒的通用人工智能持續貢獻力量。

論文標題： SE-Agent: Self-Evolution Trajectory Optimization in Multi-Step Reasoning with LLM-Based Agents

論文鏈接： https://arxiv.org/pdf/2508.02085

開源代碼： https://github.com/JARVIS-Xs/SE-Agent

責任編輯：武曉燕來源：量子位