突破Claude-4編程上限!自進化Agent框架拿下新SOTA,底模越好性能越高,已開源
突破多步推理瓶頸,讓Claude-3.7-Sonnet解題成功率暴增20.6%。
在SWE-Bench Verified上刷新開源框架SOTA!
中科院、清華大學、階躍星辰等提出SE-Agent,一個創新的自進化(Self-Evolution)框架。
它不再滿足于簡單地“多想幾次”,而是讓智能體學會系統性地修訂、重組與精煉其整個思考過程,通過多軌跡間的相互啟發與對抗,探索更廣闊、更多樣化的解決方案空間。
隨著Claude 4模型的發布,SE-Agent的性能被推向新的高度:在SWE-Bench Verify上,它取得了高達80%的Top-1 Resolution Rate,再次刷新了領域紀錄。
這充分證明該框架可以隨著基礎模型升級而不斷進步。
圖片
核心思想:從“獨立嘗試”到“集體進化”
大語言模型(LLM)驅動的智能體在處理復雜推理和工具使用方面展現了驚人的潛力,尤其是在軟件工程等需要多步驟交互的任務上。然而,現有方法(如蒙特卡洛樹搜索 MCTS)常常陷入困境:它們將每次的解決嘗試(即“軌跡”)視為獨立事件,忽視了不同解決方案路徑之間的內在聯系,導致思維固化,難以跳出局部最優解。
通俗來說,傳統智能體就像一群各自為戰的士兵,雖然人數眾多,但缺乏協同。SE-Agent則引入了“進化”的視角,將每一次解決問題的完整路徑(軌跡)視為一個“物種”,通過三大核心操作,讓這些“物種”在一個“生態系統”中迭代進化,優勝劣汰。
圖片
SE-Agent的三大進化算子
1、修訂(Revision)-深度自省與定向改進
生成初始多樣性:首先,通過多樣的規劃策略和可控的“突變”,生成一個包含不同解題思路的初始軌跡池,確保進化的起點足夠豐富。
反思與修正:隨后,智能體對每一條初始軌跡進行“復盤”,分析其優缺點、邏輯斷點和潛在的改進空間,然后進行有針對性的修正,消除邏輯不一致和冗余推理,完成個體的自我完善。
2、重組(Recombination)-跨軌跡的“雜交”與學習
這是SE-Agent最具創新性的部分。它不再將軌跡視為孤島,而是促進它們之間的“知識共享”。
交叉融合(Crossover):識別并提取不同軌跡中的高效片段(例如,一個軌跡擅長定位問題,另一個擅長編寫修復代碼),然后將這些“優勢基因”組合起來,創造出全新的、更強大的混合軌跡。
知識遷移(Transfer Learning):將成功軌跡中的關鍵策略和洞見,系統性地“嫁接”到其他表現較差的軌跡上,實現“差生”向“優等生”的學習。
3、精煉(Refinement)-多維評估與優化選擇
在每一輪進化后,SE-Agent會通過一個多維度評估函數(綜合考量任務完成度、推理質量和效率)對所有新舊軌跡進行打分。
精英選擇:保留得分最高的“精英”軌跡,同時通過策略性選擇確保軌跡的多樣性,避免所有方案趨同。這個過程不斷迭代,直到找到能夠穩健解決問題的最優解。
在最具挑戰性的代碼基準上實現 SOTA
研究團隊以SWE agent作為我們的Baseline,在公認極具挑戰性的SWE-bench Verified基準(包含500個真實GitHub問題)上對SE-Agent進行了全面評測。結果顯示,SE-Agent在所有測試的LLM上都實現了顯著的性能提升。
開源模型表現(Pass@1):
- DeepSeek-V3:從31.6%提升至54.8%(+73%相對提升)
- Qwen-2.5-72B:從18.8%提升至38.8%(+106%相對提升)
- Llama-3.1-70B:從15.4%提升至32.6%(+112%相對提升)
閉源模型表現(Pass@1):
- GPT-4o:從22.4%提升至40.4%(+80%相對提升)
- Claude-3.7-Sonnet:從40.6%提升至61.2%(+51%相對提升)
圖片
值得注意的是,SE-Agent在Claude-3.7-Sonnet上達到了61.2%的首次嘗試成功率,這創造了開源智能體框架在SWE-bench Verified上的最佳性能記錄。消融實驗進一步證明,修訂和重組兩大模塊對于框架的成功至關重要。
核心優勢與技術突破
SE-Agent的成功源于對現有智能體范式的幾大核心突破:
1、真正的解決方案多樣性:不同于傳統方法僅在表面表達上有所不同,SE-Agent通過軌跡級干預,生成本質上不同的解決路徑,大幅擴展了候選解決方案空間。
2、跨軌跡協同智能:SE-Agent充分利用軌跡間的豐富相互依賴關系和潛在協同效應,實現了集體智慧的最大化,突破了單一智能體的認知局限。
3、高效進化收斂:相比傳統遺傳算法,SE-Agent通過結構化的進化機制,能在顯著更少的進化周期內實現高質量結果。
4、模型無關的即插即用:SE-Agent作為一個獨立的優化模塊,可與現有智能體框架無縫集成,在多種 LLM 上都展現出一致的、強大的性能提升。
案例研究:SE-Agent如何跳出思維定勢?
在一個scikit-learn的真實Bug修復案例中,傳統智能體的問題顯露無遺。
圖片
傳統智能體(上圖):所有嘗試都緊盯報錯信息出現的_validation.py文件,提出的修復方案幾乎是“換湯不換藥”的重復,始終無法觸及問題的根源,導致測試失敗。
SE-Agent(下圖):通過軌跡的重組與進化,SE-Agent強迫自己探索了完全不同的方向。它跳出了最初報錯的文件,成功定位到根源在于multioutput.py文件缺少了一個關鍵字段的寫入。最終,通過一行代碼的根本性修復,完美通過了所有測試。
這個案例生動地說明了SE-Agent如何通過在軌跡層面進行演化,有效避免了“隧道視野”,從而發現那些隱藏更深、也更為關鍵的解決方案。
結論與技術影響
SE-Agent的提出,為提升LLM智能體的復雜推理能力提供了一個全新的、高效的范式。其重要影響在于:
1、開創了軌跡級優化范式:從傳統的參數調整轉向系統性的推理路徑操作,為智能體能力提升提供了新的理論基礎。
2、驗證了集體智慧機制:證明了通過跨軌跡學習實現智能體群體智慧的有機融合,是突破單一智能體認知瓶頸的有效途徑。
3、構建了自進化智能系統:為實現能夠持續自我改進的智能體系統鋪平了道路。
展望未來,研究團隊計劃將SE-Agent的自進化思想擴展到更廣泛的路徑搜索問題中,例如強化學習策略發現、具身智能規劃等,為通往更強大、更魯棒的通用人工智能持續貢獻力量。
論文標題: SE-Agent: Self-Evolution Trajectory Optimization in Multi-Step Reasoning with LLM-Based Agents




































