周靖人署名,通義實驗室開源智能體自進化系統(tǒng):讓模型學會“自我反思”,14B也能越級打怪
智能體自進化,阿里開源了新成果。
通義實驗室提出了一種能夠自進化的智能體系統(tǒng)——AgentEvolver。

通過自我提問、自我導航、自我歸因三個模塊,AgentEvolver可以在開放環(huán)境中自主演化出行為能力。
在相同規(guī)模的14B模型上,AgentEvolver將基準模型的平均完成率從29.8%大幅提高到57.6%。
目前該系統(tǒng)已在GitHub上線,技術報告也同步發(fā)布,作者署名當中包括了阿里副總裁、阿里云智能CTO周靖人。

模型智能體效果飛升
從綜合性能來看,AgentEvolver在AppWorld和BFCL v3等長程復雜任務基準測試中展現(xiàn)了驚人的爆發(fā)力。
以14B模型為基座,其任務平均完成率(avg@8)從29.8%飆升至57.6%,實現(xiàn)了近乎翻倍的性能增長;在最佳嘗試(best@8)指標上,更是達到了76.7%的高位。
在更小參數(shù)量的7B模型上的提升也同樣顯著,平均完成率從15.8%躍升至45.2%,證明了該框架對不同規(guī)模模型的普適性增強能力。
這種進化不僅體現(xiàn)在分數(shù)的增長,更帶來了“越級挑戰(zhàn)”的效果,經(jīng)過強化后的14B模型,在特定任務上的表現(xiàn)已經(jīng)超越了未經(jīng)過同類優(yōu)化的32B乃至更大參數(shù)量的模型(如Qwen2.5-32B)。

除了最終效果的上限被拔高,AgentEvolver在學習效率上也表現(xiàn)出了極速收斂的特性。
實驗表明,在達到基線模型90%性能水平時,AgentEvolver所需的訓練步數(shù)大幅減少,在AppWorld任務中減少了55.6%,在BFCL任務中更是減少了66.7%。
這意味著它不僅學得更好,而且學得更快,極大地降低了訓練的時間成本和算力消耗。

并且這種自進化獲得的能力具備極強的跨域泛化性。
研究人員發(fā)現(xiàn),僅使用合成數(shù)據(jù)訓練出的模型,在遷移到未曾見過的全新領域時,依然保持了極高的性能。
例如,在AppWorld上訓練的模型直接用于解決BFCL任務時,性能衰減微乎其微。

這說明AgentEvolver并非是在記憶特定環(huán)境的題庫,而是真正掌握了通用的工具使用與推理邏輯能力。
AgentEvolver如何實現(xiàn)自進化?
AgentEvolver的本質(zhì)是利用LLM自身的理解力,構建了一個數(shù)據(jù)-探索-反饋的自動化流程。

從整體架構來看,系統(tǒng)由Master節(jié)點統(tǒng)一調(diào)度,驅動著由任務生成、軌跡采樣、經(jīng)驗總結和模型優(yōu)化這四個階段構成的自動化閉環(huán),實現(xiàn)了無需人工干預的持續(xù)迭代。
為了支持大規(guī)模訓練,框架采用了服務化解耦設計,將環(huán)境服務、模型服務和封裝了Agent邏輯的執(zhí)行層拆分為獨立服務。

針對長程任務中Token消耗大、記憶管理難的痛點,系統(tǒng)還引入了上下文管理器,在保證推理連貫性的同時,有效控制了顯存開銷,并支持從滑動窗口到自主記憶管理的多種策略。
系統(tǒng)內(nèi)置了基礎因果、推理增強、滑動窗口以及自主上下文管理四種典型范式,涵蓋了從追求極致效率到賦予Agent主動刪減記憶權利的不同需求。

在此架構支撐下,AgentEvolver通過三個核心機制——自我提問、自我導航與自我歸因——實現(xiàn)了能力的自主演化。
自進化的邏輯起點始于對環(huán)境的主動認知與任務構建。
面對新環(huán)境無任務可做的冷啟動困境,系統(tǒng)通過自我提問(Self-Questioning)機制,利用LLM的生成能力結合環(huán)境探索中感知的特征(如API功能或界面布局),主動合成具有挑戰(zhàn)性且符合邏輯的候選任務來構建訓練課程。

這使得系統(tǒng)能夠自動生產(chǎn)出覆蓋不同難度和多樣性的訓練集,有效打破了對外部數(shù)據(jù)的依賴,解決了強化學習中常見環(huán)境適應性差的問題。
當訓練課程確立后,如何避免在復雜環(huán)境中的盲目試錯,決定了進化的速度。
對此,系統(tǒng)引入了自我導航(Self-Navigating)機制來破解低效探索的難題。
該機制將歷史探索中的成功軌跡和失敗教訓抽象為結構化的文本經(jīng)驗。
在執(zhí)行新任務時,智能體不再是從零開始,而是能夠通過檢索相似的過往經(jīng)驗,利用上下文學習指導當前的決策路徑。

這種機制讓智能體具備了“舉一反三”的能力,能夠避開已知的錯誤路徑,顯著提高了探索成功率。
而在執(zhí)行環(huán)節(jié)之外,如何從成敗中提取精準的反饋信號,同樣是決定進化質(zhì)量的關鍵。
針對長程任務中往往只有做完最后一步才知道成敗的獎勵稀疏痛點,AgentEvolver設計了自我歸因(Self-Attributing)機制。
系統(tǒng)引入了基于LLM的過程獎勵模型,不再粗放地依賴最終結果,而是對軌跡中的每一個動作步驟進行細粒度的因果分析和打分。

這種機制將粗粒度的結果獎勵轉化為細粒度的過程監(jiān)督信號,極大地提升了策略優(yōu)化的樣本效率,確保每一次嘗試都能轉化為有效的學習信號。
GitHub:https://github.com/modelscope/AgentEvolver
技術報告:https://arxiv.org/abs/2511.10395




































