周靖人署名，通義實驗室開源智能體自進化系統(tǒng)：讓模型學會“自我反思”，14B也能越級打怪

2025-11-20 08:47:00

通過自我提問、自我導航、自我歸因三個模塊，AgentEvolver可以在開放環(huán)境中自主演化出行為能力。

智能體自進化，阿里開源了新成果。

通義實驗室提出了一種能夠自進化的智能體系統(tǒng)——AgentEvolver。

通過自我提問、自我導航、自我歸因三個模塊，AgentEvolver可以在開放環(huán)境中自主演化出行為能力。

在相同規(guī)模的14B模型上，AgentEvolver將基準模型的平均完成率從29.8%大幅提高到57.6%。

目前該系統(tǒng)已在GitHub上線，技術報告也同步發(fā)布，作者署名當中包括了阿里副總裁、阿里云智能CTO周靖人。

模型智能體效果飛升

從綜合性能來看，AgentEvolver在AppWorld和BFCL v3等長程復雜任務基準測試中展現(xiàn)了驚人的爆發(fā)力。

以14B模型為基座，其任務平均完成率（avg@8）從29.8%飆升至57.6%，實現(xiàn)了近乎翻倍的性能增長；在最佳嘗試（best@8）指標上，更是達到了76.7%的高位。

在更小參數(shù)量的7B模型上的提升也同樣顯著，平均完成率從15.8%躍升至45.2%，證明了該框架對不同規(guī)模模型的普適性增強能力。

這種進化不僅體現(xiàn)在分數(shù)的增長，更帶來了“越級挑戰(zhàn)”的效果，經(jīng)過強化后的14B模型，在特定任務上的表現(xiàn)已經(jīng)超越了未經(jīng)過同類優(yōu)化的32B乃至更大參數(shù)量的模型（如Qwen2.5-32B）。

除了最終效果的上限被拔高，AgentEvolver在學習效率上也表現(xiàn)出了極速收斂的特性。

實驗表明，在達到基線模型90%性能水平時，AgentEvolver所需的訓練步數(shù)大幅減少，在AppWorld任務中減少了55.6%，在BFCL任務中更是減少了66.7%。

這意味著它不僅學得更好，而且學得更快，極大地降低了訓練的時間成本和算力消耗。

并且這種自進化獲得的能力具備極強的跨域泛化性。

研究人員發(fā)現(xiàn)，僅使用合成數(shù)據(jù)訓練出的模型，在遷移到未曾見過的全新領域時，依然保持了極高的性能。

例如，在AppWorld上訓練的模型直接用于解決BFCL任務時，性能衰減微乎其微。

這說明AgentEvolver并非是在記憶特定環(huán)境的題庫，而是真正掌握了通用的工具使用與推理邏輯能力。

AgentEvolver的本質(zhì)是利用LLM自身的理解力，構建了一個數(shù)據(jù)-探索-反饋的自動化流程。

從整體架構來看，系統(tǒng)由Master節(jié)點統(tǒng)一調(diào)度，驅動著由任務生成、軌跡采樣、經(jīng)驗總結和模型優(yōu)化這四個階段構成的自動化閉環(huán)，實現(xiàn)了無需人工干預的持續(xù)迭代。

為了支持大規(guī)模訓練，框架采用了服務化解耦設計，將環(huán)境服務、模型服務和封裝了Agent邏輯的執(zhí)行層拆分為獨立服務。

針對長程任務中Token消耗大、記憶管理難的痛點，系統(tǒng)還引入了上下文管理器，在保證推理連貫性的同時，有效控制了顯存開銷，并支持從滑動窗口到自主記憶管理的多種策略。

系統(tǒng)內(nèi)置了基礎因果、推理增強、滑動窗口以及自主上下文管理四種典型范式，涵蓋了從追求極致效率到賦予Agent主動刪減記憶權利的不同需求。

在此架構支撐下，AgentEvolver通過三個核心機制——自我提問、自我導航與自我歸因——實現(xiàn)了能力的自主演化。

自進化的邏輯起點始于對環(huán)境的主動認知與任務構建。

面對新環(huán)境無任務可做的冷啟動困境，系統(tǒng)通過自我提問（Self-Questioning）機制，利用LLM的生成能力結合環(huán)境探索中感知的特征（如API功能或界面布局），主動合成具有挑戰(zhàn)性且符合邏輯的候選任務來構建訓練課程。

這使得系統(tǒng)能夠自動生產(chǎn)出覆蓋不同難度和多樣性的訓練集，有效打破了對外部數(shù)據(jù)的依賴，解決了強化學習中常見環(huán)境適應性差的問題。

當訓練課程確立后，如何避免在復雜環(huán)境中的盲目試錯，決定了進化的速度。

對此，系統(tǒng)引入了自我導航（Self-Navigating）機制來破解低效探索的難題。

該機制將歷史探索中的成功軌跡和失敗教訓抽象為結構化的文本經(jīng)驗。

在執(zhí)行新任務時，智能體不再是從零開始，而是能夠通過檢索相似的過往經(jīng)驗，利用上下文學習指導當前的決策路徑。

這種機制讓智能體具備了“舉一反三”的能力，能夠避開已知的錯誤路徑，顯著提高了探索成功率。

而在執(zhí)行環(huán)節(jié)之外，如何從成敗中提取精準的反饋信號，同樣是決定進化質(zhì)量的關鍵。

針對長程任務中往往只有做完最后一步才知道成敗的獎勵稀疏痛點，AgentEvolver設計了自我歸因（Self-Attributing）機制。

系統(tǒng)引入了基于LLM的過程獎勵模型，不再粗放地依賴最終結果，而是對軌跡中的每一個動作步驟進行細粒度的因果分析和打分。

這種機制將粗粒度的結果獎勵轉化為細粒度的過程監(jiān)督信號，極大地提升了策略優(yōu)化的樣本效率，確保每一次嘗試都能轉化為有效的學習信號。

GitHub：https://github.com/modelscope/AgentEvolver
技術報告：https://arxiv.org/abs/2511.10395

責任編輯：張燕妮來源：量子位