DeepAgent:能夠自主找工具的深度思考智能體,工具&任務隨心配
大型推理模型(LRMs)雖然在復雜問題求解中展現出強大能力,但現實任務往往需要借助外部工具并進行長期交互。現有智能體框架大多遵循預定義的工作流程,這限制了它們的自主性和全局任務完成能力。為此,來自中國人民大學、小紅書等機構的研究者提出了 DeepAgent——一個端到端的深度推理智能體,能夠在單一連貫的推理過程中自主思考、發現工具并執行動作。通過引入自主記憶折疊機制和端到端強化學習訓練方法ToolPO,DeepAgent在8個基準測試中持續超越基線方法,在標注工具和開放集工具檢索場景下均表現出色。這項工作為構建更通用、更強大的真實世界智能體邁出了重要一步。
Paper: https://arxiv.org/abs/2510.21618
GitHub: https://github.com/RUC-NLPIR/DeepAgent
?? Demo演示
1?? 通用智能體任務:16,000+ RapidAPI工具庫

DeepAgent 是一個具備可擴展工具集的推理智能體,能夠從超過16,000個RapidAPI中搜索并使用合適的工具,以端到端的智能體推理過程解決通用任務。(注:由于ToolBench中的部分API已不可用,此演示中的API響應由LLM模擬,以展示系統的正常功能。)
2?? 具身AI智能體:ALFWorld環境導航任務

DeepAgent 同樣擅長基于導航的任務(如網頁瀏覽、操作系統交互和具身AI),通過使用一套可插拔的多樣化動作集(如移動、觀察、拾取等)來完成復雜的環境交互任務。
3?? 深度研究任務:專業工具集加持

DeepAgent 還可以作為強大的研究助手,配備了專門的工具來支持網絡搜索、網頁瀏覽、代碼執行、視覺問答和文件處理等功能,幫助用戶完成深度研究任務。
研究動機:突破傳統智能體的局限
大型推理模型(LRMs)如OpenAI-o1、DeepSeek-R1等通過"慢思考"過程在數學、編程和科學推理等復雜領域展現了卓越的問題求解能力。然而,現實世界的任務往往需要外部工具的支持和長期的環境交互才能完成。
現有的智能體框架主要面臨以下挑戰:
傳統智能體的局限性:
- 缺乏自主性:如ReAct、Plan-and-Solve等方法遵循預定義的"規劃-執行-觀察"循環,無法自主決定執行步驟和整體流程
- 工具預先指定:需要提前確定使用哪些工具,無法在任務執行過程中動態發現新工具
- 記憶管理不足:缺乏全自主的交互記憶管理能力
- 推理深度受限:每步只關注局部目標,缺乏對整個任務的全局視角
深度研究智能體的限制: 雖然Search-o1、DeepResearcher等探索了在推理過程中集成工具使用的新范式,但它們通常局限于少量預定義工具(如網絡搜索、頁面瀏覽、代碼執行),這大大限制了它們在多樣化真實場景中的適用性。

智能體范式對比:(a)傳統智能體采用預定義工作流,(b)深度研究智能體可以自主調用有限工具,(c)DeepAgent——完全自主的推理智能體,能夠在連續的智能體推理過程中動態發現和調用有用的工具。
DeepAgent:全自主的端到端推理智能體
為應對上述挑戰,我們提出了 DeepAgent,一個能夠在單一連貫的推理過程中動態檢索和調用工具來完成整個任務的端到端深度推理智能體。
核心特性
- 自主工具發現與調用 (Autonomous Tool Search and Calling):
- 打破傳統預定義工具的限制,工具不是預先檢索,而是根據需要動態發現
- 在推理過程中自主生成工具搜索查詢,通過密集檢索從大規模工具集中找到相關工具
- 生成結構化的工具調用指令,執行后將結果反饋到推理上下文中
- 完全釋放大型推理模型的自主潛力
- 自主記憶折疊機制 (Autonomous Memory Folding):
- 使DeepAgent能夠在長期交互中徹底而穩健地探索新工具和復雜環境
- 可在思考過程中的任何邏輯點觸發記憶折疊,將先前的思考和交互歷史壓縮為結構化記憶
- 不僅節省token、提高推理效率,還為智能體提供"喘息"機會
- 防止陷入錯誤探索路徑,使其能夠重新考慮策略,提高整體成功率
- 腦啟發式記憶架構 (Brain-Inspired Memory Schema):
- 情節記憶 (Episodic Memory):記錄關鍵事件、主要決策點和子任務完成情況,提供任務結構的長期上下文
- 工作記憶 (Working Memory):包含最新信息,如當前子目標、遇到的障礙和近期計劃,確保推理連續性
- 工具記憶 (Tool Memory):整合所有工具相關交互,包括使用過的工具、調用方式及其有效性,幫助智能體從經驗中學習
- 采用JSON格式的智能體可用數據模式,確保壓縮記憶的穩定性和實用性
- ToolPO:端到端強化學習訓練 (End-to-End RL Training with ToolPO):
- LLM模擬API:利用LLM模擬真實世界API,避免訓練過程中的不穩定性、延遲和高成本
- 工具調用優勢歸因:精確地將信用分配給負責正確工具調用的特定token,提供更細粒度的學習信號
- 全局和局部優勢結合:既獎勵最終任務成功,也獎勵中間正確的工具調用
- 確保通用工具使用的高效穩定訓練

DeepAgent框架概覽:主推理模型在統一的思考過程中自主發現工具、執行動作并折疊先前記憶以使用結構化記憶重新開始。DeepAgent通過ToolPO進行端到端訓練,這是一種使用工具模擬器模擬大規模真實世界工具API的RL方法,并通過細粒度優勢歸因獎勵最終任務成功和正確的中間工具調用。
與傳統智能體框架的對比
DeepAgent與傳統智能體框架有著本質區別:
- 傳統工作流方法(ReAct、Plan-and-Solve):遵循固定的執行模式,每個生成步驟只關注即時目標,缺乏全局視角
- 深度研究智能體(Search-o1、DeepResearcher):可以自主調用工具,但局限于少量研究導向的工具
- DeepAgent:完全由推理模型驅動,在連續推理中實現端到端任務執行。模型保持對整個任務的全局視角,不受特定孤立操作的約束,工具根據需要動態發現
實驗效果
我們在廣泛的基準測試中對DeepAgent進行了全面評估,涵蓋通用工具使用任務和下游應用兩大類別:
1. 通用工具使用任務的卓越表現

通用工具使用任務的實驗結果

下游應用任務的實驗結果
我們在5個通用工具使用基準上進行了測試,工具規模從數十個到超過一萬個:
- ToolBench:基于16,000+真實世界API的大規模基準
- API-Bank:包含73個API和314個人工標注對話的綜合基準
- RestBench(TMDB & Spotify):模擬真實REST應用的場景
- ToolHop:需要3-7步序列工具調用的多跳推理數據集
在這些任務中,DeepAgent展現出顯著優勢:
- 端到端推理超越工作流方法:在標注工具任務中,DeepAgent-32B-RL在TMDB上達到89.0%的成功率,在Spotify上達到75.4%,遠超最強32B基線的55.0%和52.6%
- 開放集場景下的魯棒性:在需要動態工具發現的開放集場景中優勢更明顯。在ToolBench和ToolHop上,DeepAgent-32B-RL分別達到64.0%和40.6%的成功率,遠超頂級基線的54.0%和29.0%
- ToolPO訓練的增益:經過ToolPO訓練的DeepAgent-32B-RL相比基礎版本,在ToolBench上提升6.0%,在Spotify上提升5.2%
2. 下游應用任務的強大適應性
我們在4個需要特定領域工具集的下游應用上進行評估:
- ALFWorld:文本環境中的具身AI任務,需要使用9個基本動作完成目標
- WebShop:在線購物環境,需要通過搜索和點擊操作滿足用戶購物需求
- GAIA:復雜的信息檢索基準,配備網絡搜索、頁面瀏覽、VQA、代碼執行和文件讀取工具
- Humanity's Last Exam (HLE):極高難度的推理問題集
關鍵發現:
- 自主推理范式普遍優于工作流方法:在GAIA上,DeepAgent-32B-Base(46.7)和HiRA(42.5)顯著超越最佳工作流方法CodeAct(34.5)。在WebShop上,DeepAgent-32B-Base(32.0)大幅領先CodeAct(18.0)
- 達到SOTA性能:DeepAgent-32B-RL在32B模型中表現最佳——GAIA得分53.3(vs. HiRA的42.5),ALFWorld成功率91.8%(vs. HiRA的84.3%)
- 持續的訓練收益:ToolPO訓練使GAIA得分從46.7提升至53.3(+6.6),ALFWorld成功率從88.1%提升至91.8%(+3.7)
3. 自主工具檢索策略的有效性

自主工具檢索vs預檢索工具的對比分析
為比較預檢索工具與任務執行期間自主發現的效果,我們進行了對照實驗:
- 按需動態發現的優越性:推理過程中的自主工具檢索在所有框架中均優于預檢索工具,在大規模工具集(ToolBench的16k工具、ToolHop的3.9k工具)上優勢最顯著
- DeepAgent與動態檢索的協同效應:結合自主工具檢索,DeepAgent平均得分52.6,大幅領先最佳工作流方法的28.5,證明DeepAgent架構特別適合動態工具發現
4. 動作限制的擴展性分析

最大動作限制對性能的影響
隨著最大動作次數的增加:
- DeepAgent始終顯著優于ReAct基線:在所有測試的動作限制下,在WebShop和GAIA兩個數據集上均表現更優
- 更強的擴展能力:隨著動作限制增加,DeepAgent與ReAct的性能差距擴大,特別是在WebShop上。這表明DeepAgent能夠戰略性地選擇有效的、與任務相關的動作,避免限制ReAct擴展性的浪費性步驟
5. 不同基座模型的泛化能力

基于不同推理模型的性能對比
我們在不同規模的MoE推理模型上測試了DeepAgent:
- 持續優于工作流方法:無論是30B還是235B的MoE推理模型作為基座,DeepAgent都保持對ReAct和Plan-and-Solve的顯著性能優勢
- 有效的模型擴展:所有方法都受益于從30B到235B模型的擴展,但DeepAgent在復雜應用任務上顯示出最大的絕對性能提升
6. 消融實驗:各組件的貢獻
我們通過消融實驗驗證了DeepAgent各組件的有效性:
- ToolPO訓練最為關鍵:移除ToolPO訓練(基礎模型)導致最顯著的性能下降(從48.1降至44.3),突顯了端到端RL方法的核心作用
- 記憶折疊的重要性:沒有記憶折疊,性能也大幅下降(平均分降至44.2),特別是在長期任務GAIA上(從53.3降至44.7)。這證實了自主記憶折疊機制對于魯棒的長期交互至關重要
- 訓練策略的貢獻:移除工具模擬器和工具調用優勢歸因都會導致性能下降,驗證了工具模擬器實現了更穩定的訓練,細粒度優勢歸因提供了精確的學習信號
本文轉載自??PaperAgent??

















