小紅書推出通用推理智能體 DeepAgent:工具&任務隨心配!

在人工智能的浪潮之巔,大型推理模型已展現出解決復雜難題的非凡潛力。然而,當面對真實世界的挑戰時,它們往往因無法靈活使用外部工具集和進行長程、連貫的交互而受限。為了突破這一瓶頸,小紅書團隊推出了 DeepAgent。這不僅是一個AI模型,更是一個全新的端到端深度推理智能體。它革命性地將自主思考、動態工具查找與任務執行融于一次連貫的推理流程中,為通用 Agentic AI 的實現邁出了堅實的一步。
論文標題:
DeepAgent: A General Reasoning Agent with Scalable Toolsets
論文地址:
https://arxiv.org/abs/2510.21618
GitHub地址:
https://github.com/Rednote-DeepExperience/DeepAgent

01、Demo演示
1.1 駕馭海量通用工具:挑戰 16,000+ 真實API
DeepAgent 展示了其強大的可擴展性,能夠在一個包含超過 16,000 個 RapidAPI 的龐大工具庫中,根據任務需求自主搜索、篩選并調用最合適的工具,以連貫的深度思考完成復雜的通用任務。(注:由于 ToolBench 中的部分 API 已不可用,此演示中的 API 響應由 LLM 模擬,以展示系統的正常功能)
1.2 化身具身智能體:在ALFWorld中精準導航
無論是網頁瀏覽、操作系統控制還是與虛擬環境交互,DeepAgent 都能游刃有余。它通過一套靈活可插拔的動作指令集(如移動、觀察、拾取),在 ALFWorld 等具身AI環境中高效完成復雜的目標導向型任務。
1.3 賦能深度研究:變身科研助手
DeepAgent 還能化身強大的科研助手。它配備了一整套專業的工具集,能夠熟練運用網絡搜索、網頁內容提煉、代碼執行、視覺問答及文件處理等高級功能,為用戶提供深度、全面的研究支持。
02、研發背景
為何我們需要一個全新的推理智能體?當前主流的 AI 智能體框架存在明顯天花板:
- 傳統工作流的束縛:像 ReAct、Plan-and-Solve 等框架,被困于預設的“思考-行動-觀察”死板循環中,缺乏任務全局觀和執行自主性。它們需要人類預先指定工具,無法應對未知和變化。
- 現有研究智能體的局限:盡管一些前沿的“深度研究”智能體(如 Search-o1, WebThinker)嘗試在推理中集成工具,但它們能使用的工具集非常有限,通常僅限于搜索、瀏覽等幾種,難以勝任真實世界五花八門的需求。

03、DeepAgent的核心設計
為了打破僵局,DeepAgent從根本上重新設計了智能體的運作模式,其核心設計體現在以下四個方面。
3.1 統一的自主推理核心:從“死板工作流”到“端到端的邊思考、邊找工具、邊調用”
傳統智能體受限于預設的“思考-行動”循環,而 DeepAgent 則由一個強大的推理模型作為核心,在一條完整連貫的“思路鏈”中驅動整個任務。它不再是機械地執行指令,而是真正地進行自主思考。
在推理過程中,當需要與外部世界交互時,DeepAgent 會生成特定的文本指令,如用 `<tool_search>...</tool_search>` 來動態搜索所需工具,或用 `<tool_call>...</tool_call>` 來調用工具。系統會捕捉這些指令并執行相應操作。這種模式賦予了智能體極大的靈活性,工具不再是預設選項,而是按需發現的資源。
此外,為了讓主推理模型能更專注于頂層戰略思考,DeepAgent 還設計了一個輔助大語言模型,負責處理冗長的工具文檔摘要、過濾工具返回的繁雜信息等,確保了核心推理過程的高效與專注。
3.2 自主記憶折疊機制:讓 AI 學會“喘口氣、再思考”
長程任務的一大挑戰是信息過載和“迷失陷阱”。為此,DeepAgent 引入了獨特的“自主記憶折疊”能力。在推理過程的任何關鍵節點——例如完成一個子任務后,或意識到當前探索路徑錯誤時——智能體可以主動生成 `<fold_thought>` 指令,決定“喘口氣”。
收到指令后,系統會借助輔助大模型,將此前冗長的交互歷史壓縮成一份高度結構化的記憶摘要。這個過程不僅能大幅節省計算資源,更重要的是,它為智能體提供了一個寶貴的反思和重新規劃的契機,使其能跳出錯誤的探索循環,調整策略,從而顯著提升復雜任務的最終成功率。
3.3 受人腦啟發的結構化記憶:讓記憶不僅全面,而且易用
為了確保上述“記憶折疊”的過程高效、精準,并實現信息的高保真壓縮,DeepAgent 專門設計了一套先進的腦啟發式結構化記憶系統。所有歷史信息均被整理為穩定、可預測的 JSON 格式,取代了雜亂的自然語言記錄。這種嚴謹的結構化設計是折疊機制的成功基礎,它確保了智能體能夠快速、無歧義地解析和利用這些信息,有效避免了關鍵細節在壓縮與提取過程中的丟失,顯著提高了長期推理的可靠性。該系統包含三個關鍵部分:
- 情節記憶(Episodic Memory): 作為智能體的長期記憶核心,它以高層、宏觀的視角記錄任務的關鍵節點、重大決策和里程碑事件。這不僅提供了任務全局的完整歷史線索,更是支持智能體進行深度反思和長期戰略規劃的依據。
- 工作記憶(Working Memory): 類似于大腦的短期“緩存”,保存當前正在處理的子目標、即時挑戰和下一步行動計劃。它至關重要地保障了智能體在記憶折疊前后的思考連貫性和任務執行的即時性。
- 工具記憶(Tool Memory): 一本動態更新的自學習“工具使用手冊”,系統地記錄了所有已用工具的調用方式、效果好壞,乃至每一次成功與失敗的寶貴經驗。這種結構化的知識積累使得智能體能夠持續優化其工具使用策略,實現工具利用效率的顯著提升。
3.4 高效穩定的ToolPO訓練框架:為通用工具使用量身打造的強化學習
為了將這些先進理念高效地訓練進模型,我們獨創了 ToolPO(Tool Policy Optimization),一個專為通用工具使用設計的端到端強化學習方法。它通過兩大創新解決了訓練中的核心難題:
- 引入“LLM工具模擬器”:在訓練中直接調用成千上萬的真實 API,會因網絡延遲、接口變更等因素導致過程極不穩定且成本高昂。為此,我們利用一個輔助大模型來模擬真實 API 的響應,從而創造了一個穩定、高效且低成本的訓練環境。
- 實現“雙重優勢歸因”:為了讓獎勵更精準,ToolPO 設計了雙重獎勵機制。一是基于最終任務是否成功的“全局獎勵”,該獎勵會被分配給整個思考過程中的所有決策點;二是基于中間工具調用是否正確的“工具獎勵”。最關鍵的是,這部分獎勵通過“優勢歸因”技術,被精準地只傳遞給觸發工具調用的那幾個關鍵 Token。這種精細化的激勵機制,讓智能體能夠更高效、準確地學會如何正確地使用工具。

04、實驗效果
我們在8個業界公認的基準測試中對 DeepAgent 進行了嚴苛的評估,涵蓋了從通用工具使用到復雜的下游應用場景。


關鍵結論:
- 全面超越傳統方法:無論是在給定工具集還是需要自主發現工具的開放場景下,DeepAgent 的端到端推理模式都顯著優于基于工作流的傳統智能體。例如,在 TMDB 基準上,成功率高達 89.0%,遠超同級別模型的 55.0%。
- 無懼開放環境挑戰:在擁有上萬個工具的 ToolBench 測試中,DeepAgent 的成功率達到64.0%,而傳統方法在工具檢索面前表現掙扎,這證明了其在真實開放環境中的強大魯棒性和擴展性。
- 下游應用表現卓越:在具身智能(ALFWorld)、在線購物(WebShop)、通用AI助理(GAIA)等復雜任務中,DeepAgent 同樣取得了 SOTA 性能,展現了其強大的場景適應能力。例如,在 GAIA 任務上得分 53.3,顯著領先于其他先進模型。
- 強大的擴展與泛化能力:實驗證明,DeepAgent 的架構能有效適配不同規模和類型的推理模型作為其“大腦”,并且隨著模型能力的增強,其性能也相應地獲得更大提升,展現了巨大的發展潛力。
除了亮眼的總體表現,我們還通過一系列分析實驗,深入探究 DeepAgent 成功的關鍵所在。
- 更高效穩定的訓練:獨創 ToolPO 方法

我們對比了獨創的 ToolPO 訓練法與傳統的 GRPO 方法。實驗曲線清晰顯示,ToolPO 不僅能讓模型達到更高的性能上限,而且整個訓練過程的獎勵曲線波動更小。這證明,通過引入“工具模擬器”和對工具調用過程的“精準獎勵”,我們能讓智能體在學習使用工具時,學得更快、更好、也更穩定。
- 環環相扣的系統設計:每個組件都不可或缺

我們對 DeepAgent 進行了“拆解”分析,驗證了每個核心組件的價值。結果表明:
- 移除端到端的 ToolPO 訓練,性能下降最多,證明這是提升能力的核心。
- 移除“記憶折疊”機制,在需要長期規劃的 GAIA 任務上性能大幅下滑,說明“喘口氣、再思考”的能力對復雜任務至關重要。
- 移除訓練中的“工具模擬器”和“優勢歸因”,性能均會受損,再次驗證了我們訓練策略的先進性。
- 更聰明的工具檢索策略:邊思考、邊發現

傳統方法通常在任務開始前就“一次性”檢索好所有可能用到的工具,而 DeepAgent 則采用“邊思考、邊發現”的動態策略。實驗證明,DeepAgent 的策略在所有場景下都更優越,尤其是在面對包含上萬個工具的大型工具庫時,其優勢愈發明顯。這證明了DeepAgent 的架構與動態發現的模式完美契合,能更高效地駕馭海量工具。
- 更強的擴展性:思考步數越多,解決問題能力越強

我們通過限制智能體的最大“行動步數”來觀察其性能變化。結果顯示,隨著步數上限的提高,DeepAgent 的性能穩定增長,且與傳統 ReAct 方法的性能差距越拉越大。這說明 DeepAgent 能夠更有效地利用每一步行動,沒有“廢操作”,因此在處理需要更多步驟的復雜任務時,其擴展能力和效率遠超傳統方法。
- 卓越的泛化能力:強大的框架適配不同“大腦”

我們將 DeepAgent 的框架分別應用于 30B 和 235B 參數規模的推理模型上。結果顯示,無論在哪種“大腦”的支持下,DeepAgent 的表現都持續、顯著地優于傳統方法。這證明了 DeepAgent 作為一個通用框架的強大泛化能力,它能有效釋放不同底層模型的能力,并隨模型規模的增大而變得更強。
05、總結與展望:開啟通用智能體新篇章
DeepAgent 通過其統一的推理流程、自主的記憶管理和高效的訓練方法,為構建更通用、更強大的 AI 智能體樹立了新的標桿。它不僅是一個模型,更代表了一種全新的、可落地的智能體設計范式,讓AI真正自主學會如何思考、如何學習、如何與復雜世界互動。
未來,我們將繼續探索更加前沿的AI多智能體技術方向,包括更高級的記憶管理、更自然的人機協作模式、更懂用戶的AI助手,致力于打造一個能夠全面融入人類生活和工作的通用智能伙伴。
作者簡介
李曉熙
中國人民大學博士生,小紅書中臺算法組實習生。以第一作者在人工智能頂會 NeurIPS、ACL、EMNLP、AAAI 等發表多篇論文。代表工作包括 Search-o1、WebThinker、DeepAgent。主要研究方向為 Agentic AI、Deep Research 等。
焦文祥
小紅書中臺算法組大模型應用算法專家,主要研究方向為 Agentic AI、Deep Research、LLM Personality 等,先后在 NeurIPS、ICLR、ACL、EMNLP 等發表多篇論文。代表工作包括 Multi-Agent Debate、CipherChat、PsychoBench 等。
晉嘉睿
小紅書算法工程師,主要研究方向為大語言模型應用、信息檢索技術、多模態建模。以第一作者在人工智能頂會 ICML、KDD、WWW 等發表多篇論文。
陸遠
小紅書中臺算法組技術負責人,從事自然語言處理、多模態算法研究十余年,先后在 ICLR、ACL、EMNLP、CVPR 等發表多篇論文。近年來主要研究方向聚焦基于大模型的人機交互、情感陪伴、多智能體系統,致力于構建體驗導向的AI創新應用。

































