精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

DeepAgent:能夠自主找工具的深度思考智能體,工具&任務隨心配

發布于 2025-10-31 07:52
瀏覽
0收藏

大型推理模型(LRMs)雖然在復雜問題求解中展現出強大能力,但現實任務往往需要借助外部工具并進行長期交互。現有智能體框架大多遵循預定義的工作流程,這限制了它們的自主性和全局任務完成能力。為此,來自中國人民大學、小紅書等機構的研究者提出了 DeepAgent——一個端到端的深度推理智能體,能夠在單一連貫的推理過程中自主思考、發現工具并執行動作。通過引入自主記憶折疊機制和端到端強化學習訓練方法ToolPO,DeepAgent在8個基準測試中持續超越基線方法,在標注工具和開放集工具檢索場景下均表現出色。這項工作為構建更通用、更強大的真實世界智能體邁出了重要一步。

Paper: https://arxiv.org/abs/2510.21618

GitHub: https://github.com/RUC-NLPIR/DeepAgent

?? Demo演示

1?? 通用智能體任務:16,000+ RapidAPI工具庫

DeepAgent:能夠自主找工具的深度思考智能體,工具&任務隨心配-AI.x社區

DeepAgent 是一個具備可擴展工具集的推理智能體,能夠從超過16,000個RapidAPI中搜索并使用合適的工具,以端到端的智能體推理過程解決通用任務。(注:由于ToolBench中的部分API已不可用,此演示中的API響應由LLM模擬,以展示系統的正常功能。)

2?? 具身AI智能體:ALFWorld環境導航任務

DeepAgent:能夠自主找工具的深度思考智能體,工具&任務隨心配-AI.x社區

DeepAgent 同樣擅長基于導航的任務(如網頁瀏覽、操作系統交互和具身AI),通過使用一套可插拔的多樣化動作集(如移動、觀察、拾取等)來完成復雜的環境交互任務。

3?? 深度研究任務:專業工具集加持

DeepAgent:能夠自主找工具的深度思考智能體,工具&任務隨心配-AI.x社區

DeepAgent 還可以作為強大的研究助手,配備了專門的工具來支持網絡搜索、網頁瀏覽、代碼執行、視覺問答和文件處理等功能,幫助用戶完成深度研究任務。

研究動機:突破傳統智能體的局限

大型推理模型(LRMs)如OpenAI-o1、DeepSeek-R1等通過"慢思考"過程在數學、編程和科學推理等復雜領域展現了卓越的問題求解能力。然而,現實世界的任務往往需要外部工具的支持和長期的環境交互才能完成。

現有的智能體框架主要面臨以下挑戰:

傳統智能體的局限性

  • 缺乏自主性:如ReAct、Plan-and-Solve等方法遵循預定義的"規劃-執行-觀察"循環,無法自主決定執行步驟和整體流程
  • 工具預先指定:需要提前確定使用哪些工具,無法在任務執行過程中動態發現新工具
  • 記憶管理不足:缺乏全自主的交互記憶管理能力
  • 推理深度受限:每步只關注局部目標,缺乏對整個任務的全局視角

深度研究智能體的限制: 雖然Search-o1、DeepResearcher等探索了在推理過程中集成工具使用的新范式,但它們通常局限于少量預定義工具(如網絡搜索、頁面瀏覽、代碼執行),這大大限制了它們在多樣化真實場景中的適用性。

DeepAgent:能夠自主找工具的深度思考智能體,工具&任務隨心配-AI.x社區

智能體范式對比:(a)傳統智能體采用預定義工作流,(b)深度研究智能體可以自主調用有限工具,(c)DeepAgent——完全自主的推理智能體,能夠在連續的智能體推理過程中動態發現和調用有用的工具。

DeepAgent:全自主的端到端推理智能體

為應對上述挑戰,我們提出了 DeepAgent,一個能夠在單一連貫的推理過程中動態檢索和調用工具來完成整個任務的端到端深度推理智能體。

核心特性

  1. 自主工具發現與調用 (Autonomous Tool Search and Calling):
  • 打破傳統預定義工具的限制,工具不是預先檢索,而是根據需要動態發現
  • 在推理過程中自主生成工具搜索查詢,通過密集檢索從大規模工具集中找到相關工具
  • 生成結構化的工具調用指令,執行后將結果反饋到推理上下文中
  • 完全釋放大型推理模型的自主潛力
  1. 自主記憶折疊機制 (Autonomous Memory Folding):
  • 使DeepAgent能夠在長期交互中徹底而穩健地探索新工具和復雜環境
  • 可在思考過程中的任何邏輯點觸發記憶折疊,將先前的思考和交互歷史壓縮為結構化記憶
  • 不僅節省token、提高推理效率,還為智能體提供"喘息"機會
  • 防止陷入錯誤探索路徑,使其能夠重新考慮策略,提高整體成功率
  1. 腦啟發式記憶架構 (Brain-Inspired Memory Schema):
  • 情節記憶 (Episodic Memory):記錄關鍵事件、主要決策點和子任務完成情況,提供任務結構的長期上下文
  • 工作記憶 (Working Memory):包含最新信息,如當前子目標、遇到的障礙和近期計劃,確保推理連續性
  • 工具記憶 (Tool Memory):整合所有工具相關交互,包括使用過的工具、調用方式及其有效性,幫助智能體從經驗中學習
  • 采用JSON格式的智能體可用數據模式,確保壓縮記憶的穩定性和實用性
  1. ToolPO:端到端強化學習訓練 (End-to-End RL Training with ToolPO):
  • LLM模擬API:利用LLM模擬真實世界API,避免訓練過程中的不穩定性、延遲和高成本
  • 工具調用優勢歸因:精確地將信用分配給負責正確工具調用的特定token,提供更細粒度的學習信號
  • 全局和局部優勢結合:既獎勵最終任務成功,也獎勵中間正確的工具調用
  • 確保通用工具使用的高效穩定訓練

DeepAgent:能夠自主找工具的深度思考智能體,工具&任務隨心配-AI.x社區

DeepAgent框架概覽:主推理模型在統一的思考過程中自主發現工具、執行動作并折疊先前記憶以使用結構化記憶重新開始。DeepAgent通過ToolPO進行端到端訓練,這是一種使用工具模擬器模擬大規模真實世界工具API的RL方法,并通過細粒度優勢歸因獎勵最終任務成功和正確的中間工具調用。

與傳統智能體框架的對比

DeepAgent與傳統智能體框架有著本質區別:

  • 傳統工作流方法(ReAct、Plan-and-Solve):遵循固定的執行模式,每個生成步驟只關注即時目標,缺乏全局視角
  • 深度研究智能體(Search-o1、DeepResearcher):可以自主調用工具,但局限于少量研究導向的工具
  • DeepAgent:完全由推理模型驅動,在連續推理中實現端到端任務執行。模型保持對整個任務的全局視角,不受特定孤立操作的約束,工具根據需要動態發現

實驗效果

我們在廣泛的基準測試中對DeepAgent進行了全面評估,涵蓋通用工具使用任務和下游應用兩大類別:

1. 通用工具使用任務的卓越表現

DeepAgent:能夠自主找工具的深度思考智能體,工具&任務隨心配-AI.x社區

通用工具使用任務的實驗結果

DeepAgent:能夠自主找工具的深度思考智能體,工具&任務隨心配-AI.x社區

下游應用任務的實驗結果

我們在5個通用工具使用基準上進行了測試,工具規模從數十個到超過一萬個:

  • ToolBench:基于16,000+真實世界API的大規模基準
  • API-Bank:包含73個API和314個人工標注對話的綜合基準
  • RestBench(TMDB & Spotify):模擬真實REST應用的場景
  • ToolHop:需要3-7步序列工具調用的多跳推理數據集

在這些任務中,DeepAgent展現出顯著優勢:

  • 端到端推理超越工作流方法:在標注工具任務中,DeepAgent-32B-RL在TMDB上達到89.0%的成功率,在Spotify上達到75.4%,遠超最強32B基線的55.0%和52.6%
  • 開放集場景下的魯棒性:在需要動態工具發現的開放集場景中優勢更明顯。在ToolBench和ToolHop上,DeepAgent-32B-RL分別達到64.0%和40.6%的成功率,遠超頂級基線的54.0%和29.0%
  • ToolPO訓練的增益:經過ToolPO訓練的DeepAgent-32B-RL相比基礎版本,在ToolBench上提升6.0%,在Spotify上提升5.2%

2. 下游應用任務的強大適應性

我們在4個需要特定領域工具集的下游應用上進行評估:

  • ALFWorld:文本環境中的具身AI任務,需要使用9個基本動作完成目標
  • WebShop:在線購物環境,需要通過搜索和點擊操作滿足用戶購物需求
  • GAIA:復雜的信息檢索基準,配備網絡搜索、頁面瀏覽、VQA、代碼執行和文件讀取工具
  • Humanity's Last Exam (HLE):極高難度的推理問題集

關鍵發現:

  • 自主推理范式普遍優于工作流方法:在GAIA上,DeepAgent-32B-Base(46.7)和HiRA(42.5)顯著超越最佳工作流方法CodeAct(34.5)。在WebShop上,DeepAgent-32B-Base(32.0)大幅領先CodeAct(18.0)
  • 達到SOTA性能:DeepAgent-32B-RL在32B模型中表現最佳——GAIA得分53.3(vs. HiRA的42.5),ALFWorld成功率91.8%(vs. HiRA的84.3%)
  • 持續的訓練收益:ToolPO訓練使GAIA得分從46.7提升至53.3(+6.6),ALFWorld成功率從88.1%提升至91.8%(+3.7)

3. 自主工具檢索策略的有效性

DeepAgent:能夠自主找工具的深度思考智能體,工具&任務隨心配-AI.x社區

自主工具檢索vs預檢索工具的對比分析

為比較預檢索工具與任務執行期間自主發現的效果,我們進行了對照實驗:

  • 按需動態發現的優越性:推理過程中的自主工具檢索在所有框架中均優于預檢索工具,在大規模工具集(ToolBench的16k工具、ToolHop的3.9k工具)上優勢最顯著
  • DeepAgent與動態檢索的協同效應:結合自主工具檢索,DeepAgent平均得分52.6,大幅領先最佳工作流方法的28.5,證明DeepAgent架構特別適合動態工具發現

4. 動作限制的擴展性分析

DeepAgent:能夠自主找工具的深度思考智能體,工具&任務隨心配-AI.x社區

最大動作限制對性能的影響

隨著最大動作次數的增加:

  • DeepAgent始終顯著優于ReAct基線:在所有測試的動作限制下,在WebShop和GAIA兩個數據集上均表現更優
  • 更強的擴展能力:隨著動作限制增加,DeepAgent與ReAct的性能差距擴大,特別是在WebShop上。這表明DeepAgent能夠戰略性地選擇有效的、與任務相關的動作,避免限制ReAct擴展性的浪費性步驟

5. 不同基座模型的泛化能力

DeepAgent:能夠自主找工具的深度思考智能體,工具&任務隨心配-AI.x社區

基于不同推理模型的性能對比

我們在不同規模的MoE推理模型上測試了DeepAgent:

  • 持續優于工作流方法:無論是30B還是235B的MoE推理模型作為基座,DeepAgent都保持對ReAct和Plan-and-Solve的顯著性能優勢
  • 有效的模型擴展:所有方法都受益于從30B到235B模型的擴展,但DeepAgent在復雜應用任務上顯示出最大的絕對性能提升

6. 消融實驗:各組件的貢獻

我們通過消融實驗驗證了DeepAgent各組件的有效性:

  • ToolPO訓練最為關鍵:移除ToolPO訓練(基礎模型)導致最顯著的性能下降(從48.1降至44.3),突顯了端到端RL方法的核心作用
  • 記憶折疊的重要性:沒有記憶折疊,性能也大幅下降(平均分降至44.2),特別是在長期任務GAIA上(從53.3降至44.7)。這證實了自主記憶折疊機制對于魯棒的長期交互至關重要
  • 訓練策略的貢獻:移除工具模擬器和工具調用優勢歸因都會導致性能下降,驗證了工具模擬器實現了更穩定的訓練,細粒度優勢歸因提供了精確的學習信號

本文轉載自??PaperAgent??

已于2025-10-31 16:21:07修改
收藏
回復
舉報
回復
相關推薦
亚洲bbw性色大片| 插插插亚洲综合网| 日韩网址在线观看| 在线激情免费视频| 国产精品888| 久久久久久一区二区三区| 国产精品无码网站| 激情久久一区二区| 亚洲h动漫在线| 色噜噜色狠狠狠狠狠综合色一| 91theporn国产在线观看| 伊人久久婷婷| 一区二区三区美女xx视频| 日韩精品视频网址| 美女一区网站| 一区二区三区四区中文字幕| 欧洲高清一区二区| 亚洲国产日韩在线观看| 日本不卡视频在线| 久久久久日韩精品久久久男男| 午夜在线观看一区| 风间由美性色一区二区三区四区| 欧美私模裸体表演在线观看| 欧美一级爱爱视频| av中文字幕在线| www.久久久久久久久| 国产在线拍偷自揄拍精品| 精品国产乱码一区二区| 综合一区av| 综合网中文字幕| 青青草视频成人| 911亚洲精品| 欧美精品一卡二卡| 亚洲国产精品三区| 欧美电影免费看| 欧美日韩国产限制| 隔壁人妻偷人bd中字| 国产在线观看91| 国产精品国产精品国产专区不蜜| 精品一区在线播放| 好吊视频一二三区| 国产不卡视频在线播放| 91在线看网站| av手机免费看| 国产在线国偷精品免费看| 国产精品久久久999| 在线精品免费视| 国产精品日本欧美一区二区三区| 欧美激情图片区| 激情小说中文字幕| 欧美日韩国产成人精品| 欧美xxxx综合视频| 欧美国产在线看| 欧美在线视屏| 欧美国产激情18| 日韩a级片在线观看| 91精品国偷自产在线电影| 日韩网站免费观看| 亚洲综合图片一区| 91不卡在线观看| 久久不射电影网| 四虎免费在线视频| 欧美精品一线| 国内精品小视频| 国产手机在线视频| 亚洲免费中文| 国产精品自产拍高潮在线观看| 午夜精品免费观看| 久久国产综合精品| 亚洲自拍偷拍福利| 亚洲国产精品欧美久久| 不卡高清视频专区| 欧美一区二区三区四区五区六区| 国产露出视频在线观看| 国产精品视频九色porn| 中文字幕欧美人与畜| www在线观看播放免费视频日本| 一区在线观看视频| 国产精品久久国产| 九色porny自拍视频在线播放| 日韩欧美主播在线| 免费看黄色一级大片| 国产精品一区二区三区四区在线观看 | 裸模一区二区三区免费| 国产www.大片在线| 亚洲欧美偷拍卡通变态| 99在线免费视频观看| 成人在线黄色电影| 欧美视频一区在线观看| 无码人妻丰满熟妇区毛片蜜桃精品| 久久激情av| 夜夜嗨av一区二区三区免费区| 乱老熟女一区二区三区| 在线日韩中文| 国产精品色悠悠| 亚洲AV无码精品自拍| 久久亚洲私人国产精品va媚药| 一级做a爰片久久| 久草成色在线| 欧美日韩亚洲国产综合| 白丝校花扒腿让我c| 免费观看久久av| 久久久国产成人精品| 九一国产在线观看| 极品尤物av久久免费看| 欧美日韩系列| 91精品久久| 欧美影院精品一区| 中国xxxx性xxxx产国| 红桃成人av在线播放| 欧美精品手机在线| www.亚洲激情| 成人av资源网站| 日韩欧美一区二区视频在线播放 | 国产欧美韩国高清| 少妇一级淫片免费看| 亚洲色欲色欲www| 日韩欧美黄色大片| 激情小说亚洲色图| 欧美日韩国产二区| 国产精品探花视频| 日本一区二区免费在线| 欧美一级在线看| 少妇精品在线| 久久亚洲精品一区二区| a片在线免费观看| 91麻豆免费观看| 国产一区二区三区小说| 免费一级欧美在线大片| 最近2019中文字幕一页二页| 亚洲欧美自拍视频| 波多野结衣视频一区| 黄色一级片国产| 国产精品**亚洲精品| 在线亚洲午夜片av大片| 区一区二在线观看| 91亚洲精华国产精华精华液| 成人一级生活片| 久久视频社区| 久久久国产视频91| 国产一区二区女内射| 国产精品午夜在线观看| www.xxx亚洲| 国产精品手机在线播放| 国产97免费视| 高清av电影在线观看| 色视频欧美一区二区三区| 色呦呦一区二区| 美女尤物久久精品| 欧美一级二级三级| 9i看片成人免费高清| 亚洲精选一区二区| 潘金莲一级淫片aaaaaa播放| 国产校园另类小说区| 蜜臀久久99精品久久久酒店新书| 九九久久精品| 国产成人jvid在线播放| аⅴ资源新版在线天堂| 欧美日韩国产小视频在线观看| 亚洲一二三四视频| 国内久久婷婷综合| 青青草原网站在线观看| 91精品尤物| **欧美日韩vr在线| 成人影院免费观看| 欧美福利电影网| 久久99久久98精品免观看软件 | 免费试看一区| 色婷婷综合久久久中字幕精品久久| 亚洲人成免费电影| 中文字幕日日夜夜| 亚洲精品中文在线| 800av在线播放| 久久最新视频| 中文字幕第50页| 国产suv精品一区| 国产z一区二区三区| h片在线免费| 日韩高清免费观看| 一级黄色免费看| 亚洲一区二区三区不卡国产欧美 | 九九亚洲精品| 91在线视频导航| 深夜福利视频一区二区| 综合网日日天干夜夜久久| 国产丰满美女做爰| 日韩欧美福利视频| 五月天色婷婷丁香| av中文字幕一区| 一起操在线视频| 一本久道久久久| 一区二区精品国产| av成人资源| 国产成人综合一区二区三区| 成人国产免费电影| 亚洲精品一区二区网址| 国产美女明星三级做爰| 精品国产31久久久久久| 糖心vlog免费在线观看| 91视频www| 波多野结衣网页| 葵司免费一区二区三区四区五区| 老司机av福利| 综合亚洲色图| 91在线播放国产| 色天使综合视频| 97精品国产aⅴ7777| 久草免费在线观看| 亚洲欧美日韩国产中文| 亚洲va久久久噜噜噜无码久久| 在线视频综合导航| 亚洲欧美在线视频免费| 国产精品女同一区二区三区| 人妻av一区二区| 国内一区二区视频| 午夜在线观看av| aa级大片欧美三级| 免费观看亚洲视频| 999久久久91| 日本一区视频在线播放| 欧美变态网站| 超碰在线观看97| 综合久久av| 国产精品永久免费在线| 久久uomeier| 亚洲18私人小影院| 狂野欧美性猛交xxxxx视频| 久久九九国产精品怡红院| 天堂在线一二区| 亚洲第一中文字幕| www.蜜桃av.com| 日韩一区二区在线播放| 97免费观看视频| 欧美日产国产精品| 亚洲性生活大片| 欧美午夜精品久久久| 久操视频在线免费观看| 色八戒一区二区三区| 亚洲黄色三级视频| 精品久久久久久亚洲国产300| 久久无码精品丰满人妻| 亚洲综合丝袜美腿| 久久久久久激情| 亚洲午夜久久久久久久久电影院| 澳门黄色一级片| 亚洲精品国产成人久久av盗摄| 夫妻性生活毛片| 日韩毛片在线免费观看| 亚洲欧美小视频| 亚洲精品成人天堂一二三| 看片网站在线观看| 亚洲高清免费在线| 自拍偷拍欧美亚洲| 一本久道中文字幕精品亚洲嫩 | 欧美老年两性高潮| 国产露脸国语对白在线| 欧美一二区视频| 午夜久久久久久噜噜噜噜| 精品久久久久久久久久久久久久久久久 | 精品无码久久久久国产| 亚洲v天堂v手机在线| 欧美日韩视频在线一区二区观看视频| 国产探花在线精品一区二区| 亚洲精品在线免费看| 亚洲影视一区二区三区| www.日本三级| 久久一二三四| 亚洲精品久久久久久宅男| 国产一区二区在线电影| 国产精品一区二区无码对白| 久久综合久久久久88| 国产又粗又长免费视频| 一区二区三区日韩精品| 日韩手机在线观看| 欧美性感一类影片在线播放| 国产精品久久久久久久免费| 精品福利一区二区三区免费视频| 亚洲av激情无码专区在线播放| 亚洲片av在线| 成年人网站在线| 7777精品视频| 国产91欧美| 国产精品免费一区二区三区观看| 亚洲毛片免费看| 国产美女视频免费| 99在线精品免费视频九九视| 中文字幕第21页| 国产成人免费在线| av黄色在线免费观看| 亚洲黄色片在线观看| 久久久久久不卡| 欧美一级生活片| 欧美成人片在线| 欧美精品制服第一页| 你懂得影院夜精品a| 99久热re在线精品视频| 精品国产午夜| 国产va亚洲va在线va| 久久99九九99精品| 91精品国产自产| 一区二区三区四区蜜桃| 国产成人无码av| 亚洲成人xxx| 国产精品久久麻豆| 国产精品第100页| 欧美黄色影院| 亚洲五码在线观看视频| 久久综合伊人| 无遮挡aaaaa大片免费看| 亚洲男人都懂的| 波多野结衣一二区| 日韩成人在线视频| 毛片大全在线观看| 成人久久久久久久| 美女少妇全过程你懂的久久| 17c丨国产丨精品视频| 九九国产精品视频| 黄色三级生活片| 色婷婷亚洲精品| 五月天丁香视频| 欧美精品18videosex性欧美| 99久久久成人国产精品| 色综合久久av| 另类国产ts人妖高潮视频| 日韩精品视频一区二区| 亚洲美女屁股眼交3| 一级黄在线观看| 亚洲网站在线观看| 日本高清不卡一区二区三区视频| 国产视频一区二区三区四区| 欧美色一级片| 三上悠亚 电影| 亚洲欧美一区二区三区久本道91 | 国产亚洲欧美久久久久| 欧美一区二区三区视频| 黄色片网站在线观看| 成人免费视频网| 国产精品99久久久久久动医院| 亚洲国产高清av| 中文av一区特黄| 国产又粗又猛又爽又黄的视频一| 永久免费毛片在线播放不卡| 精品国产第一福利网站| 日韩一区免费观看| 日韩高清国产一区在线| 天堂在线中文视频| 欧美无砖砖区免费| 午夜看片在线免费| 国产一区二中文字幕在线看| 欧美电影一二区| 亚洲 国产 图片| 亚洲乱码中文字幕综合| 亚洲国产精品二区| 久久久久久一区二区三区| 欧美一性一交| 成人在线激情网| 欧美国产激情一区二区三区蜜月| 中文字幕人成人乱码亚洲电影| 日日摸夜夜添一区| 国产精品一区二区精品| 东北少妇不带套对白| 91丨九色丨国产丨porny| 亚洲大尺度在线观看| 中文字幕欧美专区| 欧美视频三区| 六月丁香激情网| 欧美激情在线一区二区三区| 国产剧情精品在线| 欧美贵妇videos办公室| 清纯唯美亚洲经典中文字幕| 欧美一级黄色影院| 亚洲欧洲性图库| 秋霞网一区二区| 国产suv精品一区二区三区88区| 日韩三级在线| yjizz视频| 欧美亚洲丝袜传媒另类| av毛片在线免费看| 精品一区在线播放| 韩国午夜理伦三级不卡影院| 欧美精品一区二区蜜桃| 精品亚洲aⅴ在线观看| 日韩毛片免费视频一级特黄| 日韩视频在线视频| 欧美激情一区二区三区四区| 91久久国语露脸精品国产高跟| 欧美国产精品va在线观看| 亚洲涩涩av| 佐山爱在线视频| 一本高清dvd不卡在线观看| 国产在线更新| 欧洲一区二区在线观看| 国产在线精品不卡| 波多野结衣电车痴汉| 欧美第一淫aaasss性| 久久99免费视频| av在线天堂网| 欧美男女性生活在线直播观看| 俺来俺也去www色在线观看| 亚洲免费在线精品一区|