通義DeepResearch開源發布:首個匹敵OpenAI的全棧Web Agent

大家好,我是肆〇柒。在AI飛速發展的今天,AI Agent正經歷從簡單對話機器人向自主智能體的重大轉變。就在上周,通義實驗室(Tongyi Lab)開源了最新的研究成果——通義DeepResearch,并隨開源發布了六篇論文,被社區戲稱為“腹瀉式發論文”。
通義DeepResearch是全球首個在性能上全面對標OpenAI DeepResearch、并在多項權威基準測試中登頂的全開源Web Agent。他們不僅開源了模型,更首次完整公開了從數據合成到強化學習的全套訓練方法論,為整個AI社區提供了可復現、可擴展的Agent構建方法論,推動了自主智能體技術的民主化進程。
通義DeepResearch在多個極高難度的信息檢索和推理任務中取得了最先進的(SOTA)成績:Humanity's Last Exam (HLE):32.9,BrowseComp-EN:45.3,BrowseComp-ZH:49.5,xBench-DeepSearch:75.0,全面超越了目前所有的閉源及開源Deep Research智能體(Agent)。
本文下面會簡單介紹一下這一創新技術的架構、訓練方法和實際應用,揭示如何打造一個真正具備深度研究能力的AI智能體。
通義DeepResearch:從Chatbot到Autonomous Agent的躍遷
AI Agent的演進歷程
傳統的聊天機器人(Chatbot)主要專注于單輪或有限多輪對話,缺乏主動獲取信息和執行復雜任務的能力。而自主智能體(Autonomous Agent)則能夠理解復雜問題、規劃行動路徑、調用工具、收集信息并進行深度推理,最終給出高質量答案。
通義DeepResearch正是這一演進的關鍵里程碑。它不僅能夠理解自然語言指令,還能在開放的Web環境中自主導航、檢索信息、整合多源數據并進行復雜推理,為用戶提供遠超傳統聊天機器人的深度研究能力。
性能突破與行業領先
通義DeepResearch在多個權威基準測試中展現出卓越性能,特別是在處理需要多步推理、信息整合和復雜決策的任務上:

通義DeepResearch性能指標對比
從圖表可見,通義DeepResearch在Humanity's Last Exam (HLE)、BrowseComp-EN、BrowseComp-ZH和xBench-DeepSearch等關鍵基準測試中均取得了領先成績,全面超越了當前所有閉源及開源解決方案。這些成績證明了通義DeepResearch不僅在技術上實現了突破,更在實際應用中展現出強大能力。值得注意的是,這些指標均是在公開可驗證的基準測試中取得的,為行業提供了客觀的性能參考。
全棧開源的技術價值
與市場上其他Deep Research解決方案不同,通義DeepResearch不僅提供了高性能模型,還完整分享了一套可落地的高水平Agent構建方法論。從數據合成、Agentic增量預訓練(CPT)、有監督微調(SFT)冷啟動,到強化學習(RL)的全套流程,這一全棧開源策略為整個AI社區提供了寶貴的實踐參考,加速了自主智能體技術的普及和創新。
Agentic CPT(智能體增量預訓練)作為這一方法論的核心環節,是一種專門為Agent能力設計的預訓練階段,旨在賦予模型基本的工具使用和環境交互能力。通過與后訓練過程中源源不斷生產的數據形成數據飛輪,Agentic CPT為后續的SFT冷啟動和強化學習奠定了堅實基礎。
技術突破:基于合成數據的增量預訓練和后訓練
智能體增量預訓練(Agentic CPT)的創新
在傳統大模型訓練流程中,預訓練階段主要關注語言理解和生成能力,而缺乏對工具使用和環境交互的專門訓練。通義DeepResearch提出了智能體增量預訓練(Agentic Continual Pre-training, Agentic CPT)階段,為后訓練提供一個強大的Agent基座模型。
這一創新的關鍵在于AgentFounder——一套支持大規模持續擴展的智能體預訓練數據合成方案。AgentFounder與后訓練過程中源源不斷生產的數據形成數據飛輪,不斷優化模型能力。
SFT冷啟動作為有監督微調的初始階段,通過高質量示例引導模型形成基本能力,是連接預訓練和強化學習的重要橋梁。在通義DeepResearch的訓練流程中,SFT冷啟動確保了模型在進入強化學習前已具備基礎的工具使用和推理能力。
數據重組與問題構建
通義DeepResearch的數據合成方法基于廣泛收集和持續更新的知識文檔、公開爬蟲數據、知識圖譜以及后訓練數據。其核心是以實體為錨定構建開放世界知識記憶,然后基于采樣的實體和相關知識構造多風格的(問題,答案)對。
軌跡合成過程示意圖
如圖所示,該方法能夠覆蓋智能體面臨的真實場景,包括單步規劃、推理動作和多步決策動作。特別值得一提的是,通義DeepResearch能夠在離線環境下大規模探索潛在的推理-動作空間,無需依賴額外商業工具API調用,大大降低了數據合成成本。這一創新使數據合成過程更加高效可控,為模型訓練提供了豐富多樣的訓練樣本。
High-quality QA數據生成流程
在建立了強大的基座模型后,高質量的后訓練數據成為進一步提升Agent能力的關鍵。通義DeepResearch開發了一套端到端的合成數據生成解決方案,無需人工干預即可構建超越人類質量的數據集。這一流程經歷了從WebWalker(網頁點擊流逆向工程Benchmark)到WebSailor和WebSailor-V2(基于圖譜的合成方法),再到WebShaper(形式化的任務建模)的長期迭代。
基于知識圖譜的數據構建
其核心技術包括基于知識圖譜隨機游走和表格數據融合構建真實信息結構。該流程首先通過在高度互聯的知識圖譜隨機游走和基于表格數據融合同構表構建,將來自真實網站數據整合,并確保信息結構的真實性。然后,對子圖和子表進行采樣,生成初始問題和答案。
問題難度控制機制
通過策略性混淆問題信息增加難度是提升模型能力的關鍵。該方法基于組合泛化的理論框架,將問答難度正式建模為一系列可控的"原子操作"(例如,合并具有相似屬性的實體),這些操作基于實體關系,使我們能夠系統地增加問題復雜性。
形式化建模提升數據質量
為了進一步減少問答系統的信息結構與推理結構之間的不一致性,通義DeepResearch提出了一種基于集合論的信息搜索問題形式化建模。這種建模使問題能夠以可控方式擴展,最大限度地減少了推理捷徑和結構冗余,從而進一步提升了問題質量。此外,這種形式還能高效地驗證問答的正確性,有效解決了信息搜索合成數據難以驗證的挑戰。
學術數據構建流程
此外,通義DeepResearch還開發了一個自動化學術數據構建流程,以擴大博士級研究問題的規模。該引擎基于多學科知識庫,生成需要多源推理的"種子"問答對。然后,每個種子都會進入一個自我引導的"迭代復雜性升級"循環,其中,一個問題構建代理配備了一套強大的工具,包括網絡搜索、學術檢索和Python執行環境。在每次迭代中,代理都會擴展知識邊界,深化概念抽象,甚至構建計算任務,從而形成一個演化循環,上一輪的輸出成為下一輪更復雜的輸入,確保任務難度的可控且系統地升級。
融合多樣推理模式
為了激發模型的初始能力,通義DeepResearch基于ReAct和IterResearch框架構建了高質量訓練數據:
- ReAct模式:提供基礎的多輪推理能力,增強模型遵循結構化格式的能力
- IterResearch模式:通過動態重構精簡工作空間,釋放模型的全部推理潛力
這種多模式融合的數據構建方法,使模型在訓練初期就掌握了多樣化的推理策略,為后續的強化學習奠定了堅實基礎。通過拒絕采樣的方式構建的軌跡數據,確保了訓練數據的高質量和多樣性。
創新的Rollout模式:ReAct與深度模式
ReAct模式:簡潔高效的推理基礎
通義DeepResearch的ReAct模式嚴格遵循"思考-行動-觀察"的循環,通過多次迭代來解決問題。模型支持128K上下文長度,可以處理大量交互輪次,完全實現與環境交互的可擴展性。
選擇ReAct模式很大程度上受到了"The Bitter Lesson"的影響——利用可擴展計算的通用方法最終將優于依賴復雜人工知識和設計的方法。ReAct的簡單性和通用性為模型的內在能力和訓練流程的有效性提供了最清晰的基準。在實際應用中,基礎的ReAct模式無需任何提示工程即可充分展現模型固有能力,為用戶提供高效的問題解決體驗。
深度模式:突破認知瓶頸的創新
針對極端復雜的多步研究任務,通義DeepResearch開發了"深度模式",基于全新的IterResearch范式。這一模式解決了Agent在處理長程任務時面臨的兩大挑戰:認知瓶頸和上下文噪聲污染。
IterResearch范式工作流程
如圖所示,IterResearch將多步研究任務解構為一系列研究回合。在每一輪中,Agent僅使用上一輪最重要的輸出重建精簡工作空間,在此專注環境中分析問題、整合關鍵發現并決定下一步行動。這種"綜合與重構"的迭代過程使Agent能在長期任務中保持清晰的認知焦點,有效避免了傳統方法中上下文不斷累積導致的信息過載問題。
Research-Synthesis框架:并行探索的智慧
在IterResearch基礎上,通義DeepResearch進一步提出了Research-Synthesis框架,通過并行使用多個IterResearch Agent探索同一問題,最終整合它們的報告和結論。
Research-Synthesis框架架構
這種并行結構使模型能夠在有限上下文窗口內考慮更廣泛的研究路徑,顯著提升復雜問題的解決能力。當面對需要多角度分析、多源信息整合的深度研究任務時,Research-Synthesis框架能夠發揮出最大優勢。通過多個Agent實例的并行探索和最終整合,系統能夠發現更全面、更準確的解決方案,大大提升了在極端復雜任務上的表現。
端到端Agent訓練流程:從預訓練到強化學習
通義DeepResearch建立了完整的智能體模型訓練范式,下面簡單說明了如何通過Agentic CPT → Agentic SFT → Agentic RL的無縫連接,為AI Agent創建端到端訓練循環。
訓練流程全景
通義DeepResearch建立了一套完整的智能體模型訓練范式,將Agentic CPT → Agentic SFT → Agentic RL無縫連接,形成端到端訓練循環。
通義DeepResearch端到端訓練流程
這一流程從預訓練開始,通過增量預訓練賦予模型基本的工具使用能力;然后通過監督微調實現能力冷啟動;最后通過強化學習使模型進行自我進化,不斷提升解決復雜任務的能力。如圖所示,數據飛輪機制確保了各階段之間的有效銜接和持續優化,形成了一個閉環的訓練系統。
基于On-Policy策略的智能體強化學習
強化學習是提升Agent性能的關鍵環節,但也面臨諸多挑戰。通義DeepResearch在這一領域取得了顯著突破:
1. 算法優化:基于GRPO進行定制優化,采用token級別的策略梯度損失函數,使用留一法降低優勢估計方差,并選擇性排除某些負樣本以提高訓練穩定性。
2. 訓練動態:訓練過程指標顯示,模型學習效果顯著,獎勵持續上升,策略熵維持在較高水平,表明模型持續進行有效探索。
3. 數據質量優先:研究發現,合成數據比人工標注數據(如BrowseComp測試集)更能有效提升模型性能。這是因為合成數據提供了一致性更高的分布,而人工標注數據含有更多噪聲且規模有限。
強化學習訓練曲線
如圖所示,訓練曲線清晰地展示了模型在強化學習過程中的持續進步。獎勵值的穩定上升表明模型正在有效學習,而策略熵的穩定維持則表明模型保持了良好的探索能力,避免了過早收斂。這種訓練動態驗證了我們方法的有效性。
高穩定性基礎設施
為支持強化學習訓練,通義DeepResearch構建了四大關鍵基礎設施:
1. 仿真訓練環境:利用離線維基百科數據庫和自定義工具套件創建模擬環境,避免依賴實時Web API帶來的高成本和不一致性。通過SailorFog-QA-V2流程,為該環境生成專屬的高質量數據,創建了一個經濟高效、快速可控的平臺。
2. 穩定高效的工具沙盒:通過緩存結果、重試失敗調用和飽和式響應處理并發和故障,為Agent提供快速魯棒的交互環境。這一沙盒確保了工具調用的穩定性,防止工具錯誤響應破壞學習軌跡。
3. 自動數據管理:在訓練動態指導下實時優化數據,通過全自動數據合成和數據漏斗動態調整訓練集,形成數據生成與模型訓練的正向循環。數據質量直接決定了模型是否能通過自我探索提升分布外泛化能力。
4. On-Policy異步框架:基于rLLM實現異步強化學習訓練推理框架,支持多個Agent實例并行與環境交互。這種框架確保了訓練效率和穩定性,使強化學習過程更加高效。
這些基礎設施共同構成了智能體強化訓練的"閉環",確保了訓練過程的穩定性和高效性。從基座模型開始,通過Agentic持續預訓練初始化工具使用技能,然后使用高質量數據進行監督微調實現冷啟動,最后通過on-policy強化學習使模型進行自我進化,這一全棧方法為訓練能夠在動態環境中穩健解決復雜任務的AI代理提供了全新范例。
實際應用與行業影響
高德地圖:地圖導航智能體
高德App作為通義在集團內長期共建的重點客戶,其"地圖導航+本地生活"的業務場景具備構建Deep Research類Agent的理想條件。通義團隊與高德團隊合作,"通義團隊提供Deep Research模型+高德團隊提供工具和Agent鏈路",共同打造了高德App中助手"高德小德"的復雜查詢體驗。
高德小德復雜查詢界面
高德小德的復雜查詢功能使用戶能夠提出多條件導航需求,如"找一家有停車位、評分4.5以上、人均100元左右的川菜館"。系統能自動完成多步信息檢索與綜合判斷,無需用戶分步查詢。這一應用利用純agentic+ReAct執行復雜推理的垂類Deep Research技術,為用戶提供更精準、更全面的導航和本地生活服務,在地圖行業內樹立了新的標桿。通過深度研究能力,高德小德能理解用戶隱含需求,提供超出簡單關鍵詞匹配的智能服務。
通義法睿:法律Deep Research
作為大模型原生的"法律智能體",通義法睿集法律問答、案例法條檢索、合同審查、文書閱讀和起草等功能于一體,全面滿足法律用戶需求。
通義法睿法律研究界面
依托創新的Agentic架構與迭代式規劃(Iterative Planning)技術,通義法睿實現了權威類案精準檢索、法條智能匹配與專業觀點深度融合。在法律問答的深度研究三大核心維度——答案要點質量、案例引用質量和法條引用質量上,通義法睿均領先行業,為法律從業者提供了可追溯、高可信的分析服務。
通義法睿能夠處理復雜的法律咨詢,例如:"我被公司無故解雇,但簽了競業協議,現在想入職競爭對手,可能面臨什么法律風險?"系統會自動檢索相關勞動法條款、類似判例,并分析競業協議的具體內容,提供全面的法律風險評估。這種深度研究能力使法律專業人士能夠更高效地獲取精準信息,提升工作效率和決策質量。
未來展望與系列工作
當前局限與改進方向
盡管通義DeepResearch取得了階段性成績,但仍面臨三個關鍵挑戰:
1. 上下文長度限制:當前128k的上下文在處理極端復雜長程推理任務時仍顯不足,未來將探索擴展上下文窗口的有效方法,并研究更精細的上下文管理策略。
2. 訓練流程可擴展性:在遠超30B參數規模的模型上尚未充分驗證,計劃在更大規模模型上測試流程有效性,驗證方法論的普適性。
3. 強化學習效率:將通過引入partial rollouts等技術提升RL框架效率,這需要攻克離線訓練面臨的分布偏移問題,提高訓練穩定性和效率。
通義DeepResearch家族系列
通義DeepResearch擁有豐富的Deep Research Agent家族,每個成員都專注于解決特定領域的深度研究挑戰:

通義團隊在過去六個月持續發布技術報告,目前已發布多篇重要研究成果,不斷推動Deep Research領域的發展。這些工作共同構成了一個完整的Deep Research生態系統,為解決不同復雜度和領域的問題提供了針對性解決方案。
通義DeepResearch的發布標志著AI Agent技術進入了一個新階段。它不僅在性能上達到行業領先水平,更重要的是提供了完整的開源解決方案和方法論,為整個AI社區貢獻了寶貴的知識和實踐經驗。
通過從Chatbot到Autonomous Agent的躍遷,通義DeepResearch展示了AI技術如何真正賦能各行各業,解決實際問題。無論是地圖導航還是法律研究,通義DeepResearch都證明了深度研究型智能體的巨大價值和潛力。

































