通義DeepResearch震撼發布!性能比肩OpenAI,模型、框架、方案完全開源
通義 DeepResearch 重磅發布,讓 AI 從 “能聊天” 躍遷到 “會做研究”。在多項權威 Deep Research benchmark 上取得 SOTA,綜合能力對標并跑贏海外旗艦模型,同時實現模型、框架、方案全面開源,把深度研究的生產力真正帶到每個人手里。
相比于海外的旗艦模型昂貴和限制的調用,通義 DeepResearch 團隊做到了完全開源!開源模型,開源框架,開源方案!在 Humanity's Last Exam、BrowseComp、BrowseComp-ZH、GAIA、xbench-DeepSearch, WebWalkerQA 以及 FRAMES 等多個 Benchmark 上,相比于基于基礎模型的 ReAct Agent 和閉源 Deep Research Agent,其 30B-A3B 輕量級 tongyi DeepResearch,達到了 SOTA 效果。

通義 DeepResearch 團隊也在 Blog 和 Github 完整分享了一套可落地的 DeepResearch Agent 構建方法論,系統性地覆蓋了從數據合成、Agentic 增量預訓練 (CPT)、有監督微調 (SFT) 冷啟動,到強化學習 (RL) 的端到端全流程。尤其在 RL 階段,該團隊提供了集算法創新、自動化數據構建與高穩定性基礎設施于一體的全棧式解決方案。在推理層面,模型展現出雙重優勢:基礎的 ReAct 模式無需提示工程即可充分釋放模型固有能力;而深度模式 (test-time scaling) 則進一步探索了其在復雜推理與規劃能力上的上限。
- Homepage: https://tongyi-agent.github.io/
- Blog: https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/
- Github: https://github.com/Alibaba-NLP/DeepResearch
- Hugging Face: https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B
- Model Scope: https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B
1 數據策略:基于全合成數據的增量預訓練和后訓練
模型能力的提升,主要得益于通義 DeepResearch 團隊設計的一套多階段數據策略。這個策略的核心目標是,不依賴昂貴的人工標注,也能大規模地生成高質量的訓練數據。
1.1 增量預訓練數據
團隊引入了 Agentic CPT(增量預訓練)來為模型打下堅實的 Agent 基礎。為此,開發了一個系統化、可擴展的數據合成方案。它能利用后續訓練流程產生的數據,形成一個數據生成的正向循環。
- 數據重組和問題構建 基于廣泛收集和增量更新的知識文檔、公開可用的爬蟲數據、知識圖譜以及后訓練產生的軌跡數據和工具調用返回結果(例如,搜索結果和網頁訪問記錄)等,團隊構建了一個以實體為錨定的開放世界知識記憶。進一步,研究者基于采樣的實體和相關知識構造多風格的(問題,答案)對,以盡可能涵蓋智能體所面臨的真實場景。

- 動作合成 基于多風格問題和歷史軌跡數據,團隊分別構建了三種類型的動作數據,包含規劃、推理和決策動作。該方法能夠在離線環境下大規模、全面地探索潛在的推理 - 動作空間,從而消除了對額外商業工具 API 調用的需求。特別地,對于決策動作合成,該研究將軌跡重構為多步驟決策過程,以增強模型的決策能力。
1.2 Post-training 數據
通義 DeepRsearch 團隊開發了一套全自動的合成數據生成方案,旨在全自動化生成超越人工標注質量的數據集,以挑戰模型的能力極限。這個方案經過了多次迭代,從早期的 WebWalker,到更系統的 WebSailor 和 WebShaper,數據質量和可擴展性都得到了保證。
為了生成能應對復雜問題的問答數據,團隊開創性得設計了一個新流程。首先,通過知識圖譜隨機游走和表格數據融合等方式,從真實網站數據中提取信息,保證數據結構的真實性。然后,通過策略性地模糊或隱藏問題中的信息來增加難度。團隊將問答難度建模為一系列可控的 “原子操作”,這樣就可以系統性地提升問題的復雜度。
為了減少推理捷徑,團隊還基于集合論對信息搜索問題進行了形式化建模。這幫助他們以可控的方式生成更高質量的問題,并解決了合成數據難以驗證正確性的問題。
此外,該團隊還開發了一個自動化數據引擎,用于生成需要多學科知識和多源推理的 “博士級” 研究問題。它會讓一個配備了網絡搜索、學術檢索等工具的代理,在一個循環中不斷深化和擴展問題,使任務難度可控地升級。
2 推理模式
Tongyi DeepResearch 既有原生的 ReAct Mode,又有進行上下文管理的 Heavy Mode。
2.1 ReAct Mode
模型在標準的 ReAct 模式(思考 - 行動 - 觀察)下表現出色。128K 的上下文長度支持大量的交互輪次,團隊遵循大道至簡,認為通用的、可擴展的方法最終會更有優勢。
2.2 Heavy Mode
除了 ReAct 模式外,通義 DeepResearch 團隊還開發了 “深度模式”,用于處理極端復雜的多步研究任務。此模式基于該團隊全新的 IterResearch 范式,旨在將 Agent 的能力發揮到極致。
IterResearch 范式的創建是為了解決 Agent 將所有信息堆積在一個不斷擴展的單一上下文窗口中時出現的認知瓶頸和噪音污染。相反,IterResearch 將一項任務解構為一系列 “研究輪次”。

在每一輪中,Agent 僅使用上一輪中最重要的輸出來重建一個精簡的工作空間。在這個專注的工作空間中,Agent 會分析問題,將關鍵發現整合成一個不斷演變的核心報告,然后決定下一步行動 —— 是收集更多信息還是提供最終答案。這種 “綜合與重構” 的迭代過程使 Agent 能夠在執行長期任務時保持清晰的 “認知焦點” 和高質量的推理能力。
在此基礎上,團隊還提出了 Research-Synthesis 框架:讓多個 IterResearch Agent 并行探索同一個問題,最后整合它們的報告和結論,以獲得更準確的答案。

3 訓練

打通整個鏈路,引領新時代下 Agent model 訓練的新范式
通義 DeepResearch 團隊對 Agent model 訓練流程進行革新!從 Agentic CPT (contine pre-training) 到 RFT (rejected fine-tuning) 再到 Agentic RL (reinforment learning),打通整個鏈路,引領新時代下 Agent model 訓練的新范式。
端到端 Agent 訓練流程

Tongyi DeepResearch Agent 建立了一套連接 Agentic CPT → Agentic SFT → Agentic RL 的訓練范式。下面重點介紹該團隊如何通過強化學習來完成最后的優化。
- 基于策略的強化學習(RL)
通過強化學習構建高質量的 Agent 是一項復雜的系統工程挑戰;如果將整個開發過程視為一個 “強化學習” 循環,其組件中的任何不穩定或魯棒性不足都可能導致錯誤的 “獎勵” 信號。接下來,團隊將分享他們在強化學習方面的實踐,涵蓋算法和基礎設施兩個方面。
在強化學習(RL)算法方面,通義 DeepResearch 團隊基于 GRPO 進行了定制優化。他們嚴格遵循 on-policy 的訓練范式,確保學習信號始終與模型當前的能力精準匹配。同時,團隊采取了一個 token 級別的策略梯度損失函數來優化訓練目標。其次,為了進一步降低優勢估計(advantage estimation)的方差,團隊采用了留一法 (leave-one-out) 策略。此外,團隊發現未經篩選的負樣本會嚴重影響訓練的穩定性,這種不穩定性在長時間訓練后可能表現為 “格式崩潰”(format collapse)現象。為緩解此問題,他們會選擇性地將某些負樣本排除在損失計算之外,例如那些因過長而未能生成最終答案的樣本。出于效率考慮,該團隊沒有采用動態采樣,而是通過增大批次(batch size)和組規模(group size)的方式,來維持較小的方差并提供充足的監督信號。

訓練過程的動態指標顯示,模型學習效果顯著,獎勵(reward)呈持續上升趨勢。同時,策略熵(policy entropy)始終維持在較高水平,這表明模型在持續進行探索,有效防止了過早收斂。團隊人員將此歸因于 Web 環境天然的非平穩性,該特性促進了穩健自適應策略的形成,也因此無需再進行顯式的熵正則化。
通義 DeepResearch 團隊認為,算法固然重要,但并非 Agentic RL 成功的唯一決定因素。在嘗試了多種算法和優化技巧后他們發現,數據質量和訓練環境的穩定性,可能是決定強化學習項目成敗的更關鍵一環。一個有趣的現象是,團隊曾嘗試直接在 BrowseComp 測試集上訓練,但其表現遠不如使用合成數據的結果。研究者推測,這種差異源于合成數據提供了一致性更高的分布,使模型能進行更有效的學習和擬合。相比之下,像 BrowseComp 這樣的人工標注數據,本身就含有更多噪聲,加之其規模有限,導致模型很難從中提煉出一個可供學習的潛在分布,從而影響了其學習和泛化(generalize)能力。這一發現對其他智能體的訓練同樣具有啟發意義,為構建更多樣、更復雜的智能體訓練方案提供了思路。

在基礎設施方面,使用工具訓練智能體需要一個高度穩定高效的環境:
- 仿真訓練環境:依賴實時 Web API 進行開發成本高昂、速度慢且不一致。團隊利用離線維基百科數據庫和自定義工具套件創建了一個模擬訓練環境來解決這一問題。并且通過 SailorFog-QA-V2 的流程,為該環境生成專屬的高質量數據,創建了一個經濟高效、快速可控的平臺,顯著加快了研究和迭代速度。
- 穩定高效的工具沙盒:為了確保在智能體訓練和評估期間對工具的穩定調用,團隊開發了一個統一的沙盒。該沙盒通過緩存結果、重試失敗的調用以及飽和式響應等改進來高效地處理并發和故障。這為智能體提供了快速且魯棒的交互環境,可以有效防止工具的錯誤響應破壞其學習軌跡。
- 自動數據管理:數據是提升模型能力的核心驅動力,其重要性甚至超過了算法。數據質量直接決定了模型是否能通過自我探索提升分布外泛化能力。因此,團隊在訓練動態的指導下實時優化數據,通過全自動數據合成和數據漏斗動態調整訓練集。通過數據生成和模型訓練之間的正向循環,這種方法不僅確保了訓練的穩定性,還帶來了顯著的性能提升。
- 基于策略的異步框架:團隊在 rLLM 之上實現了異步強化學習訓練推理框架,多個智能體實例并行與(模擬或真實)環境交互,獨立生成軌跡。
通過這些措施,通義 DeepResearch 團隊實現了智能體強化訓練的 “閉環”。從基座模型開始,團隊進行了 Agentic 持續預訓練以初始化工具使用技能,然后使用類似專家的數據進行監督微調以實現冷啟動,最后進在 on-policy 的強化學習,使模型進行自我進化。這種全棧方法為訓練能夠在動態環境中穩健地解決復雜任務的 AI 代理提供了一種全新的范例。
4 應用落地
目前通義 DeepResearch 已賦能多個阿里巴巴內部應用,包括:
高德出行 Agent:
高德 App 作為通義在集團內長期共建的重點客戶,其 “地圖導航 + 本地生活” 的業務場景,以及高德內部豐富的專用工具,具備構建這類 Agent 的土壤,高德也將這類 Agent 能力作為 25 年暑期大版本 V16 的一個亮點功能。通義團隊近期在地圖 + 本地生活場景,基于純 agentic+ReAct 執行復雜推理的垂類 agent 技術建設,可以為高德提供更好效果的模型。因此,雙方團隊共建合作,“通義團隊提供模型 + 高德團隊提供工具和 Agent 鏈路”,打造了高德 App 中助手高德小德的復雜查詢體驗,在地圖行業內打出影響力。

通義法睿:
通義法睿,作為大模型原生的 “法律智能體”,致力于為大眾及法律從業者提供專業、便捷的法律智能服務。集法律問答、案例法條檢索、合同審查、文書閱讀、文書起草等功能于一體,全面滿足法律用戶需求。依托創新的 Agentic 架構與迭代式規劃(Iterative Planning)技術,通義法睿全新升級司法 DeepResearch 能力,可高效執行多步查詢與復雜推理,實現權威類案精準檢索、法條智能匹配與專業觀點深度融合。我們以真實判例、官方法規和權威解讀為基礎,打造可追溯、高可信的法律分析服務,在法律問答的深度研究三大核心維度 —— 答案要點質量、案例引用質量、法條引用質量上領先行業。


通義 DeepResearch 也擁有豐富的 Deep Research Agent 家族。您可以在以下論文中找到更多信息:
[1] WebWalker: Benchmarking LLMs in Web Traversal
[2] WebDancer: Towards Autonomous Information Seeking Agency
[3] WebSailor: Navigating Super-human Reasoning for Web Agent
[4] WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization
[5] WebWatcher: Breaking New Frontier of Vision-Language Deep Research Agent
[6] WebResearch: Unleashing reasoning capability in Long-Horizon Agents
[7] ReSum: Unlocking Long-Horizon Search Intelligence via Context Summarization
[8] WebWeaver: Structuring Web-Scale Evidence with Dynamic Outlines for Open-Ended Deep Research
[9] WebSailor-V2: Bridging the Chasm to Proprietary Agents via Synthetic Data and Scalable Reinforcement Learning
[10] Scaling Agents via Continual Pre-training
[11] Towards General Agentic Intelligence via Environment Scaling
通義 DeepResearch 團隊長期致力于 Deep Research 的研發。過去六個月,以每月持續發布一篇技術報告,迄今為止已發布五篇。今天,同時發布六篇新報告,并在開源社區發布了通義 DeepResearch-30B-A3B 模型。




































