阿里王牌Agent橫掃SOTA,全棧開源力壓OpenAI!博士級難題一鍵搞定
阿里又雙叒叕上大分了!

就在昨天,阿里旗下首個深度研究Agent模型——通義DeepResearch正式開源。
在多項權威基準上,通義DeepResearch狂飆SOTA,僅依靠30B參數(激活3B)就能大殺四方!

在號稱人類最后的考試榜單HLE(Humanity's Last Exam)中,通義DeepResearch更是拿下了32.9%的最高分,超越DeepSeek-V3.1(29.8%)和OpenAI DeepResearch(26.6%),霸榜全球第一!
在OpenAI提出的超高難度BrowseComp榜單上,通義DeepResearch以43.4%的準確率領跑開源榜單。

值得一提的是,模型、框架、方案全面開源,開發者即可在Hugging Face、GitHub下載。
目前,GitHub項目已狂攬7.2k星。
項目地址:https://github.com/Alibaba-NLP/DeepResearch
Hugging Face模型地址:https://huggingface.co/Alibaba-NLP/Tongyi-DeepResearch-30B-A3B
ModelScope模型地址: https://modelscope.cn/models/iic/Tongyi-DeepResearch-30B-A3B
技術博客: https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/
這波充滿了誠意的開源操作和出色性能,直接點燃了AI圈!
不僅引來廣大網友們紛紛致謝,甚至Hugging Face聯合創始人兼CEO Clem Delangue和斯坦福NLP實驗室等科技大V在第一時間進行轉發關注。



不止于問答:AI的「研究員」時代
我們已經習慣了AI的有問必答,但如果問題本身就無比復雜呢?
AI Deep Research 給出了答案。它徹底告別了「一問一答」的模式,進化為一位真正的「研究員」。面對一個棘手的問題,它會自主規劃一條完整的研究路徑,像人類專家一樣工作:
深度搜尋—多源交叉—結構化歸納—報告生成
你得到的,將是一份真正能解決問題的方案:論據有源可溯,過程清晰可復現,結論擲地有聲。

通義DeepResearch既可以是你的資深研究員,也能是你的高效私人助手,其首要任務便是將宏大問題精巧地拆解為一系列邏輯清晰的子任務。
隨后,它為每個環節自主調用代碼分析、論文檢索、網頁訪問等工具,以層層遞進、自主循環的方式完成整個研究鏈路。
說多無用,不如看一些直觀的演示。
假設你正在考慮出售房子,想要了解所在地區最近樓盤的銷售情況,直接找通義DeepResearch——
我住在夏威夷的珍珠城,位于瓦胡島上。
我知道附近有兩處房產于2022年售出,分別是Akaikai Loop 2072號和Komo Mai Drive 2017號。
請找出這兩處房產中2022年售價更高的那套,并告訴我其成交金額。
通義DeepResearch分了四步思考:
想要完成任務,第一步就是拆解指令,然后「聯網」抓取數據,查詢2022年房產銷售記錄,并提取相應的銷售價格。
搜索之后,并非一下得出結果,而是在多個來源中,反復核查確認。



在生活規劃和日常決策過程中,通義DeepResearch主要調用「聯網搜索」工具,準確完成了任務。

過程

回答
再來看一個比較專的領域——法律,通義DeepResearch的表現又如何?
舉個栗子,生活中的法律糾紛經常見,自己又不懂法,想要解決難題扔給AI就好了。
假設一個人恰好遇到了「原告要求退還出資,但自己又欠了一屁股債,還有很多債權人」的難題,那么原告是否違反資本維持原則?
在行動之前,通義DeepResearch大腦已經有了完整的構思,從問題拆解到工具使用。

接下來,就會看到通義用上了各種工具,獲取法條、案例,并查找學術觀點,最終收集所有可靠信息。




可以看到,通義執行任務的整個過程非常縝密,方便后期回溯。

過程

回答
再比如,有一個博士級跨學科的難題,自己拿不準,可以請教通義。
考慮這樣一個「星座」的數學模型:在一小片天區內,每顆亮于某一特定星等的恒星,都與其最近的鄰居(按二維歐幾里得距離計算)連接一條邊。
假設恒星在天空中均勻分布,那么平均每個星座(即連通子圖)包含多少顆恒星?
此處,思考過程省略億字......

但從通義的表現中,看得出每一步的計算和思考,都是建立在深度搜索、查詢,反復驗證的過程之上。
除了常用的搜索、瀏覽工具,它還借用「Python解釋器」、「谷歌學術」等工具幫自己理解,最后給出詳細的報告。
那么,通義DeepResearch團隊是如何煉成「超級研究大腦」?深入技術細節,讓我們一一拆解。
從零開始的數據煉金術
高質量數據,是大模型的核心,也仍然是智能體的生命之源。
通義DeepResearch團隊在反復試錯和探索下,構建出一套完備的「智能體合成數據」體系,貫穿預訓練與后訓練的完整訓練鏈路。
這個策略的終極目標,是擺脫對昂貴且稀缺的人工標注數據的依賴,用「機器生產」的方式,源源不斷地創造出比人類標注質量更高、規模更龐大的訓練「教材」。
第一步:智能體增量預訓練數據合成
在預訓練過程中,傳統模型更像是一次性填鴨式教學,仍然是「記住知識」。
團隊首次引入了「Agentic CPT」(增量預訓練) 的概念,教會模型「使用知識」,并且構造了一個能夠持續進化和擴展的智能體預訓練數據合成方法AgentFounder。
- 構建開放世界記憶
團隊首先將海量知識文檔、網頁爬蟲數據、知識圖譜,以及模型后訓練產生的思考軌跡和工具使用記錄,全部匯集起來,構建了一個龐大的、以實體為核心的「開放世界知識記憶庫」。
接著,從這個記憶庫中抽取知識點,模擬真實世界中千奇百怪的場景,自動生成無數「問題-答案」對。

- 動作合成
更近一步,他們構建了三種類型的「動作數據」,具體包含規劃、推理和決策動作。
這種方法讓模型在離線狀態下,就能探索海量的推理路徑,而無需昂貴的在線API調用,大大提升了訓練效率和深度。
尤其是,對于「決策動作」合成,會將軌跡重構為多步驟決策過程,充分探索有效的問題解決路徑,讓模型決策能力大幅提升。
第二步:全自動高質量數據合成
基礎打好后,如何讓模型「百尺竿頭,更進一步」?
在后訓練階段,團隊又開發了一套全自動的合成數據生成方案,直接產出比人工標注質量還高的數據集。
從最早的WebWalker,到后來更系統的WebSailor,WebShaper,最后的WebSailor V2這一方案不斷迭代。
每一步,都Scaling了數據的質量和規模。
為了生成復雜的問答對數據,他們開創了一個全新流程:
- 確保數據真實
從真實網站數據中提取信息,用上隨機游走構建知識圖譜、表格數據融合等方式,保證了問題的「原汁原味」。
- 人為制造「迷霧」
接著,策略性地隱藏或模糊問題中的關鍵信息,或以其他方式增加問題的不確定性,來提升問題的難度。
團隊甚至將回答難度,建模為一系列可控的「原子操作」,由此一來,可以精準控制問題的復雜度。
- 杜絕「抄近道」
為了防止模型「偷懶」找捷徑,團隊還基于集合論把信息搜索問題形式化建模。
這不僅能生成更高質量的問題,還解決了合成數據難以驗證答案正確性的行業難題。
- 打造「博士級」難題
此外,還開發了一個專用于生成跨科學知識、多步推理的「博士級」研究難題的自動化數據流程。
它讓一個配備網絡搜索、學術檢索等工具的Agent,在一個循環中不斷深化和擴展問題,像滾雪球一樣讓任務難度可控升級。
兩種推理模式,征服長任務
擁有了頂級的「教材」,還需要高效的學習和思考方式。
通義DeepResearch模型同時支持兩種推理模式:一個是原生的ReAct Mode,另一個是基于上下文管理的Heavy Mode。
經典模式:ReAct Mode
在標準任務中,模型采用經典的ReAct(思考-行動-觀察)模式,性能超乎想象。
它就像一個直覺敏銳的行動派,憑借128K的超長上下文,可以進行多輪次的快速交互,高效解決問題。
這種通用、可拓展的推理模式,盡管簡單,但其是原生模型Agentic能力的直接體現。
深度模式:Heavy Mode
放眼全世界,谷歌、OpenAI、xAI等大廠都在「深度研究」上展開布局,緊追當前Agent熱點。
但是,他們大都采用了「單窗口、線性累加」信息處理模式,弊端就是信息一多,「AI大腦」就不夠用了。
因為,所有中間思路和檢索到的信息,都堆積在了單一的上下文中。
在處理長程任務中,這種模式下的Agent就會面臨「認知空間窒息」和「不可逆的噪聲污染」挑戰。
最終,AI推理能力下降,難以完成長程、復雜的研究任務。
當面對極端復雜、需要長遠規劃的研究任務時,「深度模式」(Heavy Mode)便會啟動。
具體來說,模型會將一個龐大任務分解為一系列「研究輪次」:
- 在每一輪開始,Agent僅從上一輪的信息中提取最精華的結論,構建一個全新的、精簡的工作空間。
- 在這個專注的工作空間里,Agent分析問題,將關鍵發現整合進一個不斷演變的核心報告中。
- 最后,它決定下一步是繼續收集信息,還是給出最終答案。
這種「綜合-重構」的迭代過程,讓Agent在執行超長期任務時,始終能保持清晰的「認知焦點」和高質量的推理能力。

更進一步,團隊還提出了Research-Synthesis框架:
讓多個IterResearch Agent并行研究同一問題,最后將其報告和結論整合,從而獲得更全面、更準確的答案。
這一模式下,通義30B-A3B模型在HLE、BrowseComp、BrowseComp-ZH基準上,性能再破紀錄。

AI智能體自我進化
端到端訓練技術革新
如果說數據和推理模式是「招式」,那么訓練流程就是「心法」。
團隊打通了「Agentic CPT→ SFT→ Agentic RL」端到端全鏈路,首次提出了兩階段的智能體增量預訓練,引領了智能體訓練的新范式。
此外,其基于ReAct框架的強化學習環節,最能體現其深厚的系統工程能力。

團隊坦言,通過強化學習構建高質量Agent,是一項復雜的系統工程挑戰。
如果將開發過程視為一個「強化學習」循環,其組件中任何不穩定,或是魯棒性不足之處,都可能導致錯誤的「獎勵」信號。
那么,在強化學習過程中,團隊如何在算法和基礎設施上取得突破?
- 算法是核心
針對算法,基于GRPO定制優化,嚴格遵循on-policy訓練范式,確保信號匹配模型能力。
與此同時,采取一個token級策略梯度損失函數,以優化訓練目標。結合留一法 (leave-one-out) 策略,降低優勢估計方差。
為了避免「格式崩潰」現象,團隊還進行多種策略的負樣本篩選,比如排除過長未能生成答案的樣本。
此外,通過增大批次(batch size)和組規模(group size),維持較小方差,提供充足監督信號。

如上圖動態指標顯示,獎勵持續震蕩上升。同時,策略熵(policy entropy)保持較高水平,說明模型在持續探索進化,避免了過早收斂。
這得益于Web環境的非平穩性,形成了魯棒自適應策略,無需額外正則化。
算法穩定搞定了,就一切萬事大吉了嗎?顯然不是。
- 基礎設施更關鍵
團隊分享了一個至關重要的洞見:
算法固然重要,但并非成功的唯一決定因素。數據質量和訓練環境的穩定性,可能是決定強化學習項目成敗的更關鍵一環。
一個極具說服力的現象是,團隊曾嘗試直接在人工標注的BrowseComp測試集上訓練模型來驗證算法,結果其表現遠不如使用自研合成數據訓練的效果。
由此,他們推測,這是因為合成數據提供了一致性更高的潛在分布,使模型能進行更有效的學習和擬合。
相較之下,規模有限、含有更多噪聲的人工數據,反而讓模型難以提煉和泛化。

為了實現穩定、高效的強化學習,他們構建了一套全棧式的基礎設施「護城河」:
- 仿真訓練環境:利用離線維基百科和自定義工具套件,創建了一個經濟高效、快速可控的模擬訓練平臺,擺脫了對昂貴且不穩定的實時Web API的依賴。
- 工具沙盒:通過緩存結果、失敗重試、飽和式響應等機制,為智能體提供了快速魯棒的交互環境,防止工具的偶然錯誤破壞其學習軌跡。
- 自動數據管理:在訓練動態的指導下實時優化數據集,通過全自動數據合成和數據漏斗,形成「數據生成」與「模型訓練」之間的正向循環。
- On-policy的異步框架:基于rLLM實現,讓多個智能體實例并行與環境交互,獨立生成軌跡,極大提升了訓練效率。
通過這一系列措施,阿里團隊實現了智能體強化訓練的「閉環」,讓模型從一個基座模型開始,通過預訓練、微調,最終在強化學習中實現自我進化。
這套全棧方案,恰恰為解決復雜任務的AI智能體訓練樹立了全新范式。
「高德行程規劃」和「律師小助理」雙開花
過去半年,通義DeepResearch團隊在Deep Research研發中不斷深耕,每月一篇新作,全部斬獲SOTA。

通義DeepResearch團隊技術報告矩陣
除了技術報告誠意滿滿,通義DeepResearch團隊一口氣連發六篇技術報告,除了延續Web系列的WebResearcher、WebWeaver、WebResummer、WebSailor V2的四篇工作之外,更是全新推出Agent系列的AgentFounder和AgentScaler!
這些重磅研究,并非是實驗室的「花瓶」,它們早已走向落地,賦能阿里旗下多個產品。
比如,每個人都能感知的案例——高德「小高老師」。可能你還不知道的是,其背后就是通義DeepResearch提供的加持。

前段時間,高德暑期大版本V16,重點全面推出「地圖導航+本地生活」場景。
通義團隊和高德深度合作,在上述導航和本地生活場景中構建集成Deep Research能力的垂類智能體。
在規劃決策中,通義團隊基于Qwen模型微調構建精通地圖領域的復雜「POI推理Agent」,一個超懂地圖的智能助手。
它能一鍵get各種復雜需求,比如地理區域、參與者約束、交通約束、時間約束、POI屬性等多維度信息。

舉個例子,當你輸入一長串要求——
我想在西湖邊上找家評分4.5以上的浙菜館,得有兒童餐,而且從地鐵站走過去不能超過1公里。
AI能夠立即挑出最合適的點,連怎么走都可以安排得明明白白。
再比如,假設想去奧森Citywalk,高德AI瞬間就能制定出三種攻略。
打開每一種攻略,可以看到,它會幫你做出詳細的時間規劃,貼心地推薦餐飲、游玩景點等。

通義出模型,高德出工具和Agent鏈路,由此打造出了「小德助手」驚艷的體驗。
在法律領域,通義DeepResearch能力也深度融合到了「通義法睿」中,一個原生法律智能體。
它集問答、案例檢索、合同審查、文書起草于一身,可以滿足法律用戶的需求。
升級后,基于創新性Agentic架構和迭代式規劃(Iterative Planning),「通義法睿」DeepResearch大幅升級。
如今,它能夠執行多步查詢,依托真實判例、法規和解讀,提供可追溯分析。
通過PK,「通義法睿」在三大核心維度——答案要點質量、案例引用質量、法條引用質量上,超越了OpenAI、Claude家的Deep Research。

總結
總而言之,通義DeepResearch的開源,無疑是AI社區的一大福音,人人可構建專屬的深度研究智能體。
它證明了,輕量模型在「深度研究」領域中也能稱霸。
它很慷慨,大方分享其背后技術秘方——合成數據+強化學習是訓練模型的未來。
下一個爆款APP,或許有天,正是通義DeepResearch打造的。



























