阿里開源 Tongyi DeepResearch:科研智能體能力首次追平 OpenAI 原創
在人工智能的演進史上,每隔一段時間,總會出現一些具有里程碑意義的模型。2025 年 9 月,阿里巴巴通義實驗室發布的 Tongyi DeepResearch-30B-A3B,正是這樣一個引人注目的存在。
它不是簡單的對話機器人,而是一個真正意義上的 開源科研智能體(Research Agent),可以在復雜信息環境中進行多輪推理、跨來源檢索、證據交叉驗證和長文檔綜合。更重要的是,它在多個權威基準測試中表現出色,首次讓開源模型的科研智能體能力,真正追平了 OpenAI 的同類產品。
對于正在關注 大模型智能體化、科研任務自動化、以及 開源模型產業化 的讀者來說,Tongyi DeepResearch 的出現意味著什么?本文將帶你深入解讀。
一、為什么 DeepResearch 模型重要?
在科研和信息檢索類任務中,傳統聊天模型常常力不從心。比如:
- 面對復雜學術問題,它們容易“編故事”,缺乏可靠證據;
- 長鏈路任務(如跨文獻追溯、逐步構建論證)往往被截斷,結果不完整;
- 面對龐大的上下文,它們會被“信息噪聲”淹沒,出現邏輯漂移。
而 DeepResearch 模型的設計目標,正是為了解決這些“科研痛點”。它不只是問答助手,而是能像研究人員一樣,進行:
- 長期規劃(Long-horizon planning)
- 迭代檢索和交叉驗證(Iterative retrieval & verification)
- 證據跟蹤和低幻覺率(Evidence tracking)
- 多源信息綜合(Large-context synthesis)
這也是為什么 Tongyi DeepResearch 的亮相,直接被視為“開源科研智能體時代的開始”。
二、性能表現:開源首次對標 OpenAI
阿里官方公布的基準測試結果,足夠亮眼:
- **Humanity’s Last Exam (HLE)**:32.9
- BrowseComp:43.4(英文)/ 46.7(中文)
- xbench-DeepSearch:75
這些測試被業內稱為科研智能體的“綜合考核”,主要評估模型在復雜信息檢索、多步推理和跨源綜合中的表現。

換句話說,Tongyi DeepResearch 已經站在了 OpenAI DeepResearch 的同一水平線上,并且在開源社區中“一騎絕塵”。這對于長期依賴閉源模型的開發者和研究機構來說,無疑是一種解放。
三、架構設計:MoE + 超長上下文
要理解它為什么能做到這一點,就得看架構。
- Mixture-of-Experts(MoE)架構
- 總參數量約 305 億,但每個 Token 只激活 30~33 億參數。
- 等于用“小模型成本”獲得“大模型能力”。
- 這一設計延續自阿里在 Qwen3-MoE 中的探索。
- 超長上下文:128K Token
- 足以處理多篇學術論文、完整研究報告,甚至是跨領域文獻集合。
- 這讓它在“長鏈路推理”上天然占優。

- 雙推理模式
- ReAct 模式:原生推理與工具調用,評估模型的內生能力;
- Heavy Mode(IterResearch):通過迭代重構上下文來減少噪聲,專門應對超復雜科研任務。

簡而言之,它不僅能“讀得多”,還能“讀得清”。

四、訓練方法:全自動合成數據 + On-policy 強化學習
和多數聊天模型不同,Tongyi DeepResearch 從一開始就被訓練為“智能體”,而非單純的對話模型。
1. 自動化數據引擎

阿里搭建了一個完全自動化的數據生成系統:
- 從知識圖譜、文檔庫、歷史工具調用軌跡中構建語料;
- 自動生成問題與答案對;
- 合成多步推理和行動軌跡數據;
- 不依賴昂貴的商業 API 調用。
這意味著訓練數據不再依賴人工標注,而是一個可擴展的“自我進化循環”。
2. 冷啟動 SFT(監督微調)
通過 ReAct 和 IterResearch 兩種格式,生成結構化推理數據,幫助模型快速掌握工具使用與規劃能力。
3. On-policy 強化學習(GRPO 算法)
- Group Relative Policy Optimization:基于群體相對優勢的優化方式;
- Token 級策略梯度:精細化學習信號;
- 負樣本過濾:避免訓練崩潰或格式坍塌;
- 高并發沙盒環境:模擬網頁搜索、文檔查詢,保證模型在真實環境中也能穩定學習。
這套 RL 策略,不僅提高了模型的魯棒性,還解決了以往科研智能體容易“卡死”或“亂跑”的問題。
五、在科研與信息檢索中的應用價值
從實驗室走向實際應用,Tongyi DeepResearch 能做什么?
- 學術研究助手
- 自動整理多篇論文的關鍵結論;
- 在跨學科主題中尋找共通點;
- 生成邏輯嚴謹的研究綜述。
- 企業文檔研究
- 針對上萬頁報告、專利、內部文件,快速抽取核心觀點;
- 跨來源驗證,避免“只看一家之言”。
- 多語言信息獲取
- 在 BrowseComp-ZH 的成績表明,它在中文語境下同樣表現優異;
- 這對中國科研人員尤其友好。
- Web 調研與商業分析
- 從公開網頁中持續追蹤信息,綜合成可靠的決策依據。
換句話說,它的定位并不是“寫作助手”,而是更接近“智能研究員”。

六、為何開源意義重大?
很多人可能會問:OpenAI 已經有 DeepResearch,為什么還需要阿里的開源版本?
答案很簡單:科研需要可驗證、可復現、可定制的工具。
- 閉源模型再強,也無法滿足企業的合規需求;
- 大學和研究機構需要對訓練數據與方法有掌控;
- 開源模型能形成“科研共同體”,不斷自我進化。
阿里這次不僅開源了權重,還提供了推理腳本、評測工具、數據管線。對于開發者來說,這是一整套“可落地的科研智能體方案”。
七、未來趨勢:科研智能體會成為“標配”嗎?
Tongyi DeepResearch 的發布,釋放了一個清晰信號:科研和信息檢索類任務,正在全面智能體化。
未來幾年,我們可能會看到:
- 科研人員人手一個智能體助手
- 它幫你查文獻、對比實驗、驗證假設;
- 你只需要做最后的判斷與創新。
- 企業內部知識庫自動化
- 不再依賴人工整理文檔;
- 智能體可以根據上下文動態生成研究報告。
- 跨學科融合加速
- 智能體能輕松“跳出專業壁壘”,讓不同領域知識快速聯通。
可以預見,未來科研智能體就像今天的搜索引擎一樣,會成為研究與信息工作的標配。
結語
Tongyi DeepResearch 的問世,不只是阿里的一次技術突破,更是 開源社區在科研智能體方向上的里程碑。
它證明了:即使面對最復雜的科研任務,開源模型依然有機會追平乃至超越閉源巨頭。
對于科研人員、企業研究團隊、開發者來說,真正的價值在于——你可以直接下載、運行、改造它,讓它成為你自己的“研究助手”。
也許,未來的某個科研突破,就會誕生在這樣一個開源智能體的輔助下。
本文轉載自???Halo咯咯??? 作者:基咯咯

















