WebResearcher:從線性累積到迭代進化,重塑AI研究范式的三大支柱

大家好,我是肆〇柒。本文一篇來自阿里巴巴通義實驗室(Tongyi Lab, Alibaba Group)的研究,是通義 Deepresearch 發布的系列研究之一。
這篇論文不僅推出了一個名為WebResearcher的新型AI智能體,更重要的是,它提出了一種名為"IterResearch"的全新范式,期望從根本上解決長程推理任務中的核心瓶頸。
在人工智能向通用智能(AGI)邁進的征途中,讓模型從被動的知識消費者,轉變為能主動探索、驗證與合成新知識的研究者,已成為一個關鍵轉折點。近年來,"深度研究"(Deep Research)智能體的興起,正是這一趨勢的集中體現。然而,當任務復雜度持續攀升,當前主流系統所依賴的"單上下文線性累積"范式正日益顯露出其結構性瓶頸——認知工作區被歷史信息淹沒,早期錯誤如病毒般持續污染后續推理。
在此背景下,阿里巴巴通義實驗室推出的WebResearcher,并非一次簡單的性能優化,而是一場針對長程智能體底層邏輯的范式革命。其核心貢獻"IterResearch"通過將研究過程重構為一個可迭代、可重置的循環,從根本上解決了舊范式的兩大頑疾:"認知工作區窒息"與"不可逆噪聲污染"。這不僅帶來了性能上的飛躍,更重新定義了我們構建下一代AI智能體的方式。

WebResearcher 與頂尖深度研究智能體的性能對比
上圖直觀展示了這一革命性突破:在被譽為"人類最后的考試"(Humanity's Last Exam, HLE)的頂級學術挑戰中,WebResearcher-heavy(使用Qwen3-235B-A22B作為骨干模型的版本)以**36.7%的準確率大幅領先第二名DeepSeek-V3.1(29.8%);在復雜的網頁導航任務BrowseComp-en上,它達到51.7%**的準確率,與OpenAI的閉源系統打成平手,同時將最佳開源系統DeepSeek-V3.1(30.0%)遠遠拋開21.7個百分點。這些數據清晰表明,WebResearcher已建立起不可忽視的性能壁壘。
長程智能體的"范式瓶頸"——從量變到質變的臨界點
回顧近期開源與閉源領域涌現的代表性深度研究智能體,無論是OpenAI的Deep Research、Google的Gemini Deep Research,還是WebThinker、WebSailor等開源項目,它們普遍采用了一種看似直觀的"單上下文線性累積"架構。在這種模式下,智能體每一步的思考、工具調用結果和檢索到的信息,都會被無差別地追加到一個不斷膨脹的上下文窗口中。
這一范式在解決中等復雜度問題時取得了顯著成功,是AI Agent能力演進過程中不可或缺的"量變"階段。然而,隨著任務向多跳、跨域、長周期的方向發展,這種線性累積的弊端愈發明顯。首先,是"認知工作區窒息"(Context Suffocation):隨著上下文窗口被歷史信息填滿,留給模型進行深度推理的空間急劇壓縮,迫使智能體在信息尚未充分消化時就做出倉促結論。其次,是"不可逆噪聲污染"(Irreversible Noise Contamination):一旦引入無關信息或出現初始判斷錯誤,這些"噪聲"會永久滯留在上下文中,無法被修正或過濾,導致后續所有推理都建立在錯誤的基礎之上,形成雪崩式的誤差傳播。

在 HLE、BC-EN 和 BC-ZH 基準上,不同智能體的核心對比結果
上表顯示,在HLE基準測試中,單上下文智能體(Mono-Agent)的準確率僅為18.7%,而采用IterResearch范式的WebResearcher-30B-A3B則達到28.8%,差距高達10.1個百分點。這一定量證據有力地證明,舊范式的缺陷已無法通過簡單的模型升級或數據擴充來解決。
這兩個缺陷揭示了一個深刻的悖論:智能體越是努力搜集信息來解決問題,其用于處理信息的推理能力反而越弱。這標志著行業已抵達一個必須進行"范式轉移"的臨界點。WebResearcher的價值,正在于它沒有選擇在舊范式上修修補補,而是徹底顛覆了研究過程的建模方式,提出了一套名為"IterResearch"(Iterative Deep-Research Paradigm的縮寫)的全新架構,開啟了一場從"線性累積"到"迭代合成"的深刻變革。
解構革命——IterResearch的MDP內核與工程實現
要理解IterResearch的革命性,最直觀的方式是對比其與傳統范式的工作流差異。

“迭代式深度研究范式”與主流“單語境范式”的對比示意圖
上圖清晰地展示了這一點。左側的傳統范式如同一條不斷增粗的河流,所有信息匯成一股洪流,最終因體量過大而變得遲緩渾濁;右側的IterResearch則像一個精密的循環系統,每一圈都進行提煉與凈化,確保流動的是高純度的"知識精華"。
這一精妙設計的理論基石,是將整個研究過程形式化為一個馬爾可夫決策過程(Markov Decision Process, MDP)。在每個研究輪次 ,智能體的狀態 被嚴格限定為三個核心組件:
1. 原始問題(Question):貫穿始終的研究目標。
2. 進化報告(Report_{i-1}):上一輪生成的、融合了所有關鍵發現的摘要。
3. 最新工具響應(Tool Response_{i-1}):上一輪動作的直接反饋。
這種精簡狀態的設計,完美滿足了MDP的馬爾可夫性——當前決策僅依賴于當前狀態,而非冗長的歷史軌跡。狀態間的轉換通過一個"重建"函數完成:丟棄臨時的思考草稿和過時的交互細節,只保留經過提煉的Report和最新的Tool Response,從而為下一輪推理構建一個輕盈、聚焦的認知工作區。
在工程實現上,IterResearch通過一套結構化的元信息框架來指導每一輪的行為:
Think:這是本輪的"認知草稿",智能體在此分析當前狀態、反思進展并規劃下一步。它的存在保證了推理的透明性和完整性,但關鍵在于,Think的內容不會進入下一個狀態,避免了思維碎片對后續工作的干擾。Report:這是整個范式的靈魂所在,扮演著"中央記憶"和"知識蒸餾器"的雙重角色。智能體并非簡單地將新發現追加到報告末尾,而是必須將其與現有知識進行主動整合,解決潛在沖突,更新結論,生成一份連貫、高密度的摘要。例如,當新檢索到的信息與現有知識矛盾時,智能體需評估證據強度并更新報告。通過強制性合成,Report始終保持緊湊(通常小于500 tokens),確保后續輪次有充足空間進行深度推理。這個強制性的"合成"步驟,是阻斷噪聲、實現知識提純的核心機制。Action:基于Think的分析和Report的總結,智能體決定采取具體行動,即調用外部工具(如搜索、瀏覽、代碼執行)或給出最終答案。
這一設計帶來了優勢:無論研究進行多少輪,智能體的認知工作區大小恒定,推理能力永不衰減,實現了理論上"無界"的研究深度。同時,通過Report的迭代更新,早期錯誤可以被識別和修正,噪聲被有效過濾,整個研究過程呈現出"單調信息增益"的良性進化態勢。
更值得注意的是,這一范式為訓練方法帶來了創新空間。在訓練過程中,IterResearch采用拒絕采樣微調(Rejection Sampling Fine-Tuning)策略,嚴格篩選僅保留最終答案與參考答案完全匹配的軌跡進行訓練,確保模型學習到端到端正確的推理過程。這意味著,即使某條軌跡前90%的推理正確,但最終答案錯誤,整條軌跡也會被"拒絕"。這種"結果導向"的篩選確保了模型學習到的是端到端正確的推理過程,而非部分正確的片段。
此外,迭代范式天然產生的多輪次樣本為強化學習提供了豐富素材。每個研究問題可產生∑gG=1 T(i)g個訓練樣本,實現了顯著的數據放大效應,這是單上下文方法無法企及的優勢。然而,可變長度軌跡的訓練挑戰需要特殊處理,IterResearch采用最小損失下采樣技術:這一技術確保了分布式訓練穩定性,同時最小化數據損失(通常<1%),是實現高效訓練的關鍵工程細節。
通過Group Sequence Policy Optimization (GSPO),IterResearch能夠優化多輪次推理策略。在這一框架下,所有∑gG=1 Tg輪次形成一個訓練組,實現高效的批量訓練,同時保持組級別的優勢歸一化。這種設計與傳統GSPO不同——傳統方法將每條軌跡單獨處理,而IterResearch利用軌跡的自然分解,將每輪視為獨立訓練樣本,同時保持所有輪次的組級優勢歸一化,最大化數據利用效率,確保在不同研究深度上實現均衡學習,為長程推理提供了堅實的訓練基礎。
實證革命——數據與行為分析揭示的統治力
理論的優勢需要實驗的檢驗。為了剝離模型、數據等因素的影響,研究團隊進行了嚴謹的消融實驗。

在 HLE、BC-EN 和 BC-ZH 基準上,不同智能體的核心對比結果
上表對比了三種配置:基礎的"Mono-Agent"(單上下文)、使用IterResearch訓練數據的"Mono-Agent+ Iter",以及完整的"WebResearcher"(迭代范式)。
結果顯示,"Mono-Agent+ Iter"相比基礎版有穩定提升,這證明了WebFrontier數據引擎本身具有普適價值,能增強任何模型的工具使用能力。然而,最關鍵的差距體現在"Mono-Agent+ Iter"與"WebResearcher"之間。例如,在HLE基準上,WebResearcher-30B-A3B以28.8%的成績領先"Mono-Agent+ Iter"25.4%。這一"決定性優勢"無可辯駁地證明,性能的飛躍主要源于
架構范式本身的優越性,而非僅僅是數據質量的提升。舊范式下的線性累積,終究無法克服其內在的"語境退化"和"不可逆錯誤傳播"兩大致命傷。
更令人信服的是對智能體行為的分析。在以學術問答為主的HLE基準上,智能體策略高效而精準,平均僅需4.7個回合即可解決問題,且大量使用學術文獻搜索(Scholar)工具。而在需要復雜網頁導航的BrowseComp基準上,智能體展現出了驚人的持久力,平均每個任務耗時高達61.4個回合,搜索(Search)和頁面訪問(Visit)成為主導工具。這種根據任務本質自適應調整研究策略的能力,正是IterResearch賦予智能體的高級認知特征,是被"窒息"工作區所束縛的舊范式智能體難以企及的。
特別值得注意的是工具調用模式的差異:在HLE任務中,Scholar工具占所有工具調用的25.4%,反映了對專業學術資源的精準利用;而在BrowseComp任務中,Search和Visit工具分別占56.5%和39.7%,共同構成了96%以上的工具調用。這清晰表明,IterResearch能夠根據任務需求動態調整其工具使用策略,實現真正的"任務感知"行為。
支撐革命——數據引擎與推理框架的協同創新
一場成功的革命,離不開充足的"彈藥"和高效的"戰術"。WebResearcher的成功,還得益于兩大關鍵支撐:為其"造血"的數據引擎WebFrontier,以及實現測試時擴展的推理框架Research-Synthesis。

多智能體系統驅動的三階段數據合成流程總覽
上圖清晰展示了WebFrontier的三階段閉環流程:從原始語料庫開始,經過"相關性分組"形成"復合單元",再由ItemWriter Agent生成初始問答對;隨后進入迭代循環,工具增強的ItemWriter Agent不斷升級問題復雜度;最后通過多階段質量控制確保數據質量。
WebFrontier直面高質量長程任務數據稀缺的行業難題。其創新之處在于一個三階段的閉環流程:種子生成、工具增強的復雜度升級和嚴格的質量控制。其中最核心的是"自舉"(refinement loop)機制:一個配備了搜索、瀏覽、代碼解釋器等工具的智能體,能夠將一個簡單的種子問題,通過四個關鍵步驟系統性地升級為復雜的、需要多源信息合成的研究問題:
1. 知識擴展:查詢外部源拓寬問題范圍。例如,將"量子計算的基本原理"擴展為"量子糾錯碼在超導量子計算機中的實現挑戰及其對Shor算法的影響"。
2. 概念抽象:提煉高層原理、識別跨域關系。如從具體實驗數據中歸納出"量子退相干時間與量子比特數量的指數關系"。
3. 事實驗證:通過多源交叉驗證確保答案準確性,同時比對arXiv論文、權威教科書和實驗數據集。
4. 計算公式化:利用Python環境創建需定量計算的問題,如"基于公開的LIGO數據,計算GW150914事件中黑洞合并釋放的能量相當于多少個太陽質量"。
這一過程本身就模擬了人類研究者的思維方式,生成的數據不僅規模大、質量高,而且天然契合IterResearch的"探索-合成"循環理念。更關鍵的是,WebFrontier產生的訓練數據能顯著提升任何模型(包括舊范式)的工具使用能力,凸顯了新范式對整個生態的賦能作用。
值得注意的是,WebFrontier的數據生成過程與IterResearch范式高度一致,都遵循"探索-合成-再探索"的循環邏輯。這種內在一致性確保了訓練數據與推理范式的完美匹配,是性能飛躍的隱藏關鍵。在質量控制階段,WebFrontier采用雙重驗證機制確保數據質量:
- 基線驗證:QuestionSolver Agent在無工具模式下嘗試回答,過濾掉過于簡單的問題
- 高級驗證:同一Agent在工具增強模式下重新嘗試,僅保留能被工具增強型Agent解決但基線模型無法解決的問題
此外,SimilarityScorer Agent會過濾與現有數據語義冗余的新生成對,保持數據集多樣性。這種精準定位"能力間隙"(capability gap)的機制,確保了生成的數據既具有挑戰性又可解,為訓練高質量智能體提供了堅實基礎。
Research-Synthesis框架則解決了測試時擴展的難題。直接聚合多條完整研究軌跡的上下文成本極高。該框架的巧妙之處在于,利用"最終報告"作為高密度信息載體。

推理—綜合框架圖解
上圖生動展示了這一過程:在"并行研究"階段,多個Research Agent獨立探索,各自生成一份濃縮了全部推理路徑的報告;在"集成綜合"階段,一個專門的"綜合代理"(Synthesis Agent)只需閱讀這些報告,即可融合不同視角,得出更全面、穩健的結論。

Reason-Synthesis Framework 中 n 值的影響
上圖顯示,隨著并行智能體數量 的增加,性能持續提升,但存在明顯的邊際效益遞減。當 從1增加到8時,HLE準確率從28.8%躍升至35.65%,但 時僅微增至36.7%。這為實際部署提供了清晰的成本-收益權衡方案,使架構師能夠在性能提升與計算成本之間找到最佳平衡點。
深入分析上圖揭示的規律表明,8個并行智能體已能捕獲絕大多數的性能增益,為實際部署提供了明確的成本效益拐點。這種"邊際效益遞減"規律對系統架構師設計生產環境具有直接指導價值,而不僅是學術觀察。
WebResearcher配備了四類專業工具,每類工具都經過精心設計以支持高效研究:
- Search工具:支持批量查詢,返回每個查詢的前10個結果,包含標題、摘要和URL,便于快速評估相關性
- Scholar工具:提供學術文獻的作者、出版 venue 和引用計數等元數據,支持高效學術研究
- Visit工具:基于Jina.ai實現目標導向的網頁內容提取,代理提供URL和提取目標(如"查找實驗結果"),工具首先檢索完整內容,然后使用Qwen3基于指定目標生成聚焦式摘要,避免信息過載
- Python工具:在沙盒環境中執行代碼,支持數據分析和可視化庫,所有輸出明確打印以確保計算結果清晰呈現
特別是Visit工具的"目標導向摘要"機制,直接解決了傳統網頁瀏覽中信息過載的問題,是支撐IterResearch范式的關鍵基礎設施。這些工具系統的設計細節,展現了WebResearcher工程實現的成熟度,使其能夠處理真實的長程研究任務。
影響革命——Benchmark統治力與行業啟示
在6項極具挑戰性的基準測試中,WebResearcher展現了統治級的表現,為這場范式革命提供了最強有力的背書。這些結果不僅體現在絕對性能上,更體現在多維度的適應性上。

在通用網頁導航與推理基準測試中的表現

在面向目標的復雜網絡任務基準測試中的結果
上表全面展示了WebResearcher在不同任務類型上的表現。在通用網絡導航與推理基準(HLE、BrowseComp)上,WebResearcher-heavy取得了**36.7%的準確率,大幅超越了DeepSeek-V3.1(29.8%)和OpenAI Deep Research(26.6%),彰顯了其在深度知識合成方面的絕對優勢。在復雜的網頁導航任務BrowseComp-en上,它達到了51.7%**的準確率,與OpenAI的閉源系統持平,同時將最佳開源系統DeepSeek-V3.1(30.0%)甩開21.7個百分點。在中文網頁導航任務BrowseComp-zh上,它同樣表現出色,達到56.8%的準確率,接近OpenAI-o3的58.1%,顯著優于DeepSeek-V3.1的49.2%。這些結果證明,IterResearch通過結構化的合成過程,能夠有效處理跨語言信息源,避免了單上下文系統在積累多語言內容時常見的混淆問題。
在復雜目標導向網絡任務(GAIA、Xbench-DeepSearch、Frames)上,WebResearcher同樣展現出卓越能力。在GAIA基準上,它以75.7%的準確率超越所有評估系統,包括Claude-4-Sonnet(68.3%)和OpenAI-o3(70.5%),領先優勢高達9.7個百分點。在Xbench-DeepSearch上,它達到73.0%的準確率,超越DeepSeek-V3.1(71.2%)和其他開源替代方案。在Frames基準上,它以85.1%的準確率領先DeepSeek-V3.1(83.7%)和OpenAI-o3(84.0%)。
這些數據背后揭示了一個重要規律:在需要復雜多步推理的任務中,IterResearch的優勢更加顯著。這正是因為這些任務最能體現其核心價值——通過周期性合成和工作區重建,維持高質量推理能力于整個研究過程。相比之下,單上下文系統隨著研究輪次增加,性能會逐漸下降,這在BrowseComp任務中尤為明顯(平均61.4輪),而IterResearch仍能保持穩定輸出。
這一成功帶來的啟示深遠:
- 對研究者而言,未來的競爭焦點將從單純的模型規模競賽,轉向智能體架構的創新。IterResearch提供了一個可復用的優秀模板。
- 對系統架構師而言,"迭代合成"和"周期性知識蒸餾"的思想具有極強的普適性,有望遷移到機器人控制、長期規劃等其他長程決策場景。
- 對AGI的發展而言,WebResearcher通過模擬人類研究者的核心工作流,推動了AI從"信息檢索者"向"知識建筑師"的轉變,為構建真正具備自主學習與創造能力的通用智能體鋪平了道路。
總結:擁抱迭代合成的新時代
WebResearcher不是一次漸進式的改良,而是一場由第一性原理驅動的范式革命。它深刻地認識到,當"量變"積累到一定程度,原有的架構終將觸及天花板。唯有回歸"如何進行有效研究"這一本質問題,重新設計智能體的底層運行邏輯,才能實現真正的"質變"。
IterResearch通過將研究過程解耦為"探索"與"合成"兩個相輔相成的階段,創造性地解決了長程推理的可持續性難題。實驗結果表明,IterResearch在多項基準測試上達到了state-of-the-art性能,甚至超越了前沿閉源系統,驗證了迭代合成范式在長程推理任務中的有效性。
值得注意的是,IterResearch范式產生的訓練數據能顯著提升傳統單上下文方法的性能,這表明其設計理念對整個AI智能體生態具有廣泛的賦能作用。這種"架構即數據"的良性循環,將加速整個領域的進步。































