WebResearcher：從線性累積到迭代進化，重塑AI研究范式的三大支柱

作者：肆零柒 2025-09-24 10:24:57

阿里通義實驗室提出IterResearch范式，本文揭示其如何通過“迭代合成”重構長程智能體架構，實現可持續的高質量推理。

大家好，我是肆〇柒。本文一篇來自阿里巴巴通義實驗室（Tongyi Lab, Alibaba Group）的研究，是通義 Deepresearch 發布的系列研究之一。

這篇論文不僅推出了一個名為WebResearcher的新型AI智能體，更重要的是，它提出了一種名為"IterResearch"的全新范式，期望從根本上解決長程推理任務中的核心瓶頸。

在人工智能向通用智能（AGI）邁進的征途中，讓模型從被動的知識消費者，轉變為能主動探索、驗證與合成新知識的研究者，已成為一個關鍵轉折點。近年來，"深度研究"（Deep Research）智能體的興起，正是這一趨勢的集中體現。然而，當任務復雜度持續攀升，當前主流系統所依賴的"單上下文線性累積"范式正日益顯露出其結構性瓶頸——認知工作區被歷史信息淹沒，早期錯誤如病毒般持續污染后續推理。

在此背景下，阿里巴巴通義實驗室推出的WebResearcher，并非一次簡單的性能優化，而是一場針對長程智能體底層邏輯的范式革命。其核心貢獻"IterResearch"通過將研究過程重構為一個可迭代、可重置的循環，從根本上解決了舊范式的兩大頑疾："認知工作區窒息"與"不可逆噪聲污染"。這不僅帶來了性能上的飛躍，更重新定義了我們構建下一代AI智能體的方式。

WebResearcher 與頂尖深度研究智能體的性能對比

上圖直觀展示了這一革命性突破：在被譽為"人類最后的考試"（Humanity's Last Exam, HLE）的頂級學術挑戰中，WebResearcher-heavy（使用Qwen3-235B-A22B作為骨干模型的版本）以**36.7%的準確率大幅領先第二名DeepSeek-V3.1（29.8%）；在復雜的網頁導航任務BrowseComp-en上，它達到51.7%**的準確率，與OpenAI的閉源系統打成平手，同時將最佳開源系統DeepSeek-V3.1（30.0%）遠遠拋開21.7個百分點。這些數據清晰表明，WebResearcher已建立起不可忽視的性能壁壘。

長程智能體的"范式瓶頸"——從量變到質變的臨界點

回顧近期開源與閉源領域涌現的代表性深度研究智能體，無論是OpenAI的Deep Research、Google的Gemini Deep Research，還是WebThinker、WebSailor等開源項目，它們普遍采用了一種看似直觀的"單上下文線性累積"架構。在這種模式下，智能體每一步的思考、工具調用結果和檢索到的信息，都會被無差別地追加到一個不斷膨脹的上下文窗口中。

這一范式在解決中等復雜度問題時取得了顯著成功，是AI Agent能力演進過程中不可或缺的"量變"階段。然而，隨著任務向多跳、跨域、長周期的方向發展，這種線性累積的弊端愈發明顯。首先，是"認知工作區窒息"（Context Suffocation）：隨著上下文窗口被歷史信息填滿，留給模型進行深度推理的空間急劇壓縮，迫使智能體在信息尚未充分消化時就做出倉促結論。其次，是"不可逆噪聲污染"（Irreversible Noise Contamination）：一旦引入無關信息或出現初始判斷錯誤，這些"噪聲"會永久滯留在上下文中，無法被修正或過濾，導致后續所有推理都建立在錯誤的基礎之上，形成雪崩式的誤差傳播。

在 HLE、BC-EN 和 BC-ZH 基準上，不同智能體的核心對比結果

上表顯示，在HLE基準測試中，單上下文智能體（Mono-Agent）的準確率僅為18.7%，而采用IterResearch范式的WebResearcher-30B-A3B則達到28.8%，差距高達10.1個百分點。這一定量證據有力地證明，舊范式的缺陷已無法通過簡單的模型升級或數據擴充來解決。

這兩個缺陷揭示了一個深刻的悖論：智能體越是努力搜集信息來解決問題，其用于處理信息的推理能力反而越弱。這標志著行業已抵達一個必須進行"范式轉移"的臨界點。WebResearcher的價值，正在于它沒有選擇在舊范式上修修補補，而是徹底顛覆了研究過程的建模方式，提出了一套名為"IterResearch"（Iterative Deep-Research Paradigm的縮寫）的全新架構，開啟了一場從"線性累積"到"迭代合成"的深刻變革。

解構革命——IterResearch的MDP內核與工程實現

要理解IterResearch的革命性，最直觀的方式是對比其與傳統范式的工作流差異。

“迭代式深度研究范式”與主流“單語境范式”的對比示意圖

上圖清晰地展示了這一點。左側的傳統范式如同一條不斷增粗的河流，所有信息匯成一股洪流，最終因體量過大而變得遲緩渾濁；右側的IterResearch則像一個精密的循環系統，每一圈都進行提煉與凈化，確保流動的是高純度的"知識精華"。

這一精妙設計的理論基石，是將整個研究過程形式化為一個馬爾可夫決策過程（Markov Decision Process, MDP）。在每個研究輪次，智能體的狀態被嚴格限定為三個核心組件：

1. 原始問題（Question）：貫穿始終的研究目標。

2. 進化報告（Report_{i-1}）：上一輪生成的、融合了所有關鍵發現的摘要。

3. 最新工具響應（Tool Response_{i-1}）：上一輪動作的直接反饋。

這種精簡狀態的設計，完美滿足了MDP的馬爾可夫性——當前決策僅依賴于當前狀態，而非冗長的歷史軌跡。狀態間的轉換通過一個"重建"函數完成：丟棄臨時的思考草稿和過時的交互細節，只保留經過提煉的Report和最新的Tool Response，從而為下一輪推理構建一個輕盈、聚焦的認知工作區。

在工程實現上，IterResearch通過一套結構化的元信息框架來指導每一輪的行為：

Think：這是本輪的"認知草稿"，智能體在此分析當前狀態、反思進展并規劃下一步。它的存在保證了推理的透明性和完整性，但關鍵在于，Think的內容不會進入下一個狀態，避免了思維碎片對后續工作的干擾。
Report：這是整個范式的靈魂所在，扮演著"中央記憶"和"知識蒸餾器"的雙重角色。智能體并非簡單地將新發現追加到報告末尾，而是必須將其與現有知識進行主動整合，解決潛在沖突，更新結論，生成一份連貫、高密度的摘要。例如，當新檢索到的信息與現有知識矛盾時，智能體需評估證據強度并更新報告。通過強制性合成，Report始終保持緊湊（通常小于500 tokens），確保后續輪次有充足空間進行深度推理。這個強制性的"合成"步驟，是阻斷噪聲、實現知識提純的核心機制。
Action：基于Think的分析和Report的總結，智能體決定采取具體行動，即調用外部工具（如搜索、瀏覽、代碼執行）或給出最終答案。

這一設計帶來了優勢：無論研究進行多少輪，智能體的認知工作區大小恒定，推理能力永不衰減，實現了理論上"無界"的研究深度。同時，通過Report的迭代更新，早期錯誤可以被識別和修正，噪聲被有效過濾，整個研究過程呈現出"單調信息增益"的良性進化態勢。

更值得注意的是，這一范式為訓練方法帶來了創新空間。在訓練過程中，IterResearch采用拒絕采樣微調（Rejection Sampling Fine-Tuning）策略，嚴格篩選僅保留最終答案與參考答案完全匹配的軌跡進行訓練，確保模型學習到端到端正確的推理過程。這意味著，即使某條軌跡前90%的推理正確，但最終答案錯誤，整條軌跡也會被"拒絕"。這種"結果導向"的篩選確保了模型學習到的是端到端正確的推理過程，而非部分正確的片段。

此外，迭代范式天然產生的多輪次樣本為強化學習提供了豐富素材。每個研究問題可產生∑gG=1 T(i)g個訓練樣本，實現了顯著的數據放大效應，這是單上下文方法無法企及的優勢。然而，可變長度軌跡的訓練挑戰需要特殊處理，IterResearch采用最小損失下采樣技術：這一技術確保了分布式訓練穩定性，同時最小化數據損失（通常<1%），是實現高效訓練的關鍵工程細節。

通過Group Sequence Policy Optimization (GSPO)，IterResearch能夠優化多輪次推理策略。在這一框架下，所有∑gG=1 Tg輪次形成一個訓練組，實現高效的批量訓練，同時保持組級別的優勢歸一化。這種設計與傳統GSPO不同——傳統方法將每條軌跡單獨處理，而IterResearch利用軌跡的自然分解，將每輪視為獨立訓練樣本，同時保持所有輪次的組級優勢歸一化，最大化數據利用效率，確保在不同研究深度上實現均衡學習，為長程推理提供了堅實的訓練基礎。

實證革命——數據與行為分析揭示的統治力

理論的優勢需要實驗的檢驗。為了剝離模型、數據等因素的影響，研究團隊進行了嚴謹的消融實驗。

在 HLE、BC-EN 和 BC-ZH 基準上，不同智能體的核心對比結果

上表對比了三種配置：基礎的"Mono-Agent"（單上下文）、使用IterResearch訓練數據的"Mono-Agent+ Iter"，以及完整的"WebResearcher"（迭代范式）。

結果顯示，"Mono-Agent+ Iter"相比基礎版有穩定提升，這證明了WebFrontier數據引擎本身具有普適價值，能增強任何模型的工具使用能力。然而，最關鍵的差距體現在"Mono-Agent+ Iter"與"WebResearcher"之間。例如，在HLE基準上，WebResearcher-30B-A3B以28.8%的成績領先"Mono-Agent+ Iter"25.4%。這一"決定性優勢"無可辯駁地證明，性能的飛躍主要源于

架構范式本身的優越性，而非僅僅是數據質量的提升。舊范式下的線性累積，終究無法克服其內在的"語境退化"和"不可逆錯誤傳播"兩大致命傷。

更令人信服的是對智能體行為的分析。在以學術問答為主的HLE基準上，智能體策略高效而精準，平均僅需4.7個回合即可解決問題，且大量使用學術文獻搜索（Scholar）工具。而在需要復雜網頁導航的BrowseComp基準上，智能體展現出了驚人的持久力，平均每個任務耗時高達61.4個回合，搜索（Search）和頁面訪問（Visit）成為主導工具。這種根據任務本質自適應調整研究策略的能力，正是IterResearch賦予智能體的高級認知特征，是被"窒息"工作區所束縛的舊范式智能體難以企及的。

特別值得注意的是工具調用模式的差異：在HLE任務中，Scholar工具占所有工具調用的25.4%，反映了對專業學術資源的精準利用；而在BrowseComp任務中，Search和Visit工具分別占56.5%和39.7%，共同構成了96%以上的工具調用。這清晰表明，IterResearch能夠根據任務需求動態調整其工具使用策略，實現真正的"任務感知"行為。

支撐革命——數據引擎與推理框架的協同創新

一場成功的革命，離不開充足的"彈藥"和高效的"戰術"。WebResearcher的成功，還得益于兩大關鍵支撐：為其"造血"的數據引擎WebFrontier，以及實現測試時擴展的推理框架Research-Synthesis。

多智能體系統驅動的三階段數據合成流程總覽

上圖清晰展示了WebFrontier的三階段閉環流程：從原始語料庫開始，經過"相關性分組"形成"復合單元"，再由ItemWriter Agent生成初始問答對；隨后進入迭代循環，工具增強的ItemWriter Agent不斷升級問題復雜度；最后通過多階段質量控制確保數據質量。

WebFrontier直面高質量長程任務數據稀缺的行業難題。其創新之處在于一個三階段的閉環流程：種子生成、工具增強的復雜度升級和嚴格的質量控制。其中最核心的是"自舉"（refinement loop）機制：一個配備了搜索、瀏覽、代碼解釋器等工具的智能體，能夠將一個簡單的種子問題，通過四個關鍵步驟系統性地升級為復雜的、需要多源信息合成的研究問題：

1. 知識擴展：查詢外部源拓寬問題范圍。例如，將"量子計算的基本原理"擴展為"量子糾錯碼在超導量子計算機中的實現挑戰及其對Shor算法的影響"。

2. 概念抽象：提煉高層原理、識別跨域關系。如從具體實驗數據中歸納出"量子退相干時間與量子比特數量的指數關系"。

3. 事實驗證：通過多源交叉驗證確保答案準確性，同時比對arXiv論文、權威教科書和實驗數據集。

4. 計算公式化：利用Python環境創建需定量計算的問題，如"基于公開的LIGO數據，計算GW150914事件中黑洞合并釋放的能量相當于多少個太陽質量"。

這一過程本身就模擬了人類研究者的思維方式，生成的數據不僅規模大、質量高，而且天然契合IterResearch的"探索-合成"循環理念。更關鍵的是，WebFrontier產生的訓練數據能顯著提升任何模型（包括舊范式）的工具使用能力，凸顯了新范式對整個生態的賦能作用。

值得注意的是，WebFrontier的數據生成過程與IterResearch范式高度一致，都遵循"探索-合成-再探索"的循環邏輯。這種內在一致性確保了訓練數據與推理范式的完美匹配，是性能飛躍的隱藏關鍵。在質量控制階段，WebFrontier采用雙重驗證機制確保數據質量：

基線驗證：QuestionSolver Agent在無工具模式下嘗試回答，過濾掉過于簡單的問題
高級驗證：同一Agent在工具增強模式下重新嘗試，僅保留能被工具增強型Agent解決但基線模型無法解決的問題

此外，SimilarityScorer Agent會過濾與現有數據語義冗余的新生成對，保持數據集多樣性。這種精準定位"能力間隙"（capability gap）的機制，確保了生成的數據既具有挑戰性又可解，為訓練高質量智能體提供了堅實基礎。

Research-Synthesis框架則解決了測試時擴展的難題。直接聚合多條完整研究軌跡的上下文成本極高。該框架的巧妙之處在于，利用"最終報告"作為高密度信息載體。

推理—綜合框架圖解

上圖生動展示了這一過程：在"并行研究"階段，多個Research Agent獨立探索，各自生成一份濃縮了全部推理路徑的報告；在"集成綜合"階段，一個專門的"綜合代理"（Synthesis Agent）只需閱讀這些報告，即可融合不同視角，得出更全面、穩健的結論。

Reason-Synthesis Framework 中 n 值的影響

上圖顯示，隨著并行智能體數量的增加，性能持續提升，但存在明顯的邊際效益遞減。當從1增加到8時，HLE準確率從28.8%躍升至35.65%，但時僅微增至36.7%。這為實際部署提供了清晰的成本-收益權衡方案，使架構師能夠在性能提升與計算成本之間找到最佳平衡點。

深入分析上圖揭示的規律表明，8個并行智能體已能捕獲絕大多數的性能增益，為實際部署提供了明確的成本效益拐點。這種"邊際效益遞減"規律對系統架構師設計生產環境具有直接指導價值，而不僅是學術觀察。

WebResearcher配備了四類專業工具，每類工具都經過精心設計以支持高效研究：

Search工具：支持批量查詢，返回每個查詢的前10個結果，包含標題、摘要和URL，便于快速評估相關性
Scholar工具：提供學術文獻的作者、出版 venue 和引用計數等元數據，支持高效學術研究
Visit工具：基于Jina.ai實現目標導向的網頁內容提取，代理提供URL和提取目標（如"查找實驗結果"），工具首先檢索完整內容，然后使用Qwen3基于指定目標生成聚焦式摘要，避免信息過載
Python工具：在沙盒環境中執行代碼，支持數據分析和可視化庫，所有輸出明確打印以確保計算結果清晰呈現

特別是Visit工具的"目標導向摘要"機制，直接解決了傳統網頁瀏覽中信息過載的問題，是支撐IterResearch范式的關鍵基礎設施。這些工具系統的設計細節，展現了WebResearcher工程實現的成熟度，使其能夠處理真實的長程研究任務。

影響革命——Benchmark統治力與行業啟示

在6項極具挑戰性的基準測試中，WebResearcher展現了統治級的表現，為這場范式革命提供了最強有力的背書。這些結果不僅體現在絕對性能上，更體現在多維度的適應性上。

在通用網頁導航與推理基準測試中的表現

在面向目標的復雜網絡任務基準測試中的結果

上表全面展示了WebResearcher在不同任務類型上的表現。在通用網絡導航與推理基準（HLE、BrowseComp）上，WebResearcher-heavy取得了**36.7%的準確率，大幅超越了DeepSeek-V3.1（29.8%）和OpenAI Deep Research（26.6%），彰顯了其在深度知識合成方面的絕對優勢。在復雜的網頁導航任務BrowseComp-en上，它達到了51.7%**的準確率，與OpenAI的閉源系統持平，同時將最佳開源系統DeepSeek-V3.1（30.0%）甩開21.7個百分點。在中文網頁導航任務BrowseComp-zh上，它同樣表現出色，達到56.8%的準確率，接近OpenAI-o3的58.1%，顯著優于DeepSeek-V3.1的49.2%。這些結果證明，IterResearch通過結構化的合成過程，能夠有效處理跨語言信息源，避免了單上下文系統在積累多語言內容時常見的混淆問題。

在復雜目標導向網絡任務（GAIA、Xbench-DeepSearch、Frames）上，WebResearcher同樣展現出卓越能力。在GAIA基準上，它以75.7%的準確率超越所有評估系統，包括Claude-4-Sonnet（68.3%）和OpenAI-o3（70.5%），領先優勢高達9.7個百分點。在Xbench-DeepSearch上，它達到73.0%的準確率，超越DeepSeek-V3.1（71.2%）和其他開源替代方案。在Frames基準上，它以85.1%的準確率領先DeepSeek-V3.1（83.7%）和OpenAI-o3（84.0%）。

這些數據背后揭示了一個重要規律：在需要復雜多步推理的任務中，IterResearch的優勢更加顯著。這正是因為這些任務最能體現其核心價值——通過周期性合成和工作區重建，維持高質量推理能力于整個研究過程。相比之下，單上下文系統隨著研究輪次增加，性能會逐漸下降，這在BrowseComp任務中尤為明顯（平均61.4輪），而IterResearch仍能保持穩定輸出。

這一成功帶來的啟示深遠：

對研究者而言，未來的競爭焦點將從單純的模型規模競賽，轉向智能體架構的創新。IterResearch提供了一個可復用的優秀模板。
對系統架構師而言，"迭代合成"和"周期性知識蒸餾"的思想具有極強的普適性，有望遷移到機器人控制、長期規劃等其他長程決策場景。
對AGI的發展而言，WebResearcher通過模擬人類研究者的核心工作流，推動了AI從"信息檢索者"向"知識建筑師"的轉變，為構建真正具備自主學習與創造能力的通用智能體鋪平了道路。

總結：擁抱迭代合成的新時代

WebResearcher不是一次漸進式的改良，而是一場由第一性原理驅動的范式革命。它深刻地認識到，當"量變"積累到一定程度，原有的架構終將觸及天花板。唯有回歸"如何進行有效研究"這一本質問題，重新設計智能體的底層運行邏輯，才能實現真正的"質變"。

IterResearch通過將研究過程解耦為"探索"與"合成"兩個相輔相成的階段，創造性地解決了長程推理的可持續性難題。實驗結果表明，IterResearch在多項基準測試上達到了state-of-the-art性能，甚至超越了前沿閉源系統，驗證了迭代合成范式在長程推理任務中的有效性。

值得注意的是，IterResearch范式產生的訓練數據能顯著提升傳統單上下文方法的性能，這表明其設計理念對整個AI智能體生態具有廣泛的賦能作用。這種"架構即數據"的良性循環，將加速整個領域的進步。

責任編輯：龐桂玉來源：覺察流

阿里通義智能體智能體架構