超越規模神話：WebSailor-V2 的數據-環境協同之道

作者：肆零柒 2025-09-23 09:42:58

WebSailor-V2以30B模型超越671B閉源系統，證明“數據+環境”雙引擎比算法本身更重要。本文深度解析其系統工程哲學，為開源Agent發展提供新范式。

大家好，我是肆〇柒。本文要和大家分享的是來自阿里通義實驗室（Tongyi Lab, Alibaba Group）的一項重磅研究成果——WebSailor-V2。這項工作不僅刷新了開源Web智能體的性能上限，更關鍵的是，它揭示了一個被長期忽視的真相：決定Agent能力邊界的，或許不是模型參數，而是數據質量與訓練生態系統的構建方式。

本文是通義 Deepresearch 發布的系列研究之一。

在人工智能領域，自主AI智能體（Agent）被視為實現通用人工智能（AGI）的關鍵里程碑，而"深度研究"（Deep Research）能力正成為衡量智能體水平的核心標準。然而，盡管開源社區在Web智能體領域取得了顯著進展，與OpenAI DeepResearch等閉源系統之間仍存在難以逾越的性能鴻溝，這嚴重阻礙了強大研究能力的民主化進程。

WebSailor-V2的開源，為這一困境提供了突破性解決方案。作為阿里通義實驗室推出的開源Web智能體，它并非依賴更龐大的模型規模或更復雜的算法，而是通過精心設計的"雙引擎"策略——高質量數據構建與穩定訓練環境設計，成功實現了對閉源系統的性能超越。其30B參數的Qwen3-30B-A3B模型在關鍵基準測試中不僅大幅領先所有開源智能體，甚至超越了671B參數的DeepSeek-V3.1系統：在BrowseComp-EN上取得35.3分，BrowseComp-ZH上44.1分，HLE上30.6分，顯著優于DeepSeek-V3.1（BrowseComp-EN 30.0分，HLE 29.8分）。這一"以小博大"的突破性結果，為開源社區提供了強有力的性能標桿。

BrowseComp-EN與xBench-DeepSearch基準測試性能對比

本文將與大家一起探索WebSailor-V2如何通過系統工程思維，構建高性能Agent訓練生態系統。其核心在于：高質量數據和穩定訓練環境比特定算法更為關鍵。這一理念貫穿于WebSailor-V2的整個開發過程，從數據構建到訓練流程，最終實現了開源智能體對閉源系統的性能超越。

SailorFog-QA-V2——構建高質量Agent訓練數據的科學

高質量數據是構建強大Web智能體的基石。WebSailor-V2的創新首先體現在其數據構建方法上，通過SailorFog-QA-V2數據集，解決了現有方法在數據多樣性與不確定性表達上的根本局限。

從樹狀到網狀：知識圖譜的拓撲

現有Web智能體數據構建方法通常采用"由易到難"的迭代擴展策略，從簡單"種子"問題開始，通過外部工具逐步擴展圖譜。然而，這種方法存在嚴重缺陷：生成的圖譜主要是樹狀或非循環結構，難以捕捉現實世界中普遍存在的復雜循環關系、反饋回路和錯綜復雜的相互依賴。

WebSailor-V2對此進行了革命性改進。在V2版本中，研究團隊不再滿足于簡單的圖譜擴展，而是主動尋求節點間的密集連接，有意創建循環結構。這種方法確保生成的圖譜不僅是樹狀擴展，而是一個豐富互連的網絡，更準確反映現實知識的復雜非線性本質。此外，V2還保留了更完整的程序信息鏈，包括具體搜索查詢和源URL的完整記錄。這種設計使得每個實體都帶有豐富的上下文特征，如搜索路徑的深度、信息來源的可靠性評分、以及與其他實體的關聯強度等統計特征。這些特征為后續QA生成提供了更精細的控制維度，使模型能夠學習到信息檢索過程中的微妙模式，而不僅僅是表面的問答對應關系。

超越Obfuscation：擴展不確定性

在不確定性表達方面，現有方法往往局限于單一類型，如obfuscation（實體替換），即用更通用或模糊的描述替換查詢中的關鍵元素（如特定實體、日期或數值）。雖然這種方法能訓練模型進行基本的上下文推斷，但它僅覆蓋了智能體所需能力的一小部分。

WebSailor-V2明確指出：“研究引入了更多種類的已定義不確定性，目的是激發模型更豐富和全面的高級推理能力。”盡管論文沒有詳細列出所有不確定性類型，但它強調需要超越簡單的實體替換，以激發更廣泛的高級推理行為，包括上下文推斷、迭代信息收集、假設生成與驗證，以及多源證據綜合等復雜能力。稠密互連的圖譜結構天然蘊含更復雜的邏輯關系和潛在矛盾信息，為生成包含深層次不確定性的問答對提供了理想基礎。

不確定性光譜的深度解析：雖然obfuscation（實體替換）已成為引入不確定性、激發高級推理模式的常見方法，但論文明確指出：“這一系列技能雖然至關重要，但只是真正具備超人能力的網絡代理所需能力的一個子集。”WebSailor-V2引入了更廣泛的不確定性定義，期望激發模型展示更多樣化和全面的高級推理能力。這些擴展的不確定性類型訓練使Agent能夠評估不同線索的區分能力，例如在FormFactor案例中識別"領導層變更"為最具識別度的信息點，從而構建高度精確的搜索查詢。

結構化子圖采樣：確保邏輯多樣性

隨著圖譜密度的增加，傳統的子圖采樣方法面臨組合爆炸的挑戰。在V1版本中，研究團隊采用隨機采樣并嘗試枚舉固定邊數的所有可能子結構；但在V2中，圖譜變得更加稠密，這種窮舉方法變得計算上不可行。

拓撲覆蓋的挑戰：隨著圖譜密度的提升，子圖采樣的計算復雜度急劇上升，傳統方法難以高效覆蓋完整的結構復雜性譜系。

隨機游走的解決方案：為此，WebSailor-V2采用了基于隨機游走的子圖提取方法，高效收集足夠數量的非同構（通過Weisfeiler-Leman算法驗證）、連通子圖，確保它們共同代表完整的結構復雜性譜系。Weisfeiler-Leman算法在此用于驗證子圖的非同構性，確保采樣的子圖代表完整的結構復雜性譜系。這一技術選擇源于其在圖同構問題上的高效性，能有效避免重復采樣相同拓撲結構的子圖，從而最大化訓練數據的邏輯多樣性。

非同構子圖的簡明闡釋：非同構子圖是指具有不同拓撲結構的子圖，Weisfeiler-Leman算法能高效識別這些結構差異。確保收集的子圖非同構，意味著它們代表了完整的結構復雜性譜系，避免了訓練數據中特定結構的過度代表，從而保證了數據的邏輯多樣性。

節點角色均衡策略：更重要的是，系統會分析拓撲中非同構節點數量，使QA焦點均勻分布在所有軌道節點（即占據不同結構角色的節點）上，避免特定結構的過度代表，從而確保訓練數據的邏輯多樣性。這種結構化子圖采樣方法不僅解決了計算復雜性問題，還確保了數據的結構覆蓋范圍，為模型學習各種推理模式提供了堅實基礎。

雙環境RL框架——構建穩定可擴展的Agent訓練生態系統

強化學習（Reinforcement Learning, RL）是提升Web智能體性能的關鍵環節，但其大規模應用面臨嚴峻挑戰：高成本、高并發請求帶來的工程復雜性，以及API延遲、失敗和不一致輸出等問題，都會污染訓練數據，損害策略學習效果。WebSailor-V2通過創新的雙環境RL框架，有效解決了這一難題。

雙環境RL訓練框架示意圖

仿真環境：算法快速迭代的"安全沙盒"

依賴真實Web API（如SerpAPI或Jina）進行RL訓練會帶來高成本、有限QPS和不一致輸出等實際挑戰。在開發初期，使用有限資源在真實環境中進行算法研究和數據整理會嚴重拖慢開發周期，導致消融研究的結論不夠扎實。

WebSailor-V2構建了基于大規模離線Wikipedia知識庫的專用仿真環境，配合定制的Web工具套件。該環境經過精心設計，確保Agent的交互動態、狀態轉換和獎勵機制與真實環境高度一致，使在仿真環境中訓練的策略能有效遷移到真實世界。通過將SailorFog-QA-V2生成流程適配到這一離線語料庫，研究團隊創建了專門用于仿真的訓練和測試數據集。這一設計使研究團隊能夠在高頻、低成本、完全可控的平臺上進行算法實驗，顯著加速開發迭代過程。仿真環境成為算法快速迭代的"安全沙盒"，允許研究者在不產生高昂成本的情況下，反復驗證和優化RL策略。

雙環境框架的閉環價值：如上圖所示，雙環境RL框架的核心是一個閉環系統：(1)在仿真環境中進行高頻算法實驗，(2)在真實環境中進行最終策略訓練，(3)自動化數據合成與過濾管道根據訓練動態動態調整訓練集。這種設計確保了從數據生成到策略優化的完整閉環，使系統能夠不斷精煉其能力，更有效地促進深度研究智能體的構建。

真實環境：工程化的穩定性保障

雖然仿真環境對快速原型設計至關重要，但最終目標仍是在真實世界環境中訓練智能體。這一過渡帶來了復雜的工程挑戰：WebSailor-V2的工具套件包含四個核心工具：

search：調用Google搜索引擎，支持多查詢同時搜索并返回每個查詢的前10個結果，包含標題、摘要和URL
visit：訪問特定網頁，返回基于目標的摘要（使用Qwen3-30B-A3B作為摘要模型）
Google Scholar：學術領域專用搜索工具，用于檢索學術文獻
Python interpreter：沙盒環境執行Python代碼，支持復雜計算任務

這些組件的可靠性至關重要，因為外部API的波動性（延遲、失敗、不一致返回）會污染軌跡。

為解決這些問題，WebSailor-V2設計了統一的工具執行接口，其核心是一個調度和管理層，負責協調工具執行。針對每種工具，研究團隊設計了穩健的并發處理和容錯策略：

QPS限制：防止API過載
結果緩存：減少重復請求
自動超時和重試協議：處理臨時故障
非關鍵故障的服務降級：確保核心功能不受影響
備份數據源的無縫切換：提高系統韌性

系統設計了一個統一的工具執行接口，其核心是調度和管理層，采用分層架構確保可靠性。在最底層，針對SerpAPI、Jina等不同工具，實現了特定的適配器，處理API特定的錯誤碼和響應格式；中間層實現了QPS限制和結果緩存機制，通過LRU（Least Recently Used）算法管理有限的緩存空間；最上層則提供統一的抽象接口，將工具調用結果標準化為統一格式。這種設計不僅處理了API延遲和失敗問題，還通過服務降級策略確保非關鍵工具故障不會導致整個訓練流程中斷。

這種多層設計確保從Agent視角看，工具調用過程被抽象為確定性和穩定接口，將訓練循環與現實世界隨機性隔離開來，顯著降低了操作成本，同時保證了訓練數據的質量。

數據-策略共生反饋循環：動態數據優化

WebSailor-V2的核心收獲是："數據是模型能力提升的核心驅動力，其重要性甚至超過算法"。高質量數據直接決定了模型通過自我探索泛化到分布外場景的上限。

為此，研究團隊優化了實時數據，由訓練動態引導。這種優化通過全自動的數據合成和過濾管道實現，該管道根據訓練動態動態調整訓練集。通過在數據生成和模型訓練之間閉合循環，這種方法不僅確保了訓練穩定性，還帶來了顯著的性能提升。

這種數據-策略共生反饋機制使系統能夠根據訓練動態合成和過濾高質量數據，使模型能夠不斷精煉其策略，從相關信息流中學習。數據和策略的這種共同進化，更有效地促進了深度研究智能體的構建。

訓練流程的系統工程——從SFT冷啟動到RL精煉

WebSailor-V2的訓練流程體現了系統工程思維，每個環節都經過精心設計，確保最終性能的最大化。

SFT冷啟動：RL成功的基石

監督微調（Supervised Fine-Tuning, SFT）階段在WebSailor-V2中扮演著不可或缺的角色，尤其是對于相對小規模的模型。數據顯示，僅經過SFT的WebSailor-V2-30B-A3B在BrowseComp-EN上已取得24.4分，在HLE上取得23.9分，甚至超越了許多完全訓練的開源智能體。這一強勁的初始性能驗證了SFT階段對構建高質量Agent的基礎性作用。

雙引擎支持下的SFT優勢：SFT階段的高質量數據構建（數據引擎）為后續RL提供了穩健的初始策略，而仿真環境的快速迭代能力（環境引擎）則使我們能夠高效驗證不同SFT策略的效果。這一協同作用確保了SFT階段能為RL提供強大的初始策略基礎。

這一現象的背后有深刻的理論原因：復雜開放任務中的獎勵通常非常稀疏。沒有SFT提供的強大初始策略，智能體將難以進行有意義的探索，很少能成功完成任務，從而無法獲得學習所需的正反饋。SFT階段確保智能體從足夠穩健的策略開始，能夠有效探索問題空間，為RL算法提供足夠密集的獎勵信號，使其穩定收斂到更優的最終策略。

RL訓練算法：穩定優先的設計哲學

在RL算法選擇上，WebSailor-V2采用了GRPO（Generalized Reward Policy Optimization）的定制化變體，但研究團隊明確指出算法本身并非成功的關鍵因素。他們的核心洞見是："我們已嘗試許多不同算法和 tricks，發現數據和訓練環境的穩定性可能是決定RL是否有效的更關鍵因素"。

WebSailor-V2采用GRPO的定制化變體，其目標函數為：

為了確保訓練穩定性，WebSailor-V2采取了多項措施：

嚴格的在線策略訓練：使用最新策略持續采樣軌跡，確保學習信號始終與模型當前能力相關
采用留一法（leave-one-out strategy）減少優勢估計方差
對負樣本采取保守策略，選擇性排除某些負樣本（如因長度限制未產生最終答案的樣本）
利用更大的批次和組大小維持較小方差，提供充分的監督

這種"穩定優先"的設計哲學使RL訓練過程更加健壯，避免了常見的"格式崩潰"（format collapse）等訓練不穩定現象。

RL訓練動態曲線

數據分布的重要性：合成數據 vs 人類標注數據

WebSailor-V2進行了一項關鍵實驗：直接在BrowseComp測試集上訓練模型，結果顯著差于使用合成數據。這一發現揭示了數據分布質量的重要性。

原因在于：合成數據通過SailorFog-QA-V2的結構化生成流程，確保了數據分布的一致性和可學習性。相比之下，BrowseComp等人類標注數據集雖然質量高，但規模有限且存在標注者偏差，導致分布不夠平滑。WebSailor-V2實驗表明，在BrowseComp測試集上直接訓練的模型性能顯著低于使用合成數據訓練的模型，這證實了高質量、一致分布的合成數據對模型學習更為有效。

高質量、一致分布的合成數據比小規模人類標注數據更能有效驅動模型學習。這一洞見對智能體訓練具有深遠意義：與其追求更多的人類標注數據，不如投入資源構建高質量、結構化的合成數據集，確保數據分布的一致性和可學習性。

性能突破的深層解讀——為什么30B模型能超越671B系統？

WebSailor-V2-30B-A3B在關鍵基準測試中取得了令人矚目的成績：在BrowseComp-EN上35.3分，BrowseComp-ZH上44.1分，HLE上30.6分。這些結果不僅顯著超越所有現有開源智能體，還優于DeepSeek-V3.1（671B參數，BrowseComp-EN 30.0分，HLE 29.8分）。這一"以小博大"的現象背后，蘊含著對智能體能力本質的深刻理解。

"以小博大"的真正原因

論文明確指出：“這一結果有力地驗證了研究團隊的核心假設：為模型配備極為強大的信息檢索與整合能力，可以顯著提升其邏輯推理能力，使其能夠有效地對從外部獲取的知識進行推理，并克服其自身規模的局限性。”

性能超越的真正原因并非模型規模，而是"異常強大的信息檢索和綜合能力"。WebSailor-V2通過精心設計的數據和訓練框架，使模型能夠有效地"基于"外部獲取的知識進行推理，從而突破自身規模限制。

訓練動態的深層分析

困難任務與簡單任務的差異：對訓練動態的分析揭示了WebSailor-V2成功的關鍵機制。在BrowseComp等困難基準上，pass@1和pass@3分數同時顯著提升，表明RL真正擴展了模型的基礎問題解決能力，增加了在幾次嘗試內找到正確解決方案路徑的總體可能性。

RL帶來的準確率提升

相比之下，在xbench-DeepSearch和GAIA等較簡單基準上，主要是pass@1提升，而pass@3提升有限。這表明對于模型基礎能力已能覆蓋的任務，RL的主要作用是提高采樣效率——教會智能體在第一次嘗試時更可靠地選擇最優路徑。對于真正困難的問題，即使pass@3也可能不足以完全反映模型增強能力的上限。

熵動態的啟示：策略熵的動態分析提供了另一個關鍵視角。如下圖所示，策略熵在整個訓練過程中保持在0.7-1.1的高水平區間，表明智能體維持了強大的探索能力，避免過早收斂到確定性策略。這一現象與封閉世界問題（如數學RL訓練）中熵通常顯著下降的趨勢形成鮮明對比。

訓練熵動態曲線

研究團隊認為，這種持續的高熵是環境非平穩性的直接結果——網絡工具返回的觀察結果（搜索結果、網頁內容）不遵循固定分布。這種現實網絡環境的內在隨機性和復雜性防止策略完全收斂到穩定、低熵狀態，反而促進了更穩健、適應性更強的策略形成。

上下文長度的突破性影響：一個常被忽視但關鍵的技術改進是上下文長度的大幅擴展——從WebSailor-V1的32k增加到WebSailor-V2的128k，同時將最大ReAct迭代次數提升至100。Figure 5清晰展示了上下文長度與準確率的正相關關系：隨著上下文長度從16k增加到128k，WebSailor-V2-30B-A3B的準確率從約5%穩步提升至33%，而工具調用預算從10次增加到100次時，準確率從約5%提升至33%。

上下文和工具調用預算對智能體性能的影響

值得注意的是，在32k上下文限制下，WebSailor-V2仍能達到約16分，這已顯著優于基于72B密集模型的WebSailor-V1。這一對比有力證明了數據和訓練流程改進對模型基礎推理能力的深遠影響，使較小模型能夠超越更大模型。

DeepResearch Bench的深入解讀

在DeepResearch Bench上的表現進一步驗證了WebSailor-V2的能力。該智能體獲得了48.9分，僅次于Gemini-2.5-pro-DeepResearch（49.7分）。論文分析這一微小差距主要源于訓練重點不同——WebSailor-V2專注于最大化核心信息檢索和綜合能力，較少強調最終報告生成的風格質量優化。

DeepResearch Bench上與專有代理的對比結果

這一發現具有重要啟示：WebSailor-V2的核心研究能力已接近頂尖閉源系統，差距僅存在于最終呈現層，而非基礎研究能力。這表明通過精心設計的訓練流程，開源模型可以達到與閉源系統相媲美的研究能力，為開源社區提供了明確的發展方向。

案例深潛：FormFactor的29步推理——雙引擎如何協同工作

通過分析BrowseComp基準中的一個典型案例，可以清晰看到WebSailor-V2的"雙引擎"如何協同工作，解決復雜的多步驟研究任務。

案例背景與挑戰

該案例要求智能體識別一家符合多項具體條件的上市公司：

在2004-2006年間，某年有三位客戶貢獻了27%-74%的收入，另一年有四位客戶貢獻了55%-89%的收入
2011-2019年間，有前員工提起集體訴訟，和解金額在120-190萬美元之間
2008年有來源顯示，公司創始人角色變更，新CEO上任，變更于2007-2008財年第三季度初生效
公司在特拉華州注冊，成立于1988-1995年間

這一任務要求智能體處理模糊線索、驗證矛盾信息、整合分散證據，是典型的"深度研究"挑戰。

雙引擎在案例中的體現

在解決這一問題的過程中，WebSailor-V2展示了從SailorFog-QA-V2訓練中獲得的結構化推理能力：

FormFactor案例的初始問題與推理起點

在上面截圖案例中，Agent展示了從第7步到第9步的關鍵轉折：當初始寬泛搜索返回無關結果后，Agent沒有簡單放棄，而是通過分析線索的獨特性，識別出"領導層變更"是最具識別度的信息點。這一洞察源于SailorFog-QA-V2訓練中對"不確定性光譜"的廣泛覆蓋，使Agent能夠評估不同線索的區分能力。隨后，Agent構建了高度精確的搜索查詢："founder" "will become" "Chairman" "effective" "third quarter" "2008"，這一查詢精準命中FormFactor的新聞稿，體現了從訓練數據中習得的"線索優先級評估"能力。

同時，智能體也展示了從雙環境RL訓練中獲得的穩健決策能力：

FormFactor案例的中間驗證過程

在上圖中，識別出潛在候選公司FormFactor后，智能體沒有過早得出結論，而是系統驗證每個其他線索，進行一系列有針對性的搜索和文檔分析。這一嚴謹的驗證過程直接源于雙環境RL訓練中對工具調用穩定性的要求——在真實環境中，不準確的工具返回會污染訓練數據，因此智能體學會了對每個信息點進行交叉驗證，確保結論的可靠性。

從案例看Agent的認知過程

通過分析完整案例軌跡，可以清晰看到WebSailor-V2的29步推理過程如何體現"雙引擎"協同工作：

1. 問題分解階段（步驟1-6）：將復雜問題拆解為可驗證的子問題，體現SailorFog-QA-V2訓練中獲得的結構化思維能力

2. 關鍵線索識別階段（步驟7-9）：從失敗中學習，識別最具區分度的"黃金線索"，展示不確定性處理能力

3. 目標獲取階段（步驟10-12）：精準定位目標公司FormFactor，驗證基礎信息

4. 系統驗證階段（步驟13-26）：多維度交叉驗證每個線索，體現嚴謹的研究方法

5. 綜合與呈現階段（步驟27-29）：整合所有證據，構建邏輯清晰的最終答案

FormFactor案例的最終答案結構

上圖展示了WebSailor-V2的最終答案結構，其邏輯清晰、證據充分，每個關鍵結論都有明確的來源支持。這種嚴謹的證據鏈構建方式，正是從SailorFog-QA-V2訓練中獲得的結構化推理能力的直接體現。

這一案例完美展示了高級AI研究助理的核心能力。該過程突顯了智能體進行戰略適應和從初始失敗中學習的能力——這是真正的推理過程而非簡單答案檢索機制的標志。整個工作流程——問題分解、關鍵轉折點識別、精確搜索執行、交叉驗證——反映了人類專家采用的復雜研究方法。

特別值得注意的是，智能體在29步推理過程中展示了多種高級推理模式，包括線索分解、策略調整、關鍵信息識別、目標獲取和系統驗證。這種能力正是SailorFog-QA-V2中擴展的不確定性光譜和雙環境RL訓練共同作用的結果。

構建高性能Agent的系統工程啟示

WebSailor-V2的成功為開源Web智能體的發展提供了寶貴經驗，其核心啟示在于將整個開發過程視為一個"強化學習"循環：任何組件的不穩定或缺乏魯棒性都會導致錯誤的"獎勵"信號，從而影響最終性能。

"數據-環境"雙引擎范式的核心價值

WebSailor-V2的實踐驗證了其核心觀點："高質量數據和穩定訓練環境比特定算法更為關鍵"。研究團隊認為，構建高質量智能體是一個復雜的系統工程挑戰；如果將整個開發過程視為"強化學習"循環，任何組件的不穩定或缺乏魯棒性都會導致錯誤的"獎勵"信號。

這一洞見對智能體研究具有深遠指導意義：與其過度關注算法創新，不如投入更多資源確保數據質量和環境穩定性。系統工程思維應成為智能體開發的主導范式。

對未來研究的啟示

基于WebSailor-V2的經驗，未來研究應重點關注：

數據工程優先：構建高質量、多樣化的訓練數據，特別是擴展不確定性光譜和確保邏輯多樣性
環境穩定性保障：設計穩健的訓練環境，減少外部干擾，特別是開發高保真仿真環境
重視SFT階段：為RL提供強大初始策略，特別是對中小規模模型
算法簡化：避免過度復雜化RL算法，聚焦基礎穩定性，采用"穩定優先"的設計哲學

通往AGI的務實路徑

WebSailor-V2的性能收益表明，通過精心設計的數據和訓練環境，中等規模開源模型可以達到與頂尖閉源系統相媲美的性能。這一成就驗證了“代理范式是縮小強模型與弱模型之間差距的有效方法”這一核心假設。

研究團隊未來工作會繼續探索如何更有效地利用外部知識，使模型能夠"reason over"獲取的信息，從而突破自身規模限制。WebSailor-V2為開源社區提供了一條清晰路徑：與其盲目追求更大模型或更復雜算法，不如專注于構建高質量數據和穩定訓練環境。論文明確指出："構建高質量Agent是一個復雜的系統工程挑戰；如果將整個開發過程視為'強化學習'循環，任何組件的不穩定或缺乏魯棒性都會導致錯誤的'獎勵'信號。"這一洞見應成為開源Agent開發的核心指導原則。

開源社區應聚焦于構建更強大的"數據-環境"生態系統，而非單純追求模型規模或算法復雜度。未來工作應更多投入數據工程，設計更豐富的不確定性類型，構建更穩健的訓練環境，而非簡單復制閉源系統的表面特征。

正如論文最后所言：通過WebSailor-V2的成功開發，研究團隊希望這項工作能夠提供有價值的見解，并為該領域的未來努力提供靈感。隨著更多研究者認識到"數據-環境"雙引擎的重要性，開源Web智能體將真正實現與閉源系統的并駕齊驅，甚至引領創新方向。

責任編輯：龐桂玉來源：覺察流

Agent 智能體開源