精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

通義實驗室大火的 WebAgent 續作:全開源模型方案超過GPT4.1 , 收獲開源SOTA

人工智能 新聞
WebShaper 補足了做 GAIA、Browsecomp 上缺少高質量訓練數據的問題,通義實驗室開源了高質量 QA 數據!

WebAgent 續作《WebShaper: Agentically Data Synthesizing via Information-Seeking Formalization》中,作者們首次提出了對 information-seeking(IS)任務的形式化建模 并基于該建模設計了 IS 任務訓練數據合成方法,并用全開源模型方案取得了 GAIA 評測最高 60.1 分的 SOTA 表現。

WebShaper 補足了做 GAIA、Browsecomp 上缺少高質量訓練數據的問題,通義實驗室開源了高質量 QA 數據!

WebShaper 體現了通義實驗室對 IS 任務的認知從前期的啟發式理解到形式化定義的深化。

圖片

  • GitHub 鏈接:https://github.com/Alibaba-NLP/WebAgent
  • huggingface 鏈接:https://huggingface.co/datasets/Alibaba-NLP/WebShaper
  • model scope 鏈接:https://modelscope.cn/datasets/iic/WebShaper

圖片

圖表 1:WebShaper 在 GAIA 上取得開源方案 SOTA。

WebShaper —— 合成數據范式的轉變

在大模型時代,「信息檢索(Information Seeking, IS)」早已不是簡單的 「搜索 + 回答」 那么簡單,而是 AI 智能體(Agent)能力的重要基石。無論是 OpenAI 的 Deep Research、Google 的 Gemini,還是國內的 Doubao、Kimi,它們都把 「能不能上網找信息」 當作核心競爭力。

系統性地構造高質量的信息檢索訓練數據成為激發智能體信息檢索能力的關鍵,同時也是瓶頸。當前主流方法依賴 「信息驅動」 的合成范式 —— 先通過網絡檢索構建知識圖譜,再由大模型生成問答對(如 WebDancer、WebWalker 等方案)。這種模式存在兩大缺陷:知識結構與推理邏輯的不一致性,以及預檢索內容的局限導致的任務類型、激發能力和知識覆蓋有限。

圖片

圖表 2:WebShaper 從 「信息驅動」到 「形式化驅動」 的范式轉變。

WebShaper 系統開創性提出 「形式化驅動」 新范式,通過數學建模 IS 任務,并基于該形式化,檢索信息,合成訓練數據。形式化驅動的優點包括:

1. 全域任務覆蓋 :基于形式化框架的系統探索,突破預檢索數據邊界,實現覆蓋更廣任務、能力、知識的數據生成。

2. 精準結構控制 :通過形式化建模,可精確調控推理復雜度與邏輯結構。

3. 結構語義對齊 :任務形式化使信息結構和推理結構一致,減少數據合成中產生的錯誤。

Information Seeking 形式化建模

圖片

圖表 3: 形式化建模

WebShaper 首先提出基于集合論的 IS 任務形式化模型。

該模型包含核心概念「知識投影(Knowledge Projection)」,他是一個包含實體的集合:

  • 每個 IS 任務都由 KP 的 R - 并集(R-Union)、交集(Intersection)、遞歸操作構成,能夠精準控制推理路徑和任務復雜度;
  • 每個 IS 任務旨在確定一個復雜的由 KP 組合而成的目標集合 T 中包含的實體。

該形式化建模讓 WebShaper 不再依賴自然語言理解的歧義,而是可控、可解釋、可擴展的數據合成方案。

智能體式擴展合成:讓 Agent 自己 「寫題」

為了與形式化建模保持一致,WebShaper 整個流程開始于預先構建且形式化的基礎種子任務,然后在形式化的驅動下,將種子問題多步擴展為最終的合成數據。此過程采用專用的代理擴展器 (Expander) 模塊,旨在通過關鍵過程 (KP) 表征來解釋任務需求。在每個擴展階段,系統都會實現逐層擴展機制,以最小化冗余,同時通過控制復雜度進程來防止推理捷徑。

種子任務構建

為了構建種子任務,作者下載了全部 WikiPedia,并在詞條中隨機游走檢索信息,合成基礎的種子 IS 任務。

KP 表示

IS 任務形式化模型是復雜度的,其中包含大量的交、R - 并和遞歸操作。為了在 Expander 中表示和使用該模型,作者提出了一種 KP 表示。其中通過引入 「變量」 和 「常量」,以及 R - 并的可交換性質,表示了 IS 形式化模型。

如,將如下的問題:

「Which player of a team in the 2004-05 season, who was born in 90s? This team is founded in 1966 and is an East German football team.」

表示為:

圖片

圖表 4 :形式化表示。

逐層擴展結構

數據擴展的策略是數據合成的關鍵。之前的方法在我們的形式化模型中將得到下圖中的 Random Structure 和 Sequential Structure:

圖片

圖表 5 :擴展策略對比。

這樣的結構存在兩個問題:

  • 冗余性: 如上圖中的 Random Structure 所示,存在一些已知常量與其他已知常量相聯系。在這種情況下,諸如 「柏林迪納摩是一家位于柏林的足球俱樂部」這樣的句子會存在于問題中。然而,這并沒有增加任務解決的推理鏈。
  • 推理捷徑: 如上圖中的 Sequential Structure 所示,存在一個將常量直接連接到目標的推理鏈條。如果發生這種情況,模型可能會通過僅推理較近的常量而忽略較深的序列來猜測答案。

為此,作者提出如上圖所示的逐層結構,每次擴展都選擇葉結點常量進行擴展,有效地解決了上述的兩個問題。

擴展智能體

具體擴展是由 Expander 智能體負責執行,他接受當前問題的形式化表示:

  • 根據圖結構層次遍歷找到可擴展常量節點;
  • 調用搜索、網頁摘要、驗證等工具;
  • 自動生成形式化任務、并進行答案驗證和復雜度過濾。

這一步,使得我們不僅能構建覆蓋度廣的任務,更能確保任務正確性和推理鏈條的嚴謹性,大幅減少錯誤傳播。

Agent 訓練

基于形式化生成的高質量任務和完整的行為軌跡,作者使用監督微調(SFT)+ GRPO 強化學習策略來訓練 Agent。WebShaper 最終得到 5k 的訓練軌跡。

訓練后,模型在 GAIA 基準任務中獲得:

  • 60.1 分,超越所有開源方案
  • 閉源模型 GPT4.1 只有 40.7 分、Claude Sonnet4 58.2 分、O4 mini 66.99

我們在全使用開源模型方案下拉近了用最強閉源模型 o4 mini 的差距,大幅領先第二名的開源方案。

圖片

圖表 6 :與最新基線方法的對比。

進一步分析

論文中,作者還進一步分析了數據和訓練模型,發現:

1. WebShaper 數據領域覆蓋充分。

2. 在 WebShaper 數據上,通過 RL 訓練能大幅激發模型的 IS 能力。

3. 消融實驗驗證了形式化建模和逐層擴展策略的有效性。

4. 求解 WebShaper 任務,相比于基線數據要求更多的智能體 action。

為什么這件事重要?

  • 任務形式化 = WebShaper 是基于形式化任務合成數據的開端。該思想可以擴展于相比 IS 更為復雜的任務。
  • 數據質量 = Agent 能力上限。好的智能體,先要有好的訓練任務。
  • Agentic 數據合成 = 智能體數據構建需要結合推理和信息檢索,使用 agent 合成數據可以大幅減少中間過程開銷和誤差傳遞。
  • 開源共享 = 社區生態繁榮。我們相信,用最開放的方式推動最前沿的研究,是 AI 發展的正路。

用開源數據 + 模型做到 GAIA 60 分,你也可以。

現在就來試試:https://github.com/Alibaba-NLP/WebAgent

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-09-02 12:09:33

2025-08-26 09:08:00

2025-09-18 09:56:47

2025-07-22 10:45:55

2025-05-23 09:03:00

2019-01-31 09:00:00

開源實驗室管理系統

2012-09-28 16:25:50

COSUGOpenStackCOSCL

2020-01-14 11:28:43

IBM開源SysFlow

2025-10-13 14:00:24

GPT-6GPT4.1大模型

2025-06-11 09:19:46

2024-11-20 09:38:40

2025-07-08 08:53:00

2015-11-12 13:11:17

TensorFlow人工智能系統谷歌

2013-03-28 10:08:49

UbuntuCCN開源軟件

2023-10-17 12:33:27

AI模型

2022-01-10 09:47:34

5G運營商電信

2021-08-04 09:48:05

數字化

2025-11-21 12:04:58

2025-11-20 08:47:00

AI開源智能體

2024-01-19 12:51:00

AI數據
點贊
收藏

51CTO技術棧公眾號

国产精品久久精品国产| 欧美日韩福利在线观看| 日日噜噜噜噜久久久精品毛片| jizz在线免费观看| 国产精一区二区三区| 91黄色8090| 日韩三级久久久| 精品按摩偷拍| 欧美日韩视频一区二区| a级黄色小视频| av中文字幕在线| k8久久久一区二区三区| 国产日产欧美精品| 日韩精品乱码久久久久久| 日本高清免费电影一区| 亚洲国产97在线精品一区| 亚洲高清在线免费观看| heyzo高清国产精品| 国产精品久久午夜| 精品久久蜜桃| 国产黄a三级三级三级| 日韩中文字幕不卡| 性日韩欧美在线视频| 日本不卡一区视频| 欧美欧美黄在线二区| 亚洲精品在线电影| 日本中文字幕精品—区二区| 久热在线观看视频| 一区二区三区四区精品在线视频 | 亚洲品质自拍视频网站| 欧美精品免费观看二区| 成人毛片在线精品国产| 精品一区二区三区免费毛片爱| 91av视频在线播放| 国产一级aa大片毛片| 天堂美国久久| 中国china体内裑精亚洲片| 国产精品九九九九九| 亚洲视频国产精品| 欧美一区2区视频在线观看| 自拍偷拍21p| 成人精品国产亚洲| 在线看日本不卡| 成人精品小视频| 一区二区三区四区日本视频| 精品国产成人av| 国产一二三在线视频| 里番在线播放| 亚洲一区二区三区四区五区中文| 黄瓜视频免费观看在线观看www| 国产色在线 com| 国产日韩欧美精品综合| 欧美一区二区三区四区夜夜大片| 久草在线网址| 久久久激情视频| 日韩高清专区| av中文资源在线| 国产精品欧美久久久久一区二区| 亚洲第一导航| 毛片网站在线免费观看| 亚洲四区在线观看| 国产女教师bbwbbwbbw| 91三级在线| 亚洲成av人片在www色猫咪| 蜜桃av噜噜一区| 国产成人久久久精品一区| 久草手机在线视频| 可以看av的网站久久看| 国产精品久久久久久久天堂| 在线观看黄色网| 激情综合五月婷婷| 成人看片视频| 天天操天天干天天舔| 久久一夜天堂av一区二区三区| 欧美亚州在线观看| 在线观看免费黄色| 亚洲色图丝袜美腿| 成人在线播放网址| 欧美黑人疯狂性受xxxxx野外| 色老头久久综合| 日韩av加勒比| 精品女人视频| 国产一区二区三区免费视频| 国产精品丝袜一区二区| 精品91视频| 国产精品草莓在线免费观看| 91免费视频播放| 成人小视频免费观看| 欧美激情第一页在线观看| 在线免费观看黄| 亚洲国产三级在线| 色一情一乱一伦一区二区三区日本| 国内自拍亚洲| 精品国产乱码久久久久久1区2区| 国产ts丝袜人妖系列视频| 日韩免费高清| 午夜精品久久久99热福利| 最近中文字幕免费在线观看| 国产精品123| 日韩jizzz| av成人 com a| 欧美亚洲一区二区在线| 国产精品亚洲一区二区无码| 黑人操亚洲人| 久久免费在线观看| 中文字幕人妻一区二区在线视频| 成人午夜视频福利| 亚洲高清精品中出| 多野结衣av一区| 制服视频三区第一页精品| 国产精品第七页| 牛牛国产精品| 国产精品视频xxxx| 婷婷伊人综合中文字幕| 亚洲狼人国产精品| 一区二区三区韩国| 亚洲制服欧美另类| 欧美激情2020午夜免费观看| 一级黄色片免费看| 91免费国产视频网站| 成年丰满熟妇午夜免费视频| 78精品国产综合久久香蕉| 亚洲第一精品自拍| 免费在线观看一级片| 六月丁香婷婷色狠狠久久| 久久久久久高清| 欧美草逼视频| 日韩一级欧美一级| 动漫性做爰视频| 欧美一级播放| 久久99精品国产99久久| 男女在线观看视频| 日韩欧美第一区| 免费国产羞羞网站美图| 精品一区二区三区视频| 亚洲欧洲另类精品久久综合| 欧美日韩五区| 亚洲人成在线免费观看| 久久久久久久久久久影院| 成人黄色在线网站| 国产真人做爰毛片视频直播| 亚洲精品午夜| 欧美高清视频在线播放| a天堂在线视频| 亚洲美女视频在线观看| 夜夜爽久久精品91| 欧美精品aa| 国产精品二区在线观看| 都市激情久久综合| 欧美成人aa大片| 久久免费视频播放| 成人免费毛片a| 欧美日韩黄色一级片| 嫩草国产精品入口| 日韩av日韩在线观看| 成a人v在线播放| 欧美三级一区二区| 欧美手机在线观看| 国产精品77777| 在线成人一区二区| aaa一级黄色片| 亚洲精品tv久久久久久久久久| 国产美女精品视频| 中文字幕在线观看网站| 欧美变态tickling挠脚心| 久久午夜无码鲁丝片午夜精品| 成人精品免费视频| 成年人视频观看| 精品不卡一区| 亚洲在线观看视频网站| 免费在线观看的电影网站| 亚洲精品动漫100p| 免费黄色片视频| 一区在线观看免费| 中文字幕视频观看| 香蕉久久夜色精品| 一区二区欧美日韩| av成人男女| 国产精品久久久久久久久久久久 | av免费观看网| 国产精品一区二区av交换| 国产在线观看精品| 爱情岛亚洲播放路线| 亚洲视频在线观看| 国产精品毛片一区视频播 | 大荫蒂性生交片| 亚洲肉体裸体xxxx137| 国产精品中文在线| 麻豆福利在线观看| 在线播放日韩欧美| 丰满熟妇乱又伦| 欧美伊人精品成人久久综合97| 欧美黑人猛猛猛| 久久久久久电影| 肉色超薄丝袜脚交| 亚欧成人精品| 中文字幕在线中文| 国产免费久久| 国产精品国产三级国产专区53| 精品欧美一区二区三区在线观看| 欧美成在线观看| 加勒比一区二区三区在线| 日韩亚洲欧美综合| 欧美另类高清videos的特点| 亚洲成年人影院| 亚洲区一区二区三| 久久久久国产精品人| 免费黄色在线播放| 老司机午夜精品| 欧美色图另类小说| 在线成人亚洲| 精品国产三级a∨在线| 精品久久久久久久久久久下田| 99影视tv| 国产麻豆一区二区三区| 国产精品美女www| 在线观看欧美日韩电影| 欧美激情久久久| 国产在线看片| 一色桃子一区二区| 免费一级毛片在线观看| 精品久久久久久久久久久院品网| 91精品国产乱码久久久久| 日韩欧中文字幕| 日韩欧美高清在线观看| 亚洲黄网站在线观看| 99成人在线观看| 国产日产欧产精品推荐色| 18禁裸乳无遮挡啪啪无码免费| 国产成人亚洲综合色影视| 五月花丁香婷婷| 日av在线不卡| 日本成人在线免费视频| 免费日韩一区二区| 欧美精品99久久| 99视频精品| 一女被多男玩喷潮视频| 亚洲日本视频| 免费看毛片的网址| 怡红院精品视频在线观看极品| 久久久天堂国产精品| 自拍欧美日韩| www国产免费| 欧美精品激情| 97久久国产亚洲精品超碰热| 国产一区激情| 欧美又粗又长又爽做受| 精品动漫3d一区二区三区免费版 | 日本亚洲欧美天堂免费| 久久综合久久色| 日韩高清在线不卡| 91国产精品视频在线观看| 人妖欧美一区二区| 日本xxxx黄色| 激情综合亚洲精品| 精品日本一区二区三区| 97人妻精品一区二区三区视频| 欧美日韩在线播放一区| 国产又粗又猛又色又| 91麻豆精品国产91久久久使用方法 | 国产精品四虎| 中文字幕日韩欧美精品在线观看| 国产福利电影在线| www.欧美免费| 色女人在线视频| 国产+人+亚洲| 怡红院成人在线| 国产免费亚洲高清| 欧美大片91| 国产精品自拍首页| 亚洲小说图片视频| 中文视频一区视频二区视频三区| 综合激情婷婷| 日韩av在线播放不卡| 久久久精品五月天| 超碰超碰在线观看| 国产91精品精华液一区二区三区 | 国产欧美熟妇另类久久久 | 成人精品水蜜桃| 亚洲日产av中文字幕| 亚洲视频精品一区| 国产在线成人| 日韩a在线播放| 精品夜夜嗨av一区二区三区| 日本wwwwwww| 国产欧美日韩综合| 久久久国产精华液| 欧美性极品少妇| 亚洲a视频在线| 亚洲图片欧美日产| 最新超碰在线| 国产精品va在线| 亚洲经典视频| 日韩理论片在线观看| 欧美视频一区| 欧美自拍小视频| 成人免费黄色大片| 萌白酱视频在线| 色综合欧美在线| 国产黄色一级大片| 中文字幕精品一区二区精品| 国产网站在线| 91免费看片在线| 国产在线观看91一区二区三区| 青青草视频在线视频| 日本美女一区二区三区视频| 这里只有精品在线观看视频| 国产精品国产自产拍高清av| 91九色丨porny丨肉丝| 欧美疯狂性受xxxxx喷水图片| 色网站在线免费观看| 欧美日韩国产va另类| 成人亚洲网站| 欧美一区二区视频在线| 在线观看的日韩av| 亚洲精品20p| 国产女主播视频一区二区| 99精品视频99| 欧美变态口味重另类| 国产黄色在线网站| 国产精品狼人色视频一区| 九九综合九九| 日本国产在线播放| 国产高清精品在线| 欧美老熟妇一区二区三区| 欧美日韩综合色| 男男激情在线| 欧美一级高清免费播放| 国产精品三p一区二区| 久久久久福利视频| 国产一区二区三区免费在线观看 | 国产国产精品| 一区二区三区 欧美| 久久精品夜色噜噜亚洲a∨| 91视频免费网址| 精品999久久久| brazzers在线观看| 国产精品99久久久久久久| 欧美黄色aaaa| 青青草精品在线| 亚洲欧美日韩一区二区| 国产乱人乱偷精品视频a人人澡| 日韩在线观看网址| 伦一区二区三区中文字幕v亚洲| 亚洲国产精品一区在线观看不卡| 日日夜夜一区二区| 国产手机在线观看| 日本电影亚洲天堂一区| 国产区视频在线| 国产精品欧美激情| 99精品在线| 992tv人人草| 一区二区三区欧美日| 亚洲国产精品二区| 久久免费高清视频| 亚洲激情播播| 一路向西2在线观看| 中文字幕一区二区三区四区| 97超碰国产在线| 欧美日韩国产成人| 国产精品sss在线观看av| 日韩av三级在线| 国产人久久人人人人爽| 一本一道人人妻人人妻αv| 久久成人av网站| 特级西西www444人体聚色| 欧美激情资源网| 一区二区精品视频在线观看| 久热爱精品视频线路一| 国产精品午夜av| 国产精品第12页| 中文字幕一区二区三区不卡| 亚洲av永久纯肉无码精品动漫| 欧美在线亚洲在线| 日韩欧美网站| 天天躁日日躁狠狠躁av| 欧美天堂在线观看| 欧美激情午夜| 国产精品国产精品国产专区蜜臀ah| 久久男女视频| 欧美日韩午夜视频| 亚洲精品国产精品乱码不99按摩| 日本国产欧美| 嫩草影院中文字幕| 国产亚洲精久久久久久| 99re只有精品| 日韩av三级在线观看| 自拍日韩欧美| 亚洲无人区码一码二码三码的含义 | 一区二区三区四区视频免费观看| 婷婷五月综合缴情在线视频| 国产精品视频一二三| 风流少妇一区二区三区91| 国产精品高潮在线| 国产精品国码视频| 国产7777777| 日韩国产中文字幕| www一区二区三区| 国产熟女高潮视频| 亚洲亚洲人成综合网络|