精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

首個開源多模態Deep Research智能體,超越多個閉源方案

人工智能 新聞
WebWatcher不僅在單一任務維度實現領先,更在復合型任務、跨模態復雜推理及真實信息檢索等方面,奠定了新一代開源多模態Agent的領先地位。

首個開源多模態Deep Research Agent來了。

整合了網頁瀏覽、圖像搜索、代碼解釋器、內部 OCR 等多種工具,通過全自動流程生成高質量推理軌跡,并用冷啟動微調和強化學習優化決策,使模型在任務中能自主選擇合適的工具組合和推理路徑。

假設你讓一個 AI 回答這樣一個問題:

“在這張圖所示動物的 Wikipedia 頁面上,2020 年之前帶有 ‘visual edit’ 標簽的修訂次數是多少?”

聽起來不復雜,但要得到正確答案,需要經過多個環節:

1 從圖像中識別出動物(它是一只海鸚Atlantic puffin,而不是外形相似的鵜鶘、企鵝或海鷗)。2 找到對應的 Wikipedia 頁面并進入歷史版本記錄。3 篩選出 2020 年之前帶有 “visual edit” 標簽的版本,并進行精確計數。

從上面案例可以看出,要解決這類問題,光有感知和理解還不夠,Agent還需要能夠制定計劃、靈活調用不同工具、在推理過程中不斷驗證和修正方向。

這類跨模態、跨工具、多步驟的任務,需要具備深度研究(Deep Research)能力的Agent才能有效應對。

WebWatcher 的核心方法

WebWatcher 的技術方案覆蓋了從數據構建到訓練優化的完整鏈路,核心目標是讓多模態Agent在高難度多模態深度研究任務中具備靈活推理和多工具協作能力。整個方法包含三大環節:

1 多模態高難度數據生成:構建具備復雜推理鏈和信息模糊化的訓練數據;

2 高質量推理軌跡構建與后訓練:生成貼近真實多工具交互的推理軌跡,并通過監督微調(SFT)完成初步能力對齊。然后利用 GRPO 在復雜任務環境中進一步提升模型的決策能力與泛化性;

3 高難度基準評測:構建并使用 BrowseComp-VL 對模型的多模態深度推理能力進行驗證。

1. 多模態高難度數據生成

現有大多數 VQA 數據集集中于單步感知任務,缺乏規劃性與深度推理需求,難以支撐多模態深度研究代理的訓練。為此,研究團隊設計了一個全自動多模態數據生成流程,目標是在真實互聯網知識分布下生成復雜、跨模態、鏈路不確定的任務樣本。

隨機游走收集跨模態知識鏈研究團隊在多源網頁(文本、圖片、混合頁面)中進行隨機游走采樣,構建多領域實體圖譜。不同于傳統的線性多跳問答鏈,這種圖譜連接稠密、路徑不固定,問題的解決路線難以預設,逼迫模型探索性地組合視覺信息。

信息模糊化提升不確定性在生成問題時,研究團隊刻意隱藏關鍵信息(如將“2019 年”替換為“21 世紀初”、將實體名改為描述性短語),并在視覺部分引入模糊指代詞描述,使得模型無法依賴簡單模式匹配,必須進行跨模態推理。

文本-視覺聯合轉換所有復雜問題(QA) 樣本通過 QA-to-VQA 轉換模塊擴展為多模態版本,將圖譜中的部分實體或關系替換為圖片、圖表或網頁截圖,使問題天然依賴跨模態理解能力。經過多階段過濾,包括語義合理性檢查、視覺相關性驗證、推理鏈長度控制,研究團隊得到了一個大規模、高質量的多模態推理數據集,能夠覆蓋多種復雜推理模式。

2. 高質量推理軌跡構建與后訓練

在高難度訓練數據的基礎上,模型還需要學習如何調用工具和如何在推理中動態切換策略。然而,現有推理模型在長鏈多工具任務中存在兩個問題:

1 思維鏈條冗長、模板化,缺乏跨任務的適應性;2 工具調用格式和角色差異大,直接采集到的軌跡難以直接用于訓練。

為此,研究團隊提出了Action-Observation 驅動的軌跡生成方法

  • 收集真實的多工具交互軌跡;
  • 保留其 Action-Observation 結構,但控制 Thought 部分,確保每一步推理都簡潔、行動導向,而非冗長的模板化解釋;
  • 使用規則過濾與 LLM 輔助審查,剔除低質量軌跡。

隨后,研究團隊基于這些高質量軌跡進行監督微調(SFT),讓 WebWatcher 在訓練初期快速掌握多模態 ReAct 式推理和工具調用的基本模式,為后續的強化學習階段打下基礎。

在完成冷啟動后,WebWatcher進入強化學習階段,用GRPO進一步提升多模態Agent在復雜環境下的決策能力。模型嚴格結合格式正確性與答案準確性雙重標準設計獎勵,對多步工具調用的連貫性和最終答案的準確性均予以關注,從而提升多模態決策鏈的可靠性。

3. BrowseComp-VL:多模態深度研究基準

為了全面驗證 WebWatcher 的能力,研究團隊提出了BrowseComp-VL,它是 BrowseComp 在視覺-語言任務上的擴展版本,設計目標是逼近人類專家的跨模態研究任務難度。該基準具有以下特點:

- 任務長且信息模糊化:問題往往包含多個模糊實體描述,需要跨網頁、跨模態搜索與整合;- 多工具協作必要性:任務無法僅靠感知或文本檢索完成,必須結合網頁瀏覽、圖像檢索、OCR、代碼執行等多種工具;- 真實網絡環境:測試樣本來自真實網頁與圖像資源,保持復雜性與不可預測性。

實驗結果:刷新多模態推理與信息檢索新紀錄

在多輪嚴格評測中,WebWatcher 在四大核心領域全面領先于當前主流的開源與閉源多模態大模型,顯示出其在復雜推理、信息檢索、知識整合以及聚合類信息尋優等任務上的強勁實力。

復雜推理(HLE-VL)在人類終極考試(Humanity’s Last Exam,HLE-VL)這一多步復雜推理基準上,WebWatcher以13.6%的Pass@1分數一舉奪魁,大幅領先于GPT-4o(9.8%)、Gemini2.5-flash(9.2%)、Qwen2.5-VL-72B(8.6%)等代表性模型。充分證明了其在高難度知識融合與鏈式決策中的推理能力。

信息檢索能力(MMSearch)在更貼近真實多模態搜索的MMSearch評測中,WebWatcher 同樣表現卓越,Pass@1得分高達55.3%,相比Gemini2.5-flash(43.9%)和GPT-4o(24.1%)等大幅領先,展現了極高的檢索精準性和復雜場景下的信息聚合能力。

知識+檢索整合(LiveVQA)LiveVQA是知識推理與外部信息獲取深度協同的典型場景。WebWatcher的Pass@1成績達到58.7%,領先Gemini2.5-flash(41.3%)、Qwen2.5-VL-72B(35.7%)和GPT-4o(34.0%),充分體現了其在知識調用、事實核查與實時信息融合等多維技能上的系統性優勢。

信息尋優與聚合(BrowseComp-VL)在最具綜合挑戰的BrowseComp-VL基準(信息聚合型任務)上,WebWatcher 以27.0%的平均得分(Pass@1)遙遙領先,于GPT-4o(13.4%)、Gemini2.5-flash(13.0%)、Qwen2.5-VL-72B(11.5%)、Claude-3.7(11.2%)等國內外主流旗艦模型,成績提升超過一倍。該基準涵蓋了跨網頁、多實體、模糊表達等嚴苛考驗,彰顯了WebWatcher 在復雜信息尋優與聚合領域的絕對能力優勢。

綜合來看,WebWatcher不僅在單一任務維度實現領先,更在復合型任務、跨模態復雜推理及真實信息檢索等方面,奠定了新一代開源多模態Agent的領先地位。

arxiv:https://arxiv.org/abs/2508.05748
github倉庫:https://github.com/Alibaba-NLP/WebAgent

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-06-06 14:17:11

模型訓練AI

2025-06-17 15:28:03

智能體AI開源

2025-09-17 14:47:51

2024-11-19 15:00:00

模型開源

2025-08-12 08:58:03

2025-07-25 10:31:52

2025-06-17 06:28:08

2025-07-04 16:50:07

工具AI模型

2025-11-06 09:03:00

2025-03-19 09:30:00

2025-04-10 09:15:00

模型AI數據

2025-05-06 08:40:00

2025-09-23 03:00:00

2024-10-15 17:28:05

2025-06-26 09:01:14

2025-07-08 09:22:31

2025-02-06 15:07:27

2025-05-26 09:49:59

多模態智能體RAG

2025-08-07 02:00:00

點贊
收藏

51CTO技術棧公眾號

国产精品蜜月aⅴ在线| 丁香在线视频| 亚洲综合社区| 中文字幕视频在线免费欧美日韩综合在线看 | 精品无人区无码乱码毛片国产| 成人久久网站| 亚洲午夜日本在线观看| 日韩欧美在线电影| 亚洲第九十九页| 日韩电影在线免费| 久久久久久久久国产| 在线观看亚洲大片短视频| 91成人福利| 欧美日韩亚洲高清一区二区| 欧美精品久久久久久久自慰| 香蕉视频网站在线观看| 国产iv一区二区三区| 国产精品啪视频| 免费在线观看黄网站| 亚洲精品久久| 一区二区国产精品视频| www.88av| 国产精品白丝一区二区三区| 欧美日韩国产乱码电影| 欧美 激情 在线| 麻豆蜜桃在线| 亚洲精品中文在线| 在线不卡日本| 超碰免费在线观看| 久久久91精品国产一区二区精品 | 国产99视频在线| 日韩不卡一区二区| 欧美在线欧美在线| 日本在线视频免费| 欧美精品18| 久久精品视频免费播放| 992在线观看| 青青一区二区三区| 亚洲欧洲午夜一线一品| 国产麻豆xxxvideo实拍| 国产精品玖玖玖在线资源| 337p亚洲精品色噜噜狠狠| 日韩一区二区三区久久| 在线国产成人影院| 欧美亚洲一区二区在线| 亚洲成人福利在线观看| 日韩一区精品| 欧美日韩你懂得| 人人干人人干人人| 日韩电影免费观看高清完整版在线观看| 欧美日韩精品在线播放| 久久久999视频| 欧美三级网站| 日韩欧美在线视频| 国模杨依粉嫩蝴蝶150p| 91精品韩国| 欧美色视频一区| 最新av免费在线观看| 在线成人免费| 日韩午夜三级在线| 毛茸茸free性熟hd| 亚洲精品合集| 色老头一区二区三区| 在线视频这里只有精品| 欧美福利在线| 91精品国产91久久久久久不卡| 国产性猛交╳xxx乱大交| 丝袜亚洲精品中文字幕一区| 国产精品久久久av| 国产情侣自拍小视频| 国产成人av影院| 狠狠色狠狠色综合人人| 男人天堂网在线观看| 国产精品色婷婷久久58| 国产欧美综合一区| 国产盗摄——sm在线视频| 日韩欧美国产成人| 日本黄大片一区二区三区| 亚洲大奶少妇| 亚洲欧洲xxxx| 永久免费看mv网站入口| 激情综合久久| 国产精品久久精品| 亚洲精品中文字幕成人片| 91视频一区二区三区| 亚洲精品在线视频观看| 欧美黄色视屏| 欧洲视频一区二区| 美女搡bbb又爽又猛又黄www| 国产精品一区2区3区| 久久精品国产亚洲一区二区| 国产午夜精品一区二区理论影院| 日韩高清一级片| 99高清视频有精品视频| 男同在线观看| 亚洲国产欧美在线| 91国内在线播放| 欧美巨大xxxx| 久久久精品中文字幕| 天天综合天天干| 色爱综合区网| 国产一区二区女| 麻豆av一区二区三区久久| 网友自拍视频在线| 精品久久久久久中文字幕一区奶水 | 自拍视频一区二区| 中文乱码免费一区二区三区下载| 欧美一级电影久久| www.五月婷婷| 中文字幕一区二区视频| 国产精品无码av在线播放| 99久久久成人国产精品| 亚洲色图日韩av| 豆国产97在线 | 亚洲| 蜜桃一区二区三区四区| 久久艳妇乳肉豪妇荡乳av| 亚洲七七久久综合桃花剧情介绍| 日本高清成人免费播放| 色婷婷精品久久二区二区密| 香蕉视频国产精品| 国产女同一区二区| 成人在线免费观看| 无吗不卡中文字幕| 日批视频免费看 | 欧美 日韩 亚洲 一区| 国产精品1区| 最新中文字幕亚洲| 69xxxx国产| 久久久亚洲欧洲日产国码αv| 黄色三级中文字幕| 日本免费精品| 欧美猛男性生活免费| 国产精品久久影视| 中文字幕亚洲电影| 亚洲高清在线不卡| 婷婷综合伊人| 成人网址在线观看| 日本中文字幕电影在线免费观看| 在线观看成人免费视频| 亚洲av无码一区二区三区人| 久久精品官网| 免费成人看片网址| 国产精品25p| 亚洲精品久久在线| 国产一级做a爱片久久毛片a| av在线综合网| 欧美精品99久久| 九一精品国产| 国产精品高清在线| 91caoporm在线视频| 欧美在线观看视频在线| 国产美女永久免费无遮挡| 蜜臀av在线播放一区二区三区| 日本一区二区三区www| 欧美日韩五区| 久久精品99无色码中文字幕| 99精品在线看| 亚洲高清视频在线| 黄色网址在线视频| 久久青草久久| 亚洲人一区二区| 粉嫩av国产一区二区三区| 久久综合免费视频影院| 亚洲毛片欧洲毛片国产一品色| 亚洲成av人片| 免费看黄色的视频| 国产又粗又猛又爽又黄91精品| 蜜臀av.com| 精品精品国产毛片在线看| 国产91精品高潮白浆喷水| 国际av在线| 制服丝袜亚洲色图| 日本少妇性生活| 国产亚洲一区字幕| 999热精品视频| 1024精品一区二区三区| 日韩高清国产一区在线观看| 国产精品欧美一区二区三区不卡 | 浪潮色综合久久天堂| 色噜噜狠狠色综合网图区| 亚洲av综合色区无码一二三区| 亚洲超碰精品一区二区| 欧美福利在线视频| 成人性生交大片免费看中文网站| 韩国日本在线视频| 一区二区在线| 欧美精品中文字幕一区二区| 91精品国产一区二区在线观看| 久久久久一本一区二区青青蜜月| 国产免费a∨片在线观看不卡| 91精选在线观看| 四虎成人在线观看| 亚洲女女做受ⅹxx高潮| 在线免费观看a级片| 精品午夜一区二区三区在线观看| 日韩av新片网| 91欧美在线| 欧美精品一区二区三区久久| 麻豆国产精品| 国产精品爱久久久久久久| 国产91足控脚交在线观看| 中文字幕在线观看日韩| 污污视频在线免费看| 3d成人h动漫网站入口| 色老头在线视频| 亚洲国产一区二区在线播放| 国产一区在线观看免费| 久久久九九九九| 国产xxxx视频| 国产在线精品免费| 91国产精品视频在线观看| 亚洲乱亚洲高清| 97精品国产97久久久久久粉红 | gogogo免费高清日本写真| 一道本一区二区三区| 国产精品久久久久久久天堂第1集| 日韩av懂色| 日韩69视频在线观看| 变态调教一区二区三区| 欧美成人午夜激情视频| 在线播放毛片| 一区二区成人精品| 国产高清视频在线播放| 国产丝袜精品第一页| 欧美 日韩 国产 成人 在线| 日韩午夜av一区| 国产一区二区小视频| 欧美午夜精品免费| 国产真人无遮挡作爱免费视频| 欧美日韩中文在线观看| 日韩久久精品视频| 天天综合天天做天天综合| 久久久久久久久久久久久久久久久 | 神马影院一区二区| 精品久久久久久久| 欧洲一区二区在线观看| 精品国产1区| 日韩电影大全在线观看| 精品国产日韩欧美| 色综合久久88色综合天天提莫| 午夜a一级毛片亚洲欧洲| 精品国产一区二区三| 国产精品一线| 九色91在线视频| 九九在线高清精品视频| 性高潮久久久久久久久| 波多野结衣在线播放一区| 亚洲福利av在线| 婷婷综合社区| 青青在线视频免费观看| 在线不卡欧美| 狠狠97人人婷婷五月| 丝袜a∨在线一区二区三区不卡| 麻豆av免费在线| 蜜臀av一区二区三区| 日韩中文字幕a| 国产一区二区三区国产| av在线天堂网| 91视频.com| 美女被到爽高潮视频| 国产精品蜜臀在线观看| 日韩一区二区三区四区在线| 亚洲蜜臀av乱码久久精品| 久久国产露脸精品国产| 午夜av区久久| 国产男人搡女人免费视频| 精品视频一区 二区 三区| 99riav国产| 日韩av在线精品| www.亚洲.com| 欧美精品一二区| 中文字幕资源网在线观看免费| 国产精品丝袜视频| 6080亚洲理论片在线观看| 欧美精品久久久| 国产精品伦理久久久久久| 野外做受又硬又粗又大视频√| 性色一区二区三区| 国产三级精品三级在线| 成人手机电影网| 极品蜜桃臀肥臀-x88av| 一区二区三区免费网站| 国产成人综合欧美精品久久| 欧美日韩电影一区| 人妻精品一区二区三区| 在线播放亚洲激情| 草美女在线观看| 国产日产久久高清欧美一区| 成人影院中文字幕| 午夜精品一区二区三区在线观看| 欧美久久一级| 亚洲天堂网一区| 99久久精品费精品国产一区二区| 五月天精品视频| 亚洲狠狠爱一区二区三区| 中文字幕av影视| 亚洲国产成人精品电影| 91高清在线| 日本精品久久久久影院| 人人九九精品视频| 亚洲精品一区二区毛豆| 国产亚洲综合精品| 亚欧美在线观看| www亚洲一区| 久久精品国产亚洲av香蕉| 欧美日韩美少妇| 精品推荐蜜桃传媒| 午夜精品一区二区三区在线播放| 国产一区二区三区视频在线| 日本不卡一二三区| 午夜在线精品偷拍| 精品人妻二区中文字幕| 亚洲欧洲99久久| 中日韩av在线| 亚洲欧洲在线观看| 国产夫妻在线播放| 高清国产一区| 欧美日韩国内| aaaaaaaa毛片| 成人欧美一区二区三区1314| 无码人妻精品一区二| 日韩风俗一区 二区| 国产精品186在线观看在线播放| 91久久在线播放| 99国产**精品****| jizz大全欧美jizzcom| 亚洲国产成人在线| 欧美超碰在线观看| 一区二区成人精品| 一区二区视频免费完整版观看| 欧美日韩一区二区视频在线观看| 99精品免费视频| 在线免费播放av| 日韩欧美黄色动漫| 精品亚洲综合| 国产精品久久精品| 久久中文字幕av| 91看片破解版| 亚洲免费色视频| 国产chinasex对白videos麻豆| 久久99精品久久久久久青青91| 久久99精品久久久野外观看| 九九久久九九久久| 国产高清不卡一区| 日本熟妇一区二区| 日韩成人xxxx| 毛片免费看不卡网站| 蜜桃传媒视频麻豆第一区免费观看| 欧美亚洲专区| 李宗瑞91在线正在播放| 欧美色欧美亚洲高清在线视频| 黄色美女网站在线观看| 国产精品爽爽ⅴa在线观看| 日韩精品二区| 在线观看免费av网址| 综合久久给合久久狠狠狠97色| 国产99久一区二区三区a片| 国内精品久久久久久中文字幕 | 欧美深深色噜噜狠狠yyy| 日韩精品成人一区二区在线| 五月天婷婷丁香网| 欧美一区二区高清| av日韩国产| 日韩av电影免费在线观看| 麻豆国产精品一区二区三区 | 欧美午夜一区二区| 久久日韩视频| 国产精品麻豆免费版| 另类天堂av| 精品亚洲乱码一区二区 | 2一3sex性hd| 色国产精品一区在线观看| 在线观看黄av| 国产精品久久久久久免费观看 | 亚洲自拍小视频免费观看| 亚洲无线一线二线三线区别av| 欧美老熟妇乱大交xxxxx| 欧美日本视频在线| 福利在线免费视频| 亚洲欧美日韩国产成人综合一二三区 | 国产精品久久精品| 国产综合精品| 国产18无套直看片| 精品国产一区二区三区四区四| 欧美大胆成人| 国产欧美123| 国产午夜精品理论片a级大结局| 99精品视频免费看| 国产精品福利无圣光在线一区| 欧美高清不卡| 毛片aaaaaa| 亚洲精品一区二区三区在线观看| 电影在线观看一区二区| 久久久久久久9| 亚洲欧洲色图综合| 在线观看xxx| 91久久大香伊蕉在人线| 日韩avvvv在线播放| 日操夜操天天操| 久久精品国产一区二区三区|