精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

讓大模型互聯網「沖浪」,通義實驗室WebWalker解鎖復雜信息檢索新技能

人工智能 新聞
在信息爆炸的時代,互聯網就像一座龐大的迷宮,藏著無數寶藏。但傳統搜索引擎往往只能觸及表面,對于復雜、多層級的信息檢索顯得力不從心。

本文主要作者來自通義實驗室和東南大學,通訊作者是通義實驗室蔣勇和東南大學周德宇。其中第一作者吳家隆,東南大學碩士二年級,主要研究方向是 Agent 和 Efficient NLP,該工作在阿里巴巴通義實驗室 RAG 團隊科研實習完成。

在信息爆炸的時代,互聯網就像一座龐大的迷宮,藏著無數寶藏。但傳統搜索引擎往往只能觸及表面,對于復雜、多層級的信息檢索顯得力不從心。比如,你想知道某個學術會議的詳細議程、嘉賓介紹,還得自己手動點開一個個網頁點擊深挖,費時費力。

通義實驗室 RAG 團隊提出 WebWalker 幫你解決這一問題!

如 gif 所示,給定 ACL 2025 的網頁地址和問題:industry track 的截止日期和開會地址。WebWalker 通過一次又一次的 Click 點擊依次找到對應的信息,對網站進行充分的探索和挖掘。

就其應用場景來說,WebWalker 既可以作為獨立的網頁信息檢索助手,或無縫集成到 RAG 系統中,拓展其應用范圍,讓它們能夠處理更加復雜、多步驟的信息檢索任務。

圖片

背景:大模型的「知識局限」與檢索瓶頸

大型語言模型(LLMs)在自然語言處理任務中大放異彩,但它們的「知識」 在訓練后就固定了。雖然通過檢索增強生成(RAG)能從網上獲取最新信息,傳統搜索引擎的橫向搜索方式,很難深入挖掘網站內部深層內容,導致大模型在處理復雜信息時「心有余而力不足」。

傳統搜索引擎如谷歌、必應等,它們的搜索方式,我們定義為對問題水平方向的搜索,難以深入到網站內部,挖掘那些深埋在網頁之下的深層內容,對于隱藏在網頁深層的有價值信息無能為力。無法像人類一樣通過點擊、輸入等操作,逐步深入探索網頁,獲取豐富的細節。

解決思路

研究者首先定義了 Web Traversal 任務,即給定一個與問題相關的初始網站,系統地遍歷網頁以揭露隱藏在其中的信息對問題進行回答。同時,WebWalkerQA 應運而生,專門設計來評估大模型處理復雜、多步驟網頁交互中嵌入查詢能力的基準測試。其聚焦于文本推理能力,采用問答格式來評估大模型在網頁場景中的問題解決能力,并且將動作限制為「Click 點擊」,以更精準地評估智能體的導航和信息尋求能力,這種范式更加貼合實際應用場景。

同時,研究者提出了一個基于 Multi-Agent 框架搭建的 WebWalker 框架,進行網頁的游走,獲取需要的信息。

WebWalkerQA 基準

WebWalkerQA 通過兩階段漏斗式標注策略構建數據,先用 GPT-4o 進行初步標注,再由眾包標注者進行質量控制和篩選,最終獲得高質量的 680 個問答對,覆蓋 1373 個網頁,其中涉及到的領域有教育、會議、組織和游戲,貼近現實真實場景,并且分為多源和單源問答兩種類型,模擬人類不同網頁探索行為。

同時,團隊了開源了 14k 條 silver data,包含了詳細的頁面點擊的 trajectory,以供后續研究者研究使用。

WebWalker 框架

WebWalker 框架由 Explorer Agent 和 Critic Agent 組成。Explorer Agent 基于遵循思考 - 行動 - 觀察范式,負責在網頁中點擊按鈕、跳轉頁面;Critic Agent 則負責記憶,維護一個 Memory 來保存對問題回答有幫助的信息和判斷當前 Memory 中的信息能否對問題進行回答。

這種分工協作讓大模型更高效地管理記憶,應對長文本和復雜邏輯。WebWalker 讓大模型在網頁導航任務中能夠更加高效地處理長文本信息,深入網頁挖掘有價值的內容。

圖片

實驗結果

研究者分別在兩種設置下測試了 WebWalkerQA 的性能。第一種是 Agent 在 Web Traversal 任務下的性能,即輸入給定的網頁和問題,讓 Agent 在網頁內游走,獲取信息進行回答。

另外,研究者分別在兩種最主流的 Single-Agent 框架 ReAct 和 Reflexion 以及他們提出的 WebWalker 上進行了測試。測試指標分別是問答的正確率和正確回答的情況下 Agent 執行點擊的次數 Action Count。

在 Agent 上的性能

從下圖可以看出,數據集深度越深,考察內容越多,需要挖掘的信息越難找到,性能越低,這與論文構造 WebWalkerQA 想要考察的內容是一致的。

相比于 ReAct 和 Reflexion 框架,引入 Multi-Agent 的 WebWalker 框架對于長上下文理解的網頁探索任務很有作用。

總體來說,WebWalkerQA 對現有 Agent 來說是仍有挑戰,即使是性能最強的基于 GPT-4o 的 WebWalker,其表現也未達理想狀態,僅僅只有 40,凸顯了該基準的難度。

圖片

詳細分析

如下左圖是基于不同基座 LLM 在不同 Agent 正確率和執行次數的分布;右圖是預測分布,研究者對錯誤類型進行了細致的劃分,包括超過給定的最大執行次數 K,拒答或定位錯誤(沒有找到正確的頁面就進行了回答)以及推理錯誤(這里指找到了正確的頁面但是仍回答錯誤)。

綜合來看,在 ReAct 框架下,參數相對較小的模型由于缺乏深入挖掘信息的能力,無論是否找到了相關信息,在進行幾次操作迭代后便開始進行回答判斷,常常表現出「擺爛」或者不耐煩的特性。通過引入記憶機制來管理長上下文,或者隨著模型參數的增強這種現象有所緩解,說明這種現象源于長上下文中噪聲信息的干擾以及模型自身能力的局限性。

圖片

在 RAG 系統上的性能

另一種設置是直接端到端測試 RAG 系統下 QA 的性能,研究者分別測試了在 Close Book 和一些開源、商用 RAG 系統上的性能。結果顯示,Close Book 在 WebWalkerQA 上結果很差,因為研究者收集頁面信息具有高度的時效性。

同樣地,WebWalkerQA 需要搜索引擎搜到比較深的頁面內容,或者需要拆解 Query 進行搜索,這給 RAG 系統帶來了挑戰,最好的結果也是 40 左右。

圖片

二維 RAG 的探索

值得注意的是,WebWalker 中的 memory 對于回答 query 是非常重要的。如果 rag 鏈路中的搜索引擎可以當作對 query 進行橫向搜索,WebWalker 是對頁面的縱向深度探索,這是完全可以互補的。

因此,如果把 WebWalker 中的 memory 拼接到 rag 鏈路上,這種橫向和縱向整合表現出色,在所有類別和難度的數據集上效果均有提升,證明了垂直探索頁面對于提升 RAG 性能的潛力。這是對 RAG 二維探索的首次嘗試

此外,研究者對 WebWalker 的挖掘點擊次數進行 scale up,看是否能得到更好、更多的 memory 信息。隨著挖掘點擊次數的增大,不僅在 WebWalker 上有較大提升,把 memory 加入到 rag 系統之后,性能也隨之提升。這給 rag 系統進行 test-time 的拓展提供了新的角度。

圖片

突出 Insight

  • 網頁導航尋找信息仍比較困難:在需要規劃和推理的任務中,網頁導航任務仍需進行進一步的研究和探索。
  • 結合 RAG 有效:RAG 與 WebWalker 的結合,在信息檢索問答任務中展現出強大效果。這種協同作用不僅提升了信息檢索的效率,還為處理復雜任務提供了強大的支持。Agentic 的二維 RAG 會很有幫助。
  • 垂直探索有潛力:頁面的垂直探索為 RAG 系統 test-time 的擴展提供了新思路。突破迭代搜索的范式,對頁面進行垂直探索。

總之,WebWalkerQA 和 WebWalker 的出現,為大模型在復雜、多步驟信息檢索任務中的網頁遍歷能力評估提供了新標準和工具。它們強調了網頁信息獲取任務中深度、垂直探索的重要性,是可能一直 Agentic RAG 的新方向

局限與改進方向

  • 數據規模:目前 WebWalkerQA 僅包含 680 個高質量問答對,規模有限,還有拓展空間。
  • 多模態拓展:目前僅基于 HTML-DOM 解析,未來可結合視覺模態如截圖,提供更直觀的交互體驗。
  • Agent 微調:WebWalker 目前僅靠提示驅動,后續可通過精細調優,讓大模型更好地掌握網頁瀏覽技巧。
  • Momory 與 rag 結合:目前是給定了 webwalker 頁面進行了挖掘,如果想與 rag 鏈路進行更好的結合,可以對 query 進行改寫到官網定位,再進行挖掘,把 memory 和正常檢索到的知識一起作為檢索增強的知識,這樣結合更自然。
責任編輯:張燕妮 來源: 機器之心
相關推薦

2009-06-10 09:37:50

軟件盜版

2018-01-11 10:17:52

2017-07-24 10:53:36

牛仔 服裝

2019-07-30 16:52:29

2020-07-01 14:49:50

百度

2015-07-01 13:53:06

致遠協同

2011-05-05 15:42:57

2025-05-19 08:47:00

強化學習模型開源

2017-07-27 17:25:21

物聯網

2021-08-04 09:48:05

數字化

2009-05-07 16:20:20

谷歌實驗室Gmail

2025-02-28 08:21:36

C語言C++Java

2025-02-04 18:36:12

2013-11-07 10:05:12

互聯網預言

2017-10-09 14:44:30

互聯網掃一掃網絡

2015-06-24 15:35:54

2021-01-23 19:22:46

互聯網數據技術

2013-11-06 15:23:15

互聯網后PC時代預言

2017-07-21 13:33:18

互聯網銀行金融

2015-02-06 09:23:52

賽可達實驗室網絡安全
點贊
收藏

51CTO技術棧公眾號

神马电影久久| 日本aa在线| 麻豆国产精品一区二区三区 | 成人网欧美在线视频| 亚洲av鲁丝一区二区三区 | 亚洲精品第二页| 黄色在线免费看| 成人av网址在线| 国产精品777| 中文字幕av久久爽av| 欧美日韩一本| 这里只有精品免费| 337p粉嫩大胆噜噜噜鲁| 91最新在线| 成人99免费视频| 成人网在线观看| 日韩毛片一区二区三区| 午夜精品视频一区二区三区在线看| 精品奇米国产一区二区三区| 国产成人精品视频ⅴa片软件竹菊| 美女av在线播放| 91美女片黄在线观看| 成人h视频在线观看播放| 日本少妇性生活| 久久精品亚洲欧美日韩精品中文字幕| 日韩禁在线播放| www.偷拍.com| 久久精品97| 欧美性猛交xxxx富婆弯腰| www.国产亚洲| 嫩草香蕉在线91一二三区| 久久精品亚洲精品国产欧美| 国产精品污www一区二区三区| 在线观看国产黄| 久久午夜av| 6080yy精品一区二区三区| 久久精品视频免费在线观看| 欧美日韩在线二区| 亚洲男人天堂网站| 国产草草浮力影院| av成人综合| 日韩午夜激情免费电影| 日韩欧美国产片| 美女色狠狠久久| 一本在线高清不卡dvd| 免费毛片网站在线观看| 亚洲精品一线| 57pao成人永久免费| 99re热这里只有精品视频| 亚洲综合最新在线| 91中文字幕在线播放| 蜜桃av一区二区三区| 国产999精品视频| 中文在线第一页| 美女精品网站| 国产成人精品日本亚洲专区61| 成人免费视频毛片| 国产欧美日韩一区二区三区在线| 久久久久久久久亚洲| 国产精彩视频在线| 亚洲精品1区2区| 91成人国产在线观看| 国偷自拍第113页| 亚洲一区二区三区高清| 欧美最猛性xxxx| 69xxxx国产| 久久亚洲视频| 国产精品影院在线观看| 一区二区久久精品66国产精品| 热久久免费视频| 国产色视频一区| 国产强伦人妻毛片| 成人免费毛片嘿嘿连载视频| 国产一区免费| 黄网在线观看| 国产精品国产a级| 91精品国产吴梦梦| 91九色国产在线播放| 精品国产鲁一鲁一区二区张丽| 777精品久无码人妻蜜桃| 性高爱久久久久久久久| 欧美日本在线视频| 中文字幕一区二区三区人妻在线视频| 99国产精品久久一区二区三区| 日韩成人在线观看| www.日本高清视频| 欧美+日本+国产+在线a∨观看| 欧美疯狂性受xxxxx另类| 亚洲成人精品久久久| 好吊操视频这里只有精品| 女人抽搐喷水高潮国产精品| 亚洲性生活视频在线观看| 三级在线观看免费大全| 亚洲二区视频| 国产精品青草久久久久福利99| 国产黄色av片| 久久久久久毛片| www.99riav| 欧美gay视频| 欧美一区二区三区色| 欧类av怡春院| 亚洲高清资源在线观看| 51视频国产精品一区二区| 一区二区乱子伦在线播放| 粉嫩aⅴ一区二区三区四区| 欧美精品尤物在线| av网址在线免费观看| 日韩欧美精品在线观看| 日本韩国欧美在线观看| 国产麻豆精品| 一区二区三区四区在线观看视频| 激情综合五月网| 免费成人av在线| 精品一区国产| 中文在线免费| 欧美日韩在线播放一区| 日韩aaaaa| 欧美福利视频一区二区| 欧美精品一区二区久久| 久久久在线免费观看| 亚洲在线观看av| 91蜜桃婷婷狠狠久久综合9色| 韩国黄色一级大片| 岛国精品在线| 亚洲视频第一页| 国产精品99re| 国产精品77777| 在线看成人av电影| 国产情侣一区二区三区| 亚洲少妇激情视频| 国产精品美女久久久久av爽| 国产福利精品导航| 强开小嫩苞一区二区三区网站| jizz亚洲女人高潮大叫| 亚洲精品一区二区在线| 日韩成人免费在线观看| 国产美女娇喘av呻吟久久| 在线视频不卡国产| 成人午夜一级| 中文字幕日韩av| 日韩欧美一级大片| 国产农村妇女精品| 国产一级做a爰片久久| 国产99精品| 国产成人精品视频在线观看| 蜜芽tv福利在线视频| 九九久久国产| 在线亚洲一区观看| 波多野结衣一本| 欧美综合二区| 欧美污视频久久久| 亚洲天堂1区| 最近2019好看的中文字幕免费| 日本黄色中文字幕| 国产欧美日韩综合| 黑人粗进入欧美aaaaa| 欧美精选视频在线观看| 国产精品视频一| 一本一道波多野毛片中文在线| 欧美色视频一区| 午夜国产福利视频| 精品一区二区三区在线观看| 最近中文字幕免费mv| 欧美影院视频| 久久99精品视频一区97| 欧美 日韩 国产 在线| 黄色成人在线免费| 日韩av在线看免费观看| 日韩有码一区二区三区| 亚洲午夜精品福利| 久久中文字幕一区二区| 久久久久久久色| 日本精品专区| 欧美撒尿777hd撒尿| 五月综合色婷婷| 成人h动漫精品一区二区| 欧美日韩国产一区中文午夜| 丰满女人性猛交| av成人男女| 欧美在线视频导航| 日韩专区在线| 精品国产人成亚洲区| 国产精品久免费的黄网站| 中文文精品字幕一区二区| 免费不卡av网站| 中国女人久久久| 亚洲精品视频一区二区三区| 免费观看在线一区二区三区| 97精品伊人久久久大香线蕉| 高清美女视频一区| 日韩精品专区在线| 无码人妻丰满熟妇精品区| 亚洲色大成网站www久久九九| 88av在线播放| 秋霞av亚洲一区二区三| 国产精品自拍合集| 国产精品一区二区三区av麻| 91香蕉电影院| 国产精品伦理| 欧美激情一区二区久久久| 激情小说 在线视频| 日韩欧美另类在线| 在线视频精品免费| 亚洲曰韩产成在线| 欧美性受xxxx黑人| av在线不卡免费看| 手机精品视频在线| 日韩高清国产一区在线| 免费特级黄色片| 欧美aaaaaaaaaaaa| 欧美日韩亚洲免费| 亚洲国产视频二区| 国产在线拍揄自揄视频不卡99| 波多野一区二区| 超碰精品一区二区三区乱码| 国产污视频在线| 亚洲成人a**站| 国产男女无套免费网站| 欧美在线观看一区| 五月天婷婷久久| 亚洲观看高清完整版在线观看| 999福利视频| 欧美magnet| 亚洲一二三区视频在线观看| 欧美日韩生活片| 久久久精品黄色| 亚洲av成人无码一二三在线观看| 国产精品一区二区在线看| 国产九九热视频| 日韩综合小视频| 超碰97人人射妻| 国产精品日韩| 成人中文字幕在线播放| 在线免费观看欧美| 亚洲熟妇无码av在线播放| 影音先锋日韩精品| 丰满女人性猛交| 99精品电影| 中文一区一区三区免费| 日韩成人影院| 无遮挡亚洲一区| 国产精品入口久久| 青青成人在线| 欧美综合一区| 亚洲 日韩 国产第一区| 成人女性视频| 亚洲在线不卡| 国产精品97| 日韩视频在线免费播放| 亚洲国产一成人久久精品| 波多野结衣三级在线| 欧美韩国日本在线观看| 在线成人性视频| 欧美一区二区三区久久精品| 日本大胆人体视频| 亚洲黄色影院| 黄www在线观看| 日日夜夜一区二区| 凹凸日日摸日日碰夜夜爽1| 日日摸夜夜添夜夜添国产精品| 白嫩少妇丰满一区二区| 免费观看在线综合| 99热一区二区| 国产不卡在线视频| 成人无码www在线看免费| 久久综合99re88久久爱| 日韩精品电影一区二区| 国产精品嫩草影院com| 在线免费看av网站| 亚洲国产色一区| 在线精品免费视| 欧美三级三级三级爽爽爽| 亚洲一区二区色| 精品久久久久久最新网址| av女名字大全列表| 色老头一区二区三区| √资源天堂中文在线| 青青草91久久久久久久久| 久草精品电影| 精品国产精品久久一区免费式 | 色777狠狠狠综合伊人| 在线观看17c| 校园春色综合网| 亚洲va综合va国产va中文| 成人中文字幕合集| 色噜噜日韩精品欧美一区二区| 中文字幕一区二区三区色视频| 国产在线视频二区| 在线中文字幕一区二区| 国产成a人亚洲精v品无码| 亚洲精选一区二区| 日本天堂在线观看| 欧美多人爱爱视频网站| 范冰冰一级做a爰片久久毛片| 91沈先生作品| 国产综合久久久| 亚洲精品久久久久久久蜜桃臀| 水野朝阳av一区二区三区| 久久久久久久久久久影视| 久久精品人人做人人综合 | 国产又黄又粗视频| 一区二区欧美国产| 中文字幕乱码一区二区| 亚洲精品国精品久久99热| 午夜在线视频| 欧美在线观看网站| 亚洲日本视频在线| 无遮挡亚洲一区| 西西人体一区二区| 美女流白浆视频| 国产精品国产三级国产| 日韩精品久久久久久免费| 欧美成人免费网站| 日本三级在线视频| 国产成人精品综合| 欧美成人一区在线观看| 欧美交换配乱吟粗大25p| 久久99在线观看| 手机免费看av| 欧美日韩国产一中文字不卡| a天堂在线观看视频| 视频在线一区二区| 成人免费福利| 欧美不卡在线一区二区三区| 精品91久久久久| 日本中文字幕有码| 亚洲男人的天堂在线aⅴ视频| 中文字幕av影视| 国产亚洲欧美日韩一区二区| 毛片电影在线| 狠狠久久综合婷婷不卡| 亚洲福利精品| 国产综合精品一区二区三区| 国产男女裸体做爰爽爽| 日韩国产欧美精品一区二区三区| 日本成人不卡| 国产精品theporn88| 欧美特黄一级| 午夜性福利视频| 亚洲一区二区美女| 亚洲精品久久久久久久久久| 美女视频久久黄| 亚洲经典视频| 国内精品视频一区二区三区| 成人精品gif动图一区| 欧美日韩中文视频| 欧美精品一区二区在线观看| 青春草在线免费视频| 懂色av一区二区三区在线播放| 欧美激情自拍| 中文字幕天堂av| 精品高清美女精品国产区| 天堂在线观看av| 庆余年2免费日韩剧观看大牛| 亚洲欧洲色图| 一级在线免费视频| 亚洲欧美在线视频观看| 99国产揄拍国产精品| 久久久久九九九九| 青青操综合网| 午夜激情福利在线| 亚洲欧洲精品成人久久奇米网| 国产又大又粗又硬| 欧美福利在线观看| 亚洲色图丝袜| 日韩av在线中文| 亚洲黄色av一区| 天天舔天天干天天操| 日本视频久久久| 久久国产电影| 日本wwwwwww| 色先锋aa成人| 美女隐私在线观看| 国产在线精品一区二区三区| 美女黄网久久| 午夜精品福利在线视频| 亚洲国产一区二区三区四区| 美女100%一区| 中国 免费 av| 91亚洲永久精品| 中文字幕在线观看国产| 欧美高清一级大片| 国产精品美女久久久久久不卡 | 影音先锋黄色网址| 欧美大荫蒂xxx| 国产一区国产二区国产三区| 欧美精品 - 色网| 黑丝美女久久久| 欧美成人三区| 精品一区在线播放| 麻豆精品一区二区综合av| 国产性70yerg老太| 伊人久久综合97精品| 日本精品视频| 在线视频日韩一区| 午夜久久久影院| 成人免费高清| 日韩激情视频网站| 国产精品20p| 亚洲成av人影院在线观看|