精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

WebWalker:通過Multi Agent提升RAG在開放域QA的性能

發(fā)布于 2025-2-6 15:28
瀏覽
0收藏

WebWalker: Benchmarking LLMs in Web Traversal

檢索增強(qiáng)生成(RAG)在開放域問答任務(wù)中表現(xiàn)出色。然而,傳統(tǒng)搜索引擎可能會檢索淺層內(nèi)容,限制了大型語言模型(LLM)處理復(fù)雜、多層次信息的能力。為了解決這個問題,我們引入了WebWalkerQA,一個旨在評估LLM執(zhí)行網(wǎng)頁遍歷能力的基準(zhǔn)。它評估LLM系統(tǒng)性地遍歷網(wǎng)站子頁面以獲取對應(yīng)信息的能力。同時我們提出了WebWalker,一個通過explorer-critic范式模擬人類網(wǎng)頁導(dǎo)航的multi-agent框架。廣泛的實驗結(jié)果表明,證明了結(jié)合WebWalker的RAG在實際場景中通過橫向搜索和縱向頁面挖掘集成的有效性。

??https://arxiv.org/pdf/2501.07572??

WebWalker:通過Multi Agent提升RAG在開放域QA的性能-AI.x社區(qū)圖片

1. 為什么要提出 WebWalkerQA

大型語言模型(LLM)通常處于知識固定狀態(tài)(無法實時更新)。盡管使用檢索增強(qiáng)生成(RAG)可以獲取最新信息,但傳統(tǒng)搜索引擎(如谷歌、百度等)的橫向搜索方式限制了對信息的深層挖掘能力,無法像人類一樣通過逐步點(diǎn)擊等操作獲取更多細(xì)節(jié),從而更“聰明”地獲取所需信息。因此,作者提出了一個新任務(wù)——Web Traversal,旨在給定與查詢相關(guān)的初始網(wǎng)站,系統(tǒng)地遍歷網(wǎng)頁以揭露隱藏在其中的信息。

2. 什么是WebWalkerQA和WebWalker

?[Dataset] WebWalkerQA:根據(jù)網(wǎng)站的URL樹,通過四個階段,構(gòu)建單源/多源的easy、medium、hard難度的QA對,涵蓋四種常見官網(wǎng)來源及中英兩種語言。

WebWalker:通過Multi Agent提升RAG在開放域QA的性能-AI.x社區(qū)圖片

?[Method] WebWalker:采用多智能體框架,由一個探測智能體(explorer agent)和一個裁判智能體(critic agent)組成。

? 探測智能體基于ReAct,遵循思考-行動-觀察范式,模擬人在網(wǎng)頁中點(diǎn)擊按鈕跳轉(zhuǎn)頁面的過程;

? 裁判智能體則負(fù)責(zé)存儲搜索過程中的信息,在探測代理點(diǎn)擊的過程中,保存對查詢有幫助的信息,并判斷何時能夠停止探測代理的探索。

WebWalker:通過Multi Agent提升RAG在開放域QA的性能-AI.x社區(qū)圖片

3. 效果評估

WebWalker:通過Multi Agent提升RAG在開放域QA的性能-AI.x社區(qū)圖片

? 上表展示了不同模型作為backbone,WebWalkerQA使用不同方法的智能體性能結(jié)果。可以發(fā)現(xiàn)即使是最好的模型gpt-4o在這個任務(wù)也表現(xiàn)較差,任務(wù)中可能涉及到多跳推理和對文本的推理的能力。

WebWalker:通過Multi Agent提升RAG在開放域QA的性能-AI.x社區(qū)圖片

? 上表顯示了在close book和目前較好的開源及商用RAG系統(tǒng)上的性能。在close book 設(shè)置下正確率只有10%,因為WebwalkerQA具有高時效性,而LLM具有知識的cutoff,這與第一個limitation呼應(yīng)。在源及商用RAG系統(tǒng)上,最好的效果也只有40,驗證了第二個limitation,傳統(tǒng)搜索引擎可能會檢索淺層內(nèi)容,即使很多閉源的RAG系統(tǒng)使用了query改寫或者agentic的操作,但是還是沒有一步到位定位到的需要的web information source。

? 還包括一系列分析實驗,如下:

WebWalker:通過Multi Agent提升RAG在開放域QA的性能-AI.x社區(qū)圖片

值得注意的是,webwalker中的memory對于回答query是非常重要的。如果rag鏈路中的搜索引擎可以當(dāng)作對query進(jìn)行橫向搜索,webwalker是對頁面的縱向深度探索,這是完全可以互補(bǔ)的。

因此可以把webwalker中的memory拼接到rag鏈路上,這種橫向和縱向整合表現(xiàn)出色,在所有類別和難度的數(shù)據(jù)集上效果均有提升,證明了垂直探索頁面對于提升RAG性能的潛力。這是對RAG二維探索的首次嘗試!

此外,對 webwalker 的挖掘點(diǎn)擊次數(shù)進(jìn)行scale up,看是否能得到更好的、更多的memory信息,隨著挖掘點(diǎn)擊次數(shù)的增大,不僅在webwalker上有較大提升,把memory加入到rag系統(tǒng)之后,性能也隨之提升。這給rag系統(tǒng)進(jìn)行test-time的拓展提供了新的角度。

?? WebWalker的設(shè)計讓人聯(lián)想到pair programming(對編程),即兩人協(xié)作,一個寫代碼,一個檢查bug。探測代理和裁判代理的功能其實類似于這種協(xié)作。

?? 文章最后提出了三項發(fā)現(xiàn),首次提出了RAG二維探索的scaling潛力,探討如何更“聰明”地進(jìn)行橫向和垂直兩個方向的探索(test-time compute)。

作者介紹:本文主要作者來自通義實驗室和東南大學(xué)。通訊作者是通義實驗室蔣勇和東南大學(xué)周德宇。第一作者吳家隆,主要研究方向是Agent和Efficient NLP,該工作在阿里巴巴通義實驗室RAG團(tuán)隊科研實習(xí)完成,

Github:https://github.com/Alibaba-nlp/WebWalker

Homepage: https://alibaba-nlp.github.io/WebWalker/

Demo: https://www.modelscope.cn/studios/iic/WebWalker/

Demo: https://huggingface.co/spaces/callanwu/WebWalker

本文轉(zhuǎn)載自??大語言模型論文跟蹤??,作者:WebWalker團(tuán)隊 ????

WebWalker:通過Multi Agent提升RAG在開放域QA的性能-AI.x社區(qū)

標(biāo)簽
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
成人影院在线视频| av大全在线观看| 24小时成人在线视频| 亚洲日本丝袜连裤袜办公室| 国产经典一区二区三区| av大全在线观看| 五月天久久777| 亚洲黄色在线看| 尤蜜粉嫩av国产一区二区三区| 国产视频中文字幕在线观看| 91在线一区二区| 国产有码在线一区二区视频| 日韩av综合在线| 日韩www.| 日韩h在线观看| 中文字幕日韩综合| 麻豆mv在线看| 亚洲精品一卡二卡| 欧美日韩一区二区三区在线视频 | av在线播放网址| av成人在线观看| 亚洲一区二区在线视频| 亚洲成人在线视频网站| 欧美一级做性受免费大片免费| 视频一区国产视频| 欧美激情欧美激情在线五月| 久久视频精品在线观看| 国产精品超碰| 欧美三级日韩在线| 尤物av无码色av无码| 国产cdts系列另类在线观看| 久久精品一区蜜桃臀影院| 国产精品久久久久久久久久久久午夜片 | 国产精品久久久久久久久久ktv| 国产一级视频在线播放| 国产精品黑丝在线播放| 亚洲午夜精品久久久久久久久久久久 | 国产伦精品一区二区三区视频金莲| 亚洲免费视频中文字幕| 亚洲精品一区二区三区av| 日韩a在线观看| 播五月开心婷婷综合| 亚洲www永久成人夜色| 国产成人av免费| 久久资源在线| 欧美亚洲一区在线| av大片免费在线观看| 欧美日本一区二区高清播放视频| www.xxxx欧美| 伊人久久久久久久久久久久久久| 国产影视一区| 国产亚洲欧美aaaa| 素人fc2av清纯18岁| 日本三级久久| 亚洲精品电影网在线观看| 亚洲日本久久久| 第一区第二区在线| 亚洲成人久久电影| 人妻 丝袜美腿 中文字幕| 午夜精品在线| 日韩一区二区在线看| 国内av免费观看| 一区二区亚洲视频| 欧美成人性战久久| 国产69视频在线观看| 精品精品国产毛片在线看| 亚洲第一区第二区| 中文乱码人妻一区二区三区视频| 青青草这里只有精品| 日韩激情在线视频| 性欧美13一14内谢| 色综合天天爱| 欧美成人精品三级在线观看| 国产一级大片在线观看| 91久久综合| 97av在线视频| 免费视频网站在线观看入口| 蜜臀av性久久久久蜜臀av麻豆| 国产精品久久久久久久9999| 国产精品自拍电影| 国产一区二区在线视频| 97超碰人人模人人爽人人看| 理论片中文字幕| 91丨porny丨户外露出| 欧美中日韩免费视频| 日本视频在线观看| 一区二区三区小说| 亚洲午夜精品久久久久久人妖| 免费观看一级欧美片| 欧美日韩免费视频| 在线观看一区二区三区四区| 亚洲制服欧美另类| 日韩中文在线视频| 亚洲国产精品午夜在线观看| 美女诱惑一区| 91网站免费观看| 五月婷婷综合久久| 中文字幕在线不卡一区| 久草免费福利在线| 色综合一本到久久亚洲91| 欧美二区三区的天堂| 成人av毛片在线观看| 青青一区二区| 久久久999国产| 国产性猛交╳xxx乱大交| 久久精品国产秦先生| 精品国产乱码久久久久软件 | 欧美激情自拍偷拍| 高清无码一区二区在线观看吞精| 中文在线免费二区三区| 制服丝袜国产精品| 亚洲精品视频久久久| 黄色av一区| 国产欧美婷婷中文| 青青草手机在线| 亚洲激情av在线| 另类小说第一页| 欧美三级电影在线| 久久91精品国产91久久久| 亚洲婷婷综合网| 国产盗摄一区二区三区| 亚洲国产日韩欧美| 亚洲三级欧美| 欧美videossexotv100| 国产18无套直看片| 亚洲综合国产激情另类一区| 91精品天堂| 婷婷激情在线| 在线观看国产91| 女尊高h男高潮呻吟| 欧美激情综合| 91热精品视频| 青青青青在线| 日本久久一区二区| 国产艳俗歌舞表演hd| 激情文学一区| 亚洲xxx视频| 国产精品va在线观看视色| 欧美亚洲国产一区二区三区| 国产交换配乱淫视频免费| 欧美涩涩网站| 99国产超薄肉色丝袜交足的后果| 秋霞午夜在线观看| 9191久久久久久久久久久| 国产精品无码无卡无需播放器| 久久三级福利| 欧美不卡1区2区3区| 中文一区一区三区高中清不卡免费| 精品日韩成人av| 久久久久亚洲av无码专区 | 九色在线视频蝌蚪| 狠狠躁天天躁日日躁欧美| 国产麻豆剧传媒精品国产av| 黄色工厂这里只有精品| 99久久自偷自偷国产精品不卡| 怡红院红怡院欧美aⅴ怡春院| 91精品一区二区三区久久久久久| 任你操精品视频| 麻豆高清免费国产一区| 一区二区日本| 久久亚洲精精品中文字幕| 久久久国产一区二区| 99久久夜色精品国产亚洲| 亚洲品质自拍视频| 中文字幕无人区二| 亚洲精品韩国| 欧美极品视频一区二区三区| 欧美日韩成人影院| 中文日韩在线视频| 国产强伦人妻毛片| 一区二区三区加勒比av| 精品人妻伦一二三区久| 国产欧美在线| 亚洲不卡一卡2卡三卡4卡5卡精品| 女生影院久久| 久久久国产精品视频| www.久久久久久| 婷婷激情综合网| x88av在线| 国产麻豆一精品一av一免费| 久久久久久久久久伊人| 丁香一区二区| 国产精品爽爽ⅴa在线观看| 久久久久久国产精品免费无遮挡| 精品少妇一区二区| 天天干天天干天天| 亚洲欧洲精品一区二区精品久久久 | 丝袜 亚洲 另类 欧美 重口| 成人性生交大片免费看中文| 久久久免费视频网站| 日韩毛片视频| 国产一区二区三区黄| 日韩另类视频| 欧美激情xxxx| 成人高潮成人免费观看| 日韩天堂在线观看| 国产又大又粗又爽| 亚洲女人小视频在线观看| 久久久久久久无码| 免费高清成人在线| 自拍日韩亚洲一区在线| 欧美在线电影| 国产亚洲一区二区三区在线播放 | 狠狠人妻久久久久久综合蜜桃| 欧美aaaaa成人免费观看视频| 真人抽搐一进一出视频| 日韩欧美视频专区| 精品国产一区二区三区麻豆小说| 亚洲欧美在线综合| 日本欧美一二三区| 欧美韩日亚洲| 深夜成人在线观看| 天堂在线免费av| 日韩一区二区三区高清免费看看| 草莓视频18免费观看| 亚洲一区二区不卡免费| 精品一区二区三区蜜桃在线| 91最新地址在线播放| 熟妇女人妻丰满少妇中文字幕| 日精品一区二区| 国产一区二区视频播放| 五月精品视频| 亚洲午夜高清视频| 亚洲高清极品| 国产精品区一区| 99久久999| 国产精品一区二区在线| 偷拍精品精品一区二区三区| 久久久久久久一区二区三区| 国产精品久久麻豆| 最近日韩中文字幕中文| 男人天堂资源在线| 日韩av在线网页| 国产综合视频在线| 欧美成人在线直播| 精品免费日产一区一区三区免费| 欧美激情午夜| 在线观看91久久久久久| 撸视在线观看免费视频| 亚洲精品美女久久久| 黑人操亚洲女人| 亚洲大胆美女视频| 空姐吹箫视频大全| 精品99一区二区| 韩国av永久免费| 欧美videofree性高清杂交| a天堂中文在线观看| 8x福利精品第一导航| 一卡二卡三卡在线观看| 欧美日韩欧美一区二区| 亚洲视频中文字幕在线观看| 欧美少妇xxx| 国产又大又长又粗| 69堂精品视频| 国产极品999| 精品国产人成亚洲区| 人妻一区二区三区四区| 亚洲国产精品人人爽夜夜爽| 五月婷婷六月色| 亚洲丝袜在线视频| аⅴ资源新版在线天堂| 色综久久综合桃花网| 国产鲁鲁视频在线观看特色| 欧美黑人巨大xxx极品| 成人爽a毛片免费啪啪动漫| 久久人人97超碰精品888| 牛牛精品一区二区| 日本亚洲精品在线观看| 男人亚洲天堂| 999视频在线免费观看| 久久99精品国产自在现线| 久久久人人爽| 日韩一区二区中文| 成人国产在线看| 亚洲精品韩国| 亚洲色图久久久| 国产一区二区三区免费在线观看| 美女日批在线观看| 91麻豆产精品久久久久久| 色欲狠狠躁天天躁无码中文字幕| 中文字幕一区二区三| 国产一级做a爰片在线看免费| 欧美视频免费在线| 在线免费看av的网站| 日韩精品一区二区三区三区免费| 午夜成人鲁丝片午夜精品| 国产亚洲欧美日韩美女| 中文在线字幕免费观看| 欧美在线性视频| 91丨精品丨国产| 激情久久av| 99热国内精品| 日韩av一二三四区| 九九国产精品视频| 免费成人深夜夜行p站| 国产精品不卡在线观看| 国产精品成人免费一区二区视频| 欧洲日韩一区二区三区| 亚洲免费成人在线| 在线视频欧美日韩精品| 黄色在线观看视频网站| 国产精品久久久久久av下载红粉 | www久久久久久久| 亚洲一区二区三区在线看| 五月天中文字幕| 亚洲精品99999| 超碰porn在线| 国产91热爆ts人妖在线| 日本精品一区二区三区在线观看视频| 欧美一卡2卡3卡4卡无卡免费观看水多多| 91精品推荐| 欧美日韩大尺度| 成人一道本在线| 在线观看黄网址| 91国偷自产一区二区开放时间 | 久久精品久久久久久国产 免费| 黄视频网站在线观看| 亚洲影院色在线观看免费| 国产一区二区三区天码| 激情伊人五月天| 国产91精品免费| 极品久久久久久| 欧美日韩综合一区| 浮生影视网在线观看免费| 97欧美精品一区二区三区| 精品国产亚洲日本| 一区二区三区免费看| 美女日韩在线中文字幕| www.免费av| 亚洲超碰精品一区二区| 国产不卡精品视频| 另类美女黄大片| 亚洲aⅴ网站| 在线一区日本视频| 日本aⅴ免费视频一区二区三区| 好吊一区二区三区视频| 亚洲韩国精品一区| 亚洲欧美国产高清va在线播放| 久久色精品视频| 精品欧美视频| 在线观看17c| 国产精品77777| 日韩黄色免费观看| 欧美一区二区三区色| 国产在线观看a| 亚洲xxxx3d| 韩国在线视频一区| 在线观看欧美一区二区| 亚洲精品v日韩精品| 国产成人精品免费看视频| 久久最新资源网| 999在线精品| 老太脱裤让老头玩ⅹxxxx| 不卡av在线网| 丁香社区五月天| 中文字幕精品国产| 久久久久伊人| 中文字幕日韩一区二区三区不卡| 国产主播一区二区三区| 福利所第一导航| 精品福利一区二区三区| av在线理伦电影| 你懂的视频在线一区二区| 日韩精品国产精品| 久草手机视频在线观看| 日韩午夜激情免费电影| 青春草免费在线视频| 久久久av水蜜桃| 日韩av在线发布| 午夜激情视频在线播放| 日韩免费高清av| 电影网一区二区| 伊人久久大香线蕉精品| 国产精品一二三在| 日韩久久久久久久久| 亚洲欧美福利视频| 欧美一区二区三区婷婷| 天天想你在线观看完整版电影免费| 成人爱爱电影网址| 亚洲大片免费观看| 久久伊人精品一区二区三区| www.豆豆成人网.com| 女人扒开屁股爽桶30分钟| 国产精品国产自产拍在线| 亚洲精品911| 国产成人精品综合久久久| 亚洲国产精品日韩专区av有中文| 中文字幕在线永久| 欧美日韩在线播放一区| 国产盗摄精品一区二区酒店| 人禽交欧美网站免费| 国产精品资源在线| 国产午夜精品久久久久| 粗暴蹂躏中文一区二区三区| 婷婷亚洲精品| 色姑娘综合天天| 在线观看免费视频综合| 国产传媒av在线| 9999在线观看| 久久精品免费在线观看|