精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Mind2Web 2:智能體搜索系統(tǒng)的進化與評估之道

人工智能
在信息大量溢出的時代,智能體搜索系統(tǒng)正以其強大的自主性和智能化能力,重塑我們獲取知識的方式。Mind2Web 2 基準測試的推出,為這一技術(shù)的評估與發(fā)展提供一份參考,讓我們得以窺見智能體搜索系統(tǒng)的無限潛力與挑戰(zhàn)。

大家好,我是肆〇柒,相信使用過AI工具的各位,或多或少都會使用過AI搜索,而傳統(tǒng)網(wǎng)絡(luò)搜索方式正面臨前所未有的挑戰(zhàn)。用戶手動輸入關(guān)鍵詞,從海量搜索結(jié)果中逐一甄別、篩選并整合有用信息,這一過程不僅繁瑣耗時,還對用戶的認知能力提出了極高要求。然而,隨著大型語言模型(LLM)技術(shù)的飛速發(fā)展,智能體搜索系統(tǒng)一經(jīng)推出,就為信息獲取方式帶來了革命性的變革。智能體搜索系統(tǒng)能夠自主瀏覽網(wǎng)頁、分解復(fù)雜查詢、迭代搜索并交互動態(tài)網(wǎng)站,最終整合信息生成帶有引用的綜合答案,極大地減輕了用戶的信息處理負擔(dān)。

例如,在學(xué)術(shù)研究領(lǐng)域,當用戶需要收集某個課題的最新研究進展時,傳統(tǒng)搜索方式要求用戶多次輸入不同關(guān)鍵詞,逐一查看多個搜索結(jié)果頁面,手動整理相關(guān)信息。而智能體搜索系統(tǒng)則可以根據(jù)用戶給出的課題主題,自動分解任務(wù),從多個學(xué)術(shù)網(wǎng)站和數(shù)據(jù)庫中篩選、提取關(guān)鍵信息,如最新論文的標題、摘要、作者及發(fā)表時間等,并將這些信息整合成一份結(jié)構(gòu)清晰、帶有引用鏈接的報告返回給用戶。

當智能體搜索需要進行日常運營或進行產(chǎn)品改進的時候,評估就顯得尤為重要。現(xiàn)有的AI搜索評估基準和方法大多基于短時間跨度任務(wù)和靜態(tài)答案,難以適應(yīng)智能體搜索系統(tǒng)的復(fù)雜性和長期任務(wù)表現(xiàn),這嚴重限制了該領(lǐng)域的技術(shù)發(fā)展和應(yīng)用推廣。由俄亥俄州立大學(xué)和亞馬遜 AGI 共同提出的 Mind2Web 2 基準測試,期望能填補這一評估空白,為智能體搜索系統(tǒng)的開發(fā)、優(yōu)化和公平比較提供嚴謹、全面的基礎(chǔ)。它通過模擬真實世界的復(fù)雜信息獲取任務(wù),對智能體搜索系統(tǒng)進行全面、深入的評估,推動該技術(shù)領(lǐng)域向更高效、可靠的方向發(fā)展。

下圖展示了 Mind2Web 2 基準測試所具有的逼真且多樣化的長期網(wǎng)絡(luò)搜索任務(wù),以及用于評估復(fù)雜、時變且?guī)в幸么鸢傅膭?chuàng)新性 Agent-as-a-Judge 框架。

Mind2Web 2 特點是具有真實且多樣化的長期網(wǎng)絡(luò)搜索任務(wù),并引入了一種新穎的“Agent-as-a-Judge”框架,用于評估復(fù)雜、隨時間變化且有引文支持的答案

智能體搜索系統(tǒng)概述

智能體搜索系統(tǒng)的發(fā)展歷程可大致分為三個階段。最初階段是 LLM 與搜索 API 的簡單結(jié)合,如 MindSearch 嘗試模仿人類思維模式以激發(fā)更精準的 AI 搜索結(jié)果,以及 ChatGPT 和 Perplexity Search 等通過增強搜索能力來提升回答質(zhì)量的系統(tǒng)。這些系統(tǒng)初步實現(xiàn)了 LLM 與網(wǎng)絡(luò)信息的對接,但仍存在一定的局限性,如對動態(tài)網(wǎng)頁的處理能力較弱、搜索過程缺乏靈活性等。

隨后,自主網(wǎng)絡(luò)Agent技術(shù)逐漸興起,部分Agent具備了視覺感知能力,能夠像人類一樣實時瀏覽網(wǎng)頁。OpenAI 的 Operator 經(jīng)過強化學(xué)習(xí)訓(xùn)練,在完成特定任務(wù)方面表現(xiàn)出色。這一階段的技術(shù)突破使得智能體搜索系統(tǒng)能夠更深入地與網(wǎng)絡(luò)環(huán)境交互,獲取以往難以觸及的動態(tài)信息,拓展了應(yīng)用場景。

當前,智能體搜索系統(tǒng)已進化到專門優(yōu)化的 Deep Research 系統(tǒng)階段。以 OpenAI Deep Research 為代表的系統(tǒng)針對長周期瀏覽和復(fù)雜搜索行為進行了深度優(yōu)化。它們能夠處理更長時間跨度的任務(wù),能更有效地整合多源信息,生成更全面、深入的研究報告。例如,在進行行業(yè)市場調(diào)研時,Deep Research 系統(tǒng)可以長時間跟蹤多個市場動態(tài)網(wǎng)站,收集不同時間段的市場數(shù)據(jù)、企業(yè)動態(tài)、消費者反饋等信息,經(jīng)過深度整合和分析后,生成一份詳細的市場調(diào)研報告,為企業(yè)的戰(zhàn)略決策提供有力支持。

Mind2Web 2 基準測試

任務(wù)設(shè)計原則

Mind2Web 2 基準測試的任務(wù)設(shè)計遵循四大關(guān)鍵原則。首先,任務(wù)必須具有現(xiàn)實性,緊密貼合實際用戶需求場景,涵蓋購物、旅行規(guī)劃、學(xué)術(shù)研究等眾多領(lǐng)域,確保評估結(jié)果對現(xiàn)實應(yīng)用具有指導(dǎo)意義。例如,“從某旅游網(wǎng)站上獲取符合特定預(yù)算和時間要求的旅行套餐,并驗證其包含的景點和服務(wù)是否符合要求”這一任務(wù),真實反映了用戶在規(guī)劃旅行時的需求。

其次,任務(wù)需具備長期性和艱巨性,要求智能體進行多步驟搜索、跨多個網(wǎng)站收集信息,耗費大量時間和精力。例如,一個任務(wù)要求智能體收集某產(chǎn)品在過去一年內(nèi)不同時間點的價格波動情況、用戶評價變化以及相關(guān)促銷活動信息,這需要智能體在多個電商網(wǎng)站和消費者評價平臺之間來回切換,長時間跟蹤和整合數(shù)據(jù)。

客觀性和可驗證性也是任務(wù)設(shè)計的重要準則。每個任務(wù)都應(yīng)有明確、客觀的評估標準,答案能夠依據(jù)引用的網(wǎng)頁內(nèi)容進行驗證,避免模糊和主觀的評價標準,確保評估的公正性和準確性。例如,任務(wù)要求智能體獲取某學(xué)術(shù)會議的參會人員名單及所屬機構(gòu)時,答案中的每個參會人員信息都應(yīng)能通過會議官網(wǎng)或其他權(quán)威學(xué)術(shù)平臺的頁面進行驗證。

另外,時間變化性被納入考量,部分任務(wù)的答案會隨時間推移而變化,如產(chǎn)品價格波動、賽事安排更新等,以模擬真實世界中信息的動態(tài)變化,考驗智能體對實時信息的捕捉和處理能力。例如,一個任務(wù)要求智能體實時獲取某體育賽事的最新賽程安排和門票銷售情況,智能體需要能夠處理賽事官網(wǎng)頻繁更新的信息,確保提供的答案是最新的。

任務(wù)示例與類型分布

Mind2Web 2 包含 130 個高質(zhì)量任務(wù),分布在生活方式與休閑、娛樂、科學(xué)與研究、職業(yè)與教育、旅行與交通等多個領(lǐng)域。例如,一個典型任務(wù)是從 IKEA 網(wǎng)站尋找符合特定條件(如預(yù)算范圍、顏色要求等)的家具組合,并確保所有家具均來自該網(wǎng)站且符合指定要求。這些任務(wù)不僅貼近實際生活需求,還能全面評估智能體搜索系統(tǒng)在不同領(lǐng)域的表現(xiàn)。

如下圖所示為 Mind2Web 2 任務(wù)領(lǐng)域分布情況

Mind2Web 2包含130個多樣化的任務(wù),涵蓋6個廣泛領(lǐng)域和24個子領(lǐng)域

具體到任務(wù)類型分布,生活方式與休閑領(lǐng)域占比最高,達到 26%,包含 34 個任務(wù);娛樂領(lǐng)域緊隨其后,占比 22%,特定條件的家具組合。有 28 個任務(wù);科學(xué)與研究領(lǐng)域占比 18%,包含 23 個任務(wù)。其他領(lǐng)域如職業(yè)與教育、旅行與交通等也涵蓋了豐富多樣的任務(wù)類型,確保評估的全面性和廣泛性。

Agent-as-a-Judge 評估框架

核心思想與優(yōu)勢

Agent-as-a-Judge 評估框架是 Mind2Web 2 的核心創(chuàng)新之一。它通過構(gòu)建任務(wù)特定的評判智能體,自動評估智能體搜索系統(tǒng)生成的復(fù)雜、動態(tài)答案,解決了傳統(tǒng)評估方法在面對答案時間變化性和結(jié)構(gòu)復(fù)雜性時的局限。這一框架充分利用了任務(wù)的先驗知識,設(shè)計出能夠精準評估答案正確性和歸屬性的評分規(guī)則,確保評估結(jié)果既全面又準確。

與以往評估方法不同,Agent-as-a-Judge 能夠深入理解每個任務(wù)的核心要求,并將其轉(zhuǎn)化為可操作的評估邏輯。它能判斷答案是否滿足任務(wù)的基本要求,還能細致評估答案中每個陳述是否都能準確歸屬到相應(yīng)的引用來源。這種精準的評估方式為智能體搜索系統(tǒng)的優(yōu)化提供了極具價值的反饋,有助于推動系統(tǒng)性能的持續(xù)提升。

例如,在傳統(tǒng)評估方法中,對于一個要求整合多個來源信息的任務(wù),可能只能判斷最終答案是否正確,但無法準確評估答案中每個信息點的來源是否可靠。而 Agent-as-a-Judge 框架則能逐一驗證每個信息點的歸屬,指出具體問題所在,為系統(tǒng)的改進提供明確方向。

樹狀評分規(guī)則設(shè)計

該框架采用樹狀評分規(guī)則,將評估過程分解為多個層次。葉子節(jié)點代表基本評估標準,如檢查信息準確性、歸屬正確性等。內(nèi)部節(jié)點則負責(zé)按邏輯關(guān)系聚合多個葉子節(jié)點的結(jié)果,形成更高層次的評估結(jié)論。例如,對于一個要求查找特定家具組合的任務(wù),葉子節(jié)點可能包括檢查每件家具的顏色是否符合要求、價格是否在預(yù)算范圍內(nèi)、是否來自指定網(wǎng)站等具體標準。

下圖為樹狀評分規(guī)則示例,更直觀地展示了從任務(wù)目標逐層分解到具體評估準則,以及從底層準則評估結(jié)果逐級匯總得到整體任務(wù)評分的全過程。

樹形結(jié)構(gòu)評分細則示例。自上而下,任務(wù)目標被分解為樹形結(jié)構(gòu);自下而上,葉節(jié)點的二進制評分被匯總為整體任務(wù)評分

在樹狀結(jié)構(gòu)中,不同節(jié)點類型發(fā)揮著關(guān)鍵作用。關(guān)鍵節(jié)點代表基本且核心的評估標準,若關(guān)鍵節(jié)點失敗,可能導(dǎo)致整個任務(wù)評分失敗。非關(guān)鍵節(jié)點則允許部分得分,以體現(xiàn)任務(wù)完成的層次和重點。這種設(shè)計使得評估結(jié)果能夠更精準地反映智能體在任務(wù)中的表現(xiàn),既不會因個別非關(guān)鍵錯誤而完全否定系統(tǒng)的努力,也不會忽略關(guān)鍵錯誤,確保評估的合理性和公平性。

評判智能體的構(gòu)建與驗證

評判智能體的構(gòu)建基于評分規(guī)則,涉及信息提取和驗證兩個核心環(huán)節(jié)。信息提取器利用自然語言處理技術(shù)從答案中精準定位關(guān)鍵信息片段,如通過模式匹配和語義分析提取家具名稱、價格、顏色等關(guān)鍵屬性。驗證器則根據(jù)規(guī)則對比提取信息與引用網(wǎng)頁內(nèi)容,判斷信息是否準確、歸屬是否正確。

為了確保評判智能體的準確性和可靠性,開發(fā)團隊采用了人工標注樣例數(shù)據(jù)與評判智能體輸出進行對比的方式。通過持續(xù)優(yōu)化評估邏輯,評判智能體的評估結(jié)果與預(yù)期標準高度一致。例如,在測試過程中發(fā)現(xiàn)驗證器對某些模糊信息的判斷存在偏差后,開發(fā)團隊調(diào)整了相關(guān)算法參數(shù),提升了評判智能體的準確性,使其能夠更可靠地為智能體搜索系統(tǒng)提供評估服務(wù)。

在構(gòu)建評判智能體時,信息提取器采用了基于 transformer 架構(gòu)的深度學(xué)習(xí)模型,該模型經(jīng)過大量文本數(shù)據(jù)訓(xùn)練,能夠理解自然語言的語義和結(jié)構(gòu),從而準確提取關(guān)鍵信息。驗證器則結(jié)合了網(wǎng)頁內(nèi)容解析技術(shù)和邏輯推理算法,不僅能夠檢查引用鏈接的有效性,還能判斷鏈接內(nèi)容與答案信息是否匹配,確保每個信息點都有準確可靠的來源支持。

實驗與評估

實驗設(shè)置

實驗涵蓋了多種類型的智能體搜索系統(tǒng),包括商業(yè)搜索產(chǎn)品(如 ChatGPT Search、Perplexity Pro Search)、Deep Research 系統(tǒng)(如 OpenAI Deep Research、Grok DeepSearch 等)以及 OpenAI Operator。每個系統(tǒng)都有其獨特的技術(shù)特點和優(yōu)勢。例如,Deep Research 系統(tǒng)通常具備更強的長周期任務(wù)處理和信息整合能力,能夠在面對復(fù)雜任務(wù)時保持較高的性能表現(xiàn);而 OpenAI Operator 則在處理需要視覺交互的任務(wù)上具有一定優(yōu)勢。

評估指標主要包括部分完成率、成功率、Pass@3、平均完成時間和平均答案長度。下表展示了各系統(tǒng)的主評估結(jié)果,包括這些評估指標的具體數(shù)值及標準差,從中可直觀對比不同智能體搜索系統(tǒng)的表現(xiàn)。

主要評估結(jié)果。 其中報告了部分完成得分、完整任務(wù)成功率、Pass@3、平均時間(以分鐘計)、平均回答長度(以單詞計)及其標準差

部分完成率反映系統(tǒng)在任務(wù)部分要求上的達成情況,成功率體現(xiàn)系統(tǒng)完整準確完成任務(wù)的能力,Pass@3 表示至少有一次嘗試成功的任務(wù)比例,平均完成時間和平均答案長度則分別從效率和信息量角度衡量系統(tǒng)表現(xiàn)。這些指標相互補充,共同勾勒出智能體搜索系統(tǒng)在不同維度上的性能圖譜。

主要結(jié)果

不同智能體搜索系統(tǒng)在 Mind2Web 2 基準測試上的表現(xiàn)差異顯著。基于搜索的 LLM 系統(tǒng)如 ChatGPT Search 和 Perplexity Pro Search 因搜索范圍有限、信息整合能力較弱,在復(fù)雜任務(wù)上得分較低。網(wǎng)頁Agent系統(tǒng)如 OpenAI Operator 在處理需要視覺交互的任務(wù)上表現(xiàn)出色,但在涉及長時間信息整合的任務(wù)中略顯不足。Deep Research 系統(tǒng)則在長時間任務(wù)和綜合信息整合方面展現(xiàn)出強大的能力,例如 OpenAI Deep Research 在多個任務(wù)中取得了較高的部分完成率和成功率,證明了其在復(fù)雜信息獲取任務(wù)中的優(yōu)勢。

在時間變化任務(wù)上,Deep Research 系統(tǒng)憑借其采用的實時網(wǎng)頁監(jiān)控算法,能及時捕捉網(wǎng)頁內(nèi)容更新,動態(tài)調(diào)整搜索策略以獲取最新信息。相比其他系統(tǒng),它在處理這類任務(wù)時具有明顯優(yōu)勢。然而,過度依賴實時信息也可能導(dǎo)致其忽略部分穩(wěn)定的背景知識,這是其在時間變化任務(wù)處理中需要進一步優(yōu)化的方向。

下圖以平均部分完成率與平均任務(wù)完成時間的對比,生動展現(xiàn)了不同系統(tǒng)在效率與任務(wù)完成質(zhì)量方面的權(quán)衡關(guān)系。

部分完成率與平均完成任務(wù)時間的對比”或“平均部分完成率與平均任務(wù)完成時間的比較

下圖則清晰呈現(xiàn)了在明確時變?nèi)蝿?wù)上與其它任務(wù)的平均部分完成率對比,凸顯了各智能體搜索系統(tǒng)在應(yīng)對時變?nèi)蝿?wù)時的能力差異。

在明確具有時間變化特征的任務(wù)中,平均部分完成率與其他所有任務(wù)相比

下圖所示為不同智能體搜索系統(tǒng)在常見錯誤類型上的分布情況,通過該圖可深入了解各系統(tǒng)在各類錯誤上的易發(fā)情況,進而明確其性能瓶頸與改進方向。

不同智能體與人類之間的錯誤情況。柱狀圖表示每種錯誤類型在任務(wù)中所占的百分比。其中包含了來自五個智能體搜索系統(tǒng)以及人類的結(jié)果

與人類參與者的表現(xiàn)對比分析顯示,人類在處理復(fù)雜信息獲取任務(wù)時,能夠靈活運用背景知識和批判性思維,對信息進行深度分析和判斷。例如,在評估某學(xué)術(shù)論文的重要性時,人類可以結(jié)合自己對該領(lǐng)域的了解,判斷論文的創(chuàng)新性和影響力,而智能體搜索系統(tǒng)可能僅能基于引用次數(shù)等表面指標進行評估。但人類容易受認知疲勞影響,隨著任務(wù)時間延長,錯誤率可能上升。而智能體搜索系統(tǒng)在穩(wěn)定性、持續(xù)性方面表現(xiàn)更為出色,能長時間穩(wěn)定輸出答案,減少因疲勞導(dǎo)致的錯誤。例如,在一些需要長時間瀏覽和整合大量網(wǎng)頁信息的任務(wù)中,智能體搜索系統(tǒng)能夠保持一致的性能表現(xiàn),而人類可能會因注意力下降而遺漏關(guān)鍵信息或出現(xiàn)判斷失誤。

誤差分析

常見錯誤類型

在智能體搜索系統(tǒng)和人類答案中,共定義了七種常見錯誤類型。信息缺失錯誤包括信息未找到和部分缺失兩種情況。例如,系統(tǒng)可能因搜索策略不完善而未能檢索到關(guān)鍵數(shù)據(jù),或者只提供了部分任務(wù)要求的信息。標準違反錯誤是指答案不符合任務(wù)中的明確限制條件,如提供的商品價格超出預(yù)算范圍、回答內(nèi)容不符合指定格式等。

如下圖所示,在不同智能體搜索系統(tǒng)和人類的答案中,各類錯誤類型分布各異,這些數(shù)據(jù)為我們深入剖析各系統(tǒng)的性能表現(xiàn)提供了有力支撐。

不同智能體與人類之間的錯誤情況。柱狀圖表示每種錯誤類型在任務(wù)中所占的百分比。其中包含了來自五個智能體搜索系統(tǒng)以及人類的結(jié)果

無效歸屬錯誤表現(xiàn)為提供錯誤或虛構(gòu)的引用鏈接,這可能是由于系統(tǒng)在生成引用時未對鏈接的有效性進行充分驗證。缺失歸屬錯誤則是未為必要信息提供來源鏈接,導(dǎo)致信息無法追溯。支持答案錯誤進一步細分為合成錯誤和檢索錯誤。合成錯誤是指從正確網(wǎng)頁提取錯誤信息,如誤解網(wǎng)頁內(nèi)容導(dǎo)致信息扭曲;檢索錯誤則是引用了與任務(wù)無關(guān)的網(wǎng)頁,使得答案缺乏有效支持。

錯誤分布與影響

分析不同智能體搜索系統(tǒng)和人類在錯誤類型上的分布情況,可以發(fā)現(xiàn)各系統(tǒng)性能的瓶頸和改進方向。某些系統(tǒng)因搜索模塊的缺陷,信息缺失錯誤頻發(fā);其他系統(tǒng)可能因歸屬處理模塊不完善,出現(xiàn)大量無效或缺失歸屬錯誤。例如,部分基于搜索的 LLM 系統(tǒng)由于缺乏對網(wǎng)頁內(nèi)容的深度理解和有效的引用管理機制,在合成答案時容易出現(xiàn)信息缺失和歸屬錯誤;而一些網(wǎng)頁Agent系統(tǒng)可能因視覺交互過程中的不穩(wěn)定因素,導(dǎo)致在信息提取和歸屬處理上出現(xiàn)偏差。

討論與啟示

智能體搜索系統(tǒng)的潛力與局限

智能體搜索系統(tǒng)展現(xiàn)出了巨大的潛力。它能夠顯著減輕用戶在信息獲取過程中的認知負擔(dān),尤其適用于大規(guī)模數(shù)據(jù)搜索和精細信息提取任務(wù)。例如,在學(xué)術(shù)研究領(lǐng)域,智能體搜索系統(tǒng)可以幫助研究人員快速收集和整合大量文獻資料,提高研究效率;在商業(yè)領(lǐng)域,它能夠為企業(yè)決策提供及時、準確的市場情報支持。

然而,當前智能體搜索系統(tǒng)仍面臨一些挑戰(zhàn)。在處理時間變化任務(wù)時,部分系統(tǒng)可能因動態(tài)網(wǎng)頁更新監(jiān)測的延遲而無法及時獲取最新信息;在實時信息交互方面,某些系統(tǒng)對交互指令的執(zhí)行精度不足,導(dǎo)致信息提取不完整或不準確。此外,現(xiàn)有模型在長距離推理和規(guī)劃能力上也存在一定局限,面對多步驟復(fù)雜任務(wù)時,可能出現(xiàn)規(guī)劃不合理、推理不準確的問題,影響最終答案的質(zhì)量。

未來發(fā)展方向

智能體搜索系統(tǒng)的進一步發(fā)展,首先需要加強實時網(wǎng)頁瀏覽和交互能力。開發(fā)更高效的網(wǎng)頁動態(tài)監(jiān)測算法,能夠?qū)崟r捕捉網(wǎng)頁內(nèi)容的細微變化,確保信息的時效性;同時優(yōu)化交互指令的執(zhí)行精度,提升系統(tǒng)在復(fù)雜網(wǎng)頁環(huán)境中的操作能力。

優(yōu)化長距離推理和規(guī)劃是關(guān)鍵。借鑒人類認知模型,改進智能體的規(guī)劃策略,使其能夠更好地處理多步驟復(fù)雜任務(wù),從整體上把握任務(wù)目標,合理安排搜索路徑和信息整合方式。

提高答案合成的準確性至關(guān)重要。引入更先進的自然語言處理技術(shù),確保信息整合的完整性和正確性,使答案內(nèi)容豐富,而且邏輯嚴密、表達清晰。

實操性建議

對于希望利用 Mind2Web 2 基準測試來評估和優(yōu)化智能體搜索系統(tǒng),以下是一些具體建議:

1. 任務(wù)設(shè)計 :根據(jù) Mind2Web 2 的任務(wù)設(shè)計原則,結(jié)合自身需求設(shè)計評估任務(wù)。確保任務(wù)具有現(xiàn)實性、長期性、艱巨性、客觀性和可驗證性。例如,如果要評估智能體搜索系統(tǒng)在金融領(lǐng)域的信息獲取能力,可以設(shè)計一個任務(wù),要求系統(tǒng)收集某只股票在過去一年內(nèi)的價格走勢、重大新聞事件、公司財務(wù)報告關(guān)鍵數(shù)據(jù)等信息,并整合成一份投資分析報告。

2. 評估指標選擇 :參考 Mind2Web 2 的評估指標體系,選擇適合自己的評估指標。除了部分完成率、成功率等常見指標外,還可以根據(jù)任務(wù)特點增加一些特定指標,如答案的深度(信息的詳細程度)、廣度(覆蓋的方面)等。

3. 利用 Agent-as-a-Judge 框架 :學(xué)習(xí) Mind2Web 2 中 Agent-as-a-Judge 框架的構(gòu)建方法,開發(fā)自己的評判智能體。在構(gòu)建過程中,注重信息提取和驗證環(huán)節(jié)的優(yōu)化,提高評判智能體的準確性。例如,在信息提取環(huán)節(jié),可以嘗試使用不同的自然語言處理模型,看看哪種模型在提取特定類型信息時效果最好;在驗證環(huán)節(jié),可以結(jié)合多種驗證方法,如基于網(wǎng)頁內(nèi)容的驗證、基于邏輯推理的驗證等,提高驗證結(jié)果的可靠性。

4. 根據(jù)評估結(jié)果優(yōu)化智能體搜索系統(tǒng) :在獲得評估結(jié)果后,深入分析系統(tǒng)的優(yōu)勢和不足。針對存在的問題,采取相應(yīng)的優(yōu)化措施。如果系統(tǒng)在時間變化任務(wù)上表現(xiàn)不佳,可以優(yōu)化網(wǎng)頁更新監(jiān)測模塊,提高對動態(tài)信息的捕捉能力;如果答案合成存在錯誤,可以改進信息整合算法,加強答案的邏輯性和連貫性。

下圖展示的 GUI 工具截圖,能夠直觀呈現(xiàn)智能體答案、預(yù)緩存網(wǎng)頁、評分規(guī)則以及評判智能體評估結(jié)果,借助此類工具可更高效地進行評估與分析工作。

一個用于可視化代理回答、預(yù)緩存網(wǎng)頁、評分標準以及評判代理評估結(jié)果的圖形用戶界面工具的截圖

人類與智能體搜索系統(tǒng)的協(xié)同工作

在與人類參與者的表現(xiàn)對比分析中,進一步探討人類如何與智能體搜索系統(tǒng)協(xié)同工作。在復(fù)雜信息獲取任務(wù)中,人類可以先利用智能體搜索系統(tǒng)提供的初步答案進行快速了解和初步判斷,然后發(fā)揮自己的批判性思維和背景知識優(yōu)勢,對答案進行深入分析和驗證。例如,在進行商業(yè)決策時,智能體搜索系統(tǒng)可以快速收集市場數(shù)據(jù)、競爭對手信息等,為決策者提供基礎(chǔ)數(shù)據(jù)支持;決策者則可以結(jié)合自己對市場的理解和經(jīng)驗,對這些數(shù)據(jù)進行深入解讀,識別潛在的機會和風(fēng)險,從而做出更明智的決策。

同時,人類還可以通過與智能體搜索系統(tǒng)的交互,幫助系統(tǒng)更好地理解任務(wù)需求和優(yōu)化搜索策略。例如,當智能體搜索系統(tǒng)對某個任務(wù)的語義理解存在偏差時,用戶可以通過反饋機制糾正系統(tǒng)的理解,引導(dǎo)系統(tǒng)更準確地獲取所需信息。這種人機協(xié)作模式可以充分發(fā)揮人類和智能體搜索系統(tǒng)各自的優(yōu)勢,提高整體的信息獲取效率和質(zhì)量。

總結(jié)

Mind2Web 2 基準測試及 Agent-as-a-Judge 評估框架為智能體搜索系統(tǒng)的評估與發(fā)展開辟了新路徑。它們搭建起量化評估的標尺,讓不同系統(tǒng)性能可比,為技術(shù)優(yōu)化錨定方向。Mind2Web 2 以真實復(fù)雜的任務(wù)為藍本,全面透視智能體搜索系統(tǒng)的能耐與短板。

這份研究其實還有一個意義就是給我們一個對AI系統(tǒng)的評估示范。它為我們在面對復(fù)雜的 AI 系統(tǒng)評估時,提供了一種科學(xué)、嚴謹且具有可操作性的范例。傳統(tǒng)的 AI 系統(tǒng)評估往往側(cè)重于單一維度的性能指標,如準確率、召回率等,而 Mind2Web 2 及其評估框架則展現(xiàn)了多維度、綜合性評估的范式。從任務(wù)設(shè)計層面,它依據(jù)現(xiàn)實性、長期性、艱巨性、客觀性和可驗證性等原則精心構(gòu)建任務(wù),確保評估場景貼近實際應(yīng)用,評估結(jié)果具備現(xiàn)實指導(dǎo)價值。這種任務(wù)設(shè)計思路啟示我們在評估 AI 系統(tǒng)時,不能僅著眼于實驗評測環(huán)境下的理想條件,而應(yīng)讓評估任務(wù)盡可能模擬真實世界中的復(fù)雜情境,這樣才能精準衡量 AI 系統(tǒng)在實際部署中可能遇到的挑戰(zhàn)。

在評估指標方面,Mind2Web 2 綜合考量了部分完成率、成功率、Pass@3、平均完成時間和平均答案長度等多元指標,全面展現(xiàn)了智能體搜索系統(tǒng)在任務(wù)完成度、效率以及答案質(zhì)量等各方面的表現(xiàn)。這不同于以往單純追求某一指標最大化的評估方式,而是更注重對系統(tǒng)綜合性能的刻畫,有利于我們更全面地了解 AI 系統(tǒng)的能力邊界。同時,其創(chuàng)新性的 Agent-as-a-Judge 評估框架,運用樹狀評分規(guī)則對復(fù)雜答案進行逐層分解評估,為處理長周期、復(fù)雜任務(wù)的 AI 系統(tǒng)評估提供了全新的視角和方法。這一框架不僅能夠精準判斷答案的正確性,還能細致分析答案中每個信息點的來源可靠性,為 AI 系統(tǒng)的優(yōu)化升級指明了具體方向,讓我們在評估過程中既能把握整體性能,又能深入剖析細節(jié)問題,為 AI 系統(tǒng)的持續(xù)改進提供了有力支撐。

了解了 Mind2Web 2 與智能體搜索系統(tǒng)后,LLM 在信息獲取領(lǐng)域的效率還是令人興奮的。智能體搜索系統(tǒng)憑自主智能,正重塑知識獲取途徑。從早期簡單搜索 API,到如今能攻克長周期復(fù)雜任務(wù)的 Deep Research 系統(tǒng),這種技術(shù)躍遷是革命性的。但挑戰(zhàn)猶存,時間變化任務(wù)處理、實時信息交互能力提升等難題待解。

Mind2Web 2 評估展現(xiàn)不同智能體搜索系統(tǒng)優(yōu)劣,人機對比鮮明。技術(shù)進步不能只盯著效率提升,還需在復(fù)雜性、準確性、可靠性上協(xié)同精進。誤差分析披露的常見錯誤及分布,為系統(tǒng)優(yōu)化點明關(guān)鍵。

責(zé)任編輯:龐桂玉 來源: 覺察流
相關(guān)推薦

2025-06-16 01:00:00

智能體AlphaEvolvAI

2025-05-23 03:00:00

2025-04-16 00:00:00

谷歌MCP人工智能

2025-05-26 09:49:59

多模態(tài)智能體RAG

2025-08-13 09:13:00

2024-06-13 09:20:26

2024-07-23 14:10:48

2025-10-09 09:09:55

2025-09-04 01:35:00

AI工作流智能體

2011-02-15 09:07:36

2024-10-18 15:20:00

2025-07-15 04:00:00

AI智能體人工智能

2025-07-17 08:14:22

2024-11-08 09:20:00

2015-09-15 10:54:54

HTTP2 WEB 性能優(yōu)化

2015-09-15 10:40:26

HTTP2 WEB 性能優(yōu)化

2015-09-15 10:46:29

2025-07-31 02:00:00

智能體Agent人工超級智能

2025-06-25 01:00:00

智能體蒸餾AI

2025-09-01 09:13:54

點贊
收藏

51CTO技術(shù)棧公眾號

亚洲xxxxxx| 真实的国产乱xxxx在线91| 999久久久精品一区二区| 香港成人在线视频| 亚洲欧洲在线一区| 亚洲欧美激情国产综合久久久| 亚洲激情网站| 国产亚洲视频在线| 丰满少妇中文字幕| 三级成人在线| 亚洲综合丝袜美腿| 女同一区二区| 午夜精品无码一区二区三区| 久久综合影音| 欧美激情精品久久久久久变态 | 国产成人无码av| 91精品啪在线观看国产81旧版| 日韩成人在线播放| 国产黄色一区二区三区| 久久野战av| 亚洲成a人片在线不卡一二三区| 特级西西444www大精品视频| 日本精品久久久久| 国产一区二区网址| 国产精品白嫩美女在线观看| 中日韩精品视频在线观看| 五月激情综合| 在线日韩日本国产亚洲| 亚洲av无码一区二区三区观看 | 欧美一区二区免费| 日本成人中文字幕在线| 日本黄色免费在线| 午夜精品免费在线观看| 久久最新免费视频| 日本三级视频在线播放| 国产亚洲一区二区在线观看| 国产精品二区二区三区| 国产喷水吹潮视频www| 蜜桃传媒麻豆第一区在线观看| 51ⅴ精品国产91久久久久久| 精品一区二区三区四| 在线成人直播| 久久av在线播放| 国产盗摄一区二区三区在线| 无码一区二区三区视频| www亚洲欧美| 午夜激情福利电影| 99视频精品全部免费在线视频| 亚洲图片欧美午夜| 亚洲精品一区二区三区影院忠贞| 亚洲精品中文字幕99999| 亚洲成人激情图| 人妻激情偷乱频一区二区三区| 涩爱av色老久久精品偷偷鲁 | 日韩视频免费观看高清| 午夜激情久久| 久久综合免费视频| √天堂中文官网8在线| 伊人久久大香线| 欧美猛男性生活免费| 青青操视频在线播放| 综合激情一区| 午夜精品蜜臀一区二区三区免费| 日韩三级小视频| 久久亚洲美女| 国产精品亚洲一区二区三区| 在线播放亚洲精品| 国内外成人在线| 91丝袜脚交足在线播放| 五月天婷婷激情网| 久久久久久毛片| 亚洲免费久久| 污视频在线看网站| 午夜一区二区三区在线观看| 每日在线更新av| 国产69精品久久| 欧美一区二区女人| 国产精品无码毛片| 日韩精品免费| 欧美激情第三页| 色老头一区二区| 国产一区在线精品| 国产综合第一页| gogogo高清在线观看免费完整版| 亚洲日本一区二区| 一二三四视频社区在线| 欧美日韩不卡| 欧美大片拔萝卜| 欧洲美一区二区三区亚洲| 久久久久免费av| 性金发美女69hd大尺寸| 精品无码一区二区三区的天堂| 精品一区二区在线视频| 国产伦精品一区二区三区视频黑人 | 丁香另类激情小说| 日韩欧美亚洲日产国| 在线观看中文字幕的网站| 欧美日韩在线视频观看| 欧美大片久久久| 欧美日韩一区二区三区四区不卡| 日韩在线免费视频观看| 精品91久久久| 国产在线视视频有精品| 欧美高清一区二区| 最新超碰在线| 在线观看成人小视频| 久久精品aⅴ无码中文字字幕重口| 国产一区二区三区探花| 欧美激情三级免费| 一级做a爰片久久毛片16| 99麻豆久久久国产精品免费优播| 亚洲午夜精品一区二区| 成人爽a毛片免费啪啪| 欧美大片国产精品| 亚洲色偷偷综合亚洲av伊人| 亚洲综合欧美| 国产成人一区二区三区免费看| 91成人高清| 欧美性xxxx极品hd满灌| 2018国产精品| 中文字幕乱码亚洲无线精品一区| 国产精品成人av性教育| 日本一区视频| 精品久久久久久久久久久久久久| 三日本三级少妇三级99| 久久一区91| 国产精品精品一区二区三区午夜版 | 成年人晚上看的视频| 99久久精品免费看国产| 黄色片免费在线观看视频| 日日夜夜综合| 中文字幕亚洲一区在线观看| 青青视频在线免费观看| 91一区一区三区| 精品无码国产一区二区三区av| 国产高清亚洲| 久久久国产91| 国产又粗又猛又爽又黄的视频一| 国产精品美女一区二区三区 | 成人在线视频观看| 亚洲日本aⅴ片在线观看香蕉| 国产香蕉视频在线| 99久久久精品免费观看国产蜜| 男人添女人下部视频免费| 久久久久久久久成人| 大量国产精品视频| 亚洲成人av综合| 亚洲激情五月婷婷| 可以看的av网址| 欧美日韩国产欧| 国产传媒一区| 日本在线啊啊| 亚洲午夜未删减在线观看| 国产成人自拍偷拍| 国产精品美女久久久久aⅴ | 精品国产麻豆| 欧美美最猛性xxxxxx| 俄罗斯嫩小性bbwbbw| 亚洲二区在线视频| 青青草成人免费视频| 免费久久99精品国产自在现线| 欧美精品一区在线发布| 色天使综合视频| 久久精品免费播放| 亚洲av无码乱码国产精品| 亚洲国产日韩一级| 真人bbbbbbbbb毛片| 日本在线播放一区二区三区| 中文字幕欧美人与畜| 日韩最新av| 欧美亚洲成人xxx| 成人网视频在线观看| 91精品国产黑色紧身裤美女| 久久久久亚洲AV| 久久只精品国产| 日韩成人精品视频在线观看| 国模一区二区三区| 欧美一区二区三区精美影视| 欧美爱爱视频| 久久久久久国产精品三级玉女聊斋 | 高清av一区| 欧美另类高清videos| 三级视频在线| 91精品国产色综合久久不卡蜜臀 | 国产精品自拍首页| 日本欧美不卡| 欧美放荡办公室videos4k| 青青久在线视频| 91麻豆精品国产| 青草视频在线观看免费| 一区视频在线播放| 国产精品无码电影| 精品一区二区日韩| 国产超级av在线| 午夜免费一区| 青青草原成人| 懂色av一区二区| 国产精品中文字幕久久久| 电影k8一区二区三区久久| 国产午夜精品一区二区三区 | 伊人亚洲精品| 日本一欧美一欧美一亚洲视频| 黄a在线观看| 亚洲男人的天堂在线| www久久久com| 欧美日韩一级片网站| 国产香蕉视频在线| 亚洲综合无码一区二区| 蜜桃视频最新网址| 久久久久国产精品厨房| 无码人妻一区二区三区在线| 美腿丝袜亚洲综合| 东京热加勒比无码少妇| 国产精品s色| 亚洲永久一区二区三区在线| 亚洲福利网站| 精品国产一区二区三| 精品国产亚洲一区二区在线观看 | 免费午夜视频在线观看| 亚洲一本视频| www.99riav| 91精品高清| 伊人久久青草| 日韩毛片视频| 丝袜足脚交91精品| 国产成人1区| 久久综合九色综合网站| 久久国产精品色av免费看| 不卡视频一区二区三区| 精品一级视频| 亚洲综合在线做性| 国产精品一区二区精品| 成人免费视频在线观看超级碰| 亚洲综合av一区二区三区| 日韩av男人的天堂| 亚洲人体影院| 日本久久精品视频| 涩涩涩视频在线观看| 4438全国成人免费| 黑人巨大精品| 国产成人精品a视频一区www| 小h片在线观看| 欧美在线视频观看| 成人免费看视频网站| 日本在线精品视频| 深夜视频一区二区| 91精品美女在线| **精品中文字幕一区二区三区| 国产主播喷水一区二区| 91精品一区| 成人精品水蜜桃| 99久久免费精品国产72精品九九 | 国产精品久久久av| 国产成人免费| 亚洲综合精品伊人久久| 大香伊人久久精品一区二区| 极品尤物一区二区三区| 免费成人高清在线视频theav| 免费一区二区三区| av资源久久| 欧美一级免费在线观看| 午夜激情一区| 1024av视频| 日韩成人伦理电影在线观看| 超碰人人草人人| 丰满放荡岳乱妇91ww| 黄色污在线观看| 国产亚洲精品久| 欧美视频www| 亚洲va中文字幕| japanese国产在线观看| 91麻豆精品91久久久久久清纯| 亚洲男女视频在线观看| 精品网站999www| 免费**毛片在线| 97国产一区二区精品久久呦| 欧洲精品一区二区三区| 亚洲一区二区三区成人在线视频精品| 成人高潮视频| 日韩免费av电影| 欧美日韩18| www.xxx亚洲| 国产99精品国产| 免费看黄色av| 亚洲一区二区影院| 中文字幕精品无码亚| 精品少妇一区二区三区免费观看| 色视频在线看| 九九视频这里只有精品| 欧美一区国产| av免费精品一区二区三区| 国产综合久久久| www.avtt| 毛片av一区二区三区| 国产精品久久久久久亚洲色| 中文字幕巨乱亚洲| 国产手机在线视频| 91精品国产欧美一区二区| 男女av在线| 欧美高清自拍一区| 激情小说亚洲| 欧美大香线蕉线伊人久久| 中文字幕一区二区三三| 免费激情视频在线观看| 不卡一区中文字幕| 午夜爱爱毛片xxxx视频免费看| 日韩欧美主播在线| www.xxxx国产| 日韩亚洲精品视频| 成人视屏在线观看| 欧美韩国日本精品一区二区三区| 欧美1区免费| 中文字幕22页| 中文字幕第一页久久| 亚洲 欧美 日韩 综合| 欧美成人激情免费网| 国产鲁鲁视频在线观看特色| 国产精品第一区| 亚洲婷婷丁香| 奇米精品一区二区三区| 成人午夜激情片| 九九热精品在线观看| 91麻豆精品国产91久久久资源速度 | 深夜日韩欧美| 少妇免费毛片久久久久久久久| 在线一区免费观看| 中文字幕一区二区人妻电影丶| 一区二区在线观看视频 | 国产乱码精品1区2区3区| 国产精品理论在线| 在线国产电影不卡| 撸视在线观看免费视频| 欧洲精品久久久| 日韩av中文字幕一区| 成年人午夜视频在线观看| 成人免费观看男女羞羞视频| 久久国产精品二区| 欧美zozo另类异族| 6699嫩草久久久精品影院| 国产91亚洲精品一区二区三区| 欧美成人一品| 麻豆免费在线观看视频| 一区二区三区四区中文字幕| 国产av无码专区亚洲av麻豆| 欧美成人免费播放| 亚洲图色一区二区三区| 日本五级黄色片| 成人黄色小视频在线观看| 久久草视频在线| 亚洲精品在线不卡| 欧美成人精品三级网站| 亚洲第一综合| 国产一区日韩二区欧美三区| 亚洲国产成人精品综合99| 精品国产髙清在线看国产毛片| 美女精品导航| 久久久亚洲综合网站| 日日嗨av一区二区三区四区| 精品一区二区三区蜜桃在线| 欧美三级一区二区| 操你啦视频在线| 国产精品区一区| 欧美一级二区| 在线免费看av网站| 精品国一区二区三区| 伊人网在线播放| 亚洲精品永久www嫩草| 国产在线一区观看| 国产视频91在线| 在线观看日韩专区| 欧美h版在线观看| 免费观看国产精品视频| 欧美激情综合在线| 国产三级三级在线观看| 91精品国产91久久| 北条麻妃国产九九九精品小说| √天堂资源在线| 精品久久久免费| 免费av在线| 精品久久蜜桃| 理论片日本一区| 奇米影视第四色777| 色爱av美腿丝袜综合粉嫩av | 精品一区二区三区蜜桃| 日本一区二区三区四区五区| 中文字幕少妇一区二区三区| av毛片精品| 欧美三级午夜理伦三级富婆| 亚洲自拍偷拍欧美| seseavlu视频在线| 99国产高清| 久久精品国产精品亚洲红杏| 中国一级特黄毛片| 久久艹在线视频| 国产影视精品一区二区三区| 美女被艹视频网站| 欧美三级电影网站| 午夜久久中文| 粉嫩av一区二区三区天美传媒 | 免费看日韩毛片|