精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI Agent落地必讀:深度解讀OpenAI 姚順雨 的T-bench,如何評測智能體的“真功夫”

發布于 2025-10-20 07:55
瀏覽
0收藏

大家好,我是HxShine,今天繼續來分享OpenAI 姚順雨 的一篇文章,這篇文章探討了Agent實際落地時該如何評測,他在the second half里面也提了這篇文章,是Agent真正落地到客服等領域必須要進行的一些評測工作,推薦給大家~

論文名字是Title: T-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains(T-bench:一個用于真實世界領域中工具-智能體-用戶交互的基準測試)。

現有基準大多不測試智能體與人類用戶的動態交互能力,也忽略了其遵循特定領域規則的能力,而這兩點對于智能體在真實世界中的應用至關重要。T-bench 通過模擬用戶與語言智能體之間的動態對話來解決這些問題。在這個環境中,智能體需要使用領域特定的API工具和遵循政策指南來完成任務。該方法的核心亮點包括:

1.高仿真交互:利用大型語言模型(LLM)來模擬真實人類用戶,使得對話流程更加動態和真實,能夠有效測試智能體的應變和信息收集能力。

2.強調規則遵循:智能體必須根據提供的“領域政策”文件來行動,這直接考驗了模型在復雜約束下的推理和決策能力

3.客觀且高效的評估:通過比較任務結束時數據庫的最終狀態與預設的“目標狀態”,實現對智能體決策能力的客觀評估,避免了主觀判斷。

4.全新的可靠性度量:提出了一個新的度量標準 ??pass^k??,用于評估智能體在多次獨立試驗中持續成功完成同一任務的可靠性,這對于衡量商業應用的穩定性至關重要。

實驗結果表明,即便是像GPT-4o這樣的頂尖模型,在T-bench上的任務成功率也不足50%,并且在多次測試中表現出顯著的不一致性,這揭示了當前智能體技術在可靠性和規則遵循方面仍有巨大的提升空間。

一、概述

?Title: T-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains

?URL:?? https://arxiv.org/abs/2406.12045??

?Authors: Shunyu Yao, Noah Shinn, Pedram Razavi, Karthik Narasimhan

?Institution: Sierra

?Code:?? https://github.com/sierra-research/tau-bench??

1.Motivation

?現有基準過于簡單,脫離實際(缺乏環境交互,人類多輪交互):當前的語言智能體基準大多是簡化的指令遵循任務,智能體在獲得所有信息后自主與環境交互,缺乏與人類用戶的動態、多輪互動。

?現有基準與真實世界應用不太match:在現實世界(如客服、預訂系統)中,智能體必須能夠(1)通過與用戶的持續對話逐步收集信息;(2)嚴格遵守復雜的領域特定政策和規則;(3)在大量交互中保持行為的一致性和可靠性。現有基準未能有效評估這些能力。

?現有評測方法缺乏對智能體可靠性的衡量:一次性的成功并不意味著智能體可以被可靠地部署。需要有方法來評估智能體在面對對話中的微小變化時,是否能穩定地達成相同的結果

2.Methods

T-bench 的核心思想是創建一個模塊化的評估框架,該框架包含三大核心組件:一個由LLM驅動的用戶模擬器,一套領域特定的API工具和數據庫,以及一份智能體必須遵守的領域政策文檔。智能體的任務是在這個環境中,通過與模擬用戶的對話和調用API工具,最終達成用戶的目標,同時確保所有操作都符合政策規定。評估過程是自動化的,通過檢查任務結束時數據庫的狀態是否與標準答案一致來判定成功與否。

AI Agent落地必讀:深度解讀OpenAI 姚順雨 的T-bench,如何評測智能體的“真功夫”-AI.x社區

?航空領域軌跡示例說明: 右側圖展示了一個具體的交互案例。用戶想要“更改航班”,智能體首先調用??get_reservation_details?? 工具查詢后發現,該機票是“basic_economy”(基礎經濟艙),根據政策無法更改。于是,智能體向用戶解釋了這一點,并提出了一個符合政策的替代方案:“因為還在24小時內,我可以為您取消并重新預訂”。這個例子生動地說明了T-bench如何測試智能體在與用戶交互中理解并應用復雜規則的能力。

Q1: 用戶模擬器是什么意思,是會主動模擬用戶提問,來測試agent的能力和效果嗎?他的魯棒性,穩定性如何?

答:是的,用戶模擬器會主動來請求agent,所以會有一定的波動。

Q2: 待評測的Agent平臺能看到instruction指令嗎?

答:不能,instruction讓user模擬器按照指令來模擬提問,從而測試agent的能力。

AI Agent落地必讀:深度解讀OpenAI 姚順雨 的T-bench,如何評測智能體的“真功夫”-AI.x社區

詳細方法和步驟:

1.模塊化環境構建:T-bench 的每個領域(如論文中實現的 ??τ-retail??? 零售和 ??τ-airline?? 航空)都由三個部分構成:

?數據庫和API:使用JSON格式構建貼近真實世界的數據庫(如用戶、產品、訂單),并提供Python實現的API工具供智能體進行讀寫操作。

?領域政策:一份Markdown格式的文檔,詳細說明了智能體在該領域內必須遵守的規則(例如,某種類型的機票不能改簽,退貨需要用戶確認等)。這份文檔會作為系統提示(System Prompt)的一部分輸入給智能體。

?用戶模擬器:使用一個大型語言模型(如GPT-4)來扮演用戶。該模擬器根據一個隱藏的、預設的任務指令(包含用戶身份、意圖和偏好)與智能體進行自然的對話。由于語言模型的生成具有隨機性,即使任務指令完全相同,每次對話的過程也可能不同,這為測試智能體的魯棒性提供了基礎。

2.任務實例設計:每個任務實例都包含一個給用戶模擬器的指令和一份“標準答案”。這個指令被精心設計,以確保在遵守領域政策的前提下,只有一個唯一正確的最終數據庫狀態。這使得評估可以客觀進行。

3.評估機制

?獎勵計算:一個任務是否成功,取決于兩個條件:(1)最終的數據庫狀態是否與標準答案完全一致;(2)智能體在對話中是否向用戶提供了所有必要的信息。

?pass^k 可靠性度量:為了衡量智能體的一致性,論文提出了??pass^k??? 指標。它定義為“在對同一個任務進行 k 次獨立的隨機試驗后,所有 k 次試驗全部成功的概率”。這與傳統的??pass@k???(k次試驗中至少有1次成功)不同,??pass^k?? 更能反映智能體在實際部署中的可靠程度。

4.基準構建流程:作者們采用了一個三階段流程來創建T-bench的數據和任務:

?階段一:手動設計:手動設計數據庫結構、API功能和領域政策,確保邏輯自洽且具有一定的真實性。

AI Agent落地必讀:深度解讀OpenAI 姚順雨 的T-bench,如何評測智能體的“真功夫”-AI.x社區

?階段二:自動數據生成:利用LLM輔助生成大量的數據庫條目(如用戶信息、航班數據等),再進行少量人工修正。

AI Agent落地必讀:深度解讀OpenAI 姚順雨 的T-bench,如何評測智能體的“真功夫”-AI.x社區

?階段三:手動任務標注與驗證:手動編寫初始的用戶指令,然后通過GPT-4智能體進行試運行,反復迭代和修正指令,直到確保任務解的唯一性,最終形成高質量的測試任務。

通過這個框架,T-bench能夠在一個動態、受控且可重復的環境中,對智能體的對話能力、工具使用、規則遵循和行為一致性進行全面的評估。

3.Conclusion

?頂尖模型仍有巨大差距:即使是當前最先進的GPT-4o模型,在T-bench上也表現不佳,零售領域的成功率約為61%,而在規則更復雜的航空領域成功率僅為35.2%。這表明在復雜的真實場景中,當前模型的能力還遠遠不夠。

AI Agent落地必讀:深度解讀OpenAI 姚順雨 的T-bench,如何評測智能體的“真功夫”-AI.x社區

?智能體行為缺乏一致性:??pass^k??? 指標的測試結果顯示,隨著測試次數 k 的增加,智能體持續成功的概率急劇下降。例如,在零售領域,GPT-4o的單次成功率超過60%,但連續成功8次的概率??pass^8?? 下降到不足25%。這說明模型在處理對話中的細微變化時非常脆弱。

?失敗的主要原因被識別:通過對失敗案例的分析,論文指出了當前智能體失敗的三個主要原因:(1.)復雜的數據庫推理失敗(如提供了錯誤的參數或信息);(2.)錯誤的決策(未能理解或遵循領域規則);(3.)未能完整解決復合請求(用戶提出多個需求時,只解決了部分)。

AI Agent落地必讀:深度解讀OpenAI 姚順雨 的T-bench,如何評測智能體的“真功夫”-AI.x社區

4.Limitation

?用戶模擬器的局限性:由LLM模擬的用戶雖然動態,但仍有其局限性。例如,模擬器可能無法完全理解領域知識,或者其自身的推理和記憶能力有限,這與真實用戶的多樣性和復雜性仍有差距。

?任務創建中的潛在偏見:由于在任務創建過程中使用了GPT-4智能體來迭代和驗證用戶指令,這可能會無形中引入偏向于GPT-4模型“思維方式”的偏見。

?評估指標的局限性:雖然基于數據庫狀態的評估是客觀的,但它可能無法捕捉到交互質量的所有方面(例如,智能體的禮貌程度、解釋清晰度等)。一個任務成功(reward=1)是智能體表現良好的必要條件,但可能不是充分條件。

三、總結

AI Agent落地必讀:深度解讀OpenAI 姚順雨 的T-bench,如何評測智能體的“真功夫”-AI.x社區

本文轉載自??NLP PaperWeekly??,作者:NLP PaperWeekly

已于2025-10-20 07:55:42修改
收藏
回復
舉報
回復
相關推薦
日韩免费不卡视频| 国产一级不卡毛片| 婷婷亚洲一区二区三区| 久久久天天操| www.色综合| 在线精品视频播放| 日韩一区二区三区免费视频| 一区二区高清视频在线观看| 欧美日韩视频在线一区二区观看视频| 亚洲中文一区二区| 国产一区亚洲| 色婷婷成人综合| 亚洲一区二区三区四区五区六区| av在线不卡精品| 亚洲国产aⅴ成人精品无吗| 色狠狠久久av五月综合|| 亚洲国产精品久久久久久6q| 秋霞电影一区二区| 久久久中文字幕| 国产精品成人69xxx免费视频| 福利片在线一区二区| 欧美日韩三级视频| 男人揉女人奶房视频60分 | 欧美三级网站在线观看| 好吊视频一区二区三区四区| 自拍偷拍亚洲在线| 五级黄高潮片90分钟视频| 国产欧美88| 欧美日韩高清在线播放| 免费高清在线观看免费| 丰满诱人av在线播放| 亚洲欧美在线视频观看| 色噜噜狠狠色综合网| 日韩在线免费看| 成人白浆超碰人人人人| 999在线观看免费大全电视剧| 中文字幕av网站| 久久av最新网址| 91禁外国网站| 日本五十路女优| 国自产拍偷拍福利精品免费一| 日韩综合中文字幕| 亚洲一二三四视频| 波多野结衣在线观看一区二区| 国产视频在线一区二区| 最近中文字幕无免费| 国产区精品视频在线观看豆花| 欧美一区二区久久| 久久久久久久久久一区二区| 91成人抖音| 精品视频免费在线| 超碰av在线免费观看| 日本综合字幕| 色婷婷香蕉在线一区二区| 丰满人妻中伦妇伦精品app| 97人澡人人添人人爽欧美| 亚洲成a人v欧美综合天堂下载| 国产成人在线小视频| 麻豆蜜桃在线| 香蕉影视欧美成人| 午夜精品久久久久久久无码| 蜜桃视频m3u8在线观看| 亚洲国产另类精品专区| 国内少妇毛片视频| 高清在线视频不卡| 色综合天天综合网国产成人综合天| 波多野结衣综合网| 午夜影院在线观看国产主播| 丰满岳妇乱一区二区三区| 日本网站免费在线观看| 涩涩视频在线| 欧美丝袜丝交足nylons图片| 中文字幕一区久久| 亚洲综合色婷婷在线观看| 亚洲精品久久久一区二区三区| 中文字幕 亚洲一区| 久久爱www成人| 最近中文字幕日韩精品| 好吊日在线视频| 亚洲国产网站| 国产精品久久久久7777婷婷| 国产麻豆免费观看| av在线不卡免费看| 亚洲不卡1区| 欧美日本一道| 午夜精品成人在线视频| 91av俱乐部| 国产精品国产亚洲精品| 亚洲精品久久久久久久久久久| 性猛交娇小69hd| 欧美激情日韩| 欧美在线国产精品| 91 中文字幕| 成人av中文字幕| 亚洲 国产 欧美一区| 亚洲第一图区| 色综合天天综合网国产成人综合天 | 亚洲伊人一本大道中文字幕| 天天操天天干天天操| 欧美国产精品专区| 国产aaa免费视频| 78精品国产综合久久香蕉| 精品少妇一区二区| 中文字幕伦理片| 亚洲大黄网站| 91老司机精品视频| 狠狠狠综合7777久夜色撩人 | 日韩 欧美 综合| 蜜臀91精品一区二区三区 | 成人免费播放视频| 欧美韩一区二区| 久久久精品在线观看| 国内自拍视频在线播放| 成人小视频在线| 亚洲一区二区不卡视频| 密臀av在线播放| 精品久久久久99| 成年人免费视频播放| 亚洲欧美久久| 国产精品久久久一区二区三区| 1769视频在线播放免费观看| 欧美日韩国产色| 国产成人av免费观看| 日韩在线观看一区| 国产成人a亚洲精品| 亚洲黄色片视频| 自拍偷拍欧美激情| 日本美女视频一区| 成人高清电影网站| 日韩美女主播视频| 香蕉av一区二区三区| 亚洲在线成人精品| 麻豆传媒在线看| 亚洲精品二区三区| 成人免费福利在线| 欧美96在线| 欧美精品丝袜久久久中文字幕| 亚洲av无码一区二区三区人| 99综合精品| 久久精品国产99精品国产亚洲性色| 亚洲男同gay网站| 日韩一区二区在线观看视频播放| 免费黄色在线网址| 全国精品久久少妇| 亚欧洲精品在线视频免费观看| 免费观看成人性生生活片 | 日韩精品中文字幕一区二区三区 | 成人豆花视频| 综合网中文字幕| 伊人久久久久久久久久久久 | 日韩精品一区二区三区三区免费| 国产喷水在线观看| 精品无人码麻豆乱码1区2区| 亚洲精品乱码久久久久久蜜桃91 | 麻豆精品视频在线观看视频| 热re99久久精品国99热蜜月| 日本精品另类| 中文字幕亚洲欧美在线| 一级黄色片免费| 最新中文字幕一区二区三区| 久久久久无码精品| 国模一区二区三区| 久久精品成人一区二区三区蜜臀| 中文在线аv在线| 影音先锋欧美精品| 91九色蝌蚪91por成人| 亚洲男人电影天堂| 亚洲午夜久久久久久久久| 一区二区三区国产盗摄 | 蜜桃视频在线观看视频| 色噜噜狠狠色综合中国| 亚洲一区三区视频在线观看| 黄色片网站在线播放| 日韩av电影天堂| 在线不卡日本| 青青伊人久久| 久久久精品999| 欧美一级片免费| 在线精品国精品国产尤物884a | 亚洲三级免费观看| 亚洲少妇中文字幕| 久久综合婷婷| 久久天天东北熟女毛茸茸| 国产伦精品一区二区三区在线播放 | 欧美精品一区二区三区四区 | 亚洲国产欧美一区二区三区不卡| 色8久久久久| 97精品在线观看| 欧美jizzhd欧美| 亚洲第一综合天堂另类专| 99久久久无码国产精品免费蜜柚| 亚洲欧美日韩在线不卡| 日本一区二区三区网站| 久久99这里只有精品| 人妻av中文系列| 97色伦图片97综合影院| 久草一区二区| 2019中文亚洲字幕| 欧美一区二区三区四区在线| 在线视频中文字幕第一页| 亚洲精品自在久久| 国产极品久久久| 欧美日韩中字一区| 日韩精品乱码久久久久久| 国产精品色眯眯| 在线免费观看a级片| 国产麻豆视频精品| 成年人在线观看视频免费| 亚洲福利专区| 日本三日本三级少妇三级66| 国产真实有声精品录音| 国产无套精品一区二区| 高清久久一区| 国产精品成人品| 中文字幕21页在线看| 欧美俄罗斯性视频| 日本天堂在线观看| 亚洲香蕉成视频在线观看| 视频二区在线观看| 日韩欧美国产午夜精品| 91精品视频免费在线观看| 91福利小视频| 久久视频免费在线观看| 一区二区高清在线| 中文字幕影音先锋| 亚洲欧洲成人精品av97| 18啪啪污污免费网站| 国产亚洲综合在线| 草草影院第一页| 99久久精品国产观看| 五月天丁香社区| 国产成a人亚洲精品| 亚洲黄色av片| 久久97超碰色| 手机在线免费毛片| 精品一区二区成人精品| 色噜噜狠狠一区二区| 免费精品视频在线| 高清一区二区视频| 男女视频一区二区| 冲田杏梨av在线| 麻豆国产精品官网| 国产成年人视频网站| 免费在线观看视频一区| 中文字幕亚洲乱码| 久久99精品久久久久久动态图| 国产野外作爱视频播放| 日本欧美一区二区| xxww在线观看| 狠狠色丁香久久婷婷综合_中| 亚洲一区二区三区观看| 国产在线精品免费| 自拍偷拍激情视频| 国产成+人+日韩+欧美+亚洲| 任你躁av一区二区三区| 不卡视频一二三| 欧美高清性xxxx| 国产日韩一级二级三级| 国产三级精品三级观看| 自拍偷拍亚洲激情| 国产一级在线免费观看| 激情成人在线视频| 69视频免费看| 3d动漫精品啪啪1区2区免费 | 成人午夜又粗又硬又大| 亚洲欧美日韩色| 久久综合九色综合欧美亚洲| 色噜噜日韩精品欧美一区二区| 欧美经典一区二区| www.5588.com毛片| 天天操天天干天天综合网| 中文字幕在线播| 51精品视频一区二区三区| 丰满人妻一区二区三区免费| 日韩精品中文在线观看| www免费网站在线观看| 久久电影一区二区| 韩国成人二区| 国产精品美腿一区在线看| aa亚洲一区一区三区| 精品国产一区二区三| 四虎成人av| av网站手机在线观看| 日本不卡一区二区| zjzjzjzjzj亚洲女人| 国产日韩高清在线| 精品爆乳一区二区三区无码av| 色哟哟一区二区| 精品国产18久久久久久| 日韩精品在线私人| av毛片在线看| 国产成人免费91av在线| 日韩精品视频中文字幕| 涩涩涩999| 黄色成人精品网站| 中文字幕有码av| av高清久久久| 欧美一区二区三区观看| 欧美午夜视频一区二区| 国产三级按摩推拿按摩| 亚洲毛片一区二区| 国内老司机av在线| 成人精品网站在线观看| 亚洲国产精品嫩草影院久久av| 女同性恋一区二区| 久久精品欧洲| 蜜臀aⅴ国产精品久久久国产老师| 国产精品色婷婷久久58| 国产91精品一区| 精品国产91洋老外米糕| 麻豆视频在线播放| 国产va免费精品高清在线观看| jazzjazz国产精品久久| 中文字幕av导航| 日本人妖一区二区| aa片在线观看视频在线播放| 亚洲蜜臀av乱码久久精品蜜桃| www.日韩一区| 亚洲精品中文字幕av| 久久青青色综合| 亚洲专区国产精品| 91精品国偷自产在线电影| 一区二区三区韩国| 国产欧美一区二区精品忘忧草 | 欧美韩国日本精品一区二区三区| 欧美jjzz| 日韩视频在线观看一区二区三区| 国产精品午夜在线| 波多野结衣日韩| 亚洲品质视频自拍网| 涩涩网在线视频| 国产视频不卡| 亚洲久久视频| 亚洲成av人片在线观看无| 一区二区三区不卡在线观看 | 国产午夜精品久久久| 精品精品导航| 国产区欧美区日韩区| 激情丁香综合| 你懂得在线视频| 精品国产91久久久久久| 人妻视频一区二区三区| 欧美激情影音先锋| 国内精品免费| 欧美v在线观看| 久久久综合精品| 久久久国产免费| 在线看欧美日韩| 成人在线视频观看| 中文字幕精品一区日韩| 韩国欧美国产1区| 欧美日韩在线国产| 精品久久久久久最新网址| 国内在线视频| 蜜桃麻豆91| 蜜桃视频一区二区三区| 无码人妻精品中文字幕 | 免费在线国产| 国产精品极品美女粉嫩高清在线| 欧美性感美女一区二区| 国产乱女淫av麻豆国产| 亚洲精品中文在线观看| 日韩中文字幕影院| 日本免费久久高清视频| 色喇叭免费久久综合网| 四川一级毛毛片| 精品久久久在线观看| 成人在线观看一区| 91在线看网站| 国产麻豆综合| 熟女av一区二区| 精品国产一区二区国模嫣然| 欧美1级2级| 日本老太婆做爰视频| 99久久精品国产一区二区三区| 成人一二三四区| 美日韩精品免费视频| 精品深夜福利视频| 黄色成人免费看| 亚洲激情av在线| 国产一区二区影视| 91久久精品国产91久久性色tv| 亚洲综合日本| 国产成人av免费在线观看| 亚洲精品久久久久中文字幕欢迎你| 日韩欧美一区二区三区在线观看| 国产三级中文字幕| 26uuu国产日韩综合| 国产免费无遮挡| 欧美在线欧美在线| 一区二区电影| 性欧美13一14内谢| 日韩午夜激情av| yw.尤物在线精品视频| 99热这里只有精品免费| 国产视频在线观看一区二区三区| 精品国产av一区二区| 国产成人精品亚洲精品| 国产精品99免费看| 潮喷失禁大喷水aⅴ无码|