精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

智能體自己出現(xiàn)問(wèn)題自己找!首次提出“自動(dòng)化失敗歸因”課題 | ICML2025 Spotlight

人工智能 新聞
賓夕法尼亞州立大學(xué)與杜克大學(xué)聯(lián)合Google DeepMind等機(jī)構(gòu)的研究者們首次提出了“自動(dòng)化失敗歸因”這一全新研究課題,并為此構(gòu)建了首個(gè)專用基準(zhǔn)數(shù)據(jù)集Who&When,開發(fā)和評(píng)估了多種自動(dòng)化歸因方法。

近年來(lái),LLM Multi-Agent系統(tǒng)引起廣泛關(guān)注。它們各顯神通,協(xié)同作戰(zhàn)解決復(fù)雜難題。然而,一頓操作猛如虎,最終結(jié)果卻“慘不忍睹”,一整個(gè)任務(wù)失敗。

這時(shí)候,你是不是頭都大了:究竟是哪個(gè)環(huán)節(jié)的哪個(gè)Agent出了岔子?

在日益復(fù)雜的Multi-Agent系統(tǒng)中,由于Agent之間自主協(xié)作、信息鏈條長(zhǎng),失敗不僅常見,而且診斷起來(lái)極其困難。如果我們不能快速定位失敗的根源,系統(tǒng)的迭代和優(yōu)化就無(wú)從談起。

針對(duì)這個(gè)問(wèn)題,賓夕法尼亞州立大學(xué)與杜克大學(xué)聯(lián)合Google DeepMind等機(jī)構(gòu)的研究者們首次提出了“自動(dòng)化失敗歸因”這一全新研究課題,并為此構(gòu)建了首個(gè)專用基準(zhǔn)數(shù)據(jù)集Who&When,開發(fā)和評(píng)估了多種自動(dòng)化歸因方法。

圖片

這項(xiàng)工作不僅深刻揭示了該任務(wù)的復(fù)雜性,也為未來(lái)提升LLM Multi-Agent 系統(tǒng)的可靠性開辟了新的道路。

該論文獲ICML 2025 Spotlight,代碼與數(shù)據(jù)集已全部開源。

首次提出“自動(dòng)化失敗歸因”課題

LLM驅(qū)動(dòng)的Multi-Agent系統(tǒng)在很多領(lǐng)域展現(xiàn)出巨大潛力。然而,這些系統(tǒng)也存在著脆弱性:?jiǎn)蝹€(gè)Agent的失誤,Agent之間的誤解,以及信息傳遞錯(cuò)誤,都可能導(dǎo)致整體任務(wù)失敗。

目前,一旦系統(tǒng)“翻車”,開發(fā)者往往只能:手動(dòng)“考古”,逐條翻閱冗長(zhǎng)的交互日志,試圖找出問(wèn)題所在;又或者依賴經(jīng)驗(yàn),這種調(diào)試過(guò)程高度依賴開發(fā)者對(duì)系統(tǒng)和任務(wù)的深入理解。

圖片

這種“大海撈針”式的排錯(cuò)方式,不僅效率低下,更嚴(yán)重阻礙了系統(tǒng)的快速迭代和可信賴度的提升。目前迫切需要一種自動(dòng)化、系統(tǒng)化的方法來(lái)定位失敗原因,將“評(píng)估結(jié)果”與“系統(tǒng)改進(jìn)”有效連接起來(lái)。

圖片

針對(duì)上述挑戰(zhàn),這篇論文做出了開創(chuàng)性的貢獻(xiàn):

首先,提出并定義新問(wèn)題,首次將“自動(dòng)化失敗歸因”形式化為一個(gè)具體的研究任務(wù),明確了要找出導(dǎo)致失敗的責(zé)任Agent(failure-responsible agent)和決定性錯(cuò)誤步驟(decisive error step)。

其次,他們構(gòu)建首個(gè)數(shù)據(jù)集Who&When,該數(shù)據(jù)集包含了從127個(gè)LLMMulti-Agent系統(tǒng)中收集的廣泛失敗日志。這些系統(tǒng)既有算法自動(dòng)生成的,也有人類專家精心打造的,確保了場(chǎng)景的真實(shí)性和多樣性。

每條失敗日志都配有細(xì)粒度的人工標(biāo)注:

  • “誰(shuí)”(Who):哪個(gè)Agent是“罪魁禍?zhǔn)住薄?/span>
  • “何時(shí)”(When):決定性錯(cuò)誤發(fā)生在交互的哪一步。
  • “為何”(Why):對(duì)失敗原因的自然語(yǔ)言解釋。

最后,他們初步探索了“自動(dòng)化歸因”方法?;赪ho&When數(shù)據(jù)集,論文設(shè)計(jì)并評(píng)估了三種不同的自動(dòng)化失敗歸因方法:全局審視法(All-at-Once),逐步偵查法(Step-by-Step),二分定位法(Binary Search)。

實(shí)驗(yàn)結(jié)果表明:這三種方法在準(zhǔn)確性、成本和分析粒度上各有千秋,沒有一種能在所有指標(biāo)上完勝。它們共同構(gòu)成了自動(dòng)化失敗歸因任務(wù)的初步“解法庫(kù)”。

All-at-Once:向LLM提供用戶查詢和完整的故障日志,要求其一次性識(shí)別出故障責(zé)任Agent以及發(fā)生決定性錯(cuò)誤的具體步驟。它的優(yōu)點(diǎn)是一步到位,成本較低,可能擅長(zhǎng)宏觀判斷責(zé)任。但可能面臨“大海撈針”問(wèn)題,難以從長(zhǎng)上下文中精確定位具體錯(cuò)誤步驟。

Step-by-Step:模擬人工調(diào)試,讓LLM從頭開始,一步步檢查交互日志,在每個(gè)環(huán)節(jié)判斷當(dāng)前是否出現(xiàn)錯(cuò)誤,直到揪出“真兇”。它如同剝洋蔥般細(xì)致,在定位具體錯(cuò)誤環(huán)節(jié)上更具優(yōu)勢(shì);不過(guò)需要多次詢問(wèn)模型,調(diào)用成本較高,且局部判斷的累積誤差可能導(dǎo)致“誤判”。

Binary Search:這是一種折中策略。將日志對(duì)半切分,利用LLM判斷錯(cuò)誤發(fā)生在前半段還是后半段,然后不斷在確定的半段中遞歸“二分”,最終鎖定問(wèn)題步驟和相關(guān)Agent。該方法總成本和效果介于前兩者之間。

實(shí)驗(yàn)結(jié)果與主要發(fā)現(xiàn)

實(shí)驗(yàn)在兩種設(shè)定下進(jìn)行:LLM知道Multi-Agent系統(tǒng)需要解決的問(wèn)題的真實(shí)答案(With Ground Truth)和不知道真實(shí)答案(Without Ground Truth)。主要使用GPT-4o,但也測(cè)試了其他模型(如Llama系列、Qwen系列、GPT系列、OpenAI o1、DeepSeek R1)

通過(guò)在Who&When數(shù)據(jù)集上對(duì)上述方法進(jìn)行了系統(tǒng)評(píng)估,得到了許多重要的發(fā)現(xiàn):

首先,目前的方法離完美還差得很遠(yuǎn)。即便是表現(xiàn)最好的單一方法,在識(shí)別“背鍋Agent”上的準(zhǔn)確率也僅有約53.5%,而在準(zhǔn)確定位“錯(cuò)誤步驟”上,準(zhǔn)確率更是低至14.2%。這意味著,最牛的策略也只能勉強(qiáng)過(guò)半猜對(duì)誰(shuí)是“內(nèi)鬼”,至于錯(cuò)在哪一步,基本靠“蒙”。有些方法的表現(xiàn)甚至不如隨機(jī)猜測(cè),足見任務(wù)之艱巨。

其次,不同方法在不同子任務(wù)上表現(xiàn)各異,沒有萬(wàn)能冠軍。例如,All-at-Once方法對(duì)“Who”的判斷相對(duì)最好,能夠更準(zhǔn)確地找出哪個(gè)Agent應(yīng)該負(fù)責(zé);而Step-by-Step方法在鎖定具體錯(cuò)誤步驟(“When”)上效果更勝一籌,細(xì)粒度檢查帶來(lái)了優(yōu)勢(shì);Binary Search方法則各方面居中,表現(xiàn)中規(guī)中矩。由此體現(xiàn)出每種方案的權(quán)衡取舍:要么整體掃描擅長(zhǎng)找“人”,要么逐步追查利于找“步驟”。

圖片

還有“組合拳”效果更優(yōu),但代價(jià)高昂:研究者嘗試了組合不同方法的策略(例如,先使用“全局法”初步判斷責(zé)任Agent,再運(yùn)用“逐步法”精確定位錯(cuò)誤步驟)。結(jié)果表明,這種混合方法確實(shí)能夠提升整體的歸因性能,但同時(shí)也帶來(lái)了顯著的計(jì)算成本增加。

圖片

最令人驚訝的是,即便是當(dāng)前最先進(jìn)的推理模型(如OpenAI o1和DeepSeek R1),在處理這一任務(wù)時(shí)也顯得力不從心。這進(jìn)一步凸顯了“自動(dòng)化失敗歸因”任務(wù)本身的固有難度,其對(duì)AI推理能力的要求超越了當(dāng)前SOTA模型在常規(guī)任務(wù)上的表現(xiàn)。

圖片

此外,明確的推理提示至關(guān)重要:在All-at-Once和Step-by-Step的提示中明確要求LLM給出歸因的理由,能起到提升性能的作用。

圖片

而上下文長(zhǎng)度對(duì)性能構(gòu)成制約,實(shí)驗(yàn)還發(fā)現(xiàn),隨著失敗日志上下文長(zhǎng)度的增加,所有歸因方法的性能均呈現(xiàn)下降趨勢(shì),尤其是在錯(cuò)誤步驟定位的準(zhǔn)確性方面更為敏感。

圖片

總結(jié)

“自動(dòng)化失敗歸因”是Multi-Agent系統(tǒng)開發(fā)流程中不可或缺的一環(huán)。它將幫助我們更深入地洞察Multi-Agent的失敗模式,將“哪里出錯(cuò)、誰(shuí)之過(guò)”從令人頭疼的謎題,轉(zhuǎn)變?yōu)榭闪炕治龅膯?wèn)題。通過(guò)架起“評(píng)估”與“改進(jìn)”之間的橋梁,我們終將能夠打造出更可靠、更智能、更值得信賴的Multi-Agent協(xié)作系統(tǒng)。

論文機(jī)構(gòu):賓夕法尼亞州立大學(xué),杜克大學(xué),Google DeepMind,華盛頓大學(xué),Meta,南洋理工大學(xué),俄勒岡州立大學(xué)

論文的共同第一作者是賓夕法尼亞州立大學(xué)的Shaokun Zhang和杜克大學(xué)的Ming Yin。

論文傳送門:https://arxiv.org/pdf/2505.00212

代碼傳送門:https://github.com/mingyin1/Agents_Failure_Attribution

數(shù)據(jù)集傳送門:https://huggingface.co/datasets/Kevin355/Who_and_When

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-06-03 08:26:00

智能體LLM開發(fā)

2025-06-03 09:08:00

2025-07-23 10:07:31

2025-06-06 09:02:00

2025-05-19 08:35:00

2025-05-15 13:40:13

數(shù)據(jù)訓(xùn)練模型

2025-06-23 08:57:00

2025-05-07 13:48:48

AIGC生成機(jī)器人

2025-05-23 00:01:00

AIDify智能體Java

2025-07-16 09:15:17

2025-05-19 08:30:00

2025-05-28 11:42:14

模型框架AI

2025-06-30 08:36:00

AI模型強(qiáng)化學(xué)習(xí)

2025-05-07 13:49:19

模型AI架構(gòu)

2025-07-29 08:40:00

模型AILLM

2025-07-02 09:21:30

2025-06-03 14:17:18

WebDancerAgenticAI

2025-05-29 07:02:00

2025-08-04 08:34:00

2010-08-24 10:11:02

虛擬化部署
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

久久久久久久999精品视频| 欧美伊人久久久久久久久影院| 97人人模人人爽人人少妇| 久久久久久欧美精品se一二三四| 欧美绝顶高潮抽搐喷水合集| 欧美专区亚洲专区| 国产又黄又爽免费视频| 三级在线观看网站| 久久精品国产亚洲高清剧情介绍| 欧美另类极品videosbestfree| 成人免费毛片日本片视频| 福利精品一区| 亚洲成av人影院| 亚洲色图自拍| 亚洲av成人无码网天堂| 国产伦精一区二区三区| 国产成+人+综合+亚洲欧美丁香花| 999精品在线视频| 亚洲免费毛片| 日韩精品综合一本久道在线视频| www.xxx亚洲| 国产盗摄精品一区二区酒店| 国产欧美日本一区二区三区| 国产一区二区无遮挡| 91精品国产色综合久久不8| 一本久久综合| 九九视频直播综合网| 微拍福利一区二区| 欧美黑白配在线| 日韩午夜在线影院| 三级视频中文字幕| 爱情电影社保片一区| 亚洲国产aⅴ天堂久久| 宅男av一区二区三区| 黄色大片在线看| 91在线视频播放地址| 97人人香蕉| av小说天堂网| 久久国产精品免费| 国产精品1234| 欧美性猛交xxxx乱大交hd| 一本色道久久综合亚洲精品不卡| 欧美另类xxx| 中文字幕在线观看2018| 日韩在线看片| 国产亚洲精品久久久优势| 国产吞精囗交久久久| 日韩电影在线观看完整免费观看| 欧美成人伊人久久综合网| 亚洲天堂一区二区在线观看| 疯狂欧洲av久久成人av电影| 欧美日本一区二区在线观看| 亚洲高清在线免费观看| 秋霞国产精品| 91福利资源站| 欧美三级午夜理伦三级富婆| 成人毛片免费| 91精品国产入口| 波多野结衣中文字幕在线播放| 高清久久一区| 欧美大胆人体bbbb| 95视频在线观看| 久久久伦理片| 亚洲摸下面视频| 日本二区在线观看| 欧美先锋资源| 久久国产精品偷| 欧美日韩在线视频免费| 在线观看一区| 136fldh精品导航福利| 9i看片成人免费看片| 老妇喷水一区二区三区| 国产精品久久久久久久久| 一级黄色a毛片| 国产呦精品一区二区三区网站| 91超碰在线电影| 黑人精品一区二区三区| 91丨porny丨在线| 日本高清不卡一区二区三| 91在线观看| 一区二区三区欧美在线观看| 青青青国产在线观看| 自拍偷拍欧美视频| 欧美日韩免费不卡视频一区二区三区 | 国产精品久久久久久免费播放| 韩国成人在线视频| 国产精品免费看一区二区三区| 日本在线视频1区| 国产精品三级电影| 日韩在线观看a| 希岛爱理一区二区三区av高清| 欧美日韩一区二区三区视频| 久久久久中文字幕亚洲精品 | 欧美一级视频精品观看| 国产国语老龄妇女a片| 亚洲婷婷伊人| 精品久久久av| 久久久精品免费看| 国内久久婷婷综合| 欧美性xxxx69| 色帝国亚洲欧美在线| 欧美午夜激情小视频| 婷婷激情5月天| 丝袜av一区| 欧美成人中文字幕| 精品久久久久久久久久久国产字幕| 久久机这里只有精品| 国产一区二区无遮挡 | 久久久久久尹人网香蕉| 做爰视频毛片视频| 成人亚洲精品久久久久软件| 亚洲一区二区三区午夜| 三级在线看中文字幕完整版| 91精品黄色片免费大全| 国产色视频一区二区三区qq号| 欧美国产91| 国产精品天天狠天天看| 色鬼7777久久| 亚洲永久免费视频| 亚洲男人天堂2021| 欧美精品一区二区三区中文字幕 | 伊人久久婷婷色综合98网| 成人bbav| 欧美一区二区三区播放老司机| 魔女鞋交玉足榨精调教| 亚洲国产高清视频| 91精品综合久久久久久五月天| 男男电影完整版在线观看| 亚洲高清免费观看| 国产探花在线观看视频| 欧美a级片视频| 欧美综合一区第一页| 老熟妇高潮一区二区高清视频| 亚洲人成小说网站色在线| 午夜在线观看av| 国内黄色精品| 日本中文字幕久久看| 亚州av在线播放| 亚洲电影在线播放| 日韩女优在线视频| 欧美黄色一区二区| 亚洲一区二区在线播放| 国产成人无吗| 欧美一区中文字幕| 欧美大片xxxx| 国产自产2019最新不卡| 一级特黄录像免费播放全99| 国产精品字幕| 尤物九九久久国产精品的特点| 少妇太紧太爽又黄又硬又爽| 91在线国产福利| 欧美视频在线播放一区| 一区三区在线欧| 国产成人精品日本亚洲专区61| 欧洲综合视频| 欧美在线观看一区| 国产一区二区三区视频播放| 久久国产精品一区二区| 99精品一级欧美片免费播放| 在线播放成人| 欧美日本高清一区| 高潮一区二区三区乱码| 精品福利在线看| 色欲av无码一区二区三区| 久久中文字幕一区二区三区| 亚洲国产一区二区在线| **欧美日韩在线| 欧美激情一二三| 香蕉久久一区二区三区| 在线一区二区视频| 9.1片黄在线观看| 国产精品一区二区三区99| 国产一区二区四区| 一本色道久久综合狠狠躁的番外| 国产精品欧美日韩久久| 免费高清完整在线观看| 日韩一卡二卡三卡四卡| 国产成人精品片| 欧美激情一区二区三区不卡| 国产探花在线观看视频| 亚洲欧洲日本mm| 日韩三级电影网站| 福利一区三区| 18性欧美xxxⅹ性满足| jzzjzzjzz亚洲成熟少妇| 欧美一区二视频| 国产成人精品一区二三区| 国产女主播一区| 国产sm在线观看| 老司机精品视频网站| 国产精品夜夜夜爽张柏芝| 国偷自产视频一区二区久| 国产精品成人观看视频国产奇米| 黄色成年人视频在线观看| 亚洲精品短视频| 亚洲天堂手机在线| 精品国产91久久久久久| 国产午夜精品理论片| 99久久99久久综合| 国产精品久久久久久9999| 日韩视频久久| 一区中文字幕在线观看| 夜夜躁狠狠躁日日躁2021日韩| 成人国产精品一区二区| 在线视频超级| 欧美成在线视频| jizz亚洲| 日韩的一区二区| jizz中国少妇| 欧美三级午夜理伦三级中视频| 国产一级大片在线观看| 国产精品毛片久久久久久久| 亚洲狠狠婷婷综合久久久久图片| 国产伦精品一区二区三区免费| www.射射射| 久久久久久久久久久妇女| 欧美三级网色| 精品淫伦v久久水蜜桃| 91中文字幕在线| 欧美videos粗暴| 国产a∨精品一区二区三区不卡| 污视频网站在线免费| 色综合影院在线| 国产精品一区在线看| 日韩av综合中文字幕| 亚洲av永久无码国产精品久久| 欧美女孩性生活视频| 91丝袜一区二区三区| 午夜久久久久久久久久一区二区| 日韩欧美综合视频| 国产精品传媒入口麻豆| 91视频免费在观看| 国产亚洲女人久久久久毛片| 国产精品伦子伦| 成人黄色在线看| 亚洲欧美综合视频| 国产一区二区三区在线观看精品| 国产精品自拍视频在线| 三级在线观看一区二区| 久久久久免费精品| 久久精品成人| 日韩精品一区二区三区色欲av| 日韩图片一区| 欧美日韩二三区| 亚洲中午字幕| 黄色动漫网站入口| 鲁大师成人一区二区三区| 好吊妞无缓冲视频观看| 日韩视频二区| 妞干网在线免费视频| 久久久久看片| 日韩视频免费在线播放| 日韩**一区毛片| 手机在线免费观看毛片| 免费精品视频最新在线| 天天爽夜夜爽一区二区三区| 麻豆精品一二三| 中文字幕免费高清在线| 国产综合色在线| 91av免费观看| 成人性视频网站| 国产麻豆天美果冻无码视频| 久久久久久免费| 国产aaaaaaaaa| 亚洲视频一二三区| 国产一级做a爱免费视频| 精品电影在线观看| 销魂美女一区二区| 欧美高清视频一二三区| 精品黑人一区二区三区在线观看| 精品国产污网站| 欧美在线观看在线观看| 亚洲天堂网在线观看| 日本成a人片在线观看| 久操成人在线视频| 精精国产xxx在线视频app| 国产99在线|中文| 国产一区二区三区视频在线| 高清日韩一区| 国产精品片aa在线观看| 中文字幕欧美人与畜| 亚洲一本视频| 国产三级日本三级在线播放 | 久久精品女同亚洲女同13| 久久亚洲春色中文字幕久久久| 最新日韩免费视频| 午夜影视日本亚洲欧洲精品| 中文在线最新版天堂| 日韩午夜在线影院| 国产香蕉在线| 欧美大片免费观看| 肉色欧美久久久久久久免费看| 91精品视频观看| 香蕉人人精品| 国产高潮呻吟久久久| 国产日韩亚洲| 色哟哟在线观看视频| 国产午夜精品久久久久久久 | 亚洲av成人片无码| 国产精品毛片无遮挡高清| 日本最新中文字幕| 欧美日韩二区三区| 午夜福利视频一区二区| 正在播放欧美视频| 91福利在线免费| 国产精品久久久久久超碰| 欧美精品国产白浆久久久久| 成年人免费观看的视频| 午夜一级在线看亚洲| 亚洲一区二区图片| 国产日韩精品一区二区浪潮av| 精品深夜av无码一区二区老年| 欧美色视频一区| 天堂网www中文在线| 欧美日韩国产va另类| 麻豆久久久久| 日本一区视频在线观看免费| 亚洲黄色高清| 亚洲AV成人精品| 亚洲人成小说网站色在线| 国产天堂第一区| 亚洲精品网站在线播放gif| 色女人在线视频| 91久久久在线| 色综合久久网| 亚洲五月天综合| 久久久国产精品不卡| 国产小视频在线免费观看| 精品国产欧美一区二区| 在线观看午夜av| 91精品啪aⅴ在线观看国产| 三级电影一区| 日本特黄a级片| 欧美激情在线免费观看| 天堂网一区二区| 亚洲美女视频网站| 中文字幕色婷婷在线视频| 黑人中文字幕一区二区三区| 国产综合视频| 亚洲av无一区二区三区久久| 亚洲精品你懂的| 在线播放精品视频| 少妇高潮久久77777| 成人在线观看免费播放| 日韩中文一区二区三区| 日韩高清在线一区| 天天操天天舔天天射| 欧美亚洲愉拍一区二区| h视频在线免费| 国产欧美一区二区三区在线看| 色婷婷热久久| 成人亚洲免费视频| 亚洲精品国产高清久久伦理二区| 国产精品高潮呻吟久久久| 美乳少妇欧美精品| 无码国模国产在线观看| 无码av天堂一区二区三区| 成人免费毛片片v| 天天综合网久久综合网| 亚洲男人天堂九九视频| 成人亚洲免费| 黄色污污在线观看| 成人一级片网址| 亚洲精品中文字幕乱码三区91| 在线午夜精品自拍| 蜜桃在线一区| 日韩日韩日韩日韩日韩| 91首页免费视频| 国产精品sm调教免费专区| www.午夜精品| 国产成人aa在线观看网站站| 精品一卡二卡三卡| 国产精品理论在线观看| 成人av一区二区三区在线观看 | ww久久综合久中文字幕| 在线看成人av电影| 处破女av一区二区| 人妻 日韩精品 中文字幕| 中文字幕无线精品亚洲乱码一区| 国产精品白丝久久av网站| 青青青在线视频播放| 国产亚洲欧美中文| 午夜精品一区二区三| 欧美在线亚洲一区| 99久久九九| 中文字幕免费在线播放| 欧美亚洲一区三区| 国内老司机av在线| 日韩欧美视频一区二区三区四区| 国产精品99久| 日韩精品一区不卡| 欧美精品制服第一页| 亚洲国产精品嫩草影院久久av| 男人添女人下面免费视频| 亚洲午夜影视影院在线观看| 国产在线你懂得| 成人三级在线| 久久精品久久精品| 天天插天天操天天干| 精品国产一区av|