精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

田淵棟團隊新作祭出Agent-as-a-Judge!AI智能體自我審判,成本暴跌97%

人工智能 新聞
AI評估AI可靠嗎?來自Meta、KAUST團隊的最新研究中,提出了Agent-as-a-Judge框架,證實了智能體系統能夠以類人的方式評估。它不僅減少97%成本和時間,還提供豐富的中間反饋。

AI智能體,能否像人類一樣有效地評估其他AI智能體?

對于AI智能體來說,評估決策路徑一直是棘手的問題。

已有的評估方法,要么只關注結果,要么要要過多的人工完成。

為了解決這一問題,田淵棟、Jürgen Schmidhuber帶領的團隊提出了「Agent-as-a-Judge」框架。

圖片

簡言之,讓智能體來評估智能體系統,讓AI審AI。

它不僅可以減少97%的成本和時間,還能提供豐富的中間反饋。

這是「LLM-as-a-Judge」框架的有機延伸,通過融入智能體特性,能夠為整個任務解決過程提供中間反饋。

圖片

論文地址:https://arxiv.org/abs/2410.10934v1

研究人員提出了DevAI基準,為全新框架提供概念驗證測試平臺。包含55個真實的AI開發任務,帶有詳細的手動注釋。

通過對三個領先的智能體系統進行基準測試,發現它大大優于「LLM-as-a-Judge」框架。

圖片

總之,這項研究真正的變革之處在于:它提供了可靠的獎勵信號,為可擴展的、自我改進的智能體系統鋪平了道路。

「法官」智能體,擊敗大模型

現有評估方法,無法為智能體系統的中間任務解決階段,提供足夠的反饋。

另一方面,通過人工進行更好的評估,代價太大。

而智能體系統的思考方式,更像人類,通常是逐步完成,并且在內部經常使用類人的符號通信來解決問題。

因此,智能體也能夠提供豐富的反饋,并關注完整的思考和行動軌跡。

「Agent-as-a-Judge」不僅保留了「LLM-as-a-Judge」成本效益,還具備智能體特性,使其在整個過程中提供中間反饋。

下圖展示了,大模型、智能體、人類作為評判者的示意圖。

圖片

DevAI:自動化AI開發數據集

另外,在代碼生成領域,基準測試的發展也落后于智能體系統的快速進步。

比如,HumanEval僅關注算法問題,而MBPP則處理簡單的編程任務,但這兩者都沒有反映出開發者面臨的最實際的挑戰。

作為一個改進,SWE-Bench基準確實引入了GitHub現實問題,提供一種全新評估的方法。

不過,它仍需要關注自動修復任務的開發過程。

為了解決當前代碼生成基準測試中的上述問題,研究人員引入了DevAI:AI開發者數據集,其中包含55個由專家注釋者創建的真實世界綜合AI應用開發任務。

圖片

DevAI結構是這樣的:智能體系統首先接收用戶查詢以開始開發,然后根據AI系統滿足需求的程度來評估它,其中偏好作為可選的、較為柔性的標準。

圖3展示了DevAI任務的一個例子。

圖片

DevAI中的任務規模相對較小,但涵蓋了常用的關鍵開發技術。

如圖2所示,任務被標記并覆蓋了AI的多個關鍵領域:監督學習、強化學習、計算機視覺、自然語言處理、生成模型等。

每個任務都是,可能交給研究工程師的真實世界問題,并降低了在這個基準上評估方法的計算成本。

接下來,研究人員將領先的開源代碼生成智能體框架,應用于DevAI中的任務:MetaGPT、GPT-Pilot、OpenHands。

他們讓人類評判者、大模型評判者、以及智能體評判者框架,來評估其性能。

結果如表1所示,MetaGPT最具成本效益(1.19美元),而OpenHands是最昂貴的(6.38美元)。

從開發時間來看,OpenHands完成任務平均耗時362.41秒,而GPT-Pilot耗時最長,為1622.38秒。

平均而言,使用這三者之一對DevAI進行完整評估,大約需要210.65美元和14小時才能完成。

圖片

Human-as-a-Juge:DevAI手動評估

為了確定DevAI的實用有效性,并準確估計當前最先進的智能體系統實際代碼生成能力,研究人員手動評估三個AI開發者基線在DevAI中的應用。

如表2所示,(I)和(D)代表獨立性能與考慮任務依賴性的性能。圖片表示多個專家的進化,并且意味著評估使用白盒測試(允許訪問生成的workspace、人類收集的軌跡和開源代碼庫)。

兩種性能最好的方法(GPT-Pilot和OpenHands)可以滿足大約29%的要求,但只有一項任務可以滿足所有要求。

圖片

另外,在三位人類評估者之間,他們的個人評估存在大量分歧,說明了單一人類評估的不可靠性。

圖片

下圖5總結了人類評估和共識評估的不匹配度。

圖片

??????????-????-??-??????????:智能體評估智能體

根據以往智能體設計的經驗,并通過模仿人類評估過程,研究人員涉及了8個模塊化交互組件,具體包括:

1 圖像模塊:構建一個圖像,獲取項目整個結構,包括文件、模塊、依賴項,還可以將代碼塊分解為代碼片段

2 定位模塊:識別需求所引用的特定文件夾/文件

3 讀取模塊:超越了簡單的文件解析,支持跨33種不同格式的多模態數據的讀取和理解

4 搜索模塊:提供了對代碼的上下文理解,并且可以快速檢索高度相關的代碼片段,以及其背后細微差別

5 檢索模塊:從上下文中提取信息,識別軌跡中相關片段

6 查詢模塊:確定是否滿足給定要求

7 記憶模塊:存儲歷史判斷信息,允許智能體基于過去記憶評估

8 規劃模塊:允許智能體根據當前狀態和項目目標制定策略,并排序任務。

圖片

具體操作流程,如下圖9所示。

圖片

下表3展示了,Agent-as-a-Judge在各項任務中始終優于 LLM-as-a-Judge,特別是在那些訓在任務依賴關系的情況下。

圖片

評判開發者智能體,是一項類別不平衡的任務,滿足要求的情況要比失敗的情況少的多。

而判斷轉移和對齊率等指標可能會產生誤導。比如,由于MetaGPT很少滿足要求, LLM-as-a-Judge很容易將大多數情況識別為負面(在黑盒設置中達到84.15%)。

PR曲線通過平衡精確度和召回率,提供更清晰的性能衡量標準。

這表明,在某些情況 下,Agent-as-a-Judge幾乎可以取代人類評估員。

圖片

最后,在消融研究中,研究人員分析了各種組件的添加,對Agent-as-a-Judge判斷OpenHands性能的影響。

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2024-12-19 09:48:07

2024-10-18 15:20:00

2024-02-26 00:20:00

AI模型

2023-06-12 09:57:22

AIChatGPT

2023-08-04 13:42:41

2021-10-28 15:41:07

計算機AI 技術

2025-10-08 10:19:29

2024-12-12 09:00:00

2023-03-17 08:28:17

GPT-4AI

2024-03-08 12:35:41

模型數據

2023-12-07 06:51:18

AI模型

2025-03-25 09:12:00

LIMAI模型

2024-10-17 14:10:00

模型訓練

2023-06-30 09:49:23

模型Meta

2023-06-28 18:10:27

羊駝家族大模型集體進化

2024-10-16 13:50:00

模型AI

2020-09-22 09:54:19

谷歌Android開發者

2025-06-20 08:47:00

量子計算AI模型

2022-12-25 13:46:37

生成器

2025-02-17 09:30:00

AI訓練模型
點贊
收藏

51CTO技術棧公眾號

伊人影院中文字幕| 成人黄色在线播放| 在线观看av免费观看| 狠狠v欧美ⅴ日韩v亚洲v大胸 | 久久九九免费| 亚洲一区av在线播放| 日韩 欧美 视频| 午夜激情小视频| 久久av最新网址| 一本久久综合亚洲鲁鲁| jizz18女人| 精品无吗乱吗av国产爱色| 日韩精品亚洲一区| 色999日韩欧美国产| 超碰中文字幕在线观看| 国产天堂在线播放视频| www久久久久| 97精品视频在线播放| 欧美午夜精品一区二区| 神马久久资源| 亚洲精品乱码久久久久久日本蜜臀| αv一区二区三区| 日韩无码精品一区二区三区| 国产亚洲一区二区三区不卡| 欧美日韩久久一区| 久久av高潮av| 黄色片在线看| 亚洲一级网站| 中文字幕精品—区二区| 欧美不卡视频一区| 日韩在线观看你懂的| 亚洲国产午夜精品| 水蜜桃在线视频| 久久久久久久久久久电影| 91在线视频九色| 欧美一区二区三区不卡视频| 99热国内精品永久免费观看| 日韩视频永久免费| 久久久久久久久久久久91| gogo久久| 亚洲色图在线播放| 久久精品一二三区| 一区二区日韩视频| 日韩亚洲国产欧美| 美女福利精品视频| 久久国产柳州莫菁门| 97人人澡人人爽91综合色| 欧美日韩亚洲综合在线 欧美亚洲特黄一级| 日韩视频一二三| 成人福利在线| 久久伊人蜜桃av一区二区| 99在线影院| 国产精品久久久久毛片| 国产精品普通话对白| 深夜福利日韩在线看| 黄色性生活一级片| 国内视频在线精品| 日韩欧美专区在线| 亚洲国产欧美91| 久久av日韩| 欧亚一区二区三区| 国产二区视频在线| a级影片在线观看| 一区二区三区四区蜜桃| 欧美一区1区三区3区公司| 亚洲黄色在线播放| 国产在线乱码一区二区三区| 国产精品久久久久久久久久东京 | 欧美韩国日本精品一区二区三区| 国产精品国产一区二区三区四区 | 欧美黄色a视频| 欧美日韩在线视频首页| av在线免费观看国产| 国产黄网站在线观看| 亚洲美女视频在线观看| 蜜桃传媒视频麻豆第一区免费观看| 欧美一级在线免费观看| 成人午夜激情在线| 国产一区二区黄色| 国产精品毛片一区二区在线看舒淇| 免费人成黄页网站在线一区二区| 久久久爽爽爽美女图片| 免费在线黄色网| 国产精品99久久久久久动医院| 中文字幕日韩免费视频| 少妇高潮在线观看| 窝窝社区一区二区| 日韩精品在线看| 精品无码国产污污污免费网站| 一本色道69色精品综合久久| 欧美精品一区视频| 中文字幕狠狠干| 欧美五码在线| 国产亚洲免费的视频看| 黄色激情小视频| 欧美美女啪啪| 精品一区二区三区四区在线| 亚洲自拍偷拍一区二区| av在线不卡顿| 久久天天躁日日躁| 日本学生初尝黑人巨免费视频| 岳的好大精品一区二区三区| 亚洲性猛交xxxxwww| 欧美做受高潮6| 99re6这里只有精品| 在线观看不卡av| 超碰97av在线| 国产精品久久天天影视| 色悠悠久久久久| 久久久久久久中文字幕| 久久精品综合| 99re视频| 亚洲av成人精品一区二区三区在线播放| 久久久综合激的五月天| 黄色网zhan| 黄视频在线免费看| 欧美亚洲自拍偷拍| 欧美xxxxx少妇| 国产日产一区 | 黑人极品videos精品欧美裸| 9久久9毛片又大又硬又粗| 电影一区二区| 精品美女一区二区| 色噜噜噜噜噜噜| 亚洲国产片色| 国产精品久久久久999| 高清一区二区三区四区| 国产欧美精品国产国产专区| 天堂资源在线亚洲视频| 欧美xxxx性xxxxx高清| 欧美午夜美女看片| 亚洲精品综合在线观看| 美女视频亚洲色图| 精品av久久707| 亚洲图片第一页| 亚洲一区二区免费看| 成人精品一区二区三区电影黑人| 亚洲精品成人电影| 自拍av一区二区三区| 爱福利视频一区二区| 538任你躁精品视频网免费| 亚洲精品综合精品自拍| 精品一区在线视频| 奇米777欧美一区二区| 日韩av不卡在线| jizz中国少妇| 国产精品美女久久久久av爽李琼| 欧美 国产 综合| 国产精选久久| 正在播放欧美一区| 午夜视频网站在线观看| 国产美女在线精品| 日本亚洲欧洲精品| 在线天堂新版最新版在线8| 日韩欧美一级精品久久| 亚洲女人久久久| 日韩影院在线观看| 成人久久18免费网站漫画| 老司机福利在线视频| 午夜精品成人在线| 国产肉体xxxx裸体784大胆| 欧美国产激情| 亚洲一区国产精品| 91精品久久久久久粉嫩| 欧美视频日韩视频| 又嫩又硬又黄又爽的视频| 亚洲黄色免费| 999国内精品视频在线| 国产调教视频在线观看| 欧美日韩免费视频| 极品久久久久久久| 亚洲综合欧美| 日韩精品欧美在线| av在线一区不卡| 亚洲精品一区二区久| 日本系列第一页| 99精品视频免费在线观看| 成人毛片一区二区| 日韩欧洲国产| 欧美贵妇videos办公室| 亚洲av无码乱码国产精品久久| 欧美激情中文不卡| 人妻有码中文字幕| 精品国产乱码| 国产精品国产三级国产aⅴ浪潮| 亚洲欧美综合在线观看| 色综合久久久久久久久| 日韩人妻无码一区二区三区| 亚洲精品偷拍| 欧美日韩一区在线视频| 欧美成人app| 中文字幕av一区二区| 做爰视频毛片视频| 国产精品色在线| 午夜免费福利网站| 亚洲黄色影院| 久久精品一区二区三区不卡免费视频| 男人av在线播放| 亚洲欧美国产一本综合首页| 国产三级国产精品国产国在线观看| 国产高清精品网站| 亚洲中文字幕无码专区| 成人精品电影| 成人黄色av网站| av漫画网站在线观看| 亚洲性69xxxbbb| 亚洲一区在线观| 国产精品美女久久久久久| 少妇愉情理伦片bd| 另类国产ts人妖高潮视频| 午夜欧美性电影| 欧美一区一区| 2019中文字幕在线免费观看| 亚洲欧美视频一区二区| 欧美一区午夜精品| 丁香六月婷婷综合| 亚洲欧美偷拍卡通变态| 欧美成年人视频网站| ijzzijzzij亚洲大全| av在线视屏| 亚洲精品日韩丝袜精品| 欧美a∨亚洲欧美亚洲| 国产免费观看久久| 91精品人妻一区二区三区蜜桃2| 91精品一区国产高清在线gif| 3d动漫精品啪啪一区二区三区免费 | 国产精品久久国产愉拍| 亚洲电影一二三区| 成人福利免费在线观看| 国产精品久久久久久超碰 | 日韩一区有码在线| 国产69视频在线观看| 国产日本精品| 日本aa在线观看| 成人在线免费视频观看| 欧美精品123| 久久九九精品视频| 91精品国产777在线观看| 日本孕妇大胆孕交无码| 日韩亚洲一区二区| 91社区在线观看播放| 日韩精品视频在线| 亚洲精品网站在线| 8x8x8国产精品| 青青国产在线视频| 色香蕉成人二区免费| 国产 日韩 欧美 成人| 一区二区日韩av| 一级片一级片一级片| 国产精品嫩草影院av蜜臀| 新91视频在线观看| av一二三不卡影片| 国产草草浮力影院| 激情综合网av| 北条麻妃在线观看| 久久精品午夜| 免费黄色福利视频| 尤物在线精品| 久久久久99精品成人片| 日韩影院二区| 亚洲不卡一卡2卡三卡4卡5卡精品| 91免费精品国偷自产在线在线| 国产精品影院在线观看| 周于希免费高清在线观看 | 欧洲高清一区二区| 国产传媒欧美日韩成人精品大片| 久久久久网址| 国产精品欧美在线观看| 欧美少妇一区| 神马电影久久| 亚洲一区不卡在线| 欧美国产偷国产精品三区| 热这里只有精品| 一区二区三区网站| 免费超爽大片黄| 亚洲综合日本| 国产真人无码作爱视频免费| 日本vs亚洲vs韩国一区三区二区 | 国产精品久久一| 超薄肉色丝袜脚交一区二区| 国产精品视频免费观看www| 99久久综合国产精品二区| 国产日韩欧美电影在线观看| 国产午夜精品一区在线观看| 成人激情直播| 综合综合综合综合综合网| 久久伦理网站| 国产一区日韩| 在线免费观看成人网| 欧美3p在线观看| 国产高清av在线播放| 国产日韩1区| www.cao超碰| 成人免费毛片app| 在线观看国产免费视频| 国产欧美日韩精品a在线观看| 日韩精品久久久久久久的张开腿让| 亚洲欧美激情小说另类| 中文字幕在线观看免费高清| 国产精品亲子伦对白| 色欲一区二区三区精品a片| 一区二区三区在线影院| 中文字幕一区在线播放| 5566中文字幕一区二区电影| 免费观看黄色一级视频| 亚洲欧美另类自拍| 特黄aaaaaaaaa真人毛片| 最近2019好看的中文字幕免费| 在线三级中文| 热久久99这里有精品| 91精品网站在线观看| 精品一区在线播放| 婷婷亚洲最大| 日韩人妻一区二区三区蜜桃视频| 欧美先锋影音| 已婚少妇美妙人妻系列| 成人一区二区在线观看| 欧美激情亚洲色图| 亚洲高清不卡在线观看| 国产一级片免费视频| 精品国产成人在线影院 | www亚洲精品| 天堂资源在线| 不卡的av一区| 久久亚洲道色| 国产制服91一区二区三区制服| 国产毛片久久| 岛国av在线免费| 国产婷婷色一区二区三区四区| 欧美精品一区二区成人| 色美美综合视频| 色一情一乱一乱一区91av| 中文字幕欧美日韩| 亚洲美女尤物影院| 亚洲www在线| 三上亚洲一区二区| 欧美三级一级片| 国产成人精品综合在线观看 | 亚洲人成网站色在线观看| 五月婷婷色丁香| 亚洲第一免费网站| 91美女视频在线| 日本中文字幕成人| 欧美日韩导航| 成人一区二区av| 国产一区二区三区在线看麻豆| 欧美大波大乳巨大乳| 亚洲自拍偷拍九九九| 在线观看中文字幕码| 揄拍成人国产精品视频| 欧美一级大片| 成人av网站观看| 国产黑丝一区二区| 国产亚洲欧美日韩日本| 久久久久久久久久久久久av| 欧美三级乱人伦电影| 国产综合视频一区二区三区免费| 国内免费久久久久久久久久久| 日韩三级av高清片| 黄色片免费在线观看视频| 国产精品伊人色| 老湿机69福利| 日韩欧美亚洲另类制服综合在线| 污污网站在线看| 91丨九色丨国产| 国产精品久久久久蜜臀| 99re6在线观看| 91亚洲国产成人精品一区二三| 精品欧美一区二区三区免费观看 | 国产精品区一区二区三区| 一区二区视频网站| 久久综合88中文色鬼| 国产麻豆一区二区三区| 2022中文字幕| 成人午夜视频网站| 免费在线观看黄视频| 日韩欧美精品在线视频| 天堂8中文在线| 精品无人乱码一区二区三区的优势| 99热这里只有成人精品国产| av在线网站观看| 欧美亚洲动漫精品| 超碰在线最新| 国产精品一区而去| 国产亚洲永久域名| 国产精品久久久久久久av福利| 亚洲国产精品精华液ab| 国产精品热久久| 国内精品免费午夜毛片| 日本久久成人网| 国产激情在线观看视频| 中文字幕在线不卡| 亚洲综合精品在线| 久久艹在线视频| 欧美午夜网站| 日韩精品一区中文字幕| 亚洲欧美电影院| www日本高清视频| 青青草成人在线| 午夜久久tv|