精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

再看GAIA Benchamrk:他是如何推動Agent系統的發展的?

發布于 2025-9-24 07:01
瀏覽
0收藏

大家好,我是HxShine。今天再來看看GAIA Benchmark的細節,來看看GAIA如何成為Agent領域最經典的BenchMark之一。它由Meta FAIR、Hugging Face、AutoGPT等機構聯合發布。Title: GAIA: A Benchmark for General Al Assistants(GAIA:一個面向通用人工智能助手的基準測試)。

GAIA旨在評估通用AI助手的能力。與當前主流AI評測基MMLU等追求“對人類也困難”的任務不同,GAIA的理念是提出一系列對普通人來說概念上簡單,但對當今最先進的AI來說卻極具挑戰性的真實世界問題。這些問題需要模型具備推理、多模態處理、網絡瀏覽和工具使用等一系列基礎能力。

實驗結果揭示了驚人的差距:人類在GAIA上的準確率高達92%,而配備了插件的GPT-4得分僅為15%。這表明,盡管LLM在許多專業任務上已經超越人類,但在成為一個像普通人一樣穩健可靠的通用助手方面,還有很長的路要走。GAIA為衡量邁向通用人工智能(AGI)的真實進展提供了一個全新的、更腳踏實地的視角。

一、概述

? Title: GAIA: A Benchmark for General Al Assistants

? URL:?? https://arxiv.org/abs/2311.12983??

? Authors: Grégoire Mialon, Clémentine Fourrier, Craig Swift, Thomas Wolf, Yann LeCun, Thomas Scialom

? Institutions: FAIR, Meta, HuggingFace, AutoGPT, GenAI, Meta

? Code:?? https://huggingface.co/gaia-benchmark??

1 Motivation

? 現有基準如MMLU逐漸被刷飽和并存在數據污染風險: 許多現有的大語言模型(LLM)基準(如MMLU, GSM8k)正在被迅速“攻克”,性能接近飽和。這使得我們難以區分更先進模型的能力。此外,這些基準大多是靜態的,容易受到數據污染(即訓練數據中包含了測試題)的影響。

? 當前一些評測任務太難了,可能對人類專家都比較難,無法評估模型的真正水平: 當前的評測趨勢是尋找對人類專家也越來越難的任務(例如,高難度的STEM或法律問題)。然而,作者認為,一個真正的通用AI助手應該能夠穩健地完成普通人認為“簡單”但需要多個步驟和工具才能完成的任務。現有模型在這方面的能力是缺失的。

? 當前一些benchmark評估比較困難: 對于開放式生成任務,評估非常困難。自動評估難以衡量質量,人工評估成本高昂且難以擴展,而基于模型的評估(Model-based Evaluation)又會引入評估器本身的偏見。因此,需要一種能夠進行簡單、快速、可復現且客觀評估的方法。

2 Methods

GAIA的核心方法是人工精心設計一套問題,這些問題具備以下特點:1)對人類來說概念簡單;2)對AI來說需要復雜的、多步驟的操作才能解決;3)答案是唯一的、事實性的、簡短的,從而可以實現自動化、精確的評估。它通過對比人類和AI的巨大性能差異,來衡量AI助手的真實通用能力。例如下面展示了GAIA三個不同難度等級的示例問題。

? Level 1 要求從NIH網站查找一項臨床試驗的注冊人數,主要考察基礎的網絡搜索和信息定位能力。

? Level 2 給出了一張冰淇淋的營養成分表圖片,要求結合維基百科上關于美國聯邦黃油脂肪含量的標準進行計算,考察了多模態(OCR)、信息檢索和計算能力。

? Level 3 則是一個更復雜的任務,需要結合NASA的每日天文圖片、宇航員團隊信息和個人太空飛行記錄,進行多步查詢和篩選,才能找到最終答案。

再看GAIA Benchamrk:他是如何推動Agent系統的發展的?-AI.x社區

詳細方法和步驟:

GAIA的構建和評估方法主要包含以下幾個關鍵步驟:

1)核心設計原則:

? 真實世界與挑戰性 (Real-world and challenging): 問題要求模型與開放且動態的互聯網交互、處理多模態信息(如圖片、表格文件)、并在多個步驟上進行推理,而非局限于封閉的、純文本的環境。

? 易于解釋 (Easy interpretability): 由于任務對人類來說概念簡單,所以人類評估者可以輕松地理解和驗證模型的推理路徑是否正確。

? 不可欺騙性 (Non-gameability): 問題的答案被精心設計,無法通過簡單的網絡搜索直接在純文本中找到。這迫使模型必須真正地“解決”問題,而不是依賴記憶或數據污染。

? 使用簡單 (Simplicity of use): 問題以零樣本(zero-shot)的方式提出,答案是事實性的、簡潔且無歧義的(如一個數字、一個名字),這使得評估可以快速、自動化地通過“準完全匹配”進行。

2)問題構建與驗證流程:

? 問題創建 (Crafting): 由人類標注員基于真實場景創建問題。這些問題通常需要結合多個信息源(如一個指定的網站和一份附加的文檔)才能得出答案。

? 問題驗證 (Validating): 為了確保問題的無歧義性,每個問題都會交給另外兩名獨立的標注員來解答。只有當創建者和兩名驗證者都得出完全相同的答案時,該問題才被認為是有效的。這個嚴格的流程保證了評估的客觀性。

? 難度分級 (Increasing difficulty): 問題根據解決它所需的操作步驟數和工具種類,被分為三個難度等級(Level 1, 2, 3)。Level 1通常只需要很少的步驟和工具,而Level 3則需要任意長的動作序列和多種工具的組合。

3)能力覆蓋范圍:

? GAIA問題覆蓋了通用AI助手的多種核心能力,主要包括:網絡瀏覽 (Web browsing)、多模態理解 (Multi-modality)、代碼執行 (Coding) 和 多種文件類型讀取 (Diverse filetype reading)。

再看GAIA Benchamrk:他是如何推動Agent系統的發展的?-AI.x社區

4)評估執行:

? 論文中主要評估了GPT-4(帶插件和不帶插件)、AutoGPT等當時最先進的系統,并與人類標注員的得分和耗時以及簡單的搜索引擎基線進行對比。

通過這一套完整的方法論,GAIA構建了一個高質量的評測集,旨在為通用AI助手的發展提供一個可靠的“標尺”。

3 Conclusion

? 揭示了巨大能力差距: GAIA成功地證明了,盡管LLM在許多方面表現出色,但它們與人類在執行需要與現實世界交互的通用任務方面存在巨大的鴻溝(人類92% vs. GPT-4帶插件 15%)。

再看GAIA Benchamrk:他是如何推動Agent系統的發展的?-AI.x社區

? 提出了新的評測范式: GAIA的理念——關注對人簡單但對AI復雜的任務——為評估通用智能提供了一個新的、更實際的方向,強調系統的魯棒性和通用性,而不是在狹窄專業領域的能力。

? 構建了一個高質量、抗污染的基準: 通過嚴格的人工創建和驗證流程,GAIA提供了一個難以“應試”或被數據污染的基準測試,能夠更真實地反映AI助手的實際問題解決能力。

4 Limitation

? 缺乏對推理過程的評估: 目前GAIA只評估最終答案的正確性,而沒有評估模型得出答案的推理路徑(trace)。一個正確的答案可能來自錯誤的推理,評估推理過程是未來需要解決的問題。

? 高昂的構建成本: 設計并驗證一個高質量、無歧義的GAIA問題需要大約2個小時的人工時間,這使得大規模擴展該基準變得非常昂貴和耗時。

? 缺乏語言和文化多樣性: 當前的GAIA完全基于英語,且問題源主要來自英文網頁。這無法衡量AI助手在非英語環境下的表現,也限制了其全球適用性。

? 對模型和工具的依賴: 評估主要集中在有強大工具使用能力的閉源模型(如GPT-4),因為其他模型在這些任務上得分過低。未來需要更多具備工具調用能力的開源模型加入評測。

二、詳細內容

1 Example: GPT-4如何使用代碼解釋器來回答一個需要處理Excel表格的問題?

再看GAIA Benchamrk:他是如何推動Agent系統的發展的?-AI.x社區

2 GAIA問題中有許多附加文件,如xlsx, png, pdf等。

再看GAIA Benchamrk:他是如何推動Agent系統的發展的?-AI.x社區

3 一個完整的示例:提供了詳細的實驗數據,包括問題標注示例、驗證階段的統計數據以及最終的精確數值。

再看GAIA Benchamrk:他是如何推動Agent系統的發展的?-AI.x社區

三、總結

亮點1: 重新定義了AI評測的“難點”,從“智力難題”轉向“通用魯棒性”。 GAIA最大的創新在于,它沒有追求讓AI解決連人類專家都頭疼的問題,而是考察AI是否具備普通人那種、能可靠地完成一系列雖然繁瑣但邏輯清晰的日常任務的能力。這為AGI的研究提供了一個更加務實和關鍵的評估維度。

亮點2: 用無可辯駁的數據揭示了當前AI助手的“脆弱性”。 92% vs 15%的巨大差距,有力地說明了當前最頂尖的AI系統在面對開放、動態的真實世界任務時,其規劃、推理和工具使用的能力仍然非常不可靠。這給當前火熱的Agent領域潑了一盆“冷水”,也指明了未來最需要突破的方向。

亮點3: 提供了一套高質量、可信且難以“刷分”的評測框架。 GAIA通過嚴格的 人工設計和多重驗證,確保了問題的質量和無歧義性,同時其設計理念也使得它天然地抵抗數據污染。 這對于追求真實能力進步而非在排行榜上“刷分”的研究社區來說,具有極高的價值。

產業應用價值: 對于致力于開發AI助手和Agent應用的團隊來說,GAIA是一個絕佳的“試金石”和“導航圖”。它不再讓團隊滿足于在MMLU等學術基準上提升幾個百分點,而是直接暴露了產品在實際應用中可能遇到的核心短板,例如“模型無法穩定調用工具”、“在多步任務中丟失目標”、“無法從網頁或文件中準確提取信息”等。使用GAIA或其理念來構建內部的評測集,可以幫助團隊更準確地定位問題、指導研發方向,從而打造出真正可靠、有用的下一代AI助手,也推動了Agent的發展。

本文轉載自??NLP PaperWeekly??,作者:NLP PaperWeekly

已于2025-9-24 10:33:40修改
收藏
回復
舉報
回復
相關推薦
成人免费看黄yyy456| 高潮按摩久久久久久av免费| 国产欧美日韩激情| 成人网址在线观看| 免费看一级一片| 亚洲精品蜜桃乱晃| 欧美日韩一二三| av在线播放天堂| 国产乱子伦三级在线播放| 免费观看在线色综合| 欧美精品videossex88| 久久丫精品忘忧草西安产品| 国产亚洲高清一区| 欧美视频在线观看免费| 大桥未久一区二区三区| 日韩偷拍自拍| 国产99久久久久久免费看农村| 2021国产精品视频| 欧美人妻精品一区二区三区 | 又黄又色的网站| 日韩激情电影| 伊人性伊人情综合网| 欧美一区二区视频17c| 精品人妻aV中文字幕乱码色欲 | 97色在线观看| 999精品视频在线观看播放| 无码少妇一区二区三区| 久久精品免费看| 韩日精品中文字幕| 91高清免费观看| av伊人久久| 日韩av在线免费观看一区| 国产999免费视频| 欧美日韩成人影院| 欧美日韩国产在线看| 大地资源网在线观看免费官网| 国产区视频在线| 99麻豆久久久国产精品免费优播| 5g国产欧美日韩视频| 欧美一级黄视频| 久久国产成人| 97人人做人人爱| 日韩免费一二三区| 欧美成人中文| 欧美大片欧美激情性色a∨久久| 在线观看天堂av| 日韩欧美一区二区三区免费看| 国产视频精品va久久久久久| 中文字幕在线视频播放| 97se亚洲| 亚洲激情国产精品| 少妇一级淫片免费放播放| av成人app永久免费| 日韩欧美国产一区二区三区| 亚洲第一区第二区第三区| 久久电影天堂| 在线播放国产精品二区一二区四区 | 国产精品一区=区| 亚洲一区中文字幕永久在线| 麻豆精品在线观看| 成人免费网视频| 国产绳艺sm调教室论坛| 国产精品一区二区视频| 91在线观看免费观看| av免费观看网址| 国产91色综合久久免费分享| 成人在线观看av| 色婷婷av一区二区三| av电影一区二区| 欧美三级华人主播| av色图一区| 日韩毛片视频在线看| 激情图片qvod| 国产第一页在线| 欧美日韩一区二区三区在线免费观看| 欧美aⅴ在线观看| 国产成人77亚洲精品www| 欧美日韩一区高清| 国产一级二级av| 国产三级精品三级在线观看国产| 日韩二区三区在线| 东方伊人免费在线观看| 亚洲网色网站| 91成人福利在线| 在线观看你懂的网站| 国产在线精品一区在线观看麻豆| 粉嫩av免费一区二区三区| 五月婷婷丁香花| 久久综合久色欧美综合狠狠| 日本高清视频一区二区三区| 免费不卡视频| 精品露脸国产偷人在视频| 91淫黄看大片| 日本免费一区二区视频| 亚洲精品丝袜日韩| 疯狂撞击丝袜人妻| 国产欧美日韩一级| 91探花福利精品国产自产在线 | 亚洲欧美日韩一区二区在线 | 亚洲精品写真福利| www.中文字幕在线| 国产精品免费精品自在线观看| 亚洲精品在线一区二区| 嘿嘿视频在线观看| 9久re热视频在线精品| 国产精品偷伦一区二区| 欧美一级做性受免费大片免费| 国产女同性恋一区二区| 成人在线国产视频| 日本黄色成人| 亚洲情综合五月天| 久久综合色综合| 久久99国产精品久久| 精品在线一区| 色呦呦呦在线观看| 精品视频999| 性久久久久久久久久 | 久草热视频在线观看| 91精品福利观看| 亚洲天堂网在线观看| 日本少妇裸体做爰| 国产精品中文有码| 一区二区精品在线观看| av在线日韩| 精品中文视频在线| 日韩av女优在线观看| 国产九色精品成人porny| 婷婷四房综合激情五月| 国产精品伦理| 亚洲精品v天堂中文字幕| 成年人av电影| 另类小说一区二区三区| 欧美午夜精品久久久久免费视| 538在线视频| 欧美大片在线观看一区二区| 成人高潮免费视频| 三级影片在线观看欧美日韩一区二区| 国产在线一区二区三区四区| 中文字幕伦理免费在线视频| 欧美喷潮久久久xxxxx| 99久久99久久精品免费| 久久久国产精品一区二区中文| 国产一区在线观| 91高清视频在线观看| 亚洲国产精品人人爽夜夜爽| 青青草原免费观看| 国产成a人亚洲| 日日噜噜噜夜夜爽爽| 91成人小视频| 欧美成人精品一区| 国产av无码专区亚洲av| 亚洲黄网站在线观看| 深夜做爰性大片蜜桃| 欧美成熟视频| 成人黄色在线免费观看| 福利网站在线观看| 亚洲国产精品资源| 国产精品自拍99| 久久美女艺术照精彩视频福利播放| 成人毛片视频网站| 精品国产一区二区三区噜噜噜 | 午夜久久av| 色综合久久天天综线观看| 黄色a在线观看| 精品美女国产在线| 欧美图片第一页| 免费欧美日韩国产三级电影| 波多野结衣三级在线| 国产亚洲观看| 97在线视频免费播放| 天堂av电影在线观看| 色悠悠久久综合| 美女av免费看| 国产精品白丝jk黑袜喷水| 91免费黄视频| 久久99精品久久久久久园产越南| 国产精品视频导航| 污污的视频在线观看| 亚洲激情视频在线播放| 少妇无套内谢久久久久| 亚洲人一二三区| 大乳护士喂奶hd| 美女视频黄频大全不卡视频在线播放 | 国产又黄又猛的视频| 伊人久久大香线蕉精品组织观看| 成人片在线免费看| 日韩不卡在线| 欧美激情精品久久久久久蜜臀| 色视频在线观看福利| 欧美日韩视频第一区| 精品一区在线视频| 日本一区二区视频在线| av在线天堂网| 全国精品久久少妇| 亚洲熟妇无码一区二区三区导航| sdde在线播放一区二区| 99伊人久久| 电影一区二区| 2019中文字幕免费视频| 蜜桃视频在线观看免费视频网站www| 欧美岛国在线观看| 一级黄色片网站| 一本色道a无线码一区v| 欧美日韩一级大片| 亚洲国产精品成人综合| 久久久久久久人妻无码中文字幕爆| 肉肉av福利一精品导航| 久久精品无码中文字幕| 欧美韩国日本在线观看| 国产色综合一区二区三区| 久久免费资源| 日本在线精品视频| hd国产人妖ts另类视频| 日韩小视频在线观看| 日本中文字幕电影在线观看| 日韩美女在线视频| 亚洲视频在线观看免费视频| 狠狠躁夜夜躁久久躁别揉| www.超碰在线观看| 中文字幕av不卡| v8888av| 成人精品视频一区| 91欧美一区二区三区| 青青草97国产精品免费观看无弹窗版| 国产特级淫片高清视频| 在线观看国产精品入口| 亚洲一区二区三区四区中文| 中文字幕精品影院| 精品国产一区二区三区免费| 亚洲精品在线国产| 亚洲xxx视频| 欧美成人aaa| 国产精品成av人在线视午夜片| 激情黄产视频在线免费观看| 久久久久久成人精品| 欧洲中文在线| 欧美另类在线播放| 中文国产字幕在线观看| xvideos亚洲| 日本免费中文字幕在线| 国产一区二区三区精品久久久| 日本国产在线| 日韩精品中文字幕有码专区| 少妇一区二区三区四区| 亚洲国产精久久久久久| 欧美在线 | 亚洲| 欧美精品一区二区三区视频| 亚洲免费一级片| 亚洲国产精品久久91精品| 天天摸夜夜添狠狠添婷婷| 亚洲成人网av| 天堂av2024| 亚洲美女动态图120秒| 九九在线视频| 在线观看成人黄色| 免费看美女视频在线网站| 日韩视频永久免费观看| 97caopron在线视频| 欧美福利视频网站| av资源在线播放| 日本免费久久高清视频| 99久久精品一区二区成人| 国产一区二区视频在线观看| 日韩免费高清视频网站| 国产精品国产精品| 六月丁香久久丫| 视频一区视频二区视频三区高| 久久福利综合| 99国产精品白浆在线观看免费| 亚洲大片av| 国产精品亚洲二区在线观看| 日本美女一区二区| 深夜做爰性大片蜜桃| av在线综合网| 免费看黄色三级| 亚洲人精品午夜| 欧美日韩精品区| 欧美色图片你懂的| 亚洲成人777777| 亚洲欧美激情另类校园| 麻豆tv免费在线观看| 久久久久久久久久久久av| 欧美大胆成人| 亚洲自拍偷拍色图| 亚洲成在人线免费观看| 亚洲一区二区免费视频软件合集| 在线电影一区| 999精彩视频| 99久久精品情趣| 国产福利在线导航| 狠狠做深爱婷婷久久综合一区| 国产精品国产精品国产| 欧美xingq一区二区| 九色蝌蚪在线| 久久久噜噜噜久久中文字免| 日韩精品影院| 国产青春久久久国产毛片| 日韩一区电影| 午夜肉伦伦影院| 国产盗摄一区二区三区| www..com.cn蕾丝视频在线观看免费版 | 欧美精品在线一区二区三区| 亚洲欧洲视频在线观看| 久久久精品久久久| 日韩精品三区| 国产一区福利视频| 午夜视频一区| 男人添女人下面免费视频| 99视频一区二区| 校园春色 亚洲| 欧美日韩国产免费一区二区| 香蕉人妻av久久久久天天| 美女视频黄免费的亚洲男人天堂| 日本不卡一二三| 国产区一区二区三区| 国产精品毛片久久| 午夜国产一区二区三区| 91蜜桃视频在线| 国产无遮挡又黄又爽| 欧美精品自拍偷拍| 日本三级在线视频| 国产精品久久久久久久天堂| 婷婷综合一区| 黄色一级视频片| 成人午夜电影久久影院| √天堂中文官网8在线| 欧美日韩国产精选| 国产综合视频一区二区三区免费| 性欧美在线看片a免费观看| 日韩中文字幕无砖| 中文字幕一区二区三区最新| 日韩av高清在线观看| 亚洲熟妇无码av| 精品久久中文字幕| 色哟哟在线观看| 欧美一区第一页| 日本福利一区| 1024av视频| 96av麻豆蜜桃一区二区| 国产奶水涨喷在线播放| 亚洲高清久久久久久| 欧美aaaaaaa| 国产精品视频入口| 一区在线免费观看| chinese麻豆新拍video| 亚洲成人一区在线| 天堂网avav| 9191成人精品久久| 激情在线小视频| 亚洲综合成人婷婷小说| 欧美国产高清| 国产亚洲精品成人a| 亚洲成人午夜电影| 色wwwwww| 日韩av免费看| 日韩免费高清| 中文字幕55页| 亚洲国产cao| 青青视频在线观| 国产精品女视频| 91亚洲一区| 师生出轨h灌满了1v1| 亚洲一区二区美女| 偷拍自拍在线| 国产精品免费在线免费| 91精品秘密在线观看| www.欧美com| 色综合视频在线观看| 91成人高清| 成人av蜜桃| 美女被久久久| 免费黄色激情视频| 亚洲国产精品中文| 国产经典一区| 国产情侣第一页| 久久久美女毛片| 国产孕妇孕交大片孕| 欧美激情精品久久久久久免费印度| 天天躁日日躁狠狠躁欧美| 精品999在线| 亚洲一区二区三区爽爽爽爽爽| 日韩电影免费| 亚洲r级在线观看| 久久激情综合| 青娱乐国产在线| 亚洲午夜未满十八勿入免费观看全集| 欧美日韩破处视频| aa视频在线播放| 国产精品―色哟哟| 天天操天天爱天天干| 国产精品揄拍一区二区| 一区免费视频| 久久久免费看片| 亚洲国产成人精品一区二区 | av网站无病毒在线| 国产精品久久精品国产| 麻豆精品视频在线观看视频| 欧美人妻精品一区二区三区| 国产亚洲精品一区二区| 亚洲精品一区二区三区在线|