精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Hinton和LeCun再交鋒,激辯LLM能否引發智能奇點!LeCun:人類理解能力碾壓GPT-4

人工智能 新聞
大模型能否理解自己所說,Hinton和LeCun再次吵起來了。LeCun新論文證明,GPT-4回答問題準確率僅為15%,自回歸模型不及人類。

AI大佬的激戰再次掀起。

Hinton在線直接點名LeCun,說他對AI接管風險的看法對人類的影響微乎其微。

這意味著,他把自己的意見看得很重,而把許多其他同樣有資格的專家的意見看得很輕。

圖片

在Hinton看來,他們之間意見分歧的核心論點是「LLM是真正理解自己說什么」。

圖片

當然了,一直站在末日派中的Hinton認為大模型有了意識,而LeCun、吳恩達等人卻認為LLM不明白自己所說。

對此,LeCun反駁道,大模型顯然對其閱讀和生成的內容有「一些」理解,但這種理解是非常有限和膚淺的。

總的來說,目前自回歸大模型沒有對推理和規劃能力,遠未及人類水平的智能。

恰在近日,LeCun發表了一篇新論文,再提自回歸LLM做得不好。

論文中,研究人員介紹了一個通用AI助手基準GAIA。

其中提出了需要一系列基本能力的現實世界問題,比如推理、多模態處理、網頁瀏覽和一般的工具使用熟練程度。

圖片

論文地址:https://arxiv.org/pdf/2311.12983.pdf

結果表明,GAIA設計的問題對人類來說簡直輕而易舉,而對大多數高級AI來說卻很有挑戰性。

即,人類回答準確率為92%,而用上插件的GPT-4回答準確率僅為15%。

通用人工智能助手基準——GAIA

GAIA的產生,既是因為需要修訂AI基準,也是因為發現了LLM評估的不足之處。

研究人員提出的通用人工智能助手的基準——GAIA,包含了466個精心設計的問題和答案,以及相關的設計方法。

這些問題對AI系統具有挑戰性,大多數需要復雜的代數。

但又能給出唯一的、符合事實的答案,從而實現簡單而穩健的自動評估。

圖片

GAIA問題示例

設計選擇

第一個原則:瞄準概念上簡單但對人類來說可能乏味的問題。

這些問題多種多樣的,植根于現實世界,對當前的人工智能系統具有挑戰性。

因此,這些問題的設計將重點放在基本能力上,如通過推理快速適應、多模態理解和潛在的多樣化工具使用,而不是專業技能上。

問題一般包括查找和轉換從不同來源收集到的信息,如提供的文檔或開放且不斷變化的網絡,從而得出準確的答案。

第二個原則:可解釋性。

由于高度精選的問題數量有限,因此與匯總問題相比,該基準更易于使用。

任務的概念簡單性(人類成功率為 92%)使得用戶很容易理解模型的推理軌跡。

第三個原則:對記憶的魯棒性。

為了完成一項任務,GAIA系統必須計劃并成功地完成一些步驟,因為從當前的訓練前數據中,得到的答案是設計成純文本的。

第四個原則:易用性。

研究者的任務是附加文件的簡單提示。至關重要的是,問題的答案是事實,簡明和明確的。

這些特性允許簡單、快速和事實性的評估。

評估

GAIA的設計的評估是自動化的、快速的、真實的。

在實踐中,除非另有說明,否則每個問題都需要一個答案,這個答案要么是一個字符串(一個或幾個單詞) ,一個數字,要么是用逗號分隔的字符串或浮點列表。

每個問題,只有一個正確答案。

因此,評估是通過模型的答案和地面真值之間的準確匹配來完成的。

如下圖,回答GAIA問題時,像GPT-4這樣的人工智能助手,需要完成幾個步驟,可能需要使用工具或者讀取文件。

圖片

GAIA的構成

想要在GAIA上獲得完美的分數,大模型需要先進的推理能力、多模態的理解、編碼能力和一般的工具使用,例如網頁瀏覽。

根據解決問題所需步驟的數量和回答問題所需的不同工具的數量,可以將問題分為三個難度增加的級別。

- 1級問題通常不需要任何工具,或者最多只需要一個工具,但不超過5個步驟。

- 第2級問題通常涉及更多的步驟,大約在5到10之間,需要結合不同的工具。

- 第三級是一個近乎完美的普通助理的問題,需要采取任意長的動作序列,使用任意數量的工具,并進入一般的世界。

GPT-4表現如何

使用GAIA評估大型語言模型只需要具備向模型發出提示的能力,即API訪問權限。

研究人員在提問前使用一個前綴提示詞,以便于提取答案,具體參見下圖。

圖片

研究人員評估了GPT-4帶插件和不帶插件的版本,以及以GPT-4為后端的AutoGPT。

目前,GPT-4需要手動選擇插件。相反,AutoGPT能夠自動進行這一選擇。

研究人員采用的的非LLM基準包括人類注釋者和網絡搜索。對于后者,他們在搜索引擎中輸入問題,并檢查是否能從搜索結果的第一頁中推導出答案。

這使他們能夠評估研究人員的問題答案是否可以輕松地在網絡上找到。只要API可用,就運行模型三次,并呈現得到的平均結果。

GPT-4插件

與GPT-4不同的是,目前還沒有帶插件的GPT-4 API,研究人員不得不手動進行ChatGPT查詢。

在撰寫本文時,用戶必須手動在一個高級數據分析模式(具有代碼執行和文件讀取能力)和最多三個第三方插件之間進行選擇。研究人員根據任務給定的最重要功能的最佳猜測,選擇第一種模式或選擇第三方插件。研究人員通常依賴于:

(i)一個用于閱讀各種類型鏈接的工具,

(ii)一個網絡瀏覽工具,

(iii)一個用于計算的工具。

遺憾的是,目前無法在一段時間內使用一組穩定的插件,因為插件經常更改或從商店中消失。

同樣,GPT-4的官方搜索工具也被移除,因為它可能繞過付費墻,但最近又重新推出。因此,研究人員對帶插件的GPT4的評分是GPT-4潛力的「預估」,是基于更穩定和自動選擇插件的估計。

結果

研究人員的評估結果如下圖所示。

研究人員提出的難度等級,大致根據步驟數量和使用的不同能力數量定義,與當前模型的性能相關,增強了它們的有效性。

雖然人類在所有層面上表現出色,但當前最好的LLM表現不佳。

總的來說,GAIA允許清晰地對有能力的助手進行排名,同時也為未來幾個月甚至幾年的改進留下了很大的空間。

人類通過網絡搜索可能會獲得文本結果,從中可以推斷出一級難度問題的正確答案,但當涉及到稍微復雜一點的查詢時,這種方法就不那么有效了,并且比典型的大型語言模型(LLM)助手稍慢,因為用戶需要瀏覽首批搜索結果。

這證實了LLM助手作為搜索引擎的競爭者的潛力。

GPT-4在沒有插件的情況下的結果與其他情況的差異表明,通過工具API或訪問網絡增強LLM可以提高答案的準確性,并解鎖許多新的用例,確認了這一研究方向的巨大潛力。

特別是,GPT-4加上插件表現出了諸如回溯或查詢優化等行為,當結果不令人滿意時,以及相對較長的計劃執行時間。

AutoGPT-4允許GPT-4自動使用工具,但其在二級難度,甚至與不帶插件的GPT-4相比,一級難度的結果也令人失望。這種差異可能來自AutoGPT-4依賴GPT-4 API(提示和生成參數)的方式。

與其他LLM相比,AutoGPT-4也較慢。總的來說,人類與帶插件的GPT4的合作似乎到目前為止提供了最佳的得分與所需時間比。

下圖顯示了按能力劃分的模型得分。

圖片

不出所料,GPT-4無法處理文件和多模態問題,但能夠解決注釋者使用網絡瀏覽解決的問題,主要是因為它正確地記住了需要結合起來才能得到答案的信息片段。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-03-28 15:39:00

AIChatGPT

2023-10-24 19:42:50

AI訓練

2023-10-25 12:43:36

AI模型

2023-05-05 09:42:12

2024-01-18 13:39:00

AI訓練

2023-03-27 17:45:16

研究AI

2023-04-03 14:47:12

GPT-4科研

2024-06-24 17:45:16

2024-02-02 17:04:35

UCLALLMGPT-4

2024-01-12 13:38:54

業務購物ToC

2023-12-07 06:50:07

AI谷歌

2023-06-25 09:38:04

GPT-4研究

2023-03-29 10:31:40

MIT論文

2023-11-13 19:31:47

GPT-4VLLaVABard

2024-03-05 11:18:14

模型訓練

2024-05-20 08:40:00

2023-06-19 08:19:50

2023-11-03 13:07:00

AI模型

2021-02-25 10:23:01

人工智能科技機器學習

2025-04-16 09:35:03

點贊
收藏

51CTO技術棧公眾號

超碰97在线看| 国产91网红主播在线观看| 88av.com| 欧美人xxx| 国产精品性做久久久久久| 久久影视电视剧免费网站清宫辞电视 | jlzzjlzz亚洲女人| 欧美精品乱人伦久久久久久| 日韩av一级大片| 国产乱色精品成人免费视频| 亚洲欧美伊人| 日韩电影大全免费观看2023年上 | 岳毛多又紧做起爽| 91在线导航| 国产精一区二区三区| 午夜精品一区二区三区视频免费看| 7788色淫网站小说| av成人免费| 有码一区二区三区| 国产精品theporn88| 五月激情四射婷婷| 天堂va欧美ⅴa亚洲va一国产| 色偷偷成人一区二区三区91| 成年人视频网站免费| yourporn在线观看中文站| 高清成人免费视频| 国产一区二区色| 国产寡妇亲子伦一区二区三区四区| 牛牛国产精品| 久久影视免费观看| 亚洲黄色网址大全| 精品日韩毛片| 亚洲另类激情图| 香蕉视频污视频| 日韩区欧美区| 91麻豆精品国产91| 手机免费av片| 日韩成人综合网站| 欧美色网一区二区| 久久九九国产视频| 高潮一区二区| 色综合一区二区三区| 男的插女的下面视频| 91高清在线观看视频| 亚洲私人黄色宅男| 中文精品视频一区二区在线观看| 成人全视频高清免费观看| 中文在线8资源库| 成人免费在线视频| 亚洲精品电影在线一区| 福利视频在线播放| 国产午夜久久久久| 日本一区二区不卡高清更新| 天天色综合久久| 不卡在线视频中文字幕| 国产伦精品一区二区三区视频黑人| aaa级黄色片| 国产精品一区二区在线看| 成人h片在线播放免费网站| 亚洲视频中文字幕在线观看| 久久精品国产在热久久| 国产精品久久久久久久久久久新郎 | wwwwwxxxx日本| 热久久久久久| 在线播放日韩导航| 无码人妻少妇色欲av一区二区| 免费看一区二区三区| 日韩三级视频在线看| 91人人澡人人爽| 国产伦理久久久久久妇女 | 催眠调教后宫乱淫校园| 牛牛影视久久网| 亚洲色无码播放| 亚洲a∨无码无在线观看| 97久久视频| 欧美成人h版在线观看| 久久久国产精华液| 国产精品老牛| 国产精品一二三在线| 国产日韩欧美中文字幕 | 丰腴饱满的极品熟妇| 红桃成人av在线播放| 自拍偷拍亚洲精品| av激情在线观看| 亚洲区一区二| 国产精品久久久999| 国产视频一区二区三| 成人黄色大片在线观看| 欧美日韩国产一二| 免费黄色在线观看| 激情成人中文字幕| 青青草精品视频在线| 日韩欧美看国产| 3d成人动漫网站| 自拍视频一区二区| 91久久久精品国产| 欧日韩在线观看| 97人妻一区二区精品免费视频| www..com久久爱| 亚洲午夜精品久久| 黄色软件视频在线观看| 欧美色综合久久| chinese麻豆新拍video| 亚洲成av人片乱码色午夜| 91av在线免费观看视频| 国产又粗又猛视频免费| 久久综合狠狠综合久久综合88| 在线视频精品一区| 欧美××××黑人××性爽| 欧美电影免费提供在线观看| 国产伦理片在线观看| 韩日成人av| 亚洲精品日韩激情在线电影| 国产午夜精品一区理论片| 夜色激情一区二区| 日本中文字幕二区| 精品黄色一级片| 26uuu另类亚洲欧美日本一| 国产美女免费视频| 欧美激情综合五月色丁香小说| 国产精品无码人妻一区二区在线| 久久精品嫩草影院| 亚洲欧洲黄色网| xxxxxx国产| 国产麻豆午夜三级精品| 性欧美videosex高清少妇| 欧美aaaaa性bbbbb小妇| 日韩久久精品一区| 少妇高潮一区二区三区喷水| 久久久精品日韩| 国产亚洲二区| 高清电影在线免费观看| 日韩午夜av电影| frxxee中国xxx麻豆hd| 欧美aaa在线| 日韩欧美第二区在线观看| 亚洲欧洲美洲av| 亚洲国产精品yw在线观看 | 精品黑人一区二区三区观看时间| 狠狠爱www人成狠狠爱综合网| 亚洲一区二区三区乱码aⅴ蜜桃女 亚洲一区二区三区乱码aⅴ | 日韩经典中文字幕| 日韩三级视频在线播放| 粉嫩蜜臀av国产精品网站| 国产欧美久久久久| 911亚洲精品| 欧美激情一区二区三区在线视频观看 | 久久青青色综合| 日韩久久免费av| 久久一二三四区| 成人黄页在线观看| 男女高潮又爽又黄又无遮挡| 午夜精品福利影院| 国产精品扒开腿爽爽爽视频| yw193.com尤物在线| 欧美午夜不卡视频| 秋霞欧美一区二区三区视频免费| 免费成人你懂的| 男女啪啪的视频| 警花av一区二区三区| 精品中文字幕在线| 欧洲av在线播放| 日韩欧美精品在线观看| 级毛片内射视频| 免费成人在线观看视频| 中国老女人av| 久草精品视频| 日本精品免费一区二区三区| www在线免费观看| 欧美美女视频在线观看| 精品视频在线观看免费| 99re这里只有精品6| 北条麻妃在线一区| 久久精品影视| 狠狠久久综合婷婷不卡| 亚洲天堂一区二区| 自拍偷拍免费精品| 六月婷婷中文字幕| 日韩欧亚中文在线| 91杏吧porn蝌蚪| 97精品久久久午夜一区二区三区| 男人亚洲天堂网| 久久久久久久久99精品大| 粉嫩av免费一区二区三区| 周于希免费高清在线观看| 自拍视频国产精品| 全部免费毛片在线播放一个| 91久久香蕉国产日韩欧美9色| 国产3级在线观看| 99精品久久免费看蜜臀剧情介绍| 天天干在线影院| 欧美天天在线| 日韩欧美一区二区三区久久婷婷| 国产免费区一区二区三视频免费 | 日韩一区中文| 97视频在线播放| 麻豆影院在线| 亚洲免费视频一区二区| 精品国产av鲁一鲁一区| 91福利在线播放| 日韩av电影网址| 亚洲欧洲在线观看av| 一本色道综合久久欧美日韩精品| 韩国成人在线视频| 国产男女激情视频| 亚洲午夜精品久久久久久app| 日韩三级电影免费观看| 美女一区2区| 91啪国产在线| 日本另类视频| 91成人福利在线| 久久www人成免费看片中文| 中文字幕亚洲字幕| 欧美精品久久久久久久久久丰满| 日韩欧美你懂的| 亚洲综合五月天婷婷丁香| 日本精品一级二级| 亚州国产精品视频| 亚洲精品国产一区二区三区四区在线 | 久久天天躁狠狠躁夜夜爽蜜月| 你懂的在线播放| 日韩av在线网站| 丰满肉肉bbwwbbww| 日韩一区二区在线看| 亚洲自拍第二页| 欧美主播一区二区三区| 人妻 日韩精品 中文字幕| 亚洲日本在线观看| 青青青视频在线免费观看| 久久久精品2019中文字幕之3| 亚洲欧美日韩偷拍| 国产99久久久久| 中文字幕第10页| 国产乱码精品一区二区三| 中文字幕第一页在线视频| 欧美aaaaa成人免费观看视频| 免费在线观看的毛片| 免费在线观看成人av| 成 年 人 黄 色 大 片大 全| 亚洲一级高清| 精品成在人线av无码免费看| 国产一区二区三区四区三区四 | 久久久久久国产免费a片| 久久这里都是精品| 中文字幕一区二区三区人妻不卡| 99久久国产综合精品色伊| 日韩综合第一页| 99精品热视频| 亚洲一级中文字幕| 国产欧美一区二区精品婷婷| 亚洲av成人片色在线观看高潮 | 韩国一区二区三区| 一区二区三区欧美精品| 国产一区二区导航在线播放| 亚洲欧美激情一区二区三区| 国产成人8x视频一区二区| 国产精品久久久久久在线观看| 成人天堂资源www在线| 中文字幕日韩三级片| 99国内精品久久| 日韩一级av毛片| 欧美日韩一二三四| 在线免费不卡电影| 91video| 欧美性猛交xxxxx水多| www.国产毛片| 欧美欧美午夜aⅴ在线观看| 91精品中文字幕| 日韩美女在线视频| 天堂中文在线官网| 日韩精品中文字幕在线播放| 国产一级在线| 久久天天躁夜夜躁狠狠躁2022| 色女人在线视频| 欧美一级片免费在线| 自拍网站在线观看| 成人免费激情视频| 欧美日日夜夜| 亚洲国产日韩欧美| 国产精品扒开腿做爽爽爽软件| 日韩黄色片视频| 久草这里只有精品视频| 69亚洲乱人伦| 欧美国产综合一区二区| 欧美人与禽zozzo禽性配| 欧美日韩在线影院| 这里只有精品6| 日韩av影视在线| 日本视频在线播放| 97人人做人人爱| **精品中文字幕一区二区三区| 国产高清精品一区二区三区| 精品国产一区二区三区av片| a级片一区二区| 日本不卡一区二区三区| 久久精品aⅴ无码中文字字幕重口| 久久久久亚洲蜜桃| 在线观看成人毛片| 欧洲一区在线电影| 亚洲欧美激情国产综合久久久| 国产午夜一区二区| 国产乱妇乱子在线播视频播放网站| 国产精品日韩专区| 欧美高清视频看片在线观看 | 精品国产成人| 精品丰满人妻无套内射| 理论电影国产精品| 懂色av粉嫩av蜜乳av| 亚洲人成人一区二区在线观看| 欧美日韩一级黄色片| 精品福利一区二区三区| 成人在线网址| 国产精品激情自拍| 欧美成人专区| 先锋影音男人资源| 久久亚洲国产精品一区二区| 久久人妻少妇嫩草av蜜桃| 国产精品久久久久久久久免费相片| 一级片免费网址| 日韩欧美中文字幕制服| 免费在线你懂的| 国产精品高潮呻吟久久av黑人| 国内毛片久久| www亚洲国产| 精品中文av资源站在线观看| 微拍福利一区二区| 色综合久久久久综合体| 亚洲欧美一区二区三| 欧美黑人狂野猛交老妇| 免费一区二区三区在线视频| 中文字幕中文字幕在线中一区高清| 日本不卡视频在线| 欧美 日韩 国产 成人 在线观看 | 久久久久久久一区二区三区| 97久久中文字幕| 中文字幕一区二区三区最新| 久久福利视频一区二区| 国产精品情侣呻吟对白视频| 欧美午夜在线一二页| yes4444视频在线观看| 国产精品高精视频免费| 成人免费在线播放| 国产一二三四在线视频| 日本一区二区三级电影在线观看 | 日本中文字幕免费在线观看| 555夜色666亚洲国产免| 成人在线播放| 91黄色精品| 亚洲小说区图片区| 欧美夫妇交换xxx| 色综合久久综合中文综合网| 日本a一级在线免费播放| 日本高清不卡的在线| 国产剧情一区| 亚洲老女人av| 中文字幕在线不卡| 99在线观看免费| 久久久女人电视剧免费播放下载| 久久久久97| 亚洲中文字幕无码不卡电影| 中文字幕乱码日本亚洲一区二区| 在线免费观看视频网站| 精品中文字幕在线| 欧美人体视频| 亚洲一区在线不卡| 一区二区三区成人在线视频| 天天综合网在线| 国产精品成人v| 在线成人直播| 日本免费福利视频| 欧美色综合网站| 日本孕妇大胆孕交无码| 精品国产一区二区三| 日韩av电影天堂| 国产盗摄x88av| 亚洲精品小视频在线观看| 欧美爱爱视频| 97在线国产视频| 亚洲国产精品精华液ab| 成人高潮片免费视频| 欧美洲成人男女午夜视频| 日韩大片在线播放| youjizz.com国产| 日本丰满少妇一区二区三区| 成人直播在线| 欧美一区二视频在线免费观看| 国产一区二区在线影院| 在线观看中文字幕视频| 日韩一区二区欧美| 欧洲vs亚洲vs国产| 亚洲涩涩在线观看| 精品久久久久久中文字幕| 老司机午夜在线视频| 欧美黄色直播| 国产高清一区日本| 精品成人无码久久久久久| 欧美精品18videos性欧美| sdde在线播放一区二区| 一女三黑人理论片在线| 日韩欧美国产一二三区|