精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

LeCun又雙叒唱衰自回歸LLM:GPT-4的推理能力非常有限,有兩篇論文為證

人工智能 新聞
論文作者表示,他們同樣認為 LLM 是了不起的「創意生成器」(無論是語言形式還是代碼形式),只是它們無法保證自己的規劃 / 推理能力。

「任何認為自動回歸式 LLM 已經接近人類水平的 AI,或者僅僅需要擴大規模就能達到人類水平的人,都必須讀一讀這個。AR-LLM 的推理和規劃能力非常有限,要解決這個問題,并不是把它們變大、用更多數據進行訓練就能解決的。」

圖片

一直以來,圖靈獎得主 Yann LeCun 就是 LLM 的「質疑者」,而自回歸模型是 GPT 系列 LLM 模型所依賴的學習范式。他不止一次公開表達過對自回歸和 LLM 的批評,并產出了不少金句,比如:

「從現在起 5 年內,沒有哪個頭腦正常的人會使用自回歸模型。」

「自回歸生成模型弱爆了!(Auto-Regressive Generative Models suck!)」

「LLM 對世界的理解非常膚淺。」

讓 LeCun 近日再次發出疾呼的,是兩篇新發布的論文:

「LLM 真的能像文獻中所說的那樣自我批判(并迭代改進)其解決方案嗎?我們小組的兩篇新論文在推理 (https://arxiv.org/abs/2310.12397) 和規劃 (https://arxiv.org/abs/2310.08118) 任務中對這些說法進行了調查(并提出了質疑)。」

看起來,這兩篇關于調查 GPT-4 的驗證和自我批判能力的論文的主題引起了很多人的共鳴。

論文作者表示,他們同樣認為 LLM 是了不起的「創意生成器」(無論是語言形式還是代碼形式),只是它們無法保證自己的規劃 / 推理能力。因此,它們最好在 LLM-Modulo 環境中使用(環路中要么有一個可靠的推理者,要么有一個人類專家)。自我批判需要驗證,而驗證是推理的一種形式(因此對所有關于 LLM 自我批判能力的說法都感到驚訝)。

同時,質疑的聲音也是存在的:「卷積網絡的推理能力更加有限,但這并沒有阻止 AlphaZero 的工作出現。這都是關于推理過程和建立的 (RL) 反饋循環。我認為模型能力可以進行極其深入的推理(例如研究級數學)。」

圖片

對此,LeCun 的想法是:「AlphaZero「確實」執行規劃。這是通過蒙特卡洛樹搜索完成的,使用卷積網絡提出好的動作,并使用另一個卷積網絡來評估位置。探索這棵樹所花費的時間可能是無限的,這就是推理和規劃。」

在未來的一段時間內,自回歸 LLM 是否具備推理和規劃能力的話題或許都不會有定論。

接下來,我們可以先看看這兩篇新論文講了什么。

論文 1:GPT-4 Doesn’t Know It’s Wrong: An Analysis of Iterative Prompting for Reasoning Problems

第一篇論文引發了研究者對最先進的 LLM 具有自我批判能力的質疑,包括 GPT-4 在內。

圖片

論文地址:https://arxiv.org/pdf/2310.12397.pdf

接下來我們看看論文簡介。

人們對大型語言模型(LLM)的推理能力一直存在相當大的分歧,最初,研究者樂觀的認為 LLM 的推理能力隨著模型規模的擴大會自動出現,然而,隨著更多失敗案例的出現,人們的期望不再那么強烈。之后,研究者普遍認為 LLM 具有自我批判( self-critique )的能力,并以迭代的方式改進 LLM 的解決方案,這一觀點被廣泛傳播。

然而事實真的是這樣嗎?

來自亞利桑那州立大學的研究者在新的研究中檢驗了 LLM 的推理能力。具體而言,他們重點研究了迭代提示(iterative prompting)在圖著色問題(是最著名的 NP - 完全問題之一)中的有效性。

該研究表明(i)LLM 不擅長解決圖著色實例(ii)LLM 不擅長驗證解決方案,因此在迭代模式下無效。從而,本文的結果引發了人們對最先進的 LLM 自我批判能力的質疑。

論文給出了一些實驗結果,例如,在直接模式下,LLM 在解決圖著色實例方面非常糟糕,此外,研究還發現 LLM 并不擅長驗證解決方案。然而更糟糕的是,系統無法識別正確的顏色,最終得到錯誤的顏色。

如下圖是對圖著色問題的評估,在該設置下,GPT-4 可以以獨立和自我批判的模式猜測顏色。在自我批判回路之外還有一個外部聲音驗證器。

圖片

結果表明 GPT4 在猜測顏色方面的準確率低于 20%,更令人驚訝的是,自我批判模式(下圖第二欄)的準確率最低。本文還研究了相關問題:如果外部聲音驗證器對 GPT-4 猜測的顏色提供可證明正確的批判,GPT-4 是否會改進其解決方案。在這種情況下,反向提示確實可以提高性能。

即使 GPT-4 偶然猜出了一個有效的顏色,它的自我批判可能會讓它產生幻覺,認為不存在違規行為。

最后,作者給出總結,對于圖著色問題:

  • 自我批判實際上會損害 LLM 的性能,因為 GPT-4 在驗證方面很糟糕;
  • 來自外部驗證器的反饋確實能提高 LLM 的性能。

論文 2:Can Large Language Models Really Improve by Self-critiquing Their Own Plans?

在論文《Can Large Language Models Really Improve by Self-critiquing Their Own Plans?》中,研究團隊探究了 LLM 在規劃(planning)的情境下自我驗證 / 批判的能力。

這篇論文對 LLM 批判自身輸出結果的能力進行了系統研究,特別是在經典規劃問題的背景下。雖然最近的研究對 LLM 的自我批判潛力持樂觀態度,尤其是在迭代環境中,但這項研究卻提出了不同的觀點。

論文地址:https://arxiv.org/abs/2310.08118

令人意外的是,研究結果表明,自我批判會降低規劃生成的性能,特別是與具有外部驗證器和 LLM 驗證器的系統相比。LLM 會產生大量錯誤信息,從而損害系統的可靠性。

研究者在經典 AI 規劃域 Blocksworld 上進行的實證評估突出表明,在規劃問題中,LLM 的自我批判功能并不有效。驗證器可能會產生大量錯誤,這對整個系統的可靠性不利,尤其是在規劃的正確性至關重要的領域。

有趣的是,反饋的性質(二進制或詳細反饋)對規劃生成性能沒有明顯影響,這表明核心問題在于 LLM 的二進制驗證能力,而不是反饋的粒度。

如下圖所示,該研究的評估架構包括 2 個 LLM—— 生成器 LLM + 驗證器 LLM。對于給定的實例,生成器 LLM 負責生成候選規劃,而驗證器 LLM 決定其正確性。如果發現規劃不正確,驗證器會提供反饋,給出其錯誤的原因。然后,該反饋被傳輸到生成器 LLM 中,并 prompt 生成器 LLM 生成新的候選規劃。該研究所有實驗均采用 GPT-4 作為默認 LLM。

該研究在 Blocksworld 上對幾種規劃生成方法進行了實驗和比較。具體來說,該研究生成了 100 個隨機實例,用于對各種方法進行評估。為了對最終 LLM 規劃的正確性進行真實評估,該研究采用了外部驗證器 VAL。

如表 1 所示,LLM+LLM backprompt 方法在準確性方面略優于非 backprompt 方法。

在 100 個實例中,驗證器準確識別了 61 個(61%)。

圖片

下表顯示了 LLM 在接受不同級別反饋(包括沒有反饋)時的表現。

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-05-06 08:00:00

AILLM

2023-03-27 17:45:16

研究AI

2023-11-26 17:14:05

2023-11-03 13:07:00

AI模型

2023-06-19 08:19:50

2017-03-13 16:58:05

戴爾

2024-08-08 13:04:28

2023-10-10 13:51:46

GPT-4GitHubAI

2023-05-15 15:38:59

AI模型

2024-03-05 11:18:14

模型訓練

2025-04-16 09:35:03

2024-04-30 12:35:10

AI模型

2024-02-27 09:43:48

視頻模型

2019-06-06 15:44:21

人工智能寒冬AI

2023-05-17 18:38:58

宕機認證令牌

2021-11-26 09:55:09

微軟漏洞補丁

2023-07-25 09:23:23

Llama 2GPT-4

2023-03-13 00:17:15

GPT-4模型API

2024-01-22 08:50:00

AI訓練

2023-03-23 21:57:06

OpenAIChatGPTAI
點贊
收藏

51CTO技術棧公眾號

午夜亚洲影视| 欧美国产日韩在线播放| 久草视频福利在线| 激情小说 在线视频| 色综合久久久| 26uuu亚洲婷婷狠狠天堂| 久久久91精品| 天天综合狠狠精品| 在线观看亚洲欧美| 超碰97久久| 亚洲天堂网中文字| 国产精品偷伦视频免费观看国产 | 我要看一级黄色录像| 亚洲天堂av在线| gogo大胆日本视频一区| 欧美精品一区在线播放| 欧洲美女亚洲激情| 麻豆av在线导航| 狠狠狠色丁香婷婷综合激情 | 亚洲影视一区| 欧美日韩一级片网站| 三级三级久久三级久久18| 99热这里只有精品在线| 久久久五月天| 在线播放一区二区三区| 欧美日韩三区四区| 伊人中文字幕在线观看| 伊人久久大香线蕉综合网站 | 日韩在线视频线视频免费网站| 国产69精品久久久久久久| www.精品视频| 欧美日韩国产欧| 亚洲电影免费观看高清完整版在线观看 | 日韩成人综合网| 欧美日韩免费看| 精品麻豆av| 亚洲久久在线观看| 欧美黄免费看| 亚洲电影免费观看高清| 欧美一级特黄aaa| 婷婷丁香在线| www..com久久爱| 91在线高清免费观看| 欧美国产精品一二三| 97品白浆高清久久久久久| 欧美日韩综合色| 日本黄网站免费| 思思99re6国产在线播放| 精品午夜久久福利影院| 国产精品电影网| 三级黄色录像视频| 欧美手机在线| 日韩免费一区二区| 91av资源网| 色综合久久久久综合一本到桃花网| 91毛片在线观看| 精品一区二区国产| 日韩性xxxx| 日本欧美一区二区三区乱码| 久久艳片www.17c.com | 桥本有菜av在线| 日本成人一级片| 91精品国产自产在线观看永久∴| 亚洲欧美一区二区三区四区| 污污网站免费观看| 黄色羞羞视频在线观看| 久久精品欧美日韩精品| 成人欧美在线观看| 九一国产在线观看| 亚洲中字在线| 日本欧美黄网站| 一区二区成人免费视频| 妖精一区二区三区精品视频| 日韩av在线网页| 天天干天天av| 色资源二区在线视频| 最新日韩av在线| 黑人另类av| 日韩av成人| 国产福利91精品一区| 国产成人精品在线播放| 欧美成人手机视频| 亚洲经典三级| 久久中文久久字幕| 国产亚洲小视频| 国产精品88久久久久久| 亚洲欧美激情一区| 最近中文字幕免费视频| 成人搞黄视频| 亚洲欧洲成视频免费观看| 性一交一黄一片| 国产69精品久久久久9999人| 欧美色欧美亚洲高清在线视频| 天堂av在线中文| 国产精品久久久久久久龚玥菲| 成人午夜精品一区二区三区| 成人精品视频在线| 亚洲国产av一区二区| 久久精品国产一区二区三| 日本亚洲欧美成人| 一级黄色片在线看| 日本欧美久久久久免费播放网| 91精品国产自产在线| 日韩黄色片网站| 亚欧成人精品| 成人网页在线免费观看| 婷婷久久久久久| 成人精品国产免费网站| 99视频在线免费观看| 国产免费叼嘿网站免费| 久久er精品视频| 国产精品影片在线观看| 精品国产无码AV| 国产午夜精品一区二区三区嫩草| 51xx午夜影福利| 成人看片在线观看| 欧美性xxxxx极品少妇| 久久久久久久久久久免费视频| 男人天堂视频在线观看| 欧美喷潮久久久xxxxx| 播放灌醉水嫩大学生国内精品| 激情亚洲小说| 7777精品伊人久久久大香线蕉经典版下载 | 丝袜a∨在线一区二区三区不卡| 91精品国产91久久久| 日本在线免费观看| 亚洲美女少妇无套啪啪呻吟| 高清欧美电影在线| 日韩精品一区二区三| 久草在线在线精品观看| 欧美重口乱码一区二区| 高清性色生活片在线观看| 亚洲狠狠爱一区二区三区| 国产精品久久久久9999爆乳| 欧美性爽视频| 婷婷中文字幕综合| 成年人免费在线播放| 2021年精品国产福利在线| 亚洲国产精品久久久| 登山的目的在线| 蜜臀久久久久久久| 亚洲xxxx视频| 天堂影院在线| 国产欧美日韩在线| 中文字幕第一页亚洲| 91精品韩国| 日韩国产激情在线| 国产福利拍拍拍| 狂野欧美一区| 久久久久久欧美精品色一二三四 | 国产.精品.日韩.另类.中文.在线.播放 | 精品免费视频一区二区| 好吊操视频这里只有精品| 韩国精品福利一区二区三区| 亚洲视频视频在线| 国内精品福利视频| 狠狠色丁香九九婷婷综合五月| 色就是色欧美| 成人免费毛片嘿嘿连载视频…| 欧美精品九九99久久| 免费黄色在线网址| 国产综合激情| 国产精品久久久久久久7电影| 可以在线观看的黄色| 亚洲欧美日韩电影| 91黄色小网站| 精品久久久中文字幕| 欧美激情视频给我| 中文字幕777| www.色综合.com| 久久综合九色综合88i| 少妇精品视频在线观看| 久久久久北条麻妃免费看| 国产成年妇视频| 亚洲成va人在线观看| 邪恶网站在线观看| 外国成人在线视频| 麻豆国产va免费精品高清在线| 91超薄丝袜肉丝一区二区| 一色桃子久久精品亚洲| 九九九九九九九九| 亚洲福利专区| 亚洲最大的成人网| 国产色在线 com| 欧美日韩一区二区电影| 免费在线观看一级片| 成人免费高清在线| 免费在线观看毛片网站| 欧美3p视频| 国产大片精品免费永久看nba| 国产精品四虎| 欧美一区二区黄色| av资源在线免费观看| 亚洲在线视频| 曰韩不卡视频| yy6080久久伦理一区二区| 理论片在线不卡免费观看| 亚洲高清精品视频| 欧美性大战xxxxx久久久| 欧美日韩在线视频免费播放| 97久久久精品综合88久久| 九九久久九九久久| 亚洲第一论坛sis| 91九色在线视频| 免费成人在线电影| 久久久成人av| 青青草免费在线| 51精品国自产在线| 懂色av中文字幕| 亚洲一线二线三线久久久| 亚洲乱码国产乱码精品精大量| 激情亚洲网站| 亚洲日本japanese丝袜| av高清一区| 欧美寡妇偷汉性猛交| 国产专区在线| 日韩免费视频线观看| 99re热视频| 欧美日韩国产色| 欧美日韩亚洲国产另类| 欧美经典一区二区三区| 欧美日韩人妻精品一区在线| 美女视频免费一区| 欧美 日韩 国产一区| 午夜视频一区| 一区二区三区视频| 国产欧美久久一区二区三区| 热久久美女精品天天吊色| 欧美拍拍视频| 亚洲成人网在线| 国产女同91疯狂高潮互磨| 在线观看视频一区二区| 免费成人深夜蜜桃视频| 97se亚洲国产综合自在线 | 国产精品9191| 99久久亚洲一区二区三区青草 | 免费在线观看亚洲| 成人综合婷婷国产精品久久| 色综合色综合色综合色综合| 国产午夜精品一区二区三区欧美| 欧美日韩在线观看一区| 澳门久久精品| 岛国视频一区免费观看| 两个人看的在线视频www| 久久大大胆人体| 欧美尤物美女在线| 中文字幕日韩精品在线| www日本在线| 337p亚洲精品色噜噜狠狠| 糖心vlog精品一区二区| 色94色欧美sute亚洲线路一久| 99热99这里只有精品| 国产日韩精品视频一区| 精品人妻一区二区三区四区| 国内外成人在线| 国产福利在线免费| 美女尤物国产一区| 在线观看岛国av| 精品一区中文字幕| 亚洲国产综合av| 一区二区三区国产盗摄| 国产原创中文在线观看| 亚洲日韩视频| 欧美日韩在线一| 另类图片国产| 波多野结衣与黑人| 国产亚洲第一伦理第一区| 欧美性天天影院| 成人在线免费观看91| 一本一道久久久a久久久精品91| 日韩欧美视频在线播放| 国内一区二区在线视频观看| 国产精品美女午夜爽爽| 国产欧美一区二区三区久久| 亚洲最大的免费视频网站| 欧美在线亚洲一区| 成人黄色免费短视频| 欧美福利视频在线| 成人观看网址| 欧美成人午夜激情| а√在线中文在线新版| 国产suv精品一区二区| 国产精品天堂蜜av在线播放 | eeuss影院一区二区三区| jlzzjizz在线播放观看| 国产伦精品一区二区三区在线观看| 国产主播在线看| 日韩精品欧美精品| 女人天堂av手机在线| 日韩二区三区四区| 青娱乐国产精品视频| www.亚洲免费av| 国产精品麻豆免费版现看视频| 亚洲最大的成人av| 黄色录像二级片| 国产精品毛片大码女人| 国产精品1000部啪视频| 国产精品久久毛片a| 国产真实乱人偷精品视频| 日韩欧美极品在线观看| 国产又粗又猛又黄| 欧美视频专区一二在线观看| 亚洲天堂中文在线| 欧美日韩在线精品一区二区三区激情| 国产ts变态重口人妖hd| 亚洲精品中文字幕女同| 性xxxx18| 亚洲国产精品一区二区久| 黄色av中文字幕| 精品少妇一区二区三区视频免付费| 青青青免费视频在线2| 久久综合伊人77777尤物| 亚洲精品mv| 北条麻妃高清一区| 久久国产中文字幕| 国产免费毛卡片| 国产福利精品一区| www.日本高清视频| 日韩欧美国产网站| 好吊视频一二三区| 久久在线精品视频| 欧美与亚洲与日本直播| 精品一区二区日本| 激情综合视频| 亚洲精品乱码久久久久久9色| 国产欧美精品一区二区色综合| 99免费在线观看| 欧美一二三在线| 免费观看国产视频| 久久久国产91| av成人亚洲| 欧美日韩在线一二三| 99精品热视频只有精品10| 中文字幕1234区| 国产精品毛片久久久久久| 小泽玛利亚一区二区三区视频| 日韩电影中文字幕一区| 免费网站在线观看人| 91在线网站视频| 中文字幕乱码亚洲无线精品一区| 国产成人精品无码播放| 91麻豆产精品久久久久久| 一级aaa毛片| 亚洲国产成人精品女人久久久| 中文字幕有码在线视频| 国内精品视频久久| 日韩欧美中文字幕在线视频 | 国产日韩欧美精品在线| 高清乱码免费看污| 亚洲天堂免费视频| 日韩在线资源| 国产精品免费久久久久久| 欧美另类中文字幕| 蜜桃精品久久久久久久免费影院| 日韩aaaa| 日韩一级免费片| 国产精品传媒视频| 激情五月色婷婷| 精品久久久久久久久久久院品网 | 91在线你懂的| 色视频www在线播放国产成人| 国产第一亚洲| 免费在线观看污污视频| 国产一区久久久| 欧美做受喷浆在线观看| 亚洲品质自拍视频网站| 国产乱人乱偷精品视频| 欧美另类极品videosbest最新版本 | 中文字字幕在线中文| 亚洲女人天堂成人av在线| 成人视屏在线观看| 在线不卡日本| 国产精品99久| 日韩精品成人在线| 亚洲欧美变态国产另类| 久久久久久久性潮| 国产免费一区二区三区四在线播放| 国产精品正在播放| 欧美三级午夜理伦| 一区国产精品视频| 国产美女情趣调教h一区二区| 国产精品精品软件视频| 日本一区二区在线看| 91 视频免费观看| 亚洲第一搞黄网站| 电影在线一区| 91精品免费| 久久精品动漫| 国产日韩欧美在线观看视频| 精品国产污网站| 伊人春色在线观看| 久久久久资源| 激情成人午夜视频| 国产成人无码精品久久久久| 亚洲天堂av女优| 97人人澡人人爽91综合色| 热久久精品免费视频| 亚洲综合免费观看高清完整版在线| 激情综合闲人网| 国产精品一码二码三码在线|