精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

LLM智能「參差不齊」!AI大牛Karpathy用表情包解釋「9.9<9.11」

人工智能 新聞
前段時(shí)間沖上熱搜的問題「9.11比9.9大嗎?」,讓幾乎所有LLM集體翻車。看似熱度已過,但AI界大佬Andrej Karpathy卻從中看出了當(dāng)前大模型技術(shù)的本質(zhì)缺陷,以及未來的潛在改進(jìn)方向。

一邊是OpenAI、Meta、Mistral、DeepMind等巨頭們爭先恐后地發(fā)模型,幾乎每天都能聽到重磅消息,給人一種「技術(shù)進(jìn)步日新月異,AGI僅在眼前」的錯(cuò)覺。

圖片

另一邊又是「9.9<9.11」難題繼續(xù)發(fā)揮余熱,從推特到微博,引發(fā)了全球網(wǎng)友的關(guān)注。

圖片

雖然LLM失智也不是第一天了,但幾乎全部大模型都在如此簡單的問題上翻車,的確罕見。

這種量級(jí)的討論熱度,也自然引來了大佬Karpathy的圍觀。他甚至表示,這已經(jīng)成為自己最喜歡的LLM測試了。

圖片

GPT-4o的失手概率是1/3,但Claude幾乎3/3全敗

下面是Karpathy本人的實(shí)測結(jié)果。即使提示了Claude「按實(shí)數(shù)算,別按版本號(hào)算」,也根本不起作用。

圖片

突然和輔導(dǎo)孩子寫作業(yè)的家長狠狠共情了

但是Karpathy這種級(jí)別的大佬,怎么會(huì)滿足于找樂子?

作為AI技術(shù)界KOL,他今天發(fā)了一篇長推,把近半年來出現(xiàn)的LLM「失智」現(xiàn)象全部盤了一遍,并給出了相當(dāng)言簡意深的分析。

他將這種現(xiàn)象描述為「鋸齒智能」或「參差不齊的智能」(jagged intelligence)。

圖片

最先進(jìn)的LLM既可以執(zhí)行各種困難任務(wù)(比如解決復(fù)雜的數(shù)學(xué)問題),但同時(shí)又在一些非常愚蠢的問題上深陷泥沼。

LLM「失智」集錦

首先是OpenAI研究員Noam Brown,他今年2月發(fā)推,感慨LLM玩不好井字棋游戲(tic-tac-toe)。

圖片

難道是LLM不清楚游戲規(guī)則?眼看著用戶馬上就贏了,Gemini還在傻傻提示「游戲越來越讓人興奮了!你下一步走哪?」

圖片

而且不僅僅是Gemini的問題,ChatGPT也一樣犯傻。

圖片

你可能會(huì)懷疑是RLHF起了作用,讓LLM必須輸給人類。

但Noam表示,即使提示模型要它拿出最佳表現(xiàn),也不會(huì)有什么提升。LLM并沒有在謙讓你,它可能是真的不行。

對(duì)此,Karpathy的概括是,模型做出了「毫無道理」的決策。

Noam本人則認(rèn)為是訓(xùn)練數(shù)據(jù)的鍋,互聯(lián)網(wǎng)上并沒有足夠多的5歲孩子在討論井字棋游戲的策略。

這似乎是佐證了一部分研究的觀點(diǎn):LLM更多依靠記憶,實(shí)質(zhì)上只是記住了某個(gè)問題的解決流程,并沒有發(fā)展出可遷移到不同問題的抽象推理能力。

圖片

論文地址:https://arxiv.org/abs/2307.02477

還有一個(gè)讓人類哭笑不得的例子:LLM好像連字母都數(shù)不清。

「barrier里面有多少個(gè)字母『r』?」——「兩個(gè)」

圖片

不僅是ChatGPT,最新發(fā)布的所謂「開源王者」,405B參數(shù)的Llama 3.1也會(huì)犯懵。

圖片

不過好在Llama 3.1沒有那么多「蜜汁自信」,經(jīng)過提示還能及時(shí)修改答案

或許是因?yàn)椴幌嘈臗hatGPT連這種任務(wù)都搞不明白,各路網(wǎng)友想了各種辦法。

CoT提示也用上了——

圖片

最后一步還是出錯(cuò)了

眼見CoT也不起作用,更有耐心的網(wǎng)友開始進(jìn)行手把手教學(xué):

讓ChatGPT先把所有字母一個(gè)個(gè)寫出來,然后它才能發(fā)現(xiàn)里面有3個(gè)字母「r」。

圖片

更神奇的事情還有——如果你給所有字母加個(gè)圈,LLM就不會(huì)數(shù)錯(cuò)了!

圖片

Karpathy是如何解釋這種現(xiàn)象的呢?

他認(rèn)為,這源于當(dāng)今的大多數(shù)LLM缺乏「自知之明」,也就是self-knowledge,模型無法分辨自己能做什么、不能做什么。

直接結(jié)果就是模型的「無知者無畏」,不僅看到任務(wù)就上手嘗試,而且充滿「蜜汁自信」。

如果LLM能說出,「我不是很擅長數(shù)字母,讓我用代碼解釋器來解決這個(gè)問題」,情況就會(huì)大為改觀。

圖片

類似的問題在其他模態(tài)上也很常見,比如最近一篇標(biāo)題很吸睛的論文:「視覺語言模型都是盲人」。

圖片

論文地址:https://arxiv.org/pdf/2407.06581

作者發(fā)現(xiàn),在很多人類準(zhǔn)確率可以達(dá)到100%的、極其簡單的任務(wù)上,大模型的表現(xiàn)竟然有些荒謬。

圖片

不僅準(zhǔn)確率低,而且非常不穩(wěn)定,就像一個(gè)很聰明,但實(shí)際看不到準(zhǔn)確圖像的「盲人」或「高度近視」。

比如下面這個(gè)典型案例:人類一眼就能看出兩圓相交,Claude卻很自信地表示「這是相切圓,絕對(duì)沒相交」。

圖片

那么,這個(gè)問題有解嗎?

Karpathy表示,最近Meta發(fā)布的Llama 3.1論文中就給出了類似的解決方案。

圖片

論文地址:https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

論文提出,后訓(xùn)練階段應(yīng)該實(shí)現(xiàn)模型的對(duì)齊,讓它發(fā)展出「自知之明」,知道自己知道什么,僅靠往里面添加事實(shí)知識(shí)是無法根除幻覺問題的。

因此Llama團(tuán)隊(duì)提出了一種名為「知識(shí)探測」的訓(xùn)練方式。

先從預(yù)訓(xùn)練數(shù)據(jù)中截取片段,讓模型只能根據(jù)自己所知的信息生成回答,在反饋過程中否決那些有連貫信息但與原始數(shù)據(jù)相悖的答案。

圖片

這種方法可以鼓勵(lì)模型只回答自己了解的問題,拒絕生成不確定的答案。

「參差不齊的智能」

盤點(diǎn)過這些LLM翻車案例之后,我們似乎對(duì)Karpathy提出的「鋸齒智能」有了更直觀的體會(huì)。

大模型有一些極其出色的能力,能完成許多困難任務(wù),但會(huì)在十分簡單的事情上有災(zāi)難性的失敗。這種忽高忽低的智商,的確類似「鋸齒」的形狀。

比如視覺大模型已經(jīng)可以很好地識(shí)別數(shù)千種狗和花了,卻無法判斷兩個(gè)圓是否重疊。

哪些任務(wù)是大模型擅長的,哪些是不擅長的?這種分界并不總是很明顯,我們似乎可以逐漸發(fā)展出一些直覺來幫助判斷。

但要明白,所謂的「困難」和「簡單」任務(wù),都是按照人類標(biāo)準(zhǔn)衡量的。

和AI不同,人類從出生到成年,接觸到的知識(shí)以及發(fā)展出的問題解決能力都是高度相關(guān)的,而且同步線性提高。

Karpathy的這種觀點(diǎn),與著名的「Moravec悖論」有異曲同工之妙。

這個(gè)論斷由CMU機(jī)器人研究所教授Hans Moravec等人在上世紀(jì)80年代提出,大意是:對(duì)人類容易的事情,對(duì)機(jī)器反而是困難的,反之亦然。

比如,邏輯推理和創(chuàng)造力,在人類看來屬于高級(jí)認(rèn)知技能,需要較高的教育水平或長期訓(xùn)練,但對(duì)于機(jī)器來說卻通常是微不足道的;

而人類能輕松完成的任務(wù),例如視覺和運(yùn)動(dòng)技能,對(duì)機(jī)器而言極具挑戰(zhàn)性。

圖片


讓計(jì)算機(jī)在智力測試或跳棋游戲中表現(xiàn)出成人水平相對(duì)容易,但在感知和移動(dòng)能力上,很難或不可能達(dá)到一歲兒童的技能。


此外,Karpathy的措辭也很有意味。

去年哈佛、沃頓、BCG等機(jī)構(gòu)聯(lián)合發(fā)表了一篇有關(guān)AI能力的實(shí)證論文,同樣用到了「jagged」這種形容。

圖片

論文地址:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4573321

連Karpathy本人都懷疑,自己是不是看到過這篇論文才會(huì)提出這種描述。

圖片

論文提出,AI的能力呈現(xiàn)出一種「鋸齒狀的技術(shù)邊界」(jagged technological frontier)。

同一困難程度的任務(wù),有一些是AI能輕松完成的,有些卻遠(yuǎn)在它們能力范圍之外。

對(duì)于前者,AI可以補(bǔ)足,甚至徹底取代人類工作;但對(duì)能力范圍外的任務(wù)會(huì)有不準(zhǔn)確的輸出,使用時(shí)反而會(huì)拉低人類的工作水平。

圖片

但Karpathy認(rèn)為,即使目前AI的能力有種種問題,也并不構(gòu)成根本缺陷,也有可行的解決方案。

正如他上面的推文所描述的,其根本原因是模型缺乏自我認(rèn)知,這需要我們開發(fā)更有效、更精細(xì)的后訓(xùn)練(post-training)方法,比如Llama 3.1論文所提出的。

目前的AI訓(xùn)練思路僅僅是「模仿人類標(biāo)簽并擴(kuò)展規(guī)模」。這個(gè)方法的確有效,否則我們也不會(huì)看到今天的成就。

但要繼續(xù)提升AI的智能,就不能只寄希望于「scale up」,還需要整個(gè)開發(fā)棧中進(jìn)行更多工作。

在這個(gè)問題沒有被完全解決之前,如果要將LLM用于生產(chǎn)環(huán)境,就應(yīng)該只限于它們擅長的任務(wù),注意「鋸齒狀邊緣」,并始終保持人類的參與度。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2013-12-02 09:56:30

云計(jì)算

2011-03-30 11:05:07

服務(wù)器選購利用率

2017-05-25 09:44:43

云計(jì)算價(jià)格質(zhì)量

2010-11-23 16:44:03

云計(jì)算行業(yè)應(yīng)用

2024-05-30 13:06:40

2024-07-29 08:28:00

模型AI

2021-06-04 15:50:49

AI 數(shù)據(jù)人工智能

2024-11-21 14:30:00

模型訓(xùn)練

2023-07-05 15:18:42

AI自動(dòng)駕駛

2021-06-04 16:48:22

潮數(shù)

2021-07-04 16:29:08

人工智能AI

2025-08-29 09:03:10

2021-01-04 21:20:11

數(shù)據(jù)分析數(shù)據(jù)大數(shù)據(jù)

2024-07-16 13:20:59

2013-12-02 00:02:58

2023-07-06 13:50:47

AI智能

2021-11-16 22:43:03

手機(jī)內(nèi)存系統(tǒng)

2009-08-07 13:39:13

C#定義整型數(shù)組
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

亚洲第一页在线| 91网址在线看| 久久精品中文字幕| 午夜在线观看av| av在线资源网| 精品亚洲国产成人av制服丝袜 | 日韩电影在线观看一区二区| 免费成人三级| 色香蕉成人二区免费| 日韩中文一区二区三区| 国产又粗又猛又爽又黄视频| 天天做天天爱综合| 日韩欧美激情在线| 女人喷潮完整视频| yw193.com尤物在线| 日韩国产精品久久| 精品国产拍在线观看| 中国特级黄色片| 欧美精品日日操| 亚洲视频免费在线| 精品欧美国产| 亚洲视频在线观看免费视频| 黄色在线成人| 中文精品99久久国产香蕉| 无套内谢丰满少妇中文字幕| 国内精彩免费自拍视频在线观看网址| 久久精品夜夜夜夜久久| 91在线视频九色| 日韩久久久久久久久| blacked蜜桃精品一区| 欧美成人一区二区| 男女av免费观看| av在线播放观看| 久久精品视频一区二区三区| 91超碰rencao97精品| 色婷婷在线观看视频| 999久久久亚洲| 日韩精品小视频| 日韩欧美色视频| 亚洲天堂一区二区| 一区二区在线看| 日韩电影天堂视频一区二区| 亚洲AV午夜精品| 美日韩一区二区三区| 性欧美办公室18xxxxhd| 亚洲少妇xxx| 综合亚洲色图| 在线播放中文一区| 婷婷激情四射五月天| av资源中文在线| 亚洲欧美电影一区二区| 亚洲一区二区三区色| av在线免费观看网| 日本一区二区不卡视频| 日韩电影在线播放| 在线观看麻豆蜜桃| 中文欧美字幕免费| 日韩在线观看电影完整版高清免费| 欧美成人综合在线| 国产网站一区二区| 视频一区亚洲| 午夜视频在线观看网站| 国产精品久久毛片| 男人的天堂成人| av免费网站在线观看| 亚洲精品一二三| 午夜啪啪福利视频| 日本片在线观看| 午夜激情久久久| 91九色在线观看视频| 成人教育av| 欧美日韩国产系列| 91热视频在线观看| 一区二区视频| 日韩精品中文字幕有码专区| 国产精品久久久久无码av色戒| 国产99久久| 日韩一区在线视频| a级片在线观看免费| 一本综合久久| 国产精品吊钟奶在线| 一道本无吗一区| 成人免费毛片aaaaa**| 久久av免费观看| 91欧美在线视频| 一区二区三区在线观看欧美| 男女猛烈激情xx00免费视频| 电影亚洲精品噜噜在线观看| 欧美久久久久中文字幕| 少妇熟女视频一区二区三区| 亚洲第一论坛sis| 久久精品国产亚洲精品2020| 日韩av在线天堂| 奇米一区二区三区| 国产精品二区三区| jzzjzzjzz亚洲成熟少妇| 自拍偷拍亚洲综合| 波多野结衣50连登视频| 日韩av黄色| 亚洲精品美女在线观看| 91无套直看片红桃在线观看| 精品成人一区| 91精品视频在线播放| 午夜av免费观看| 亚洲欧美日韩在线| 日av中文字幕| 凹凸成人在线| 久久久av一区| 日本黄色一级视频| 国产**成人网毛片九色| 日韩免费中文专区| 国精一区二区三区| 欧美巨大另类极品videosbest | 日本一区福利在线| 久久久精品亚洲| 久操视频在线免费观看| 成人性生交大片免费看中文网站 | 欧美日韩爆操| 国产剧情日韩欧美| 日韩专区一区二区| 亚洲一区二区精品3399| 久久人人爽av| 欧美亚洲国产激情| 欧美一区二区影院| 免费观看黄一级视频| 亚洲视频一区二区免费在线观看| 青青在线视频免费| 欧美毛片免费观看| 欧美激情亚洲一区| 99在线小视频| 综合久久一区二区三区| 亚洲视频一二三四| 日本欧美肥老太交大片| 国产精品1234| 九色视频在线观看免费播放| 五月天久久比比资源色| 稀缺小u女呦精品呦| 欧美成人69| 91九色国产社区在线观看| 成人免费高清在线播放| 色老汉一区二区三区| 成年人在线观看av| 在线亚洲欧美| 精品无人乱码一区二区三区的优势 | 波多野结衣在线电影| 91在线视频18| av免费观看大全| 国产精品丝袜在线播放| 欧美国产乱视频| 亚洲va久久久噜噜噜无码久久| 亚洲免费在线视频一区 二区| 小明看看成人免费视频| 国产精品毛片久久| 成人激情黄色网| 日本三级视频在线播放| 欧美日韩精品欧美日韩精品一综合| 91成人在线免费视频| 久久国产成人| 日韩中文字幕av在线| 麻豆精品蜜桃| 精品国产一区二区三区在线观看 | 国产欧美日韩网站| 欧美一性一交| 97久久精品人人澡人人爽缅北| 韩国av免费在线| 欧美日韩亚洲网| 欧美福利第一页| 蜜桃久久久久久| 特级黄色录像片| av成人综合| 欧美在线激情网| 91啦中文在线| 日韩精品一区二区三区老鸭窝| 精品亚洲永久免费| 久久久精品免费免费| 中文字幕第17页| 激情综合自拍| 日韩精品无码一区二区三区| 97色婷婷成人综合在线观看| 久久久久久久久久av| 欧洲一级在线观看| 3d动漫精品啪啪1区2区免费| 国产乡下妇女做爰视频| 国产午夜一区二区三区| 两女双腿交缠激烈磨豆腐| 亚洲欧洲日本mm| 日本在线观看一区二区三区| 麻豆视频久久| 热re91久久精品国99热蜜臀| 老司机在线看片网av| 亚洲国产精品久久久久秋霞蜜臀| 日本黄色中文字幕| 樱花草国产18久久久久| 少妇无套高潮一二三区| 国产乱妇无码大片在线观看| 97在线播放视频| 91精品二区| 欧美系列一区| 91夜夜蜜桃臀一区二区三区| 国产精品第一区| a国产在线视频| 久久韩剧网电视剧| 少妇性bbb搡bbb爽爽爽欧美| 欧美一区二区三区视频在线观看| www欧美在线| 亚洲激情欧美激情| 一区二区精品免费| 岛国av在线一区| 成人综合久久网| 久久亚洲影院| 国产v片免费观看| 中文字幕人成人乱码| 色一情一乱一伦一区二区三欧美| 国内视频在线精品| 亚洲一区二区久久久久久久| 电影一区电影二区| 91精品国产乱码久久久久久久久| 大片免费在线观看| 中文字幕不卡在线视频极品| 色就是色亚洲色图| 亚洲成色777777女色窝| 超碰人人人人人人| 在线91免费看| 亚洲一区二区人妻| 日本高清不卡aⅴ免费网站| 五月天婷婷丁香| 亚洲一区二区欧美激情| 美国一级片在线观看| 国产欧美日产一区| 久久久久亚洲av无码专区桃色| 成人avav在线| 欧美丰满熟妇bbb久久久| 狠狠色狠狠色综合系列| 久久久久久久久久久久91| 欧美一级视频| 免费在线激情视频| 在线一区视频| 99999精品视频| 亚洲欧美日韩在线观看a三区 | 青青操在线视频观看| 国产欧美一区在线| 日本爱爱爱视频| 久久一区二区视频| 91国模少妇一区二区三区| 99久久精品国产一区| 色哟哟无码精品一区二区三区| 国产精品99久久久| avtt中文字幕| 成人av动漫在线| 亚洲久久久久久| 91麻豆精品一区二区三区| 国产三级国产精品| 久久久蜜桃精品| 永久免费av无码网站性色av| 国产精品区一区二区三| 亚洲 欧美 变态 另类 综合| 亚洲欧洲av在线| 校园春色 亚洲| 五月激情综合婷婷| 伊人中文字幕在线观看| 欧美在线免费观看亚洲| 亚洲熟妇无码久久精品| 91精品在线观看入口| 亚洲精品国产av| 亚洲国产福利在线| 青青草视频在线免费观看| 亚洲人成亚洲人成在线观看| 69视频在线观看| 欧美成人黄色小视频| 成年男女免费视频网站不卡| 奇米4444一区二区三区| 国产一区影院| 99国产精品久久久久老师| 免费福利视频一区| 亚洲欧洲国产日韩精品| 欧美日本中文| 国产偷人视频免费| 国内精品伊人久久久久影院对白| 日韩精品xxx| 91免费观看视频在线| gv天堂gv无码男同在线观看| 亚洲欧美日韩在线不卡| wwwxxx亚洲| 欧美日韩国产成人在线免费| 亚洲国产成人在线观看| 亚洲女人初尝黑人巨大| 国产精品剧情| 欧美在线视频a| 99久久这里有精品| 久久精品99| 久久久五月天| 天天摸天天碰天天添| 韩国一区二区在线观看| 国产精品久久无码| 亚洲色图第一区| 日韩美一区二区| 日韩精品一区二区三区swag| 国产精品久久久久久久龚玥菲 | 亚洲色图偷窥自拍| 污污视频在线| 国产精品久久久久久久久久东京| 亚洲日本视频在线| 亚洲国产婷婷香蕉久久久久久99| 国模大胆一区二区三区| 天天操,天天操| 99精品视频中文字幕| 日本aⅴ在线观看| 欧美日韩一区视频| 欧美视频免费一区二区三区| 九九热r在线视频精品| 国产精品第一国产精品| 精品久久精品久久| 狠狠爱www人成狠狠爱综合网| 亚洲一区在线不卡| 国产视频一区不卡| 日本在线观看视频网站| 91麻豆精品国产91| jizz在线观看| 日本欧美一级片| 欧美1区2区3区4区| 欧洲精品在线播放| 极品少妇xxxx精品少妇偷拍| 无码人妻丰满熟妇啪啪欧美| 疯狂欧美牲乱大交777| 亚洲欧美强伦一区二区| 久久国产色av| 国产精品久久久久久久久久久久久久久 | 欧美日韩在线播放三区| 日本黄视频在线观看| 久久亚洲国产成人| 欧美视频第一| 亚洲精品日韩精品| 日本午夜一本久久久综合| 亚洲第一页av| 色综合久久久久综合体| 婷婷久久久久久| 性欧美xxxx视频在线观看| 97久久超碰| 欧美精品卡一卡二| 成人一区二区三区在线观看| 黄色在线观看免费| 日韩一级二级三级精品视频| 搞黄网站在线观看| 2014国产精品| 欧美日韩影院| youjizz.com日本| 亚洲一区二区高清| 丰满岳乱妇国产精品一区| 欧美国产日韩在线| a看欧美黄色女同性恋| avav在线播放| 99精品热视频| 日韩国产亚洲欧美| 一区二区三区精品99久久| 狂野欧美性猛交xxxx| 在线视频精品一区| 国产精品99精品久久免费| 久草视频免费播放| 精品国产乱码久久| 中文字幕乱码在线播放| 欧美日韩在线一二三| 免费成人av在线| 午夜69成人做爰视频| 精品第一国产综合精品aⅴ| 女人让男人操自己视频在线观看| 精品无人区一区二区三区| 丝袜a∨在线一区二区三区不卡| 一区二区三区在线观看免费视频| 欧美日本高清视频在线观看| 色婷婷av在线| 蜜桃91精品入口| 免费不卡在线观看| 国产精品老熟女一区二区| 亚洲精品av在线| 日韩av首页| 99中文字幕在线观看| 不卡的看片网站| 色婷婷久久综合中文久久蜜桃av| 麻豆国产精品va在线观看不卡| 米奇精品关键词| 蜜臀av免费观看| 亚洲一区在线免费观看| 久久国产精品高清一区二区三区| 国产日本欧美在线观看| 伊人久久婷婷| 国产午夜精品久久久久久久久| 日韩欧美卡一卡二| 亚洲欧美韩国| 9色视频在线观看| 久久精品一区蜜桃臀影院| 成人黄色在线观看视频| 国产91精品网站| 国产一区二区三区四区三区四| 国产又粗又猛又爽又黄av| 欧美成va人片在线观看| 成人福利片在线| 欧美牲交a欧美牲交| 最新久久zyz资源站| 欧洲天堂在线观看| 成人黄色在线免费观看|