精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型測試題爆火,GPT-4和Claude3都跪了,LeCun轉發:新Benchmark

人工智能 新聞
針對這項測試,網友還定義了一個新的名詞叫“劣效比率”(crapness ratio),讓LeCun打趣說到,一項新的“Benchmark”誕生了。

一項新的“大模型Benchmark”在推特上爆火,LeCun也點贊轉發了!

而且無論是GPT-4還是Claude 3,面對它都如同被奪了魂,無法給出正確答案。

圖片

難倒一眾大模型的,是邏輯學當中經典的“動物過河”問題,有網友發現,大模型對此類問題表現得很不擅長。

甚至有人觀察到,幾個不同的模型都給出了一致的(錯誤)答案,讓人懷疑他們是不是用了相同的訓練數據。

圖片

針對這項測試,網友還定義了一個新的名詞叫“劣效比率”(crapness ratio),讓LeCun打趣說到,一項新的“Benchmark”誕生了。

圖片

“模見模愁”的動物過河

首先來看一下什么是“動物過河”問題,這是邏輯學當中的一道經典題目。

問題的原型是這樣的:

農夫需要把狼、羊和白菜都帶過河,但每次只能帶一樣物品,而且狼和羊不能單獨相處,羊和白菜也不能單獨相處,問農夫該如何過河。

圖片

在這個問題當中,農夫需要七次(往返視為兩次)過河——先把羊運過去,然后空船返回,再把狼運過河,帶回羊,然后運送白菜,再空船返回,最后運送羊。

而劣效比率的定義,就是模型給出的運送次數與實際最少所需次數的比值。

當然在測試中,網友使用的問題經過了改編,結果發現,當題目變成一共有兩只雞,一次可以運兩只的時候,GPT-4依然在一本正經地胡亂分析,最后信誓旦旦地回答是五次。

所以在這種情境下,“劣效比率”就是5。

圖片

Claude這邊的情況要更離譜一些,明明只有一只羊要送,它卻硬生生說要運三次。

圖片

還有網友發現了華點,把題面改成從東岸運到東岸,也就是根本不需要運送,模型不以為然,依舊我行我素地籌劃著運送方案。

圖片

這下只要模型沒識破陷阱,隨便說一個數“劣效比率”都會直接變成無窮大。

哪怕問得更直白一些,直接說不需要過河,模型依然會直接開算。

圖片

所以,這個“劣效比率”更多像是一種玩笑,不太能比較出各模型的能力,或者說離譜程度。

有網友分析,這種現象可能并不意味著大模型推理能力的缺乏,實際上它揭示了訓練數據對大模型輸出的影響。

圖片

但另一方面,無論問題是否出自推理本身,至少說明了當前的大模型還不是優質的推理工具。

圖片

那么,這究竟是個別現象,還是模型的通病?我們選擇了更多的模型進行了測試。

12款模型全軍覆沒

針對這個“Benchmark”,也如法炮制,測了測國產大模型的表現,參賽的選手有文心一言、通義千問等12款大模型。

測試的過程和網友展示的方法相似,Prompt中只描述問題,不添加額外的提示詞。

對每個大模型,我們都準備了下面這三道題目:

首先進行一下說明:

1、農夫不被計入運送物品的數量限制
2、題目中“獨處”的標準是,只要有人或其他物品在場,就不屬于獨處
3、往返過程視為兩次過河

以上幾點在Prompt中均有指出。

問題一(正常提問):
一個農夫需要將狼、羊、狐貍、雞和米五種物品運送過河,每次只能帶兩件,且狼和羊/狐貍和雞/雞和米不能單獨相處,每次運送時農夫必須在船上,最少需要過河幾次?
(答案:五次,只要第一次運到對岸的兩個物品可以獨處即可。)

問題二(一步到位):
一個農夫需要將狼、羊、狐貍、雞和米五種物品運送過河,每次只能帶五件,且狼和羊/狐貍和雞/雞和米不能單獨相處,每次運送時農夫必須在船上,最少需要過河幾次?

問題三(陷阱問題):
一個農夫需要將狼、羊、狐貍、雞和米五種物品運送過河,每次只能帶兩件,且狼和羊/狐貍和雞/雞和米不能單獨相處,每次運送時農夫必須在船上,最少需要過河幾次?

結果可以說是全軍覆沒,首先用一張表格來整體看下各大模型的表現。

圖片

第一個問題,各有各的錯法,相同的錯誤類型,這里每種只列舉一個例子。

比如文心一言,前面說得沒什么問題,但最后把狐貍帶回原來的岸邊后忘了再帶過去,最終沒有完成任務:

圖片

還有訊飛星火這種運著運著,某樣東西自動就跑到了對岸的情況:

圖片

以上的兩種錯誤比較典型,當然,還有最有意思的錯誤來自躍問——

因為狼和羊不能“獨處”,所以它們需要在一起。

圖片

這波屬實是把人給整不會了,不過整場測試中,除了這個把“獨處”理解錯的情況之外,倒是都沒有出現讓不能獨處的動物單獨在一起的現象。

當然也有表現好一些的,比如騰訊元寶的方案已經接近可行,只是最后兩步純屬多余,而且實際上此時已經無物可運。

圖片

表現最好的是通義千問,給出的方案雖然麻煩,但是找不出什么錯誤。

值得注意的是,很多模型給出的方案都會把羊運送過去,然后運一只雞再把羊運回來,不知道為什么不直接運雞。

圖片

另外值得一提的是,我們在Prompt中雖未提及,但基本上接受測試的模型都不約而同地運用到了思維鏈方式,一方面說明了模型確實會使用推理技巧,但另一方面也說明思維鏈的作用是有限的。

而至于后面兩個問題,錯法就比較統一了——根本沒關注到數量限制的變化,更沒看到“不需要”里的“不”,和前面GPT的錯法也是如出一轍。

圖片

也就是說,通過這些測試,我們確實無法得知模型有沒有相應的推理能力,因為模型根本就沒仔細讀題。

或許這也是在第一題中,多數模型,哪怕給出了可行的方案,仍然一次只運送一件物品而不是兩件的原因。

所以,前面網友針對訓練數據和輸出關系的分析,可能不無道理。

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-05-13 07:14:03

GPT-4生成式AIAI模型

2024-03-27 13:32:00

AI數據

2024-03-28 14:26:51

人工智能

2024-12-25 20:01:13

2024-05-08 07:28:06

LLMLinguaLLM大型語言模型

2024-04-01 12:41:55

2023-06-01 12:46:46

GPT-4數學OpenAI

2023-12-11 19:08:59

AI模型

2024-03-08 12:53:42

AI數據

2023-07-12 16:10:48

人工智能

2023-02-06 14:37:44

LeCun模型

2024-05-20 08:20:00

OpenAI模型

2024-03-05 09:16:32

AI模型GPT-4

2023-03-24 16:02:59

GPT-4測評

2023-12-12 13:57:00

GPT-3.5MistralAI

2023-07-05 09:57:11

2024-03-05 13:59:51

模型數據

2023-11-15 09:23:00

模型AI

2023-08-11 13:15:35

ChatGPTMBTIGPT-4

2024-04-23 07:00:00

點贊
收藏

51CTO技術棧公眾號

日本中文字幕一区二区有限公司| 第四色男人最爱上成人网| 日本不卡的三区四区五区| 亚洲欧美日韩国产中文专区| 久久精品免费网站| 国产日产一区二区三区| 成人高清av在线| 欧美与欧洲交xxxx免费观看| 国产精品www爽爽爽| 91精品麻豆| 午夜伦理大片视频在线观看| 国产一区 二区| 99久久婷婷国产| 久久久久久福利| 中文字幕 在线观看| av不卡免费电影| 国产不卡在线观看| 欧美大片一区二区| 成人黄色片免费| 四虎电影院在线观看| 欧美aⅴ一区二区三区视频| 欧美精品在线网站| a级大片在线观看| 又骚又黄的视频| 色琪琪久久se色| 亚洲国产高潮在线观看| 婷婷中文字幕在线观看| 神马久久午夜| 亚洲综合一区在线| 亚洲一区三区电影在线观看| 天堂视频中文在线| 国内精品免费在线观看| 国产成人亚洲综合| 精品人妻在线播放| 国产精品99在线观看| 亚洲天堂av综合网| 国产精品久久AV无码| 视频国产精品| 欧美酷刑日本凌虐凌虐| 欧洲熟妇精品视频| 日韩精品99| 欧美香蕉大胸在线视频观看| 欧美视频在线免费播放| 国产亚av手机在线观看| 亚洲老妇xxxxxx| 大桥未久一区二区三区| 欧美jizzhd欧美| 国产精品护士白丝一区av| 欧美一区二区三区四区五区六区| 亚洲av毛片成人精品| 成人精品在线视频观看| 国产精品一区二区a| www.五月激情| 高清不卡在线观看| eeuss一区二区三区| 国产免费无遮挡| 国产一区二区三区av电影 | 在线看不卡av| 99视频在线免费| 视频在线日韩| 欧美在线你懂的| 亚洲欧洲国产伦综合| 国产精品久久久999| 欧美bbbbbbbbbbbb精品| 在线视频精品| 热re91久久精品国99热蜜臀| 亚洲GV成人无码久久精品| 久久不射中文字幕| 国产精品日日做人人爱| 在线免费av网| 国产一区在线观看麻豆| 91老司机福利 在线| 性欧美视频videos6一9| 国产精品18p| 亚洲一级二级| 国产69精品99久久久久久宅男| 国产乡下妇女做爰| 亚洲精品男同| 一本一道久久a久久综合蜜桃| 蜜桃视频网站在线观看| 最近中文字幕一区二区三区| 做爰高潮hd色即是空| 黄色免费在线看| 亚洲一区二区精品视频| 男女av免费观看| 日本免费成人| 精品成a人在线观看| 国产美女精品久久| 婷婷亚洲综合| 38少妇精品导航| 一区二区日韩在线观看| 成人午夜又粗又硬又大| 日本一区二区在线视频观看| 黄色成人在线| 欧美日韩亚洲网| 国产精品嫩草影院8vv8 | 免费看一区二区三区| 精品日本一线二线三线不卡| 国产毛片欧美毛片久久久| а√在线天堂官网| 欧美xxx网站| www.av精品| 久久久久这里只有精品| 日韩福利片在线观看| 亚洲欧美网站| 成人在线精品视频| 午夜视频在线免费播放| 中文字幕一区在线观看视频| 国产黄视频在线| 337p粉嫩色噜噜噜大肥臀| 精品欠久久久中文字幕加勒比| 亚洲第一福利网站| 欧美巨胸大乳hitomi| 精品国产一级片| 99久久国产综合精品女不卡| 日韩欧美在线一区二区| 人交獸av完整版在线观看| 91精品办公室少妇高潮对白| 中文字幕在线国产| 日本大胆欧美| 亚洲精品福利在线观看| 日本大片免费看| 伊人久久国产| 精品国产青草久久久久福利| 国产精品夜夜夜爽阿娇| 久久综合亚州| 国产日韩欧美综合精品| 成人黄视频在线观看| 久久精品播放| 色偷偷久久人人79超碰人人澡| 污污动漫在线观看| 国产精品22p| 久久视频国产精品免费视频在线| 国产成人无码av| 高清视频一区二区| 激情五月五月婷婷| 欧美成人免费看| 欧美a∨亚洲欧美亚洲| xxxx日韩| 美女精品视频一区| 这里只有久久精品视频| 久久综合精品国产一区二区三区| 91精品国产91久久久久麻豆 主演| 国产精品亚发布| 亚洲国产精品无码久久久| 成人精品视频.| 欧洲精品在线播放| 日本久久伊人| 欧美多人乱p欧美4p久久| 国产精品国产三级国产普通话对白 | 欧美激情网友自拍| 亚洲一卡二卡在线| 狠狠v欧美v日韩v亚洲ⅴ| 欧美重口乱码一区二区| 欧美xx视频| 夜夜嗨av一区二区三区免费区| 久久久久久不卡| 国产欧美日韩不卡免费| 久久久久久久片| 成人综合专区| 欧美日在线观看| 亚洲二区三区四区| 成人va天堂| 亚洲香蕉成视频在线观看| 国产精品成久久久久| 在线国产精品视频| 一区二区视频免费| 国产精品初高中害羞小美女文| 亚洲36d大奶网| 色婷婷一区二区三区| 成人免费xxxxx在线观看| 成人在线影视| 亚洲成色777777女色窝| 老熟妇一区二区三区| 欧美 日韩 国产一区二区在线视频 | xvideos亚洲| 亚洲综合五月天婷婷丁香| 亚洲欧美一区二区三区久本道91 | 伊人影院中文字幕| 国产精品国产三级国产aⅴ原创| 人妻激情偷乱视频一区二区三区| 伊人蜜桃色噜噜激情综合| 欧美激情www| 色8久久久久| 久久久久久久成人| 国产在线播放av| 欧美一级欧美三级在线观看| 午夜影院在线看| 中文在线资源观看网站视频免费不卡| 国产999免费视频| 99综合在线| 伊人婷婷久久| 无码少妇一区二区三区| 国产日韩欧美在线| 91九色美女在线视频| 中文字幕国产亚洲2019| 日本久久久精品视频| 无码少妇一区二区三区| 国产又爽又黄的激情精品视频| 成人性生交大片免费看网站| 在线播放日韩专区| 男人天堂一区二区| 欧美日韩aaaaa| 91九色丨porny丨肉丝| 亚洲欧美日韩一区| 中文字幕第4页| 成人永久免费视频| 亚洲美女性囗交| 每日更新成人在线视频| 青青草综合在线| 成人激情免费视频| 九九九九久久久久| 91精品国产乱码久久久竹菊| 国产精品久久久久免费a∨大胸| 女同视频在线观看| 久久亚洲一区二区三区四区五区高| 亚洲欧美日韩动漫| 欧美变态口味重另类| 国产一区二区在线视频观看| 色综合中文综合网| 在线免费观看毛片| 亚洲欧美日韩在线播放| 4444欧美成人kkkk| 中文字幕精品一区二| 午夜精品一区二区三区免费视频 | 亚洲乱码一区二区三区在线观看| 成年人在线免费看片| 91麻豆免费视频| 精品伦一区二区三区| 国产一区二区三区在线看麻豆| 激情五月婷婷久久| 久久久久久穴| 免费在线观看的av网站| 国产欧美短视频| 草草视频在线免费观看| 国产综合自拍| 久艹在线免费观看| 黄色精品一区| 美脚丝袜脚交一区二区| 亚洲先锋成人| 东北少妇不带套对白| 激情av一区| a级免费在线观看| 亚洲小说区图片区| 精品人妻少妇一区二区| 亚洲激情国产| 免费一级特黄毛片| 亚洲免费观看| 日本wwww视频| 乱人伦精品视频在线观看| 国产女女做受ⅹxx高潮| 噜噜噜久久亚洲精品国产品小说| 男人的天堂99| 快she精品国产999| 亚洲色图38p| 久久99热狠狠色一区二区| 免费成年人高清视频| 极品少妇xxxx偷拍精品少妇| 午夜xxxxx| 国产精品1区2区3区在线观看| 91人人澡人人爽| eeuss影院一区二区三区| 波多野结衣办公室33分钟| 国产欧美精品国产国产专区 | 国产成人精品久久亚洲高清不卡| 桃色一区二区| 国产欧美日韩最新| 亚洲精品a区| 国产一区精品视频| 国产欧美日韩免费观看 | 欧美日本不卡| 欧美 丝袜 自拍 制服 另类| 日韩精品午夜视频| 天美一区二区三区| 99热国产精品| 色www亚洲国产阿娇yao| 亚洲精品免费在线观看| av黄色在线看| 99国产成+人+综合+亚洲欧美| 欧美成人精品一区| 爱情岛亚洲播放路线| 欧美亚洲国产视频小说| 国产精品毛片久久久久久久久久99999999 | 少妇愉情理伦三级| 一区二区三区在线免费| 国产午夜免费福利| 欧美二区乱c少妇| 熟妇高潮一区二区三区| 一个人看的www久久| 午夜dj在线观看高清视频完整版 | 色777狠狠综合秋免鲁丝| 男插女视频久久久| 国产精品成av人在线视午夜片| 国产一区2区在线观看| 久久久久无码国产精品一区| 色呦哟—国产精品| 精品少妇一区二区三区在线| 久久99国产精品尤物| 国产精品嫩草av| 中文字幕一区二区三| 国产91精品一区| 91精品国产麻豆| 国产人成在线观看| 欧美精品福利在线| 国产精品久久久久77777丨| 国产精品一区在线播放| 天堂网在线观看国产精品| 5月婷婷6月丁香| 国产精品一品二品| 国精产品一区一区| 色综合天天性综合| 日本高清视频免费观看| 爱福利视频一区| 99re66热这里只有精品4| 狠狠色综合一区二区| 伊人成综合网| 亚洲欧美日本一区二区三区| 国产日韩欧美一区二区三区乱码 | 日韩av不卡播放| 中文日韩欧美| 国内自拍偷拍视频| 亚洲青青青在线视频| 中文字幕精品一区二| 亚洲天堂日韩电影| 亚洲同志男男gay1069网站| 国产精品二区在线观看| 亚洲最大av| 亚洲欧美手机在线| 亚洲国产精品成人久久综合一区| 国产无遮挡呻吟娇喘视频| 亚洲第一综合天堂另类专| 视频在线这里都是精品| 91在线高清视频| 欧美第一精品| 在线不卡一区二区三区| 国产精品电影一区二区三区| 亚洲在线观看网站| 欧美专区一区| 中文字幕精品一区日韩| 免费高清不卡av| www久久久久久久| 在线视频一区二区三| 国产人成在线观看| 国产精品第一页在线| 黑丝美女一区二区| 9久久婷婷国产综合精品性色 | 亚洲精品国产综合区久久久久久久 | 91欧美日韩在线| 国产黄色激情视频| 国产成人av网站| 久久这里只有精品国产| 欧美哺乳videos| gogo高清在线播放免费| 国产精品一区二区三区四区五区| 亚洲美女色禁图| 中文精品在线观看| 欧美优质美女网站| 黄色在线观看网站| 91久久爱成人| 亚洲精品欧美| 日韩人妻无码精品综合区| 欧美视频在线观看一区二区| 视频一区二区三区不卡| 亚洲在线免费观看| 在线 亚洲欧美在线综合一区| 国产一线在线观看| 疯狂做受xxxx欧美肥白少妇| 欧美成人综合在线| 国产原创欧美精品| 欧美精品啪啪| 中文字幕狠狠干| 欧美精品vⅰdeose4hd| 国产盗摄精品一区二区酒店| 麻豆亚洲一区| 久久国产精品免费| 青青草原在线免费观看| 亚洲国产精品久久久久秋霞蜜臀 | 亚洲一二三四五六区| 欧美成人伊人久久综合网| 中文av在线全新| 亚洲亚洲精品三区日韩精品在线视频| 国内成人精品2018免费看| 欧美日韩中文视频| 这里只有精品在线观看| 亚洲日本va| 中文字幕在线观看第三页| 一区二区三区四区中文字幕| 水中色av综合| 亚洲va男人天堂| 男人天堂欧美日韩| 日本妇女毛茸茸| 国产亚洲综合久久| 亚洲超碰在线观看| 激情视频免费网站| 亚洲成av人影院| 国内精品久久久久国产| 久久艳妇乳肉豪妇荡乳av| 国产一区二区三区视频在线播放| 国产又大又黄又粗| 亚洲美女精品一区|