精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Claude與人類共著論文,蘋果再遭打臉!實驗黑幕曝光

人工智能 新聞
蘋果一篇論文,再遭打臉。研究員聯(lián)手Claude Opus用一篇4頁論文再反擊,揭露實驗設(shè)計漏洞,甚至指出部分測試無解卻讓模型「背鍋」的華點。

幾天前,蘋果怒斥大模型根本不會推理論文,引發(fā)全網(wǎng)無數(shù)討論與爭議。

在許多人看來,沒有站在AI前沿的人, 卻質(zhì)疑當今最領(lǐng)先推理模型o3-mini、DeepSeek-R1推理能力,實在沒有說服力。

論文一出,備受質(zhì)疑。

一位研究員發(fā)文稱,其研究方法并不可靠,比如通過在數(shù)學題中添加無關(guān)內(nèi)容測試模型的表現(xiàn)。

最近,Open Philanthropy研究人員聯(lián)手Anthropic發(fā)表的一篇論文——The Illusion of the Illusion of Thinking,再次將矛頭指向蘋果。

圖片

論文地址:https://arxiv.org/pdf/2506.09250

這篇僅4頁論文一針見血,揭露了蘋果論文在漢諾塔實驗、自動評估框架,以及「過河」基準測試中的三大缺陷。

甚至,文中還指出部分測試用例在數(shù)學上無解,模型卻因此被誤判為「推理失敗」。

更引人注目的是,論文作者之一,還有一個是AI——Claude Opus。

圖片

論文中,具體指出了哪些問題,讓我們一探究竟。

推理大模型失敗,是非戰(zhàn)之罪

在The illusion of thinking中,作者給出了四個例子,說明當問題的尺度變大時,大模型的表現(xiàn)變得越來越差。

他們據(jù)此得出結(jié)論:大模型實際上只是在進行著模式匹配,從訓練數(shù)據(jù)集中找出對該問題的已有解答。

圖片

漢諾塔問題示例

然而Lawsen和Claude指出上述研究中,推理大模型失敗源頭在于token數(shù)超過了模型的上限。

例如,在漢諾塔的任務中,模型必須打印指數(shù)級數(shù)量的步驟——僅15個盤子就需要超過32,000次移動,這導致它們達到輸出上限。

Sonnet 3.7的輸出限制是128k,DeepSeek R1是64K,以及o3-mini是100k token。

這包括他們在輸出最終答案之前使用的推理token,所有模型在超過13個盤子的情況下都會出現(xiàn)0準確率,僅僅因為它們無法輸出那么多!

圖片

不同大模型能夠應對的漢諾塔盤子數(shù),不考慮任何推理token,大模型最大可解決規(guī)模為DeepSeek: 12個盤子,Sonnet 3.7和o3-mini為13個盤子

在使用Claude測試時,作者觀察到當問題規(guī)模過大時,它們甚至不會進行推理,而是會說,「由于移動次數(shù)眾多,我將解釋解決方案方法」,而不是逐一列出所有32,767次移動。

針對非常小的問題(大約5-6個盤子)的,大模型會進行推理。

之后,它只是:重復問題,重復算法,打印步驟,然后到了9-10個盤子時,這時模型遇到了其輸出的上限,這時,模型也許應該給出回復,「我寫不下2^n_圓盤-1步,這超過了我的輸出上限」。

圖片

不同尺度的問題,大模型輸出的token數(shù)在9-10個盤子時達到峰值

此外,大模型給出的解答之所以是錯誤的,可能的原因是在每一步推理過程中,大模型由于其是概念模型,會忘記之前選定的盤子。

即使大模型每一步選對正確盤子的概率是99.99%,當盤子數(shù)超過11%個時,大模型給出正確回答的概率,也會呈現(xiàn)指數(shù)衰減。

這意味著即使大模型能夠進行推理,但由于其在推理過程中,某漢諾塔盤頂?shù)谋P子編號從A記錯成了B,也會導致其給出的指令無法執(zhí)行。

而當前的評價要求大模型給出的回答完全沒有錯誤,這樣的評價標準,未免有些過于嚴苛了。

圖片

大模型不同觀察準確性下,隨著問題復雜度增長其回答準確性的變化

至于The illusion of thinking文中列出的另一案例過河問題(River Crossing),當問題變?yōu)閚=6時,問題在數(shù)學上就是無解的,這樣的不可解的問題數(shù)目并不少。將大模型面對這些不可解問題的失敗,當做大模型缺少推理能力的證據(jù),這樣做無疑是不妥的。

除了指出The illusion of thinking中的評價缺陷,最新論文也指出對大模型推理能力對正確評價方法。

即不是讓大模型逐行編寫每個步驟時,而是其給出一個Lua程序去解答問題,然后運行大模型給出的程序,再判斷程序的輸出否是正確的解答。

結(jié)果顯示,Claude-3.7-Sonnet,Claude Opus 4,OpenAI  o3,Google Gemini 2.5都能夠在5000個token的限制下,輸出能得到正確解答的程序,準確率極高。

這完全消除了所謂的推理能力崩潰現(xiàn)象,表明模型并非未能進行推理。它們只是未能遵循一個人為的、過于嚴格的評分標準。

LLM推理能力引熱議

蘋果發(fā)布「思考的幻覺」論文的時間,恰逢WWDC之前,這進一步加劇了其影響力,使得其被廣泛討論。

這其中就包含不少批評的聲音,比如有人暗示蘋果在大模型方面落后于OpenAI和谷歌等競爭對手,可能試圖降低人們的期望。

他們戲稱,提出了一些關(guān)于「這一切都是假的,毫無意義」的研究,可以挽救蘋果在Siri等表現(xiàn)不佳的AI產(chǎn)品上的聲譽。

圖片

還有人批評道,即使是人類,也大多無法準確無誤的寫出針對13個盤子的漢諾塔問題的一步步解法,如果沒有進行這樣的比較,蘋果又如何知道這樣隨著問題規(guī)模變大而遇到的準確性下降,不會出現(xiàn)在人類身上。

圖片

而法國高效能AI初創(chuàng)公司Pleias的工程師Alexander Doria指出思考的幻覺一文略了細微差別,認為模型可能在學習部分啟發(fā)式方法,而不是簡單地匹配模式。

圖片

而賓夕法尼亞大學沃頓商學院專注于人工智能的教授Ethan Mollick認為,認為大語言模型正在「遇到瓶頸」的觀點為時過早,并將此比作那些未能應驗的關(guān)于「模型崩潰」的類似主張。

上述爭議凸顯了一個日益增長的共識:設(shè)計合理的大模型評估方案,如今與模型設(shè)計同等重要。

要求大模型枚舉每一步可能更多地考驗它們的輸出上限而非規(guī)劃能力,而輸出程序化答案或給予大模型外部臨時工作區(qū)則能更清晰地展現(xiàn)其實際推理能力。

該案例還突出了開發(fā)者在部署自主系統(tǒng)時面臨的實際限制——上下文窗口、輸出預算和任務表述可能決定或破壞用戶可見的性能。對于在企業(yè)技術(shù)決策者構(gòu)建基于推理大模型的應用而言,這場辯論不僅僅是學術(shù)性的。它提出了關(guān)于在生產(chǎn)工作流程中何時、何地以及如何信任這些模型的關(guān)鍵問題——尤其是在任務涉及長規(guī)劃鏈或需要精確的逐步輸出時。

如果一個模型在處理復雜提示時看似「失敗」,問題可能不在于其推理能力,而在于任務如何被構(gòu)建、需要多少輸出,或模型能訪問多少內(nèi)存。這對于構(gòu)建如協(xié)作者、自主代理或決策支持系統(tǒng)等工具的產(chǎn)業(yè)尤其相關(guān),在這些產(chǎn)業(yè)中,可解釋性和任務復雜性都可能很高。

理解上下文窗口、token預算以及評估中使用的評分標準對于可靠的系統(tǒng)設(shè)計至關(guān)重要。開發(fā)者可能需要考慮外部化內(nèi)存、分塊推理步驟或使用函數(shù)或代碼等壓縮輸出,而不是完整的語言解釋。

更重要的是,這篇論文的爭議提醒我們,基準測試與現(xiàn)實應用并不相同。

企業(yè)團隊應謹慎避免過度依賴那些不能反映實際應用場景的合成基準測試——或者那些無意中限制模型展示其能力的基準測試。對機器學習研究人員來說,一個重要的啟示是:在宣稱一個人工智能里程碑或訃告之前,務必確保測試本身沒有將系統(tǒng)置于一個太小而無法思考的框框之中。

責任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-06-16 08:48:00

2025-06-10 09:25:27

2024-11-14 09:59:23

2025-07-03 01:45:00

LLMCoT思維鏈

2023-02-09 16:09:46

2012-03-17 09:06:56

2023-03-28 12:11:23

AI人類

2021-02-25 10:23:01

人工智能科技機器學習

2022-06-08 10:29:28

人工智能機器人

2024-07-29 09:47:00

2021-12-09 15:03:10

人工智能AI人類思維

2021-12-23 09:38:07

微軟圖像加密

2025-05-15 14:39:17

AI模型數(shù)據(jù)

2015-03-16 13:31:31

2020-10-28 15:37:12

人臉識別技術(shù)安全

2023-09-29 18:46:06

谷歌AI代碼

2021-02-19 13:17:19

比特幣機器人加密貨幣

2020-10-06 19:05:09

神經(jīng)網(wǎng)絡人類思維人工智能

2021-03-09 10:37:59

人工智能超人工智能

2017-08-28 09:16:27

識別水平人類
點贊
收藏

51CTO技術(shù)棧公眾號

国产欧美精品一区二区| 另类小说色综合| 日韩美女视频一区| 四虎久久免费| 一区二区三区不卡在线| 国产精品每日更新在线播放网址| 美丽的姑娘在线观看免费动漫| 欧美福利一区二区三区| 久久久综合视频| 国产一级二级三级在线观看| 翔田千里亚洲一二三区| 国产精品色眯眯| 中文国产字幕在线观看| 日韩精品一区二区在线视频| 性做久久久久久久久| 天堂av在线网| 不用播放器的免费av| 亚洲精品福利在线| 精品理论电影在线| 色偷偷噜噜噜亚洲男人| 波多野结衣在线播放一区| www.4hu95.com四虎| 久久久亚洲影院| 国产欧美日韩| 久久久久亚洲AV成人| 欧洲永久精品大片ww免费漫画| 免费精品视频在线| 国产91视频在线| 国产精品亚洲欧美导航| 成人高清免费观看| 成年人在线视频免费观看| 中文精品无码中文字幕无码专区| 欧美天天综合网| 美国成人xxx| 麻豆亚洲av熟女国产一区二| 国产成一区二区| 2014亚洲片线观看视频免费| 一级黄色免费毛片| 国产午夜精品美女视频明星a级| 欧美日韩视频| 性做久久久久久久| 8x8ⅹ国产精品一区二区二区| 欧美日韩中文国产| 日韩在线精品| 一级片在线观看视频| 日本一区不卡| 欧美色图天堂网| 日本a口亚洲| 国产精品高潮呻吟久久久| 国产精品日韩在线| 亚洲区综合中文字幕日日| 国产一级片免费视频| 精品国产乱码久久久久久丨区2区 精品国产乱码久久久久久蜜柚 | 亚洲欧美日韩久久精品| 久久久久伊人| 91成人福利视频| 国产免费一区| 日本道色综合久久| 青青草91久久久久久久久| 怡春院在线视频| 亚洲一区 在线播放| 97精品久久久午夜一区二区三区| 黄页网站在线| 97伦伦午夜电影理伦片| 色妞在线综合亚洲欧美| 久久99精品国产麻豆不卡| 国产91免费在线观看| 久久成人免费观看| 91精品国产一区二区三区| 国模吧视频一区| 国产精品视频一区二区久久| www.射射射| 亚洲欧美制服丝袜| 韩日av一区二区| 国产在线小视频| 亚洲成人激情小说| 国产精品福利在线观看网址| 亚洲一区中文日韩| 亚洲国产精品久久久久蝴蝶传媒| 囯产精品一品二区三区| 精品综合久久久久| 国产一区二区色| 欧美日韩成人一区二区| 久久激情久久| 欧美a级在线观看| 亚洲乱码国产一区三区| 日韩欧美激情四射| 亚洲影视一区二区三区| 大乳在线免费观看| 偷拍夫妻性生活| 亚洲伊人一本大道中文字幕| 欧美电影在线免费观看| 精品一区二区影视| 欧美天堂在线| 一区二区三区亚洲视频| 国产野外作爱视频播放| 7777精品视频| 最近中文字幕一区二区三区| 精品freesex老太交| 看电影就来5566av视频在线播放| 99免费观看视频| 91免费在线观看网站| 欧美二区乱c少妇| 国产成人自拍网| 亚洲精品aⅴ| 久久久一区二区三区捆绑**| 日本免费久久| 麻豆成人免费视频| 欧美综合在线观看视频| 51精品国产黑色丝袜高跟鞋 | 自拍视频国产精品| 国产日本亚洲高清| 日韩精品免费| 欧美成人精品欧美一级| 日韩偷拍一区二区| 亚洲午夜色婷婷在线| 99久久久国产精品| 91亚洲天堂| 久久精品99久久久久久| 中国女人做爰视频| 51ⅴ精品国产91久久久久久| 欧美影院午夜播放| 另类小说综合欧美亚洲| 青春草在线视频| 国产一区喷水| 亚洲桃花岛网站| 国产日产欧美一区二区三区 | 亚洲一区精品在线观看| 久久综合在线观看| 国产精品午夜av在线| 国产亚洲精品美女久久久久| ...av二区三区久久精品| 五月开心六月丁香综合色啪 | 欧美色视频一区| 99久久婷婷国产综合精品电影| 国内精品视频在线观看| 亚洲按摩av| 国产免费一区二区三区免费视频| 国产精品久久无码| 伊人网在线免费| 国产欧美日韩中文字幕| 欧美变态凌虐bdsm| 中文字幕一区二区三区视频| 亚洲一区二区免费看| 亚洲网址在线观看| 亚洲综合影视| 国产一区二区三区中文字幕| 日韩人妻一区二区三区| 91午夜在线观看| xxxx性欧美| 色噜噜久久综合| aaa亚洲精品| 亚洲精品黄色| 麻豆成人入口| 亚洲国产欧美日本视频| 深夜福利免费在线观看| 国语对白一区二区| 亚洲国产午夜伦理片大全在线观看网站| 91国内在线视频| 日韩成人在线视频| 偷窥国产亚洲免费视频| 99亚偷拍自图区亚洲| 夜夜夜久久久| 少妇精品久久久一区二区三区| 日本一区二区电影| av在线播放网| 国产裸体无遮挡| 日韩经典在线观看| 免费在线观看你懂的| 久久国产激情视频| 青草视频在线观看视频| 欧美日韩国产综合视频在线| 国产精品视频资源| 日韩中文字在线| 欧美精品一区二| 色视频一区二区| 一区二区三区精品在线观看| 丁香另类激情小说| 热久久一区二区| 欧美区亚洲区| 色琪琪久久se色| 精品三级av在线导航| 久久69成人| 91资源在线观看| 在线观看av黄网站永久| 国产一级伦理片| 久久久久亚洲av无码麻豆| 欧美 国产 日本| 久久观看最新视频| 一区二区三区欧美成人| 欧美日韩喷水| 成人毛片网站| 国产在线不卡精品| 国产91精品视频在线观看| 欧美国产乱视频| 久久精品电影网| 伊人久久久久久久久久久| 亚洲精品有码在线| 99国产精品久| 国产成人综合自拍| 成人精品亚洲人成在线| 日本成人在线视频网站| 老牛嫩草一区二区三区日本 | 肥臀熟女一区二区三区| 成人av免费播放| av网站免费播放| 欧美一级一区二区三区| 国产成人精品无码高潮| 精品国产乱码一区二区三 | 中文字幕22页| 国产精品中文久久久久久| 天天干天天色天天干| 欧美xxxxxbbbbb| 中文字幕国产高清| 妖精视频在线观看| 91精品啪在线观看国产| 少妇被狂c下部羞羞漫画| 一级片手机在线观看| 西西大胆午夜视频| 一区二区黄色片| 人人妻人人澡人人爽| 欧美色视频一区二区三区在线观看| 娇小11一12╳yⅹ╳毛片| wwwav国产| 国产这里有精品| 欧美黄色一级大片| 国产色片在线观看| 久热av在线| av片在线观看| 伦一区二区三区中文字幕v亚洲| 日本成人福利| 伊人久久大香线蕉无限次| 综合激情网站| 日韩电影在线一区二区三区| 国产精品99久久久久久似苏梦涵| 91偷拍与自偷拍精品| 亚洲美女视频在线| 在线日韩国产精品| 日韩国产精品视频| 欧美成人黑人xx视频免费观看| 久久av.com| 国产91|九色| 国产二区一区| 激情六月天婷婷| 久久精品香蕉视频| 中文字幕 日本| 久久亚洲成人av| 国产一区二区视频免费观看| 国产午夜精品一区理论片| xx欧美视频| 成人看片黄a免费看视频| 欧美喷水视频| 高清shemale亚洲人妖| 亚洲高清视频在线| 欧美xxxxx牲另类人与| 日韩有码在线视频| 4k岛国日韩精品**专区| 欧美国产亚洲视频| 成人在线看片| 手机免费av片| 熟妇无码乱子成人精品| 狠狠躁狠狠躁视频专区| 性感美女一区二区三区| 99热国产在线观看| 国产在线观看成人| 嫩草研究院在线| 精品视频自拍| 国产一区二区精品久久| 在线影视一区二区三区| 精品调教chinesegay| 韩剧1988免费观看全集| 久久久久久久久久久一区| 91麻豆国产语对白在线观看| 欧美日韩在线精品| 国产精品视频分类| 免费观看特级毛片| 99精品在线视频观看| av3级在线| 日韩欧美国产精品综合嫩v| 免费日本视频一区| 一区二区激情小说| 日韩电视剧免费观看网站| 91精品国产一区| 国内精品久久国产| 僵尸世界大战2 在线播放| 白嫩情侣偷拍呻吟刺激| japanese国产在线观看| 99热国产在线| 精品一区二区三| 成人黄色777网| 欧美一区午夜精品| 午夜精品一区二区三区在线 | 日韩av免费网址| 麻豆视频在线观看免费网站| 在线日本制服中文欧美| 国产一区二区三区观看| 91极品美女在线| 51久久精品夜色国产麻豆| 国产免费xxx| www.久久av| 欧美日韩在线中文字幕| 久久99精品久久久久久欧洲站| 成人免费看视频| 亚洲高清在线观看| 好吊色欧美一区二区三区四区 | av网在线观看| 成人免费在线观看av| 国产精品国产精品国产专区不片| 日韩中文字幕视频| 国产1区2区3区中文字幕| 免费在线黄色片| 国产网站在线| 日韩精品电影在线观看| 91久久精品网| 51国产成人精品午夜福中文下载 | 国产精品爽黄69天堂a| 中文字幕免费高清在线| www国产在线| 国内自拍欧美| 电影在线观看一区二区| 久久精品免费一区二区三区| 国产伦理精品不卡| 精品免费在线观看| 精品日韩欧美在线| 日韩三级电影网址| 色噜噜偷拍精品综合在线| 欧美精品三级在线观看| 日韩欧美成人激情| 久久精品一本久久99精品| 佐佐木明希av| 婷婷色在线视频| 欧美精品日日操| 一区二区中文字幕在线观看| 麻豆成人综合网| 日韩电影在线免费看| 成人aa视频在线观看| 亚洲成a人片在线不卡一二三区| 亚洲国产精品嫩草影院| 久久99深爱久久99精品| 久久这里只有精品首页| 日韩精品视频免费| 欧美一级视频免费看| 娇小11一12╳yⅹ╳毛片| 免费在线看电影| 国产三级欧美三级日产三级99| 91久久久久久| 欧美精品韩国精品| 国产综合精品| zzijzzij亚洲日本成熟少妇| 久久精品一卡二卡| 91视频欧美| 久久久久国产精品人| 国产在线98福利播放视频| 欧美日韩一级大片| 日韩欧美美女在线观看| 欧美视频中文字幕| 日韩免费一级视频| 精品孕妇一区二区三区| 久久综合色播五月| 国产精品二区三区| 国产不卡av在线播放| 久久欧美肥婆一二区| 久久久久免费视频| 国产精品夜夜夜爽阿娇| 国产在线日韩精品| 亚洲精品按摩视频| 青青草精品在线| 91精品在线免费视频| 欧美午夜影院一区| 欧美性猛交久久久乱大交小说 | 亚洲专区在线视频| 国产又粗又猛又爽又黄91| 天堂一区二区在线免费观看| 午夜精品一区二区三区视频免费看 | va天堂va亚洲va影视| 欧美亚洲高清一区| 亚洲免费av一区二区三区| 黄色在线免费观看网站| 亚洲国产一区二区a毛片| 国产91沈先生在线播放| 日本在线视频中文有码| 日韩久久一区二区| 永久久久久久| 欧美孕妇孕交xxⅹ孕妇交| 国产91丝袜在线播放九色| 成人激情av在线| 国产剧情精品在线| 久久99精品网久久| 国产精品久久久久久久久久久久 | 一本色道久久综合亚洲精品不| 久久精品视频在线观看| 欧美a级片免费看| 欧美mv日韩| xxxx性欧美| 日本学生初尝黑人巨免费视频| 亚洲国产黄色| 青青在线视频一区二区三区| 中国a一片一级一片| 美女视频黄频大全不卡视频在线播放| 国产主播喷水一区二区|