精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

蘋果炮轟推理模型全是假思考!4個游戲戳破神話,o3/DeepSeek高難度全崩潰

人工智能 新聞
這篇論文稱推理模型全都沒在真正思考,無論DeepSeek、o3-mini還是Claude 3.7都只是另一種形式的“模式匹配”,所謂思考只是一種假象。

蘋果最新大模型論文,在AI圈炸開了鍋。

有人總結到:蘋果剛剛當了一回馬庫斯,否定了所有大模型的推理能力。

圖片

這篇論文稱推理模型全都沒在真正思考,無論DeepSeek、o3-mini還是Claude 3.7都只是另一種形式的“模式匹配”,所謂思考只是一種假象。

再遇到真正高復雜度的任務時所有模型都會崩潰,即使給他們足夠的時間和計算資源也無濟于事。

作者中包括谷歌大腦創始人之一Samy Bengio(圖靈獎得主Yoshua Bengio的弟弟)。

圖片

有網友諷刺縱使蘋果擁有最多的資金,2年了也沒有拿出像樣的成果,現在自己落后了,卻來否定別人的成果。

圖片

還有人建議蘋果要不直接買下Claude背后的公司Anthropic算了,每拖一天都在變貴。

圖片

不過也有人指出,這篇論文沒有看上去那么消極,而是呼吁設立更好的推理機制和評估辦法。

圖片

那么,這篇論文究竟說了什么?

推理模型真的在“思考”嗎?

蘋果團隊認為現有評估主要集中在既定的數學和編碼基準上,看模型最終答案是否正確,但可能存在數據污染(模型訓練時見過類似題目)。并且,這些評估大都缺乏對“思考過程質量”的分析,比如中間步驟是否邏輯一致、是否繞彎路等。

為了克服這些限制,更客觀測試推理模型的推理能力,他們設計了4類謎題環境。

巧妙之處在于,四類謎題的難度可以精確控制,同時保持邏輯結構的一致性,研究者能夠系統觀察模型在不同復雜度下的行為變化,比如生成的每一步移動是否正確、是否重復試錯。

4類謎題環境分別是:

漢諾塔(Tower of Hanoi)

漢諾塔是一個包含三根柱子和n個不同大小圓盤的謎題,圓盤按大小順序(最大的在底部)堆疊在第一根柱子上。目標是將所有圓盤從第一根柱子移到第三根柱子。有效移動包括每次只能移動一個圓盤,只能從柱子頂部取圓盤,并且永遠不能將較大的圓盤放在較小的圓盤上。

此任務的難度可以通過初始圓盤的數量來控制,n個初始圓盤所需的最少移動次數為2n-1

跳棋交換(Checker Jumping)

玩法是將紅色跳棋、藍色跳棋和一個空格排成一行。目標是交換所有紅色和藍色跳棋的位置,也就是將初始配置鏡像反轉。

有效移動包括將跳棋移動到相鄰的空格中,或跳過恰好一個相反顏色的跳棋落到空格中。過程中,任何跳棋都不能向后移動。

此任務的復雜度可以通過跳棋的數量來控制,對于2n個跳棋,所需的最少移動次數為(n+1)2-1。

圖片

過河問題(River Crossing)

該謎題涉及n個角色及其對應的n個代理,他們必須使用一艘船過河。目標是將所有2n個人從左岸運到右岸。船最多可載k個人,且不能空駛。

每個代理必須保護自己的客戶免受競爭代理的傷害,當一個角色在沒有自己代理在場的情況下與另一個代理在一起時,就會出現無效情況。

此任務的復雜度也可以通過調整角色/代理對的數量來控制。對于n=2、n=3對,使用k=2的船容量;對于更多對,使用k=3的船容量。

積木世界(Blocks World)

該謎題要求將積木從初始配置重新排列為指定的目標配置,目標是找出完成這一轉換所需的最少移動次數。

其有效移動規則為:僅能移動任意堆疊中的最頂層積木,且可將其放置于空堆疊之上或另一塊積木的頂部。任務復雜度可通過積木數量進行調控。

圖片

團隊在這些可控環境中進行了大量實驗,對比“會思考”和“不思考”的模型組合,主要針對Claude-3.7-Sonnet模型(帶思考機制 vs 不帶思考機制)和DeepSeek模型(R1 vs V3),這些模型允許訪問thinking tokens。

而后團隊驚奇發現,隨著復雜度增加,模型表現呈現出三個截然不同的區間。

圖片

在低復雜度任務中,那些沒有“思考”功能的標準語言模型實際上表現得更好,它們不僅更準確,而且更加高效,不會浪費計算資源在不必要的思考上。

這一發現直接挑戰了“更多思考總是更好”的直覺假設。

隨著任務難度進入中等水平,能夠生成長思維鏈的推理模型開始顯現優勢,額外的思考過程確實能夠幫助模型找到更好的解決方案。

然而,當問題復雜度繼續增加并超過某個臨界點時,無論是推理模型還是標準模型都會經歷完全的性能崩潰,準確率直線下降至零。

以下是在低、中、高復雜度的謎題環境中,思考模型與非思考模型在同等計算預算下的pass@k性能表現:

圖片

更令人困惑的是,蘋果團隊觀察到“推理努力反向縮放”現象。

他們測試了5個會“思考”的推理模型,包括o3-mini (medium、high兩種配置)、DeepSeek-R1、DeepSeek-R1-Qwen-32B,、Claude-3.7-Sonnet (thinking)。

所有模型在任務復雜度提升后呈現出相似的模式:隨著問題復雜度的增加,準確率逐漸下降,直到超過特定于模型的復雜度閾值后完全崩潰,準確率為零。

關鍵在于,一開始,模型會隨著問題變難而加大思考量,使用更多token,但接近崩潰臨界閾值時,模型卻反直覺地開始“主動減少思考”,即使它們的token預算還遠未耗盡。

也就是說,問題并非出在計算資源的限制上,而是模型本身存在某種內在的計算擴展限制。

這種現象在o3-mini變體中最為明顯,在Claude-3.7-Sonnet (thinking)表現稍好一些。

圖片

為了深入理解這種現象,團隊又針對Claude-3.7-Sonnet (thinking)詳細分析了模型的內部推理軌跡。

他們發現,在處理簡單問題時,推理模型經常會在早期就找到正確的解決方案,但隨后卻繼續探索各種錯誤的替代方案,“過度思考”浪費計算資源。

圖片

隨著問題復雜度適度增加,這一趨勢發生逆轉,模型首先探索錯誤的解決方案,正確解決方案大多出現在思維的后期。

最后,對于更高復雜度的問題,會出現崩潰現象,即模型無法在思維中生成任何正確的解決方案。

除此之外,團隊還發了一個模型的迷惑行為。

如下圖(a)和(b)所示,團隊在提示中向模型提供了完整的解決算法,理論上模型只需要按部就班地執行這些步驟即可。

然而,實驗結果顯示,模型的失敗點幾乎沒有改變,它們仍然無法突破任務復雜性限制,性能沒有提升,且觀察到的崩潰仍發生在大致相同的臨界點。

圖片

團隊認為這一點非常值得注意,因為尋找和設計解決方案本應比單純執行給定算法需要更多的計算。這進一步凸顯了推理模型在驗證和遵循邏輯步驟解決問題方面的局限性,表明需要進一步研究以理解此類模型的符號操作能力。

而(c)和(d)又揭示,Claude 3.7 Sonnet在不同謎題中的表現差異很大。

在漢諾塔問題里,模型給出的解決方案中第一次出錯的步驟很晚才出現,在N=10的復雜度下,錯誤通常出現在第 100步左右。然鵝,在過河問題中,模型只能在第4步之前給出有效移動步驟。

在解決需要31步完成、N=5復雜度的漢諾塔問題時,模型達到了近乎完美的準確率,但在解決僅需11步就能完成的N=3的過河謎題時卻失敗了。

團隊認為這很可能表明,網絡上N>2的過河問題實例較少,推理模型在訓練過程中可能不常遇到或記住此類情況。

換句話說,這種不一致性強烈暗示,這些所謂的“推理”模型可能更多地依賴于對特定問題模式的記憶和識別,盡管具備復雜的自我反思機制,但在超過特定復雜度閾值后,模型仍無法發展出可泛化的推理能力。

最后,團隊提出僅用最終答案評估推理能力存在誤導性,還需關注中間步驟的質量(如邏輯一致性、步驟效率)。

并建議未來如何設計更魯棒的推理機制,突破長程依賴和復雜規劃的瓶頸,是當前AI研究的關鍵方向。

蘋果在大模型落后了嗎?

暫時放下學術上的爭議,蘋果在大模型上的進展確實不盡人意。

剛好一年前,Apple Intelligence在2024年WWDC正式亮相,但宣傳中的許多功能都經歷延期、不夠完善甚至被下架:

圖片

  • 個性化生成表情包的Genmojis功能,實裝后發現會導致iPhone過熱并耗盡電池壽命。
  • 新聞摘要功能在生成一系列假新聞標題后被關閉。
  • 最重磅的新版Siri甚至無法趕上即將舉辦的2025 WWDC

圖片

就在今年3月份,蘋果撤下了所有涉及新版Siri的電視廣告與網絡廣告。

高級總監Robby Walker對員工表示,他不確定這些升級何時真正發布,因為升級有三分之一的時間無法正常運行,部分原因是其他功能的優先級更高。

這些功能還沒有完全準備好向公眾發布,盡管我們的競爭對手可能已經以這種狀態甚至更糟的狀態發布了它們。

圖片

根據彭博社5月份的一篇爆料文章,蘋果在AI上的連續失敗可能受如下因素影響:

蘋果軟件工程主管Craig Federighi在ChatGPT之前一直不愿在人工智能領域進行大規模投資,導致蘋果內部致力于AI的員工,以及購買的算力資源都明顯少于競爭對手。

等到他發現AI大模型的潛力,其他科技巨頭已經在上面組建團隊并投入好幾年了。

圖片

另一位資深高管認為:在AI領域,直到開發完成,團隊都無法知道產品會是什么樣子,這不是蘋果的思維方式。當蘋果坐下來開發產品時,就已經知道最終目標是什么了

除了歷史原因之外,蘋果AI負責人John Giannandrea也被曝難融入蘋果核心管理層圈子,他沒有為團隊爭取到所需的資源,個人性格上也比較佛系,不會嚴格督促員工交付工作成果。

圖片

最后,對蘋果來說,動作慢一點不代表徹底失敗。歷史上他們經常等一個新技術出現了再打磨發布自己精心設計、易用性強的版本。

MP3播放器、智能手機、平板電腦、手表和耳機都是如此。

論文地址:
https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

責任編輯:張燕妮 來源: 量子位
相關推薦

2025-04-23 08:30:05

2024-12-24 16:15:04

2025-06-03 08:26:00

2013-05-06 09:48:38

數據遷移

2025-06-06 14:13:46

蘋果AI模型

2025-04-17 09:02:00

2025-09-15 14:42:55

o3視覺推理開源

2014-06-13 11:25:41

WiFi華為

2025-05-28 02:40:00

AdaptThink推理模型AI

2025-05-13 08:24:14

2024-09-24 11:01:03

2025-05-30 00:00:00

2025-06-11 08:56:54

2025-06-13 01:00:00

人工智能大型推理模型推理模型

2025-06-11 09:19:46

2025-03-10 08:10:00

AI研究安全

2025-08-04 08:40:00

2025-06-13 14:15:57

2025-02-18 08:15:03

2015-05-13 16:30:02

混合云云部署
點贊
收藏

51CTO技術棧公眾號

中文字幕人妻一区二区三区| 三级网在线观看| 国产www在线| 成人3d动漫在线观看| 欧美日韩电影在线播放| 国产大尺度在线观看| 秋霞视频一区二区| 日韩电影在线观看网站| 久久国产精品99国产精| 少妇大叫太粗太大爽一区二区| 久久精品 人人爱| 亚洲福利一区二区三区| 亚洲国产欧美日韩| 日韩一区免费视频| 免费高清不卡av| 久久久亚洲国产天美传媒修理工| 夫妇交换中文字幕| 91嫩草精品| 欧美日韩精品三区| 国产自产在线视频| 欧美jizzhd69巨大| 91欧美一区二区| 99国产在线观看| 中文字幕在线视频第一页| 亚洲国产mv| 久久精彩免费视频| 亚洲精品国产精品国自产网站| 日韩高清二区| 欧美日韩免费观看一区二区三区| 99在线观看视频免费| xxxxx日韩| 99国产精品久| 国产精品xxx在线观看www| 中文字字幕在线观看| 亚洲精品123区| 欧美精品性视频| 女人18毛片毛片毛片毛片区二| 亚洲理论电影| 亚洲国产美女精品久久久久∴| 国产福利影院在线观看| 伊人久久综合一区二区| 亚洲成a人片在线观看中文| 国产成人生活片| 免费在线观看av片| 中文成人综合网| 日韩中文字幕一区二区| 嫩草在线播放| 久久亚洲欧美国产精品乐播 | 91亚洲视频| 韩曰欧美视频免费观看| 91成人在线观看喷潮教学| 91麻豆免费在线视频| 亚洲蜜臀av乱码久久精品蜜桃| 亚洲精品在线视频观看| www.av在线| 中文字幕电影一区| 一区二区三区四区欧美日韩| av网站无病毒在线| 国产精品久久毛片a| 亚洲国产精品一区二区第一页| 国产h在线观看| 国产欧美日韩另类视频免费观看| 亚洲高清乱码| 欧美性猛交xxx乱大交3蜜桃| ●精品国产综合乱码久久久久| gogogo免费高清日本写真| 日本在线看片免费人成视1000| 国产精品私人影院| 天天爱天天做天天操| 午夜av在线免费观看| 一区二区三区精品| 香港三级韩国三级日本三级| 人人鲁人人莫人人爱精品| 在线观看一区二区视频| 欧美日韩中文不卡| 日本一区二区三区电影免费观看 | 日韩偷拍自拍| 欧美激情一区三区| 国产树林野战在线播放| 成人超碰在线| 日本韩国一区二区| 波多野结衣xxxx| 日韩有吗在线观看| 亚洲精品久久久久久久久久久久久 | 一级做a爰片久久| 国产在线观看a视频| 亚洲高清视频的网址| 韩国日本在线视频| 伊人亚洲精品| 亚洲国产古装精品网站| 人人妻人人澡人人爽| 欧美国产美女| 97精品国产97久久久久久| 亚洲第一区av| 丁香六月综合激情| 日本一区高清不卡| 在线中文字幕第一页| 欧美视频精品一区| 亚洲制服中文字幕| 亚洲精品**不卡在线播he| www.久久撸.com| 日本一区二区免费在线观看| 久久99久久精品| 精品欧美日韩| 成人国产免费电影| 在线观看欧美日本| 天天躁日日躁狠狠躁av| 日韩精品欧美| 日本国产精品视频| 国产wwwwwww| 国产日韩高清在线| 亚洲熟妇av日韩熟妇在线| 四虎精品在线观看| 亚洲老司机av| 四虎永久在线精品| 黄页视频在线91| 四虎影视永久免费在线观看一区二区三区 | 成人黄色国产精品网站大全在线免费观看 | 青青操综合网| 日韩一区二区三区在线播放| 免费在线观看黄网站| 国产一二精品视频| 亚洲精品乱码视频| 欧美黄色网页| 亚洲精品按摩视频| 久久久久免费看| 精品无人区卡一卡二卡三乱码免费卡 | 国产欧美日韩综合| 欧美v在线观看| 国产精品45p| 久久6精品影院| 亚洲综合视频在线播放| 亚洲国产激情av| 波多野结衣作品集| 日韩大片在线免费观看| 久久久久久亚洲精品中文字幕| 国产女无套免费视频| 国产精品美女久久久久av爽李琼 | 久久精品国产亚洲av无码娇色| 精品一区二区三区免费播放 | 秘密基地免费观看完整版中文| 欧美不卡高清| 91网站在线免费观看| 麻豆tv入口在线看| 欧美日韩国产一级| 欧美福利在线视频| 蜜桃久久av一区| 一本一生久久a久久精品综合蜜| 欧洲精品一区二区三区| 亚洲欧美国产精品久久久久久久 | 91精品在线一区二区| 欧洲性xxxx| 久久激情五月婷婷| 亚洲美女自拍偷拍| 精品久久国产一区| 久久99热精品| 三级小视频在线观看| 性欧美疯狂xxxxbbbb| 中文字幕人妻一区二区三区| 国产精品视区| 欧美13一14另类| av成人亚洲| 久久精品国产清自在天天线| 国产精品福利电影| 亚洲蜜臀av乱码久久精品| 师生出轨h灌满了1v1| 亚洲国产欧美国产综合一区| 开心色怡人综合网站| 欧美暴力调教| 精品国内亚洲在观看18黄| 性欧美videos另类hd| 亚洲成a人在线观看| 国产高清一区二区三区四区| 麻豆精品视频在线观看| 国产经典久久久| 成人18夜夜网深夜福利网| 88xx成人精品| aaa日本高清在线播放免费观看| 欧美日韩精品一区二区三区四区| 日本中文在线视频| 99久久久久久99| 国产激情在线观看视频| 我不卡伦不卡影院| 国内精品视频在线播放| 成人在线免费电影网站| 欧美高清在线播放| 日韩午夜影院| 欧美一区二区在线免费播放 | 欧美婷婷六月丁香综合色| 久久国产美女视频| 91免费小视频| 亚洲第一天堂久久| 亚洲精品1区2区| 亚洲一区二区精品在线| baoyu135国产精品免费| 国产精品大片wwwwww| 日本中文字幕中出在线| 国产亚洲日本欧美韩国| 丰满少妇高潮在线观看| 欧洲精品在线观看| 久久精品国产亚洲AV无码麻豆| 国产香蕉久久精品综合网| 欧美性生交xxxxx| 人人精品人人爱| 免费毛片网站在线观看| 欧美激情777| 欧美精品在线一区| 999久久精品| 国产精品嫩草影院久久久| ririsao久久精品一区| www.久久撸.com| 精品欧美不卡一区二区在线观看| 日韩欧美第一区| 中文字幕一区2区3区| 精品久久香蕉国产线看观看亚洲| 视频国产一区二区| 国产亚洲va综合人人澡精品| 国产免费一区二区三区最新6| 极品少妇xxxx精品少妇| 成人在线观看a| 亚洲精品字幕| 人妻av无码专区| 亚洲理论电影网| 亚洲乱码一区二区三区| 国产99久久| 精品在线视频一区二区三区| 视频成人永久免费视频| 91精品啪aⅴ在线观看国产| 欧美黄色三级| 日韩美女中文字幕| 制服丝袜专区在线| 韩日欧美一区二区| 美女尤物在线视频| 欧美福利视频在线| 国产精品实拍| 久久精品国产久精国产一老狼| 中文字幕在线观看日本| 中文字幕不卡av| 成人免费在线电影| 国产亚洲欧美日韩美女| 第一视频专区在线| 中文字幕精品在线视频| 超碰免费在线| 永久免费精品影视网站| 岛国最新视频免费在线观看| 亚洲午夜激情免费视频| 毛片在线能看| 亚洲日本中文字幕免费在线不卡| 涩涩视频在线观看免费| 精品视频久久久久久久| 视频国产在线观看| 亚洲美女av在线播放| 欧美成人综合在线| 亚洲欧美一区二区三区四区| 九色视频在线观看免费播放| 在线观看欧美日韩| 欧美成人二区| 欧美福利视频在线观看| 久草在线中文最新视频| 欧美亚洲在线观看| 美女18一级毛片一品久道久久综合| 欧美野外猛男的大粗鳮| 69堂精品视频在线播放| 国产在线视频2019最新视频| 99亚洲男女激情在线观看| 成人黄色在线免费观看| 久久中文字幕导航| 欧美日韩在线精品| 欧美成人自拍| 肉大捧一出免费观看网站在线播放| 狠狠综合久久av一区二区老牛| 国产69精品久久久久久久| 免费看的黄色欧美网站| 孩娇小videos精品| 国产成人免费视频精品含羞草妖精| 在线xxxxx| 国产欧美一区二区三区沐欲| 小泽玛利亚一区| 亚洲成人免费电影| 欧美日韩在线视频播放| 91精品欧美福利在线观看| 欧美一级一区二区三区| 亚洲石原莉奈一区二区在线观看| 日本三级视频在线播放| 久久久久久午夜| 78精品国产综合久久香蕉| 翡翠波斯猫1977年美国| 奇米色欧美一区二区三区| 精品一区二区成人免费视频 | 一区二区三区在线视频观看58| 精品午夜福利在线观看| 日本高清成人免费播放| 99热这里只有精品99| 亚洲欧美制服中文字幕| caoporn免费在线视频| 欧洲一区二区视频| 国产精品视频一区视频二区| 久久99精品久久久水蜜桃| 99九九热只有国产精品| heyzo国产| 国产一区二区电影| 日韩人妻无码一区二区三区| 亚洲男人天堂av| 色网站在线播放| 欧美一区二区三区四区在线观看 | 大j8黑人w巨大888a片| 精品一区二区免费| 扒开jk护士狂揉免费| 亚洲国产欧美一区二区三区丁香婷| 亚洲视屏在线观看| 日韩电影网在线| 亚洲妇熟xxxx妇色黄| 国产精品久久久久久久久久免费| 成人18夜夜网深夜福利网| 正在播放一区二区三区| 久久精品1区| 欧美日韩一区二区三区四区五区六区| 欧美激情在线看| 欧美日韩一二三四区| 日韩精品资源二区在线| 欧美18hd| 国产激情999| 日本在线中文字幕一区| 欧美一级爱爱视频| 韩国成人福利片在线播放| 中文字幕第20页| 欧美日韩激情美女| 熟妇人妻av无码一区二区三区| 久久精品精品电影网| 日韩久久一区二区三区| 国产精品青青草| 午夜久久福利| 亚欧美一区二区三区| 国产精品久久久久久久久快鸭| 国产成人精品777777| 亚洲精品久久久一区二区三区| 国产深夜视频在线观看| 99久热re在线精品996热视频| 日韩.com| 久久国产激情视频| 国产精品视频看| 中文 欧美 日韩| 中文字幕日韩精品在线| 久久xxx视频| 亚洲精品影院| 老司机午夜精品| 乱老熟女一区二区三区| 在线播放国产精品二区一二区四区| 91看片在线观看| 国产原创欧美精品| 亚洲精品国产首次亮相| 一级黄色大片儿| 亚洲综合免费观看高清完整版在线 | 欧美人体视频xxxxx| 国产精品xxxx| 国产人成精品一区二区三| 特大黑人巨人吊xxxx| 色综合久久综合| 国产在线资源| 国产美女精品视频| 久久久久久影院| 真实乱偷全部视频| 亚洲午夜精品17c| 全色精品综合影院| 国产精品久久中文| 天天综合久久| 韩国三级在线看| 精品国产乱码久久久久久天美| 蜜芽tv福利在线视频| 国产精品第10页| 亚洲成人精品| 永久免费未满蜜桃| 91精品1区2区| 国产精品一卡二卡三卡| 国产精品香蕉视屏| 亚洲一区日韩在线| 91无套直看片红桃在线观看| 91精品国产麻豆| 婷婷电影在线观看| 亚洲精品久久区二区三区蜜桃臀 | 亚洲精选久久| 黄色片在线观看免费| 欧美一区二区三区在| 国产激情视频在线看| 亚洲国产一区二区精品视频| 国产激情一区二区三区桃花岛亚洲| 日韩免费不卡视频| 在线观看精品国产视频| a看欧美黄色女同性恋| 午夜免费一区二区| 一区二区免费视频| 黄色大片在线看| 2014亚洲精品| 日韩黄色一级片| 欧美极品视频在线观看| 亚洲欧洲xxxx| 91精品久久久久久综合五月天| 91香蕉视频污版| 亚洲高清三级视频| 欧美精品hd|