精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

蘋果拆解AI大腦,推理模型全是「裝」的?Bengio兄弟合著

人工智能 新聞
蘋果最新研究揭示大推理模型(LRM)在高復(fù)雜度任務(wù)中普遍「推理崩潰」:思考路徑雖長(zhǎng),卻常在關(guān)鍵時(shí)刻放棄。即便給予明確算法提示,模型亦無法穩(wěn)定執(zhí)行,暴露推理機(jī)制的局限性。

AI「思考」只是假象?

剛剛,一項(xiàng)來自蘋果的重磅研究揭示了「大推理模型(LRM)」背后的驚人真相——這些看似聰明的模型,在面對(duì)稍復(fù)雜點(diǎn)的題目時(shí),準(zhǔn)確率居然會(huì)全面崩潰!

隨著問題變難,推理模型初始會(huì)延長(zhǎng)思考,但隨后思考深度反而下降,盡管仍有充足token預(yù)算——它們恰在最需要深入思考時(shí)選擇了放棄!

這太違背直覺了,似乎Scaling Law在推理時(shí)完全失效了。

值得一提的是,論文作者中還有Samy Bengio,他也是圖靈三巨頭Yoshua Bengio的兄弟。

圖片

論文地址:https://ml-site.cdn-apple.com/papers/the-illusion-of-thinking.pdf

LRM模型因能「寫出思考過程」而備受期待,被認(rèn)為是AI推理能力躍升的關(guān)鍵。

圖片

DeepSeek-R1 <think>模式的開源開啟了LLM進(jìn)化到LRM的進(jìn)程

但研究人員通過可控游戲環(huán)境的系統(tǒng)實(shí)驗(yàn)證明:現(xiàn)有LRMs不僅在高復(fù)雜度任務(wù)上力不從心,甚至還展現(xiàn)出一種「反常的推理崩潰曲線」——題目越難,它們反而越不「努力」。

研究還通過在相同計(jì)算token預(yù)算下對(duì)比思考模型與普通模型,發(fā)現(xiàn):

  • 簡(jiǎn)單題目,反而是傳統(tǒng)大模型(LLMs)更強(qiáng);
  • 中等復(fù)雜度,LRMs憑借「思考路徑」勝出;
  • 一旦太復(fù)雜,兩類模型準(zhǔn)確率同時(shí)坍塌至0%

不同于大多數(shù)僅衡量最終性能的研究,這項(xiàng)最新研究分析了它們實(shí)際的推理軌跡——深入觀察其冗長(zhǎng)的「思考」過程。

三種不同的性能區(qū)間

與以往主要依賴數(shù)學(xué)問題來評(píng)估語言模型推理能力的研究不同,本研究引入了可控的解謎環(huán)境。

這種環(huán)境可以精確調(diào)節(jié)問題的復(fù)雜度,同時(shí)保持邏輯過程的一致性,從而更嚴(yán)謹(jǐn)?shù)胤治瞿P偷耐评砟J胶途窒扌浴?/span>

圖片

頂部的「LLM Response」部分表示研究設(shè)置了可以驗(yàn)證模型的最終答案和中間推理過程,從而能夠更細(xì)致地分析模型的思維行為。

左下準(zhǔn)確率和中間的回答長(zhǎng)度表示:在任務(wù)復(fù)雜度較低時(shí),不進(jìn)行推理的模型表現(xiàn)得更準(zhǔn)確,也更節(jié)省Token。

隨著復(fù)雜度提升,具備推理能力的模型開始表現(xiàn)更好,但也消耗更多Token——直到復(fù)雜度超過某個(gè)臨界點(diǎn)后,兩類模型的表現(xiàn)都會(huì)迅速下降,同時(shí)推理過程變得更簡(jiǎn)短。

右下表示在成功解題的情況下,Claude 3.7 Thinking 通常會(huì)在任務(wù)復(fù)雜度低時(shí)較早找到正確答案,而在復(fù)雜度高時(shí)則更晚得出答案。

而在失敗案例中,它往往會(huì)在一開始就陷入錯(cuò)誤答案,之后繼續(xù)浪費(fèi)剩余的 Token 預(yù)算。這兩種情況都暴露了推理過程中存在的效率問題。

數(shù)學(xué)和謎題環(huán)境

圖片

對(duì)思考型與非思考型模型在數(shù)學(xué)基準(zhǔn)測(cè)試中的對(duì)比分析顯示出模型的性能表現(xiàn)并不一致。

在MATH-500數(shù)據(jù)集上,兩類模型的表現(xiàn)相近;但在AIME24和AIME25基準(zhǔn)上,思考模型的表現(xiàn)明顯更優(yōu)。

此外,從AIME24到AIME25的性能下降也揭示出這些基準(zhǔn)數(shù)據(jù)易受到數(shù)據(jù)污染問題的影響。

圖片

研究設(shè)置了四種謎題環(huán)境。

每列展示一個(gè)謎題從初始狀態(tài)(頂部)、中間狀態(tài)(中部)到目標(biāo)狀態(tài)(底部)的變化過程。

四個(gè)謎題分別是:漢諾塔(將圓盤在柱子間移動(dòng))、跳跳棋(交換不同顏色棋子的位置信息)、過河(將多個(gè)對(duì)象安全運(yùn)送過河)、積木世界(重新排列積木的堆疊結(jié)構(gòu))。

圖片

在所有謎題環(huán)境中,不同復(fù)雜度問題下,思考型模型(Claude 3.7 Sonnet with thinking、DeepSeek-R1)與其非思考型對(duì)應(yīng)模型(Claude 3.7 Sonnet、DeepSeek-V3)的準(zhǔn)確率對(duì)比。

最明顯的依然是,當(dāng)問題復(fù)雜度突破一定閾值后,所有模型的準(zhǔn)確率同時(shí)坍塌至0%!

實(shí)驗(yàn)和結(jié)果

圖片

上圖為在tokens預(yù)算相同的情況下,思考型模型與非思考型模型在低、中、高三種復(fù)雜度謎題環(huán)境中的 pass@k表現(xiàn)對(duì)比。

結(jié)果顯示:

  • 非思考型模型在簡(jiǎn)單問題上表現(xiàn)更佳;
  • 思考型模型在中等復(fù)雜度問題中展現(xiàn)出優(yōu)勢(shì);
  • 而在高復(fù)雜度問題中,無論計(jì)算資源分配如何,兩個(gè)模型的表現(xiàn)都未能取得明顯突破。

推理模型的崩潰

圖片

上圖表示推理模型在不同謎題環(huán)境中,準(zhǔn)確率與思考token使用量隨問題復(fù)雜度變化的趨勢(shì)圖。

隨著復(fù)雜度上升,模型在一開始會(huì)投入更多思考token,準(zhǔn)確率則逐漸下降;

但當(dāng)復(fù)雜度達(dá)到某個(gè)臨界點(diǎn)時(shí),模型的推理能力開始崩潰——表現(xiàn)急劇下降,同時(shí)思考token的使用量也隨之減少。

深入「思考模型內(nèi)部」

圖片

左圖與中圖展示了在不同復(fù)雜度下,四種謎題中推理過程中間解的出現(xiàn)位置及其正確性。? 表示中間解正確,? 表示錯(cuò)誤,陰影表示分布密度。

右圖則顯示了在不同復(fù)雜度下,漢諾塔謎題中解決方案的準(zhǔn)確率隨思考過程位置的變化情況。

結(jié)果顯示:

  • 對(duì)于簡(jiǎn)單問題(N=1-3),準(zhǔn)確率在思考初期較高,但隨著推理繼續(xù)反而下降,出現(xiàn)「過度思考」的現(xiàn)象;
  • 對(duì)于中等難度問題(N=4-7),推理的持續(xù)略微提升了準(zhǔn)確率;
  • 對(duì)于復(fù)雜問題(N≥8),準(zhǔn)確率始終接近于零,表明模型在這類問題上推理完全失敗。

未解之謎:推理模型的異常行為

圖片

如上圖a和b所示,在漢諾塔游戲環(huán)境中,即便在提示中直接提供了解法算法,讓模型只需按步驟執(zhí)行,模型的表現(xiàn)仍未改善,推理崩潰的現(xiàn)象依然出現(xiàn)在大致相同的位置。

這一點(diǎn)非常值得注意,因?yàn)樵O(shè)計(jì)并找到一個(gè)解法通常比僅僅執(zhí)行一個(gè)已知算法需要更多的計(jì)算(比如搜索與驗(yàn)證)。這一現(xiàn)象進(jìn)一步突顯了推理模型在「驗(yàn)證」以及按邏輯步驟解決問題方面的能力局限。

如圖c和d所示,觀察到Claude 3.7 Sonnet思考模型在不同環(huán)境中表現(xiàn)出明顯不同的行為。

在漢諾塔環(huán)境中,當(dāng)N=10時(shí),模型通常直到大約第100步才會(huì)出現(xiàn)第一處錯(cuò)誤;

而在過河環(huán)境中,同一個(gè)模型卻只能正確地完成前4步,之后便無法繼續(xù)生成有效解。

這種差異非常顯著。

值得注意的是,當(dāng) N=5(即需要31步解)時(shí),模型幾乎可以完美解決漢諾塔問題;但在 N=3(僅需11步解)的過河謎題中,模型卻完全失敗。

這一現(xiàn)象很可能說明:在網(wǎng)絡(luò)數(shù)據(jù)中,N>2 的過河問題案例非常稀少,因此大語言模型(LRMs)在訓(xùn)練中幾乎沒有見過或記住這類實(shí)例。

這項(xiàng)研究系統(tǒng)性地評(píng)估了大推理模型(LRMs),低復(fù)雜度下,標(biāo)準(zhǔn)LLM反而更穩(wěn);中等復(fù)雜度時(shí),LRM暫時(shí)領(lǐng)先;可一旦問題變得復(fù)雜到一定程度——兩者雙雙崩盤。

分析推理軌跡后,研究者發(fā)現(xiàn)模型在簡(jiǎn)單問題上「過度思考」,在復(fù)雜問題上則徹底罷工。

甚至連直接提供解題算法都救不了它們——比如漢諾塔問題,算法提示給到位了,模型卻依然原地打轉(zhuǎn)。

模型在漢諾塔中可連續(xù)操作100步不出錯(cuò),到了過河問題里,卻五步都撐不過去!

這背后的原因成謎,但無疑為后續(xù)探索AI推理極限打開了一個(gè)新的突破口。

眼下的LRM,距離「通用推理」這座大山,顯然還有不少路要走。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-06-17 17:19:31

AIOpenAIGoogle

2025-03-05 00:22:00

2025-05-28 02:40:00

AdaptThink推理模型AI

2025-06-10 03:30:00

2025-05-30 02:00:00

獎(jiǎng)勵(lì)模型RRMAI

2025-06-08 14:15:42

2025-03-17 08:15:00

AI技術(shù)模型

2025-05-08 16:45:32

開源Phi-4推理模型

2025-06-13 01:00:00

人工智能大型推理模型推理模型

2025-06-27 08:40:00

模型推理AI

2025-05-29 03:00:00

混合推理模型LHRMAI

2025-03-11 08:37:42

2025-09-15 09:43:33

分層推理模型循環(huán)網(wǎng)絡(luò)推理

2025-02-13 09:20:00

2024-09-24 11:01:03

2025-06-11 14:39:50

AILLMMistral

2025-02-25 09:13:16

2025-05-13 05:11:00

推理模型微調(diào)

2025-01-15 13:01:07

2025-06-11 09:19:46

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

亚洲开发第一视频在线播放| 久久久久久av| 视频二区在线播放| 性爱视频在线播放| 91污片在线观看| 国产精品综合不卡av| 久久艹精品视频| 国产免费播放一区二区| 欧美一级片在线观看| av免费观看网| 成年人网站在线| 99国产欧美久久久精品| 成人h片在线播放免费网站| 日韩精品一区二区在线播放| 日韩88av| 国产丝袜精品第一页| 色偷偷中文字幕| 成人激情电影在线看| 国产成人aaaa| 91久久在线播放| 在线免费观看国产精品| 国内综合精品午夜久久资源| 中文字幕亚洲第一| 蜜桃av免费看| 91成人抖音| 午夜精品视频在线观看| 400部精品国偷自产在线观看| 国产普通话bbwbbwbbw| 裸体素人女欧美日韩| 欧美精品videofree1080p| 日韩在线观看免| 啪啪亚洲精品| 日韩电视剧在线观看免费网站| 男人揉女人奶房视频60分 | 免费在线亚洲欧美| 欧美大尺度激情区在线播放| 蜜乳av中文字幕| 日韩美女毛片| 精品国产青草久久久久福利| 污视频网站观看| 久久av日韩| 在线欧美日韩精品| 白嫩少妇丰满一区二区| 一二三四视频在线中文| 国产精品色哟哟| 日韩欧美一区二区视频在线播放| 国产麻豆免费视频| 青青草97国产精品免费观看无弹窗版| 欧美日本国产在线| 国产美女福利视频| 亚洲精品无吗| 5858s免费视频成人| 污视频网址在线观看| 国产精品伊人| 欧美日韩精品一区二区天天拍小说| 亚洲国产精品女人| 自拍亚洲图区| 一区二区激情小说| 成人精品视频在线播放| 调教视频免费在线观看| 国产精品久久午夜| 天天做天天爱天天高潮| aaa大片在线观看| 亚洲影视资源网| 国产v片免费观看| 精品自拍一区| 国产色产综合产在线视频| 欧美一区二区三区四区夜夜大片| a网站在线观看| 丝袜诱惑亚洲看片| 国产精品视频精品| 国产乱叫456在线| 成人美女视频在线观看| 国产一区二区不卡视频| 国产乱淫a∨片免费观看| 亚洲专区免费| 国产精品久久二区| 国产又粗又黄又爽的视频| 国产老肥熟一区二区三区| 国产精品久久精品国产| 免费看男男www网站入口在线| 国产91富婆露脸刺激对白 | 亚洲一区资源| 色成年激情久久综合| 91看片破解版| 高清精品视频| 中文在线资源观看视频网站免费不卡| 无遮挡aaaaa大片免费看| 国产一区二区三区91| 精品国产一区久久久| 麻豆一区二区三区精品视频| 羞羞视频在线观看欧美| 国产欧美在线看| 亚洲产国偷v产偷v自拍涩爱| 久久伊人蜜桃av一区二区| 一区二区国产日产| 69av成人| 欧美久久久久久久久| 国产十八熟妇av成人一区| 国产精品xxxav免费视频| 亚洲视频第一页| 欧美精品一级片| 久久久久久网| 国产精品久久久久久久久久久久午夜片| 国产精品嫩草影院精东| 久久99日本精品| 久久精品ww人人做人人爽| 久草资源在线| 日韩欧美主播在线| 绯色av蜜臀vs少妇| av成人男女| 中文字幕日韩欧美| 亚洲日本韩国在线| 国产日韩一区二区在线观看| 视频国产精品| 日韩中文字幕免费视频| 日韩精品在线观看免费| 国产精品羞羞答答xxdd| 国产一区二区三区四区五区在线 | 亚洲片国产一区一级在线观看| 亚洲精品理论片| 欧美黄色大片网站| 国产精品亚洲精品| www.av在线.com| 中文在线一区二区| 欧美一级片中文字幕| 久久99偷拍| 色综合色综合久久综合频道88| 久久综合色综合| 国产综合一区二区| 婷婷久久伊人| 欧美人与性动交xxⅹxx| 亚洲福利视频免费观看| 婷婷久久综合网| 久久精品噜噜噜成人av农村| 日本免费一区二区三区| 美女高潮在线观看| 欧美日韩国产欧美日美国产精品| 人妻激情偷乱视频一区二区三区| 欧美绝顶高潮抽搐喷水合集| 中文字幕日韩欧美在线| 久久久黄色大片| 久久综合九色综合欧美98| 欧美极品欧美精品欧美| 精品人人人人| 国产91精品高潮白浆喷水| 手机看片一区二区| 亚洲成精国产精品女| 久久精品aⅴ无码中文字字幕重口| 视频一区欧美| 国产精品7m视频| 成人午夜电影在线观看| 91福利国产精品| 国产一精品一aⅴ一免费| 国产一区网站| 国产精品视频成人| 国产秀色在线www免费观看| 在线不卡欧美精品一区二区三区| www国产视频| 亚洲专区在线| 亚洲成人在线视频网站| 久久伊人国产| 欧美成人午夜激情| 色婷婷激情五月| 日韩欧美在线国产| 乱老熟女一区二区三区| 国产精品一区二区三区网站| 婷婷五月色综合| 久久亚洲精品中文字幕| 欧美老女人性生活| 外国精品视频在线观看 | 天天色综合av| 欧美性xxxxx极品| 99在线视频免费| 国产一区二区在线影院| 亚洲欧洲精品一区| 国产精品亚洲欧美一级在线| 久久久久久久一| 青青草观看免费视频在线| 欧美图区在线视频| 欧美成人片在线观看| 男女性色大片免费观看一区二区 | 免费91麻豆精品国产自产在线观看 | 鲁一鲁一鲁一鲁一av| 91精品啪在线观看国产81旧版| 国产精品极品在线| www在线免费观看视频| 亚洲精品久久久久久久久久久久| 欧美三级免费看| 26uuu欧美| 日韩网址在线观看| 99热在线成人| 九色一区二区| 95精品视频| 人人爽久久涩噜噜噜网站| 国产盗摄在线观看| 亚洲精选一区二区| 精品国产免费无码久久久| 色哟哟精品一区| 久久免费精彩视频| 9人人澡人人爽人人精品| 国产九九九九九| 伊人久久大香线蕉综合四虎小说| 亚洲一区二区三区xxx视频| 少妇淫片在线影院| 久久成年人视频| 国产小视频在线| 欧美在线高清视频| 国产成人无码精品亚洲| 亚洲日本护士毛茸茸| 午夜理伦三级做爰电影| 成人免费看黄yyy456| 手机版av在线| 男人的天堂久久精品| 人妻有码中文字幕| 亚洲精品1234| 久艹在线免费观看| 日韩欧美天堂| 成人久久18免费网站漫画| 欧美黄色成人| 国产精品aaaa| 久久夜夜操妹子| 7m精品福利视频导航| 国产系列在线观看| 国产视频自拍一区| 日韩一二三四| 717成人午夜免费福利电影| 无码一区二区三区| 日韩欧美高清视频| 五月婷婷激情网| 亚洲成人动漫av| 国产亚洲第一页| 亚洲欧美另类小说| 一起操在线播放| 亚洲精品免费视频| www.超碰在线观看| 亚洲美女淫视频| 欧美在线视频第一页| 亚洲日韩欧美一区二区在线| 亚洲国产欧美视频| 97久久精品人人做人人爽50路| 中文字幕 日韩 欧美| 亚洲无线视频| 国产一区二区四区| 亚洲另类黄色| a在线视频观看| 99久久精品费精品国产| 在线国产精品网| 亚洲成人三区| 亚洲精品国产suv一区88| 国产精品啊v在线| 97干在线视频| 国产一区二区三区久久| 播放灌醉水嫩大学生国内精品| 这里只有精品在线| 国产又粗又猛又爽又黄的网站| 日韩精品欧美| 免费在线成人av| av伊人久久| 在线观看成人一级片| 欧美**vk| 亚洲欧洲精品一区| 国产成人ay| 亚洲国产精品www| 免费看成人哺乳视频网站| 国产99视频精品免费视频36| 欧美男女视频| 91丝袜脚交足在线播放| 久久中文资源| 神马一区二区影院| 欧美一区二区三区另类| 午夜精品区一区二区三| 888久久久| 免费无码毛片一区二三区| 美女爽到呻吟久久久久| 一级做a免费视频| 成人va在线观看| 亚洲一区二区自偷自拍| 久久久久高清精品| 青青草视频网站| 成人高清视频在线| 久久久无码人妻精品无码| 91在线你懂得| 顶级黑人搡bbw搡bbbb搡| 亚洲成人你懂的| 姑娘第5集在线观看免费好剧| 色悠久久久久综合欧美99| 国产又粗又大又爽| 国产午夜精品久久久| 91精品国产综合久久久久久豆腐| 亚洲人成在线免费观看| 三区在线视频| 久久中文字幕视频| 日韩不卡免费高清视频| 成人一区二区三区四区| 国产精品18hdxxxⅹ在线| 日韩电影天堂视频一区二区| 欧美日韩少妇| 熟妇人妻无乱码中文字幕真矢织江| 久久久久国产精品午夜一区| 少妇愉情理伦片bd| 国产日韩欧美激情| 久久精品在线观看视频| 精品福利视频导航| 国产精品高潮呻吟久久久| 日韩精品一区二区视频| 欧美新色视频| 久久久久久久久电影| 久久久加勒比| 欧美日韩一区二区视频在线观看 | 亚洲男人天堂2023| 久热av在线| 欧美激情伊人电影| 综合欧美精品| 日韩精品无码一区二区三区| 亚洲激情女人| 亚洲成人激情小说| 中文字幕亚洲成人| 黄色av一区二区| 亚洲精品自产拍| 成人观看网址| 国产精品果冻传媒潘| 亚洲成人精选| 在线免费看v片| 国产精品情趣视频| 亚洲精品一区二三区| 亚洲欧美在线免费观看| 超碰在线cao| 精品一区二区国产| 色婷婷一区二区三区| 999在线免费视频| 久久无码av三级| 国产成人av免费在线观看| 欧美视频你懂的| 国产大片在线免费观看| 国产成人91久久精品| 猛男gaygay欧美视频| 国产亚洲欧美在线视频| 99r国产精品| 黄色片免费观看视频| 91精品麻豆日日躁夜夜躁| 免费a在线看| 欧美一区二区三区精品电影| 精品国产18久久久久久洗澡| 久久成人福利视频| av网站一区二区三区| 粉嫩aⅴ一区二区三区| 精品爽片免费看久久| av网站免费在线观看| 91久久国产自产拍夜夜嗨| 欧美永久精品| 性高潮免费视频| 欧美午夜女人视频在线| 黄视频在线播放| 国产精品美女视频网站| 欧美xxxxx视频| 色偷偷中文字幕| 午夜免费久久看| 男女污视频在线观看| 国产精品白嫩初高中害羞小美女| www.国产精品一区| 男人日女人下面视频| 久久久综合精品| 中文字幕在线观看高清| 亚洲视频自拍偷拍| 久久亚洲人体| 中文字幕无码精品亚洲资源网久久| 精品一区二区三区久久| www.色小姐com| 亚洲国产天堂网精品网站| 污污视频在线| 蜜桃网站成人| 九一九一国产精品| 伊人影院综合网| 日韩情涩欧美日韩视频| 国产污视频在线播放| 国产精品一区在线观看| 久久久亚洲一区| 日韩欧美国产成人精品免费| 欧美日韩在线免费视频| 国产在线日本| 91影视免费在线观看| 视频一区二区三区国产| 精品3atv在线视频| 久久久久免费精品国产| 久久99高清| 91精品999| 午夜欧美大尺度福利影院在线看| 国产成人手机在线| 国产91网红主播在线观看| 在线国产一区二区| 黄色短视频在线观看| 制服丝袜亚洲播放| 最新日韩精品| 国产午夜精品视频一区二区三区| 国内久久婷婷综合| 六月丁香在线视频| 久久香蕉国产线看观看av| 宅男在线一区| 91亚洲一线产区二线产区 |