精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

<tfoot id="wwcm0"></tfoot>

<strike id="wwcm0"><menu id="wwcm0"></menu></strike>

<ul id="wwcm0"><sup id="wwcm0"></sup></ul>

<ul id="wwcm0"><sup id="wwcm0"></sup></ul>

<strike id="wwcm0"></strike>

<ul id="wwcm0"><sup id="wwcm0"></sup></ul>

<fieldset id="wwcm0"></fieldset>

<ul id="wwcm0"></ul>

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

賬號設置退出

當人工智能推理遭遇瓶頸：大型推理模型的崩潰

2025-06-13 01:00:00

OpenAI 的 o1 系列、DeepSeek 的 R1、Claude 的思維模型——這些“大型推理模型”聲勢浩大地問世，有望在機器解決復雜問題方面取得突破。與之前那些僅僅通過模式匹配完成任務的模型不同，這些系統顯然能夠進行“真正的”推理，甚至擁有與人類思維相符的內心獨白。

最近，我們聽說人工智能已經學會了思考。OpenAI 的 o1 系列、DeepSeek 的 R1、Claude 的思維模型——這些“大型推理模型”聲勢浩大地問世，有望在機器解決復雜問題方面取得突破。與之前那些僅僅通過模式匹配完成任務的模型不同，這些系統顯然能夠進行“真正的”推理，甚至擁有與人類思維相符的內心獨白。它們會停頓、思考、再三思量，最終通過看似真實的沉思得出答案。

對于我們這些構建智能代理人工智能系統的人來說，推理能力是真正自主的基石。在 Craine，我們將推理能力定位為遵循腳本的簡單自動化與能夠適應、制定戰略并協調復雜操作的真正人工智能代理之間的關鍵區別。例如，當我們談論自主基礎設施時，我們本質上依賴于這些系統推理新情況、權衡相互競爭的優先級并在壓力下做出合理決策的能力。推理革命有望提供這些能力——人工智能系統能夠像熟練的人類操作員一樣思考問題，但速度更快、更一致。這一承諾支撐了自主代理管理一切（從云基礎設施到業務運營）而無需持續人工監督的整個愿景。

但革命性的主張有一點需要革命性的證據。蘋果研究團隊的一項新研究《思考的幻覺》提供了這方面的證據，而這并不是我們所期望的。研究人員使用精心控制的謎題環境而不是通常的數學基準，系統地測試了這些推理模型是否真的能夠推理，或者它們是否只是非常復雜的模仿。他們的發現挑戰了我們所知的關于推理革命的一切。這些模型不僅會在問題變得越來越難時遇到性能瓶頸；它們還會做出一些更奇怪、更令人不安的事情：它們完全放棄思考，在應該最努力的時候減少推理努力。看著馬拉松運動員在接近比賽最陡峭的山坡時放棄并放棄，這真是一場悲劇。

為什么謎題比數學考試更勝一籌

蘋果的研究人員沒有向這些模型拋出更多 MATH-500 問題（這些基準問題可能會被訓練數據污染），而是構建了更好的東西：可控的謎題環境。我認為這就像在無法控制交通的公共道路上測試汽車性能，與在可以精確調整每個變量的封閉測試跑道上測試汽車性能之間的區別。研究人員需要干凈的實驗環境，他們可以像調節音量旋鈕一樣調節復雜性，同時保持底層邏輯的一致性。

他們使用了四個看似簡單的謎題：漢諾塔、西洋跳棋、渡河和積木世界。每個謎題都允許研究人員通過調整一個參數來控制復雜性：更多圓盤、更多西洋跳棋、更多人、更多積木。至關重要的是，這些謎題內置模擬器，不僅可以驗證最終答案，還可以驗證過程中的每一步。與要么正確要么錯誤的數學題不同，這些環境讓研究人員可以窺視推理過程本身，精確觀察模型在何處以及如何出錯。這基本上就像是批改期末考試和坐在學生旁邊看著他們解答每個試題之間的區別。

令人驚訝的表現前景

蘋果研究人員還發現了一些意料之外的發現：推理模型并不會隨著問題難度的增加而逐漸變差。相反，研究人員發現了三種截然不同的性能機制，顛覆了傳統觀念。在低復雜度水平下——你期望任何優秀的人工智能都能處理這類問題——標準大語言模型(LLM) 實際上表現優于那些所謂的高級推理模型。我們指的是更高的準確率和更高的效率。這就像發現福特福克斯比蘭博基尼能更快更便宜地帶你去雜貨店一樣。推理模型對簡單問題進行了過度思考，將計算資源浪費在了那些需要直接執行的任務的復雜內部思考上。

在中等復雜度范圍內，推理模型終于證明了其存在的合理性。所有額外的思考時間都在這里得到了回報，推理模型展現出比標準模型明顯的優勢。這是大多數基準測試和演示所關注的最佳點——復雜程度足以需要真正的問題解決，但又不會復雜到完全失效。這是一個“金發姑娘區”，推理模型看起來確實令人印象深刻，似乎也驗證了所有關于其功能的炒作。

但接下來是第三種情況，事情才真正令人不安。超過一定的復雜度閾值后，兩種模型都會經歷研究人員所說的“徹底崩潰”——不是逐漸退化，而是徹底失效。準確率降至零。這就像觸及事件視界，推理功能完全失效。尤其令人不安的是，無論模型有多少可用的計算預算，這種崩潰都會發生。它們并非耗盡了令牌，也不是達到了上下文限制；而是觸及了更根本的問題——在復雜性增加的情況下，維持連貫推理的能力受到了阻礙。

違反直覺的崩潰：解決更難的問題需要更少的思考

隨著謎題復雜度的增加，推理模型不僅性能下降，反而減少了思考的投入。盡管擁有充足的令牌預算和計算資源，但當問題需要更仔細的思考時，這些模型的推理軌跡卻開始縮短。這就像一位外科醫生在復雜的手術中途因為情況變得過于復雜而放下手術刀一樣。

研究人員在多個前沿模型（o3-mini、DeepSeek-R1、Claude-3.7-Sonnet with thinking）中追蹤了這一“擴展限制”，發現其規律始終如一。隨著問題變得越來越復雜，模型最初會增加推理工作量，這與人們預期的直觀模式一致。但隨后，當接近研究人員設定的各模型的臨界復雜性閾值時，發生了一些奇怪的事情：即使問題客觀上變得更加困難，推理工作量也開始下降。這些模型并沒有達到技術極限——它們的運行速度遠低于其代數限制，并且剩余充足的推理預算。

就像之前討論過的“對齊偽造”一樣，這種違反直覺的行為引發了人們對自主系統信任的深刻質疑。如果我們最先進的推理模型在面對真正的復雜性時都能系統地減少工作量，那么當我們將它們部署到現實世界中，而問題并沒有明確的難度標簽時，會發生什么？在關鍵任務應用中——無論是管理云基礎設施、協調應急響應，還是做出財務決策——我們需要的是能夠在情況艱難時挺身而出的系統，而不是在推理能力最關鍵的時候默默放棄的系統。其影響遠超學術基準，涉及到我們日益依賴的人工智能系統的基本可靠性。

深入探究：“思想”內部發生了什么

蘋果的研究人員做了大多數人工智能評估完全忽略的事情——他們打開了黑匣子，探究這些模型推理過程中究竟發生了什么。通過分析模型在“思考”過程中生成的中間解，他們揭示了我們剛才討論的那些性能模式背后的機制。簡單問題中的過度思考行為？事實證明，模型通常會在早期識別出正確的解決方案，但隨后仍會繼續探索錯誤的路徑，將剩余的計算資源浪費在無用的思考上。與此同時，對于模型完全崩潰的復雜問題，推理軌跡顯示出更令人不安的情況——它們在整個思考過程中根本無法生成任何正確的解決方案。

研究人員進行了一項實驗，這本應是推理模型的一次突破：他們提供了解決漢諾塔難題的完整、循序漸進的算法。想象一下食譜式的說明，模型只需遵循菜譜，而無需發明一道新菜。然而，這些模型在與從頭開始解決問題時完全相同的復雜度閾值下失敗了。這種限制比創造力或策略更深，指向了更根本的東西。即使解決了問題，這些模型也無法在更長的序列中保持邏輯一致性。當數字填色和抽象推理在同樣的點上失敗時，我們看到的是架構限制，而不是問題解決的限制。

這對人工智能機構意味著什么

這些發現對我來說尤其令人震驚，尤其是考慮到我們邁向人工智能代理（AI Agency）的軌跡——能夠自我修復、自我維持、無需人工干預即可適應和響應的系統。在最近發表的關于 AgentOps 的論文中，預測距離自主代理成為從云基礎設施到業務運營等所有領域管理的主流還需要 24-36 個月的時間。但蘋果的研究揭示了這一基礎中的一個根本性漏洞：如果我們最先進的推理系統在面對真正的復雜性時能夠系統地減少工作量，我們又如何能相信它們能夠協調運行我們關鍵系統的自主代理呢？

我們必須思考這對我們正在構建的代理未來意味著什么。當您的工程機構需要排除跨多個微服務的級聯故障時，或者當您的安全機構必須應對復雜的攻擊媒介時，這些都不是簡單且有解決方案的問題。它們正是蘋果研究表明推理模型會完全崩潰的那種高復雜性場景。當您依賴自治系統來維持正常運行時間、保護數據或協調應急響應時，隨著問題變得越來越困難，推理工作量的減少變得令人恐懼。其影響遠遠超出了學術基準，還涉及到我們越來越信任的關鍵業務運營自治系統的可靠性。如果驅動這些自治機構的推理引擎在最需要仔細思考的時候放棄思考，那么整個 AgentOps 愿景將面臨一個根本性的瓶頸，無論框架多么復雜都無法克服。

重新調整預期

蘋果的研究迫使我們直面一個令人不安的事實：當前的推理模型不僅僅是遇到了性能瓶頸——它們還表現出根本性的擴展限制，這表明它們處理復雜問題的方式存在缺陷。我們面臨的并非我們可以通過工程手段規避的逐漸退化，而是隨著挑戰的加劇，推理工作實際上會減少，這是一個硬性上限。當我們最復雜的人工智能系統在思考最關鍵的時候系統性地放棄思考時，這并非軟件缺陷或訓練數據問題。我們面臨的是架構約束，它挑戰了當前設計的整個推理模型的前提。

其更廣泛的影響遠不止學術難題，而是我們正在關鍵基礎設施中快速部署的自主系統的基礎。如果推理模型無法在復雜場景中保持邏輯一致性——即使提供了明確的算法——這對我們通往真正自主人工智能的道路意味著什么？或許，推理革命并非我們所想的突破，而是一個代價高昂的彎路，它讓我們看到當前方法的根本缺陷。問題不在于我們能否突破這些限制，而在于我們是否建立在正確的基礎上。當最先進的推理系統隨著復雜性的增加而減少工作量時，我們或許需要重新思考的不僅僅是如何構建人工智能，還有我們期望它能夠可靠地實現什么。

責任編輯：龐桂玉來源：數據驅動智能

人工智能大型推理模型推理模型

51CTO技術棧公眾號

業務
速覽

媒體

51CTO CIOAge HC3i

社區

51CTO博客鴻蒙開發者社區 AI.x社區

教育

51CTO學堂精培企業培訓 CTO訓練營

久久婷五月综合| 色噜噜狠狠色综合中国| 国产精品主播视频| 九九这里只有精品视频| 精品中文字幕一区二区三区四区| 亚洲天堂精品视频| 国产一区二区三区黄| 中文字幕精品无| 一本一道久久综合狠狠老| 精品国产自在久精品国产| 无码人妻精品一区二区三区在线| 91激情在线| 国产一区二区在线观看免费| 欧美精品激情视频| 女人另类性混交zo| 精品久久国产视频| 国产欧美丝祙| 操日韩av在线电影| 国产免费无遮挡吸奶头视频| 日本超碰一区二区| 欧美在线一二三四区| 97在线国产视频| 欧美日韩在线资源| 视频一区视频二区中文字幕| 久久综合免费视频| 人妻少妇无码精品视频区| 88久久精品| 亚洲在线免费播放| 视频一区视频二区视频三区视频四区国产| 一级黄色免费看| 免费日韩精品中文字幕视频在线| 欧美成人a视频| 日日干夜夜操s8| 亚洲精品一级二级| 欧美日韩黄色大片| 精品一区二区三区自拍图片区| 亚洲一级特黄毛片| 久久综合九色| 91精品国产高清久久久久久91| 欧美成人一区二区三区高清| 日韩aaaa| 欧美一个色资源| jizz欧美性11| 福利一区二区| 欧洲一区二区三区在线| 欧美国产日本| 牛牛精品一区二区| 亚洲一区二区三区精品在线| 免费观看国产视频在线| 色网站在线看| 国产精品国产自产拍高清av| 日韩一本精品| av男人的天堂在线| 国产精品人成在线观看免费| 日韩精品一区二区三区丰满| 男男电影完整版在线观看| 91女厕偷拍女厕偷拍高清| 精品国产_亚洲人成在线| 欧美日韩国产成人在线| 成人免费福利片| 国产私拍一区| 四虎精品成人影院观看地址| 日韩成人dvd| 日本高清视频精品| 国产精品成人久久久| 日韩精品每日更新| 国产精品综合网站| 国产精品久久免费| 国产成人在线影院| 成人在线免费观看视视频| 国产三级精品在线观看| 国产精品88av| 久久99精品国产一区二区三区| 欧洲亚洲在线| 国产欧美视频在线观看| 在线天堂一区av电影| av网站在线免费看推荐| 亚洲狠狠爱一区二区三区| 国产午夜福利100集发布| 丝袜老师在线| 欧美日韩小视频| 下面一进一出好爽视频| 美女一区二区在线观看| 欧美日本国产视频| 男女污污视频网站| 国产精品17p| 亚洲天堂视频在线观看| 手机免费观看av| 国一区二区在线观看| 欧美亚洲午夜视频在线观看| 中文字幕永久在线视频| 国产成人在线网站| 日韩中文字幕av在线| 91麻豆国产福利在线观看宅福利| 欧美日韩国产色视频| 亚洲欧美在线精品| 粉嫩精品导航导航| 精品视频久久久久久| 麻豆av免费看| 91精品一久久香蕉国产线看观看| 日韩一级视频免费观看在线| 亚洲av无码成人精品国产| 91影院成人| 91精品国产91久久久久福利| 一级全黄裸体免费视频| av网站免费线看精品| 亚洲欧美99| 天堂av中文在线观看| 欧美精品xxxxbbbb| 在线免费观看成年人视频| 精品一区二区三区中文字幕老牛| 美女黄色丝袜一区| 中日韩av在线| 91在线观看地址| 伊人av成人| 写真福利精品福利在线观看| 日韩欧美国产三级| av天堂一区二区| 日韩国产欧美| 欧美在线视频一二三| japanese国产| 国产精品久久久久毛片软件| 国产欧美在线一区| 亚洲日本va| 久久久久www| 亚洲一区二区视频在线播放| 久久久久久亚洲综合| www插插插无码视频网站| 国产美女精品视频免费播放软件| 夜夜躁日日躁狠狠久久88av| 日韩精品在线免费视频| 成人精品一区二区三区中文字幕| avove在线观看| 欧美xxxx网站| 少妇av一区二区三区| 中文字幕69页| 久久久欧美精品sm网站| 97视频久久久| 久久这里只有精品一区二区| 欧美激情18p| 欧美特黄aaaaaa| gogogo免费视频观看亚洲一| 国产精品久久久久久久久电影网| 国产一区二区三区亚洲综合| 久久精品在线播放| 国产又大又黑又粗| 最新欧美精品一区二区三区| 三级视频中文字幕| 国产精品久久久久久久| 国产在线精品一区免费香蕉 | 亚洲免费看黄网站| 国产无色aaa| 亚洲成人精品| 亚洲xxxxx| 欧美另类tv| 亚洲国产古装精品网站| 日韩福利片在线观看| gogo大胆日本视频一区| 亚洲熟女乱色一区二区三区| 精品在线手机视频| 日韩av手机在线观看| 一区两区小视频| 国产精品国产三级国产三级人妇| 色一情一区二区三区| 99热国内精品永久免费观看| 成人黄色午夜影院| av免费在线观| 亚洲电影天堂av| 国产精品人人人人| 中文在线一区二区 | 国产乱子精品一区二区在线观看| 中日韩午夜理伦电影免费 | 欧美精品一区二区蜜臀亚洲| 中文在线观看免费网站| 26uuu精品一区二区| 超碰在线97免费| 国产精品极品| 日韩av免费在线观看| 自拍视频在线免费观看| 日韩一区二区三区四区| 国产网站在线看| 国产日韩欧美不卡| 亚洲视频在线不卡| 国产精品美女久久久| 亚洲高清123| 91综合精品国产丝袜长腿久久| 亚洲午夜性刺激影院| 一区二区三区精| 午夜精品123| 一本色道久久88| 成人福利视频在线看| 成人性做爰aaa片免费看不忠| 亚洲成人99| 美乳视频一区二区| 国产精品欧美一区二区三区不卡 | 大白屁股一区二区视频| 国产精品乱码久久久久| 欧美另类亚洲| 日韩精品久久一区| 国语一区二区三区| 国产日韩精品一区二区| 啊啊啊久久久| 久久精品亚洲94久久精品| 天天干天天草天天射| 欧美精品自拍偷拍| 国产一级片毛片| 一区二区三区在线观看视频| 久热精品在线播放| 亚洲国产一区二区三区a毛片| 亚洲高清精品中出| 亚洲国产欧美日韩在线观看第一区 | 亚洲成人网久久久| 91国产免费视频| 色婷婷av一区二区三区大白胸 | 97超级碰碰| 国产成+人+综合+亚洲欧美| 992tv成人免费影院| 国产成人无吗| 中文字幕日韩精品有码视频| 天堂中文在线看| 日韩欧美的一区| 国产精品伊人久久 | av一区二区三| 欧美日韩亚洲综合在线| 91丝袜一区二区三区| 亚洲成人黄色影院| 欧美精品入口蜜桃| 中文字幕一区二区三| 久久久久久国产免费a片| 99精品欧美一区二区三区小说| 99国产精品免费视频| 精品亚洲国内自在自线福利| 一区二区不卡在线观看| 久久99精品久久久久久园产越南| 国产99在线播放| 欧美视频三区| 91精品免费视频| 台湾天天综合人成在线| 国产精品视频成人| 成人视屏在线观看| 日韩美女主播视频| 成人av观看| 日本欧美爱爱爱| 视频二区不卡| 国产精品久久久久久av福利| 欧美黑人粗大| 国产精品老女人精品视频| 88xx成人免费观看视频库 | 中文字幕永久免费视频| 欧美探花视频资源| 亚洲一级黄色大片| 欧美一区二区三区日韩| www.av日韩| 亚洲成人网av| 国产二区在线播放| 欧美一区二区性放荡片| 国产suv一区二区| 欧美成人三级电影在线| 亚洲乱色熟女一区二区三区| 亚洲一区二区综合| 日本在线小视频| 大荫蒂欧美视频另类xxxx| 精品国产xxx| 欧美日韩一区国产| 国产精品一品二区三区的使用体验| 欧美一区二区三区视频| 日本精品999| 亚洲人成电影在线| 秋霞影院午夜丰满少妇在线视频| 久久伊人免费视频| h片在线观看视频免费| 欧美亚洲成人xxx| 国产精品99久久久久久董美香| 成人黄色在线播放| 国产成人精品福利| 日本不卡一区二区三区在线观看| 深夜福利一区二区三区| 国产另类自拍| 成人三级视频| 大胆欧美熟妇xx| 蜜桃伊人久久| 国产精品自在自线| 99久久99久久精品免费观看| 级毛片内射视频| 亚洲精品你懂的| 精品在线免费观看视频| 日本精品视频一区二区三区| 国产精品一区二区免费视频 | 午夜不卡视频| 欧美丰满少妇xxxx| 成人免费短视频| 亚洲综合第一页| 蜜桃国内精品久久久久软件9| 中文字幕av导航| 日韩成人精品一区二区| 欧美做暖暖视频| 日日夜夜精品视频免费 | 久久久久久一二三区| 久久av红桃一区二区禁漫| 欧美日韩激情视频| 国产探花精品一区二区| 亚洲天堂av在线免费观看| 午夜羞羞小视频在线观看| 国产精品91在线观看| 成人免费在线电影网| 在线免费一区| 久久精品天堂| 人妻av一区二区| 亚洲欧美激情在线| 中文天堂在线资源| 亚洲精品国产精品乱码不99按摩| 国产素人视频在线观看| 日本成人黄色片| 全国精品免费看| 日韩精品一区二区免费| 激情都市一区二区| 高清国产在线观看| 色综合激情五月| 污视频网站免费观看| 国产午夜精品麻豆| 青青草原av在线| 亚洲最大福利网| 天天揉久久久久亚洲精品| 狠狠操精品视频| ww亚洲ww在线观看国产| 日韩xxxxxxxxx| 精品国产伦一区二区三区观看方式 | 欧美爱爱视频免费看| 粉嫩蜜臀av国产精品网站| 免费在线观看h片| 亚洲资源在线观看| 国产免费福利视频| zzijzzij亚洲日本成熟少妇| 韩国女主播一区二区| 欧美专区一二三 | 国产成人短视频在线观看| 人人干视频在线| 成人av电影在线网| 五月天婷婷网站| 日韩电视剧免费观看网站| 51av在线| 久久99精品久久久久久三级| 亚洲精品日本| 国产亚洲无码精品| 色综合久久中文字幕| 国产在线高清| 国产精品福利无圣光在线一区| 欧美日韩国产在线观看网站| 粉嫩虎白女毛片人体| 中文字幕欧美日本乱码一线二线| 特级西西444www大胆免费看| 在线播放国产一区二区三区| av在线一区不卡| 亚洲午夜久久久影院伊人| 久草在线在线精品观看| www.四虎精品| 午夜天堂影视香蕉久久| 天天操天天爱天天干| 97国产精品人人爽人人做| 香蕉视频一区| 亚洲欧美激情网| 18成人在线视频| 亚洲AV无码一区二区三区少妇| 久久人人爽人人爽人人片av高清| 激情小说亚洲图片| 青青在线视频观看| 中文字幕乱码亚洲精品一区| 97超碰人人模人人人爽人人爱| 欧美成人午夜激情| 欧美18xxxx| 亚洲综合色在线观看| 一卡二卡欧美日韩| 色播色播色播色播色播在线 | 一区二区视频免费观看| 久久综合五月天| 美女扒开腿让男人桶爽久久动漫| 1024精品视频| 国产精品久久久久影院亚瑟 | 欧美中文字幕在线观看视频| 99久久99久久精品国产片果冻| 性高潮视频在线观看| 欧美激情精品久久久久久蜜臀| 日韩高清电影免费| 中文字幕视频在线免费观看| 亚洲久草在线视频| 天堂资源中文在线| 国产欧美精品在线播放| 欧美天天视频| 免费成人深夜天涯网站| 欧美特级www| 日本高清视频在线播放| 国产一区二区三区四区五区加勒比| 三级亚洲高清视频| 乱h高h女3p含苞待放| 国产婷婷成人久久av免费高清| 97精品资源在线观看| 欧美韩国日本在线| 一区二区三区av电影 | 国产欧美视频在线观看| 亚洲精品免费在线观看视频|