研究人員發(fā)現(xiàn)奇怪現(xiàn)象：思考時(shí)間越長(zhǎng)，大模型越笨

作者：核子可樂(lè) 2025-07-28 07:45:36

研究人員在周二發(fā)表的論文中寫道，“我們構(gòu)建的一系列評(píng)估任務(wù)發(fā)現(xiàn)，延長(zhǎng)大推理模型（LRM）的推理長(zhǎng)度會(huì)降低其性能，即計(jì)算量與準(zhǔn)確率間存在反比例關(guān)系。”

Michael Nu?ez @MichaelFNunez

譯者 | 核子可樂(lè)

審校 | 重樓

Anthropic一項(xiàng)最新研究表明，AI模型耗費(fèi)更長(zhǎng)時(shí)間“思考”后表現(xiàn)未必更好，在某些情況下性能甚至?xí)@著下降。這一發(fā)現(xiàn)，挑戰(zhàn)了AI行業(yè)推理浪潮的理論根基。

這項(xiàng)由Anthropic公司AI安全研究員Aryo Pradipta Gema及其他幾位研究人員主導(dǎo)的項(xiàng)目，發(fā)現(xiàn)了所謂“測(cè)試時(shí)計(jì)算反比例”跡象，即延長(zhǎng)大語(yǔ)言模型的推理長(zhǎng)度實(shí)際上會(huì)降低其在多種任務(wù)中的表現(xiàn)。這一發(fā)現(xiàn)可能對(duì)當(dāng)前強(qiáng)調(diào)模型推理能力的技術(shù)浪潮產(chǎn)生巨大沖擊。

研究人員發(fā)現(xiàn)奇怪現(xiàn)象：思考時(shí)間越長(zhǎng)，大模型越笨-AI.x社區(qū)

研究團(tuán)隊(duì)成員包括Anthropic的Ethan Perez、Yanda Chen、Joe Benton以及多位學(xué)界合作伙伴。他們?cè)谒念惾蝿?wù)中開(kāi)展測(cè)試：包含干擾項(xiàng)的簡(jiǎn)單計(jì)數(shù)問(wèn)題、包含誤導(dǎo)性特征的回歸任務(wù)、復(fù)雜推理難題以及涉及AI安全問(wèn)題的場(chǎng)景。

Claude與GPT模型在擴(kuò)展處理下明確表現(xiàn)出推理失敗

研究結(jié)果顯示，主流AI系統(tǒng)中存在明顯的失敗模式。Claude模型“隨推理時(shí)間延長(zhǎng)，會(huì)越來(lái)越容易受到無(wú)關(guān)信息的干擾”，而OpenAI的o系列模型“雖能抵御干擾項(xiàng)，但會(huì)過(guò)度擬合問(wèn)題框架”。在回歸任務(wù)中，“擴(kuò)展推理會(huì)導(dǎo)致模型從合理的先驗(yàn)概率轉(zhuǎn)向虛假相關(guān)性”，不過(guò)提供示例能夠在很大程度上糾正這種行為。

更令企業(yè)用戶擔(dān)憂的是，所有模型在復(fù)雜推理任務(wù)中均表現(xiàn)出“擴(kuò)展推理性能下降”，“表明在執(zhí)行復(fù)雜推理任務(wù)時(shí)大模型難以保持專注”。

這項(xiàng)研究還提示了對(duì)AI安全性的擔(dān)憂。在一項(xiàng)實(shí)驗(yàn)中，當(dāng)給予Claude Sonnet 4更長(zhǎng)封閉場(chǎng)景推理長(zhǎng)度時(shí)，它會(huì)“更多表現(xiàn)出自我保護(hù)”。

研究人員指出，“擴(kuò)展推理可能會(huì)放大令人擔(dān)憂的行為，Claude Sonnet 4就表現(xiàn)出更多自我保護(hù)行為。”

為何更長(zhǎng)AI處理時(shí)間并不能保證更佳業(yè)務(wù)產(chǎn)出

這項(xiàng)研究結(jié)果挑戰(zhàn)了業(yè)界的普遍認(rèn)知，即投入更多算力進(jìn)行推理可以持續(xù)提升AI性能。各大AI廠商已經(jīng)在“測(cè)試時(shí)計(jì)算”方面投入巨資，即允許模型延長(zhǎng)推理時(shí)間以解決復(fù)雜問(wèn)題，并將此作為增強(qiáng)能力的關(guān)鍵策略。

研究表明，這種方法可能會(huì)產(chǎn)生意想不到的后果。作者總結(jié)道，“雖然測(cè)試時(shí)計(jì)算擴(kuò)展對(duì)于提升模型能力仍有前景，但也可能會(huì)無(wú)意間強(qiáng)化推理模式中存在的問(wèn)題。”

對(duì)于企業(yè)決策者來(lái)說(shuō)，這一發(fā)現(xiàn)意義重大。部署AI系統(tǒng)執(zhí)行批判性推理任務(wù)時(shí)，組織應(yīng)當(dāng)謹(jǐn)慎校準(zhǔn)所分配的處理時(shí)長(zhǎng)，而不可想當(dāng)然地認(rèn)為越長(zhǎng)越好。

簡(jiǎn)單問(wèn)題+過(guò)長(zhǎng)思考時(shí)間=難倒高級(jí)AI

研究人員還提供了反比例跡象的具體示例。在簡(jiǎn)單的計(jì)數(shù)任務(wù)中，他們發(fā)現(xiàn)對(duì)于涉及“生日悖論”之類的問(wèn)題時(shí)，模型往往會(huì)嘗試應(yīng)用復(fù)雜的數(shù)學(xué)解決方案，而非直接給出簡(jiǎn)單答案。

例如被問(wèn)到“你有一個(gè)蘋果和一個(gè)橙子……你一共有幾個(gè)水果？”時(shí)，隨著推理時(shí)間增加，復(fù)雜的數(shù)學(xué)干擾項(xiàng)會(huì)影響Claude模型的思考，甚至最終無(wú)法給出正確答案。

在使用真實(shí)學(xué)生數(shù)據(jù)的回歸任務(wù)中，模型最初關(guān)注的是最具預(yù)測(cè)影響力的因素（學(xué)習(xí)時(shí)間），但被給予更長(zhǎng)推理時(shí)間時(shí)，模型則轉(zhuǎn)向其他關(guān)聯(lián)性較低的因素。

企業(yè)AI部署須了解推理模型的局限性

這項(xiàng)研究的出爐，恰逢各大科技企業(yè)競(jìng)相在AI系統(tǒng)中開(kāi)發(fā)日益復(fù)雜的推理能力。OpenAI的o1模型家族及其他“以推理為重點(diǎn)”的模型，代表著業(yè)界正在測(cè)試時(shí)計(jì)算擴(kuò)展中投入重大資源。

然而，研究結(jié)果表明簡(jiǎn)單擴(kuò)展方法可能無(wú)法帶來(lái)預(yù)期收益，反而引發(fā)新的潛在風(fēng)險(xiǎn)。“我們的研究表明，必須認(rèn)真評(píng)估不同推理長(zhǎng)度對(duì)于識(shí)別和解決大推理模型中故障模式的影響。”

此前的研究已經(jīng)發(fā)現(xiàn)，AI的能力擴(kuò)展并不一定具備可預(yù)測(cè)性。該團(tuán)隊(duì)引用了旨在挑戰(zhàn)先進(jìn)模型的基準(zhǔn)測(cè)試BIG-Bench Extra Hard，并指出在現(xiàn)有基準(zhǔn)測(cè)試中“最先進(jìn)的模型在許多任務(wù)中取得了近乎完美的成績(jī)”，因此必須找到更為可靠的評(píng)估方法。

對(duì)企業(yè)用戶而言，這項(xiàng)研究強(qiáng)調(diào)了在生產(chǎn)環(huán)境中部署AI系統(tǒng)前，應(yīng)當(dāng)在不同推理場(chǎng)景及時(shí)間限制下進(jìn)行認(rèn)真測(cè)試。組織可能需要開(kāi)發(fā)出更細(xì)致的方法來(lái)分配算力，而非簡(jiǎn)單拉長(zhǎng)處理時(shí)間。

從更廣泛的層面來(lái)看，隨著AI系統(tǒng)變得越來(lái)越復(fù)雜，算力投入與性能之間的關(guān)系可能比我們之前理解的要更為復(fù)雜。在這個(gè)投入數(shù)十億美元以提升推理能力的領(lǐng)域，Anthropic的研究不啻于敲響了警鐘，提醒我們AI最大的敵人也許不是算力不足、而是過(guò)度思考。

原文標(biāo)題：Anthropic researchers discover the weird AI problem: Why thinking longer makes models dumber，作者：Michael Nu?ez

責(zé)任編輯：姜華來(lái)源： 51CTO內(nèi)容精選