
譯者 | 核子可樂(lè)
審校 | 重樓
Anthropic一項(xiàng)最新研究表明,AI模型耗費(fèi)更長(zhǎng)時(shí)間“思考”后表現(xiàn)未必更好,在某些情況下性能甚至?xí)@著下降。這一發(fā)現(xiàn),挑戰(zhàn)了AI行業(yè)推理浪潮的理論根基。
這項(xiàng)由Anthropic公司AI安全研究員Aryo Pradipta Gema及其他幾位研究人員主導(dǎo)的項(xiàng)目,發(fā)現(xiàn)了所謂“測(cè)試時(shí)計(jì)算反比例”跡象,即延長(zhǎng)大語(yǔ)言模型的推理長(zhǎng)度實(shí)際上會(huì)降低其在多種任務(wù)中的表現(xiàn)。這一發(fā)現(xiàn)可能對(duì)當(dāng)前強(qiáng)調(diào)模型推理能力的技術(shù)浪潮產(chǎn)生巨大沖擊。
研究人員在周二發(fā)表的論文中寫道,“我們構(gòu)建的一系列評(píng)估任務(wù)發(fā)現(xiàn),延長(zhǎng)大推理模型(LRM)的推理長(zhǎng)度會(huì)降低其性能,即計(jì)算量與準(zhǔn)確率間存在反比例關(guān)系。”
研究人員發(fā)現(xiàn)奇怪現(xiàn)象:思考時(shí)間越長(zhǎng),大模型越笨-AI.x社區(qū)
研究團(tuán)隊(duì)成員包括Anthropic的Ethan Perez、Yanda Chen、Joe Benton以及多位學(xué)界合作伙伴。他們?cè)谒念惾蝿?wù)中開(kāi)展測(cè)試:包含干擾項(xiàng)的簡(jiǎn)單計(jì)數(shù)問(wèn)題、包含誤導(dǎo)性特征的回歸任務(wù)、復(fù)雜推理難題以及涉及AI安全問(wèn)題的場(chǎng)景。
Claude與GPT模型在擴(kuò)展處理下明確表現(xiàn)出推理失敗
研究結(jié)果顯示,主流AI系統(tǒng)中存在明顯的失敗模式。Claude模型“隨推理時(shí)間延長(zhǎng),會(huì)越來(lái)越容易受到無(wú)關(guān)信息的干擾”,而OpenAI的o系列模型“雖能抵御干擾項(xiàng),但會(huì)過(guò)度擬合問(wèn)題框架”。在回歸任務(wù)中,“擴(kuò)展推理會(huì)導(dǎo)致模型從合理的先驗(yàn)概率轉(zhuǎn)向虛假相關(guān)性”,不過(guò)提供示例能夠在很大程度上糾正這種行為。
更令企業(yè)用戶擔(dān)憂的是,所有模型在復(fù)雜推理任務(wù)中均表現(xiàn)出“擴(kuò)展推理性能下降”,“表明在執(zhí)行復(fù)雜推理任務(wù)時(shí)大模型難以保持專注”。
這項(xiàng)研究還提示了對(duì)AI安全性的擔(dān)憂。在一項(xiàng)實(shí)驗(yàn)中,當(dāng)給予Claude Sonnet 4更長(zhǎng)封閉場(chǎng)景推理長(zhǎng)度時(shí),它會(huì)“更多表現(xiàn)出自我保護(hù)”。
研究人員指出,“擴(kuò)展推理可能會(huì)放大令人擔(dān)憂的行為,Claude Sonnet 4就表現(xiàn)出更多自我保護(hù)行為。”
為何更長(zhǎng)AI處理時(shí)間并不能保證更佳業(yè)務(wù)產(chǎn)出
這項(xiàng)研究結(jié)果挑戰(zhàn)了業(yè)界的普遍認(rèn)知,即投入更多算力進(jìn)行推理可以持續(xù)提升AI性能。各大AI廠商已經(jīng)在“測(cè)試時(shí)計(jì)算”方面投入巨資,即允許模型延長(zhǎng)推理時(shí)間以解決復(fù)雜問(wèn)題,并將此作為增強(qiáng)能力的關(guān)鍵策略。
研究表明,這種方法可能會(huì)產(chǎn)生意想不到的后果。作者總結(jié)道,“雖然測(cè)試時(shí)計(jì)算擴(kuò)展對(duì)于提升模型能力仍有前景,但也可能會(huì)無(wú)意間強(qiáng)化推理模式中存在的問(wèn)題。”
對(duì)于企業(yè)決策者來(lái)說(shuō),這一發(fā)現(xiàn)意義重大。部署AI系統(tǒng)執(zhí)行批判性推理任務(wù)時(shí),組織應(yīng)當(dāng)謹(jǐn)慎校準(zhǔn)所分配的處理時(shí)長(zhǎng),而不可想當(dāng)然地認(rèn)為越長(zhǎng)越好。
簡(jiǎn)單問(wèn)題+過(guò)長(zhǎng)思考時(shí)間=難倒高級(jí)AI
研究人員還提供了反比例跡象的具體示例。在簡(jiǎn)單的計(jì)數(shù)任務(wù)中,他們發(fā)現(xiàn)對(duì)于涉及“生日悖論”之類的問(wèn)題時(shí),模型往往會(huì)嘗試應(yīng)用復(fù)雜的數(shù)學(xué)解決方案,而非直接給出簡(jiǎn)單答案。
例如被問(wèn)到“你有一個(gè)蘋果和一個(gè)橙子……你一共有幾個(gè)水果?”時(shí),隨著推理時(shí)間增加,復(fù)雜的數(shù)學(xué)干擾項(xiàng)會(huì)影響Claude模型的思考,甚至最終無(wú)法給出正確答案。
在使用真實(shí)學(xué)生數(shù)據(jù)的回歸任務(wù)中,模型最初關(guān)注的是最具預(yù)測(cè)影響力的因素(學(xué)習(xí)時(shí)間),但被給予更長(zhǎng)推理時(shí)間時(shí),模型則轉(zhuǎn)向其他關(guān)聯(lián)性較低的因素。
企業(yè)AI部署須了解推理模型的局限性
這項(xiàng)研究的出爐,恰逢各大科技企業(yè)競(jìng)相在AI系統(tǒng)中開(kāi)發(fā)日益復(fù)雜的推理能力。OpenAI的o1模型家族及其他“以推理為重點(diǎn)”的模型,代表著業(yè)界正在測(cè)試時(shí)計(jì)算擴(kuò)展中投入重大資源。
然而,研究結(jié)果表明簡(jiǎn)單擴(kuò)展方法可能無(wú)法帶來(lái)預(yù)期收益,反而引發(fā)新的潛在風(fēng)險(xiǎn)。“我們的研究表明,必須認(rèn)真評(píng)估不同推理長(zhǎng)度對(duì)于識(shí)別和解決大推理模型中故障模式的影響。”
此前的研究已經(jīng)發(fā)現(xiàn),AI的能力擴(kuò)展并不一定具備可預(yù)測(cè)性。該團(tuán)隊(duì)引用了旨在挑戰(zhàn)先進(jìn)模型的基準(zhǔn)測(cè)試BIG-Bench Extra Hard,并指出在現(xiàn)有基準(zhǔn)測(cè)試中“最先進(jìn)的模型在許多任務(wù)中取得了近乎完美的成績(jī)”,因此必須找到更為可靠的評(píng)估方法。
對(duì)企業(yè)用戶而言,這項(xiàng)研究強(qiáng)調(diào)了在生產(chǎn)環(huán)境中部署AI系統(tǒng)前,應(yīng)當(dāng)在不同推理場(chǎng)景及時(shí)間限制下進(jìn)行認(rèn)真測(cè)試。組織可能需要開(kāi)發(fā)出更細(xì)致的方法來(lái)分配算力,而非簡(jiǎn)單拉長(zhǎng)處理時(shí)間。
從更廣泛的層面來(lái)看,隨著AI系統(tǒng)變得越來(lái)越復(fù)雜,算力投入與性能之間的關(guān)系可能比我們之前理解的要更為復(fù)雜。在這個(gè)投入數(shù)十億美元以提升推理能力的領(lǐng)域,Anthropic的研究不啻于敲響了警鐘,提醒我們AI最大的敵人也許不是算力不足、而是過(guò)度思考。
原文標(biāo)題:Anthropic researchers discover the weird AI problem: Why thinking longer makes models dumber,作者:Michael Nu?ez





























