收益遞減的假象:大語言模型長視野執(zhí)行能力的真相
論文(The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs)發(fā)現(xiàn):擴(kuò)大模型規(guī)模不僅讓模型在知識方面更聰明,還讓它們在多步驟任務(wù)中持續(xù)更久,這才是agent真正需要的。研究顯示,小模型通常能完美完成單個(gè)步驟,但當(dāng)要求它們持續(xù)執(zhí)行多個(gè)步驟時(shí),就會迅速崩潰。即使它們在第一步從不出錯,隨著任務(wù)變長,準(zhǔn)確率也會快速下降。相反,大模型在更多步驟中保持可靠,盡管基本任務(wù)本身并不需要額外的知識或推理。
圖片
論文指出這不是因?yàn)榇竽P?知道更多",而是因?yàn)樗鼈兏瞄L持續(xù)執(zhí)行而不偏離錯誤。論文命名了一種名為自條件化的失敗模式,即看到早期錯誤會導(dǎo)致更多錯誤,并顯示通過思維步驟,GPT-5能一次運(yùn)行1000+步,而其他模型遠(yuǎn)低于此。
論文將規(guī)劃與執(zhí)行分離,然后顯示即使將計(jì)劃和所需知識提供給模型,隨著任務(wù)變長,可靠性仍會下降,這使得小的準(zhǔn)確率提升突然變得非常重要。
即使在單步水平上的微小準(zhǔn)確率提升,也會導(dǎo)致模型能可靠執(zhí)行完整任務(wù)的時(shí)長呈指數(shù)級增長。這就是為什么擴(kuò)大模型規(guī)模仍然值得,即使短基準(zhǔn)測試看起來進(jìn)展停滯。左側(cè)可以看到,步驟準(zhǔn)確率(模型每個(gè)小步驟正確的頻率)幾乎持平,在新模型中幾乎沒有改善。這看起來像收益遞減,因?yàn)槊看伟l(fā)布在單個(gè)步驟上只是略有改善。但在右側(cè),當(dāng)你將這個(gè)微小的步驟改善擴(kuò)展到連續(xù)的多個(gè)步驟時(shí),收益爆發(fā)了。任務(wù)長度(模型能持續(xù)運(yùn)行而不失敗的時(shí)間)從幾乎為零躍升到數(shù)千步。
為什么模型運(yùn)行時(shí)間越長表現(xiàn)越差。如果模型犯小的隨機(jī)錯誤,那么準(zhǔn)確率應(yīng)該隨時(shí)間保持平穩(wěn)。隨著任務(wù)變長,準(zhǔn)確率持續(xù)下降。原因稱為自條件化。一旦模型犯錯,該錯誤就會反饋到其自身歷史中。下次查看過去答案時(shí),它看到了錯誤的答案,這使它更可能再次出錯。如果歷史是干凈的,模型會持續(xù)正確回答。如果歷史已有錯誤,就會螺旋式地犯更嚴(yán)重的錯誤。LLM不僅因隨機(jī)錯誤而失敗——它們失敗是因?yàn)樽约旱腻e誤污染了上下文,導(dǎo)致后續(xù)更多錯誤。
當(dāng)早期錯誤出現(xiàn)在歷史中時(shí),大模型的表現(xiàn)如何。綠色條是上下文干凈(0%錯誤)的情況。在這種情況下,較大的模型(如14B和32B)在第100步時(shí)比小模型保持更高的準(zhǔn)確率。所以,如果一切進(jìn)行順利,擴(kuò)展顯然有幫助。粉色條是歷史中一半已有錯誤的情況。在這里,準(zhǔn)確率急劇下降,模型越大,崩潰越嚴(yán)重。32B模型從干凈情況下的最佳變成錯誤存在時(shí)的低得多。信息是:大模型在歷史干凈時(shí)更強(qiáng)大地執(zhí)行長任務(wù),但它們也更容易受到自條件化影響,意味著一旦看到自己早期的錯誤,它們會更嚴(yán)重地螺旋下降。
圖片
論文如何以非常受控的方式測試執(zhí)行。論文將長任務(wù)轉(zhuǎn)化為簡單循環(huán),每輪說明從字典中讀取哪些鍵,并要求模型更新運(yùn)行總和,所以任何失敗都是關(guān)于執(zhí)行的,而不是缺少知識或規(guī)劃。論文通過剝離規(guī)劃和知識來隔離執(zhí)行,測試模型是否能在多輪中保持簡單運(yùn)行總和的正確。左側(cè)解釋了長任務(wù)可以分解為重復(fù)步驟:首先檢索正確信息,然后將其組合到運(yùn)行結(jié)果中,最后存儲更新的狀態(tài)。規(guī)劃部分(要做什么步驟)已經(jīng)給出,所以測試只衡量模型是否能在多步驟中持續(xù)正確執(zhí)行。右側(cè)顯示了他們使用的測試任務(wù)。基本上是一個(gè)字典,每個(gè)單詞都附有一個(gè)數(shù)字。告訴模型選擇哪些鍵(如"Apple"和"Grape"),它檢索它們的數(shù)字,然后加到運(yùn)行總計(jì)中。這種設(shè)置確保任務(wù)不依賴外部知識或創(chuàng)造性規(guī)劃,只依賴輪輪正確執(zhí)行。
圖片
為什么小收益會爆炸式擴(kuò)展視野:在沒有自我糾正的簡單恒定準(zhǔn)確率模型下,一旦單步準(zhǔn)確率超過約70%,微小提升就會在保持50%成功目標(biāo)的任務(wù)長度上產(chǎn)生超指數(shù)級跳躍,所以短任務(wù)上的收益遞減隱藏了長任務(wù)上的巨大現(xiàn)實(shí)收益。
圖片
即使沒有新知識,擴(kuò)展也能帶來什么:大模型在更多輪中保持運(yùn)行總和正確,即使小模型已有100%單步準(zhǔn)確率,這說明這里規(guī)模的好處是更可靠的長期執(zhí)行,而不是更好的事實(shí)。
自條件化效應(yīng):一旦上下文顯示早期錯誤,模型就更可能再次出錯,所以每輪準(zhǔn)確率隨長度持續(xù)漂移,這獨(dú)立于長上下文限制,不能僅通過使用更大模型來修復(fù)。
思維修復(fù)漂移:當(dāng)模型設(shè)置為用順序測試時(shí)間計(jì)算進(jìn)行思考時(shí),即使歷史充滿錯誤答案,固定后期輪次的準(zhǔn)確率也保持穩(wěn)定,這顯示深思熟慮的推理步驟打破了負(fù)反饋循環(huán)。
單輪能力:沒有思維鏈時(shí),即使很大的指令調(diào)優(yōu)模型也難以在一輪中鏈接2步,但有了思維,GPT-5執(zhí)行1000+步,Claude 4 Sonnet約432步,Grok-4是384步,Gemini 2.5 Pro和DeepSeek R1徘徊在120步左右**。
并行采樣不能替代思維:運(yùn)行多個(gè)并行樣本并投票只帶來小收益,相比順序推理,所以對于長視野執(zhí)行,關(guān)鍵是順序測試時(shí)間計(jì)算,而不是更多并行猜測。
通過修剪歷史的實(shí)用緩解:刪除舊輪次的滑動窗口通過隱藏累積錯誤改善可靠性,這減少了像這種任務(wù)的簡單馬爾可夫設(shè)置中的自條件化。
錯誤實(shí)際來源:查找和加法本身長時(shí)間保持近乎完美,但將它們與可靠狀態(tài)跟蹤結(jié)合會使錯誤增長,所以薄弱環(huán)節(jié)是在組合小操作時(shí)對狀態(tài)的持續(xù)管理。
作為agent構(gòu)建者該做什么:直接測量視野長度,使用思維進(jìn)行多步執(zhí)行,優(yōu)先選擇順序計(jì)算而非純并行采樣,管理上下文以避免向模型反饋其自身早期錯誤。





































