收益遞減的假象：大語言模型長視野執(zhí)行能力的真相

作者：無影寺 2025-09-29 07:42:00

當(dāng)模型設(shè)置為用順序測試時(shí)間計(jì)算進(jìn)行思考時(shí)，即使歷史充滿錯誤答案，固定后期輪次的準(zhǔn)確率也保持穩(wěn)定，這顯示深思熟慮的推理步驟打破了負(fù)反饋循環(huán)。

論文(The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs)發(fā)現(xiàn)：擴(kuò)大模型規(guī)模不僅讓模型在知識方面更聰明，還讓它們在多步驟任務(wù)中持續(xù)更久，這才是agent真正需要的。研究顯示，小模型通常能完美完成單個(gè)步驟，但當(dāng)要求它們持續(xù)執(zhí)行多個(gè)步驟時(shí)，就會迅速崩潰。即使它們在第一步從不出錯，隨著任務(wù)變長，準(zhǔn)確率也會快速下降。相反，大模型在更多步驟中保持可靠，盡管基本任務(wù)本身并不需要額外的知識或推理。

圖片

論文指出這不是因?yàn)榇竽Ｐ?知道更多"，而是因?yàn)樗鼈兏瞄L持續(xù)執(zhí)行而不偏離錯誤。論文命名了一種名為自條件化的失敗模式，即看到早期錯誤會導(dǎo)致更多錯誤，并顯示通過思維步驟，GPT-5能一次運(yùn)行1000+步，而其他模型遠(yuǎn)低于此。

論文將規(guī)劃與執(zhí)行分離，然后顯示即使將計(jì)劃和所需知識提供給模型，隨著任務(wù)變長，可靠性仍會下降，這使得小的準(zhǔn)確率提升突然變得非常重要。

即使在單步水平上的微小準(zhǔn)確率提升，也會導(dǎo)致模型能可靠執(zhí)行完整任務(wù)的時(shí)長呈指數(shù)級增長。這就是為什么擴(kuò)大模型規(guī)模仍然值得，即使短基準(zhǔn)測試看起來進(jìn)展停滯。左側(cè)可以看到，步驟準(zhǔn)確率（模型每個(gè)小步驟正確的頻率）幾乎持平，在新模型中幾乎沒有改善。這看起來像收益遞減，因?yàn)槊看伟l(fā)布在單個(gè)步驟上只是略有改善。但在右側(cè)，當(dāng)你將這個(gè)微小的步驟改善擴(kuò)展到連續(xù)的多個(gè)步驟時(shí)，收益爆發(fā)了。任務(wù)長度（模型能持續(xù)運(yùn)行而不失敗的時(shí)間）從幾乎為零躍升到數(shù)千步。

為什么模型運(yùn)行時(shí)間越長表現(xiàn)越差。如果模型犯小的隨機(jī)錯誤，那么準(zhǔn)確率應(yīng)該隨時(shí)間保持平穩(wěn)。隨著任務(wù)變長，準(zhǔn)確率持續(xù)下降。原因稱為自條件化。一旦模型犯錯，該錯誤就會反饋到其自身歷史中。下次查看過去答案時(shí)，它看到了錯誤的答案，這使它更可能再次出錯。如果歷史是干凈的，模型會持續(xù)正確回答。如果歷史已有錯誤，就會螺旋式地犯更嚴(yán)重的錯誤。LLM不僅因隨機(jī)錯誤而失敗——它們失敗是因?yàn)樽约旱腻e誤污染了上下文，導(dǎo)致后續(xù)更多錯誤。

當(dāng)早期錯誤出現(xiàn)在歷史中時(shí)，大模型的表現(xiàn)如何。綠色條是上下文干凈（0%錯誤）的情況。在這種情況下，較大的模型（如14B和32B）在第100步時(shí)比小模型保持更高的準(zhǔn)確率。所以，如果一切進(jìn)行順利，擴(kuò)展顯然有幫助。粉色條是歷史中一半已有錯誤的情況。在這里，準(zhǔn)確率急劇下降，模型越大，崩潰越嚴(yán)重。32B模型從干凈情況下的最佳變成錯誤存在時(shí)的低得多。信息是：大模型在歷史干凈時(shí)更強(qiáng)大地執(zhí)行長任務(wù)，但它們也更容易受到自條件化影響，意味著一旦看到自己早期的錯誤，它們會更嚴(yán)重地螺旋下降。

圖片

論文如何以非常受控的方式測試執(zhí)行。論文將長任務(wù)轉(zhuǎn)化為簡單循環(huán)，每輪說明從字典中讀取哪些鍵，并要求模型更新運(yùn)行總和，所以任何失敗都是關(guān)于執(zhí)行的，而不是缺少知識或規(guī)劃。論文通過剝離規(guī)劃和知識來隔離執(zhí)行，測試模型是否能在多輪中保持簡單運(yùn)行總和的正確。左側(cè)解釋了長任務(wù)可以分解為重復(fù)步驟：首先檢索正確信息，然后將其組合到運(yùn)行結(jié)果中，最后存儲更新的狀態(tài)。規(guī)劃部分（要做什么步驟）已經(jīng)給出，所以測試只衡量模型是否能在多步驟中持續(xù)正確執(zhí)行。右側(cè)顯示了他們使用的測試任務(wù)。基本上是一個(gè)字典，每個(gè)單詞都附有一個(gè)數(shù)字。告訴模型選擇哪些鍵（如"Apple"和"Grape"），它檢索它們的數(shù)字，然后加到運(yùn)行總計(jì)中。這種設(shè)置確保任務(wù)不依賴外部知識或創(chuàng)造性規(guī)劃，只依賴輪輪正確執(zhí)行。

圖片

為什么小收益會爆炸式擴(kuò)展視野：在沒有自我糾正的簡單恒定準(zhǔn)確率模型下，一旦單步準(zhǔn)確率超過約70%，微小提升就會在保持50%成功目標(biāo)的任務(wù)長度上產(chǎn)生超指數(shù)級跳躍，所以短任務(wù)上的收益遞減隱藏了長任務(wù)上的巨大現(xiàn)實(shí)收益。

圖片