誰說Scaling Law到頭了?新研究:每一步的微小提升會帶來指數級增長
很多人認為,Scaling Law 正在面臨收益遞減,因此繼續擴大計算規模訓練模型的做法正在被質疑。最近的觀察給出了不一樣的結論。研究發現,哪怕模型在「單步任務」上的準確率提升越來越慢,這些小小的進步疊加起來,也能讓模型完成的任務長度實現「指數級增長」,而這一點可能在現實中更有經濟價值。

如果繼續擴大計算規模,邊際收益卻在遞減,企業繼續真金白銀投入更大模型的訓練是否還是一個合理的選擇?大概從去年開始,AI 領域就在爭論這一問題。
最近,有篇論文給出了一個有意思的觀點:雖然 scaling law 顯示 LLM 在測試損失等指標上存在收益遞減,但模型在現實世界的價值往往源于一個智能體能夠完成任務的長度。從這個角度來看,更大的模型非但沒有收益遞減,反而能將單步準確率的微小提升復合放大,在任務完成長度上實現指數級躍升。

- 論文標題:The Illusion of Diminishing Returns: Measuring Long Horizon Execution in LLMs
- 論文鏈接:https://arxiv.org/pdf/2509.09677
- 代碼鏈接:https://github.com/long-horizon-execution/measuring-execution
- 數據集鏈接:https://huggingface.co/datasets/arvindh75/Long-Horizon-Execution
這篇論文來自劍橋大學等機構。論文指出,長期以來,完成長程任務一直是深度學習的致命弱點。自動駕駛 demo 很炫酷,但要真正上路跑長途,用了十多年才實現。AI 能生成驚艷的圖片,但拍一段連貫、一致的長視頻至今仍是難題。現在企業都想要 AI 幫忙處理整個項目,而不只是回答零散問題。但這里有個核心疑問:我們該如何衡量 LLM 能可靠執行多少步的工作?
LLM 在簡單長任務上的失敗被認為是推理能力的根本缺陷。盡管 LLM 在復雜推理基準測試上有了巨大改進,依然有論文聲稱思考模型只是給出了「思考的幻覺」(arXiv:2506.06941),因為當任務變得更長時,它們最終會失敗。
這些結果在社區中引發了很多爭論。但本文作者認為,我們可以通過解耦推理或智能體任務中規劃(planning)和執行(execution)的需求來解決這個問題。
規劃涉及決定檢索什么信息或使用什么工具以及使用順序,而執行就是讓規劃變成現實。在《思考的幻覺》論文中,LLM 顯然知道規劃,因為它最初正確地執行了許多步驟。本文研究者認為,最終的失敗在于執行 —— 隨著任務變長,模型在執行規劃時更容易犯錯。盡管人們非常關注 LLM 的規劃能力,但執行仍然是一個研究不足的挑戰。隨著 LLM 開始用于長推理和智能體任務,這一方向變得越來越重要。
在這篇論文中,作者在受控環境中測量了 LLM 的長程執行能力。他們通過顯式提供所需的知識和規劃來隔離 LLM 的執行能力。通過控制輪數和每輪的步驟數(它們共同構成任務長度),他們揭示了關于 LLM 長程任務執行能力的見解:
1、Scaling 是否存在收益遞減?
作者觀察到,雖然單步準確率的提升幅度在減小,但準確率的微小提升可以復合放大,進而導致模型能夠完成的任務長度呈指數級增長。
過去大家覺得,scaling 模型大小之所以會有用,是因為這會提高模型存儲參數化知識或搜索規劃的能力。
然而,作者在實驗中發現,在顯式提供了所需的知識和規劃后,scaling 模型大小仍能顯著提高模型成功執行的輪次數量。這說明 scaling 模型的價值不僅體現在能讓模型記住更多知識或更會尋找問題解答上。
2、Self-Conditioning 效應
人們可能會認為,長任務中的失敗僅僅是由于小而恒定的每步錯誤率不斷累積造成的。然而,作者發現,隨著任務的推進,每步錯誤率本身會上升。這與人類形成了對比,人類在執行任務時通常會通過練習而進步。
作者推測,由于模型訓練的很大一部分是根據上下文預測最可能的下一個 token,因此讓模型以自身容易出錯的歷史為條件會增加未來出錯的可能性。他們通過控制展示給模型的歷史中的錯誤率來對此進行測試。隨著歷史中的錯誤率升高,他們觀察到后續步驟的準確率急劇下降,這驗證了模型會進行 self-condition 設定。
作者表明,除了先前已發現的長上下文問題外,self-conditioning 設定還會導致模型在長程任務中的性能下降,而且與長上下文問題不同的是,這種性能下降并不會通過增大模型規模而得到緩解。
3、思考的影響
作者發現近期的思考模型不會受到先前錯誤的影響,能夠修正 self-conditioning 限制。此外,順序測試時計算量(sequential test time compute)的顯著提升了模型在單輪對話中可完成任務的長度。在沒有思維鏈(CoT)的情況下,像 DeepSeek V3 這樣的前沿大語言模型甚至連兩步執行都無法完成,而其具備思考能力的版本 R1 則能執行 200 步,這凸顯了行動前進行推理的重要性。
作者對前沿思考模型進行了基準測試,發現 GPT-5 的思考版本(代號 Horizon)能夠執行超過 1000 步,遠超緊隨其后的競爭對手 —— 能執行 432 步的 Claude-4-Sonnet。
LLM 能力的「參差不齊」既令人著迷又讓人困惑。與傳統機器不同,大語言模型在執行重復性任務時更容易出現故障。因此,作者認為,長任務中的執行失敗不應被誤解為缺乏推理或規劃能力。他們發現,通過擴大模型規模和增加順序測試時間的計算量,模型長程執行能力會得到顯著提升。如果一個模型能夠完成的任務長度表明其經濟價值,那么持續投入以增加計算量可能是值得的,即便短任務基準測試給人一種進展放緩的錯覺。
這篇論文讓很多人感覺深受啟發,還有人提出我們應該設計更多針對模型執行深度方面的基準測試,以更好地衡量模型 scaling 所帶來的收益。


以下是論文的詳細內容。
論文方法詳解
在論文中,作者詳細介紹了他們的每一個結論是怎么得出來的。
雖然單步準確率收益遞減,但 scaling 仍有價值
作者首先分析了模型的單步準確率與其預測范圍長度之間的關系。為了得出數學關系,他們做出了兩個類似于 LeCun (2023) 的簡化假設。第一,他們假設模型的步準確率在任務過程中保持恒定。第二,他們假設模型不會自我修正,這意味著任何單一錯誤都會導致任務失敗。他們僅在此次分析中做這樣的假設,該分析能提供有用的直覺。他們的實證分析則更進一步,還研究了 LLM 在實際情況中如何在長程任務執行時不表現出穩定的步驟準確率,以及它們可能如何糾正錯誤。
命題 1:假設步驟準確率 p 恒定且無自校正,模型達到成功率 s 時的任務長度 H 由下式給出:

作者在圖 2 中繪制了 s=0.5 時的這一增長函數。注意,當步驟準確率超過 70% 后,步驟準確率的微小提升會帶來比指數級更快的任務長度改善。這一推導表明,即使在通常包含短任務的問答基準測試中,準確率的提升似乎放緩,但從數學角度而言,人們仍可期待在更長的任務上取得顯著收益。

例如,在軟件工程任務中,Kwa et al. (2025) 通過實證觀察發現,前沿模型在 s=0.5 時的可完成任務長度正呈指數級增長,每 7 個月翻一番。利用上面的結果,作者在圖 1 中展示出,即使在步驟精確度的回報遞減機制下,任務長度的這種指數級增長也會發生。如果設定 s=0.5,就會得到
。因此,要隨著時間(x)維持 H_0.5 的指數級增長,所需的步驟精確度 p 為
,這確實是一個遞減函數。

作者注意到,人類勞動的報酬往往是按時間計算的。如果一個智能體的經濟價值也源于它能夠完成的任務時長,那么單輪或短任務基準可能并非評估進一步投資于大語言模型計算資源所帶來收益的可靠參考。這些基準可能會讓人產生進展放緩的錯覺,而作者認為,更能體現經濟價值的指標 —— 模型能夠完成的任務時長,實際上仍在快速增長。
通過解耦規劃和知識來隔離執行
接下來,作者描述了如何通過實證方法衡量模型的長程任務執行能力。
首先,團隊給出了一個很有啟發性的例子:一個用于熱門且具有經濟價值的航班預訂任務的智能體。
在接收到搜索結果后,它必須對顯示的航班進行評估,以確定要預訂哪一個。評估單個航班選項的計劃可能包括一系列操作,例如查看詳細信息,核實航班時間、行李限額和航空公司評價是否符合用戶偏好,應用任何可用的折扣或獎勵計劃,以及最終根據成本和行程時間做出選擇。這些獨立步驟中的每一步都需要檢索一些信息,并將其與現有的信息狀態相結合,以最終評估一個航班選項,而這兩項操作都需要知識。對多個航班選項的成功評估構成了該規劃的執行過程,直至做出最終的預訂決定。
這篇論文聚焦于執行環節,因為作者認為它是長程任務完成能力的關鍵組成部分。傳統上,執行環節受到的關注少于推理、規劃和世界知識等能力,而這些能力一直是 LLM 能力討論的主要焦點。這種相對的忽視是很重要的,因為執行中的失敗被錯誤地歸因于推理或規劃能力的局限。這種看法可能源于一種觀點,即執行是一項簡單或平凡的任務。畢竟,這是機器歷來擅長的事情。人類一旦學會如何完成一項任務,在執行時也相當可靠,甚至會通過練習得到提高。然而,由于 LLM 并不具備正確性保證,作者假設,在長時程任務中,執行對 LLM 而言可能會出人意料地具有挑戰性。他們推測:
即使推理、規劃和世界知識都得到完善,LLM 在長期執行過程中仍會出錯。
為了證明這一點,他們通過顯式提供必要的知識和規劃來隔離執行失敗的情況。他們將前述航班選擇智能體示例中提出的「先檢索后組合」步驟串聯起來。每個步驟都包括檢索相關信息或規劃中指定的工具,然后組合其輸出以更新當前狀態。規劃負責決定檢索什么以及如何組合,而執行則是實際執行這些操作。這符合一種自然的抽象 —— 鍵值(key-value)詞典。鍵作為規劃的一個步驟,指定要檢索的知識或要調用的工具,而值則代表知識或工具的輸出,隨后需要將其與當前狀態組合。
在這項研究中,作者將規劃作為每個查詢中的鍵提供,從而消除了 LLM 對規劃能力的需求。他們還在上下文中提供鍵值詞典,消除了對模型參數知識的任何依賴。通過這種設計,作者直接控制兩個重要的維度,它們相乘可得到任務長度(「先檢索后組合」步驟的數量):輪次數量和輪次復雜度(K)。輪次復雜度可以通過改變每輪查詢的鍵的數量來調整。
實驗結果
在實驗部分,作者得出了以下幾個核心結論:
- 長程任務執行具有挑戰性。顯著增大模型規模會大幅增加模型能夠正確執行的輪次數量。
- 模型會把自己上一步犯的錯誤當成新上下文繼續學(self-conditioning),這導致每一步的準確率下降。增大模型規模并不足以緩解這一問題。
- 思考模型能解決 self-conditioning 限制的問題,還能在單輪中執行明顯更長的任務。
增加輪次的影響
作者首先驗證了一個假設 —— 即使在不需要世界知識和規劃的任務中,長時程任務執行也可能具有挑戰性。然后,他們研究了增大模型規模對長時程任務執行的益處。
作者在圖 4 中展示了結果。除了 Gemma3-4B 和 Qwen3-4B 之外,所有模型在第一步都達到了 100% 的準確率,這凸顯出它們具備完美完成任務中單個步驟所需的知識和推理能力。然而,任務準確率在后續回合中迅速下降。即使是表現最佳的模型(Qwen3-32B),其準確率在 15 個輪次內也降至 50% 以下。這證實了作者的假設:即使去除了規劃和知識方面的要求,長時程任務執行對 LLM 而言仍可能具有挑戰性。

如圖 4(a)所示,更大的模型在更多輪次中保持更高的任務準確率,導致在任務長度上呈現明顯的 scaling 趨勢(圖 4(c))。
為什么每輪準確率會下降?是 self-conditioning 在作怪
人們可能會認為模型的每輪表現會保持穩定。然而,圖 4(b)顯示,隨著輪次數量的增加,各輪次的準確率在穩步下降。對此,作者研究了兩個相互對立的假設:
- 模型的性能會僅僅因為上下文長度的增加而下降,與內容無關;
- 模型會以自身過去的錯誤為條件(self-conditioning)。在觀察到自己在之前回合中的錯誤后,它犯錯誤的可能性會更大。
結果顯示,self-conditioning 會導致輪次準確率在長上下文之外進一步下降。
圖 5(a)中的結果表明,長上下文和 self-conditioning 都會導致準確率下降。當以無錯誤的歷史為條件(誘導錯誤率 = 0.00)時,模型在第 100 輪的輪次準確率低于其初始值,這與之前關于長上下文退化的觀察結果一致。更有趣的是,隨著上下文中注入錯誤的比例的提高,第 100 輪的準確率持續下降。這證明了 self-conditioning 效應 —— 隨著模型出錯,它們更有可能犯更多錯誤,從而導致整個輸出軌跡中的每輪準確率持續下降,如圖 5(b)所示。
此外,與長上下文不同,擴大模型規模并不能緩解 self-conditioning 效應。請注意,在誘導錯誤率為 0 的情況下,第 100 輪的準確率會隨著模型規模的增大而持續提高。
如圖 5(c)所示,將模型擴展到前沿水平(2000 億以上參數),如 Kimi-K2、DeepSeek-V3 和 Qwen3-235B Instruct-2507,在多達 100 輪的對話中基本解決了長上下文退化問題,在修復后的歷史對話上實現了近乎完美的準確率。
然而,即使是這些大型模型仍然容易受到 self-conditioning 作用的影響,因為隨著其歷史對話中誘導錯誤率的增加,它們的性能會持續下降。這可能與最近的研究結果類似,即大型模型在多輪對話中會出現性格轉變。而在本文的案例中,這種轉變是朝著容易出錯的「性格」方向發展。
在圖 6 中,作者清晰地發現 Qwen3 thinking 模型不會進行 self-condition—— 無論其上下文中的錯誤率如何,模型在第 100 輪的準確率都保持穩定。這可能源于兩個原因:
- 強化學習訓練能夠減少語言模型最可能的下一個 token 預測行為,使它們更傾向于任務成功而非延續上下文。
- 移除先前輪次的思維軌跡可能會降低先前輪次對模型輸出的影響,因為模型會獨立思考新的輪次。
通過檢查模型的思維軌跡,作者觀察到它們在思維鏈中不會回溯到先前的輪次。此外,作者通過明確移除先前歷史作為一種潛在的修正方法進行了上下文管理實驗,發現這確實減輕了 self-conditioning。

模型在單個輪次中能夠完成的任務有多長?
模型能夠處理的總任務長度是輪次數量和每輪需要執行的步驟數量共同作用的結果。作者也在實驗中測量了后一個維度:模型每輪能夠執行的最大步驟數量。
實驗結果顯示,在沒有思維鏈的情況下,不具備思考能力的模型難以在單輪中完成哪怕兩個步驟的銜接。
在圖 12(左)中,作者首先發現,當被提示直接作答且不使用思維鏈時,更大規模的 Qwen3 32B、Gemma3 27B,以及像 DeepSeek-V3(670B)和 Kimi K2(1026B)這樣的前沿非思考型模型,連復雜度為 2 的單輪任務都無法完成。這與先前的研究結果一致,即對于 Transformer 模型執行序列任務而言,思考 token 是必不可少的。

作者強調這一點是因為,許多智能體工作流為了在上下文窗口中容納更多動作,會直接要求模型行動而不使用思維鏈。作者發現,借助思維鏈,模型在單輪中能夠執行的步驟數量顯著增加。這表明,對于智能體而言,行動前先進行推理至關重要。在附錄 B 中,作者還展示了諸如多數投票之類的并行測試時計算,僅能在單輪執行長度和輪次數量上帶來微小提升。這為以下觀點提供了初步證據:對于長時程執行任務,順序性的測試時計算更為有效。
在圖 12(右側)中,作者就前沿模型在單輪對話中能夠執行的任務長度進行了基準測試。他們發現 GPT-5(代號 Horizon)與其他模型(如 Gemini 2.5 Pro、Grok 4 和 DeepSeek R1)之間存在驚人的巨大差距。他們還發現,經過強化學習訓練的思維模型 DeepSeek R1 的性能顯著優于其經指令微調的對應模型 DeepSeek-V3。
總體而言,長時程執行是一項挑戰,開源權重模型在這方面仍在追趕那些僅通過 API 提供的模型,這凸顯了未來研究的機遇。
作者的實驗部分寫得非常翔實,不過有人質疑這些實驗是否符合長時程任務的標準。感興趣的讀者可以去仔細看一下。

更多細節請參見原論文。





























