探討超長上下文推理的潛力原創(chuàng)

發(fā)布于 2025-11-4 09:41

瀏覽

0收藏

編者按： 現(xiàn)代大語言模型已經能夠一次性處理相當于整本書的文本量，但我們是否曾想過，當模型的“記憶”容量再擴展成千上萬倍，足以容納長達數(shù)月乃至數(shù)年的交互信息時，人工智能的能力邊界將會發(fā)生怎樣顛覆性的變化？
我們今天為大家?guī)淼奈恼拢髡叩暮诵挠^點是：超長上下文推理的真正潛力，并不僅僅是處理海量文檔，更在于它為實現(xiàn)人工智能的“持續(xù)學習”和規(guī)模化“強化學習”這兩大關鍵瓶頸提供了革命性的突破路徑。
文章指出，超長上下文窗口能讓 AI 系統(tǒng)在部署后，通過“記憶”和“反思”過往的交互案例來不斷學習和糾錯，這是解決當前 AI 系統(tǒng)無法從經驗中成長這一核心障礙的關鍵。作者認為，強大的長上下文推理不僅能支持模型處理時間跨度更長的復雜任務（例如需要數(shù)月才能驗證的科研方向），還能通過驗證復雜的推理鏈條為模型提供高質量的訓練信號，甚至可以用來生成更逼真的強化學習訓練環(huán)境。

作者 | JS Denain and Anson Ho

編譯 | 岳揚

從理論上講，現(xiàn)代大語言模型能夠一次性處理相當于多本書籍的文本量。以 Gemini 2.5 Pro 為例，其上下文窗口達到 100 萬 token，足以容納十本《哈利·波特與魔法石》的內容1。但若能對更長的上下文進行大量推理呢？如果大模型可以接收 100 億 token 的上下文，并且我們具備使之可以實現(xiàn)的硬件與算法，又將如何？

最直接的應用場景自然是處理超長文檔[1]。但我們認為長上下文推理的意義遠不止于此：

其一，它為模型部署后持續(xù)學習新知識提供了突破口—— 而這也是當前人工智能系統(tǒng)在實際應用中的最大瓶頸之一。
其二，它能極大推動強化學習的擴展：實現(xiàn)更復雜的推理、驗證模型輸出，并生成高質量的強化學習環(huán)境。
但瓶頸依然存在。隨著強化學習任務時長增加，研究迭代周期會放緩。同時還需要硬件與算法的雙重突破，確保長上下文推理不會因速度或成本問題而難以落地。

值得注意的是，上下文長度正以每年 30 倍的速度增長[2]，前沿大模型利用上下文的能力也在快速提升。即便這種趨勢稍有放緩，這些重大突破也極有可能在不久的將來成為現(xiàn)實。

探討超長上下文推理的潛力-AI.x社區(qū)

01 超長上下文推理為持續(xù)學習提供了突破口

要使大語言模型真正具備經濟價值[3]，它們很可能需要"持續(xù)學習"的能力，即在模型部署后仍能不斷吸收新知識2。這種能力對于幫助 AI 系統(tǒng)從犯過的錯誤中學習或培養(yǎng)研究直覺[4]非常重要。但當前的大模型缺乏能在長對話或多輪交互中保留的“記憶”。

部分問題在于，當前大模型的上下文窗口不夠長，難以支撐有效的持續(xù)學習。 舉例來說，若通過截圖記錄工作歷程，100 萬 token 的上下文僅能支持 AI Agent 執(zhí)行半小時的電腦任務 —— 遠不足以獲取大量隱性知識3。但更長的上下文能帶來質變：1000 萬 token 可覆蓋約 6 小時的電腦使用記錄，而 100 億 token 便能延伸至八個月！更樂觀地看，若僅憑文本和音頻 token 就能表征工作經驗，約 4000 萬 token 或許已足以積累數(shù)月的“工作經驗”?。

一旦擁有超長上下文，模型便能直接從上下文窗口中的過往案例學習。例如，推理模型已展現(xiàn)出在思維鏈中自我糾錯[5-6]的能力，將這些習得的修正方案保留在上下文中，將有助于模型未來解決類似問題。

這種“超大上下文窗口+上下文學習”的持續(xù)學習路徑已被探討多次。比如 Aman Sanger 在與 Cursor 團隊交流時曾提及這一方向[7]，Andrej Karpathy 也在 X 平臺上勾勒過其實現(xiàn)框架[8]：

探討超長上下文推理的潛力-AI.x社區(qū)

（譯者注：這個框架的核心邏輯大概是，模型在完成任務時，先試幾次 —> 記錄每次的結果和評估分數(shù) —> 用一個“反思提示詞”讓模型自己總結經驗 —> 把經驗寫成“l(fā)esson” —> 存起來，下次遇到類似任務時用上 —> 不斷迭代優(yōu)化。）

不過，有人可能會質疑這種方法[9]，理由是隱性知識很難存儲在基于先前上下文的文本摘要中 —— 這會導致關于任務執(zhí)行過程的豐富信息大量丟失。這種擔憂確有道理，但未必能否定該路徑的可行性。

首先，如果上下文窗口比現(xiàn)有模型大幾個數(shù)量級，我們就有可能對上下文進行深度優(yōu)化。這有望克服經驗壓縮中的信息損耗問題。例如，假設有一個大語言模型能夠存儲相當于數(shù)月工作內容的上下文，我們可以結合“sleep-time compute”[10]機制：讓模型利用（可預設的）空閑時間，將新獲取的信息與既有知識建立關聯(lián)進行學習。通過大量推理計算和強化學習優(yōu)化后，所產生的學習上下文可能極為高效。當前模型通過強化學習已顯著提升了對上下文的利用效率，而正如下一節(jié)將探討的，這方面仍有巨大提升空間。

如果問題在于以文本形式存儲信息，長上下文還可以與業(yè)界積極研究的其他方案結合。例如，token 可作為多種模態(tài)信息[11]的通用表征載體；又或者，隱性知識可以存儲在經過學習的 KV 緩存[12]中，形成比文本摘要更密集的知識表征。

當然，這些技術能否真正奏效，不僅取決于紙上談兵地擴大上下文窗口尺寸，還需要建設配套基礎設施，確保相關上下文（例如近期所有工作交互記錄）都能被數(shù)字化并輸入大語言模型[13]。

我們同樣需要關注長上下文在實際應用中的效果 —— 即便模型理論支持 100 萬 token 的上下文窗口，但在遠未達到該長度時，其輸出就可能已經開始混亂。 以 Vending Bench 基準測試[14]為例：模型需要運營自動售貨機賺取利潤，但往往在理論上下文窗口遠未填滿時就出現(xiàn)“失控”，產生巨額虧損。在實際使用大語言模型時我們也能觀察到類似現(xiàn)象：模型在長對話中會對先前的錯誤過度關注，導致用戶不得不開啟新對話重新開始。

02 能夠執(zhí)行大量長上下文推理有助于強化學習的規(guī)模化擴展

要確保模型在長上下文窗口中保持邏輯連貫，一種方法是延續(xù)當前強化學習與測試時計算擴展的技術路線。例如，采用一定程度的端到端強化學習訓練 —— 這種方法已為 OpenAI 的 Deep Research 系統(tǒng)[15]等產品提供了助力。它能提供訓練信號，幫助模型在回應用戶的長查詢時保持前后一致性。

強大的長上下文推理能力正是強化學習持續(xù)擴展的重要支撐。原因之一在于它支持更長的決策軌跡[16]：更大的上下文窗口允許模型對耗時任務[17]輸出更長的推理鏈條。

探討超長上下文推理的潛力-AI.x社區(qū)

各基準測試中模型的回答正變得越來越長，尤其是通常經過強化學習訓練[18]的推理模型。這進一步加大了對長上下文推理的需求。

隨著大模型應用于更復雜的長周期任務，它們可能越來越多地面臨“稀疏獎勵”問題 —— 即模型很難獲得明確的行為反饋信號。 例如在 AI 研發(fā)中選擇研究方向時，可能需要數(shù)月時間提出假設、設計和實施實驗，才能最終判斷出研究策略的優(yōu)劣。對于此類任務，不僅單次決策軌跡長，更需要大量重復嘗試[19] —— 這能增加至少出現(xiàn)一次成功軌跡的概率，為模型提供學習范本?。

長上下文推理還能通過驗證長模型輸出所需的復雜思維鏈，為推理模型提供高質量獎勵信號?。高質量驗證機制對 AI 的發(fā)展一直至關重要，OpenAI 用于改進 GPT-5 的“Universal Verifier[20]”就是明證。

此外，長上下文推理有助于生成強化學習環(huán)境（或其中的組成部分）。如 Kimi K2 的訓練[21]就融合了 MCP[22] 服務器，利用大模型自動生成大量模擬的“工具”、“智能體”、“任務”和“對話記錄”來為后訓練階段創(chuàng)建高質量的數(shù)據?。這個過程催生了長上下文推理的新需求場景，未來很可能擴展到強化學習任務的創(chuàng)建。當前這類環(huán)境大多通過程序化生成，但我們預期其質量將持續(xù)提升[23]。而要構建更高質量的強化學習環(huán)境，有效運用長思維鏈或智能體交互變得愈發(fā)關鍵，這正是長上下文能力的用武之地。

具體而言，我們認為長上下文推理能在擴展推理模型能力邊界方面發(fā)揮關鍵作用，使其勝任持續(xù)數(shù)周甚至數(shù)月的長周期任務。如果這種強化學習擴展能帶來類似去年推理模型的進步幅度，其影響將不可估量。

03 瓶頸：研究迭代速度放緩與潛在成本上升

這些強化學習的擴展和持續(xù)學習能力的實現(xiàn)，都需要付出代價。在發(fā)展道路上存在著諸多瓶頸和限制。

其中一個瓶頸是根本性的 —— 當 AI 模型執(zhí)行單次推理任務的時間被拉長到數(shù)周甚至數(shù)月時，會直接拖慢整個科研的迭代速度，從而延緩技術創(chuàng)新的進程。 Noam Brown 在 Latent Space 播客[24]中犀利指出：

“隨著模型思考時間的延長，你會受到實際時鐘時間（wall-clock time）的制約。當模型能夠即時響應時，實驗迭代非常輕松。但當它們需要三小時才能回應時，難度就完全不可同日而語了。
[...]
雖然可以在一定程度上將實驗并行處理，但多數(shù)情況下，你必須先運行并完成當前實驗、看到結果后，才能決定下一組實驗的方向。我認為這恰恰是 AI 研發(fā)需要長周期的最有力佐證”

另一大瓶頸在于成本。即便在理論上能實現(xiàn)長上下文推理，最終能否投入使用還要看成本是否可承受。 需要硬件與推理算法[25]的雙重突破，否則模型運行速度可能慢到無法接受，成本也會高昂得難以承受。成本問題已現(xiàn)端倪 —— Google DeepMind 就曾因高昂的成本[26]主動放棄發(fā)布具備 1000 萬 token 上下文能力的 Gemini 1.5 Pro。

但總體而言，我們相信賦予語言模型長上下文推理能力將具有重大意義。它不僅能夠將現(xiàn)有的推理范式推向新的高度，也能為 AI 系統(tǒng)賦能關鍵能力，使其在真實場景中發(fā)揮實用價值。盡管需要付出一定代價，但這些瓶頸并非不可逾越。結合當前上下文長度的增長趨勢與資源投入力度，這些影響可能很快就會顯現(xiàn)。

本文諸多觀點受 Will Brown 的啟發(fā)，特此致謝。同時還要感謝 Lynette Bye 在寫作方面提供的寶貴建議，以及 Josh You 和 Jaime Sevilla 的反饋意見。

1 《哈利·波特與魔法石》約含 7.5 萬個單詞[27]，即約 10 萬 token。

2 需注意，某些持續(xù)學習的定義[28]明確包含對新數(shù)據的訓練（即更新模型參數(shù)）。我們采用更寬泛的定義而不限定具體機制，因為我們主要關注模型在上下文環(huán)境中持續(xù)處理新信息的能力。

3 此計算基于每圖像約 250 token[29]、每秒 2 幀的設定。在 100 萬 token 的上下文窗口下，可處理時長約為 1,000,000 / (250 * 2) = 2000 秒（約 30 分鐘）。實際場景中可能需要更多 token，尤其在文本密集的計算機操作流中 —— 但這反而凸顯了長上下文推理能力的重要性。

4 例如，假設一人每日閱讀 3 萬 token 文本（約合三篇論文），其思維速度與語速同步（每分鐘 125 詞），且每日工作場景中保持 6 小時思考，則對應新增 4.5 萬詞（6 萬 token）。日總量約 10 萬 token，年累積量約為 12×30×100,000 ≈ 3500 萬 token。實際數(shù)值可能更高，因為人類思維速度通常遠超語言表達速度。

5 其他方法同樣有效。例如在研究過程中設置階段性獎勵[30]，可加速模型學習。

6 獎勵信號未必僅基于最終結果 —— 基于過程的獎勵[31]同樣具有促進作用。

7 相關案例包括阿里通義實驗室的 AgentScaler[32]，其提出了構建智能體任務環(huán)境的標準化流程。

END

本期互動內容 ??

?要實現(xiàn)“數(shù)月工作經驗”的上下文，文章指出面臨成本和迭代速度兩大瓶頸。你認為，在“算力成本下降”和“算法效率突破”之間，哪個是更快破局的關鍵？

文中鏈接

[1]??https://cloud.google.com/transform/the-prompt-what-are-long-context-windows-and-why-do-they-matter??

[2]??https://epoch.ai/data-insights/context-windows??

[3]??https://www.dwarkesh.com/p/timelines-june-2025??

[4]??https://epoch.ai/frontiermath/expert-perspectives??

[5]??https://huggingface.co/blog/NormalUhr/deepseek-r1-explained??