算力成本大降！馬爾可夫思考機(jī)讓LLM推理成本直接降為線性

發(fā)布于 2025-10-14 00:12

瀏覽

0收藏

馬爾可夫思考者：突破大模型推理長度的計(jì)算瓶頸

最近，強(qiáng)化學(xué)習(xí)(RL)已成為訓(xùn)練推理LLMs的有效方法，使其能夠產(chǎn)生長鏈思考(LongCoT)。然而，這種方法面臨著一個嚴(yán)峻的挑戰(zhàn)：計(jì)算成本隨思考長度呈二次方增長。今天，我們介紹一篇來自Mila、微軟研究院、麥吉爾大學(xué)等機(jī)構(gòu)的研究團(tuán)隊(duì)發(fā)表的重要論文——《The Markovian Thinker》，他們提出了一種革命性的方法，成功解決了這一難題。

論文標(biāo)題：The Markovian Thinker
論文地址：https://arxiv.org/abs/2510.06557v1
模型地址：https://huggingface.co/collections/McGill-NLP/the-markovian-thinker-68debd2919c4ae47f50706cd
代碼倉庫：https://github.com/McGill-NLP/the-markovian-thinker

研究背景：推理長度的計(jì)算困境

當(dāng)前，強(qiáng)化學(xué)習(xí)訓(xùn)練推理LLMs的標(biāo)準(zhǔn)"思考環(huán)境"中，狀態(tài)是提示加上所有先前的推理token，這導(dǎo)致狀態(tài)無界增長。對于基于注意力的策略來說，這意味著隨著思考變長，計(jì)算成本呈二次方增長。這種計(jì)算負(fù)擔(dān)極大地限制了模型進(jìn)行長鏈思考的能力。

論文作者指出："在標(biāo)準(zhǔn)LongCoT RLVR中使用的逐個token生成MDP指定了以下狀態(tài)S、動作A和轉(zhuǎn)換動力學(xué)。在時間t，狀態(tài)st∈S是提示和到目前為止生成的token的串聯(lián)：st = x ⊕ y<t = [x1, . . . , xN, y1, . . . , yt?1]，其中⊕表示串聯(lián)。"

算力成本大降！馬爾可夫思考機(jī)讓LLM推理成本直接降為線性-AI.x社區(qū)

圖1，展示LongCoT和Delethink環(huán)境的對比

為了解決這一問題，研究者們提出了馬爾可夫思考(Markovian Thinking)范式，其核心思想是讓策略在推進(jìn)推理時基于恒定大小的狀態(tài)，從而將思考長度與上下文大小解耦。這一思想的直接后果是：更長的思考只需要線性計(jì)算和恒定內(nèi)存，與思考長度無關(guān)。

Delethink：馬爾可夫思考的實(shí)現(xiàn)

研究者們通過Delethink這一RL環(huán)境實(shí)現(xiàn)了馬爾可夫思考。Delethink將推理組織成一系列固定大小的塊。在每個塊內(nèi)，模型像往常一樣進(jìn)行推理；在塊邊界，環(huán)境重置上下文，并使用來自前一個塊的簡短"攜帶"(carryover)重新初始化提示。

通過強(qiáng)化學(xué)習(xí)，策略學(xué)會在每個塊的末尾編寫一個文本狀態(tài)，這個狀態(tài)足夠在重置后無縫繼續(xù)推理。這種設(shè)計(jì)使得模型可以在恒定的上下文大小下進(jìn)行任意長度的推理。

Delethink的工作原理

Delethink的軌跡生成過程如下：

在第一個塊中，模型以查詢q作為提示，生成最多C個token的響應(yīng)：y1 ～ π(·|x1 = q)
如果響應(yīng)y1以[EOS]結(jié)束，軌跡完成
否則，Delethink通過從原始查詢和前一個塊輸出的最后m個token組成的馬爾可夫狀態(tài)構(gòu)建下一個提示： xl = q ⊕ y(l?1)[?m :], l ≥ 2
給定xl，模型為塊l生成最多C?m個新的思考token：yl ～ π(·|xl)
此過程重復(fù)，直到生成[EOS]或達(dá)到迭代上限I

算力成本大降！馬爾可夫思考機(jī)讓LLM推理成本直接降為線性-AI.x社區(qū)

計(jì)算復(fù)雜度分析

Delethink的最大優(yōu)勢在于其線性計(jì)算復(fù)雜度。論文中詳細(xì)分析了Delethink與LongCoT的計(jì)算成本對比：

方法	思考Token數(shù)	FLOP	內(nèi)存	反向時間	生成時間
基礎(chǔ)模型	n	O(n2)	O(n)	TB	TG
LongCoT	nS	O(n2S2)	O(nS)	O(TBS2)	O(TGS2)
馬爾可夫思考(Delethink)	nS	O(n2S)	O(n)	O(TBS)	O(TGS)

算力成本大降！馬爾可夫思考機(jī)讓LLM推理成本直接降為線性-AI.x社區(qū)

論文中進(jìn)一步解釋："在LongCoT中，KV緩存隨著思考長度線性增長，限制了GPU上的并行請求。例如，R1-Distill 1.5B模型上100萬token軌跡的KV緩存本身就填滿了整個H100。超越這一點(diǎn)需要跨GPU分片序列，增加了大量通信開銷。相比之下，Delethink只保留當(dāng)前塊的KV緩存，因此使用量保持恒定。"

算力成本大降！馬爾可夫思考機(jī)讓LLM推理成本直接降為線性-AI.x社區(qū)

圖3，展示LongCoT和Delethink的計(jì)算成本對比

實(shí)驗(yàn)結(jié)果：Delethink的卓越表現(xiàn)

研究團(tuán)隊(duì)在多個基準(zhǔn)測試上驗(yàn)證了Delethink的有效性，結(jié)果令人印象深刻。

主要發(fā)現(xiàn)

性能相當(dāng)，計(jì)算成本大幅降低：盡管在8K塊中推理，但通過Delethink訓(xùn)練的R1-Distill 1.5B模型可以思考多達(dá)24K token，匹配或超過使用24K預(yù)算訓(xùn)練的LongCoT-RL。
測試時間擴(kuò)展能力：在測試時間擴(kuò)展方面，當(dāng)LongCoT達(dá)到平臺期時，Delethink繼續(xù)改進(jìn)。例如，在AIME'25上，一些問題只有在推理多達(dá)140K思考token后才能解決，盡管模型只訓(xùn)練了24K。
計(jì)算效率：線性計(jì)算的效果是實(shí)質(zhì)性的：研究團(tuán)隊(duì)估計(jì)，在96K平均思考長度下，LongCoT-RL需要27個H100月，而Delethink只需要7個。

算力成本大降！馬爾可夫思考機(jī)讓LLM推理成本直接降為線性-AI.x社區(qū)

圖2，Delethink與LongCoT在訓(xùn)練曲線、測試時間擴(kuò)展和訓(xùn)練成本方面的對比

詳細(xì)實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)在多個數(shù)學(xué)基準(zhǔn)測試上評估了Delethink，包括AIME'24、AIME'25和HMMT'25，以及作為分布外(OOD)測試的GPQA Diamond和LiveCodeBench。

在數(shù)學(xué)任務(wù)上，Delethink 24K在AIME'24、AIME'25和HMMT'25上都取得了比LongCoT-RL 24K更高的分?jǐn)?shù)。LongCoT-RL 8K則持續(xù)表現(xiàn)不佳，強(qiáng)調(diào)了擴(kuò)展推理的必要性。

在OOD任務(wù)上，雖然絕對收益較為溫和，但Delethink仍然匹配或略微超過LongCoT-RL 24K。

算力成本大降！馬爾可夫思考機(jī)讓LLM推理成本直接降為線性-AI.x社區(qū)

圖4，Delethink與LongCoT在不同任務(wù)上的性能對比

上下文大小消融實(shí)驗(yàn)

研究團(tuán)隊(duì)還對Delethink的上下文大小C進(jìn)行了消融實(shí)驗(yàn)，將其從8K減少到4K和2K，同時調(diào)整迭代次數(shù)以保持最大思考長度為24K token。結(jié)果顯示：

4K變體略遜于8K
2K變體從低得多的初始化點(diǎn)開始
盡管在整個過程中準(zhǔn)確性低于8K和4K，但2K變體仍然超越了基礎(chǔ)模型性能，表明Delethink即使在最小的上下文大小下也能工作

算力成本大降！馬爾可夫思考機(jī)讓LLM推理成本直接降為線性-AI.x社區(qū)

圖6: 不同上下文大小的Delethink性能對比

擴(kuò)展到96K思考長度

研究團(tuán)隊(duì)還將思考預(yù)算從24K擴(kuò)展到96K token，這得益于Delethink RL訓(xùn)練的線性計(jì)算成本。具體來說，他們保持思考上下文為C=8K，并將迭代上限從I=5增加到I=23，產(chǎn)生96K的總預(yù)算。

盡管訓(xùn)練時間表很短，但Delethink 96K不僅超越了Delethink 24K檢查點(diǎn)的基礎(chǔ)性能，還匹配或超過了使用128K token預(yù)算評估的測試時間擴(kuò)展的Delethink 24K。此外，模型的平均思考長度達(dá)到36K(AIME'24)和42K(AIME'25)token，表明有效利用了更大的預(yù)算。

算力成本大降！馬爾可夫思考機(jī)讓LLM推理成本直接降為線性-AI.x社區(qū)

圖8，Delethink 96K的性能和平均軌跡長度

為什么Delethink有效？

為了探究Delethink為何有效，研究團(tuán)隊(duì)分析了RL初始化時的模型。他們觀察到，R1-Distill系列(1.5B-14B)在沒有任何額外訓(xùn)練或提示的情況下，已經(jīng)能夠零樣本生成馬爾可夫軌跡，甚至恢復(fù)了大部分標(biāo)準(zhǔn)LongCoT性能。

這種強(qiáng)初始化（許多所需行為的正面、同分布樣本）為RL提供了一個有利的起點(diǎn)。研究團(tuán)隊(duì)進(jìn)一步研究了Delethink環(huán)境中高達(dá)120B參數(shù)的推理模型。例如，GPT-OSS 120B在博士級問題、編碼任務(wù)、數(shù)學(xué)競賽和填字游戲等任務(wù)中表現(xiàn)出穩(wěn)健的馬爾可夫思考能力。

算力成本大降！馬爾可夫思考機(jī)讓LLM推理成本直接降為線性-AI.x社區(qū)

圖9，R1-Distill在初始化時的Delethink軌跡性能

現(xiàn)有SOTA模型的馬爾可夫思考能力

研究團(tuán)隊(duì)還評估了兩個最先進(jìn)的開源推理LLMs——GPT-OSS 120B和Qwen3 30B-A3B Thinking在Delethink下的表現(xiàn)。他們發(fā)現(xiàn)：

16K上下文是一個可靠的默認(rèn)值，可以恢復(fù)大部分原始性能
8K實(shí)現(xiàn)了合理的分?jǐn)?shù)，適合計(jì)算緊張的情況
兩種模型在LongCoT和Delethink Tracing下都通過更多推理獲得了更高的分?jǐn)?shù)
Delethink Tracing在C=16K時在Qwen3上匹配或超過LongCoT，在GPT-OSS上幾乎匹配

算力成本大降！馬爾可夫思考機(jī)讓LLM推理成本直接降為線性-AI.x社區(qū)

圖10，GPT-OSS 120B和Qwen3 30B-A3B在Delethink下的表現(xiàn)

壓力測試Delethink Tracing

為了找到Delethink不是從強(qiáng)初始化開始的任務(wù)，研究團(tuán)隊(duì)評估了CrossWordBench，這是一個包含不同難度級別填字游戲的任務(wù)。在這個任務(wù)中，推理需要維護(hù)一個實(shí)時網(wǎng)格和填充條目——這種狀態(tài)可能超過m的容量。

結(jié)果顯示，Delethink Tracing在7×7謎題上實(shí)現(xiàn)了與LongCoT大致相當(dāng)?shù)男阅堋Ｔ诟咛魬?zhàn)性的14×14謎題上，性能相對于LongCoT有所下降，盡管兩種模型繼續(xù)產(chǎn)生大量有效的馬爾可夫軌跡。這表明即使在設(shè)計(jì)用來壓力測試Delethink的設(shè)置中，它也保留了有意義的概率覆蓋，并 readily 發(fā)現(xiàn)馬爾可夫解決方案。

算力成本大降！馬爾可夫思考機(jī)讓LLM推理成本直接降為線性-AI.x社區(qū)

圖11，Delethink與LongCoT在問題解決重疊和CrossWordBench上的對比

結(jié)論與意義

馬爾可夫思考的成功表明，將思考長度與上下文大小解耦原則上可以讓下一代推理模型思考數(shù)百萬個token。它突顯了RL環(huán)境（通常被視為固定）作為進(jìn)步的強(qiáng)大杠桿。它還表明，非二次序列架構(gòu)（如線性注意力）可能特別有利于推理模型，因?yàn)樗伎伎梢杂行У刈兊民R爾可夫。

研究團(tuán)隊(duì)總結(jié)道："我們引入了馬爾可夫思考范式，它限制了策略的輸入狀態(tài)，并產(chǎn)生與思考長度成線性計(jì)算和恒定內(nèi)存的關(guān)系。我們提出了一個簡單的實(shí)例化Delethink，它訓(xùn)練現(xiàn)成的推理LLMs成為原生馬爾可夫思考者，經(jīng)驗(yàn)上匹配并超越了LongCoT-RL訓(xùn)練。"

這項(xiàng)研究的意義不僅在于提高了計(jì)算效率，更在于它重新定義了推理環(huán)境的設(shè)計(jì)思路。通過重新思考RL環(huán)境本身，而非僅僅優(yōu)化現(xiàn)有框架，研究團(tuán)隊(duì)為未來更高效、可擴(kuò)展的推理LLMs開辟了新路徑。

隨著大模型應(yīng)用的不斷深入，長鏈推理能力將成為衡量模型智能水平的重要指標(biāo)。而Delethink的出現(xiàn)，無疑為我們提供了一個在有限計(jì)算資源下實(shí)現(xiàn)這一目標(biāo)的有力工具。我們期待看到這一方法在更多領(lǐng)域和更大規(guī)模模型上的應(yīng)用與突破。

本文轉(zhuǎn)載自??AIGC深一度??，作者：一度

標(biāo)簽

LLM

馬爾可夫

LongCoT

已于2025-10-14 00:13:14修改

贊

回復(fù)