推理錨點:解碼LLM推理的關鍵節點(可解釋性研究)

大家好,我是肆〇柒。隨著 LLM 在諸多領域取得突破性進展,其推理過程的可解釋性成為研究重點。傳統方法難以應對自回歸推理模型的細粒度分析挑戰。來自杜克大學(Duke University)和 Alphabet 的研究團隊在論文《Thought Anchors: Which LLM Reasoning Steps Matter?》中提出了一種創新方法,期望通過句子層面的分析,深入理解 LLM 的推理過程,識別出對推理結果具有重大影響的關鍵句子,即 “推理錨點”(Thought Anchors),并探索其如何引導后續推理。這一研究為我們打開了一扇通往 LLM 內部思考機制的大門,讓我們能夠更精準地理解、調試和優化這些強大的人工智能模型。
研究中的方法論

三種歸因方法概覽
黑箱方法:衡量句子的反事實重要性
通過比較模型在生成特定句子或不同含義句子時的最終答案差異,量化每個句子對最終答案的反事實影響。具體一點,對于每個句子,生成 100 次 rollout(從該句開始生成的推理軌跡),分別計算包含原句和替換為不同含義句子時的最終答案分布,并求其 KL 散度。計算公式如下:

其中,P 和 Q 分別是包含原句和替換句子時最終答案分布。關鍵發現是計劃生成和不確定性管理(如回溯)句子比事實檢索或活躍計算句子展現出更高的反事實重要性,表明高層次的組織性句子在錨定、組織和引導推理軌跡方面發揮關鍵作用。如下圖所示,在正確的和錯誤的基礎解決方案中,每個句子的 100 次 rollout 準確率,紅點標記了顯著的峰值或谷值。局部最小值和最大值句子標注了類別首字母(例如,PG = 計劃生成)。

準確率
白箱方法:聚合注意力模式識別 “接收頭”
計算每個注意力頭的 token-token 注意力權重矩陣的平均值,形成句子 - 句子矩陣,進而量化每個頭對特定句子的注意力集中程度(通過峰度衡量)。識別出 “接收頭”,即那些將注意力集中于特定過去 “廣播” 句子的注意力頭。具體步驟如下:
1. 對于每個推理軌跡,計算每個注意力頭的 token-token 注意力權重矩陣的平均值,形成句子 - 句子矩陣。
2. 基于每個注意力矩陣,計算每個頭的分布峰度,公式為:

3. 通過分析峰度值,識別出接收頭。
關鍵發現是與基礎模型相比,推理模型中接收頭更頻繁地出現,且集中在較晚的網絡層。計劃生成、不確定性管理和自我檢查句子通常接收最多的接收頭注意力,而活躍計算句子接收的注意力較少。如下圖展示了層 36 中 40 個不同頭部對每個句子的垂直注意力分數。頭部 6 被突出顯示為接收頭,并顯示了其對應的注意力權重矩陣。其顯著的峰值導致分布具有高峰度。

Figure 4A: 層 36 中 40 個不同頭部對每個句子的垂直注意力分數
此外,所有注意力頭的峰度值直方圖(跨所有推理軌跡平均)如下圖所示。

所有注意力頭的峰度值直方圖

Figure 5: 不同類型句子的平均 top-16 接收頭分數箱線圖
因果歸因方法:注意力抑制測量句子間的因果依賴
對給定句子抑制其來自后續所有 token 的注意力,計算由此引起的后續 token logits(對數幾率)的變化(KL 散度),以此衡量句子對后續句子的直接因果影響。具體操作如下:
1. 對于目標句子,抑制其來自后續所有 token 的注意力。
2. 計算抑制前后后續 token logits 的變化,公式為:

關鍵發現是注意力抑制方法與基于 resampling 的重要性矩陣呈正相關,尤其是在句子間隔較小時相關性更強,驗證了該方法的有效性。如下圖所示,案例研究問題(正確),紅色矩陣顯示了抑制一個句子(x 軸)對未來的句子(y 軸)的影響。顏色越深表示值越高。左下角的折線圖顯示了通過 top-32 接收頭(具有最高峰度分數的 32 個注意力頭)對每個句子的平均注意力。流程圖總結了模型的 CoT,以接收高注意力的關鍵句子定義的塊。句子 13 被強調,因為它在 resampling 方法中具有高反事實重要性。

案例研究問題(正確)
實驗設計與結果分析
數據集與模型
選用 MATH 數據集中 10 個具有挑戰性的數學問題,這些問題的模型正確解答率在 25% - 75% 之間。針對每個問題生成一個正確和一個錯誤的推理軌跡,共 20 個響應。平均響應包含 144.2 個句子(95% 置信區間:[116.7, 171.8])和 4208 個 token(95% 置信區間:[3479, 4937])。基于 DeepSeek R1-Distill Qwen-14B 模型(48 層)進行分析,實驗中采用溫度為 0.6、top-p 值為 0.95 的設置。
實驗結果與關鍵結論
將句子分為 8 類,包括問題設置、計劃生成、事實檢索、活躍計算、不確定性管理、結果整合、自我檢查和最終答案輸出。通過 LLM 基于 auto-labeling 方法對句子進行分類,并利用分類器驗證分類準確性。通過三種方法發現推理錨點通常是計劃或回溯句子,它們對后續推理過程具有不成比例的影響力。例如,在案例研究中,模型在句子 13(計劃生成句子,提出通過將十六進制數轉換為十進制再計算所需二進制位數的方法)處展現出顯著的反事實重要性,該句子的出現使模型的推理軌跡從錯誤的 20 位答案轉向正確的 19 位答案。

句子類別的平均 forced-answer 重要性和反事實重要性與位置關系
案例研究:十六進制轉二進制問題
將十六進制數 66666 轉換為二進制時,有多少位(bit)?正確答案是 19。模型最初考慮每個十六進制數字占 4 位,5 個數字共 20 位,但忽略了十六進制數 6 對應的二進制數實際為 110(無前導零),因此正確答案應為 19 位。如下圖展示:

案例研究問題(正確)
在句子 13 處,模型開始轉變推理方向,計劃通過將十六進制數轉換為十進制再計算二進制位數。從句子 6 - 12,預期準確性穩步下降,而句子 13 的出現使反事實準確性大幅提升,凸顯了該句子在模型推理過程中的關鍵作用。接收頭識別出啟動計算或陳述關鍵結論的句子,將推理軌跡劃分為有意義的計算塊。如模型先準備將十六進制數轉換為十進制的公式,再計算該公式得出十進制結果,隨后進一步轉換為二進制,最終通過自我檢查和修正,得出正確答案并解釋初始錯誤的原因。注意力抑制方法揭示了句子間的依賴關系,如模型在提出錯誤的 20 位答案后進行復查,發現與通過十進制轉換得出的 19 位答案存在差異,進而促使模型重新檢查相關計算,最終解決差異并解釋錯誤原因。
其他同類工作及局限
鏈式思維(Chain-of-Thought)推理顯著提升了 LLM 的能力,如 DeepSeek-R1、OpenAI 的 o1 和 Claude 3.7 等模型專門針對推理能力進行優化。然而,這些增強的推理能力也帶來了新的安全挑戰,例如推理過程可能存在的不忠實性,促使對推理模型進行更深入的可解釋性研究。已有研究表明,部分 CoT 句子可被刪除或重寫而不影響任務準確性。此前的歸因方法(如 Shapley 值、ROSCOE 指標、基于梯度的分數和叉令牌重采樣等)表明少數步驟對最終答案起主要驅動作用,而本文的方法為理解推理軌跡如何圍繞關鍵句子構建提供了更系統性的框架。機械性研究定位了在步驟間傳播信息的專用組件,如迭代頭或接收頭、少量推理性能關鍵頭、用于規劃和回溯的可引導激活方向以及符號任務中的演繹電路等。其他工作識別出分離預訓練先驗與上下文推理的階段轉變。這些發現推動了本文聚焦于句子層面結構而非令牌層面顯著性的研究,盡管它們未提供理解句子間因果相互依賴關系的通用方法。
本研究局限性
本研究初步實現了對推理軌跡的系統性分解,聚焦于識別對模型最終響應、特定未來句子和下游推理軌跡具有重大影響的句子,即推理錨點,并開始剖析與這些重要句子相關的注意力機制。這對于解釋推理模型和確保其安全性至關重要。然而,分析方法需要進一步完善,以充分應對下游句子可能由推理軌跡中不同路徑或獨立充分原因決定的情況。此外,本文未正式研究錯誤糾正的作用,接收頭分析可能受句子在推理軌跡中位置的干擾,注意力抑制工作因要求模型處理超出分布的信息而存在局限。
總結
大型語言模型(LLM)在諸多領域取得突破性進展,其推理過程的可解釋性成為研究重點。傳統方法難以應對自回歸推理模型的細粒度分析挑戰。本文通過句子層面的分析,深入理解 LLM 的推理過程,識別出對推理結果具有重大影響的關鍵句子,即 “推理錨點”(Thought Anchors),并探索其如何引導后續推理。本文通過提出三種互補的歸因方法,成功識別出大型語言模型推理過程中的關鍵句子 —— 推理錨點,并從黑箱、白箱和因果歸因角度提供了有力證據。研究的核心貢獻如下:
- 提出創新分析框架 :聚焦于句子層面,將推理過程分解為句子單元,量化每個句子對最終答案及后續推理步驟的影響,開辟了理解 LLM 推理機制的新路徑。
- 三種方法相互印證 :黑箱方法通過比較不同推理軌跡的最終答案差異,衡量句子的反事實重要性;白箱方法聚合注意力模式,識別關鍵的 “接收頭” 及其關注的句子;因果歸因方法則通過抑制注意力,測量句子間的直接因果依賴。三種方法從不同維度揭示了推理錨點的存在與作用,且結果具有一致性,強化了研究結論的可靠性。
- 關鍵發現 —— 推理錨點特性 :推理錨點通常是計劃生成或回溯等高層次組織性句子,相較于事實檢索、活躍計算等句子,展現出更高的反事實重要性,對后續推理具有不成比例的影響力,錨定并引導推理軌跡的走向。
- 實驗驗證與工具開發 :基于 MATH 數據集和 DeepSeek R1-Distill Qwen-14B 模型的實驗,證實了所提方法的有效性。同時,開發開源工具 thought-anchors.com,為研究人員提供可視化推理軌跡的界面,助力更深入地分析和調試推理模型。
- 理論與實踐意義 :本研究不僅加深了對 LLM 推理機制的理解,還為精準調試推理失敗、識別不可靠性來源以及增強推理模型可靠性提供了新途徑,盡管存在局限性,但為未來研究奠定了基礎,展示了通過句子層面分析深入理解推理模型的巨大潛力。
總體而言,從句子層面剖析模型的思考路徑,不僅讓我們得以一窺其內部運作的奧秘,更為模型的優化與調試提供了全新的視角。識別出推理錨點這一關鍵概念,使我們能夠精準定位那些對推理結果具有決定性影響的句子,從而更有效地干預和改進模型的推理能力。這篇論文的研究為大型語言模型推理過程的可解釋性探索提供了重要視角和有力工具。

最后,我推薦大家可以體驗一下研究者開發的這個開源項目,用于可視化推理軌跡的輸出結果。這個工具可將推理軌跡以注釋的有向無環圖形式呈現,利用重要性指標直觀展示關鍵句子及其因果影響,幫助大家更好地分析和調試推理模型,這在具體落地推理模型的項目中,進行調試推理鏈非常直觀,很有趣。地址為:https://www.thought-anchors.com/


































