為什么讓模型"一步步思考"能顯著提升推理能力?
最近,國內大學有一項研究《How Chain-of-Thought Works? Tracing Information Flow from Decoding, Projection, and Activation》回答了一個困擾AI研究者很久的問題:為什么讓模型"一步步思考"會顯著提升推理能力?它們拆解了Chain-of-Thought(思維鏈)提示的內部機制。過去大家都知道它有效,但沒人說得清楚具體原因。

研究團隊選了6個不同規模的模型(LLaMA3.2-3B,LLaMA3.1 (8B, 70B),Gemma2 (2B, 9B, 27B) ),在9個數據集上做了全面測試,涵蓋算術推理、常識推理和符號推理。重點是,他們從解碼、概率投影和神經元激活的過程中的信息流動分析了CoT的內部機制。

核心發現
1. CoT本質是結構化剪枝器
研究發現CoT并非什么神奇的推理能力,而是通過模板匹配來約束輸出空間。當你說"讓我們一步步分析"時,模型實際上在執行一套精巧的模仿策略:從提示中學習結構性關鍵詞,從問題中提取具體內容,然后按照固定的推理模板生成答案。

論文量化了這種"模仿"程度,發現結構遵循度與準確率呈強正相關,準確率可從0.3提升到0.9。

有趣的是,模型對不同類型關鍵詞的模仿策略截然不同:時間和動作詞匯主要從CoT提示中學習,數字關鍵詞則主要從輸入問題中提取。而在需要常識推理的任務中,模型對問題關鍵詞的模仿顯著降低,因為它需要更多依賴內部知識。

2. 概率分布的收斂效應
通過分析概率分布,研究者發現了CoT提升性能的核心機制:它讓模型的選擇變得更加確定,就像一個漏斗,把生成下一個詞的概率集中到正確的詞上。這樣正確答案的不確定性可以降低50-80%,CoT生成的概率分布更加集中,密度峰值提升了數倍,熵更低。這解釋了為什么CoT能提高準確性——不是推理變強了,而是選擇變準了。

3. 與任務相關的神經元激活
最令人意外的發現是CoT對神經元激活的影響完全取決于任務類型。在開放域任務(如數學題)中,CoT會減少約4%的神經元激活,主要影響網絡后三分之一的層次,像"剪枝器"一樣聚焦相關特征。但在封閉域任務(如選擇題)中,情況完全相反:CoT會增加3-5%的神經元激活,更全面地評估各種選項,像"放大器"一樣增強判別能力。

性能提升顯著
這種機制帶來的性能提升是顯著的:數學推理任務的準確率提升了200-300%,選擇題任務提升25-60%,符號推理任務提升超過100%。所有測試模型都顯示出相同的機制模式,證明這些發現具有普遍性。

實際應用啟示
這些發現對提示工程有重要指導意義:
- 結構比內容更重要:與其糾結推理步驟的邏輯正確性,不如確保格式的一致性
- 模板遷移有效:相似結構的CoT提示可以跨任務使用,關鍵是保持推理模板的完整性
- 任務匹配很關鍵:開放性問題用引導收斂的提示,選擇性問題用鼓勵全面考慮的提示z
小結
論文也指出,在LLM這個"黑箱"中建立因果鏈條極其困難。他們的發現更多是"強相關"而非"確定因果",這樣的的結論構建在實證分析而非原理推演。但無論如何,它用實測數據揭示了CoT的可能工作原理:它通過結構化模板引導、token生成概率分布收斂和任務相關的神經元激活,將模型的"猜測"變成"有根據的推斷"。
它不是在模擬人類推理,而是在執行一套精巧的概率優化策略。理解這一點,或許能幫我們設計出更有效的提示,更好的發揮LLM的能力。
論文:https://arxiv.org/pdf/2507.20758
本文轉載自????????AI工程化????????,作者:ully

















