從自我進化視角出發，全面解析LLM的推理能力技術演進路徑

作者：機器之心 2025-03-07 09:34:14

為促進該領域的深入研究，哈工大賽爾實驗室知識挖掘組從自我進化的視角對現有技術體系進行了系統性分析從自我進化的視角對現有技術體系進行了系統性分析。

論文標題：A Survey on LLM Complex Reasoning through the Lens of Self-Evolution
論文鏈接：

https://www.researchgate.net/publication/389209259_A_Survey_on_Complex_Reasoning_of_Large_Language_Models_through_the_Lens_of_Self-Evolution?channel=doi&linkId=67b8b5b0207c0c20fa9111fb&showFulltext=true

倉庫鏈接：https://github.com/cs-holder/Reasoning-Self-Evolution-Survey

1. 引言

在人工智能領域，大型語言模型的復雜推理研究正成為學術界和工業界關注的焦點。隨著 OpenAI 的 O1 以及后續 DeepSeek R1 等突破性成果的發布，這一領域的研究熱度持續升溫，引發了廣泛的學術討論和實踐探索。這些里程碑式的研究成果不僅推動了相關技術的快速發展，也激勵著研究者們不斷嘗試復現并拓展其應用邊界。

為促進該領域的深入研究，哈工大賽爾實驗室知識挖掘組從自我進化的視角對現有技術體系進行了系統性分析從自我進化的視角對現有技術體系進行了系統性分析。我們的研究框架包含三個相互支撐的核心維度：數據進化、模型進化和自我進化。在數據進化維度，我們著重探討了推理訓練數據的優化策略，包括任務設計的改進和推理計算過程的優化，旨在提升思維鏈推理的質量和效率；在模型進化維度，我們系統梳理了通過訓練優化模型模塊來增強復雜推理能力的技術路徑；在自我進化維度，我們深入分析了進化策略與模式，并基于此對 O1 類代表性工作進行解讀。

本研究基于對 200 余篇前沿文獻的深入調研，全面總結了提升 LLM 推理能力的技術演進路徑。從基于樹搜索的短思維鏈到基于強化學習的長思維鏈，我們系統梳理了當前最先進的研究方法，并對未來可能的研究方向進行了前瞻性展望。我們期待這篇綜述能夠為 LLM 復雜推理研究社區提供新的思路，推動該領域向更深層次發展，為提升 LLM 的推理能力開辟新的研究路徑。

2. 章節組織

本文將從三個主要部分介紹 LLM 復雜推理的自我進化方法：數據進化、模型進化和自我進化。最后，我們將分析具有代表性的 O1 類工作，并對未來研究方向進行展望。

數據進化：探討如何通過任務進化和思維鏈進化來生成更高質量的訓練數據。
模型進化：關注如何通過優化模型模塊來提升系統的推理能力。
自我進化：探討如何通過迭代的數據和模型進化來實現系統的自我優化。

3. 數據進化

數據進化關注的是如何通過生成更高質量的訓練數據來提升系統的推理能力。這一部分主要包含任務進化和思維鏈進化。我們將詳細介紹每個部分的優化策略和技術。

3.1 任務進化

任務進化專注于生成更多樣化和更具挑戰性的任務，以提升模型的推理和泛化能力。當前研究中，任務進化的三個關鍵方向包括任務多樣性、任務復雜性和任務可靠性。

任務多樣性：為提高任務多樣性，一些研究提示 LLM 修改數據類型和邏輯操作，生成結構相似但邏輯不同的任務。另一些研究使用 LLM 重新表述參考問題，或采用溫度采樣和以多樣性為重點的提示來豐富問題生成。還有研究明確指導 LLM 創建罕見且領域特定的問題。此外，結合人工編寫的任務與模型生成的任務，通過特定提示生成新任務也是一種有效方法。
任務復雜性：生成更復雜任務的方法包括添加約束、深化、具體化、增加推理步驟和增加輸入復雜性。例如，通過引入額外的約束或要求來增加任務難度，或通過擴展查詢深度和廣度來提升模型的推理能力。具體化方法將問題中的通用概念替換為更具體的概念，使指令更清晰。增加推理步驟則通過要求額外的推理步驟來加強模型的邏輯思維能力。增加輸入復雜性則通過修改問題條件，引入結構化數據或特定輸入格式，提升模型的魯棒性和泛化能力。
任務可靠性：自動生成任務可能會產生未解決的任務或錯誤答案。為解決這一問題，一些研究使用微調的 LLM 對任務進行評分并選擇高質量任務。另一些研究從原始問題生成任務，并通過驗證答案過濾不一致性。還有一些研究通過 Python 解釋器和預定義規則驗證編程任務的正確性以確保質量。此外，生成對抗網絡（GAN）可用于合成任務，并通過評估與真實數據相似性的批評器提高可靠性。從數學解決方案中推導問題，或從高質量開源代碼中創建編程任務，也是提高任務可靠性的有效方法。

3.2 思維鏈進化

思維鏈進化通過定義三個關鍵的元操作來構建更強大的推理鏈，這些元操作通過搜索算法擴展，生成更高質量的推理鏈。

3.2.1 元操作

思維鏈進化通過定義三個關鍵的元操作來構建更強大的推理鏈：逐步推理、評估和后處理。逐步推理將問題分解為逐步依賴的步驟，評估則在推理過程中進行自我評估和反思，后處理則對推理結果進行修正和總結。這些元操作通過搜索算法擴展，生成更高質量的推理鏈。

逐步推理：將復雜問題分解為一系列逐步依賴的步驟，使模型能夠逐步解決每個子問題。這種方法通過遞歸分解，使模型能夠處理更復雜的任務。例如，CoT 通過逐步提示解決每個子問題，Plan-and-Solve 通過生成計劃并基于計劃進行推理，Least-to-Most Prompting 通過顯式分解問題并逐步解決每個子問題，ReACT 通過結合迭代推理和行動來增強推理過程。
評估：在推理過程中進行自我評估和反思，使模型能夠識別和糾正錯誤。評估可以分為結果級、步驟級和 token 級。結果級評估在推理完成后對整個解決方案進行評估，步驟級評估在推理過程中對每個步驟進行評估，token 級評估對每個生成的 token 進行評估。這些評估方法通過不同的粒度，提供更細致的反饋，幫助模型改進推理過程。
后處理：后處理對推理結果進行修正和總結，使模型能夠從錯誤中學習并改進未來的推理。后處理方法包括過濾、總結和修正。過濾直接移除低質量的推理結果，總結從推理過程中提取關鍵信息，修正則通過糾正錯誤來優化推理結果。這些方法通過不同的方式，提高推理結果的質量和可靠性。

3.2.2 顯式樹搜索（Short CoT）

顯式樹搜索方法通過樹狀搜索算法（如 BFS/DFS、Beam Search、A * 和 MCTS）來探索多個推理路徑，生成正確且簡潔的推理鏈。這些方法在搜索過程中使用評估函數指導探索方向，并進行剪枝以提高效率。例如，BFS/DFS 通過經典搜索算法探索多樣化推理路徑，Beam Search 通過維護候選序列平衡搜索準確性和計算效率，A * 通過評估函數優化搜索效率，MCTS 則通過平衡探索和利用來找到高質量的推理路徑。

3.2.3 隱式試錯搜素（Long CoT）

隱式試錯搜素方法通過線性化整個搜索過程，允許模型在推理過程中進行自我評估和自我修正，生成包含錯誤檢測、回溯和修正的長推理鏈。這種方法不依賴外部評估器或修正器，而是通過模型的自我評估機制來調整推理路徑。例如，O1 Journey 通過蒸餾方法訓練模型生成長推理鏈，而 DeepSeek-R1、Kimi-k1.5 和 T1 則通過強化學習訓練模型生成長推理鏈。

3.2.4 顯式樹搜索與隱式試錯搜索的比較和關聯

比較：

顯式樹搜索方法通過樹狀搜索算法（如 BFS/DFS、Beam Search、A * 和 MCTS）來探索多個推理路徑，生成正確且簡潔的推理鏈。這些方法在搜索過程中使用評估函數指導探索方向，并進行剪枝以提高效率。而隱式試錯搜索方法通過線性化整個搜索過程，允許模型在推理過程中進行自我評估和自我修正，生成包含錯誤檢測、回溯和修正的長推理鏈。這種方法不依賴外部評估器或修正器，而是通過模型的自我評估機制來調整推理路徑。

關聯：

搜索空間角度：樹搜索專注于探索單個推理步驟定義的動作空間，確保每一步的邏輯性。試錯搜索引入元操作（如評估、修正、回溯）擴展動作空間，生成更詳細的長推理鏈。因此，如果將 Tree Search 的動作空間擴展為包含評估、修正、回溯等元操作，那么理論上可以通過 Tree Search 搜索到 Long CoT。

推理能力進化角度：Long CoT 是解決新問題的有效策略，通過試錯和自我修正探索解決方案。Short CoT 通過持續訓練從 Long CoT 中提取知識，學習高效推理路徑，減少試錯，縮短推理鏈。Long CoT 作為初始解決方案，其知識可用于學習 Short CoT，后者作為先驗知識，減少處理更復雜任務時的試錯迭代。

4. 模型進化

模型進化關注的是如何通過優化模型的各個模塊來提升系統的推理能力。這一部分主要包含 Reasoner、Evaluator 和 Post-Processor 的優化方法。我們將詳細介紹每個模塊的優化策略和技術。

4.1 Background RL Knowledge

強化學習為 LLM 的模型進化提供了核心優化框架，其技術演進從傳統 RLHF 逐步發展為更高效的范式。RLHF 通過人工標注的偏好數據訓練結果獎勵模型實現LLM對齊。PPO 算法通過約束策略優化步長進行策略偏移控制，具備穩定性地優勢，但存在訓練復雜度高、資源消耗大等問題。為此后續研究提出多種改進：REINFORCE 簡化架構，利用最高概率動作作為基線（ReMax）或多軌跡采樣估計基線（RLOO），降低對價值模型的依賴；GRPO 通過蒙特卡洛組內歸一化替代價值模型，提升訓練穩定性；DPO 省去顯式獎勵建模，直接通過偏好數據對齊策略模型，但面臨細粒度優化不足的局限；PRIME 結合結果獎勵模型（ORM）的訓練實現 token 級隱式獎勵信號分發。

4.2 Reasoner 優化

Reasoner 是模型的核心組件，負責生成推理過程和最終答案。優化 Reasoner 的方法主要包括行為克隆、偏好優化和強化學習。

4.2.1 行為克隆

行為克隆通過監督學習直接模仿高質量推理軌跡來優化模型，是模型進化的基礎方法。其核心流程包括：從正確解中篩選訓練數據，通過微調使模型學習標準推理模式。

然而，傳統方法僅使用正確數據，導致大量錯誤解被浪費。為此，改進方法通過逆向策略利用錯誤數據：例如，將錯誤問題重新生成正確解法以擴充正樣本，或修改錯誤解的指令標簽（如將 “生成正確答案” 改為 “生成錯誤答案”），使其轉化為負樣本供模型學習。此外，部分方法訓練專用修正器模型，定位并修復推理錯誤。

盡管行為克隆實現簡單，但其依賴靜態數據集的特性限制了持續進化能力，且難以充分探索錯誤樣本中的潛在價值，成為后續強化學習方法的重要補充。

4.2.2 偏好優化

偏好優化通過推動高質量推理路徑的概率上升，低質量路徑的概率下降來提升模型的推理能力。偏好優化可以根據偏好數據的粒度分為解決方案級、步驟級和 token 級優化。

解決方案級偏好優化：通過比較不同解決方案的質量來優化模型。具體來說，給定一組解決方案，根據答案的正確性將其分為正確和錯誤兩組，然后構建偏好對進行優化。這種方法簡單直觀，但對中間推理步驟的優化能力較弱。
步驟級偏好優化：通過評估每個推理步驟的質量來優化模型。具體來說，通過主動構造或樹搜索方法生成帶有相同前綴的正確和錯誤推理軌跡，然后構建偏好對進行優化。這種方法能夠更細致地優化模型的推理過程，但對數據的要求較高。
Token 級偏好優化：通過評估每個生成的 token 來優化模型。具體來說，通過隱式獎勵或顯式標注方法為每個 token 分配獎勵值，然后基于這些獎勵值進行優化。這種方法能夠提供最細粒度的反饋，但計算復雜度較高。

4.2.3 強化學習

強化學習通過與環境的交互來優化 LLM 的推理能力。具體來說，強化學習方法包括 model-free 在線強化學習、離線強化學習、基于模型的強化學習和層次強化學習。

model-free 在線強化學習：通過直接與環境交互來訓練策略模型。具體來說，模型在環境中生成推理軌跡，然后根據獎勵信號進行優化。常用的方法包括 REINFORCE、PPO 和 GRPO。這些方法通過在線交互，能夠動態調整模型的行為，但對環境的依賴性較強。
離線強化學習：使用靜態數據集進行訓練，而不是通過與環境交互來收集數據。具體來說，離線強化學習方法如 DPO 通過收集偏好數據，然后基于這些數據進行優化。這種方法能夠高效利用已有數據，但對數據質量的要求較高。
基于模型的強化學習：通過模擬環境來減少訓練和推理中的交互成本。具體來說，模型首先學習一個環境模型，然后在模擬環境中進行訓練。這種方法能夠顯著減少與真實環境的交互次數，但對環境模型的準確性要求較高。
層次強化學習：通過分解任務為高層次和低層次的馬爾可夫決策過程來提升推理能力。具體來說，高層次模型負責規劃推理步驟，低層次模型負責生成具體的推理內容。這種方法能夠更好地模擬人類的推理過程，但實現復雜度較高。

4.3 Evaluator 優化

Evaluator 負責評估 Reasoner 生成的推理過程和答案的質量。優化 Evaluator 的方法主要包括訓練數據的構造和訓練格式的選擇。

4.3.1 訓練數據構造

Evaluator 的優化需要構造高質量的訓練數據，包括結果級、步驟級和 token 級數據。

結果級數據構造：通過正確答案標簽或 LLM 評估來生成。具體來說，使用正確答案標簽將解決方案分類為正確和錯誤，然后基于這些分類進行訓練。這種方法簡單直觀，但對中間推理步驟的評估能力較弱。
步驟級數據構造：通過蒙特卡洛采樣、LLM 評估或一致性評估來生成。具體來說，通過采樣或評估方法為每個推理步驟分配獎勵值，然后基于這些獎勵值進行訓練。這種方法能夠提供更細致的反饋，但計算復雜度較高。
Token 級數據構造：通過生成模型重寫原始解決方案或利用隱式獎勵來生成。具體來說，通過重寫或獎勵分配方法為每個 token 分配獎勵值，然后基于這些獎勵值進行訓練。這種方法能夠提供最細粒度的反饋，但實現難度較大。

4.3.2 訓練格式

Evaluator 的訓練格式可以是點式、成對式或語言式。

點式訓練：使用標量值優化評估模型。具體來說，通過預測每個解決方案或步驟的獎勵值來訓練模型。這種方法簡單直觀，但對偏好數據的利用不夠充分。
成對式訓練：使用偏好數據優化評估模型。具體來說，通過比較不同解決方案或步驟的偏好關系來訓練模型。這種方法能夠更好地利用偏好數據，但對數據的要求較高。
語言式訓練：通過生成自然語言反饋來提升評估的可靠性和可解釋性。具體來說，通過生成對解決方案或步驟的自然語言評價來訓練模型。這種方法能夠提供更豐富的反饋，但實現復雜度較高。

4.4 Post-Processor 優化

Post-Processor 負責對 Reasoner 生成的推理結果進行修正和總結。優化 Post-Processor 的方法主要包括行為克隆和強化學習。

行為克隆：通過利用錯誤數據生成修正數據來提升模型的自我修正能力。具體來說，通過生成錯誤數據并利用正確數據進行微調，訓練模型學習如何修正錯誤。這種方法能夠顯著提高模型的自我修正能力，但對數據的要求較高。
強化學習：通過整合外部執行反饋來提升模型的自我改進能力。具體來說，通過將修正過程建模為馬爾可夫決策過程，并使用強化學習算法進行優化，訓練模型學習如何在推理過程中進行自我修正。這種方法能夠提供更動態的反饋，但實現復雜度較高。

5. 自我進化

自我進化要求系統利用自身生成的數據來持續提升性能。這一部分將探討自我進化的理論基礎、策略、模式以及面臨的挑戰和未來方向。

5.1 自我進化背后的理論

通過期望最大化（EM）算法，自我進化被形式化為一個交替優化過程。E 步（數據進化）生成高質量推理軌跡并評估其質量，M 步（模型進化）基于生成數據優化模型參數，形成一個閉環迭代機制。這一過程在理論上能夠保證系統性能的逐步提升并最終收斂。

5.2 自我進化策略

自我進化策略包括獨立進化、合作進化和對抗進化。獨立進化通過單獨優化一個模塊來提升性能，合作進化通過模塊間的合作來提升整體性能，而對抗進化則通過模塊間的對抗來避免局部最優問題。

獨立進化：每個模塊獨立進行優化，不依賴于其他模塊的反饋。例如，Reasoner 可以通過行為克隆或偏好優化單獨進行訓練，Evaluator 可以通過結果級或步驟級數據單獨進行訓練，Post-Processor 可以通過行為克隆單獨進行訓練。這種方法簡單直觀，但可能無法充分利用模塊間的協同作用。
合作進化：模塊間通過合作來提升整體性能。例如，Reasoner 生成的推理結果可以用于訓練 Evaluator，Evaluator 的反饋可以用于優化 Reasoner，Post-Processor 的修正結果可以用于進一步訓練 Reasoner。這種方法能夠充分利用模塊間的協同作用，提升整體性能，但實現復雜度較高。
對抗進化：模塊間通過對抗來避免局部最優問題。例如，Task Creator 生成更具挑戰性的任務來測試 Reasoner，Reasoner 通過解決這些任務來提升自身能力。這種方法能夠有效避免模型陷入局部最優，但需要精心設計對抗機制。

5.3 自我進化模式

自我進化模式包括僅優化 Reasoner、Reasoner + Evaluator、Reasoner + Post-Processor、Reasoner + Task Creator 和 Reasoner + Evaluator + Post-Processor。每種模式都有其獨特的優化方法和優勢，通過結合多種模式可以實現更顯著的性能提升。

僅優化 Reasoner：僅對 Reasoner 進行優化，不涉及其他模塊。優化方法包括行為克隆、偏好優化和強化學習。這種方法簡單直觀，但可能無法充分利用其他模塊的反饋。
Reasoner + Evaluator：Reasoner 生成的推理結果用于訓練 Evaluator，Evaluator 的反饋用于優化 Reasoner。這種方法能夠充分利用模塊間的協同作用，提升推理能力和評估能力。
Reasoner + Post-Processor：Reasoner 生成的推理結果用于訓練 Post-Processor，Post-Processor 的修正結果用于進一步訓練 Reasoner。這種方法能夠提升推理結果的質量和可靠性。
Reasoner + Task Creator：Task Creator 生成更具挑戰性的任務來測試 Reasoner，Reasoner 通過解決這些任務來提升自身能力。這種方法能夠提升模型的泛化能力和任務多樣性。
Reasoner + Evaluator + Post-Processor：Reasoner 生成的推理結果用于訓練 Evaluator 和 Post-Processor，Evaluator 的反饋和 Post-Processor 的修正結果用于進一步訓練 Reasoner。這種方法能夠充分利用模塊間的協同作用，實現更全面的性能提升。

6. 對代表性 O1 類研究的重新解讀

通過對代表性 O1 類研究的分析，我們發現這些研究都可以用自我進化框架來解釋。例如，Marco-O1 通過 MCTS 生成數據并進行監督式微調，O1 Journey 通過長推理鏈的生成和 DPO 優化提升推理能力，Slow Thinking with LLMs 通過迭代訓練和 DPO 優化實現 Reasoner 和 Evaluator 的共同進化，rStar-Math 通過多輪迭代訓練實現 Reasoner 和 Evaluator 的共同進化，OpenR/O1-Coder 通過 RL 優化 Reasoner 和 Evaluator，DeepSeek R1/Kimi-k1.5/T1 則通過在線 RL 實現 Reasoner、Evaluator 和 Post-Processor 的共同進化。

7. 挑戰和未來方向

自我進化框架的挑戰與方向：

更有前景的自我進化模式：通過探索不同的模塊組合和策略，如合作和對抗學習，可以實現更有效的自我進化框架。理想情況下，所有模塊的同時提升將帶來持續且顯著的改進。

系統泛化：自我進化通過迭代訓練提升系統性能。持續進化的關鍵在于防止過擬合并確保泛化。首先，任務泛化至關重要；合成更多樣化和復雜的任務可以確保更廣泛的覆蓋范圍，這是解決泛化問題的基礎。其次，推理器、評估器和后處理器的泛化能力至關重要。B-StAR 顯示，增強推理器的探索能力可以減少過擬合。后處理器在多樣化解決方案中也起著關鍵作用。此外，獎勵黑客行為表明當前的評估器可能會過擬合到推理器并利用獎勵捷徑。總之，推理系統的泛化對于自我進化框架中的持續增強至關重要。

自我進化視角下提升 R1 等工作的不足：

任務多樣性：當前任務生成方法在復雜性和多樣性上有提升空間，需進一步增強任務多樣性，生成更具挑戰性和領域相關性的任務。
自我評估和修正能力：模型的自我評估和修正能力在準確性和效率上存在不足，需進一步提升以更準確地識別和修正錯誤，從而通過更準確更高效的試錯搜索實現數據進化。
獎勵建模方法：解決LLM在隱式試錯搜索過程中過思考和欠思考等問題可能需要更細粒度的獎勵信號，現有獎勵建模方法在泛化能力和準確性不足等問題，需開發更有效的獎勵建模方法以更準確地評估模型性能，指導基于RL的模型進化。

將自我進化應用于具身智能場景：

在具身智能場景中，為實現自我進化，需提升模型對多模態數據的理解能力，重新定義多模態推理的思維鏈格式，降低與環境交互的成本，并增加訓練數據資源。

8. 總結

本文系統地綜述了 LLM 復雜推理的自我進化方法，從數據進化、模型進化和自我進化三個角度進行了深入分析。通過對現有技術和方法的總結，我們希望為 LLM 復雜推理社區提供新的研究方向和靈感，推動 LLM 推理能力的進一步提升。

責任編輯：張燕妮來源：機器之心

數據 AI 模型