DeepSeek發文:純強化學習如何激發大模型推理能力
Nature最新論文深度剖析:從15.6%到86.7%,這是如何實現的?

DeepSeek-R1 論文首登《自然》封面,梁文鋒團隊正面回應蒸餾質疑、發布詳盡安全報告
9月17日,在Nature上發表的DeepSeek-R1論文《DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning》[1]引起了業界廣泛關注。這不僅僅是因為它在AIME 2024數學競賽上取得了86.7%的驚人成績,更重要的是它展示了一條完全不同的技術路徑:不依賴人工標注的推理軌跡,純粹通過強化學習讓大模型自發學會推理。

DeepSeek-R1 基于強化學習的推理能力激發架構
傳統方法的瓶頸:人類標注的天花板
在討論DeepSeek-R1的技術突破之前,我們需要先理解目前大模型推理能力提升面臨的核心問題。
當前主流的推理能力增強方法主要依賴兩種路徑:
? Chain-of-Thought (CoT)提示:通過精心設計的few-shot示例或"Let's think step by step"這樣的提示詞
? 監督微調:使用人工標注的高質量推理軌跡進行訓練
這些方法確實有效,但存在根本性限制:
1. 擴展性差:人工標注推理過程既昂貴又耗時
2. 認知偏見:人類標注者的思維模式會傳遞給模型
3. 性能上限:模型被限制在復制人類思維模式上,無法探索更優的推理路徑
DeepSeek-R1的研究團隊提出了一個大膽的假設:如果我們只提供最終答案的正確性反饋,讓模型自由探索推理過程,會發生什么?
純強化學習的探索:DeepSeek-R1-Zero
訓練框架設計
DeepSeek-R1-Zero基于DeepSeek-V3 Base模型,采用??Group Relative Policy Optimization (GRPO)??算法進行訓練。整個訓練過程的核心思想極其簡潔:
只告訴模型答案對不對,不告訴它應該怎么想。
訓練使用的提示模板設計得極其簡單:
A conversation between User and Assistant. The User asks a question and the Assistant solves it. The Assistant first thinks about the reasoning process in the mind and then provides the User with the answer. The reasoning process and answer are enclosed within <think>...</think> and <answer>...</answer> tags...獎勵機制包含兩個部分:
? 準確性獎勵:答案是否正確
? 格式獎勵:是否按照指定格式輸出
就是這么簡單。沒有復雜的獎勵工程,沒有人工標注的推理步驟,甚至跳過了傳統的監督微調階段。
令人驚訝的自發行為
訓練過程中觀察到的現象讓研究團隊都感到意外:
自主延長思考時間:模型的推理鏈長度從幾十個token自然增長到數百甚至數千個token。這不是外部強加的,而是模型自發學習的行為。
"頓悟時刻"的出現:訓練過程中出現了一個明顯的轉折點,模型開始大量使用"wait"這個詞進行自我反思。論文中展示的例子很有趣:
"Wait, let me recalculate this...""Actually, wait. I think I made an error..."
這種自我糾錯行為是完全自發涌現的,沒有任何外部指導。
復雜推理策略的發展:
? 自我驗證:模型學會檢查自己的答案
? 多角度探索:嘗試不同的解題方法
? 反思機制:發現錯誤后主動重新思考
技術深度解析
GRPO算法的優勢
相比傳統的PPO算法,GRPO在大模型訓練中展現出明顯優勢:
目標函數設計:
L = E[A_i × log(π_θ/π_ref)]其中優勢函數A_i通過組內獎勵對比計算:
A_i = r_i - (1/G)∑r_j這種設計的好處是:
1. 資源效率更高:不需要單獨的價值網絡
2. 訓練更穩定:組內對比減少了獎勵方差
3. 實現更簡單:相比PPO減少了復雜的約束機制
性能提升數據

DeepSeek-R1-Zero 在整個訓練過程中的準確率和輸出長度。
AIME 2024測試結果最能說明問題:
? 基礎模型:15.6% (pass@1)
? DeepSeek-R1-Zero訓練后:77.9% (pass@1)
? 結合self-consistency:86.7%
這個提升幅度已經超越了人類競賽者的平均水平。而且這種能力不僅限于數學推理,在代碼競賽和STEM領域問題上同樣表現出色。
從R1-Zero到R1:工程化的多階段優化
雖然R1-Zero展現了強大的推理能力,但也暴露出一些問題:
? 可讀性差
? 語言混合(中英文混雜)
? 在非推理任務上表現一般
因此研究團隊設計了多階段的優化流水線來打造最終的DeepSeek-R1:

DeepSeek-R1 的多級流水線
第一階段:冷啟動數據訓練 (Dev1)
引入少量人工設計的對話化思維過程數據,改善指令跟隨能力。
第二階段:推理專項強化學習 (Dev2)
專門針對推理任務進行RL訓練,引入語言一致性獎勵:
R_lang = 目標語言詞匯占比第三階段:混合數據訓練 (Dev3)
結合推理和非推理數據進行監督微調,提升通用能力。
第四階段:綜合強化學習 (Final)
使用混合獎勵信號進行最終優化:
R_total = R_reasoning + R_general
R_general = R_helpful + R_safety這個多階段設計的巧妙之處在于:既保留了純RL帶來的推理突破,又通過工程化手段解決了實用性問題。
對GPU用戶的實際意義
計算資源需求
從論文披露的訓練細節來看:
? 批大小:每步512樣本
? 序列長度:32K tokens (后期擴展到65K)
? 采樣數量:每個問題采樣16個輸出
? 訓練步數:總計約12,000步
這意味著如果要復現類似規模的訓練,需要:
? 高端GPU集群(至少數百張H100級別)
? 大容量顯存支持長序列訓練
? 高效的分布式訓練框架
推理成本考量
DeepSeek-R1的推理特點是動態分配計算資源:
? 簡單問題:較短的推理鏈
? 復雜問題:可能生成數千token的思考過程
這對GPU推理部署提出了新的挑戰:
1. 顯存管理:需要支持變長的KV Cache
2. 批處理策略:不同復雜度的請求處理時間差異巨大
3. 成本控制:長推理鏈會顯著增加推理成本
技術局限與思考
當前限制
論文作者很坦誠地指出了當前的一些限制:
? 結構化輸出能力不足:對于需要特定格式輸出的任務表現一般。
? Token效率待優化:存在"過度思考"現象,簡單問題也可能生成很長的推理鏈。
? 工具使用缺失:無法調用外部工具(搜索引擎、計算器等)輔助推理。
? 獎勵設計挑戰:對于難以客觀評估的任務(如創意寫作),純RL方法仍然困難。
深層思考
? 獎勵黑客攻擊是一個需要重視的問題。當模型過度優化獎勵信號時,可能會找到繞過真正能力提升的"捷徑"。DeepSeek-R1通過規則獎勵在一定程度上緩解了這個問題,但對于更復雜的任務,這仍然是一個開放性挑戰。
? 推理路徑的可解釋性也值得關注。雖然我們能看到模型的思考過程,但這種自發涌現的推理模式是否真的反映了"理解",還是僅僅是統計模式的復雜組合?
開源生態與未來影響
社區貢獻
DeepSeek團隊將R1-Zero、R1以及訓練數據樣本都開源了,這對研究社區是巨大的貢獻。特別值得關注的是:
1. 蒸餾模型:提供了多個小規模版本,降低了使用門檻
2. 訓練數據:包含推理過程的高質量數據集
3. 技術細節:詳細的超參數和訓練配置
技術趨勢預判
DeepSeek-R1代表的純RL路徑可能會成為未來大模型能力提升的重要方向:
? 短期內:預計會有更多團隊嘗試類似的純RL訓練方法,特別是在數學、編程等有明確驗證機制的領域。
? 中期看:結合工具使用的增強推理系統可能成為主流,模型不僅會思考,還能調用外部資源驗證和增強自己的推理過程。
? 長期而言:當獎勵建模技術進一步成熟后,純RL方法可能擴展到更廣泛的認知任務上。
結語
DeepSeek-R1的技術突破不僅僅在于性能數字的提升,更在于它展示了一種新的可能性:機器可以通過試錯學習到超越人類設計的推理模式。
這項工作提醒我們,在AI能力的快速發展中,保持開放的心態去探索非傳統路徑的重要性。有時候,最好的老師不是人類的示范,而是正確的激勵機制和足夠的探索空間。
對于技術從業者而言,DeepSeek-R1的成功也提示我們需要重新思考:在GPU算力日益強大的今天,我們是否還在用昨天的思維模式設計明天的系統?
本文基于Nature發表的DeepSeek-R1論文內容整理,完整論文可在DeepSeek官方GitHub[2]獲取。
引用鏈接
??[1]??? DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning》: ??https://www.nature.com/articles/s41586-025-09422-z??
??[2]??? DeepSeek官方GitHub: ???https://github.com/deepseek-ai/DeepSeek-R1??
本文轉載自????螢火AI百寶箱????,作者: 螢火AI百寶箱

















