剛剛,DeepSeek-R1論文登上Nature封面,通訊作者梁文鋒
太令人意外!
卻又實至名歸!
最新一期的 Nature 封面,竟然是 DeepSeek-R1 的研究。

也就是今年 1 月份 DeepSeek 在 arxiv 公布的論文《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。這篇Nature論文通訊作者正是梁文鋒。

論文鏈接:https://www.nature.com/articles/s41586-025-09422-z
在封面的推薦介紹中,Nature 寫到:
如果訓練出的大模型能夠規劃解決問題所需的步驟,那么它們往往能夠更好地解決問題。這種『推理』與人類處理更復雜問題的方式類似,但這對人工智能有極大挑戰,需要人工干預來添加標簽和注釋。在本周的期刊中,DeepSeek 的研究人員揭示了他們如何能夠在極少的人工輸入下訓練一個模型,并使其進行推理。
DeepSeek-R1 模型采用強化學習進行訓練。在這種學習中,模型正確解答數學問題時會獲得高分獎勵,答錯則會受到懲罰。結果,它學會了推理——逐步解決問題并揭示這些步驟——更有可能得出正確答案。這使得 DeepSeek-R1 能夠自我驗證和自我反思,在給出新問題的答案之前檢查其性能,從而提高其在編程和研究生水平科學問題上的表現。
此外,在這周期刊中,Nature 還盛贊 DeepSeek-R1 的這種開放模式。

值得注意的是,R1 被認為是首個通過權威學術期刊同行評審的大語言模型。
Hugging Face 的機器學習工程師、同時也是該論文審稿人之一的 Lewis Tunstall 對此表示:「這是一個備受歡迎的先例。如果缺乏這種公開分享大部分研發過程的行業規范,我們將很難評估這些系統的潛在風險?!?/p>
為回應評審意見,DeepSeek 團隊不僅在論文中避免了對模型的擬人化描述,還補充了關于訓練數據類型和安全性的技術細節。俄亥俄州立大學 AI 研究員 Huan Sun 評論道:「經歷嚴格的同行評審,無疑能有效驗證模型的可靠性與實用價值。其他公司也應效仿此舉?!?/p>
顯而易見,當前 AI 行業充斥著發布會上的驚艷演示和不斷刷新的排行榜分數。
但正如文中所指,基準測試是可被「操控」的。將模型的設計、方法論和局限性交由獨立的外部專家審視,能夠有效擠出其中的水分。
同行評審充當了一個公正的「守門人」,它要求 AI 公司從「王婆賣瓜」式的自我宣傳,轉向用扎實的證據和可復現的流程來支持其聲明。
因此,DeepSeek-R1 論文本身固然有其科學價值,但作為首個接受并通過主流期刊同行評審的 LLM,其「程序價值」可能更為深遠。
可以預見的是,將 LLM 納入獨立的同行評審體系,是從「技術競賽」邁向「科學紀律」的關鍵一步,對于遏制行業亂象、建立公眾信任至關重要。
接下來,就讓我們回顧下這篇重磅研究。但也建議大家細看下 Nature 上發表的論文,有更多補充細節:

DeepSeek-R1的多階段pipeline
以往的研究主要依賴大量的監督數據來提升模型性能。DeepSeek 的開發團隊則開辟了一種全新的思路:即使不用監督微調(SFT)作為冷啟動,通過大規模強化學習也能顯著提升模型的推理能力。如果再加上少量的冷啟動數據,效果會更好。
為了做到這一點,他們開發了 DeepSeek-R1-Zero。具體來說,DeepSeek-R1-Zero 主要有以下三點獨特的設計:
- 首先是采用了群組相對策略優化(GRPO)來降低訓練成本。GRPO 不需要使用與策略模型同樣大小的評估模型,而是直接從群組分數中估算基線。
- 其次是獎勵設計。如何設計獎勵,決定著 RL 優化的方向。DeepSeek 給出的解法是采用準確度和格式兩種互補的獎勵機制。
- 第三點是訓練模版,在 GRPO 和獎勵設計的基礎上,開發團隊設計了如表 1 所示的簡單模板來引導基礎模型。這個模板要求 DeepSeek-R1-Zero 先給出推理過程,再提供最終答案。這種設計僅規范了基本結構,不對內容施加任何限制或偏見,比如不強制要求使用反思性推理或特定解題方法。這種最小干預的設計能夠清晰地觀察模型在 RL 的進步過程。

在訓練過程中,DeepSeek-R1-Zero 展現出了顯著的自我進化能力。它學會了生成數百到數千個推理 token,能夠更深入地探索和完善思維過程。
隨著訓練的深入,模型也發展出了一些高級行為,比如反思能力和探索不同解題方法的能力。這些都不是預先設定的,而是模型在強化學習環境中自然產生的。
特別值得一提的是,開發團隊觀察到了一個有趣的「Aha Moment」。在訓練的中期階段,DeepSeek-R1-Zero 學會了通過重新評估初始方法來更合理地分配思考時間。這可能就是強化學習的魅力:只要提供正確的獎勵機制,模型就能自主發展出高級的解題策略。
不過 DeepSeek-R1-Zero 仍然存在一些局限性,如回答的可讀性差、語言混雜等問題。
利用冷啟動進行強化學習
與 DeepSeek-R1-Zero 不同,為了防止基礎模型在 RL 訓練早期出現不穩定的冷啟動階段,開發團隊針對 R1 構建并收集了少量的長 CoT 數據,以作為初始 RL actor 對模型進行微調。為了收集此類數據,開發團隊探索了幾種方法:以長 CoT 的少樣本提示為例、直接提示模型通過反思和驗證生成詳細答案、以可讀格式收集 DeepSeek-R1-Zero 輸出、以及通過人工注釋者的后處理來細化結果。
DeepSeek 收集了數千個冷啟動數據,以微調 DeepSeek-V3-Base 作為 RL 的起點。與 DeepSeek-R1-Zero 相比,冷啟動數據的優勢包括:
- 可讀性:DeepSeek-R1-Zero 的一個主要限制是其內容通常不適合閱讀。響應可能混合多種語言或缺乏 markdown 格式來為用戶突出顯示答案。相比之下,在為 R1 創建冷啟動數據時,開發團隊設計了一個可讀模式,在每個響應末尾包含一個摘要,并過濾掉不友好的響應。
- 潛力:通過精心設計具有人類先驗知識的冷啟動數據模式,開發團隊觀察到相較于 DeepSeek-R1-Zero 更好的性能。開發團隊相信迭代訓練是推理模型的更好方法。
推理導向的強化學習
在利用冷啟動數據上對 DeepSeek-V3-Base 進行微調后,開發團隊采用與 DeepSeek-R1-Zero 相同的大規模強化學習訓練流程。此階段側重于增強模型的推理能力,特別是在編碼、數學、科學和邏輯推理等推理密集型任務中。
為了緩解語言混合的問題,開發團隊在 RL 訓練中引入了語言一致性獎勵,其計算方式為 CoT 中目標語言單詞的比例。雖然消融實驗表明這種對齊會導致模型性能略有下降,但這種獎勵符合人類偏好,更具可讀性。
最后,開發團隊將推理任務的準確率和語言一致性的獎勵直接相加,形成最終獎勵。然后對微調后的模型進行強化學習(RL)訓練,直到它在推理任務上實現收斂。
拒絕采樣和監督微調
當面向推理導向的強化學習收斂時,開發團隊利用生成的檢查點為后續輪次收集 SFT(監督微調)數據。此階段結合了來自其他領域的數據,以增強模型在寫作、角色扮演和其他通用任務中的能力。
開發團隊通過從上述強化學習訓練的檢查點執行拒絕采樣來整理推理提示并生成推理軌跡。此階段通過合并其他數據擴展數據集,其中一些數據使用生成獎勵模型,將基本事實和模型預測輸入 DeepSeek-V3 進行判斷。
此外,開發團隊過濾掉了混合語言、長段落和代碼塊的思路鏈。對于每個提示,他們會抽取多個答案,并僅保留正確的答案。最終,開發團隊收集了約 60 萬個推理相關的訓練樣本。
用于所有場景的強化學習
為了進一步使模型與人類偏好保持一致,這里還要實施第二階段強化學習,旨在提高模型的有用性和無害性,同時完善其推理能力。
具體來說,研究人員使用獎勵信號和各種提示分布的組合來訓練模型。對于推理數據,遵循 DeepSeek-R1-Zero 中概述的方法,該方法利用基于規則的獎勵來指導數學、代碼和邏輯推理領域的學習過程;對于一般數據,則采用獎勵模型來捕捉復雜而微妙的場景中的人類偏好。
最終,獎勵信號和多樣化數據分布的整合使我們能夠訓練出一個在推理方面表現出色的模型,同時優先考慮有用性和無害性。
蒸餾:讓小模型具備推理能力
為了使更高效的小模型具備 DeepSeek-R1 那樣的推理能力,開發團隊還直接使用 DeepSeek-R1 整理的 80 萬個樣本對 Qwen 和 Llama 等開源模型進行了微調。研究結果表明,這種簡單的蒸餾方法顯著增強了小模型的推理能力。
得益于以上多項技術的創新,開發團隊的大量基準測試表明,DeepSeek-R1 實現了比肩業內 SOTA 推理大模型的硬實力,具體可以參考以下結果:


更多技術細節請參閱原論文。


































