大推理模型DeepSeek-R1深度解讀：成本降低95%，推動語言模型推理效率新高度精華

風云2002_1

發布于 2025-1-24 11:15

瀏覽

0收藏

以開源技術挑戰領先 AI 供應商而聞名的中國 AI 初創公司 DeepSeek 又投下了一顆重磅炸彈：一款名為 DeepSeek - R1 的新型開源推理大語言模型（LLM）。除了在基準測試中性能幾乎與 OpenAI 的 o1 相匹配外，新的 DeepSeek - R1 成本也非常低。具體來說，OpenAI o1 每百萬輸入令牌成本為 15 美元，每百萬輸出令牌成本為 60 美元，而基于 R1 模型的 DeepSeek Reasoner 每百萬輸入令牌成本為 0.55 美元，每百萬輸出令牌成本為 2.19 美元。開源 DeepSeek - R1 采用純強化學習達到 OpenAI o1 的水平，成本卻低 95%。

大推理模型DeepSeek-R1深度解讀：成本降低95%，推動語言模型推理效率新高度-AI.x社區

在人工智能領域，大語言模型發展迅速，但在推理能力方面還有提升空間。之前很多方法都沒能達到像 OpenAI o1 系列模型那樣的推理水平。本文的研究就是想通過新的強化學習和訓練方法來提高模型的推理能力，開發出了 DeepSeek-R1-Zero 和 DeepSeek-R1 模型，并且在很多任務上取得了很好的成績，還把大模型的能力蒸餾到小模型上，為后續研究和應用提供了新的思路和模型基礎，對推動人工智能語言模型的發展有重要意義。

我們詳細翻譯解讀最新論文，文末有相關信息。

本文主要圍繞 DeepSeek 公司開發的 DeepSeek-R1-Zero 和 DeepSeek-R1 模型展開。首先介紹了研究背景，即大語言模型快速發展但推理能力提升仍有挑戰，現有方法未達 OpenAI o1 系列模型水平。接著闡述模型訓練方法，DeepSeek-R1-Zero 基于基礎模型直接用強化學習訓練，采用 GRPO 算法、規則獎勵系統和特定模板，訓練中展現出性能提升、自我進化及“頓悟時刻”，但存在可讀性和語言混合問題；DeepSeek-R1 則先利用冷啟動數據微調，再進行強化學習，包括推理導向訓練、拒絕采樣與監督微調及全場景強化學習等階段。還介紹了從 DeepSeek-R1 向小模型蒸餾的方法及效果。實驗部分在多基準測試上評估模型，結果顯示 DeepSeek-R1 在推理、知識和其他任務上表現出色，蒸餾模型也優于部分已有模型。最后討論了蒸餾與強化學習的對比及一些不成功嘗試，并指出模型未來研究方向如提升通用能力、解決語言混合等問題。

摘要&&解讀

我們推出了第一代推理模型DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero是通過大規模強化學習（RL）訓練而成的模型，無需監督微調（SFT）作為預備步驟，展現出了卓越的推理能力。通過RL，DeepSeek-R1-Zero自然地呈現出眾多強大且有趣的推理行為。然而，它也面臨著諸如可讀性差和語言混合等挑戰。為了解決這些問題并進一步提升推理性能，我們引入了DeepSeek-R1，它在RL之前結合了多階段訓練和冷啟動數據。DeepSeek-R1在推理任務上的性能與OpenAI-o1-1217相當。為了支持研究社區，我們開源了DeepSeek-R1-Zero、DeepSeek-R1以及基于Qwen和Llama從DeepSeek-R1蒸餾得到的六個密集模型（1.5B、7B、8B、14B、32B、70B）。

大推理模型DeepSeek-R1深度解讀：成本降低95%，推動語言模型推理效率新高度-AI.x社區

研究背景:近年來大語言模型快速迭代，但在推理能力方面仍有提升空間。現有方法如基于過程的獎勵模型、強化學習、搜索算法等在提升推理性能上未達 OpenAI o1 系列模型水平，且在測試時縮放等方面存在問題，在此背景下本文展開研究。
研究貢獻:

首次驗證了可通過純強化學習激勵大語言模型推理能力，無需監督微調，開發出 DeepSeek-R1-Zero 模型。

提出包含冷啟動數據和多階段訓練的 DeepSeek-R1 訓練管道，提升模型性能與實用性。

證明可將大模型推理模式蒸餾到小模型，開源相關模型及數據，為研究社區提供資源。

實現設計:

DeepSeek-R1-Zero 采用 GRPO 算法，基于規則獎勵系統（準確性和格式獎勵），用特定模板訓練，引導模型生成推理過程和答案。

DeepSeek-R1 先收集冷啟動數據微調基礎模型，再進行推理導向強化學習（引入語言一致性獎勵），之后通過拒絕采樣和監督微調擴充數據并訓練模型，最后進行全場景強化學習進一步優化。

蒸餾技術是用 DeepSeek-R1 生成的數據對 Qwen 和 Llama 等開源模型進行監督微調。

實驗結果:

DeepSeek-R1 在多個推理任務（如 AIME 2024、MATH-500）、知識基準測試（如 MMLU、GPQA Diamond）及其他任務（如寫作、問答等）上表現優異，與 OpenAI-o1-1217 相當或更優。

蒸餾模型在推理相關基準測試上成績突出，如 DeepSeek-R1-Distill-Qwen-32B 在 AIME 2024 等測試中優于部分已有模型。

關鍵詞：強化學習；推理能力；語言模型；蒸餾

一、引言

近年來，大語言模型（LLMs）經歷了快速的迭代和演進（Anthropic，2024；Google，2024；OpenAI，2024a），逐漸縮小了與通用人工智能（AGI）的差距。

最近，后訓練已成為完整訓練流程的重要組成部分。它已被證明可以提高推理任務的準確性、與社會價值觀對齊并適應用戶偏好，而且相對于預訓練所需的計算資源相對較少。在推理能力方面，OpenAI的o1（OpenAI，2024b）系列模型率先通過增加思維鏈（Chain-of-Thought）推理過程的長度引入了推理時縮放。這種方法在數學、編碼和科學推理等各種推理任務中取得了顯著的改進。然而，有效的測試時縮放的挑戰仍然是研究社區的一個開放問題。先前的一些工作探索了各種方法，包括基于過程的獎勵模型（Lightman等人，2023；Uesato等人，2022；Wang等人，2023）、強化學習（Kumar等人，2024）以及蒙特卡洛樹搜索和束搜索等搜索算法（Feng等人，2024；Trinh等人，2024；Xin等人，2024）。然而，這些方法都沒有達到與OpenAI的o1系列模型相當的通用推理性能。

在本文中，我們朝著使用純強化學習（RL）提高語言模型推理能力邁出了第一步。我們的目標是探索LLMs在沒有任何監督數據的情況下發展推理能力的潛力，重點關注它們通過純RL過程的自我進化。具體來說，我們使用DeepSeek-V3-Base作為基礎模型，并采用GRPO（Shao等人，2024）作為RL框架來提高模型在推理方面的性能。在訓練過程中，DeepSeek-R1-Zero自然地呈現出許多強大而有趣的推理行為。經過數千次RL步驟后，DeepSeek-R1-Zero在推理基準測試中表現出色。例如，在AIME 2024上的pass@1分數從15.6%提高到了71.0%，通過多數投票，分數進一步提高到86.7%，與OpenAI-o1-0912的性能相匹配。

然而，DeepSeek-R1-Zero遇到了諸如可讀性差和語言混合等挑戰。為了解決這些問題并進一步提高推理性能，我們引入了DeepSeek-R1，它結合了少量冷啟動數據和多階段訓練管道。具體來說，我們首先收集數千個冷啟動數據來微調DeepSeek-V3-Base模型。在此之后，我們像訓練DeepSeek-R1-Zero一樣進行面向推理的RL。在RL過程接近收斂時，我們通過對RL檢查點進行拒絕采樣，并結合來自DeepSeek-V3在寫作、事實問答和自我認知等領域的監督數據來創建新的SFT數據，然后重新訓練DeepSeek-V3-Base模型。使用新數據進行微調后，檢查點再經過一個RL過程，考慮來自所有場景的提示。經過這些步驟，我們獲得了一個稱為DeepSeek-R1的檢查點，其性能與OpenAI-o1-1217相當。

我們進一步探索了從DeepSeek-R1到較小密集模型的蒸餾。使用Qwen2.5-32B（Qwen，2024b）作為基礎模型，直接從DeepSeek-R1進行蒸餾的效果優于在其上應用RL。這表明較大基礎模型發現的推理模式對于提高推理能力至關重要。我們開源了蒸餾后的Qwen和Llama（Dubey等人，2024）系列。值得注意的是，我們蒸餾得到的14B模型遠遠優于最先進的開源QwQ-32B-Preview（Qwen，2024a），并且蒸餾得到的32B和70B模型在密集模型的推理基準測試中創下了新紀錄。

1.1 貢獻

基礎模型的大規模強化學習：我們直接將強化學習（RL）應用于基礎模型，而無需依賴監督微調（SFT）作為初步步驟。這種方法允許模型探索用于解決復雜問題的思維鏈（CoT），從而產生了DeepSeek-R1-Zero。DeepSeek-R1-Zero展示了諸如自我驗證、反思和生成長CoT等能力，為研究社區標志著一個重要的里程碑。值得注意的是，這是首次公開驗證LLMs的推理能力可以純粹通過RL激勵，而無需SFT。這一突破為該領域的未來發展鋪平了道路。
DeepSeek-R1的訓練管道：我們介紹了開發DeepSeek-R1的管道。該管道包括兩個旨在發現改進的推理模式并與人類偏好對齊的RL階段，以及兩個作為模型推理和非推理能力種子的SFT階段。我們相信該管道將通過創建更好的模型使行業受益。
蒸餾：小型模型也可以很強大：我們證明了較大模型的推理模式可以蒸餾到較小模型中，與通過在小型模型上進行RL發現的推理模式相比，性能更好。開源的DeepSeek-R1及其API將有利于研究社區在未來蒸餾出更好的小型模型。
使用DeepSeek-R1生成的推理數據對多個密集模型進行微調：評估結果表明，蒸餾后的較小密集模型在基準測試中表現出色。DeepSeek-R1-Distill-Qwen-7B在AIME 2024上達到55.5%，超過了QwQ-32B-Preview。此外，DeepSeek-R1-Distill-Qwen-32B在AIME 2024上得分為72.6%，在MATH-500上為94.3%，在LiveCodeBench上為57.2%。這些結果顯著優于先前的開源模型，并且與o1-mini相當。我們向社區開源了基于Qwen2.5和Llama3系列的1.5B、7B、8B、14B、32B和70B檢查點。

1.2 評估結果總結

推理任務：（1）DeepSeek-R1在AIME 2024上的Pass@1分數達到79.8%，略高于OpenAI-o1-1217。在MATH-500上，它獲得了令人印象深刻的97.3%的分數，與OpenAI-o1-1217相當，并且顯著優于其他模型。（2）在編碼相關任務上，DeepSeek-R1在代碼競賽任務中表現出專家水平，在Codeforces上達到2029的Elo評級，超過了比賽中96.3%的人類參與者。在工程相關任務上，DeepSeek-R1的表現略優于DeepSeek-V3，這可以幫助開發人員完成實際任務。
知識：在MMLU、MMLU-Pro和GPQA Diamond等基準測試中，DeepSeek-R1取得了出色的結果，在MMLU上的得分為90.8%，在MMLU-Pro上為84.0%，在GPQA Diamond上為71.5%，顯著優于DeepSeek-V3。雖然在這些基準測試上它的性能略低于OpenAI-o1-1217，但DeepSeek-R1超過了其他閉源模型，展示了其在教育任務中的競爭優勢。在事實基準測試SimpleQA上，DeepSeek-R1優于DeepSeek-V3，展示了其處理基于事實的查詢的能力。在這個基準測試上，OpenAI-o1超過GPT-4o也呈現出類似的趨勢。
其他：DeepSeek-R1在廣泛的任務中也表現出色，包括創意寫作、一般問答、編輯、總結等。它在AlpacaEval 2.0上實現了令人印象深刻的87.6%的長度控制勝率，在ArenaHard上的勝率為92.3%，展示了其智能處理非考試導向查詢的強大能力。此外，DeepSeek-R1在需要長上下文理解的任務中表現出色，在長上下文基準測試上顯著優于DeepSeek-V3。

二、方法

2.1 概述

先前的工作在很大程度上依賴于大量的監督數據來提高模型性能。在本研究中，我們證明了通過大規模強化學習（RL）可以顯著提高推理能力，即使在不使用監督微調（SFT）作為冷啟動的情況下也是如此。此外，通過包含少量冷啟動數據可以進一步提高性能。在以下部分中，我們將介紹：（1）DeepSeek-R1-Zero，它直接將RL應用于基礎模型而無需任何SFT數據；（2）DeepSeek-R1，它從使用數千個長思維鏈（CoT）示例微調的檢查點開始應用RL；（3）將DeepSeek-R1的推理能力蒸餾到小型密集模型中。

2.2 DeepSeek-R1-Zero：基礎模型上的強化學習

強化學習在推理任務中已被證明是非常有效的，正如我們之前的工作所表明的（Shao等人，2024；Wang等人，2023）。然而，這些工作在很大程度上依賴于監督數據，而收集這些數據是非常耗時的。在本節中，我們探索LLMs在沒有任何監督數據的情況下發展推理能力的潛力，重點關注它們通過純強化學習過程的自我進化。我們首先簡要概述我們的強化學習算法，然后展示一些令人興奮的結果，并希望這能為社區提供有價值的見解。

2.2.1 強化學習算法

大推理模型DeepSeek-R1深度解讀：成本降低95%，推動語言模型推理效率新高度-AI.x社區

用戶和助手之間的對話。用戶提出問題，助手解決問題。助手首先在腦海中思考推理過程，然后向用戶提供答案。推理過程和答案分別包含在和標簽內，即這里是推理過程這里是答案。

2.2.2 獎勵建模

獎勵是訓練信號的來源，它決定了RL的優化方向。為了訓練DeepSeek-R1-Zero，我們采用了基于規則的獎勵系統，主要包括兩種類型的獎勵：

準確性獎勵：準確性獎勵模型評估響應是否正確。例如，對于具有確定性結果的數學問題，模型需要以指定的格式（例如，在框內）提供最終答案，以便能夠基于規則可靠地驗證正確性。同樣，對于LeetCode問題，可以使用編譯器根據預定義的測試用例生成反饋。
格式獎勵：除了準確性獎勵模型外，我們還采用了格式獎勵模型，強制模型將其思考過程放在和標簽之間。

在開發DeepSeek-R1-Zero時，我們沒有應用結果或過程神經獎勵模型，因為我們發現神經獎勵模型在大規模強化學習過程中可能會遭受獎勵破解問題，并且重新訓練獎勵模型需要額外的訓練資源，這會使整個訓練管道復雜化。

2.2.3 訓練模板

為了訓練DeepSeek-R1-Zero，我們設計了一個簡單的模板，引導基礎模型遵循我們指定的指令。如表1所示，這個模板要求DeepSeek-R1-Zero首先生成推理過程，然后是最終答案。我們有意將約束限制在這種結構格式上，避免任何特定內容的偏差，例如強制進行反思性推理或推廣特定的問題解決策略，以確保我們能夠準確觀察模型在強化學習（RL）過程中的自然進展。

大推理模型DeepSeek-R1深度解讀：成本降低95%，推動語言模型推理效率新高度-AI.x社區

2.2.4 DeepSeek-R1-Zero的性能、自我進化過程和“頓悟時刻”DeepSeek-R1-Zero的性能：圖2展示了DeepSeek-R1-Zero在AIME 2024基準測試中整個強化學習（RL）訓練過程中的性能軌跡。如圖所示，隨著RL訓練的推進，DeepSeek-R1-Zero的性能穩步且持續地提高。值得注意的是，AIME 2024上的平均pass@1分數顯著提高，從最初的15.6%躍升至令人印象深刻的71.0%，達到了與OpenAI-o1-0912相當的性能水平。這一顯著的改進凸顯了我們的RL算法在隨著時間優化模型性能方面的有效性。

大推理模型DeepSeek-R1深度解讀：成本降低95%，推動語言模型推理效率新高度-AI.x社區

與OpenAI的o1-0912模型的比較：表2提供了DeepSeek-R1-Zero和OpenAI的o1-0912模型在各種推理相關基準測試上的對比分析。結果表明，RL使DeepSeek-R1-Zero能夠在無需任何監督微調數據的情況下獲得強大的推理能力。這是一項值得注意的成就，因為它強調了模型僅通過RL就能有效學習和泛化的能力。此外，通過應用多數投票，DeepSeek-R1-Zero的性能可以進一步提高。例如，在AIME基準測試上應用多數投票時，DeepSeek-R1-Zero的性能從71.0%提升到86.7%，從而超過了OpenAI-o1-0912的性能。DeepSeek-R1-Zero在有和沒有多數投票的情況下都能達到如此有競爭力的性能，凸顯了其強大的基礎能力以及在推理任務中進一步發展的潛力。
自我進化過程：DeepSeek-R1-Zero的自我進化過程是RL如何驅動模型自主提高推理能力的一個引人入勝的展示。通過直接從基礎模型啟動RL，我們可以在不受監督微調階段影響的情況下密切監測模型的進展。這種方法清晰地展示了模型如何隨時間演變，特別是在處理復雜推理任務的能力方面。
思考時間的增加：如圖3所示，DeepSeek-R1-Zero在訓練過程中的思考時間持續增加。這種改進不是外部調整的結果，而是模型內部的內在發展。DeepSeek-R1-Zero通過利用擴展的測試時計算自然地獲得了解決日益復雜推理任務的能力。這種計算從生成數百到數千個推理標記不等，使模型能夠更深入地探索和完善其思維過程。
復雜行為的出現：這種自我進化最顯著的方面之一是隨著測試時計算的增加出現了復雜的行為。例如，反思行為（模型重新審視和重新評估其先前步驟）以及探索替代問題解決方法等行為自發地出現。這些行為不是顯式編程的，而是模型與強化學習環境相互作用的結果。這種自發的發展顯著增強了DeepSeek-R1-Zero的推理能力，使其能夠更高效、更準確地處理更具挑戰性的任務。
“頓悟時刻”：在DeepSeek-R1-Zero的訓練過程中觀察到的一個特別有趣的現象是“頓悟時刻”的出現。如表3所示，這個時刻出現在模型的一個中間版本中。在此階段，DeepSeek - R1 - Zero通過重新評估其初始方法學會為一個問題分配更多的思考時間。這種行為不僅證明了模型推理能力的不斷增長，也是強化學習如何產生意想不到的復雜結果的一個引人入勝的例子。

這個時刻不僅是模型的“頓悟時刻”，也是觀察其行為的研究人員的“頓悟時刻”。它凸顯了強化學習的力量和美妙之處：我們不是明確地教導模型如何解決問題，而只是提供正確的激勵，它就能夠自主地發展出先進的問題解決策略。“頓悟時刻”有力地提醒了我們強化學習在解鎖人工系統新智能水平方面的潛力，為未來更自主和自適應的模型鋪平了道路。

DeepSeek - R1 - Zero的缺點：盡管DeepSeek - R1 - Zero表現出強大的推理能力并自主發展出意想不到的強大推理行為，但它也面臨著一些問題。例如，DeepSeek - R1 - Zero在可讀性差和語言混合等方面存在困難。為了使推理過程更具可讀性并與開放社區分享，我們探索了DeepSeek - R1，一種利用帶有人類友好冷啟動數據的強化學習的方法。

2.3 DeepSeek - R1：帶有冷啟動的強化學習

受DeepSeek - R1 - Zero有前景的結果啟發，出現了兩個自然的問題：1）通過納入少量高質量數據作為冷啟動，推理性能是否可以進一步提高或加速收斂？2）我們如何訓練一個用戶友好的模型，它不僅能生成清晰連貫的思維鏈（CoT），還能展示出強大的通用能力？為了解決這些問題，我們設計了一個訓練DeepSeek - R1的管道。該管道由四個階段組成，概述如下。

2.3.1 冷啟動

與DeepSeek - R1 - Zero不同，為了防止RL訓練從基礎模型開始的早期不穩定冷啟動階段，對于DeepSeek - R1，我們構建并收集了少量長CoT數據來微調模型作為初始RL執行者。為了收集此類數據，我們探索了幾種方法：使用帶有長CoT示例的少樣本提示、直接提示模型生成帶有反思和驗證的詳細答案、收集DeepSeek - R1 - Zero的可讀格式輸出，并通過人工注釋者的后處理來精煉結果。

在這項工作中，我們收集了數千個冷啟動數據來微調DeepSeek - V3 - Base作為RL的起點。與DeepSeek - R1 - Zero相比，冷啟動數據的優勢包括：

可讀性：DeepSeek - R1 - Zero的一個關鍵限制是其內容通常不適合閱讀。響應可能混合多種語言或缺乏用于為用戶突出顯示答案的markdown格式。相比之下，在為DeepSeek - R1創建冷啟動數據時，我們設計了一種可讀模式，在每個響應的末尾包含一個總結，并過濾掉對讀者不友好的響應。這里，我們將輸出格式定義為|特殊標記|<推理過程>|特殊標記|<總結>，其中推理過程是查詢的CoT，總結用于總結推理結果。
潛力：通過根據人類先驗精心設計冷啟動數據的模式，我們觀察到相對于DeepSeek - R1 - Zero有更好的性能。我們相信迭代訓練是推理模型的更好方法。

2.3.2 面向推理的強化學習

在冷啟動數據上微調DeepSeek - V3 - Base之后，我們應用與DeepSeek - R1 - Zero中相同的大規模強化學習訓練過程。這個階段側重于提高模型的推理能力，特別是在推理密集型任務中，如編碼、數學、科學和邏輯推理，這些任務涉及定義明確且有清晰解決方案的問題。在訓練過程中，我們觀察到CoT經常出現語言混合的情況，特別是當RL提示涉及多種語言時。為了緩解語言混合的問題，我們在RL訓練期間引入了語言一致性獎勵，它計算為CoT中目標語言單詞的比例。雖然消融實驗表明這種對齊會導致模型性能略有下降，但這種獎勵符合人類偏好，使其更具可讀性。最后，我們通過直接將推理任務的準確性和語言一致性獎勵相加來形成最終獎勵。然后，我們對微調后的模型應用強化學習（RL）訓練，直到它在推理任務上達到收斂。

2.3.3 拒絕采樣和監督微調

當面向推理的RL收斂時，我們利用得到的檢查點為下一輪收集SFT（監督微調）數據。與主要關注推理的初始冷啟動數據不同，這個階段納入了來自其他領域的數據，以增強模型在寫作、角色扮演和其他通用任務中的能力。具體來說，我們生成數據并微調模型如下：

推理數據：我們整理推理提示，并通過從上述RL訓練的檢查點進行拒絕采樣來生成推理軌跡。在先前階段，我們只納入了可以使用基于規則的獎勵進行評估的數據。然而，在這個階段，我們通過納入額外的數據擴展了數據集，其中一些數據使用生成式獎勵模型，通過將真實值和模型預測輸入到DeepSeek - V3中進行判斷。此外，由于模型輸出有時混亂且難以閱讀，我們過濾掉了混合語言的思維鏈、長段落和代碼塊。對于每個提示，我們采樣多個響應并只保留正確的響應。總共，我們收集了大約60萬個與推理相關的訓練樣本。
非推理數據：對于非推理數據，如寫作、事實問答、自我認知和翻譯，我們采用DeepSeek - V3管道并重用DeepSeek - V3的部分SFT數據集。對于某些非推理任務，我們在回答問題之前通過提示調用DeepSeek - V3生成潛在的思維鏈。然而，對于更簡單的查詢，如“hello”，我們在響應中不提供CoT。最后，我們總共收集了大約20萬個與推理無關的訓練樣本。

我們使用上述約80萬個樣本的精選數據集對DeepSeek - V3 - Base進行了兩個epoch的微調。

2.3.4 所有場景的強化學習

為了進一步使模型與人類偏好對齊，我們實施了一個二級強化學習階段，旨在提高模型的幫助性和無害性，同時完善其推理能力。具體來說，我們使用獎勵信號和多樣化的提示分布組合來訓練模型。對于推理數據，我們遵循DeepSeek - R1 - Zero中概述的方法，利用基于規則的獎勵來指導數學、代碼和邏輯推理領域的學習過程。對于一般數據，我們借助獎勵模型在復雜和微妙的場景中捕捉人類偏好。我們基于DeepSeek - V3管道并采用類似的偏好對和訓練提示分布。對于幫助性，我們專注于最終總結，確保評估強調響應對用戶的效用和相關性，同時盡量減少對底層推理過程的干擾。對于無害性，我們評估模型的整個響應，包括推理過程和總結，以識別和減輕在生成過程中可能出現的任何潛在風險、偏差或有害內容。最終，獎勵信號和多樣化數據分布的整合使我們能夠訓練出一個在推理方面表現出色，同時優先考慮幫助性和無害性的模型。

2.4 蒸餾：賦予小型模型推理能力

為了使更高效的小型模型具備像DeepSeek - R1這樣的推理能力，我們使用DeepSeek - R1整理的80萬個樣本直接對開源模型如Qwen（Qwen，2024b）和Llama（AI@Meta，2024）進行微調，如§2.3.3中所述。我們的研究結果表明，這種直接蒸餾方法顯著增強了小型模型的推理能力。我們這里使用的基礎模型是Qwen2.5 - Math - 1.5B、Qwen2.5 - Math - 7B、Qwen2.5 - 14B、Qwen2.5 - 32B、Llama - 3.1 - 8B和Llama - 3.3 - 70B - Instruct。我們選擇Llama - 3.3是因為它的推理能力略優于Llama - 3.1。

對于蒸餾模型，我們只應用SFT，不包括RL階段，盡管納入RL可以顯著提高模型性能。我們的主要目標是證明蒸餾技術的有效性，將RL階段的探索留給更廣泛的研究社區。

三、實驗

基準測試：我們在MMLU（Hendrycks等人，2020）、MMLU - Redux（Gema等人，2024）、MMLU - Pro（Wang等人，2024）、C - Eval（Huang等人，2023）、CMMLU（Li等人，2023）、IFEval（Zhou等人，2023）、FRAMES（Krishna等人，2024）、GPQA Diamond（Rein等人，2023）、SimpleQA（OpenAI，2024c）、C - SimpleQA（He等人，2024）、SWE - Bench Verified（OpenAI，2024d）、Aider 1、LiveCodeBench（Jain等人，2024）（2024 - 08 – 2025 - 01）、Codeforces 2、中國高中數學奧林匹克（CNMO 2024）3和美國數學邀請賽2024（AIME 2024）（MAA，2024）等基準測試上評估模型。除了標準基準測試外，我們還使用LLMs作為評委在開放式生成任務上評估我們的模型。具體來說，我們遵循AlpacaEval 2.0（Dubois等人，2024）和Arena - Hard（Li等人，2024）的原始配置，它們使用GPT - 4 - Turbo - 1106作為評委進行成對比較。在這里，我們只將最終總結輸入到評估中，以避免長度偏差。對于蒸餾模型，我們報告在AIME 2024、MATH - 500、GPQA Diamond、Codeforces和LiveCodeBench上的代表性結果。
評估提示：遵循DeepSeek - V3的設置，標準基準測試如MMLU、DROP、GPQA Diamond和SimpleQA使用來自simpleevals框架的提示進行評估。對于MMLU - Redux，我們在零樣本設置中采用Zero - Eval提示格式（Lin，2024）。對于MMLU - Pro、C - Eval和CLUE - WSC，由于原始提示是少樣本的，我們將提示稍微修改為零樣本設置。少樣本中的CoT可能會損害DeepSeek - R1的性能。其他數據集遵循其原始評估協議，使用其創建者提供的默認提示。對于代碼和數學基準測試，HumanEval - Mul數據集涵蓋八種主流編程語言（Python、Java、C++、C#、JavaScript、TypeScript、PHP和Bash）。LiveCodeBench上的模型性能使用CoT格式進行評估，數據收集時間為2024年8月至2025年1月。Codeforces數據集使用10個Div.2競賽的問題以及專家制作的測試用例進行評估，然后計算預期評級和競爭對手的百分比。SWE - Bench驗證結果通過無代理框架（Xia等人，2024）獲得。AIDER相關基準測試使用“diff”格式進行測量。DeepSeek - R1在每個基準測試上的輸出最多限制為32,768個標記。
基線：我們對幾個強大的基線進行了全面評估，包括DeepSeek - V3、Claude - Sonnet - 3.5 - 1022、GPT - 4o - 0513、OpenAI - o1 - mini和OpenAI - o1 - 1217。由于在中國大陸訪問OpenAI - o1 - 1217 API具有挑戰性，我們根據官方報告報告其性能。對于蒸餾模型，我們還比較了開源模型QwQ - 32B - Preview（Qwen，2024a）。
生成設置：對于我們所有的模型，最大生成長度設置為32,768個標記。對于需要采樣的基準測試，我們使用溫度為0.6、top - p值為0.95，并為每個查詢生成64個響應來估計pass@1。

3.1 DeepSeek - R1評估

對于以教育為導向的知識基準測試，如MMLU、MMLU - Pro和GPQA Diamond，DeepSeek - R1相對于DeepSeek - V3表現出更優的性能。這種改進主要歸因于在STEM相關問題上的準確性提高，這是通過大規模強化學習（RL）實現的顯著增益。此外，DeepSeek - R1在FRAMES上表現出色，這是一個依賴長上下文的問答任務，展示了其強大的文檔分析能力。這凸顯了推理模型在人工智能驅動的搜索和數據分析任務中的潛力。在事實基準測試SimpleQA上，DeepSeek - R1優于DeepSeek - V3，展示了其處理基于事實的查詢的能力。在這個基準測試上，OpenAI - o1超過GPT - 4o也呈現出類似的趨勢。然而，DeepSeek - R1在中文SimpleQA基準測試上的表現比DeepSeek - V3差，主要是因為在安全RL之后它傾向于拒絕回答某些查詢。如果沒有安全RL，DeepSeek - R1的準確率可以超過70%。

大推理模型DeepSeek-R1深度解讀：成本降低95%，推動語言模型推理效率新高度-AI.x社區

DeepSeek - R1在IF - Eval上也取得了令人印象深刻的結果，IF - Eval是一個旨在評估模型遵循格式指令能力的基準測試。這些改進可以與在監督微調（SFT）和RL訓練的最后階段納入指令遵循數據相關聯。此外，在AlpacaEval2.0和ArenaHard上的出色表現表明DeepSeek - R1在寫作任務和開放域問答方面的優勢。它相對于DeepSeek - V3的顯著優勢凸顯了大規模RL的泛化益處，不僅提高了推理能力，還提高了在不同領域的性能。此外，DeepSeek - R1生成的總結長度簡潔，在ArenaHard上平均為689個標記，在AlpacaEval 2.0上為2,218個字符。這表明DeepSeek - R1在基于GPT的評估中避免了引入長度偏差，進一步鞏固了其在多個任務中的穩健性。

在數學任務上，DeepSeek - R1的性能與OpenAI - o1 - 1217相當，遠遠超過其他模型。在編碼算法任務上，如LiveCodeBench和Codeforces，也觀察到類似的趨勢，其中專注于推理的模型在這些基準測試中占主導地位。在面向工程的編碼任務上，OpenAI - o1 - 1217在Aider上的表現優于DeepSeek - R1，但在SWE Verified上的性能相當。我們相信DeepSeek - R1的工程性能將在未來版本中得到提高，因為目前相關的RL訓練數據量仍然非常有限。

3.2 蒸餾模型評估

如表5所示，簡單地蒸餾DeepSeek - R1的輸出使高效的DeepSeek - R1 - 7B（即DeepSeek - R1 - Distill - Qwen - 7B，以下類似縮寫）在各個方面都優于非推理模型，如GPT - 4o - 0513。DeepSeek - R1 - 14B在所有評估指標上都超過了QwQ - 32B - Preview，而DeepSeek - R1 - 32B和DeepSeek - R1 - 70B在大多數基準測試上顯著超過了o1 - mini。這些結果展示了蒸餾的強大潛力。此外，我們發現對這些蒸餾模型應用RL會帶來進一步的顯著收益。我們認為這值得進一步探索，因此這里只展示簡單SFT蒸餾模型的結果。

大推理模型DeepSeek-R1深度解讀：成本降低95%，推動語言模型推理效率新高度-AI.x社區

四、討論

4.1 蒸餾與強化學習

在第3.2節中，我們看到通過蒸餾DeepSeek - R1，小型模型可以取得令人印象深刻的結果。然而，仍然存在一個問題：模型是否可以通過本文中討論的大規模RL訓練而不進行蒸餾來達到類似的性能？

大推理模型DeepSeek-R1深度解讀：成本降低95%，推動語言模型推理效率新高度-AI.x社區

為了回答這個問題，我們使用數學、代碼和STEM數據對Qwen - 32B - Base進行了大規模RL訓練，訓練超過10K步，得到DeepSeek - R1 - Zero - Qwen - 32B。實驗結果如圖6所示，表明32B基礎模型在經過大規模RL訓練后，性能與QwQ - 32B - Preview相當。然而，從DeepSeek - R1蒸餾得到的DeepSeek - R1 - Distill - Qwen - 32B在所有基準測試上的表現都顯著優于DeepSeek - R1 - Zero - Qwen - 32B。因此，我們可以得出兩個結論：首先，將更強大的模型蒸餾到較小的模型中會產生出色的結果，而依賴于本文中大規模RL的較小模型需要巨大的計算能力，甚至可能無法達到蒸餾的性能。其次，雖然蒸餾策略既經濟又有效，但要超越智能的邊界可能仍然需要更強大的基礎模型和更大規模的強化學習。

4.2 不成功的嘗試

在開發DeepSeek - R1的早期階段，我們也遇到了失敗和挫折。我們在這里分享我們的失敗經驗，以提供見解，但這并不意味著這些方法無法開發出有效的推理模型。

過程獎勵模型（PRM）：PRM是一種引導模型采用更好的方法解決推理任務的合理方法（Lightman等人，2023；Uesato等人，2022；Wang等人，2023）。然而，在實踐中，PRM有三個主要限制，可能會阻礙其最終成功。首先，在一般推理中明確定義精細步驟是具有挑戰性的。其次，確定當前中間步驟是否正確是一項艱巨的任務。使用模型進行自動注釋可能無法產生令人滿意的結果，而手動注釋不利于擴大規模。第三，一旦引入基于模型的PRM，它不可避免地會導致獎勵破解（Gao等人，2022），并且重新訓練獎勵模型需要額外的訓練資源，這會使整個訓練管道復雜化。總之，雖然PRM在對模型生成的前N個響應進行重新排名或協助引導搜索方面表現出良好的能力（Snell等人，2024），但在我們的實驗中，與它在大規模強化學習過程中引入的額外計算開銷相比，其優勢有限。
蒙特卡洛樹搜索（MCTS）：受 AlphaGo（Silver 等人，2017b）和 AlphaZero（Silver 等人，2017a）的啟發，我們探索了使用蒙特卡洛樹搜索（MCTS）來增強測試時計算的可擴展性。這種方法涉及將答案分解為更小的部分，以便模型能夠系統地探索解空間。為了便于此操作，我們提示模型生成與搜索所需的特定推理步驟相對應的多個標記。對于訓練，我們首先使用收集的提示通過基于預訓練值模型引導的 MCTS 找到答案。隨后，我們使用得到的問答對來訓練演員模型和值模型，迭代地改進這個過程。

然而，當擴大訓練規模時，這種方法遇到了幾個挑戰。首先，與國際象棋不同，在國際象棋中搜索空間相對明確，而在語言模型中，標記生成呈現出指數級更大的搜索空間。為了解決這個問題，我們為每個節點設置了最大擴展限制，但這可能導致模型陷入局部最優。其次，值模型直接影響生成的質量，因為它指導搜索過程的每一步。訓練一個精細粒度的值模型本身就很困難，這使得模型難以迭代地改進。雖然 AlphaGo 的核心成功依賴于訓練一個值模型來逐步提高其性能，但由于標記生成的復雜性，在我們的設置中很難復制這個原則。

總之，雖然 MCTS 在與預訓練值模型配對時可以在推理期間提高性能，但通過自我搜索迭代地提高模型性能仍然是一個重大挑戰。

五、結論、限制和未來工作

在這項工作中，我們分享了通過強化學習（RL）提高模型推理能力的歷程。DeepSeek - R1 - Zero 代表了一種純粹的 RL 方法，無需依賴冷啟動數據，在各種任務中都取得了強大的性能。DeepSeek - R1 更強大，它利用冷啟動數據和迭代的 RL 微調。最終，DeepSeek - R1 在一系列任務上的性能與 OpenAI - o1 - 1217 相當。

我們進一步探索了將推理能力蒸餾到小型密集模型中。我們使用 DeepSeek - R1 作為教師模型生成 800K 數據，并對幾個小型密集模型進行微調。結果很有前景：DeepSeek - R1 - Distill - Qwen - 1.5B 在數學基準測試上優于 GPT - 4o 和 Claude - 3.5 - Sonnet，在 AIME 上得分為 28.9%，在 MATH 上為 83.9%。其他密集模型也取得了令人印象深刻的結果，顯著優于基于相同底層檢查點的其他指令調整模型。

在未來，我們計劃在以下方向對 DeepSeek - R1 進行研究：

通用能力：目前，DeepSeek - R1 在函數調用、多輪、復雜角色扮演和 json 輸出等任務中的能力不如 DeepSeek - V3。未來，我們計劃探索如何利用長 CoT 來增強這些領域的任務。
語言混合：DeepSeek - R1 目前針對中文和英文進行了優化，在處理其他語言的查詢時可能會出現語言混合問題。例如，即使查詢不是英文或中文，DeepSeek - R1 也可能使用英文進行推理和響應。我們的目標是在未來的更新中解決這個限制。
提示工程：在評估 DeepSeek - R1 時，我們觀察到它對提示很敏感。少樣本提示會持續降低其性能。因此，我們建議用戶直接描述問題并在零樣本設置中指定輸出格式以獲得最佳結果。
軟件工程任務：由于評估時間長，影響了 RL 過程的效率，大規模 RL 尚未在軟件工程任務中廣泛應用。因此，DeepSeek - R1 在軟件工程基準測試上相對于 DeepSeek - V3 沒有顯示出巨大的改進。未來版本將通過對軟件工程數據進行拒絕采樣或在 RL 過程中納入異步評估來解決這個問題，以提高效率。

參考資料

標題：DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
作者：DeepSeek-AI
標簽：人工智能、強化學習、大語言模型、推理能力、模型蒸餾
概述: 本文介紹了 DeepSeek-R1-Zero 和 DeepSeek-R1 模型，通過強化學習及多階段訓練提升推理能力，在多個任務上取得優異成績，并對小模型進行蒸餾，開源相關模型及數據。
鏈接：https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

本文轉載自 ??旺知識??，作者：旺知識

標簽

模型

DeepSeek-R1

語言模型

已于2025-1-24 11:23:54修改

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂

大推理模型DeepSeek-R1深度解讀：成本降低95%，推動語言模型推理效率新高度精華

摘要&&解讀