DeepSeek-R1技術解碼:如何實現大模型推理能力的提升?

1月20日,幻方量化旗下AI公司深度求索(DeepSeek)發布了新一代開源大模型DeepSeek-R1。作為一款專注于推理能力的AI大模型,DeepSeek-R1憑借著成本低、推理能力強等優勢,在人工智能領域掀起了千層巨浪,引起了人們的廣泛關注與討論。
DeepSeek-R1的成功,讓我們更加清晰地認識到推理能力在當下人工智能發展中的重要地位。那么,究竟什么是大模型的推理?DeepSeek-R1推理能力強的原因又是什么呢。
如何理解推理大模型??
要解答這些問題,首先需明確大模型中的推理概念。推理,本質上是從已知判斷(前提)推導出新判斷(結論)的思維形式。比如,“法國的首都是什么?”?這類事實性問題的回答,并不涉及推理過程。而像?“若火車以每小時60公里的速度行駛,3小時后它會行駛多遠?”?這樣的問題,則需要進行一定的簡單推理。在得出答案前,模型需識別距離、速度與時間之間的關系。
當前,多數大模型已具備基本的推理能力。因此,當提及推理大模型時,通常指的是那些在解決難題、謎語以及數學證明等更為復雜的推理任務中表現出色的大模型。
在推理大模型中,中間步驟的呈現方式主要有兩種。其一,這些中間步驟會被明確地包含在模型的響應之中,如DeepSeek會展示思考過程,然后再給出答案;其二,中間步驟不會展示給用戶,而是直接給出答案。
推理大模型擅長復雜的任務,例如解決難題,高級數學問題和具有挑戰性的編碼任務。但是,對于諸如摘要,翻譯或基于知識的問題回答之類的簡單任務,它們不是必需的。
實際上,對所有事物使用推理大模型可能效率低下且成本高昂。例如,推理大模型通常使用起來更昂貴,更冗長,有時由于?“過度思考”?而更容易出錯。

上圖:推理大模型的主要優勢和局限性
改進推理模型的四種策略
值得一提的是,在AI領域擁有超過十年經驗的研究者Sebastian?Raschka介紹了改進推理模型的4種主要方法。
1)推理時間擴展
提高大模型推理能力的一種方法是推理時間擴展。該術語可以具有多種含義,但是在這種情況下,它是指在推理過程中增加計算資源以提高輸出質量。
一個粗略的類比是,當給予更多時間思考復雜問題時,人類往往會產生更好的反應。同樣,我們可以應用一些技巧,鼓勵大模型在回答問題時更多地“思考”。
推理時間擴展的一個直接方法是巧妙的提示工程。一個典型的例子是思維鏈?(CoT)?提示,其中像?“一步一步思考”?這樣的短語包含在輸入提示中。這鼓勵模型生成中間推理步驟,而不是直接跳到最終答案,這通常可以在更復雜的問題上獲得更準確的結果。
上述思維鏈方法可以被視為推理時間縮放,因為它通過生成更多的輸出令牌使推理更加昂貴。
另一種推理時間擴展方法是使用投票和搜索策略。一個簡單的例子是多數投票,讓大模型生成多個答案,然后通過多數投票選擇正確的答案。同樣,可以使用集束搜索和其他搜索算法來生成更好的響應。
2)?純強化學習?(RL)
Raschka在DeepSeek?R1論文中發現的亮點之一是他們發現推理是純強化學習?(RL)?的一種行為。
具體而言,DeepSeek開發了三種類型的R1模型。一是DeepSeek-R1-Zero,建立在DeepSeek-V3基礎模型之上。與典型的RL流程不同,在RL之前應用監督微調?(SFT),DeepSeek-R1-Zero僅通過強化學習進行訓練,而沒有初始SFT階段。
盡管如此,該RL過程類似于通常使用的強化學習?(RLHF)?方法,其通常應用于偏好調整大模型。
但是,DeepSeek-R1-Zero的關鍵區別在于它們跳過了用于指令調諧的監督微調?(SFT)?階段。這就是為什么將其稱為?“純”?RL。
對于獎勵,他們沒有使用根據人類偏好訓練的獎勵模型,而是采用了兩種類型的獎勵:?準確性獎勵和格式獎勵。其中,準確性獎勵使用LeetCode編譯器來驗證編碼答案,并使用確定性系統來評估數學響應。而格式獎勵則依賴于大模型評委,以確保響應遵循預期的格式,例如將推理步驟放在標簽內。
3)?監督的優化和強化學習?(SFT?+?RL)
DeepSeek的旗艦推理模型DeepSeek-R1,在DeepSeek-R1-Zero的基礎上進行了改進,加入了額外的監督微調(SFT)和強化學習(RL),以提高其推理性能。
DeepSeek團隊使用DeepSeek-R1-Zero生成所謂的?“冷啟動”?SFT數據。術語?“冷啟動”?指的是該數據是由DeepSeek-R1-Zero產生的,其本身沒有在任何監督微調?(SFT)?數據上訓練。
使用這種冷啟動SFT數據,DeepSeek然后通過指令微調訓練模型,然后是另一個強化學習?(RL)?階段。此RL階段保留了DeepSeek-R1-Zero?RL過程中使用的相同準確性和格式獎勵。但是,他們添加了一致性獎勵以防止語言混合,當模型在響應中的多種語言之間切換時,就會發生這種情況。
RL階段之后是另一輪SFT數據收集。在此階段,使用最新的模型檢查點生成600k的思想鏈SFT示例,同時使用DeepSeek-V3基礎模型創建了額外的200k基于知識的SFT示例。
然后將這些600k?+?200k?SFT樣本用于指令微調DeepSeek-V3基,然后再進行最后一輪RL。在此階段,他們再次使用基于規則的方法對數學和編碼問題進行準確性獎勵,而人類偏好標簽則用于其他問題類型。總而言之,這與常規RLHF非常相似,除了SFT數據包含?(更多)?CoT示例。除了基于人類偏好的獎勵之外,RL還具有可驗證的獎勵。
由于額外的SFT和RL級,最終模型DeepSeek-R1隨著DeepSeek-R1-Zero的推移具有明顯的性能提升。
4)?純監督微調?(SFT)?和蒸餾
DeepSeek團隊還發布了通過他們稱之為蒸餾的過程訓練的較小模型。然而,在大模型的背景下,蒸餾不一定遵循深度學習中使用的經典知識蒸餾方法。傳統上,在知識蒸餾中,較小的學生模型在較大的教師模型和目標數據集的對數上進行訓練。
相反,這里的蒸餾是指在較大的大模型生成的SFT數據集上對較小的大模型,如Llama?8B和70B以及?Qwen?2.5模型(0.5B?到?32B),進行指令微調。簡單來說,這些較大的大模型是DeepSeek-V3和?DeepSeek-R1的中間檢查點。事實上,用于此蒸餾過程的SFT數據與用于訓練DeepSeek-R1的數據集相同。
DeepSeek為什么要開發蒸餾模型?Raschka認為,有兩個關鍵原因::一是較小的模型效率更高。這意味著它們運行起來更便宜,但它們也可以在低端硬件上運行。二是純SFT的案例研究。這些蒸餾模型作為一個基準,展示純監督微調?(SFT)?在沒有強化學習的情況下可以讓模型走多遠。
下表比較了這些蒸餾模型與其他流行模型以及DeepSeek-R1-Zero和DeepSeek-R1的性能。

蒸餾模型明顯弱于DeepSeek-R1模型,但與?DeepSeek-R1-Zero相比,它們卻出奇地強大,盡管規模小了幾個數量級。
值得一提的是,DeepSeek團隊測試了DeepSeek-R1-Zero?中出現的新興推理行為是否也會出現在較小的模型中。為了研究這一點,他們將DeepSeek-R1-Zero中相同的純RL方法直接應用于Qwen-32B。
實驗的結果總結在下表中,其中QwQ-32B-Preview作為基于Qwen團隊開發的Qwen?2.5?32B的參考推理模型。

結果表明,對于較小的模型,蒸餾比純強化學習更有效。這與以下觀點一致:單靠強化學習可能不足以在這種規模的模型中產生強大的推理能力,而在使用小型模型時,對高質量推理數據進行SFT可能是更有效的策略。
可以說,這四種改進推理模型的方法,從不同角度為提升大模型推理能力提供了可行路徑。推理時間擴展通過優化推理過程中的計算資源與提示方式,增強模型思考深度;純強化學習另辟蹊徑,跳過傳統監督微調初始階段,以獨特獎勵機制訓練模型;監督的優化和強化學習相結合的方式,在已有模型基礎上多次微調與強化,逐步提升性能;純監督微調與蒸餾則聚焦于小模型的高效性與對純SFT潛力的挖掘。
寫在最后:
推理大模型不僅是解決復雜問題、推動各領域技術創新的關鍵力量,更是引領人工智能從基礎應用邁向深度智能的核心驅動力。面向未來,隨著技術的不斷發展,我們有理由相信將有更多性能出色的大模型,在更多領域綻放光彩,推動人工智能技術邁向新的高度。




































