DeepSeek爆火后的新Scaling Law究竟是什么？原創

51CTO技術棧

發布于 2025-3-14 11:17

瀏覽

0收藏

出品 | 51CTO技術棧（微信號：blog51cto）

嘉賓 | 周博洋、魏新宇

采訪 | 薛彥澤

撰稿 | 李美涵

DeepSeek R1的發布在全球人工智能領域引發了巨大反響。這款由中國初創企業DeepSeek推出的低成本、高性能AI模型，打破了人們對AI研發“高投入、長周期”的固有認知，被西方媒體譽為“人工智能的斯普特尼克時刻”。

DeepSeek的“奇跡”有目共睹。其應用上線僅20天，日活躍用戶數就突破了2000萬，而ChatGPT達到同樣的日活量則耗時150天之余。不僅如此，DeepSeek的開源路線也廣受好評，R1成功登頂開源平臺“抱抱臉”最受歡迎模型，還以一己之力開啟了一波開源熱潮，影響不僅波及國內模型廠商，還促使OpenAI的Altman也放出了開源計劃。

另一個近期AI圈的熱點，則是千呼萬喚始出來的GPT-4.5。在“大模型撞墻論”甚囂塵上之際，OpenAI官方承認，GPT-4.5的優勢在于規模龐大，盡管模型參數量級擴張，但性能并未達到前沿水平。這迫使我們正視：在AI領域，新的時代已經開始。

為此，AIGC實戰派特別邀請了微軟（中國）有限公司高級架構師周博洋和AI技術專家魏新宇，就DeepSeek出現后值得關注的熱門話題進行了深入討論和解讀。有趣的是，兩位專家達成了一個共識：預訓練時代并未終結，然而，新的Scaling Law已經誕生。

周博洋認為，新的Scaling Law其實是“思考時間”，即模型思考的時間越久，給出的回答質量就越佳。

魏新宇則提出，新Scaling Law的重點在于后訓練的數據質量和獎勵模型的設計。誰能在這些問題上有所突破，誰就找到了模型性能提升的第二曲線。

以下是訪談要點：

?預訓練時代的持續：兩位專家一致認為，預訓練和微調仍然是模型學習知識的標準范式。盡管Scaling曲線不再陡峭，但方法本身仍然有效。

?新的Scaling Law：魏新宇認為，新的Scaling Law將出現在訓練數據和獎勵模型的設計方面。他從獎勵模型最常見的三種設計講起，揭秘了DeepSeek R1的獎勵算法如何為模型打分。

?強化學習與推理能力：周博洋指出，強化學習之所以在出現很久后，才由R1走通了強推理的路徑，是因為此前基礎模型能力的局限性。“沒有CoT的能力，強化就沒有意義，因為強化學習不是直接賦予模型推理能力，而是激發它潛在的推理能力。”

?小模型的強推理能力：魏新宇認為，小模型擁有強推理能力的關鍵在于數據強化和訓練方法的選擇。他以微軟的小模型明星Phi-4為例，給小模型的蒸餾和微調提出了一些建議。

?接入DeepSeek的建議：周博洋提供了清晰可行的建議：如果是為了業務，就選最穩的API；如果是日常使用，就選方便易用的。

?AI應用新場景：魏新宇提到，R1的推理能力為AI應用解鎖了新的場景，在教育、科研領域的潛力更大。推理意味著模型不僅能勝任現有知識的問答，還能對未來趨勢做預測，例如預測票房、股市等。

1.預訓練時代終結了嗎?

薛彥澤: 第一個問題，預訓練時代終結了嗎？

魏新宇: 我的觀點是預訓練并沒有結束，它依然是大模型的基礎。比如最近很火的DeepSeek R1，也是基于V3進行強化學習的。預訓練仍然是通用知識庫的來源，所以仍然是必要的。不過，預訓練會與后續的強化學習結合起來，優化以前大規模消耗算力的預訓練模式。因此不能說預訓練終結，我認為是一種范式的提升。

周博洋: 補充兩句，我覺得預訓練和微調依然是模型學習知識的標準范式。

首先，預訓練和監督微調是模型理解知識本源的關鍵步驟。我們會給模型各種數據，比如互聯網數據、特定領域的數據比如MATH-500等等，目的是讓模型理解語義，繼而懂得Token之間的關聯性。傳統上，預訓練主要是讓模型學會續寫和理解語言的邏輯，而微調則是讓模型生成符合人類習慣和規范的文本。

從GPT-3開始，強化學習被引入，最初是為了讓模型對齊人類價值觀，比如避免偏見、暴力等不良內容。但在訓練的過程中，逐漸發現了強化學習在推理領域的潛力。

至于預訓練是否終結，我覺得現在討論還為時尚早。雖然Scaling的曲線沒有那么陡峭了，大家也從強化學習等其他方向，探索提升能力的路徑。但是預訓練本身仍然有效。

薛彥澤: 那目前Scaling Law的瓶頸怎么突破呢？

周博洋: 還是從兩個維度來看。

第一個維度是算力和模型參數的關系。在固定的算力體系下，模型參數和token數量的關系是關鍵。比如，現在有些模型已經接近Scaling Law的極限，但如果能突破這個限制，比如把70B參數的模型和1.4T的數據放大十倍，就會變成700B參數和14T的數據，這其實已經接近一些現有大模型的規模了。不過，像DeepMind這樣的研究機構可能覺得已經達到算力上限了，但OpenAI的模型成長速度其實還能更快。因為現在更受限于多卡互聯訓練時的通信損耗，比如馬斯克提到的十萬卡訓練，效率低主要是因為通信損耗。所以，未來可能需要在算力優化和通信效率上做更多工作。

第二個維度是數據的獲取和利用。現在很多人認為數據挖掘已經到底了。但我們忽略了99%的數據其實不在集中數據里，而是分散在端側設備上，這些數據可能因為安全問題無法聯網，價值也沒被挖掘，這可能是突破Scaling Law瓶頸的一個方向。

2.后訓練、推理語境下的新Scaling Law究竟是什么?

薛彥澤: 后訓練、推理語境下的新Scaling Law究竟是什么?

周博洋:我覺得后訓練和推理語境下的新Scaling Law其實跟“思考時間”有關。思維鏈的產生和我的偶像Donald Norman有關，他在大學癡迷玩德國撲克，這個游戲就是思考的事件越長，獲勝概率才會更高。這跟Alpha Go有點像，它們會花很長時間思考，最終戰勝人類。人類大腦也有快思考和慢思考，簡單的事情比如約喝咖啡，很快就能決定；但復雜的事情比如討論算法，就需要很多中間步驟和時間。

魏新宇: 我覺得后訓練和推理語境下的新Scaling Law，重點在于后訓練的數據質量和獎勵模型的設計。以前是靠增加模型參數和數據量來提升性能，但現在更多是看怎么優化后訓練階段。

現在強化學習領域，獎勵模型的設計也很重要。相當于給模型的答案打分，判斷是否符合人類標準。獎勵方式大概有三種：1. 直接打分：只看答案是否正確來打分；2. 多步驟打分：結合推理步驟和結果一起打分；3. 全步驟打分：每一步都打分，理論上效果最好，但很復雜，實際很難完全實現。

像DeepSeek的話，獎勵模型還會基于一些規則進行打分，比如推理問題和非推理的問題打分規則各有側重。比如訓練醫學問題時，獎勵模型會根據答案是否正確、正確答案出現的次序位置等因素打分，正確答案越靠前，分數越高。

薛彥澤: OpenAI宣布從GPT-5開始就做基礎模型和推理模型的混合模型了，那么，后訓練會推動模型的架構進行變革嗎？

周博洋: 首先，任何架構的模型都可以做推理。我覺得后訓練可能會推動模型架構的變革，但目前的核心還是提升效率，而不是徹底改變模型的本質。

從模型架構的改進來看，比如DeepSeek V3模型使用的MoE技術，MoE把模型的FFN層或MLP層變大，理論上能讓模型更好地學習語義，從而提升性能。但問題在于，如果模型太大，推理時會面臨顯存占用過高的問題。因為推理時模型的參數是固定的，傳統模型會激活所有神經元，即使有些神經元在推理時并不需要，這就會浪費顯存。

為了解決這個問題，MoE技術在訓練時只激活部分“專家”（即MLP子模塊），而不是全部。這樣可以提高效率，但訓練難度也增加了。比如，Llama 3.1模型被認為是MoE模型，但它的訓練者也承認MoE模型很難訓練充分，因為很難確定哪些專家在推理時真正起作用。

DeepSeek V3模型通過一些函數強制實現負載均衡，確保所有專家都能被訓練到，這樣MoE技術才能真正發揮作用。但目前來看，這些改進的核心還是為了提高效率，而不是徹底改變模型的推理方式。模型的變革可能還在路上，目前的重點是讓現有架構更好地支持推理和后訓練。

3.OpenAl o1、o3模型都免費了DeepSeek R1還有優勢嗎?

薛彥澤: OpenAl o1、o3模型都免費了DeepSeek R1還有優勢嗎?沿著這個思路，我們還想了解兩個開源或者說免費的模型，究竟應該如何比較？DeepSeek的核心優勢在哪里？

魏新宇: 我覺得DeepSeek R1還是有優勢的，即使OpenAI的o1、o3模型免費了。首先，免費模型雖然開源，但不一定能滿足所有定制化需求。比如DeepSeek R1雖然模型較大，有600多B，部署需要近1T顯存，但它的推理能力很強，而且在特定領域，比如金融行業，可以通過蒸餾或微調來優化，讓模型更小、推理速度更快。因為從使用體驗看，R1、o3模型有時候推理一個問題需要長達十幾秒甚至更久，這在生產環境中可能難以接受。

其次，企業對數據安全和合規性有很高要求。DeepSeek R1可以通過特定手段確保模型的回答符合人類價值觀和當地法規，比如在中東國家避免涉及某些敏感話題。而開源模型在這方面可能需要額外的定制和優化。

再者，推理效率和高可用性也是關鍵。DeepSeek R1在推理過程中采用了諸如MLA技術等優化手段，通過低秩聯合壓縮等方式節省顯存，提升推理速度。尤其是蒸餾以后，去做垂域模型，比全量模型更適合大規模商業化部署。

所以，開源或免費模型的優勢在于成本低、易獲取，但DeepSeek R1的核心優勢在于推理效率、定制化能力、數據安全性和高可用性。

薛彥澤:DS的橫空出現，會不會改變國內互聯網的競爭格局？

魏新宇：從技術人員的角度來看，我覺得DeepSeek的出現肯定會對國內模型的競爭格局產生影響，但最終的競爭還是會落到整體生態上。現在國內AI市場競爭很激烈，大家都在推各種模型，但模型之間的能力差距其實并沒有那么大。比如，R1可能比其他模型強一些，但并不是說它比其他模型高出一大截，大家的能力其實都差不多。

關鍵在于，企業有沒有自己固有的客戶流量或生態。比如微信接入DS后，可以基于自己的生態推動應用；百度也可以通過地圖等業務，基于模型做附加值的東西。谷歌和微軟也是一樣，谷歌的Gemini有YouTube和其他工具，微軟有自己的辦公軟件生態，這些都是它們的優勢。

本文轉載自??51CTO技術棧??，作者：伊風

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

DeepSeek

Scaling

開源

已于2025-3-14 14:10:25修改

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂

DeepSeek爆火后的新Scaling Law究竟是什么？原創

1.預訓練時代終結了嗎?

2.后訓練、推理語境下的新Scaling Law究竟是什么?

3.OpenAl o1、o3模型都免費了DeepSeek R1還有優勢嗎?

目錄

51CTO

51CTO博客

51CTO學堂

DeepSeek爆火后的新Scaling Law究竟是什么？ 原創

1.預訓練時代終結了嗎?

2.后訓練、推理語境下的新Scaling Law究竟是什么?

3.OpenAl o1、o3模型都免費了DeepSeek R1還有優勢嗎?

目錄

DeepSeek爆火后的新Scaling Law究竟是什么？原創