Meta用40萬個GPU小時做了一個實驗，只為弄清強化學習Scaling Law

2025-10-20 09:05:00

這篇論文是首個關于 LLM 強化學習擴展的開源、大規模系統性研究，其內容非常翔實，結論也足夠有參考價值，因此受到了 Ai2 科學家 Nathan Lambert 等人的強烈推薦。

在 LLM 領域，擴大強化學習算力規模正在成為一個關鍵的研究范式。但要想弄清楚 RL 的 Scaling Law 具體是什么樣子，還有幾個關鍵問題懸而未決：如何 scale？scale 什么是有價值的？RL 真的能如預期般 scale 嗎？

為了解答這些問題，來自 Meta 等機構的研究者做了一個看起來耗資不菲的實驗：用 40 萬 GPU 小時跑出了一張 RL 訓練「說明書」，讓強化學習后訓練不再像碰運氣，讓訓練效果變得可預測。

作者提到，近期的 RL 進展，大多來自對特定算法的孤立研究或個別模型的訓練報告 —— 這些研究往往給出針對具體任務的解決方案，但并沒有提供一套可隨算力擴展的通用方法。由于缺乏系統化的 scaling 理論，研究進展被嚴重限制：由于沒有可靠的方法先驗地識別有前景的強化學習候選方案，科研者只能依賴高昂的大規模實驗，這讓絕大多數學術團隊無法參與其中。

這項研究旨在奠定 RL scaling 的科學基礎，借鑒預訓練階段中早已成熟的「Scaling Law」概念。預訓練領域已經發展出能夠隨算力穩定擴展的算法范式，但 RL 領域尚無明確標準。因此，RL 研究者面臨大量設計抉擇，卻難以回答「應該如何 scale」與「擴展什么」這兩個最基本的問題。

論文標題：The Art of Scaling Reinforcement Learning Compute for LLMs
論文鏈接：https://arxiv.org/pdf/2510.13786

為了解決這一問題，作者提出了一個預測性框架，用以刻畫 RL 性能與算力之間的關系，如公式（1）所示：

具體而言，他們用一種類 sigmoid 的飽和曲線，將在獨立同分布驗證集上的期望獎勵（R_C）與訓練算力（C）聯系起來。曲線中的參數 A 表示漸近性能上限，B 表示算力效率，C_mid 則決定性能曲線的中點。圖 3 對這些參數進行了示意性解釋。

公式（1）中的框架使研究者能夠根據小規模實驗結果推測更大算力下的表現，從而在不耗盡算力預算的前提下評估 RL 方法的可擴展性。

基于該框架，作者設計了 ScaleRL —— 一種能夠隨算力可預測地 scale 的 RL 訓練配方。在一項耗時 10 萬 GPU 小時的大規模實驗中，他們驗證了 ScaleRL 的表現與該框架預測的曲線高度一致（圖 1）。更重要的是，即便只利用訓練初期的數據所外推的曲線，也能準確預測最終性能，證明了該框架在極大算力下的預測能力。

ScaleRL 的設計建立在一項覆蓋超過 40 萬 GPU 小時的系統化實證研究之上（在 Nvidia GB200 GPU 上進行）。該研究在 8B 參數規模的模型上探索了多種設計選擇，每次實驗使用約 1.6 萬 GPU 小時，比最大規模實驗便宜約 6 倍。這項研究總結出三條關鍵原則：

RL 性能上限并非普適：不同方法在算力擴展時會遇到不同的性能天花板（A 值），而這個上限可通過損失函數類型、batch size 等設計選擇進行調整。
擁抱「苦澀的教訓」：在小算力下表現出色的方法，放大到大規模算力時可能效果更差（如圖 2 所示）。通過在訓練早期使用公式（1）中的框架估計參數 A 與 B，可以提前識別真正具有可擴展性的方法。
重新審視常見經驗：許多被認為能提高峰值性能的技巧（如損失聚合、數據課程、長度懲罰、優勢歸一化）主要影響的是算力效率（B），而非最終性能上限。

基于這些洞察，ScaleRL 并未引入新的算法，而是整合了現有的成熟方法以實現可預測的擴展。具體而言，它結合了異步的 Pipeline-RL 結構、生成長度中斷機制、截斷重要性采樣 RL 損失（CISPO）、基于提示的損失平均、batch 級優勢歸一化、FP32 精度的 logits、零方差過濾以及 No-Positive-Resampling 策略。每個組件的作用都通過「留一法」消融實驗驗證，每次實驗耗時約 1.6 萬 GPU 小時。

ScaleRL 不僅能夠穩定擴展，還在性能與效率上都超過了現有 RL 配方。更進一步，當作者在多個訓練維度上（如 2.5 倍的 batch size、更長的生成長度、多任務 RL 以及更大的混合專家模型）增加算力時，ScaleRL 仍保持預測一致性，并能持續提升下游任務表現。總體而言，這項工作建立了一種嚴謹的、可量化的方法論，使研究者能夠以成本更可控的方式預測新的 RL 算法的可擴展性。

以下是論文的詳細內容。

一個關于 RL Scaling 的全面實驗

作者使用一個 8B 稠密模型在可驗證的數學問題上進行強化學習實驗。他們從可預測的計算規模擴展行為角度研究了幾個設計維度，即漸近性能（A）和計算效率（B），如圖 3 所示。

異步強化學習設置

作者首先研究異步的 off-policy RL 訓練結構，因為它決定了訓練的穩定性與算力效率，并且通常獨立于其他設計選擇。具體來說，作者比較了兩種 off-policy 學習方式：PPO-off-policy-k 和 PipelineRL-k。

如圖 4a 所示，PipelineRL 與 PPO-off-policy 在最終的性能上限 (A) 相近，但 PipelineRL 顯著提升了算力效率 (B)，也就是說，它能更快地達到性能天花板 A。這是因為 PipelineRL 減少了訓練過程中 GPU 的空閑時間。該結構能以更少的 token 實現穩定增益，從而在有限算力預算下完成更大規模的實驗。作者還改變了 PipelineRL 的最大 off-policyness 參數 k，發現 k = 8 時性能最佳（如圖 4b 所示），因此后續實驗采用 PipelineRL-8 作為基礎設置。

算法設計選擇

在前述結果的基礎上，作者將 PipelineRL-8 設為新的基線方法，并進一步研究了六個算法設計維度：

損失函數類型
精度修正
損失聚合方式
優勢歸一化
batch 定義方式
數據課程策略

損失函數類型

圖 5a 表明，GSPO 和 CISPO 的表現都顯著優于 DAPO，在最終通過率 A 上有大幅提升。CISPO 在訓練過程中展現出更長時間的線性回報增長趨勢，并在后期略優于 GSPO，因此作者選擇 CISPO 作為 ScaleRL 的最佳損失類型。

LLM Logits 的 FP32 精度

如圖 5b 所示，在 logits 層采用精度修正能顯著提高最終性能 A，從 0.52 提升至 0.61。鑒于這一明顯收益，作者在 ScaleRL 配方中加入 FP32 精度修正。

損失聚合方式

作者比較了不同的損失聚合策略，結果顯示 prompt-average 達到了最高的最終性能（圖 14a），因此 ScaleRL 采用此方式作為默認選項。

優勢歸一化

作者比較了三種優勢歸一化策略：提示級（prompt-level）、batch 級（batch-level）、無歸一化。

圖 14b 的結果顯示，三者性能相近，但 batch 級歸一化在理論上更合理，且略優于其他選項；在后續更大規模的 leave-one-out 實驗中，這一選擇也得到了進一步驗證。

零方差過濾（Zero-Variance Filtering）

圖 6a 中的結果表明，使用「有效 batch」（即過濾掉獎勵方差為零的樣本）可以獲得更好的最終性能，因此作者在 ScaleRL 中采用該策略。

自適應提示過濾

為提高采樣效率，已有多種數據課程策略被提出。作者評估了一種簡單的變體，其核心觀察是：當某個提示對當前策略來說變得過于容易后，它通常會一直保持容易。此類提示雖然仍消耗算力，卻不再提供有價值的梯度信號，因此最好從后續訓練中剔除。

作者的實現方式是：維護每個提示的歷史通過率，一旦某提示的通過率 ≥ 0.9 ，就在之后的訓練周期中永久移除它 —— 他們稱這種策略為 No-Positive-Resampling。圖 6b 顯示，與傳統的「所有提示均勻重采樣」做法相比，這種課程策略能顯著提升 RL 的可擴展性與最終回報 A。

接下來，他們將這些最優選擇整合為一個統一的 RL 配方，稱為 ScaleRL（可擴展強化學習），并在 16,000 GPU 小時規模上進行了留一法消融實驗。

ScaleRL：讓強化學習算力高效且可預測地擴展

基于前面各項設計軸的研究結果，作者將性能最優的配置整合成一個統一配方，稱為 ScaleRL（Scale-able RL）。

ScaleRL 是一種異步強化學習方案，核心特征包括：

使用 PipelineRL 結構，設置 8 步的 off-policyness；
采用基于中斷的長度控制策略來實現序列截斷；
在 logits 計算中使用 FP32 精度；
優化 J_ScaleRL (θ) 損失函數。

該損失函數綜合了以下關鍵設計：

提示級損失聚合
batch 級優勢歸一化
截斷重要性采樣的 REINFORCE 損失（CISPO）
零方差過濾
no-positive resampling

為了驗證上述設計在組合后的有效性，作者進行了留一法（LOO）實驗。實驗結果（如圖 7 所示，規模均為 16,000 GPU 小時）顯示：在所有設計軸上，ScaleRL 一直是最優配置，無論在最終回報還是算力效率上，都略優于任何單項被移除的變體。

RL 在不同算力維度下的可預測回報

在固定或增長的算力預算下，哪一個擴展維度 —— 上下文長度、批大小、每個提示的生成數或模型規模 —— 能帶來最可靠的性能提升？并且，我們能多早預測到這種回報？

作者通過以下步驟回答這一問題：

在訓練早期（精確來說，使用目標算力預算的一半）為每個設定擬合公式 (1) 中的飽和冪律曲線；
將該曲線外推至目標算力預算；
繼續訓練以驗證預測結果。

在所有下述擴展軸上，他們都觀察到干凈、可預測的曲線擬合，其外推結果與延長訓練后的真實軌跡高度吻合 —— 與作者在 100,000 GPU 小時訓練（圖 1）及不同 RL 配方間的交叉對比實驗（圖 2）中觀察到的行為一致。

模型規模（MoE）

ScaleRL 在更大模型上是否仍保持可預測性與穩定性？

當作者使用 ScaleRL 訓練 17B×16 Llama-4 Scout MoE 模型時，結果顯示它與 8B 模型一樣，展現出可預測的擴展行為：具有較低的截斷率（truncation rate）且無訓練不穩定問題。

圖 1 展示了其訓練曲線，延長訓練得到的額外數據點與早期擬合曲線對齊，說明 ScaleRL 的配方在模型規模上具備尺度不變性（model-scale invariance）。此外，17B×16 的 MoE 大模型表現出遠高于 8B 稠密模型的 RL 最終性能（asymptotic performance），并且僅使用了后者 1/6 的 RL 訓練算力。

生成長度

將生成長度從 14k token 增加至 32k token 會在訓練初期放慢進展（即表現為較小的 B 和更高的 C_mid），但最終提升擬合曲線的上限 A，從而在提供足夠算力后獲得更高的最終性能（見圖 9）。

這驗證了長上下文強化學習是一種「提升性能天花板」的手段，而不僅僅是效率上的權衡。

從早期訓練擬合得到的外推曲線能夠準確預測 32k-token 訓練在延長階段的表現。

全局批大小

作者觀察到，小批次訓練在下游任務上會過早停滯，即便其在分布內驗證集上的性能仍在上升。相反，較大的批次能夠穩定地提高性能上限 A，并避免這種停滯。圖 10a 展示了中等規模實驗中的相同趨勢：在訓練初期，小批次似乎表現更好，但隨著算力增加，大批次最終會超越。

在本文最大規模的數學任務（見圖 1）中，將 batch size 提升至 2048 個 prompt 后，不僅穩定了訓練，還使得從 50k GPU 小時擬合的曲線能夠準確外推到最終 100k 小時的結果。

每個提示的生成次數

在固定總批量的前提下，是分配更多提示更好，還是每個提示分配更多生成次數更好？將每個提示的生成次數在 8、16、24、32 之間進行調整，并相應調整提示數量以保持總批量固定，結果顯示擬合的縮放曲線基本沒有變化。這說明在中等批量下，這種分配對性能上限（A）和效率（B）都是次要因素。作者推測，在更大批次（例如超過 2000）時，差異可能會更加明顯 —— 這一方向留待未來研究。

更多細節請參見原論文。

責任編輯：張燕妮來源：機器之心