Meta用40萬個GPU小時做了一個實驗,只為弄清強化學習Scaling Law
在 LLM 領域,擴大強化學習算力規模正在成為一個關鍵的研究范式。但要想弄清楚 RL 的 Scaling Law 具體是什么樣子,還有幾個關鍵問題懸而未決:如何 scale?scale 什么是有價值的?RL 真的能如預期般 scale 嗎?
為了解答這些問題,來自 Meta 等機構的研究者做了一個看起來耗資不菲的實驗:用 40 萬 GPU 小時跑出了一張 RL 訓練「說明書」,讓強化學習后訓練不再像碰運氣,讓訓練效果變得可預測。

作者提到,近期的 RL 進展,大多來自對特定算法的孤立研究或個別模型的訓練報告 —— 這些研究往往給出針對具體任務的解決方案,但并沒有提供一套可隨算力擴展的通用方法。由于缺乏系統化的 scaling 理論,研究進展被嚴重限制:由于沒有可靠的方法先驗地識別有前景的強化學習候選方案,科研者只能依賴高昂的大規模實驗,這讓絕大多數學術團隊無法參與其中。
這項研究旨在奠定 RL scaling 的科學基礎,借鑒預訓練階段中早已成熟的「Scaling Law」概念。預訓練領域已經發展出能夠隨算力穩定擴展的算法范式,但 RL 領域尚無明確標準。因此,RL 研究者面臨大量設計抉擇,卻難以回答「應該如何 scale」與「擴展什么」這兩個最基本的問題。

- 論文標題:The Art of Scaling Reinforcement Learning Compute for LLMs
- 論文鏈接:https://arxiv.org/pdf/2510.13786
為了解決這一問題,作者提出了一個預測性框架,用以刻畫 RL 性能與算力之間的關系,如公式(1)所示:

具體而言,他們用一種類 sigmoid 的飽和曲線,將在獨立同分布驗證集上的期望獎勵(R_C)與訓練算力(C)聯系起來。曲線中的參數 A 表示漸近性能上限,B 表示算力效率,C_mid 則決定性能曲線的中點。圖 3 對這些參數進行了示意性解釋。

公式(1)中的框架使研究者能夠根據小規模實驗結果推測更大算力下的表現,從而在不耗盡算力預算的前提下評估 RL 方法的可擴展性。
基于該框架,作者設計了 ScaleRL —— 一種能夠隨算力可預測地 scale 的 RL 訓練配方。在一項耗時 10 萬 GPU 小時的大規模實驗中,他們驗證了 ScaleRL 的表現與該框架預測的曲線高度一致(圖 1)。更重要的是,即便只利用訓練初期的數據所外推的曲線,也能準確預測最終性能,證明了該框架在極大算力下的預測能力。

ScaleRL 的設計建立在一項覆蓋超過 40 萬 GPU 小時的系統化實證研究之上(在 Nvidia GB200 GPU 上進行)。該研究在 8B 參數規模的模型上探索了多種設計選擇,每次實驗使用約 1.6 萬 GPU 小時,比最大規模實驗便宜約 6 倍。這項研究總結出三條關鍵原則:
- RL 性能上限并非普適:不同方法在算力擴展時會遇到不同的性能天花板(A 值),而這個上限可通過損失函數類型、batch size 等設計選擇進行調整。
- 擁抱「苦澀的教訓」:在小算力下表現出色的方法,放大到大規模算力時可能效果更差(如圖 2 所示)。通過在訓練早期使用公式(1)中的框架估計參數 A 與 B,可以提前識別真正具有可擴展性的方法。
- 重新審視常見經驗:許多被認為能提高峰值性能的技巧(如損失聚合、數據課程、長度懲罰、優勢歸一化)主要影響的是算力效率(B),而非最終性能上限。

基于這些洞察,ScaleRL 并未引入新的算法,而是整合了現有的成熟方法以實現可預測的擴展。具體而言,它結合了異步的 Pipeline-RL 結構、生成長度中斷機制、截斷重要性采樣 RL 損失(CISPO)、基于提示的損失平均、batch 級優勢歸一化、FP32 精度的 logits、零方差過濾以及 No-Positive-Resampling 策略。每個組件的作用都通過「留一法」消融實驗驗證,每次實驗耗時約 1.6 萬 GPU 小時。
ScaleRL 不僅能夠穩定擴展,還在性能與效率上都超過了現有 RL 配方。更進一步,當作者在多個訓練維度上(如 2.5 倍的 batch size、更長的生成長度、多任務 RL 以及更大的混合專家模型)增加算力時,ScaleRL 仍保持預測一致性,并能持續提升下游任務表現。總體而言,這項工作建立了一種嚴謹的、可量化的方法論,使研究者能夠以成本更可控的方式預測新的 RL 算法的可擴展性。
這篇論文是首個關于 LLM 強化學習擴展的開源、大規模系統性研究,其內容非常翔實,結論也足夠有參考價值,因此受到了 Ai2 科學家 Nathan Lambert 等人的強烈推薦。



以下是論文的詳細內容。
一個關于 RL Scaling 的全面實驗
作者使用一個 8B 稠密模型在可驗證的數學問題上進行強化學習實驗。他們從可預測的計算規模擴展行為角度研究了幾個設計維度,即漸近性能(A)和計算效率(B),如圖 3 所示。
異步強化學習設置
作者首先研究異步的 off-policy RL 訓練結構,因為它決定了訓練的穩定性與算力效率,并且通常獨立于其他設計選擇。具體來說,作者比較了兩種 off-policy 學習方式:PPO-off-policy-k 和 PipelineRL-k。
如圖 4a 所示,PipelineRL 與 PPO-off-policy 在最終的性能上限 (A) 相近,但 PipelineRL 顯著提升了算力效率 (B),也就是說,它能更快地達到性能天花板 A。這是因為 PipelineRL 減少了訓練過程中 GPU 的空閑時間。該結構能以更少的 token 實現穩定增益,從而在有限算力預算下完成更大規模的實驗。作者還改變了 PipelineRL 的最大 off-policyness 參數 k,發現 k = 8 時性能最佳(如圖 4b 所示),因此后續實驗采用 PipelineRL-8 作為基礎設置。

算法設計選擇
在前述結果的基礎上,作者將 PipelineRL-8 設為新的基線方法,并進一步研究了六個算法設計維度:
- 損失函數類型
- 精度修正
- 損失聚合方式
- 優勢歸一化
- batch 定義方式
- 數據課程策略
損失函數類型
圖 5a 表明,GSPO 和 CISPO 的表現都顯著優于 DAPO,在最終通過率 A 上有大幅提升。CISPO 在訓練過程中展現出更長時間的線性回報增長趨勢,并在后期略優于 GSPO,因此作者選擇 CISPO 作為 ScaleRL 的最佳損失類型。

LLM Logits 的 FP32 精度
如圖 5b 所示,在 logits 層采用精度修正能顯著提高最終性能 A,從 0.52 提升至 0.61。鑒于這一明顯收益,作者在 ScaleRL 配方中加入 FP32 精度修正。
損失聚合方式
作者比較了不同的損失聚合策略,結果顯示 prompt-average 達到了最高的最終性能(圖 14a),因此 ScaleRL 采用此方式作為默認選項。

優勢歸一化
作者比較了三種優勢歸一化策略:提示級(prompt-level)、batch 級(batch-level)、 無歸一化。
圖 14b 的結果顯示,三者性能相近,但 batch 級歸一化在理論上更合理,且略優于其他選項;在后續更大規模的 leave-one-out 實驗中,這一選擇也得到了進一步驗證。
零方差過濾(Zero-Variance Filtering)
圖 6a 中的結果表明,使用「有效 batch」(即過濾掉獎勵方差為零的樣本)可以獲得更好的最終性能,因此作者在 ScaleRL 中采用該策略。

自適應提示過濾
為提高采樣效率,已有多種數據課程策略被提出。作者評估了一種簡單的變體,其核心觀察是:當某個提示對當前策略來說變得過于容易后,它通常會一直保持容易。 此類提示雖然仍消耗算力,卻不再提供有價值的梯度信號,因此最好從后續訓練中剔除。
作者的實現方式是:維護每個提示的歷史通過率,一旦某提示的通過率 ≥ 0.9 ,就在之后的訓練周期中永久移除它 —— 他們稱這種策略為 No-Positive-Resampling。 圖 6b 顯示,與傳統的「所有提示均勻重采樣」做法相比,這種課程策略能顯著提升 RL 的可擴展性與最終回報 A。
接下來,他們將這些最優選擇整合為一個統一的 RL 配方,稱為 ScaleRL(可擴展強化學習),并在 16,000 GPU 小時規模上進行了留一法消融實驗。
ScaleRL:讓強化學習算力高效且可預測地擴展
基于前面各項設計軸的研究結果,作者將性能最優的配置整合成一個統一配方,稱為 ScaleRL(Scale-able RL)。
ScaleRL 是一種異步強化學習方案,核心特征包括:
- 使用 PipelineRL 結構,設置 8 步的 off-policyness;
- 采用基于中斷的長度控制策略來實現序列截斷;
- 在 logits 計算中使用 FP32 精度;
- 優化 J_ScaleRL (θ) 損失函數。
該損失函數綜合了以下關鍵設計:
- 提示級損失聚合
- batch 級優勢歸一化
- 截斷重要性采樣的 REINFORCE 損失(CISPO)
- 零方差過濾
- no-positive resampling

為了驗證上述設計在組合后的有效性,作者進行了留一法(LOO)實驗。實驗結果(如圖 7 所示,規模均為 16,000 GPU 小時)顯示:在所有設計軸上,ScaleRL 一直是最優配置,無論在最終回報還是算力效率上,都略優于任何單項被移除的變體。

RL 在不同算力維度下的可預測回報
在固定或增長的算力預算下,哪一個擴展維度 —— 上下文長度、批大小、每個提示的生成數或模型規模 —— 能帶來最可靠的性能提升? 并且,我們能多早預測到這種回報?
作者通過以下步驟回答這一問題:
- 在訓練早期(精確來說,使用目標算力預算的一半)為每個設定擬合公式 (1) 中的飽和冪律曲線;
- 將該曲線外推至目標算力預算;
- 繼續訓練以驗證預測結果。
在所有下述擴展軸上,他們都觀察到干凈、可預測的曲線擬合,其外推結果與延長訓練后的真實軌跡高度吻合 —— 與作者在 100,000 GPU 小時訓練(圖 1)及不同 RL 配方間的交叉對比實驗(圖 2)中觀察到的行為一致。
模型規模(MoE)
ScaleRL 在更大模型上是否仍保持可預測性與穩定性?
當作者使用 ScaleRL 訓練 17B×16 Llama-4 Scout MoE 模型時,結果顯示它與 8B 模型一樣,展現出可預測的擴展行為:具有較低的截斷率(truncation rate)且無訓練不穩定問題。
圖 1 展示了其訓練曲線,延長訓練得到的額外數據點與早期擬合曲線對齊,說明 ScaleRL 的配方在模型規模上具備尺度不變性(model-scale invariance)。此外,17B×16 的 MoE 大模型表現出遠高于 8B 稠密模型的 RL 最終性能(asymptotic performance),并且僅使用了后者 1/6 的 RL 訓練算力。
生成長度
將生成長度從 14k token 增加至 32k token 會在訓練初期放慢進展(即表現為較小的 B 和更高的 C_mid),但最終提升擬合曲線的上限 A, 從而在提供足夠算力后獲得更高的最終性能(見圖 9)。
這驗證了長上下文強化學習是一種「提升性能天花板」的手段,而不僅僅是效率上的權衡。
從早期訓練擬合得到的外推曲線能夠準確預測 32k-token 訓練在延長階段的表現。

全局批大小
作者觀察到,小批次訓練在下游任務上會過早停滯,即便其在分布內驗證集上的性能仍在上升。相反,較大的批次 能夠穩定地提高性能上限 A,并避免這種停滯。圖 10a 展示了中等規模實驗中的相同趨勢:在訓練初期,小批次似乎表現更好,但隨著算力增加,大批次最終會超越。

在本文最大規模的數學任務(見圖 1)中,將 batch size 提升至 2048 個 prompt 后,不僅穩定了訓練,還使得從 50k GPU 小時擬合的曲線能夠準確外推到最終 100k 小時的結果。
每個提示的生成次數
在固定總批量的前提下,是分配更多提示更好,還是每個提示分配更多生成次數更好?將每個提示的生成次數在 8、16、24、32 之間進行調整,并相應調整提示數量以保持總批量固定,結果顯示擬合的縮放曲線基本沒有變化。這說明在中等批量下,這種分配對性能上限(A)和效率(B)都是次要因素。作者推測,在更大批次(例如超過 2000)時,差異可能會更加明顯 —— 這一方向留待未來研究。
更多細節請參見原論文。


































