讓強化學習不再燒冤枉算力:Meta提出可預測的RL擴展公式 ScaleRL
這篇來自 Meta的論文(The Art of Scaling Reinforcement Learning Compute for LLMs)是迄今為止關于 強化學習(RL)在大語言模型(LLM)中如何隨規模擴展 的最深入研究之一。論文耗費了 超過 40 萬 GPU 小時的實驗,找到了一個 可預測的擴展規律 和一套 穩定可復現的訓練配方(ScaleRL),能夠在計算資源增加時持續奏效。可以將其視為一份 實用指南 —— 適用于任何想用 RL 訓練推理或對齊模型的人。


洞見:RL 的進步遵循可預測的曲線:當你將 模型性能與計算量 作圖時,增長并不是隨機的,而是呈現出一個 S 形(sigmoid)曲線。
這條曲線只由三個簡單參數決定:
?A = 最終能達到的最佳性能上限
?B = 達到該上限的效率
?C_mid = 到達性能一半所需的計算量
令人驚嘆的是:你只需在小規模實驗上擬合這條曲線,就能準確預測一次 10 萬 GPU 小時大規模訓練的表現。這意味著——再也不用盲目燒算力,可以在訓練前預測 RL 的極限性能。

“ScaleRL”——一套經驗證的穩定 RL 方案:論文測試了數十種 RL 變體,最終找到一種可以穩定擴展到 10 萬 GPU 小時的組合方案:
?PipelineRL(8 條流水線) + CISPO 損失函數(一種穩定化的 REINFORCE 變體)
?Prompt 級平均 + Batch 級歸一化 → 降低方差
?FP32 logits → 更高穩定性和更優最終精度
?No-Positive-Resampling 課程策略 → 避免獎勵投機(reward hacking)
?強制中斷(截斷長思考) → 取代對長輸出的懲罰
這種組合被稱為 ScaleRL,實現了在穩定性、樣本效率和極限性能之間的最佳平衡。


提升 RL 結果的關鍵因素:并非所有技巧都同等重要:
?損失函數與精度 是最關鍵的:CISPO + FP32 logits 將最終通過率從約 52% 提升到 61%。
?歸一化、聚合與課程策略 主要影響收斂速度(效率),而非最終性能上限。
?一些看似先進的變體(如 GRPO、DAPO、Magistral)在擴展后表現不如 ScaleRL。


訓練擴展的實用建議:若你計劃進行大規模 RL 訓練:
?更長上下文窗口(至 32k tokens) → 提升最終性能,但會拖慢早期訓練。
?更大的全局 batch size → 提升穩定性和最終精度;小 batch 容易陷入停滯。
?更大的模型或 MoE 模型 → 以更少計算量獲得更高獎勵上限。
?每個 prompt 生成更多樣本 → 略有幫助,但遠不如想象中重要。



指南
?使用 1000 條 prompt 的驗證集,實時監控模型通過率曲線。
?盡早擬合 sigmoid 曲線,判斷是否在浪費算力。
?關注 截斷率(若輸出頻繁被中斷,說明訓練不穩定)。
?優先中斷長輸出,而非懲罰它們。
?選擇訓練方案時,應 先優化上限性能(A),再微調 效率(B)。
本文轉載自??AI帝國??,作者:無影寺

















