RL微調(diào),關鍵在前10%獎勵!基于評分準則,Scale AI等提出新方法
讓大模型按照人類意圖行事,一直是AI領域的核心挑戰(zhàn)。目前主流的強化學習微調(diào)(RFT)方法雖然有效,但存在一個致命弱點:獎勵過度優(yōu)化(reward over-optimization)。
獎勵過度優(yōu)化是大模型對齊的「阿喀琉斯之踵」。
簡單來說,就是模型學會了「鉆空子」——它們不是真正變得更好,而是學會了如何在獎勵模型上刷高分,實際輸出質(zhì)量反而下降。這就像考試時學生死記硬背標準答案來應付老師,而不是真正理解知識。
Scale AI的最新研究直擊這一痛點,從理論層面揭示了問題的根源,并提出了創(chuàng)新的解決方案。

論文鏈接:https://arxiv.org/abs/2509.21500
代碼開源:https://github.com/Jun-Kai-Zhang/rubrics
數(shù)據(jù)開源:https://huggingface.co/datasets/JunkaiZ/Rubrics
理論突破
高分區(qū)才是關鍵戰(zhàn)場
來自Scale AI、UCLA和芝加哥大學的研究團隊,首次從理論上給出了明確答案:
獎勵過度優(yōu)化的根源,在于獎勵模型在高分區(qū)的不準確性。
- 高獎勵區(qū)域的準確性決定一切:當代理獎勵在高分區(qū)域出現(xiàn)偏差時,模型性能會隨著訓練進程急劇崩潰;而低分區(qū)域的誤差影響微乎其微。
- 只需要準確識別Top 2響應:即使只能正確排序前10%的優(yōu)質(zhì)回答,模型性能就能接近最優(yōu),效果幾乎與完美獎勵模型相當。
這意味著:我們不需要在所有回復上都準確,只需要準確區(qū)分「優(yōu)秀」和「卓越」!

方法創(chuàng)新
用評分準則捕捉「卓越」
理論清晰了,但新問題來了:如何獲得高質(zhì)量樣本來訓練獎勵模型?這里存在一個悖論:
從基礎模型采樣?太低效了——高分樣本本來就稀少。
用更強模型生成?又會引入分布偏移——獎勵模型可能學到的是表面特征而非真實能力。
研究團隊提出了基于評分準則(rubric)的解決方案。評分準則是一組衡量回答好壞的明確準則,每個準則都有相應權重。比如對于醫(yī)療診斷問題,可能包括:
高權重準則:「正確識別疾病」「標明緊急程度」
低權重準則:「提及治療方案」
Rubric的核心優(yōu)勢在于:
- 將評分分解為多個可驗證的具體標準
- 每個標準都是二元判斷(滿足/不滿足)
- 最終得分是滿足標準的加權平均
更重要的是,Rubric天然具有分布不變性——它關注的是回復本身的質(zhì)量特征,而非生成來源。

兩大原則:如何構建有效的Rubric
為了讓Rubric真正捕捉高分區(qū)的差異,研究團隊提出兩大關鍵原則:
- 原則1:區(qū)分「優(yōu)秀」與「卓越」。通過對比兩個都很好的回答,識別它們的細微差異,將這些差異編碼為新的評分準則。
- 原則2:在多樣化的優(yōu)質(zhì)回答中尋找差異。擴大候選池,從16個頂尖模型中采樣,確保覆蓋不同的優(yōu)秀回答模式。

實驗驗證
全面碾壓基線方法
研究在通用和醫(yī)療兩個領域進行了大規(guī)模實驗:
性能提升明顯
- 使用優(yōu)質(zhì)樣本改進的評分準則,勝率從31.3%提升至39.7%
- 醫(yī)療領域的HealthBench得分從0.3004提升至0.3513
有效緩解獎勵過度優(yōu)化
- 初始評分準則訓練的模型在60步后性能急劇下降
- 改進后的評分準則將崩潰點推遲到160步,延長了近3倍

高獎勵區(qū)域準確率大幅提升
評分準則改進后,在高獎勵區(qū)域的準確率提升顯著,而低獎勵區(qū)域的準確率基本不變,完美驗證了理論預測。
質(zhì)的飛躍:優(yōu)秀樣本帶來更深層的改進
研究團隊還分析了不同質(zhì)量樣本帶來的Rubric改進類型:
優(yōu)秀樣本驅(qū)動的改進:
- 添加懲罰項,避免明顯錯誤
- 放寬過于嚴格的標準
- 糾正錯誤或?qū)R預期標準
卓越樣本驅(qū)動的改進:
- 將復雜標準分解為子標準
- 增強驗證和證據(jù)標準
- 明確范圍、邊界和約束
- 納入風險分析和安全約束
以醫(yī)療案例為例:
初始Rubric只要求「提到正確診斷」和「說明緊急性」——兩個優(yōu)秀回復都滿足。
精煉后的Rubric新增標準:「明確指出需要緊急影像學檢查(如增強CT或MRI/MRV)來確認診斷」,成功區(qū)分出了更好的那個。
這就是質(zhì)的飛躍:從表面判斷到深層驗證標準。
產(chǎn)業(yè)意義與展望
這項研究為大模型對齊提供了全新視角:
- 理論指導實踐:明確了獎勵建模的優(yōu)化方向——聚焦高獎勵區(qū)域
- 方法可操作性強:基于評分準則的方法易于實施和解釋
- 領域適應性好:在醫(yī)療等專業(yè)領域表現(xiàn)尤其出色
當然,研究也指出了當前的局限:
- 簡單的加權平均可能不是最優(yōu)的分數(shù)聚合方式
對于大模型從業(yè)者來說,這項工作提供了一個清晰的方向:
不要試圖在所有地方都完美,專注于準確區(qū)分頂尖回復,這才是對齊的關鍵。

































