RL微調(diào)，關鍵在前10%獎勵！基于評分準則，Scale AI等提出新方法

2025-10-17 09:56:05

大模型強化學習總是「用力過猛」？Scale AI聯(lián)合UCLA、芝加哥大學的研究團隊提出了一種基于評分準則（rubric）的獎勵建模新方法，從理論和實驗兩個維度證明：要想讓大模型對齊效果好，關鍵在于準確區(qū)分「優(yōu)秀」和「卓越」的回答。這項研究不僅揭示了獎勵過度優(yōu)化的根源，還提供了實用的解決方案。

讓大模型按照人類意圖行事，一直是AI領域的核心挑戰(zhàn)。目前主流的強化學習微調(diào)（RFT）方法雖然有效，但存在一個致命弱點：獎勵過度優(yōu)化（reward over-optimization）。

獎勵過度優(yōu)化是大模型對齊的「阿喀琉斯之踵」。

簡單來說，就是模型學會了「鉆空子」——它們不是真正變得更好，而是學會了如何在獎勵模型上刷高分，實際輸出質(zhì)量反而下降。這就像考試時學生死記硬背標準答案來應付老師，而不是真正理解知識。

Scale AI的最新研究直擊這一痛點，從理論層面揭示了問題的根源，并提出了創(chuàng)新的解決方案。

論文鏈接：https://arxiv.org/abs/2509.21500

代碼開源：https://github.com/Jun-Kai-Zhang/rubrics

數(shù)據(jù)開源：https://huggingface.co/datasets/JunkaiZ/Rubrics

理論突破

高分區(qū)才是關鍵戰(zhàn)場

來自Scale AI、UCLA和芝加哥大學的研究團隊，首次從理論上給出了明確答案：

獎勵過度優(yōu)化的根源，在于獎勵模型在高分區(qū)的不準確性。

高獎勵區(qū)域的準確性決定一切：當代理獎勵在高分區(qū)域出現(xiàn)偏差時，模型性能會隨著訓練進程急劇崩潰；而低分區(qū)域的誤差影響微乎其微。
只需要準確識別Top 2響應：即使只能正確排序前10%的優(yōu)質(zhì)回答，模型性能就能接近最優(yōu)，效果幾乎與完美獎勵模型相當。

這意味著：我們不需要在所有回復上都準確，只需要準確區(qū)分「優(yōu)秀」和「卓越」!

方法創(chuàng)新

用評分準則捕捉「卓越」

理論清晰了,但新問題來了：如何獲得高質(zhì)量樣本來訓練獎勵模型？這里存在一個悖論：

從基礎模型采樣？太低效了——高分樣本本來就稀少。

用更強模型生成？又會引入分布偏移——獎勵模型可能學到的是表面特征而非真實能力。

研究團隊提出了基于評分準則（rubric）的解決方案。評分準則是一組衡量回答好壞的明確準則，每個準則都有相應權重。比如對于醫(yī)療診斷問題，可能包括：

高權重準則：「正確識別疾病」「標明緊急程度」

低權重準則：「提及治療方案」

Rubric的核心優(yōu)勢在于：

將評分分解為多個可驗證的具體標準
每個標準都是二元判斷（滿足/不滿足）
最終得分是滿足標準的加權平均

更重要的是,Rubric天然具有分布不變性——它關注的是回復本身的質(zhì)量特征,而非生成來源。

兩大原則：如何構建有效的Rubric

為了讓Rubric真正捕捉高分區(qū)的差異，研究團隊提出兩大關鍵原則：

原則1：區(qū)分「優(yōu)秀」與「卓越」。通過對比兩個都很好的回答，識別它們的細微差異，將這些差異編碼為新的評分準則。
原則2：在多樣化的優(yōu)質(zhì)回答中尋找差異。擴大候選池，從16個頂尖模型中采樣，確保覆蓋不同的優(yōu)秀回答模式。

實驗驗證

全面碾壓基線方法

研究在通用和醫(yī)療兩個領域進行了大規(guī)模實驗：

性能提升明顯

使用優(yōu)質(zhì)樣本改進的評分準則，勝率從31.3%提升至39.7%
醫(yī)療領域的HealthBench得分從0.3004提升至0.3513

有效緩解獎勵過度優(yōu)化

初始評分準則訓練的模型在60步后性能急劇下降
改進后的評分準則將崩潰點推遲到160步，延長了近3倍

高獎勵區(qū)域準確率大幅提升

評分準則改進后，在高獎勵區(qū)域的準確率提升顯著，而低獎勵區(qū)域的準確率基本不變，完美驗證了理論預測。

質(zhì)的飛躍：優(yōu)秀樣本帶來更深層的改進

研究團隊還分析了不同質(zhì)量樣本帶來的Rubric改進類型：

優(yōu)秀樣本驅(qū)動的改進：

添加懲罰項，避免明顯錯誤
放寬過于嚴格的標準
糾正錯誤或?qū)R預期標準

卓越樣本驅(qū)動的改進：

將復雜標準分解為子標準
增強驗證和證據(jù)標準
明確范圍、邊界和約束
納入風險分析和安全約束

以醫(yī)療案例為例：

初始Rubric只要求「提到正確診斷」和「說明緊急性」——兩個優(yōu)秀回復都滿足。

精煉后的Rubric新增標準：「明確指出需要緊急影像學檢查（如增強CT或MRI/MRV）來確認診斷」，成功區(qū)分出了更好的那個。

這就是質(zhì)的飛躍：從表面判斷到深層驗證標準。

產(chǎn)業(yè)意義與展望

這項研究為大模型對齊提供了全新視角：

理論指導實踐：明確了獎勵建模的優(yōu)化方向——聚焦高獎勵區(qū)域
方法可操作性強：基于評分準則的方法易于實施和解釋
領域適應性好：在醫(yī)療等專業(yè)領域表現(xiàn)尤其出色

當然，研究也指出了當前的局限：

簡單的加權平均可能不是最優(yōu)的分數(shù)聚合方式

對于大模型從業(yè)者來說，這項工作提供了一個清晰的方向：

不要試圖在所有地方都完美，專注于準確區(qū)分頂尖回復，這才是對齊的關鍵。

責任編輯：張燕妮來源：新智元

AI 強化學習模型