「重要性采樣」并不「重要」?快手清華ASPO攻克重要性采樣權重錯配
從ChatGPT到DeepSeek,強化學習(Reinforcement Learning, RL)已成為大語言模型(LLM)后訓練的關鍵一環。
然而,隨著模型參數規模的不斷擴大,一個長期被忽視的問題正悄然成為性能瓶頸:重要性采樣真的「重要」嗎?
近期,由快手與清華合作的研究團隊發現,現有的結果監督強化學習范式存在一種深層次的權重錯配現象,它不僅讓模型「過度自信」,甚至可能導致熵坍縮與訓練早熟收斂。
為此,他們提出了一種簡單但有效的算法:ASPO(Asymmetric Importance Sampling Policy Optimization)。

「重要性采樣」其實并不重要
在強化學習中,重要性采樣(Importance Sampling, IS)用于修正舊策略與新策略之間的分布差異,從而讓模型能「重用舊數據」而不偏離目標分布。
在小規模強化學習中,這個理論確實有效;然而,在大語言模型的結果監督強化學習中,這一機制卻開始「失靈」。
研究團隊通過實驗證明:
在GRPO類算法中,IS不僅沒有帶來分布修正的好處,反而成為引發訓練不穩定的元兇。
研究者在實驗中對比了兩種做法:
- 保留原始的IS權重;
- 完全移除IS權重,將其全部設置為1.0。
結果令人驚訝:
- 兩種方法在最終準確率上幾乎沒有差異;
- 移除IS后的模型訓練曲線反而更加平滑、穩定;
- 熵值下降速度放緩,重復率降低,KL散度更穩定。

為什么會出現這種現象?
其一,結果監督強化學習中的優勢值本身就是不準確的:一方面,不同token對最終答案的貢獻是不同的,它們的優勢值不應該相同;另一方面,正確的回答中可能包含不正確的推理步驟,這些錯誤步驟的優勢值甚至是相反的。
其二,如下圖所示,正優勢token的平均IS權重高于負優勢token,學習高概率正優勢token導致熵下降。

上述分析說明,IS在結果監督強化學習算法中不再是「校正項」,而是變成了token級的權重。
放大權重錯配的真相:被放大的「正樣本」
研究團隊進一步深入分析發現,IS權重在LLM場景下出現了非對稱性錯誤:
- 對于負優勢token,IS權重的變化符合預期:在舊策略概率一定時,當前概率較高,其IS權重也較高,起到合理的抑制作用;
- 但對于正優勢token,權重分布卻完全反了:在舊策略概率一定時,當前概率越高的token權重越高,概率越低的token權重越低。
也就是說,模型在更新時,會進一步強化那些已經「高分」的token,而忽視那些仍然需要改進的低概率token。這種偏差不斷積累,形成一種自我強化循環(self-reinforcing loop),最終導致模型陷入局部最優、輸出重復、甚至熵崩塌。
上述權重錯配問題在三維空間下清晰可見:

在舊策略概率一定時,當前高概率token的更新權重居高不下,而低概率token被壓制至幾乎無梯度更新。結果是模型的行為因此逐漸僵化——「越來越像自己」,但也越來越缺乏探索與多樣性。
核心思想:翻轉正樣本權重
ASPO的核心創新,正如其名所示,是一次「不對稱翻轉」(Asymmetric Importance Sampling,AIS)。
它將正優勢token的重要性采樣權重取倒數,讓低概率token得到更強的更新,而高概率token被適當削弱:

其中,sg(·)表示停止梯度操作。
在此基礎上,ASPO還引入了一個Dual-Clipping(軟雙重裁剪)機制,用于裁剪掉翻轉正樣本權重后導致的極端值。在裁剪過程中,ASPO采用了類似CISPO中的軟裁剪方法,既限制了極端比率導致的不穩定,又保留了正樣本梯度的有效流動。
此外,對于所有token,ASPO仍保留原有的硬裁剪機制,對IS比例大于1+ε的正樣本和IS比例小于1-ε的負樣本裁剪值和梯度。
通過梯度分析,研究者發現:
ASPO在梯度上翻轉了IS權重項,使梯度與token概率的倒數成正比,即概率越低的token,更新的梯度越大,增大低概率token的學習力度。

實驗結果:更強、更穩
在一系列數學推理(AIME24/25、AMC23、MATH-500、Minerva、Olympiad)和代碼生成(LiveCodeBench v5/v6)基準測試中,ASPO展現出顯著優勢:
- 相比于base model,數學任務平均性能提升 12.5%,代碼生成任務平均性能提升 17.0%;
- 訓練過程更平滑,無明顯熵坍塌;
- 在代碼基準LiveCodeBench v5上,ASPO達到了31.5 avg@8 / 47.0 pass@8的成績,領先主流RL方法(DAPO、DeepScaleR、Nemotron等)。


訓練動力學分析
不僅如此,ASPO的訓練曲線也展現出前所未有的穩定性:
- 熵下降更平緩——避免了傳統算法中的「熵坍縮」問題;
- 重復率更低——輸出更加多樣;
- KL散度與Clip Ratio穩定;
- 訓練過程無明顯震蕩,表現出典型的「健康收斂」特征。

論文鏈接:
https://arxiv.org/abs/2510.06062
GitHub:
https://github.com/wizard-III/Archer2.0
HuggingFace:
https://huggingface.co/collections/Fate-Zero/archer20-68b945c878768a27941fd7b6





















