零外部數(shù)據(jù)自我進化大模型訓練框架-R-Zero框架訓練思路 原創(chuàng)
現(xiàn)有自進化 LLMs 的訓練嚴重依賴人類標注的任務和標簽(通過微調(diào)或強化學習等方式),成本高、難以擴展。

(左):R-Zero 在挑戰(zhàn)者和求解者之間采用了協(xié)同演化環(huán)。(右):R-Zero 在沒有任何預定義任務或人類標簽的情況下實現(xiàn)了顯著的基準提升。
提出了 R-Zero 框架,從零外部數(shù)據(jù)出發(fā),通過初始化具有不同角色的 Challenger(挑戰(zhàn)者)和 Solver(求解者),讓兩者獨立優(yōu)化并協(xié)同進化:Challenger 因生成接近 Solver 能力邊緣的任務而獲得獎勵,Solver 因解決 Challenger 提出的日益困難的任務而獲得獎勵,形成無需預先存在的任務和標簽的自我提升課程,最終提升 LLMs 的推理能力。
方法
R-Zero框架的核心是Challenger和Solver雙角色協(xié)同進化循環(huán):Challenger和Solver均從同一個基礎LLM初始化,二者獨立優(yōu)化但通過迭代交互共同進化。

R-Zero 框架
如上圖,頂部:Challenger通過GRPO算法訓練,生成對當前Solver具有挑戰(zhàn)性的問題;基于這些問題,通過過濾策略和多數(shù)投票機制構建問答數(shù)據(jù)集;底部:在求解器訓練階段,求解器在由現(xiàn)已凍結的挑戰(zhàn)者生成的這些難題的過濾集上,使用其自身投票得出的偽標簽,通過 GRPO 進行微調(diào)。整個過程無需人工干預,形成“生成問題→訓練求解→提升能力→生成更難問題”的自循環(huán),最終實現(xiàn)Solver推理能力的持續(xù)提升。
1、Challenger訓練
Challenger的目標是生成接近Solver能力邊緣的問題(既不過于簡單也不過于困難),其核心是設計合理的獎勵函數(shù)引導生成高質(zhì)量問題,下面看看獎勵函數(shù)設計:
1.1 不確定性獎勵
獎勵Challenger生成能讓Solver“最大化不確定”的問題。具體計算方式:

1.2 重復懲罰
為避免Challenger生成語義相似的問題,引入基于BLEU分數(shù)的重復懲罰:

1.3 格式檢查懲罰
和dpsk一樣,要求Challenger生成的問題必須包裹在??<question>???和??</question>??標簽內(nèi),未遵守格式的問題直接被賦予0獎勵,確保數(shù)據(jù)結構規(guī)范。
1.4 綜合獎勵與策略更新

Challenger階段提示詞:

訓練參數(shù):

2 Solver數(shù)據(jù)集構建
Challenger更新后,需構建用于訓練Solver的數(shù)據(jù)集,核心是篩選“難度適中”的問題:

3 Solver訓練

Solver階段提示詞:

訓練參數(shù):

實驗性能


參考文獻:R-Zero: Self-Evolving Reasoning LLM from Zero Data,https://arxiv.org/pdf/2508.05004repo:https://github.com/Chengsong-Huang/R-Zero
本文轉(zhuǎn)載自??大模型自然語言處理?? 作者:llmnlp

















