智能體強化學習新SOTA!阿里通義聯合提出在線過程獎勵學習OPRL,兼容GRPO與PPO
大型語言模型(LLM)正越來越多地通過強化學習(RL)被訓練為能夠在交互環境中進行長周期推理與行動的自主智能體。然而,稀疏且有時不可驗證的獎勵信號使得時序信用分配(temporal credit assignment)變得極具挑戰性。近期研究嘗試將過程監督融入智能體學習,但存在標注偏差、獎勵欺騙(Reward Hacking)、過細粒度信號導致的高方差,以及在狀態重疊稀少時失效等問題。
為此,通義實驗室聯合中國科學院大學、中國科學院自動化研究所的研究者們提出了在線過程獎勵學習(Online Process Reward Learning, OPRL),這是一種適用于智能體強化學習的通用信用分配策略。該方法無需額外的軌跡采樣或顯式的步驟標簽,就能夠無縫集成到標準的on-policy算法中。通過實驗發現,OPRL在多個領域優于前沿的LLM以及強大的RL基線方法,在訓練中以更高的樣本效率和更低的方差取得了SOTA性能。

- 論文標題:Online Process Reward Leanring for Agentic Reinforcement Learning
- 論文鏈接:https://arxiv.org/pdf/2509.19199
1.方法
OPRL引入了一個在線過程獎勵模型(PRM),該PRM與策略交替優化,將傾向于選擇更優動作的趨勢轉化為每個步驟的密集獎勵,從而指導智能體進行細粒度的探索與改進。

圖1展示了OPRL的整體訓練流程:
(1)使用當前策略 πθ 采樣on-policy軌跡。

(2)如圖2所示,這些軌跡由基于規則的驗證器或結果獎勵模型(ORM)進行排序,形成正負軌跡對。并使用基于DPO的目標函數在這些軌跡對上更新PRM。

(3)更新后的PRM通過衡量每個動作相對于先前策略快照(previous policy snapshot)的相對偏好程度,為每個動作生成一個隱式的獎勵。由于該獎勵按回合計算,既能提供密集反饋引導探索,又保持足夠粗粒度以控制方差。

策略優化過程融合兩種互補優勢:結果獎勵的回合級優勢與來自隱式步驟獎勵的步驟級優勢,共同捕捉全局任務成功率與個體動作貢獻度。OPRL兼容PPO、GRPO、RLOO、REINFORCE++等標準on-policy強化學習算法,無需顯式步驟標注或額外rollout成本。

2.評估

如表1所示,在WebShop和VisualSokoban任務中,以Qwen-2.5-7B(-VL)作為基礎模型時,OPRL持續優于閉源的前沿模型和強大的RL基線方法,取得了SOTA結果。
在VisualSokoban上,強化學習算法常因不可逆錯誤和有限前瞻能力而表現不佳。OPRL通過實現更細粒度的信用分配,利用過程獎勵給每個步驟區分動作優劣,相較僅依賴同狀態分組的多輪強化學習方法GiGPO方法展現出更強性能。此外,OPRL將回合級優化與步驟獎勵對齊,而非使用token級別的獎勵,從而在簡化策略學習的同時提升了訓練穩定性,因此優于PRIME方法。

如表2所示,在開放式狀態空間與不可驗證獎勵的SOTOPIA任務上,OPRL仍能取得最優表現。相較于GRPO算法,在self-chat設置下OPRL在困難場景下的目標完成率提升了14%;與GPT-4o對話時OPRL提升達48%(從6.68增至7.16)。這充分證明了OPRL在多樣化交互環境中的魯棒性與泛化能力。


































