快手提出強化學習創新框架RLEP,突破大模型推理瓶頸
OpenAI的GPT系列、DeepSeek R1以及Qwen等模型,都通過強化學習(RL)技術顯著提升了推理能力。強化學習通過獎勵機制引導模型探索最優解,但這一過程面臨著諸多挑戰,例如,訓練不穩定、策略漂移等問題。
為了解決這些難題,快手科技的Klear團隊提出了創新框架RLEP,通過收集已驗證的優質軌跡并在后續訓練中重放,顯著提升了大模型訓練效率和最終性能。

RLEP框架的核心思想是將經驗回放技術引入到大型語言模型的強化學習訓練中。這一思想的靈感來源于人類學習的過程:當我們面臨復雜的任務時,往往會從過去的成功經驗中汲取智慧,避免重復犯錯,從而更高效地達成目標。
在強化學習中,模型通過不斷地探索和試錯來學習最優策略,但這一過程往往伴隨著大量的無效探索和策略的不穩定。RLEP通過記錄模型在訓練過程中成功探索到的高質量推理路徑,并在后續的訓練中重新利用這些路徑,使得模型能夠快速恢復之前的最佳性能,并在此基礎上進一步提升。

RLEP框架分為經驗收集和基于回放的訓練兩大階段。經驗收集階段是整個流程的基礎。這一階段的目標是從模型的初始策略出發,探索并記錄那些能夠成功解決問題的推理路徑。具體來說,對于每一個輸入問題,模型會根據當前的策略生成一組候選答案,這些答案通常是以推理軌跡的形式呈現,包含了從問題到答案的完整推理過程。
然后,通過一個獎勵模型對這些候選答案進行驗證,判斷哪些答案是正確的。這些驗證通過的軌跡,也就是成功軌跡,會被保留下來,并存儲到經驗池中。
經驗池的構建是RLEP框架的關鍵之一。不僅保存了模型在早期訓練中發現的有效推理路徑,還為后續的回放訓練提供了豐富的素材。在經驗收集階段,模型會不斷地探索新的路徑,并將成功路徑添加到經驗池中。這個過程就像是模型在“標記”那些能夠成功解決問題的路徑,為后續的訓練提供了一個可靠的“地圖”。通過這種方式,經驗池逐漸積累了大量高質量的推理路徑,為后續的回放訓練奠定了堅實的基礎。

在經驗收集階段構建了經驗池之后,RLEP框架進入基于回放的訓練階段。這一階段的目標是通過回放經驗池中的成功軌跡,快速恢復模型之前的最佳性能,并在此基礎上進一步提升模型的性能。
在每次訓練更新時,模型會生成一組新的推理軌跡,這些軌跡是基于當前策略生成的,包含了模型對當前問題的理解和推理。同時,模型還會從經驗池中隨機抽取一部分成功軌跡,并將這些軌跡與新生成的軌跡混合在一起。然后,模型根據這些混合軌跡計算優勢函數并更新策略。
回放訓練階段的關鍵在于如何平衡鞏固知識和探索新路徑之間的關系。一方面,通過回放經驗池中的成功軌跡,模型能夠快速恢復之前學到的有效知識,避免在無效的路徑上浪費時間。這就好比登山者在攀登過程中,沿著之前標記的路徑前進,能夠更快地達到已知的高點。
另一方面,模型仍然會生成新的推理軌跡,這使得模型有機會探索新的路徑,發現更優的解決方案。這種混合的方式既保證了模型能夠充分利用之前的經驗,又不會陷入局部最優,從而實現更快的收斂和更高的最終性能。

此外,為了進一步提高GRPO的穩定性和效率,RLEP使用了兩種優化策略。首先是token-mean策略,它通過逐token計算對數概率比,而不是在整個序列上進行平均,從而避免了長序列在整體平均時被低估的問題。這種策略能夠更好地保留長序列的學習信號,使得模型在處理長推理路徑時更加有效。
clip-higher策略通過不對稱地裁剪正優勢軌跡的上界,防止了探索空間的坍塌。這種策略在保持模型探索能力的同時,也避免了模型過度依賴某些高獎勵的路徑,從而平衡了利用與探索的關系。


































