精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

DeepSeek 技術(shù)解析:LLM 訓(xùn)練中的強(qiáng)化學(xué)習(xí)算法

人工智能
為確保本文自成體系并闡明 GRPO 的理論基礎(chǔ),我們將首先介紹強(qiáng)化學(xué)習(xí)的基礎(chǔ)概念,重點(diǎn)解析強(qiáng)化學(xué)習(xí)(RL)及基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)在 LLM 訓(xùn)練中的核心作用。

我們將深入探討 DeepSeek 模型訓(xùn)練策略中的關(guān)鍵創(chuàng)新之一[1, 2]:群組相對(duì)策略優(yōu)化(Grouped Relative Policy Optimization,GRPO)[3]。

為確保本文自成體系并闡明 GRPO 的理論基礎(chǔ),我們將首先介紹強(qiáng)化學(xué)習(xí)的基礎(chǔ)概念,重點(diǎn)解析強(qiáng)化學(xué)習(xí)(RL)及基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)在 LLM 訓(xùn)練中的核心作用。接著我們將探討不同的強(qiáng)化學(xué)習(xí)范式,包括基于價(jià)值的強(qiáng)化學(xué)習(xí)、基于策略的強(qiáng)化學(xué)習(xí)和 Actor-Critic 強(qiáng)化學(xué)習(xí),回顧經(jīng)典算法如置信域策略優(yōu)化(TRPO)和近端策略優(yōu)化(PPO),最后解析 GRPO 帶來的優(yōu)化創(chuàng)新。

本文目錄結(jié)構(gòu):

  • 技術(shù)背景:闡釋 LLM 訓(xùn)練為何需要強(qiáng)化學(xué)習(xí),以及強(qiáng)化學(xué)習(xí)和基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)的工作原理
  • 強(qiáng)化學(xué)習(xí)范式:解析并對(duì)比基于價(jià)值的強(qiáng)化學(xué)習(xí)、基于策略的強(qiáng)化學(xué)習(xí)和 Actor-Critic 強(qiáng)化學(xué)習(xí)范式
  • GRPO:先回顧 TRPO 和 PPO,再詳解 GRPO 如何對(duì) PPO 進(jìn)行優(yōu)化改進(jìn)
  • 總結(jié)
  • 參考文獻(xiàn)

1.技術(shù)背景

1.1 為什么在大語言模型訓(xùn)練中需要強(qiáng)化學(xué)習(xí)

在將強(qiáng)化學(xué)習(xí)引入大語言模型訓(xùn)練之前,自然語言處理模型的訓(xùn)練通常分為兩個(gè)階段,即通常所說的「預(yù)訓(xùn)練(Pre-training)和微調(diào)(finetuning)」范式:

  • 預(yù)訓(xùn)練階段:通過在大量文本語料上進(jìn)行無監(jiān)督目標(biāo)訓(xùn)練(如預(yù)測(cè)缺失的 token),幫助模型建立對(duì)語言的整體理解。
  • 監(jiān)督微調(diào)階段:使用人工標(biāo)注的數(shù)據(jù)集進(jìn)行訓(xùn)練,使模型適應(yīng)問題解答等特定任務(wù),生成更有用且更有條理的輸出。

然而,即使完成這兩個(gè)階段的訓(xùn)練,大語言模型生成的回答仍常常與人類的偏好不一致。典型問題包括:產(chǎn)生不準(zhǔn)確的信息(幻覺)、回答過于冗長或過于簡潔、忽略隱含的上下文信息,或誤解諷刺與幽默等表達(dá)。

換言之,要讓大語言模型真正具備實(shí)用性,需要將其與人類偏好對(duì)齊,而僅靠監(jiān)督式微調(diào)難以實(shí)現(xiàn)這一目標(biāo)。

這又是為什么呢?

這背后的核心挑戰(zhàn)在于:如何將「對(duì)齊人類偏好」這種抽象概念轉(zhuǎn)化為可學(xué)習(xí)的任務(wù)目標(biāo),使其能夠被正確標(biāo)注,并用于構(gòu)建有意義的學(xué)習(xí)目標(biāo)。由于人類偏好的復(fù)雜性,想要窮舉所有可能的問題并為每種問題定義具體標(biāo)簽是不現(xiàn)實(shí)的(譯者注:例如,為“冗余回答”標(biāo)注 0,為“簡潔回答”標(biāo)注 1)。

這正是強(qiáng)化學(xué)習(xí)發(fā)揮關(guān)鍵作用的地方。

1.2 強(qiáng)化學(xué)習(xí)的工作原理

機(jī)器學(xué)習(xí)算法可大致分為三類:

  • 監(jiān)督學(xué)習(xí) (Supervised Learning):通過標(biāo)注數(shù)據(jù)(每個(gè)輸入 x 對(duì)應(yīng)目標(biāo) y)訓(xùn)練模型,目標(biāo)是構(gòu)建從 x 預(yù)測(cè) y 的映射。當(dāng) y 為離散值時(shí)稱為分類問題,連續(xù)值時(shí)稱為回歸問題。
  • 無監(jiān)督學(xué)習(xí) (Unsupervised Learning):在沒有標(biāo)注數(shù)據(jù)時(shí),通過發(fā)現(xiàn)數(shù)據(jù)的內(nèi)在模式進(jìn)行學(xué)習(xí),例如主成分分析(PCA)等降維方法,或 K-Means 等聚類算法。
  • 強(qiáng)化學(xué)習(xí) (Reinforcement Learning, RL):當(dāng)難以定義明確的學(xué)習(xí)目標(biāo)時(shí),讓 RL 模型通過與環(huán)境交互獲取獎(jiǎng)勵(lì)信號(hào)來更新模型。該方法常用于訓(xùn)練機(jī)器人保持平衡、行走等場(chǎng)景。

下圖展示了強(qiáng)化學(xué)習(xí)框架的五個(gè)核心要素:

image.pngimage.png

圖 1. 強(qiáng)化學(xué)習(xí)的五個(gè)要素:智能體、環(huán)境、獎(jiǎng)勵(lì)、狀態(tài)和動(dòng)作(Image from wiki)

以訓(xùn)練小狗坐下為例,五要素對(duì)應(yīng)如下:

  • 智能體 (Agent):學(xué)習(xí)指令的小狗
  • 環(huán)境 (Environment):小狗所處的周圍環(huán)境
  • 狀態(tài) (State):小狗當(dāng)前姿勢(shì)(是否處于坐姿)
  • 獎(jiǎng)勵(lì) (Reward):小狗正確執(zhí)行指令后獲得的零食
  • 動(dòng)作 (Action):小狗可執(zhí)行的動(dòng)作(坐下、跳躍、吠叫等)

監(jiān)督學(xué)習(xí)中的學(xué)習(xí)目標(biāo)和強(qiáng)化學(xué)習(xí)中的獎(jiǎng)勵(lì)機(jī)制有何本質(zhì)區(qū)別?

在監(jiān)督學(xué)習(xí)中,每個(gè)輸入樣本都需配備一個(gè)明確的標(biāo)準(zhǔn)答案,模型通過最小化預(yù)測(cè)值與正確答案間的損失函數(shù)(loss function)進(jìn)行優(yōu)化。而在強(qiáng)化學(xué)習(xí)中,智能體通過與環(huán)境的交互來學(xué)習(xí) —— 每個(gè)動(dòng)作都沒有明確的標(biāo)準(zhǔn)答案,而是通過環(huán)境反饋的獎(jiǎng)勵(lì)信號(hào)(reward)來調(diào)整其行為。

需要注意,強(qiáng)化學(xué)習(xí)的獎(jiǎng)勵(lì)信號(hào)通常具有一定的延遲,而且可能非常稀少。例如下棋時(shí),只有游戲結(jié)束時(shí)才能獲得“勝利”或“失敗”的最終獎(jiǎng)勵(lì)。這意味著智能體無法立即判斷單個(gè)動(dòng)作的優(yōu)劣,必須通過長期試錯(cuò)來學(xué)習(xí)如何使累積到的獎(jiǎng)勵(lì)最大化。

這一特性使強(qiáng)化學(xué)習(xí)在缺乏明確標(biāo)準(zhǔn)答案但能獲取反饋的場(chǎng)景中極具優(yōu)勢(shì)。例如訓(xùn)練機(jī)器人行走時(shí),我們無法預(yù)先定義每個(gè)狀態(tài)下關(guān)節(jié)的“正確”角度,但當(dāng)機(jī)器人嘗試不同動(dòng)作后,若成功邁出一步,這一結(jié)果即可作為獎(jiǎng)勵(lì)信號(hào),表明其之前的動(dòng)作是有效的。

回到我們訓(xùn)練小狗的案例,強(qiáng)化學(xué)習(xí)流程如下:

  • 初始階段:小狗(智能體)不理解“坐下”指令,會(huì)在環(huán)境(家中)嘗試各種動(dòng)作(奔跑、坐下、吠叫)。
  • 獎(jiǎng)勵(lì)反饋:每次執(zhí)行坐下的動(dòng)作時(shí)獲得零食(獎(jiǎng)勵(lì))。
  • 最終結(jié)果:小狗逐漸將“坐下”動(dòng)作與獎(jiǎng)勵(lì)關(guān)聯(lián),最終學(xué)會(huì)響應(yīng)指令。

強(qiáng)化學(xué)習(xí)的核心在于通過試錯(cuò)法學(xué)習(xí),而設(shè)計(jì)合理的獎(jiǎng)勵(lì)機(jī)制是關(guān)鍵。獎(jiǎng)勵(lì)必須與目標(biāo)高度對(duì)齊,否則模型無法習(xí)得所需的行為;同時(shí),獎(jiǎng)勵(lì)的計(jì)算應(yīng)盡可能簡單高效。若獎(jiǎng)勵(lì)生成過程過于復(fù)雜或緩慢,會(huì)導(dǎo)致訓(xùn)練效率低下,難以實(shí)際應(yīng)用。

例如,在游戲場(chǎng)景中,模型的每步動(dòng)作都可從游戲環(huán)境中直接獲得分?jǐn)?shù)獎(jiǎng)勵(lì)(如擊殺敵人+10分),獎(jiǎng)勵(lì)與游戲表現(xiàn)直接掛鉤。

而在現(xiàn)實(shí)任務(wù)中,多數(shù)場(chǎng)景缺乏現(xiàn)成的獎(jiǎng)勵(lì)機(jī)制,需人工設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)。然而,許多復(fù)雜行為難以轉(zhuǎn)化為獎(jiǎng)勵(lì)函數(shù)(如“如何讓智能體的回答更禮貌”中“禮貌”的定義包含語調(diào)、用詞、文化差異等多維度因素)。

這就引出了基于人類反饋的強(qiáng)化學(xué)習(xí)(Reinforcement Learning from Human Feedback, RLHF)...

1.3 基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)

再次以訓(xùn)練小狗為例,假設(shè)你的小狗最終學(xué)會(huì)了坐下,但有時(shí)會(huì)邊坐邊吠叫,或先跳上沙發(fā)再坐下。此時(shí)該如何糾正?

有了 RLHF,你就不再需要每次坐下都給零食,而是通過比較它的行為給予差異化的獎(jiǎng)勵(lì)。例如:如果小狗安靜地坐在地板上,它得到的獎(jiǎng)勵(lì)就會(huì)比一邊叫一邊坐或跳到沙發(fā)上坐的獎(jiǎng)勵(lì)要多。這樣,即使沒有明確向小狗解釋“安靜”的含義,小狗也能通過獎(jiǎng)勵(lì)的不同知道安靜地坐在地板上更好。

如前文所述,簡單高效的獎(jiǎng)勵(lì)機(jī)制是 RL 的關(guān)鍵,但直接依賴人類進(jìn)行實(shí)時(shí)反饋(如每次動(dòng)作都需人類評(píng)分)并不現(xiàn)實(shí)。為此,RLHF 通過以下三個(gè)階段實(shí)現(xiàn)規(guī)模化訓(xùn)練:

  • 收集人類反饋:采集模型輸出,由人類標(biāo)注員比較不同回答哪個(gè)更好(如標(biāo)注回答 A 比回答 B 更符合要求)。
  • 訓(xùn)練獎(jiǎng)勵(lì)模型:基于人類標(biāo)注員的偏好數(shù)據(jù),構(gòu)建模擬人類判斷的獎(jiǎng)勵(lì)模型(Reward Model)。
  • 強(qiáng)化學(xué)習(xí)優(yōu)化策略:使用學(xué)習(xí)到的獎(jiǎng)勵(lì)模型替代人工反饋,通過 RL 算法優(yōu)化策略(Policy)。

此處的策略(Policy)是指智能體根據(jù)環(huán)境狀態(tài)選擇動(dòng)作的決策規(guī)則。下圖展示了 InstructGPT 微調(diào)過程中 RLHF 的實(shí)現(xiàn)流程,其核心步驟與上述三階段一致:

image.pngimage.png

圖 2. InstructGPT/ChatGPT 訓(xùn)練過程中的 RLHF 步驟示意圖。(圖片來自文獻(xiàn) [6])

如圖所示,RL 過程主要發(fā)生在第 3 步,通過近端策略優(yōu)化(Proximal Policy Optimization, PPO)算法優(yōu)化策略(policy)。

那么,PPO 算法是如何工作的呢?

為了理解這一點(diǎn),在下一節(jié)中,我們將首先解析強(qiáng)化學(xué)習(xí)的三大基礎(chǔ)范式:基于價(jià)值的方法(Value-based)、基于策略的方法(Policy-based)和 Actor-Critic 方法。

2.強(qiáng)化學(xué)習(xí)范式

在深入研究所有數(shù)學(xué)細(xì)節(jié)之前,讓我們先來解釋一下強(qiáng)化學(xué)習(xí)背景下的價(jià)值函數(shù)(value functions)和策略(policy)。

在強(qiáng)化學(xué)習(xí)中,價(jià)值函數(shù)(value functions)表示智能體在狀態(tài) s 采取動(dòng)作 a 并遵循策略 π 后,所能獲得的預(yù)期收益:

image.pngimage.png

其中

  • R_t 表示智能體在第 t 個(gè)時(shí)間步執(zhí)行某個(gè)動(dòng)作后,環(huán)境給出的即時(shí)反饋(獎(jiǎng)勵(lì))。
  • γ 稱為折扣因子,用于量化未來獎(jiǎng)勵(lì)的價(jià)值

這里需要提及幾點(diǎn):

  • 我們需要考慮未來收益的原因是:強(qiáng)化學(xué)習(xí)中的獎(jiǎng)勵(lì)通常具有延遲性,因此不能根據(jù)即時(shí)收益判斷某個(gè)動(dòng)作的好壞。
  • 引入折扣因子有助于平衡短期獎(jiǎng)勵(lì)與長期收益。它還能穩(wěn)定訓(xùn)練過程并加速模型收斂,因?yàn)楫?dāng) γ 取值在 0 到 1 之間時(shí),能確保價(jià)值函數(shù)不會(huì)無限增大,始終保持在一個(gè)合理范圍內(nèi)。
  • 上述價(jià)值函數(shù)定義涉及策略 π,它可以被視為智能體遵循的決策策略,用于決定在給定狀態(tài)下采取何種行動(dòng),通常表示為從狀態(tài)(states)到動(dòng)作概率(action probabilities)的映射

上述關(guān)于價(jià)值函數(shù)(value functions)和策略(policy)的定義表明,RL 智能體可以通過優(yōu)化價(jià)值函數(shù)或策略來進(jìn)行訓(xùn)練。這就產(chǎn)生了三種不同的訓(xùn)練范式:基于價(jià)值的強(qiáng)化學(xué)習(xí)、基于策略的強(qiáng)化學(xué)習(xí),以及 Actor-Critic 強(qiáng)化學(xué)習(xí)。

2.1 基于價(jià)值的強(qiáng)化學(xué)習(xí)

基于價(jià)值的強(qiáng)化學(xué)習(xí)方法根據(jù)貝爾曼方程[8]更新價(jià)值函數(shù),該方程將狀態(tài)價(jià)值(the value of a state)分解為兩個(gè)部分:即時(shí)獎(jiǎng)勵(lì)(the immediate reward)和下一狀態(tài)的折扣價(jià)值(the discounted value of the next state)。

以Q-learning[7]為例,其價(jià)值函數(shù)可通過以下公式更新:

image.pngimage.png

其中

  • alpha 是用于結(jié)合即時(shí)價(jià)值與未來價(jià)值的學(xué)習(xí)率
  • Q(S_t, A_t) 表示當(dāng)前狀態(tài)的即時(shí)價(jià)值
  • R_{t+1} 表示在狀態(tài) S_t 下采取行動(dòng) A_t 后觀察到的獎(jiǎng)勵(lì)
  • Q(S_{t+1}, a) 表示在下一狀態(tài)采取行動(dòng) a 時(shí)的價(jià)值,因此對(duì) a 取 max 可得到從 S_{t+1} 狀態(tài)能獲得的最大獎(jiǎng)勵(lì)

具體而言,更新過程如下所示:

  • 初始化:我們以隨機(jī)的 Q(S_t, A_t) 值開始
  • 與環(huán)境交互:在時(shí)間步 t,智能體在狀態(tài) S_t 選擇行動(dòng) A_t,隨后從環(huán)境獲得獎(jiǎng)勵(lì) R_{t+1},并轉(zhuǎn)移到下一狀態(tài) S_{t+1}
  • 使用上述規(guī)則更新價(jià)值函數(shù)
  • 重復(fù)該過程直至收斂

然而,上述更新過程涉及 argmax 運(yùn)算,這在具有無限種可能動(dòng)作的連續(xù)動(dòng)作空間(continuous action space)中是難以實(shí)現(xiàn)的。這是因?yàn)閷?duì)所有動(dòng)作計(jì)算 argmax 需要在每個(gè)學(xué)習(xí)步驟中進(jìn)行全局優(yōu)化,計(jì)算成本極高。

當(dāng)使用 Q 網(wǎng)絡(luò)(如深度 Q 網(wǎng)絡(luò)(DQN))時(shí),這種情況還會(huì)伴隨訓(xùn)練不穩(wěn)定問題而更加復(fù)雜。由于 Q 網(wǎng)絡(luò)通常是非凸的,有時(shí) Q(s, a) 的微小更新就可能導(dǎo)致行為選擇發(fā)生巨大變化。

因此,基于價(jià)值的強(qiáng)化學(xué)習(xí)通常適用于離散的動(dòng)作空間場(chǎng)景,且最好具有較少的可選動(dòng)作,例如 Atari 游戲或 AlphaGo 中的 DQN 應(yīng)用。

但如果必須處理連續(xù)或大規(guī)模動(dòng)作空間呢?這時(shí)就需要基于策略的強(qiáng)化學(xué)習(xí)方法。

2.2 基于策略的強(qiáng)化學(xué)習(xí)

如前文所述,策略(Policy)指智能體用于決定采取何種行為的規(guī)則,是狀態(tài)到行為概率的映射:

image.pngimage.png

其中,策略 π(a|s) 通常是一個(gè)可微函數(shù),比如神經(jīng)網(wǎng)絡(luò),而 θ 就是這個(gè)神經(jīng)網(wǎng)絡(luò)的參數(shù)。

因此,與基于價(jià)值的強(qiáng)化學(xué)習(xí)在動(dòng)作空間中進(jìn)行搜索不同,基于策略的強(qiáng)化學(xué)習(xí)在參數(shù)空間(θ)中進(jìn)行搜索,以最大化預(yù)期的獎(jiǎng)勵(lì)。

具體而言,基于策略的強(qiáng)化學(xué)習(xí)通過使用策略梯度算法(policy gradient)進(jìn)行梯度上升來優(yōu)化策略網(wǎng)絡(luò):

image.pngimage.png

在策略梯度算法中,梯度估計(jì)量的數(shù)學(xué)表達(dá)式通常呈現(xiàn)為:

image.pngimage.png

其中 R 是累計(jì)收益(即各時(shí)間步獎(jiǎng)勵(lì)之和)。

通過引入策略梯度算法,基于策略的強(qiáng)化學(xué)習(xí)消除了在動(dòng)作空間計(jì)算 argmax 的需求,使其更適用于大規(guī)模或連續(xù)動(dòng)作空間的場(chǎng)景。

然而,策略梯度的計(jì)算仍然具有挑戰(zhàn)性。在圍棋等現(xiàn)實(shí)世界的強(qiáng)化學(xué)習(xí)任務(wù)中,收益通常取決于整個(gè)事件的累計(jì)獎(jiǎng)勵(lì),而且可能包含大量噪聲,這會(huì)導(dǎo)致策略梯度的方差較大并引發(fā)訓(xùn)練的不穩(wěn)定。

為解決該問題,Actor-Critic 強(qiáng)化學(xué)習(xí)方法通過結(jié)合基于價(jià)值和基于策略的方法,降低方差并提升訓(xùn)練的穩(wěn)定性。

2.3 Actor-Critic 強(qiáng)化學(xué)習(xí)方法

Actor-Critic 強(qiáng)化學(xué)習(xí)方法是綜合基于價(jià)值和基于策略的強(qiáng)化學(xué)習(xí)方法的優(yōu)勢(shì)設(shè)計(jì)而成,其核心結(jié)構(gòu)包含:

  • 策略網(wǎng)絡(luò)(稱為 Actor)用于選擇動(dòng)作
  • 價(jià)值函數(shù)(稱為 Critic)用于評(píng)估動(dòng)作

由于動(dòng)作選擇由策略網(wǎng)絡(luò)處理,Actor-Critic 方法同樣適用于大規(guī)模或連續(xù)動(dòng)作空間。此外,通過引入 Critic 網(wǎng)絡(luò),該方法能夠降低策略梯度的方差并提升訓(xùn)練穩(wěn)定性。

具體而言,原始策略梯度中的累計(jì)收益 R 被優(yōu)勢(shì)函數(shù)(Advantage Function)所替代:

image.pngimage.png

其中

  • Q(s, a) 表示在狀態(tài) s 采取動(dòng)作 a 的預(yù)期收益
  • V(s) 是基線價(jià)值函數(shù),用于估計(jì)當(dāng)前狀態(tài)的預(yù)期收益

通過引入基線價(jià)值函數(shù) V(s),優(yōu)勢(shì)函數(shù)通過將每個(gè)動(dòng)作的獎(jiǎng)勵(lì)值減去該狀態(tài)下的預(yù)期收益,實(shí)現(xiàn)對(duì)獎(jiǎng)勵(lì)的“歸一化”,從而穩(wěn)定學(xué)習(xí)過程,防止因高方差獎(jiǎng)勵(lì)信號(hào)導(dǎo)致的大幅度參數(shù)更新。

基于此,策略梯度可被改寫為:

image.pngimage.png

Actor-Critic 方法被廣泛應(yīng)用于涉及大規(guī)模或連續(xù)動(dòng)作空間的場(chǎng)景,例如 LLM 對(duì)齊過程中的 RLHF 訓(xùn)練,以及先進(jìn)機(jī)器人技術(shù)和自動(dòng)駕駛系統(tǒng)的開發(fā)。

盡管在許多應(yīng)用中取得成功,Actor-Critic 方法仍面臨訓(xùn)練不穩(wěn)定和超參數(shù)敏感性有關(guān)的挑戰(zhàn),因?yàn)樵摲椒ㄐ枰瑫r(shí)訓(xùn)練 Actor 和 Critic 網(wǎng)絡(luò),而保持兩者之間的平衡更新可能較為困難。

在下一節(jié),我們將解釋深度求索(DeepSeek)的 GRPO 方法如何解決這些挑戰(zhàn)。

3.群組相對(duì)策略優(yōu)化(GRPO)

為了更好地理解 GRPO,我們先來簡要回顧兩種啟發(fā)它的常用 Actor-Critic 方法:置信域策略優(yōu)化(TRPO)和近端策略優(yōu)化(PPO)。

3.1 置信域策略優(yōu)化(TRPO)

如前文所述,Actor-Critic 強(qiáng)化學(xué)習(xí)方法通過用優(yōu)勢(shì)函數(shù)計(jì)算策略梯度的估計(jì)值來優(yōu)化策略網(wǎng)絡(luò),其梯度估計(jì)值可通過微分以下目標(biāo)函數(shù)獲得:

image.pngimage.png

這種方法的一個(gè)缺點(diǎn)是容易導(dǎo)致策略更新幅度過大,從而導(dǎo)致強(qiáng)化學(xué)習(xí)過程的不穩(wěn)定。為解決這一問題,TRPO [4] 通過限制策略更新的幅度,引入了一個(gè)替代目標(biāo)函數(shù)(surrogate objective function):

image.pngimage.png

其中,π_θ 和 π_(θ_old) 分別表示更新后的策略網(wǎng)絡(luò)和更新前的參考策略網(wǎng)絡(luò)。

上述目標(biāo)函數(shù)明確區(qū)分了新舊策略網(wǎng)絡(luò),并以兩者的 KL 散度作為約束條件(KL 散度常用于衡量概率分布之間的差異)。

3.2 近端策略優(yōu)化(PPO)

基于穩(wěn)定策略梯度的思想,PPO [5] 通過引入“裁剪后的替代目標(biāo)函數(shù)”(clipped surrogate objective)進(jìn)一步改進(jìn)了 TRPO。

具體而言,PPO 首先定義了新舊策略網(wǎng)絡(luò)之間的概率比:

image.pngimage.png

隨后將 TRPO 的目標(biāo)函數(shù)改寫為:

image.pngimage.png

其中 CPI 表示保守策略迭代框架(Conservative Policy Iteration)。

在此基礎(chǔ)之上,“裁剪后的替代目標(biāo)函數(shù)”可表示為:

image.pngimage.png

其中:

  • min() 中的第一項(xiàng)與 TRPO 相同,即L^{CPI}
  • min() 中的第二項(xiàng)會(huì)通過超參數(shù) ? 將概率比裁剪至區(qū)間[1 ? ?, 1 +?]

PPO 算法通過對(duì)未裁剪的和裁剪后的目標(biāo)函數(shù)應(yīng)用 min() 操作,相當(dāng)于為原始的“未裁剪目標(biāo)函數(shù)”設(shè)定一個(gè)下界,從而實(shí)現(xiàn)更保守的參數(shù)更新,避免訓(xùn)練過程中出現(xiàn)劇烈波動(dòng),從而提升整體穩(wěn)定性。

PPO 被廣泛應(yīng)用于大語言模型訓(xùn)練(如 InstructGPT [6])。然而,該方法仍然存在與前文提到的 actor-critic 方法面臨的相同挑戰(zhàn)。此外,隨著大語言模型規(guī)模的持續(xù)增長,維護(hù)獨(dú)立的價(jià)值網(wǎng)絡(luò)(value network)的成本顯著增加,因?yàn)閮r(jià)值網(wǎng)絡(luò)的規(guī)模通常與策略模型相當(dāng)。

在下一節(jié)中,我們將解釋 GRPO 如何消除對(duì)獨(dú)立價(jià)值網(wǎng)絡(luò)的需求。

3.3 群組相對(duì)策略優(yōu)化(GRPO)

GRPO 的核心思想是在保持訓(xùn)練穩(wěn)定性的同時(shí)消除對(duì)獨(dú)立價(jià)值網(wǎng)絡(luò)的需求,這使得 GRPO 成為一種完全基于策略的強(qiáng)化學(xué)習(xí)方法。

為清晰展示 PPO 與 GRPO 的區(qū)別,我們先將 PPO 的目標(biāo)函數(shù)改寫如下:

image.pngimage.png

其中 q 和 o 分別是從問題數(shù)據(jù)集和舊策略網(wǎng)絡(luò)中采樣的問題和輸出。該目標(biāo)函數(shù)通過基于問題樣本的組別劃分計(jì)算均值,使其更容易擴(kuò)展至 GRPO[3] 中提出的分組結(jié)構(gòu)。

具體來說:

image.pngimage.png

其中,懲罰項(xiàng)(penalty term)被定義為無偏差的 KL 散度:

image.pngimage.png

而優(yōu)勢(shì)值 A_i 的計(jì)算方式為:

image.pngimage.png

其中,r_1 至 r_G 表示每組內(nèi)各輸出對(duì)應(yīng)的獎(jiǎng)勵(lì)。這種分組結(jié)構(gòu)在 GRPO 中至關(guān)重要,因?yàn)槊總€(gè)用戶問題(query)都具有獨(dú)特性,若直接基于不同用戶問題(query)的全局獎(jiǎng)勵(lì)計(jì)算歸一化后的優(yōu)勢(shì)值,對(duì)模型更新的指導(dǎo)意義較弱。

GRPO 與 PPO 的關(guān)鍵區(qū)別在于:通過使用各組內(nèi)的相對(duì)獎(jiǎng)勵(lì)來估算優(yōu)勢(shì)函數(shù),完全消除了對(duì)獨(dú)立價(jià)值網(wǎng)絡(luò)的需求,使其成為完全基于策略的 RL 方法而非 Actor-Critic 架構(gòu)。

如前文所述,移除價(jià)值網(wǎng)絡(luò)顯著降低了訓(xùn)練資源的需求(因?yàn)閮r(jià)值網(wǎng)絡(luò)通常與策略模型規(guī)模相當(dāng))。此外,這一設(shè)計(jì)還能通過避免優(yōu)化兩個(gè)獨(dú)立網(wǎng)絡(luò)產(chǎn)生的復(fù)雜問題,提高了訓(xùn)練過程的穩(wěn)定性。

但為什么這種方法可行呢?

請(qǐng)回顧一下優(yōu)勢(shì)函數(shù)的本質(zhì):它衡量的是特定動(dòng)作相較于給定狀態(tài)下預(yù)期收益的優(yōu)劣程度。在 PPO 中,這通過價(jià)值函數(shù) Q(s,a) 與基線價(jià)值函數(shù) V(s) 的差值來估算。

這意味著,只要定義的指標(biāo)能等價(jià)表示「當(dāng)前動(dòng)作相對(duì)于該狀態(tài)預(yù)期收益的優(yōu)劣程度」,即可直接替代傳統(tǒng)優(yōu)勢(shì)函數(shù)。

在 GRPO 中,該指標(biāo)是在每組之內(nèi)計(jì)算的(每組可視為一個(gè) query),因?yàn)閯澐值倪@些組本質(zhì)上代表智能體所處的狀態(tài)。因此,通過比較特定動(dòng)作的獎(jiǎng)勵(lì)與同組內(nèi)其他采樣動(dòng)作的獎(jiǎng)勵(lì),GRPO 能夠自然推導(dǎo)出優(yōu)勢(shì)函數(shù)的估計(jì)值。

下圖對(duì)比了 PPO 和 GRPO,注意后者沒有價(jià)值模型(value model):

圖 3.  PPO vs. GRPO。圖片引自文獻(xiàn) [3]圖 3. PPO vs. GRPO。圖片引自文獻(xiàn) [3]

以下算法總結(jié)了 GRPO 的實(shí)現(xiàn)方式:

圖 4. GRPO 算法。圖片引自文獻(xiàn)[3]圖 4. GRPO 算法。圖片引自文獻(xiàn)[3]

4.Summary

本文全面介紹了理解深度求索(DeepSeek)提出的群組相對(duì)策略優(yōu)化(Grouped Relative Policy Optimization, GRPO)技術(shù)所需的強(qiáng)化學(xué)習(xí)基礎(chǔ)概念。

我們首先從宏觀層面探討了強(qiáng)化學(xué)習(xí)對(duì)大語言模型訓(xùn)練的關(guān)鍵作用,強(qiáng)調(diào)了其在監(jiān)督學(xué)習(xí)之外實(shí)現(xiàn)模型輸出與人類偏好保持一致的價(jià)值。隨后,探討了強(qiáng)化學(xué)習(xí)(RL)及基于人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)的工作原理,說明獎(jiǎng)勵(lì)模型如何協(xié)助大語言模型行為與人類偏好對(duì)齊。

為建立堅(jiān)實(shí)的認(rèn)知基礎(chǔ),我們介紹強(qiáng)化學(xué)習(xí)的三大范式——基于價(jià)值(value-based)、基于策略(policy-based)以及 actor-critic 方法,分別闡述其優(yōu)勢(shì)、局限性和實(shí)際應(yīng)用場(chǎng)景。

在此基礎(chǔ)上,我們進(jìn)一步分析了兩種廣泛使用的 actor-critic 方法:置信域策略優(yōu)化(Trust Region Policy Optimization, TRPO)和近端策略優(yōu)化(Proximal Policy Optimization, PPO)。最后重點(diǎn)介紹深度求索提出的 GRPO 方法,展示其如何通過分組結(jié)構(gòu)和相對(duì)優(yōu)勢(shì)估計(jì)(relative advantage estimation)改進(jìn) PPO 框架。

Reference

[1] DeepSeek(https://www.deepseek.com/)

[2] DeepSeek-V3 Technical Report(https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf)

[3] DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models(https://arxiv.org/abs/2402.03300)

[4] Trust Region Policy Optimization(https://arxiv.org/abs/1502.05477)

[5] Proximal Policy Optimization Algorithms(https://arxiv.org/abs/1707.06347)

[6] Training Language Models to Follow Instructions with Human Feedback(https://arxiv.org/pdf/2203.02155)

[7] Q-learning(https://en.wikipedia.org/wiki/Q-learning)

[8] Bellman Equation(https://en.wikipedia.org/wiki/Bellman_equation#Bellman's_principle_of_optimality)

責(zé)任編輯:武曉燕 來源: Baihai IDP
相關(guān)推薦

2025-03-11 01:00:00

GRPO算法模型

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2025-06-05 06:36:17

2025-02-17 10:40:20

2025-03-28 10:16:15

2025-10-11 04:00:00

2024-09-05 08:23:58

2023-06-25 11:30:47

可視化

2025-06-10 11:22:09

強(qiáng)化學(xué)習(xí)AI模型

2025-11-10 04:15:00

2025-10-08 10:44:16

2025-04-25 13:34:53

R1DeepSeekAgent

2025-03-07 09:24:00

2024-10-12 17:14:12

2023-12-03 22:08:41

深度學(xué)習(xí)人工智能

2022-05-31 10:45:01

深度學(xué)習(xí)防御

2024-01-26 08:31:49

2025-07-09 01:22:00

AI強(qiáng)化學(xué)習(xí)監(jiān)督學(xué)習(xí)

2020-12-02 13:24:07

強(qiáng)化學(xué)習(xí)算法

2023-01-24 17:03:13

強(qiáng)化學(xué)習(xí)算法機(jī)器人人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

国产高清av在线| 黄色免费av网站| 九色丨蝌蚪丨成人| 日韩欧美在线视频| 伊人久久av导航| 色呦呦中文字幕| 奇米影视一区二区三区| 欧美日韩国产va另类| 成人无码www在线看免费| 成人国产一区二区三区精品麻豆| 亚洲免费观看高清在线观看| 美女黄毛**国产精品啪啪| 国产美女www爽爽爽视频| 夜久久久久久| 免费av一区二区| 天堂久久精品忘忧草| 伊人久久影院| 欧美精品亚洲一区二区在线播放| 亚洲 欧美 日韩 国产综合 在线 | 久久久久久久性潮| 偷拍与自拍一区| 日本老太婆做爰视频| 黄色毛片在线看| 成人精品免费视频| 成人久久精品视频| 波多野结衣av无码| 校园激情久久| 性欧美办公室18xxxxhd| 日韩成人毛片视频| 97精品97| 中文字幕亚洲国产| 亚洲精品乱码久久久久久久久久久久| 一区二区亚洲视频| 日韩视频免费观看高清在线视频| 欧美成人黑人猛交| а√天堂资源官网在线资源| 亚洲视频一二三| 正在播放91九色| wwwxxx在线观看| 国产亚洲精品精华液| 成人在线资源网址| 蜜桃av中文字幕| 国产成a人亚洲精品| 国产精品免费视频xxxx| 免费av中文字幕| 视频一区二区三区中文字幕| 97香蕉久久超级碰碰高清版| 国产网友自拍视频| 欧美午夜在线视频| 欧美激情中文网| 国产中文字幕免费| 亚洲国产清纯| 欧美国产日韩精品| 久久久久久久福利| 红桃视频欧美| 69av在线视频| 天天操天天操天天操天天| 在线亚洲精品| 国产高清在线不卡| 在线观看黄色网| 狠狠色综合日日| 亚洲va国产va天堂va久久| 精品国产无码AV| 成人爽a毛片一区二区免费| 99久久精品无码一区二区毛片| 亚洲成人中文字幕在线| 成人免费毛片片v| 久久人人九九| 成人福利在线| 亚洲精品va在线观看| 日韩欧美猛交xxxxx无码| 久久一卡二卡| 色94色欧美sute亚洲线路一久| 北条麻妃视频在线| av在线亚洲一区| 精品少妇一区二区| 高潮毛片无遮挡| 91综合网人人| 韩日欧美一区二区| 亚洲av人无码激艳猛片服务器| 美女www一区二区| 91免费在线观看网站| 欧美一级特黄aaaaaa| 久久精品综合网| www.黄色网址.com| 正在播放日韩精品| 在线播放日韩导航| 午夜一区二区三区免费| 久久国产综合| 午夜精品一区二区三区在线视 | 欧美日韩情趣电影| 亚洲妇女无套内射精| 久久99视频| 久久艳片www.17c.com| 国产成人精品网| 国产精品一区在线观看乱码| 久久久久久国产精品mv| 老司机av在线免费看| 亚洲不卡一区二区三区| 五月婷婷六月合| 精品综合久久88少妇激情| 色狠狠久久aa北条麻妃| www.天天色| 国精产品一区一区三区mba桃花| 国产精品一国产精品最新章节| 精品一二三区视频| 亚洲自拍欧美精品| 最新天堂中文在线| 亚洲伊人春色| 国a精品视频大全| 一级黄色大片免费观看| 91网站最新网址| 男人天堂手机在线视频| 天天综合在线观看| 亚洲天堂第一页| 日韩成人av毛片| 国产精品资源在线| 亚洲一区二区在线看| 日本不卡网站| 欧美成人r级一区二区三区| 国产又粗又长又黄的视频| 久久婷婷久久| 九九99玖玖| 懂色av一区| 欧美电视剧在线看免费| 午夜国产小视频| 蜜臀a∨国产成人精品| 久热国产精品视频一区二区三区| 欧美videosex性欧美黑吊| 欧美精品色一区二区三区| 青娱乐国产视频| 久久亚洲影院| 欧美一区二区综合| 亚洲精品中文字幕| 日韩精品免费在线视频观看| 国产成人无码一区二区三区在线| 国产一区在线观看视频| 一区二区三区|亚洲午夜| 中文字幕日本一区二区| 亚洲深夜福利在线| 亚洲天堂五月天| 久久九九影视网| 精品999在线| 色婷婷综合网| 91久久精品国产91性色| 欧美成人性生活视频| 欧美美女直播网站| 最新av电影网站| 国产经典欧美精品| 国产高清av在线播放| 成人直播在线观看| 97精品视频在线观看| 欧洲综合视频| 在线国产亚洲欧美| 亚欧精品视频一区二区三区| 捆绑调教一区二区三区| 亚洲国产精品女人| 成人黄色av网址| 91精品国产色综合久久不卡98| 亚洲欧美日本在线观看| 91国偷自产一区二区三区成为亚洲经典 | 东方欧美亚洲色图在线| 欧美亚洲黄色片| 亚洲激情播播| 国产美女高潮久久白浆| a级影片在线| 亚洲加勒比久久88色综合| 亚洲图片在线视频| 欧美韩日一区二区三区四区| 污污的网站免费| 国精品一区二区三区| 蜜桃av色综合| 国产va免费精品观看精品| 欧美黄色性视频| 欧美xxx.com| 欧美高清精品3d| 国产精品自拍视频一区| 国产偷国产偷亚洲高清人白洁 | 国产美女在线一区| 国产精品一区二区三区av麻| 国产日韩在线精品av| 午夜成年人在线免费视频| 日韩电影第一页| 中文在线字幕av| 亚洲一区在线视频观看| 男女做爰猛烈刺激| 国产成人在线观看免费网站| 国产91在线视频观看| 99热在线成人| 久久久久九九九| a一区二区三区亚洲| 欧美中文字幕精品| 黄色网在线免费看| 亚洲男人天天操| www.色呦呦| 欧美影视一区在线| 在线观看精品国产| 综合欧美一区二区三区| 北岛玲一区二区| 国产精品88av| 在线观看高清免费视频| 影音国产精品| 99亚洲精品视频| 国产日产精品_国产精品毛片| 91精品免费| 日本一区免费网站| 久久久久久久久久久久久久久久久久av| 国产免费永久在线观看| 亚洲电影中文字幕| 国产精品一二三四五区| 91成人在线精品| 日本亚洲欧美在线| 亚洲精品日韩一| 国产免费嫩草影院| 久久久九九九九| 国产精品一区二区入口九绯色| 国产一区二区影院| 日日噜噜夜夜狠狠| 久久亚洲不卡| 国产在线青青草| 亚洲免费黄色| 国产一区二区三区小说| 亚洲人成免费网站| 在线看视频不卡| 日韩伦理视频| 亚洲一区三区| 日本一区二区免费高清| 奇米影视首页 狠狠色丁香婷婷久久综合| 精品人人人人| 国产在线视频欧美一区二区三区| 日韩在线亚洲| 69174成人网| 四虎视频在线精品免费网址| 国产精品久久久久久久9999| 伊人色综合一区二区三区影院视频| 久久久久久久一区二区三区| 精品日韩av| 欧美激情中文字幕在线| 国产亚av手机在线观看| 欧美极品少妇与黑人| 午夜激情在线| 久久久久久久香蕉网| av漫画网站在线观看| 97精品国产97久久久久久春色| 18+激情视频在线| 欧美激情视频一区二区| 女同视频在线观看| 国内精品免费午夜毛片| 国产在线88av| 日韩av手机在线看| a∨色狠狠一区二区三区| 国产精品日韩欧美| 日韩黄色三级| 97se在线视频| 国产日韩三级| 欧美精品v日韩精品v国产精品| 亚洲黄页网站| 亚洲最新在线| 欧美女激情福利| 阿v天堂2018| 亚洲永久免费精品| 欧美精品aaaa| 国模一区二区三区白浆| 麻豆av免费看| 26uuu国产在线精品一区二区| 欧美成人国产精品一区二区| 国产精品成人在线观看| 国产av 一区二区三区| 午夜视频在线观看一区| 免费黄色网址在线| 欧美日本国产一区| 囯产精品久久久久久| 亚洲精品一区二区三区不| 91大神xh98hx在线播放| 欧美激情视频免费观看| 日韩新的三级电影| 3d精品h动漫啪啪一区二区| 国产另类在线| 一区二区三区四区欧美| 欧美午夜影院| 亚洲免费看av| 成人免费视频网站在线观看| 久久精品视频18| 一区二区三区中文字幕精品精品 | 日韩国产成人精品| 奇米777在线视频| 久久综合九色综合欧美98 | 国产精品成人av| 可以在线看的av网站| 男男视频亚洲欧美| 污网站免费观看| 国产精品免费视频网站| 日韩av女优在线观看| 欧美精品日日鲁夜夜添| 亚洲日本香蕉视频| 久久成人综合视频| 欧美aaa视频| 国产精品香蕉视屏| 性欧美欧美巨大69| 能在线观看的av网站| 国产高清在线精品| 欧美激情 一区| 午夜精品在线看| 国产jzjzjz丝袜老师水多| 亚洲人成电影网| а√在线中文在线新版 | 人体久久天天| 男人j进女人j| 日韩国产在线一| a视频免费观看| 亚洲一区二区3| 国产伦精品一区二区三区视频痴汉| 亚洲美女视频网站| а√天堂资源官网在线资源| 97中文在线观看| 99视频精品全国免费| av无码精品一区二区三区| 成人av网站免费观看| 全程偷拍露脸中年夫妇| 欧美日韩中文国产| 国产1区2区3区在线| 51精品国产黑色丝袜高跟鞋 | 久久99精品国产麻豆不卡| 人妻少妇无码精品视频区| 精品成人久久av| 天堂在线观看av| 久久久久在线观看| 亚洲一区二区免费在线观看| 一区二区成人国产精品| 免费看黄色91| av免费播放网站| 欧美视频在线一区二区三区| 免费福利在线观看| 日本免费久久高清视频| 欧美禁忌电影网| 777米奇影视第四色| 97精品国产97久久久久久久久久久久| 麻豆视频在线观看| 欧美mv和日韩mv国产网站| 蜜乳av一区| 国产精品久久久一区二区三区| 午夜性色一区二区三区免费视频| 亚洲欧美天堂在线| 亚洲欧美国产77777| 99国产精品久久久久99打野战| 日韩在线视频网| 激情视频亚洲| 日韩成人手机在线| 99re这里都是精品| 国产www在线| 国产一区二区三区在线免费观看| 日韩免费va| 一区二区三区av| 国产激情精品久久久第一区二区| 久久精品欧美一区二区| 亚洲缚视频在线观看| 免费亚洲电影| 中文字幕一区二区三区最新| 国产尤物一区二区在线| 久久久国产精品黄毛片| 亚洲精品动漫100p| 欧美aaa视频| 一区二区三区视频在线播放| 国产在线精品不卡| 日本三级2019| 国产小视频国产精品| 日韩欧美三区| 国产一二三在线视频| 91麻豆高清视频| 亚洲一区 中文字幕| 欧美精品午夜视频| 香蕉精品久久| 97人人爽人人| 黄色成人在线免费| 香蕉视频在线免费看| 91在线看网站| 日韩精品电影在线观看| 久久精品一区二区三区四区五区| 精品国产成人系列| 经典三级一区二区| 欧美久久久久久久久久久久久久| 26uuu久久天堂性欧美| 97超碰人人草| 91高清免费视频| 91精品啪在线观看国产81旧版| youjizz.com国产| 欧美亚洲日本一区| 大香伊人久久| 一区二区三区av| 久久久亚洲精品一区二区三区 | 国产精品一区一区| 五月天婷婷激情| 欧美猛少妇色xxxxx| 久久av导航| 国产日韩视频一区| 欧美二区乱c少妇| 欧美日韩免费看片| 东北少妇不带套对白| 中文字幕中文字幕在线一区 | 欧美—级高清免费播放|