精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GRPO訓練不再「自嗨」!快手可靈 x 中山大學推出「GRPO衛(wèi)兵」,顯著緩解視覺生成過優(yōu)化

人工智能 新聞
作為首先關注 GRPO 在視覺生成中過優(yōu)化現(xiàn)象的研究,GRPO-Guard 通過比率歸一化(RatioNorm)和跨步梯度平衡,有效穩(wěn)定策略更新,恢復裁剪機制對正樣本的約束,并緩解過度優(yōu)化。

論文第一作者為王晶,中山大學二年級博士生,研究方向為強化學習與視頻生成;通訊作者為中山大學智能工程學院教授梁小丹。

目前,GRPO 在圖像和視頻生成的流模型中取得了顯著提升(如 FlowGRPO 和 DanceGRPO),已被證明在后訓練階段能夠有效提升視覺生成式流模型的人類偏好對齊、文本渲染與指令遵循能力。

在此過程中,重要性比值的 clip 機制被引入,用于約束過于自信的正負樣本梯度,避免破壞性的策略更新,從而維持訓練的穩(wěn)定性。然而,實證分析顯示,該機制存在系統(tǒng)性偏差:其均值長期低于 1,導致過度自信的正梯度無法得到有效限制;同時,不同去噪步下比值的分布方差差異顯著,使得部分步驟的 clip 機制失效。

結果,模型在訓練過程中容易陷入過度優(yōu)化狀態(tài)——即代理獎勵持續(xù)上升,但圖像質量及文本與提示的對齊度反而下降,導致優(yōu)化后的模型在實際應用中效果不佳。

圖像質量隨優(yōu)化過程的變化如下:

為此,中山大學、快手可靈以及港中文 MMLab 等團隊聯(lián)合提出了 GRPO-Guard,這是首個針對 GRPO 在流模型中出現(xiàn)的過度優(yōu)化問題而設計的解決方案。GRPO-Guard 能在保證快速收斂的同時,大幅降低過度優(yōu)化的風險。

在 Flow-GRPO、DanceGRPO 等多種 GRPO 變體、不同擴散骨干模型(如 SD3.5-M、FLUX1.dev),GRPO-Guard 在文本渲染、GenEval、PickScore 等多種代理任務中均展現(xiàn)出穩(wěn)定顯著的提升,同時有效緩解 reward hacking 現(xiàn)象,提高優(yōu)化后模型的實際應用價值。

目前該項目的論文和代碼均已開源:

  • 論文標題:GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping
  • 論文鏈接:https://arxiv.org/abs/2510.22319
  • 代碼地址:https://github.com/yifan123/flow_grpo

核心問題:比值分布偏移破壞 Clip 約束

在 FlowGRPO 中,通常采用高斯概率函數計算重要性比值中的

由于二階項的引入,log-importance ratio 在 off-policy 情況下會受到二次項的影響,表現(xiàn)出均值低于 1 且不同去噪步驟(denoising step)方差差異顯著的現(xiàn)象。

具體來說,二階項 的影響,使得重要性比值的均值

偏向小于 1,同時方差隨著去噪步驟的增加而逐漸增大。

理想情況下,重要性比值的均值應接近 1,以保證左右 clip 區(qū)間均衡,使有害的正負樣本梯度能夠被有效約束。然而,均值偏移和方差差異會導致預先設定的 clip 機制失效:一方面,正樣本梯度無法被充分約束;另一方面,部分步驟的 clip 機制失效,從而使策略(policy)陷入過度優(yōu)化狀態(tài)。

此外,F(xiàn)lowGRPO 中不同去噪步驟的梯度存在顯著差異。具體而言

其中,受系數梯度系數  影響,高噪聲步驟的梯度貢獻較小,而低噪聲步驟的梯度貢獻較大,這可能導致模型在訓練中偏向于單一的噪聲條件。不同步驟的梯度系數(左一)及實際梯度貢獻(左二)如圖所示:

解決思路:RatioNorm 和跨步梯度平衡

針對上述問題,為每個去噪步驟單獨設定特定的 clip 范圍顯得過于繁瑣。為此,我們提出 GRPO-Guard,在原有 GRPO 框架上引入兩項關鍵改進:

  • 比率歸一化(RatioNorm):對每個去噪步驟的重要性比值分布進行標準化,使其均值接近 1,方差保持一致,從而恢復 clip 機制的有效性,避免因正樣本裁剪失效而引發(fā)的過度優(yōu)化。

該機制對梯度的影響如下所示:

  • 跨步梯度平衡:基于 RatioNorm 對各去噪步驟的梯度進行均衡,使策略在整個噪聲時間表上均勻探索,如右圖(右 1)所示。這不僅防止了單步過擬合,還提升了訓練的穩(wěn)定性與生成多樣性。整體策略損失(policy loss)如下所示:其中

經過 RatioNorm 調整后的重要性比值分布對比:

FlowGRPO:均值小于 1,破壞性正樣本約束失效

GRPO-Guard:均值接近 1,破壞性正樣本得到約束

實驗結果:顯著緩解過優(yōu)化

我們在 FlowGRPO 和 DanceGRPO 兩種不同的 GRPO 算法、SD3.5-M 和 Flux1.dev 兩種擴散骨干模型,以及 GenEval、PickScore 和文本渲染等多種任務上驗證了 GRPO-Guard 的有效性。實驗結果表明,GRPO-Guard 能顯著緩解過度優(yōu)化現(xiàn)象,同時保持與 baseline 相近的性能提升。

具體而言,不同任務的 proxy score 與 gold score 對比顯示:在 baseline 方法中,gold score 存在明顯下降趨勢,而在 GRPO-Guard 下,這一下降趨勢被顯著緩解。

訓練過程圖像質量可視化:FlowGRPO/DanceGRPO 等算法隨著訓練的進行,策略(policy)過度優(yōu)化問題明顯,導致圖像質量顯著下降。GRPO-Guard 則在訓練過程后期仍然保持了較高的圖像質量。

更多可視化樣例顯示,在 baseline 方法下,在文本響應和圖像質量都呈現(xiàn)出明顯的退化,而 GRPO-Guard 能在提升目標 reward 的同時較好地保持文本響應和圖像質量。

在 PickScore 任務中,baseline 方法在訓練后期生成的人體比例存在不一致現(xiàn)象,且多人臉型過于相似,極大影響了生成多樣性,GRPO-Guard 顯著緩解了這個問題。

總結與展望:邁向更穩(wěn)健的視覺生成式強化學習

作為首先關注 GRPO 在視覺生成中過優(yōu)化現(xiàn)象的研究,GRPO-Guard 通過比率歸一化(RatioNorm)和跨步梯度平衡,有效穩(wěn)定策略更新,恢復裁剪機制對正樣本的約束,并緩解過度優(yōu)化。實驗表明,無論在不同 GRPO 變體、擴散骨干模型,還是多種代理任務中,GRPO-Guard 都能保持甚至提升生成質量,并提升訓練的穩(wěn)定性和多樣性。

本質上過優(yōu)化問題的出現(xiàn)是由于 proxy score 和 gold score 的巨大差距而導致的,雖然 GRPO-Guard 從優(yōu)化過程上緩解了過優(yōu)化現(xiàn)象,但并未徹底根治。未來,應該構建更精確的獎勵模型,使代理分數更接近真實評估(gold score),從而進一步減少 reward hacking 并提升優(yōu)化效果。這將為 GRPO 在流模型及更廣泛的生成任務中的實際應用提供更可靠的技術保障。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2009-05-19 11:46:21

2024-04-11 07:09:43

大模型人工智能AI

2021-02-24 15:38:37

數據語言架構

2024-01-29 06:40:00

AI模型

2020-11-05 16:21:15

中山大學

2021-11-16 15:37:43

AI 數據人工智能

2025-03-17 10:25:28

2016-12-24 00:08:11

教育信息化

2025-03-17 12:48:50

2014-11-13 10:17:30

中山大學新炬網絡學院大數據技術

2016-07-15 09:53:27

太一星晨

2022-11-04 17:02:31

AI模型

2025-04-07 02:25:00

DeepSeek模型訓練GRPO

2024-01-12 13:10:06

AI數據

2015-11-18 17:12:25

太一星晨/應用交付

2023-03-14 14:06:52

訓練模型

2023-10-30 17:23:54

數據模型

2024-02-29 13:55:00

模型訓練
點贊
收藏

51CTO技術棧公眾號

2021中文字幕在线| 国产亚洲成人精品| 国内欧美日韩| 一区二区三区在线免费视频 | 在线成人性视频| 99久久精品国产一区二区成人| 亚洲国产婷婷| 中文字幕日韩欧美在线| 色哟哟网站在线观看| 成人欧美大片| 洋洋av久久久久久久一区| 欧美在线日韩精品| 国产福利小视频| 日日噜噜夜夜狠狠视频欧美人| 九九热最新视频//这里只有精品 | 亚洲欧美在线综合| 亚洲午夜久久久久久久久电影院| 欧美一区二区三区四区五区六区| 国产女人高潮毛片| 三级欧美在线一区| 久久人人97超碰精品888| 欧洲av一区二区三区| jizz久久精品永久免费| av超碰免费在线| 国产福利一区二区精品秒拍| 色婷婷av一区二区三区gif| 精品国产成人在线| 色综合久久av| 天天操天天干天天操| 精品伊人久久久久7777人| 亚洲欧洲精品一区二区三区不卡| 欧美视频中文字幕| 日本在线xxx| 中文字幕在线观看网站| 国产精品网曝门| 欧美成人在线免费观看| 内射无码专区久久亚洲| 狠狠色丁香久久婷婷综合_中| 国产98色在线| 成年人视频在线免费看| 一区在线免费观看| 欧美美最猛性xxxxxx| 性爱在线免费视频| 精品高清在线| 欧美电影一区| 精品国产免费一区二区三区香蕉| 福利视频999| 欧美一级二级视频| 欧洲精品中文字幕| 99视频在线免费| 在线一区av| 日本久久久久| 欧美在线高清视频| 色偷偷久久人人79超碰人人澡| 91久久国产精品91久久性色| 最近中文字幕免费在线观看| 日韩国产精品久久| 国产成人精品av| 国产精品白浆一区二小说| 香蕉av一区二区| 久久精品国产v日韩v亚洲| 天堂av网手机版| 视频在线不卡免费观看| 久久精品电影网| 日韩在线中文字幕视频| 国产综合自拍| 久久久久久一区二区三区| 精品在线视频免费| 国产九九精品| 国产精品美腿一区在线看| 91av久久久| 懂色av中文一区二区三区| 国产精品视频免费观看| 日本啊v在线| 中文字幕乱码一区二区免费| 日本一本草久p| 成人观看网址| 欧美色综合影院| 手机看片国产精品| 久久久亚洲欧洲日产| 国产成人精品免费视| 91久久精品一区二区三| 亚洲精品手机在线观看| 亚洲精品影片| 亚洲欧美中文字幕| 任我爽在线视频| 一区精品久久| 国产精品稀缺呦系列在线| www.国产黄色| 久久精品亚洲麻豆av一区二区 | 亚洲三区在线观看| 亚洲搞黄视频| 亚洲制服丝袜av| av免费中文字幕| 999精品嫩草久久久久久99| 欧美刺激脚交jootjob| 国产精品亚洲无码| 欧美二区视频| 国产精品美女网站| 五月激情丁香婷婷| 一色桃子久久精品亚洲| 亚洲精品无码国产| avtt中文字幕| 亚洲成人看片| 精品国产一区二区亚洲人成毛片| 91网站免费视频| 欧美日韩 国产精品| 国产精品美女主播| 亚洲av片在线观看| 亚洲黄色片在线观看| 日本新janpanese乱熟| 中文字幕第三区| 午夜欧洲一区| 欧美激情一区二区三区高清视频 | 欧美一区二区啪啪| 色哟哟精品观看| 亚洲高清资源| 亚洲自拍偷拍福利| 69av在线| 色婷婷一区二区| 亚洲自拍偷拍精品| 围产精品久久久久久久| 国产精品入口福利| 免费在线一级视频| 欧美日韩国产精品一区二区三区四区| 在线视频日韩欧美| 欧美独立站高清久久| 国产精品久久久久免费a∨| 日本啊v在线| 欧美日韩激情小视频| 亚洲精品无码一区二区| 综合在线视频| 成人激情综合网| 暖暖日本在线观看| 欧美日韩精品电影| 成人免费视频入口| 蜜桃91丨九色丨蝌蚪91桃色| 日本一区视频在线播放| 国产另类xxxxhd高清| 亚洲欧美色图片| 成人毛片18女人毛片| 99久久久国产精品| 六月婷婷在线视频| 给我免费播放日韩视频| 久久久久国产视频| 狠狠综合久久av一区二区| 一区二区三区高清在线| 国产精品日日摸夜夜爽| 影音先锋一区| 久久久久久久久久久久久久一区| 亚洲少妇视频| 亚洲人成人99网站| 中文字幕欧美在线观看| 国产精品护士白丝一区av| 亚洲欧美自拍另类日韩| 四季av一区二区三区免费观看| 成人精品视频在线| 综合久久2019| 亚洲国产另类久久精品| 免费看一级视频| 国产精品无圣光一区二区| 99sesese| 激情偷拍久久| 免费中文日韩| 日韩一级特黄| 欧美日韩福利视频| 日本天堂在线| 欧美日韩黄色影视| 久久在线视频精品| 久久综合狠狠综合| mm131亚洲精品| 国色天香一区二区| 欧洲亚洲一区二区三区四区五区| 国产精品亲子伦av一区二区三区 | 激情aⅴ欧美一区二区欲海潮| 日韩经典第一页| 中文字幕日韩经典| 亚洲最色的网站| 手机免费看av| 国产91精品精华液一区二区三区 | 亚洲国产成人av在线| 国产婷婷色一区二区在线观看| 欧美韩国日本综合| 9191在线视频| 日韩精品91亚洲二区在线观看| 椎名由奈jux491在线播放| 粉嫩一区二区三区四区公司1| 日韩免费观看视频| 青草av在线| 在线观看国产欧美| 成人午夜精品福利免费| 欧美综合欧美视频| 免费在线看黄网址| 国产欧美日本一区视频| 国产艳妇疯狂做爰视频| 免费不卡在线视频| 日韩免费一级视频| 午夜精品毛片| 日本一区精品| 久草在线综合| 3d动漫精品啪啪一区二区三区免费| 欧美freesex黑人又粗又大| 久久精品国产亚洲精品2020| 欧美色视频免费| 欧美成人精品二区三区99精品| 国产黄网在线观看| 亚洲国产精品久久久久秋霞影院| 日本一二三不卡视频| 99久久777色| 三大队在线观看| 精品亚洲aⅴ乱码一区二区三区| 99久久久无码国产精品6| 国一区二区在线观看| 国产精品jizz在线观看老狼| 一本久久青青| 国产视频99| a级日韩大片| 91夜夜揉人人捏人人添红杏| 在线日本欧美| 日本久久精品视频| 午夜影院在线观看国产主播| 欧美激情视频播放| 在线播放免费av| 视频一区视频二区国产精品| 日本国产在线| 亚洲精品按摩视频| 秋霞欧美在线观看| 日韩一级大片在线| 国产三级精品在线观看| 欧美精品一二三区| 一区不卡在线观看| 欧美日韩国产片| 在线观看黄色国产| 欧美揉bbbbb揉bbbbb| 波多野结衣一区二区三区四区| 精品久久久久久中文字幕| 久久久久久久极品内射| 亚洲精品一二三| 日本黄色小说视频| 一区二区三区在线观看欧美| 欧美日韩精品亚洲精品| 亚洲一区二区三区视频在线播放| 久久久久久久久久久网| 亚洲午夜久久久久久久久电影网| 精品在线视频免费| 亚洲高清视频在线| 91精品国产乱码久久久张津瑜 | 一本大道熟女人妻中文字幕在线| 宅男噜噜噜66一区二区| 国产av天堂无码一区二区三区| 亚洲精品资源| 欧美一级黄色片视频| 日本不卡一二三区黄网| 五月天av在线播放| 国产一区999| 免费黄色av网址| 不卡一区二区三区四区| 麻豆国产精品一区| 国产欧美一区二区精品性色 | 亚洲午夜激情av| 日本一二三区不卡| 色婷婷综合久色| 中文字幕永久在线观看| 欧美一区二区网站| 丰满肥臀噗嗤啊x99av| 亚洲精品视频网上网址在线观看| 黄色免费在线播放| 中文字幕在线看视频国产欧美在线看完整| wwwww在线观看免费视频| 久久亚洲综合国产精品99麻豆精品福利| 26uuu亚洲电影在线观看| 国内精品模特av私拍在线观看| 性欧美xxx69hd高清| 国产欧美日韩免费| 色妞ww精品视频7777| 鲁丝片一区二区三区| 久久一区二区三区喷水| 日韩成人手机在线| 视频一区二区三区在线| 麻豆精品国产传媒| 久久婷婷国产综合国色天香 | 经典三级在线| 久久亚洲春色中文字幕| 国产白浆在线免费观看| 国产精品一区=区| 欧美大胆视频| 在线视频不卡一区二区| 国产精品日韩欧美一区| 黄色一级片免费的| 99精品在线免费| 午夜三级在线观看| 狠狠躁夜夜躁人人爽超碰91| 91久久精品无码一区二区| 亚洲精品理论电影| 免费大片在线观看www| 91干在线观看| 精品亚洲二区| 日韩欧美在线观看强乱免费| 欧美日本三区| 中文字幕久久av| 久久综合色一综合色88| 麻豆精品一区二区三区视频| 欧美色涩在线第一页| 人人妻人人澡人人爽人人欧美一区| 色青青草原桃花久久综合| 激情aⅴ欧美一区二区欲海潮| 91在线视频成人| 日韩激情在线| 国产天堂在线播放| 99视频精品在线| 久草视频免费播放| 欧美一区二区三区思思人| 国产高清免费在线播放| 欧洲精品久久久| 秋霞综合在线视频| 国产自产在线视频| 国产激情一区二区三区| 暗呦丨小u女国产精品| 欧美亚男人的天堂| 黄色av免费在线看| 国产91精品久久久久久久| ccyy激情综合| 久久男人资源站| 国产精品伊人色| 日韩在线不卡av| 欧美日韩亚洲综合在线 | 巨骚激情综合| 欧美亚洲第一区| 里番精品3d一二三区| 欧美午夜小视频| 成人午夜视频福利| 久久激情免费视频| 日韩精品自拍偷拍| 成人av福利| 91大片在线观看| 欧美极品一区二区三区| 潘金莲一级淫片aaaaaaa| 亚洲精品美国一| 精品国产一级片| 色综合老司机第九色激情| 国内不卡的一区二区三区中文字幕| 在线观看欧美亚洲| 狠狠色狠狠色合久久伊人| 亚洲欧美综合7777色婷婷| 欧美蜜桃一区二区三区| 韩国中文字幕在线| 999在线免费观看视频| 国产专区一区| 人妻无码一区二区三区| 色综合久久综合网欧美综合网 | 久久综合亚洲社区| 国产亚洲高清一区| 黄色一级片黄色| 92国产精品观看| 欧美人一级淫片a免费播放| 中文字幕欧美日韩va免费视频| 国产精品久久乐| 日韩精品一区二区在线视频 | 欧美不卡123| 国产美女精品写真福利视频| 欧美日韩一区在线视频| 美国十次了思思久久精品导航| 成人涩涩小片视频日本| 亚洲精品一区二区三区四区高清| 国模私拍一区二区国模曼安| 青青草原亚洲| 国产在线视频一区二区三区| 国产精品7777777| 亚洲最新av在线| 国产人与zoxxxx另类91| 亚洲 自拍 另类小说综合图区| 91论坛在线播放| 91片黄在线观看喷潮| 国模精品视频一区二区三区| 国产成人一区| www.偷拍.com| 狠狠躁天天躁日日躁欧美| 日本在线观看免费| 激情小说综合网| 久久精品国产秦先生| 黄网站免费在线| 在线观看久久久久久| 国产精品xxx在线观看| 欧美午夜aaaaaa免费视频| 亚洲影视在线观看| 第三区美女视频在线| 国产精品二区三区四区| 可以看av的网站久久看| 岛国毛片在线观看| 国产亚洲精品激情久久| gogo久久日韩裸体艺术| 日本a√在线观看| 精品福利在线视频| 黄色在线免费| 日本一区二区三不卡| 成人免费av资源| 91福利免费视频| 国产精品www色诱视频| 亚洲国产专区校园欧美| 亚洲精品卡一卡二|