精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

DanceGRPO:首個統一視覺生成的強化學習框架

人工智能 新聞
R1 橫空出世,帶火了 GRPO 算法,RL 也隨之成為 2025 年的熱門技術探索方向,近期,字節 Seed 團隊就在圖像生成方向進行了相關探索。

本文由字節跳動 Seed 和香港大學聯合完成。第一作者薛澤岳為香港大學 MMLab@HKU 在讀博士生,在 CVPR、NeurIPS 等國際頂級會議上發表多篇研究成果。項目通訊作者為黃偉林博士和羅平教授。

R1 橫空出世,帶火了 GRPO 算法,RL 也隨之成為 2025 年的熱門技術探索方向,近期,字節 Seed 團隊就在圖像生成方向進行了相關探索。

現在,我們推出名為 DanceGRPO 的創新框架,這是首個旨在統一視覺生成強化學習的解決方案,實現了單一強化學習算法在兩大生成范式(diffusion/rectified flow)、三項任務(文本到圖像、文本到視頻、圖像到視頻)、四種基礎模型(SD、HunyuanVideo、FLUX、SkyReels-I2V)以及五類獎勵模型(圖像 / 視頻美學、圖文對齊、視頻動態質量、二元獎勵)中的全面覆蓋。

圖片

  • 論文標題:DanceGRPO: Unleashing GRPO on Visual Generation
  • arXiv 鏈接:https://arxiv.org/pdf/2505.07818

動機

在生成式 AI 快速發展的這三年,RLHF 逐漸的走進了大家的視野,首先是 GPT-3.5/o1 等一系列工作讓大家明白了 RLHF 在 LLM 中的意義,LLM 領域的 RLHF 方案百花齊放,發展的相對成熟一些,今年更催生了 R1 這一類的大爆款工作。同時,大家也發現,對于視覺生成任務,RLHF 對美感等指標幾乎有著決定性影響,但相較 LLM 的成熟度,生成領域的 RLHF 方案顯然沒那么成熟,目前的主流方案大概分為兩類:

1. Diffusion/Flow-DPO:這一類方法是也是直接來自于 LLM 的 DPO 的影響,在實際操作中,大體分為兩種方案,第一種是離線 DPO,即讓模型去生成一批數據,然后人工標注,然后讓好和壞的數據組成 pairs 送回模型去優化,第二種是在線 DPO,即在線生成數據,然后讓 reward model 實時打分,然后拿回去訓練,這兩種思路大同小異。在實際操作中,我們發現 DPO 對模型的效果比較微弱,比如 DPO 前后的生成結果區別并不是很大,原因也很好理解,DPO 并沒有拿 reward 作為信號去 reinforce 模型的學習,而是用一種類似 SFT 的方案去做,這種情況下對模型的作用并不是很大。

2. ReFL:這一類方案是 diffusion/rectified flow 所專有的,思路非常簡單直接,就是直接在 z_t 步下直接預測 z_0 的結果,然后 vae 去 decode 直接送進 reward model 去直接反向傳播進行優化。這一類方案在圖像上效果很明顯,但是因為要對 reward model 和 decode 后的 features 進行反向傳播,在面對 100 幀以上的視頻生成的時候顯存壓力很大。而且,目前 LLM 和 diffusion 聯合訓練已成為大勢所驅,ReFL 這種通過建模 z_t 和 z_0 的關系,并且直接反向傳播的方式,似乎和這一類模型的建模策略有著很大的 gap。

于是,利用強化學習對模型進行優化的思路也就呼之欲出了,之前社區也對強化學習優化生成模型有過一些探索,例如 DDPO 和 DPOK,但是他們都有很強的局限性:

1. 嘗試的數據集非常小,一般小于 100 個 prompts,

2. 只針對文生圖 diffusion model 進行了測試,并沒有涉及到目前流行的 rectified flow 和視頻生成模型

實現目標 

于是,我們的目標也呼之欲出,我們的強化學習算法需要滿足以下特征:

1. 提升明顯,reward 上漲的足夠多

2. 在 video 上實現的時候顯存壓力不能大,即,不能直接反向傳播 reward model 和 vae

3. 能在大型 prompt 數據集上訓練

4. 能遷移到 rectified flow 和視頻生成模型

DanceGRPO

核心貢獻

我們是第一個視覺生成 + 強化學習的大一統框架,一個 DanceGRPO,可以應用在 diffusion 和 rectified flow,可以應用在文生圖,文生視頻,圖生視頻三類任務,我們在四個 foundation model 上進行了測試,包括了 Stable Diffusion,FLUX,HunyuanVideo,SkyReel-I2V,我們還在五個 reward model 上進行了測試。

方案設計

受最近在 LLM 大火的 GRPO 影響,我們開始嘗試 GRPO 這一類方案是否能在 diffusion model 或者 rectified flow 上穩定訓練,首先我們要 claim 的點是,diffusion model 和 rectified flow 的出發點雖然不同,即 diffusion 和 rectified flow 都可以表示成 stochastic interpolant 的特殊情況,在這種 case 下,他們的采樣方程都可以用 SDE 實現,具體的公式推導參見原文即可。

接下來,我們就開始實現啦,核心的思路還是 follow 了 DeepSeek 的 GRPO 策略,即,用一個 prompt,生成一批數據,然后用 GRPO 的目標函數進行優化,但我們并沒有加入 KL 散度的正則項,因為發現這一項實際上作用不大,以下是我們實驗過程中的一些核心發現:

1. 同一個 prompt 的初始化噪聲最好相同,不然容易 reward hacking

2. 我們可以采樣一個子集的 timesteps 來加速訓練,同時讓模型見過更多的 prompts

3. 實現中可以使用多個 reward model 疊加,而且實現的時候最好是多個 advantage 來疊加

4. DanceGRPO 可以學會 best-of-n inference scaling 的軌跡

5. 強化學習會削弱生成的多樣性

6. 訓練盡量不要打開 cfg,如果非要打開的話,一批 prompt 只能更新一次梯度

算法流程如下:

圖片

接下來是關于 reward model 的討論,我們一共使用了五類 reward model:

(1) 圖像美感 

(2) 視頻美感 

(3) 圖文匹配 

(4) 視頻動態質量 

(5) 我們提出了一種新的 reward model,即把美感 & 圖文匹配 reward model 的結果給二值化,意思是大于某個閾值就是 1,小于這個閾值就是 0

我們在文生圖,文生視頻和圖生視頻上進行了測試。

實驗結果 

我們使用了 HPS-v2.1 和 Clip score 去優化模型,結果如下所示:

圖片


圖片

我們利用 VideoAlign 在 HunyuanVideo 上進行訓練:

圖片

以下是一些 reward 曲線:

圖片


圖片


ps:i2v 任務有一些區別,我們拿視覺美感 reward model 訓練的時候很容易發散,個人認為是因為 i2v 的美感更多取決于首幀,這個任務本身只有 motion quality 可言,所以我們只選擇了使用 motion quality reward 去進行訓練。

這是一個隨著 FLUX 訓練迭代次數的增加,可視化的變化,我們在訓練過程中引入隨機性,但是可視化是不會引入的,就是正常的 ODE solver。

圖片

更多的結果歡迎看原文~

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-05-28 09:15:00

AI視覺模型

2025-11-18 08:50:00

2024-12-09 08:45:00

模型AI

2020-06-05 08:09:01

Python強化學習框架

2020-05-06 16:07:05

百度飛槳

2020-11-16 08:54:05

Google 開源技術

2025-10-30 09:13:55

2025-05-28 11:55:56

模型開源框架

2025-11-06 08:56:00

2023-03-09 08:00:00

強化學習機器學習圍棋

2020-08-10 06:36:21

強化學習代碼深度學習

2018-08-29 08:13:22

Google 學習框架技術

2020-11-12 19:31:41

強化學習人工智能機器學習

2021-09-17 15:54:41

深度學習機器學習人工智能

2022-11-02 14:02:02

強化學習訓練

2023-11-07 07:13:31

推薦系統多任務學習

2021-06-25 15:36:37

框架AI開發

2022-09-28 15:26:45

視覺任務

2019-01-31 10:42:04

框架AI開發

2023-07-20 15:18:42

點贊
收藏

51CTO技術棧公眾號

青青在线免费视频| 日本免费久久高清视频| 精品人妻一区二区乱码| 国产理论电影在线| 久久久综合网站| 成人精品久久av网站| 免费观看一级视频| 精品国产一区一区二区三亚瑟| 欧美嫩在线观看| 国产精品视频网站在线观看| 国产私人尤物无码不卡| 国产精品456露脸| 欧美综合一区第一页| 婷婷社区五月天| 日韩av中文字幕一区| 欧美日韩在线直播| 国产精品无码av在线播放| 1769在线观看| 26uuu国产一区二区三区| 国产欧美精品在线播放| 少妇一级淫片免费放中国| 首页国产精品| 亚洲欧美国产日韩天堂区| 91丝袜超薄交口足| 另类中文字幕国产精品| 香蕉影视欧美成人| 最新av在线免费观看| 国产在线观看精品一区| www.成人网.com| 5g影院天天爽成人免费下载| 一区二区视频免费观看| 久久九九电影| 97免费中文视频在线观看| 国产日韩精品综合网站| 国产一区二区三区精品在线| 高清精品视频| 欧美一区二区啪啪| 在线观看免费不卡av| 欧美日韩视频网站| 精品美女永久免费视频| 国产精品国产三级国产专区51| 在线播放毛片| 国产目拍亚洲精品99久久精品| 久久av一区二区| 亚洲精品一级片| 国产精品一品二品| 96国产粉嫩美女| 一级特黄aaa大片| 秋霞电影一区二区| 国产精品aaa| 精品黑人一区二区三区| 性8sex亚洲区入口| 欧美自拍大量在线观看| 久久久久99精品成人片三人毛片| 亚洲国产午夜| 国外成人在线视频| 国产精品第9页| 欧美亚洲三级| 国产激情视频一区| 天堂av免费在线观看| 三级欧美在线一区| 国产精品都在这里| 最近中文字幕在线观看| 免费在线观看成人| 成人观看高清在线观看免费| 一区二区三区免费观看视频| 麻豆成人91精品二区三区| 国产精品亚洲视频在线观看| 亚洲最新av网站| 寂寞少妇一区二区三区| 亚洲一区中文字幕| 亚洲精品成av人片天堂无码 | 天堂av一区| 欧美成人三级在线| 手机在线成人av| 中文字幕av一区二区三区人| 亚洲午夜未删减在线观看| 久热在线中文字幕色999舞| 激情av中文字幕| 国产精品极品在线观看| 亚洲精品网站在线播放gif| 波多野结衣 在线| 日韩精品诱惑一区?区三区| 日韩中文字幕免费| 黄色一级片在线| 日韩一区二区久久| 国产精品久久久久久久app| 国产视频第一页| www.日韩精品| 一区二区三区的久久的视频| 日本动漫理论片在线观看网站| 天天综合天天综合色| 天天影视综合色| 98视频精品全部国产| 亚洲精品一区久久久久久| 欧美乱大交做爰xxxⅹ小说| 欧美777四色影| 全亚洲最色的网站在线观看| 国产精品国产三级国产普通话对白| 国产ts人妖一区二区| 欧美一区二区三区在线播放| h片在线免费| 欧美色欧美亚洲高清在线视频| 午夜在线观看av| 成人福利一区| 色老头一区二区三区在线观看| 久久亚洲国产成人精品性色| 日本欧美一区二区在线观看| 国产一区二区三区黄| 92国产在线视频| 精品久久中文字幕久久av| 亚洲五月激情网| 国产免费久久| 羞羞色国产精品| 一区二区三区免费在线视频| 久久久国产精品麻豆| 成人在线视频一区二区三区| 51一区二区三区| 日韩成人高清在线| 黄色一级视频免费观看| 久久99久久精品| 日本在线视频一区| 九色porny自拍视频在线播放| 欧美精品日韩一区| 操91在线视频| 国产探花在线播放| 日产国产欧美视频一区精品| 精品欧美一区二区在线观看视频| 免费不卡视频| 欧美午夜理伦三级在线观看| 91精品国产自产| 精品999网站| 成人做爽爽免费视频| 色影院视频在线| 欧美图片一区二区三区| 国产男男chinese网站| 在线看片成人| 国产精华一区| 污污网站在线看| 3751色影院一区二区三区| 国产又粗又猛又爽又黄的视频四季| 性高湖久久久久久久久| 久草一区二区| 国产精品电影| 日韩精品久久久久久福利| 日韩成年人视频| 成人国产精品免费观看视频| 91黄色在线看| 成人精品毛片| 韩日精品中文字幕| 深爱激情五月婷婷| 欧美日韩国产一区二区| 亚洲乱码国产乱码精品精大量 | 国产91在线视频观看| 美女扒开腿让男人桶爽久久动漫| 国产+成+人+亚洲欧洲| 亚洲av永久无码国产精品久久| 亚洲免费观看高清完整版在线| 久久久久久综合网| 欧美一区成人| 国产精品免费在线播放| 91丝袜在线| 亚洲男人天堂九九视频| 中国一级特黄视频| 成人欧美一区二区三区小说| 不用播放器的免费av| 中文字幕亚洲综合久久五月天色无吗''| 成人做爰www免费看视频网站| 久久久久久久久免费视频| 欧美一区二区国产| 国产精品自拍视频一区| 91伊人久久大香线蕉| 91av俱乐部| 日本在线观看中文字幕| 日本女人一区二区三区| 一区二区精品国产| 日韩一区二区三区精品| 69久久夜色精品国产69乱青草| 你懂得在线网址| 欧美日产在线观看| xxxx 国产| 久久久久久夜精品精品免费| jizzzz日本| 欧美日韩专区| 老牛影视免费一区二区| 国产福利一区二区三区在线播放| 欧美大片va欧美在线播放| 少妇人妻偷人精品一区二区| 欧美午夜精品一区二区三区| 麻豆chinese极品少妇| 91老师国产黑色丝袜在线| 777视频在线| 亚洲福利专区| 欧美另类视频在线| 欧美1区2区3| 国产成人97精品免费看片| av片在线观看免费| 亚洲少妇中文在线| 亚洲产国偷v产偷v自拍涩爱| 在线观看视频91| 国产一级片免费观看| 国产精品色一区二区三区| 国模无码视频一区| 久久电影网站中文字幕| 欧美精品99久久| 欧美日韩日本国产亚洲在线| 日韩高清专区| 欧美黑人做爰爽爽爽| 成人国产精品免费视频| 忘忧草在线影院两性视频| 久久亚洲影音av资源网| 毛片在线播放网站| 亚洲高清久久久久久| 国产片在线播放| 日本韩国欧美三级| 日韩无码精品一区二区三区| 亚洲精品国产精品乱码不99| 男人的天堂官网| 91麻豆精品视频| 中国男女全黄大片| 免费的国产精品| 欧美aⅴ在线观看| 91久久久久| 成年人视频大全| 97精品视频| 亚洲巨乳在线观看| 九热爱视频精品视频| 最新日韩中文字幕| 男女激烈动态图| 久久久久97| 爱情岛论坛亚洲入口| 亚洲欧美专区| 国产精品自在线| 播放一区二区| 国产成+人+综合+亚洲欧洲| 麻豆免费版在线观看| 欧美激情在线观看| 欧美xxxx性xxxxx高清| 草民午夜欧美限制a级福利片| 69久久夜色| 在线性视频日韩欧美| 成人高清在线| 中文字幕欧美日韩精品| 北条麻妃在线| 中文字幕亚洲一区在线观看 | 一区二区三区视频免费| 欧洲视频在线免费观看| 日韩黄色在线免费观看| 色就是色亚洲色图| 国产偷亚洲偷欧美偷精品| 亚洲欧美丝袜中文综合| 亚洲欧美激情四射在线日| 狠狠色伊人亚洲综合网站l| 亚洲欧美在线x视频| 免费在线超碰| 这里只有视频精品| 日本成a人片在线观看| 久久久成人精品视频| 在线免费观看污| 久久久久国产精品www| 美女搞黄视频在线观看| 欧美在线一级视频| 亚洲欧美在线成人| 国产精品午夜一区二区欲梦| 国产成人久久精品一区二区三区| 亚洲free嫩bbb| 136国产福利精品导航网址应用| 国产精品播放| 曰本一区二区三区视频| 日韩一区二区电影在线观看| 久久密一区二区三区| 男女裸体影院高潮| 亚洲精品韩国| www黄色在线| 精品一区二区三区蜜桃| 中文字幕永久免费| 91麻豆国产福利精品| 欧美一区二区三区粗大| 一区二区三区日韩在线观看| 日本五十路女优| 欧美日韩一区久久| 性欧美18一19性猛交| 日韩精品中文字幕在线观看| 在线免费av网站| 欧美激情精品久久久久久黑人| 涩涩视频网站在线观看| 羞羞答答国产精品www一本| 国产视频在线观看网站| 男人天堂欧美日韩| wwwwwxxxx日本| av亚洲产国偷v产偷v自拍| 成人在线手机视频| 一区二区三区**美女毛片| 国产精品第5页| 欧美一区二区三区婷婷月色 | 亚洲区免费影片| 免费av不卡| 欧美在线免费视频| 99综合久久| 欧美极品jizzhd欧美| 女同性一区二区三区人了人一| 久久久999视频| 国产呦精品一区二区三区网站| 中文字幕精品久久久| 国产精品久久久久久亚洲伦| 久久精品视频9| 欧美精品自拍偷拍| 日韩大胆人体| 欧美老少配视频| www.26天天久久天堂| 久久久久一区二区| 欧美成人有码| 冲田杏梨av在线| 91丨九色丨国产丨porny| 外国一级黄色片| 欧美视频中文字幕| 涩涩视频在线观看免费| 久久免费成人精品视频| 成人97精品毛片免费看| 日韩欧美一区二区视频在线播放| 亚洲国产专区校园欧美| 男人操女人下面视频| 国产精品第13页| 国产情侣免费视频| 日韩毛片中文字幕| 成人性生交大片免费看在线播放| 成人乱色短篇合集| 日韩精品不卡一区二区| 久久精品香蕉视频| 久久综合九色综合久久久精品综合| 91精品国产高清一区二区三蜜臀| 欧美日韩国产片| 在线播放毛片| 日韩高清三级| 亚洲一区二区三区四区精品| 国产一区亚洲一区| 日韩一级片在线免费观看| 欧美午夜激情在线| 神马午夜在线观看| 午夜伦理精品一区| 久久99精品国产自在现线| 97碰在线视频| 国产91在线|亚洲| 国产一级视频在线观看| 欧美大片顶级少妇| 三级网站视频在在线播放| 成人av免费在线看| 好吊视频一区二区三区四区| 久久国产免费视频| 亚洲国产精品久久艾草纯爱 | 国产乡下妇女三片| 综合分类小说区另类春色亚洲小说欧美| 欧美另类高清videos的特点| 亚洲天堂久久av| 国产极品久久久久久久久波多结野| 三区精品视频| 久久激情综合网| 91高清免费看| 欧美大片日本大片免费观看| 51漫画成人app入口| 精品一区二区三区国产| 视频一区二区不卡| 欧日韩不卡视频| 日韩精品一区在线| 黄视频网站在线观看| 欧美日韩无遮挡| 久久超级碰视频| 欧美成人精品欧美一级| 日韩av在线网址| 成人自拍视频网| 国产1区2区3区中文字幕| 99久久精品久久久久久清纯| 老熟妇一区二区三区| 久久精品视频亚洲| 久久99偷拍| 污版视频在线观看| 亚洲午夜私人影院| 美女做暖暖视频免费在线观看全部网址91 | 色综合久久影院| 国产精品99久久久久久久 | 国语自产精品视频在线看抢先版图片| 日本成人a网站| 国内外成人免费在线视频| 亚洲一区二区高清| 国产黄在线观看| 91久久国产自产拍夜夜嗨| 国产亚洲在线| 最新日韩免费视频| 亚洲国产精品热久久| 国产一区二区色噜噜| 欧美精品卡一卡二| 国产欧美日韩精品在线| 亚洲国产成人在线观看| 国产精品99一区| 在线日韩av| 美女三级黄色片| 亚洲精品一区在线观看香蕉| 日韩高清在线观看一区二区| 国产一级片黄色| 亚洲一二三专区|