精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

DPO與GRPO誰更勝一籌?港中文、北大等聯合發布首個系統性對比研究

人工智能 新聞
近日,一篇來自香港中文大學、北京大學及上海人工智能實驗室的最新研究首次對 GRPO 和 DPO 算法在自回歸圖像生成中的應用進行了全面深入的比較,不僅評估了它們在域內(in-domain)和域外(out-of-domain)的性能,還細致探究了不同獎勵模型及擴展策略對其能力的影響。

近年來,強化學習 (RL) 在提升大型語言模型 (LLM) 的鏈式思考 (CoT) 推理能力方面展現出巨大潛力,其中直接偏好優化 (DPO) 和組相對策略優化 (GRPO) 是兩大主流算法。

如今,這股 RL 的浪潮也涌向了圖像生成領域。當我們將自回歸圖像生成也視為一種序列化的 CoT 推理過程時,一個核心問題浮出水面:DPO 和 GRPO 在這個新戰場上表現如何?它們各自的優勢、挑戰以及最佳實踐又是什么?

近日,一篇來自香港中文大學、北京大學及上海人工智能實驗室的最新研究給出了答案。該研究首次對 GRPO 和 DPO 算法在自回歸圖像生成中的應用進行了全面深入的比較,不僅評估了它們在域內(in-domain)和域外(out-of-domain)的性能,還細致探究了不同獎勵模型及擴展策略對其能力的影響。

圖片

  • 論文標題:Delving into RL for Image Generation with CoT: A Study on DPO vs. GRPO
  • 論文鏈接:https://arxiv.org/abs/2505.17017
  • 代碼鏈接:https://github.com/ZiyuGuo99/Image-Generation-CoT

與 LLM 的 CoT 推理不同,圖像生成的 CoT 面臨著獨特的挑戰,例如確保文本 - 圖像一致性、提升圖像美學質量以及設計復雜的獎勵模型(而非簡單的基于規則的獎勵)。現有工作雖然已將 RL 引入該領域,但往往缺乏對這些領域特定挑戰以及不同 RL 策略特性的深入分析。

該團隊的這項新研究填補了這一空白,為我們揭示了 DPO 和 GRPO 在圖像生成領域的「相愛相殺」和「各自為王」。

圖片

圖 1: GRPO 與 DPO 在自回歸圖像生成中的研究總覽,涵蓋了域內域外性能對比、不同獎勵模型的影響以及擴展策略的效果。

研究核心發現概覽

研究團隊以最新的自回歸圖像生成模型 Janus-Pro 為基線,在 T2I-CompBench (域內、長文本復雜場景) 和 GenEval (域外、短文本模板化) 數據集上進行了細致評估。核心發現可歸納為三大方面:

1. 域內性能 vs. 域外泛化:DPO 與 GRPO 各擅勝場

  • DPO 稱雄域內: 實驗結果顯示,離策略 (off-policy) 的 DPO 方法在域內任務上表現優于 GRPO。在 T2I-CompBench 數據集上,DPO 的平均性能比 GRPO 高出約 11.53%;在使用官方評估工具作為獎勵信號時,DPO 甚至能達到 7.8% 的峰值提升。這突顯了 DPO 在域內任務上的有效性和魯棒性。
  • GRPO 泛化更強: 與之相反,在策略 (on-policy) 的 GRPO 在域外泛化能力上表現更出色。在 GenEval 數據集上,GRPO 始終展現出比 DPO 更好的泛化性能;在使用 HPS 獎勵模型時,GRPO 的峰值提升甚至比 DPO 高出 2.42%。

2. 獎勵模型的影響:DPO 更敏感,優質獎勵模型提升 RL 泛化

  • DPO 對獎勵模型選擇更敏感: 研究發現,DPO 的泛化性能對獎勵模型的選擇比 GRPO 更為敏感,表現為更大的域外性能波動。GRPO 在 GenEval 上的性能方差為 0.5486,顯著低于 DPO 的 0.9547。
  • 獎勵模型的內在泛化能力至關重要: 一個具有更強內在泛化能力的獎勵模型,能夠潛在地提升 RL 算法的整體泛化性能。研究中,不同獎勵模型(如 HPS、ImageReward、Unified Reward 等)在 GenEval 上的表現排序,與它們通過 GRPO 或 DPO 優化后的 RL 模型表現排序高度一致。

3. 有效擴展策略的探索:因材施教,DPO 與 GRPO 策略迥異

研究團隊系統探索了三種主流擴展策略:擴展每個提示生成的樣本圖像數量、擴展域內訓練數據的多樣性和體量,以及采用迭代訓練方法。

對于 GRPO:

  • 擴展采樣圖像數量能帶來更高效的域內性能提升。
  • 適度擴展采樣規模和域內數據有助于改善泛化能力,但過度擴展可能導致過擬合。

對于 DPO:

  • 迭代訓練傾向于最大化域內性能,但在多輪迭代后可能損害泛化能力。
  • 適度采樣能銳化偏好對比,優化域內和域外性能;但過度采樣會引入偏差。
  • 擴展域內數據通過緩解小數據集帶來的偏好范圍局限,能同時提升域內和域外性能。

研究細節與洞察

研究團隊首先明確了任務設定:自回歸圖像生成模型(如 LlamaGen、Show-o、Janus-Pro)通過將圖像轉換為離散 token 序列進行預測,其過程與 LLM 的文本生成類似,因此可以無縫集成 DPO 和 GRPO 的損失機制。

在 DPO 與 GRPO 的對比中,研究者確保了兩者在計算成本上的可比性。例如,DPO 中每個 prompt 生成的圖像數量與 GRPO 中的組大小對齊,并使用相同的獎勵模型。

結果清晰地顯示,DPO 憑借其對預收集靜態數據的有效利用,在域內場景(如 T2I-CompBench 的復雜長描述)中表現更佳。而 GRPO 通過迭代優化策略和在線采樣,更能適應復雜任務分布,從而在域外場景(如 GenEval 的模板化短描述)中展現出更強的泛化性。

圖片

圖 2: 域內與域外性能對比的可視化結果。

在獎勵模型影響的分析中,研究團隊考察了三類獎勵模型:基于人類偏好的模型 (HPS, ImageReward)、視覺問答模型 (UnifiedReward, Ft. ORM) 和基于度量的獎勵模型。

一個有趣的發現是,獎勵模型自身的泛化能力(通過 best-of-N 策略在 GenEval 上評估得到)與通過 RL 算法(DPO 或 GRPO)訓練后模型的泛化能力排序高度吻合(Unified Reward > Image Reward > HPS Reward)。這表明,提升獎勵模型本身的泛化性是提升 RL 泛化性的一個關鍵途徑。

圖片

圖 3: 不同獎勵模型影響的可視化結果。

在擴展策略的探索上,研究團隊針對 GRPO 和 DPO 的特性提出了不同的優化路徑。例如,對于 GRPO,增加每輪采樣的圖像數量(group size)比增加訓練數據量或迭代次數,能更經濟地提升域內性能。

而對于 DPO,迭代訓練(如 DPO-Iter)雖然能顯著提升域內分數,但過早地在泛化能力上達到瓶頸甚至衰退,這可能源于對訓練偏好數據的過擬合。另一方面,擴展域內訓練數據的多樣性和數量,則能幫助 DPO 克服小規模偏好數據集帶來的局限性,從而同時提升域內和域外表現。

圖片

圖 4: 擴展策略影響的可視化結果。

總結與展望

這項研究為我們提供了一幅關于 DPO 和 GRPO 在自回歸圖像生成領域應用的清晰圖景。它不僅揭示了 DPO 在域內任務上的優勢和 GRPO 在域外泛化上的長處,還強調了高質量、高泛化性獎勵模型的重要性,并為兩種 RL 范式提供了針對性的擴展策略建議。

這些發現為未來開發更高效的 RL 算法,以在自回歸圖像生成領域實現更魯棒的 CoT 推理,鋪平了新的道路。研究者希望這項工作能啟發更多后續研究,共同推動 AI 在視覺創造力上的邊界。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2020-03-06 09:21:28

PWA原生應用Web

2024-07-31 09:39:33

2025-08-05 08:13:19

2010-05-28 11:21:17

2022-07-20 08:16:54

Lombokjava工具

2018-06-12 10:09:41

編程語言PythonJava

2014-03-06 15:07:41

青橙小米

2017-01-11 14:38:39

編程語言Java

2010-05-21 16:36:09

GoogleCode

2017-11-13 15:38:03

VMwareOpenStack混合云

2020-02-02 15:42:22

PythonC++編程語言

2020-01-18 14:55:03

架構運維技術

2019-01-04 09:59:14

KafkaRabbitMQMQ

2023-08-09 18:08:35

ChatGPTStackOverflow

2018-08-15 08:33:33

編程Go語言開發

2018-10-12 13:54:26

2025-01-03 09:27:14

2010-07-27 14:36:31

Flex Array

2013-02-19 13:13:33

SurfaceiPad

2017-06-08 15:38:41

點贊
收藏

51CTO技術棧公眾號

91免费视频网站在线观看| 日韩美女在线播放| 爱爱爱爱免费视频| 国产激情视频在线观看| 国产精品18久久久久久久久久久久 | 中文字幕久精品免费视频| 天堂av在线8| 九色porny丨首页入口在线| 久久久www成人免费无遮挡大片| 国产精品情侣自拍| 久久亚洲成人av| 欧美日韩国产在线观看网站| 91精品国产91热久久久做人人| av日韩一区二区三区| 在线免费观看黄色网址| 不卡一区二区三区四区| 成人免费激情视频| 成人午夜视频在线播放| 四虎成人av| 日韩激情av在线播放| 色噜噜狠狠一区二区三区狼国成人 | 欧美高清在线一区二区| 99久久无色码| 中国一级特黄视频| 亚洲乱码久久| 精品少妇一区二区30p| 中文字幕在线观看免费高清| 成人看片爽爽爽| 欧美日韩成人一区| 黄色a级片免费| 美足av综合网| 亚洲女同女同女同女同女同69| 欧美日韩喷水| 婷婷av一区二区三区| 国产一区999| 国产日本欧美在线观看| 国产精品熟女视频| 国产一区二区三区久久久久久久久| 欧美裸身视频免费观看| 看免费黄色录像| 日韩毛片视频| 一区二区三区美女xx视频| 性色av蜜臀av浪潮av老女人| 日韩中文字幕无砖| 欧美一区二区视频免费观看| 日本不卡一区二区在线观看| 欧洲亚洲两性| 欧美性生活大片免费观看网址| 人妻无码久久一区二区三区免费| 欧美videosex性欧美黑吊| 亚洲欧美另类小说视频| 国产成年人在线观看| 免费黄色在线看| 国产精品网站在线观看| 婷婷久久伊人| av大全在线免费看| 欧美国产丝袜视频| 亚洲国产日韩欧美| 在线观看麻豆| 成人免费在线播放视频| 无码人妻精品一区二区三区99v| 欧美成年黄网站色视频| 中文字幕综合网| 三上悠亚免费在线观看| aaa大片在线观看| 亚洲一区在线看| 婷婷五月综合缴情在线视频| 小草在线视频免费播放| 欧美色videos| 午夜免费精品视频| 日本国产亚洲| 欧美一区二区三区不卡| 蜜臀视频在线观看| 日韩伦理一区二区三区| 亚洲网站视频福利| 成人18视频免费69| 欧美/亚洲一区| 久久久人成影片一区二区三区观看| 久久精品免费av| 欧美一级久久| 国产精品美女主播在线观看纯欲| 一级黄色片在线观看| 国产久卡久卡久卡久卡视频精品| 国产精品99久久久久久久| 全部免费毛片在线播放一个| 91美女片黄在线观看| 亚洲欧洲一区二区| 污污的视频在线观看| 大荫蒂欧美视频另类xxxx| www.超碰com| 亚洲一二三区视频| 亚洲欧洲日韩国产| 日本少妇高清视频| 亚洲专区一区二区三区| 成人精品一区二区三区电影黑人| 国产高清免费在线观看| 26uuu色噜噜精品一区二区| 伊人久久99| 手机在线观看av网站| 欧美日韩在线播放一区| 在线天堂www在线国语对白| 精品一区二区三| 欧美激情久久久久| 伊人久久亚洲综合| 99天天综合性| 椎名由奈jux491在线播放| 欧美久久天堂| 91精品午夜视频| 久久精品国产亚洲av麻豆| 久久久久亚洲| 国产第一区电影| 欧美 日韩 人妻 高清 中文| 国产精品传媒入口麻豆| 男人用嘴添女人下身免费视频| 自拍偷拍亚洲| 国产亚洲精品综合一区91| 久久午夜无码鲁丝片| 麻豆传媒一区二区三区| 免费看国产精品一二区视频| 丝袜综合欧美| 欧美高清精品3d| 无码h肉动漫在线观看| 黄色国产精品| 亚洲va欧美va国产综合剧情| 尤物网在线观看| 色婷婷av一区| 给我免费观看片在线电影的| 欧美激情一区| 成人欧美在线观看| 在线a免费看| 日本久久电影网| 性xxxxxxxxx| 中文字幕免费一区二区| 国产欧美亚洲精品| av在线播放网| 色一区在线观看| 人妻精品久久久久中文字幕| 夜夜精品视频| 成人免费在线一区二区三区| 在线播放蜜桃麻豆| 这里只有精品电影| 午夜国产小视频| 加勒比av一区二区| 一区二区三区四区| 日韩国产一二三区| 久久精品国产亚洲一区二区| 91麻豆成人精品国产免费网站| 国产精品毛片高清在线完整版| 五月天婷婷激情视频| 国产伦精品一区二区三区千人斩| 欧美亚洲日本网站| 色视频在线观看福利| 欧美性猛交xxxxx免费看| 少妇特黄一区二区三区| 久久激情一区| 偷拍视频一区二区| 久久亚洲国产精品尤物| 日韩在线观看av| 国产精品久久久午夜夜伦鲁鲁| 国产精品白丝在线| 一级黄色大片儿| 亚洲欧美文学| 国产在线资源一区| 欧美电影h版| 最近2019中文免费高清视频观看www99 | 成人网址在线观看| 超碰在线无需免费| 欧美精品一区二| 黄瓜视频在线免费观看| 欧美国产精品一区二区| 超碰在线资源站| 狠狠色丁香久久综合频道| 国产区一区二区| 日韩三区免费| 久久精品人人做人人爽| 性猛交富婆╳xxx乱大交天津 | 日日夜夜狠狠操| 亚洲欧美在线另类| 91九色蝌蚪porny| 肉色丝袜一区二区| 看全色黄大色大片| 欧美美女啪啪| 国产一区二区丝袜| av中文资源在线资源免费观看| 亚洲欧美在线免费观看| 99国产精品99| 欧美性高潮床叫视频| 国产精品视频一区二区三 | 国产三级av在线播放| 激情六月婷婷综合| 女人天堂av手机在线| 色男人天堂综合再现| 国产日韩欧美精品| 韩国精品视频在线观看 | 成人免费视频一区| 一级特黄性色生活片| 欧美日韩精品免费观看视频完整| 欧美高清视频一区二区三区在线观看 | 能在线看的av| 7777精品伊人久久久大香线蕉完整版 | 在线免费观看日本一区| 妺妺窝人体色www在线下载| 久久久久国产精品厨房| 三上悠亚 电影| 日本欧美一区二区三区乱码| 91黄色在线看| 国产韩日影视精品| 欧美精品一区在线| 午夜免费欧美电影| 国产精品日韩专区| 夜鲁夜鲁夜鲁视频在线播放| 免费av在线一区| h网站在线免费观看| 日韩福利在线播放| 国产高潮流白浆喷水视频| 欧美日韩色一区| 中文字幕一区在线播放| 亚洲国产精品久久久久婷婷884| 中文字幕第69页| 久久精品一区二区| www.88av| 成人综合在线观看| 人妻换人妻仑乱| 韩国一区二区三区| 亚洲综合av在线播放| 人人精品人人爱| 青青青在线播放| 国产亚洲激情| 亚洲熟妇无码一区二区三区导航| 欧美人成在线| 日韩在线视频观看| 特级西西444| 一本久久青青| 免费成人看片网址| 美女av一区| 国产伦精品一区二区三区免费视频| 激情久久免费视频| 91精品久久久久久| 四虎精品永久免费| 国产日韩一区在线| 日韩一区二区三区四区五区| 国产精品6699| 欧美日一区二区三区| 国产精品你懂得| 成人四虎影院| 国产原创欧美精品| 成年永久一区二区三区免费视频| 国产精品一区二区久久| av成人免费| 国产欧美最新羞羞视频在线观看| 成人自拍视频网| 国产精品网址在线| 99综合99| yellow视频在线观看一区二区| 日韩中文字幕视频网| 国产日韩欧美亚洲一区| 偷拍亚洲精品| 日本一区免费| 国产精品99久久精品| 国产成人精品免费看在线播放| 天天做综合网| 国产日韩亚洲欧美在线| 亚洲电影成人| 免费大片在线观看| 久久激情五月婷婷| 日本人dh亚洲人ⅹxx| 成人免费视频国产在线观看| 在线看国产一区| 在线观看免费国产视频| 欧美视频第一页| 中文字幕欧美人妻精品| 制服丝袜av成人在线看| 人妻一区二区三区四区| 日韩精品中文字幕在线| www黄在线观看| 欧美xxxx14xxxxx性爽| 国产极品人妖在线观看| 日本视频久久久| 图片一区二区| 国产精品久久亚洲| 国产成人精品免费视| 一区二区在线中文字幕电影视频| 狠狠色狠狠色综合日日tαg| 国产高清精品在线观看| 麻豆91精品视频| 亚洲国产精品第一页| 国产日产欧美一区二区视频| 国产一区二区精彩视频| 亚洲18女电影在线观看| 中文字幕av无码一区二区三区| 欧美一区二区三区免费大片 | 一本一生久久a久久精品综合蜜 | 欧美韩日一区二区三区| 私库av在线播放| 色一区在线观看| 亚洲va天堂va欧美ⅴa在线| 亚洲午夜未满十八勿入免费观看全集 | 国产精品日韩精品在线播放| 精品日本一区二区三区| 日韩精品一区二区久久| 男女超爽视频免费播放| 秋霞视频一区二区| 性欧美疯狂xxxxbbbb| 这里只有精品免费视频| 精品久久免费看| 生活片a∨在线观看| 亚洲**2019国产| 亚洲人成777| 欧美不卡在线一区二区三区| 欧美日本免费| 国产3p在线播放| 国产亚洲污的网站| 日本一区二区网站| 6080亚洲精品一区二区| 黄色片在线看| 性日韩欧美在线视频| 国产麻豆精品| 亚洲 国产 欧美一区| 国产亚洲综合精品| 国偷自产av一区二区三区麻豆| 中文字幕国产一区| 国产精品777777| 亚洲第一男人av| 成人短视频在线| 国产精品一区二区久久国产| 国产一区二区三区91| 国产在线精品91| 不卡免费追剧大全电视剧网站| 农村黄色一级片| 91精品国产综合久久香蕉的特点| h视频在线观看免费| 情事1991在线| 午夜精品福利影院| 黄色一级视频片| 成人av网站免费| 国产午夜精品无码| 亚洲精品一区二区三区在线观看| av免费网站在线| 2014亚洲精品| 亚洲国产日韩欧美在线| 五月天丁香花婷婷| 亚洲人妖av一区二区| 国产美女裸体无遮挡免费视频| 精品国内亚洲在观看18黄| 欧美大陆国产| 日本特级黄色大片| 国产美女在线精品| 精品99久久久久成人网站免费| 欧美一激情一区二区三区| av免费在线观| 国产欧美综合精品一区二区| 国产欧美在线| 少妇精品一区二区三区| 在线视频中文字幕一区二区| 搞黄视频免费在线观看| 国产精品久久久久久久9999 | 一本一生久久a久久精品综合蜜| 美女高潮久久久| 少妇高潮一区二区三区喷水| 制服丝袜激情欧洲亚洲| 波多野结衣在线高清| 久久精品一二三区| 日本不卡免费在线视频| 一级性生活免费视频| 日韩欧美国产一区二区在线播放| 欧美videos另类精品| 裸模一区二区三区免费| 日韩国产精品久久久久久亚洲| 三级黄色片在线观看| 精品三级av在线| 色在线免费观看| 亚洲欧美成人一区| 国产xxx精品视频大全| 日韩在线视频免费播放| 最新国产精品拍自在线播放 | 都市激情综合| 亚洲欧美电影在线观看| 丁香桃色午夜亚洲一区二区三区| 男人的天堂一区| 永久免费毛片在线播放不卡| 国产高清日韩| 国产黄色一级网站| 中文字幕一区在线| 黄色片网站免费在线观看| 日产日韩在线亚洲欧美| 国产韩日影视精品| 日本一级片在线播放| 欧美日韩国产一级| 国产高清自产拍av在线| 性刺激综合网| 成人app下载| 一区二区 亚洲| 91精品国产成人www| 天天超碰亚洲| 国产熟妇搡bbbb搡bbbb| 日韩一区二区免费高清| 澳门成人av网| 真人抽搐一进一出视频| 中文字幕va一区二区三区| 欧美一级免费片|