精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

圖像生成里的“思維鏈”對決:DPO與GRPO誰主沉浮?港中文&北大等首發系統化對比研究

發布于 2025-6-9 10:12
瀏覽
0收藏

圖像生成里的“思維鏈”對決:DPO與GRPO誰主沉浮?港中文&北大等首發系統化對比研究-AI.x社區

近年來,強化學習(Reinforcement Learning)在提升大型語言模型(LLM)推理能力上的應用持續升溫,尤其在“思維鏈”(Chain of Thought,簡稱 CoT)推理方面顯示出強大潛力。如今,這一趨勢正從文本領域延伸至圖像生成。

當圖像生成也被抽象為一種逐步決策的推理過程時,我們不禁要問:經典的 DPO(直接偏好優化)和 GRPO(組相對策略優化)在圖像生成場景中表現如何?誰在這個新戰場更勝一籌?

近日,一項由香港中文大學、北京大學和上海人工智能實驗室合作完成的研究給出了答案。他們發表了首個系統性對比 DPO 與 GRPO 在自回歸圖像生成任務中的工作,全面評估了兩種 RL 策略在不同場景下的優劣,填補了相關領域的研究空白。

論文鏈接: https://arxiv.org/abs/2505.17017 
代碼開源: https://github.com/ZiyuGuo99/Image-Generation-CoT

圖像生成里的“思維鏈”對決:DPO與GRPO誰主沉浮?港中文&北大等首發系統化對比研究-AI.x社區

圖1: GRPO 與 DPO 在自回歸圖像生成中的研究總覽,涵蓋了域內域外性能對比、不同獎勵模型的影響以及擴展策略的效果。

圖像生成中的 CoT:從語言模型走向多模態智能

過去幾年中,Chain of Thought 被證明在語言模型推理中具有顯著價值。通過引導模型逐步思考,它能有效提升復雜問題的解決能力。而圖像生成,尤其是基于自回歸模型的生成流程,天然也具備一種“序列化推理”的結構。例如,將圖像離散化為 token,再按順序生成的過程,實際上就可以看作是 CoT 推理在視覺領域的映射。

因此,將 DPO 與 GRPO 這類原本服務于語言模型的 RL 策略遷移至圖像生成,是一個順理成章的探索方向。但這一過程中,也暴露出許多圖像特有的挑戰,例如:

  • 文本與圖像的一致性難以評估
  • 圖像質量難以用規則明確定義
  • 獎勵信號不再單一、線性,涉及主觀審美、多模態對齊等維度

DPO vs. GRPO:研究設置與對比框架

研究團隊基于目前先進的Janus-Pro 自回歸圖像生成模型,構建了完整的實驗體系,并在兩個具有代表性的數據集上進行了細致的實證分析:

  • T2I-CompBench:面向復雜、長文本描述的圖文生成任務(屬于域內任務)
  • GenEval:包含短文本、模板化描述,測試模型的跨場景泛化能力(域外任務)

為了確保對比的公平性,實驗在兩個維度上嚴格控制:

1.DPO 與 GRPO 使用相同的獎勵模型;2.對每個提示(prompt)生成的圖像數量、組大小等參數保持一致,確保計算資源一致可比。

研究核心發現

圖像生成里的“思維鏈”對決:DPO與GRPO誰主沉浮?港中文&北大等首發系統化對比研究-AI.x社區

1.域內表現:DPO 更勝一籌

在面對訓練數據分布一致的“域內”場景時,DPO 展現出強勁優勢。研究顯示:

  • 在 T2I-CompBench 上,DPO 的平均生成質量超過 GRPO 約 11.5%;
  • 使用官方評分標準作為獎勵時,DPO 的峰值提升甚至高達 7.8%。

這是因為 DPO 能高效利用預收集的靜態偏好數據,對已有數據集的擬合能力更強,適合深度優化。

2.泛化能力:GRPO 更穩定

但在需要遷移泛化的“域外”場景(GenEval)中,GRPO 的表現更優:

  • 在使用 HPS 獎勵模型時,GRPO 的結果比 DPO 高出約 2.4%;
  • GRPO 由于是 on-policy 策略,更擅長動態適應新數據分布,提升跨任務遷移能力。

圖像生成里的“思維鏈”對決:DPO與GRPO誰主沉浮?港中文&北大等首發系統化對比研究-AI.x社區

圖2: 域內與域外性能對比的可視化結果。

3.獎勵模型選擇:影響巨大

兩者都對獎勵模型的選擇敏感,尤其是 DPO:

  • DPO 在不同獎勵模型下的泛化能力差異更大,標準差達 0.9547;
  • GRPO 表現更穩定,標準差約為 0.5486。

此外,一個重要發現是:獎勵模型本身的泛化能力,幾乎決定了最終模型的泛化能力。 在 GenEval 上進行 best-of-N 評估后發現,無論使用哪種 RL 策略,最終的性能排序與獎勵模型本身的打分能力高度一致:

??> UnifiedReward > ImageReward > HPSReward??

這說明,選擇或訓練一個高質量獎勵模型,是強化學習有效性的關鍵前提。

圖像生成里的“思維鏈”對決:DPO與GRPO誰主沉浮?港中文&北大等首發系統化對比研究-AI.x社區

圖3: 不同獎勵模型影響的可視化結果。

三種擴展訓練策略效果分析

圖像生成里的“思維鏈”對決:DPO與GRPO誰主沉浮?港中文&北大等首發系統化對比研究-AI.x社區

圖4: 擴展策略影響的可視化結果。

研究還對以下三種訓練策略進行系統探討,以進一步優化模型表現:

1.增加采樣圖像數量(Sampling Size) 2.擴展訓練數據規模與多樣性(Data Size)  3.迭代訓練(DPO-Iter / GRPO-Iter)

對于 GRPO:

  • 增加每輪采樣數量是提升性能的最有效手段;
  • 適度擴大訓練集規模有助于提升泛化;
  • 但過度擴展會引起過擬合現象。

對于 DPO:

  • 多輪迭代訓練可強化域內性能,但存在泛化性能下降的風險;
  • 增加樣本多樣性與數量,有助于突破偏好范圍限制;
  • 小規模采樣利于偏好對比,提升表現;過度采樣則可能引入噪聲或偏差。

理論分析與方法機制

DPO 與 GRPO 的差異并不只是訓練流程不同,它們在策略結構與損失構造上也存在本質區別:

  • DPO 是一種基于離策略訓練的偏好學習方式,依賴靜態的正負樣本對,通過優化偏好傾向函數來提升生成質量;
  • GRPO 更強調“組間對比”,通過在線采樣、策略更新進行逐步優化,策略靈活但成本更高。

研究還特別指出,兩者的訓練損失在計算開銷上可以做精細對齊,從而保證評估結果更具可比性。

總結與展望

這項開創性研究為圖像生成領域引入 RL 思維鏈機制提供了系統的理論與實證支撐。DPO 與 GRPO 并非簡單的“優劣之分”,而是更適合于不同場景:

  • DPO 適合在已有高質量數據基礎上深度優化,追求精細化輸出
  • GRPO 則適合泛化需求高、任務分布多樣的實際應用環境

與此同時,研究也強調了獎勵模型作為“訓練導航儀”的重要性,未來在獎勵模型的泛化性設計上仍有很大提升空間。此外,該研究不僅明確了 DPO 與 GRPO 在不同場景下的適用性,也提供了可復用的實驗框架與擴展策略建議,為圖像生成引入 RL 方法奠定了實踐基礎。


隨著多模態任務復雜度提升,如何在泛化能力、生成質量與訓練效率之間找到平衡,將成為關鍵議題。這項工作為后續設計更魯棒、更智能的圖像生成 RL 框架提供了有力啟示,未來值得期待。


本文轉自AI生成未來 ,作者:AI生成未來


原文鏈接:??https://mp.weixin.qq.com/s/wgyFWkCXvd89kK0aLeQX6g??

收藏
回復
舉報
回復
相關推薦
亚洲精美视频| 欧美国产日韩在线| 亚洲最大综合网| 日韩毛片久久久| 国产麻豆精品视频| 98视频在线噜噜噜国产| 最近中文字幕在线mv视频在线| 久久91超碰青草在哪里看| 亚洲欧美日韩国产另类专区| 国内外成人免费视频| jizz国产在线| 国产精品第十页| 亚洲夜晚福利在线观看| 亚洲一区二区偷拍| 国产调教在线| 国产精品福利一区二区三区| 国产精品麻豆免费版| 国产主播第一页| 欧美深夜福利| 在线精品国产欧美| 岛国av免费观看| 久久青草视频| 欧美日韩裸体免费视频| 在线免费一区| 国产香蕉在线| 99久久婷婷国产综合精品电影| 国产日韩欧美日韩大片| 国偷自拍第113页| 在线成人激情| 色悠悠久久久久| 人妻熟女aⅴ一区二区三区汇编| 欧美高清你懂的| 色悠悠久久综合| 大荫蒂性生交片| 免费在线毛片网站| 26uuu久久天堂性欧美| 成人蜜桃视频| 国产三级午夜理伦三级| 奇米777欧美一区二区| 69精品小视频| 国产在线精品观看| 欧美久久一区| 久久成人免费视频| 日本二区三区视频| 日韩欧美一区二区三区在线视频| 亚洲精品小视频在线观看| 97精品人人妻人人| 一区二区网站| 日韩你懂的在线观看| 最新免费av网址| 日韩黄色在线| 欧美日韩国产高清一区| 亚洲国产精品三区| 成人h在线观看| 91精品福利视频| 北条麻妃在线观看| 欧美91看片特黄aaaa| 精品国产福利视频| 成人免费aaa| 国产精品25p| 精品成人久久av| 男女视频网站在线观看| 久草在线中文最新视频| 五月婷婷久久丁香| 精品久久一二三| 在线观看涩涩| 在线观看亚洲专区| 亚洲欧美久久久久| 亚洲成人1区| 91精品国产色综合久久久蜜香臀| 永久免费黄色片| 亚洲国产aⅴ精品一区二区| 精品三级av在线| 小毛片在线观看| 伊人久久综合影院| 自拍偷拍亚洲欧美| 天天天天天天天天操| 亚洲五月综合| 色综合视频一区中文字幕| 国产精彩视频在线| 亚洲欧美日本视频在线观看| 国产aⅴ夜夜欢一区二区三区| 一区二区三区在线观看av| 日韩电影在线一区二区| 成人免费网视频| 亚洲AV无码精品色毛片浪潮| 99久久久久免费精品国产 | 国产精品美女www爽爽爽| 亚洲欧洲国产精品久久| 亚洲91av| 色婷婷综合五月| 国产精欧美一区二区三区白种人| avtt综合网| 亚洲性夜色噜噜噜7777| 色婷婷在线视频观看| 国产精品女主播一区二区三区| 日韩免费高清在线观看| 亚洲综合一区中| 成人综合激情网| 三级三级久久三级久久18| 99自拍视频在线观看| 疯狂蹂躏欧美一区二区精品| 国产九九在线观看| 国产一区在线电影| 色999日韩欧美国产| 日产欧产va高清| 麻豆精品精品国产自在97香蕉 | 久久超碰99| 久久精品国产96久久久香蕉| 日韩成人免费观看| 经典三级在线一区| 久久人人97超碰人人澡爱香蕉| 精品国产99久久久久久| 色欧美片视频在线观看| 欧美熟妇精品一区二区 | 国产在线拍揄自揄拍无码| 美女搞黄视频在线观看| 欧美一级生活片| www.涩涩爱| 噜噜噜91成人网| 痴汉一区二区三区| 麻豆视频在线免费观看| 在线亚洲人成电影网站色www| 欧美午夜精品一区二区| 久久国产精品亚洲人一区二区三区| 97碰在线观看| 国产av一区二区三区精品| 欧美激情中文字幕| 日本福利视频在线| 国产精品久久久久av蜜臀| 久久精品成人一区二区三区 | 免费日韩av片| 国产女主播一区二区| 污污的网站在线免费观看| 欧美人成免费网站| 久久国产柳州莫菁门| 国产精品三上| 精品国产免费久久久久久尖叫| 丝袜美腿av在线| 日韩一区二区三区免费观看| 女教师淫辱の教室蜜臀av软件| 日韩专区一卡二卡| 久久这里精品国产99丫e6| 国产拍在线视频| 日韩av影视在线| 亚洲视频免费播放| 北条麻妃一区二区三区| 国产freexxxx性播放麻豆| 日韩欧美中文在线观看| 久久久国产成人精品| 亚洲视频久久久| 国产精品亲子乱子伦xxxx裸| 一级黄色特级片| 日韩中文字幕高清在线观看| 国产精品久久电影观看| 成人网视频在线观看| 91福利区一区二区三区| 蜜桃久久精品成人无码av| 久久免费高清| 日本在线观看一区| 国精产品一区一区三区四川| 伊人久久五月天| 一级特黄录像免费看| 亚洲欧洲成人自拍| 一本之道在线视频| 狠久久av成人天堂| 精品国产一区二区三区麻豆免费观看完整版| 国产福利在线免费观看| 亚洲第一精品久久忘忧草社区| 日韩av女优在线观看| eeuss影院一区二区三区| 18禁免费无码无遮挡不卡网站| 亚洲欧洲美洲国产香蕉| 国产精品第3页| 麻豆网站在线| 精品日韩一区二区三区| 日韩黄色在线视频| 久久久高清一区二区三区| 婷婷免费在线观看| 午夜亚洲福利| 久久国产一区二区| 国产亚洲精彩久久| 欧美黑人视频一区| 男操女在线观看| 777a∨成人精品桃花网| 日本熟妇成熟毛茸茸| 久久精品一区二区三区不卡牛牛 | 亚洲精品视频久久| 亚洲中文字幕在线观看| 一区二区三区不卡在线观看 | 三上悠亚av一区二区三区| 欧美日韩国产免费观看| 久久成人资源| 天堂综合在线播放| 4k岛国日韩精品**专区| 午夜在线视频| 亚洲国产高清福利视频| 一区二区视频在线免费观看| 亚洲一级片在线观看| 级毛片内射视频| 国产91精品露脸国语对白| 看欧美ab黄色大片视频免费| 欧美91视频| 亚洲成人精品电影在线观看| 91麻豆精品激情在线观看最新 | 亚洲第一天堂在线观看| 日本黄色一区二区| 久久精品99国产精| 欧美极品美女视频| 中文字幕99页| 美女被久久久| 日本香蕉视频在线观看| 日韩综合网站| 欧美日韩最好看的视频| 91国内精品白嫩初高生| 国产精自产拍久久久久久| 美女的胸无遮挡在线观看 | 亚洲国产日韩综合一区| 精品成人自拍视频| 91中文在线观看| 成人国产激情| 欧美专区在线视频| 日韩伦理av| 久久亚洲私人国产精品va| 国产小视频在线播放| 亚洲精品国产品国语在线| aaa一区二区| 欧美日韩成人综合天天影院| 国产性生活视频| 日韩欧美精品在线观看| 久久精品视频久久| 亚洲你懂的在线视频| 精品手机在线视频| 国产日韩高清在线| 国产精品扒开腿做爽爽| 99精品偷自拍| 久久久午夜精品福利内容| 国产成人久久精品77777最新版本 国产成人鲁色资源国产91色综 | 国产精品久久久久秋霞鲁丝| 在线免费三级电影网站| 97精品免费视频| 超碰97免费在线| 欧美日韩aaaa| 日本无删减在线| 欧美精品做受xxx性少妇| 日本美女在线中文版| 日韩亚洲欧美中文高清在线| √天堂资源地址在线官网| 中文字幕精品久久久久| 成年人免费在线视频| 亚洲天堂av电影| 成人影视在线播放| 自拍偷拍亚洲区| 久久bbxx| 九九久久国产精品| 久久电影网站| 久久全球大尺度高清视频| 第一中文字幕在线| 97精品一区二区三区| 亚洲精品日产| 国产91精品在线播放| 亚洲国产尤物| 91综合免费在线| ccyy激情综合| 蜜桃传媒视频麻豆第一区免费观看 | 69堂国产成人免费视频| 精品伦一区二区三区| 原纱央莉成人av片| 国内精品久久久久影院优| 高清毛片在线观看| 日本电影亚洲天堂| 狠狠久久伊人中文字幕| 91gao视频| 欧美亚洲国产日韩| 日韩在线导航| **女人18毛片一区二区| 成人免费a级片| 一区二区三区国产盗摄 | 欧美xxxhd| 国产精品成人一区| 伊人久久一区| 精品免费二区三区三区高中清不卡 | 国产性生活大片| 亚洲超碰精品一区二区| 潘金莲一级淫片aaaaaa播放| 欧美日本韩国一区| 日本激情一区二区| 在线视频欧美日韩精品| 中文av资源在线| 欧美又大又粗又长| 国产一区二区三区免费在线 | 亚洲成人av一区二区| 亚洲综合久久网| 日韩欧美一区二区不卡| 日韩美女一级视频| 久久精品国产精品亚洲| 蜜臀久久精品| 国产精品人成电影| 日韩三级av高清片| 欧美一级片免费观看| 一区二区三区中文| 久久精品网站视频| 国产精品一区二区三区99| 美女久久久久久久久久| 亚洲一区二区在线免费观看视频| 中文字幕xxxx| 亚洲精品在线观看网站| 午夜视频在线看| 奇门遁甲1982国语版免费观看高清| 激情综合婷婷| 日韩资源av在线| 一区在线视频| www.桃色.com| 国产精品午夜在线| 800av免费在线观看| 日韩手机在线导航| 欧美三级理伦电影| 国产成人久久久精品一区| 国产伦精品一区二区三区在线播放| 一本一生久久a久久精品综合蜜 | 26uuu久久噜噜噜噜| 国产一区一区| 亚洲日本japanese丝袜| 羞羞答答国产精品www一本 | 日本一区二区成人| 91玉足脚交嫩脚丫在线播放| 精品久久久网站| 国产网友自拍视频导航网站在线观看| 欧美在线一区二区三区四| 盗摄牛牛av影视一区二区| 色一情一乱一乱一区91| 久久se这里有精品| 日本美女xxx| 日本丶国产丶欧美色综合| 性猛交xxxx| 97精品一区二区三区| 鲁大师精品99久久久| 亚洲国产精品成人天堂| 国产精品66部| 欧美特级一级片| 3d动漫精品啪啪| 国产精品久久久久久福利| 91精品国产综合久久香蕉最新版| 色天天综合网| 日本77777| 亚洲精品免费电影| 99久久精品日本一区二区免费| y97精品国产97久久久久久| 欧美黄页在线免费观看| 一区二区高清视频| 久久超级碰视频| 手机在线免费看片| 91精品国产免费| 在线免费观看a视频| 亚洲最大福利视频网| 欧美精品91| 伊人久久一区二区三区| 婷婷开心激情综合| 色在线免费视频| 国产成+人+综合+亚洲欧洲| 精品一区二区三区在线| 激情 小说 亚洲 图片: 伦| 国产精品午夜电影| 一级黄色大片免费| 美女久久久久久久| 亚洲精品一区国产| 无码人妻丰满熟妇区96| 久久精品欧美日韩精品| 中文字幕有码视频| 久久久精品久久久| 久久a爱视频| 成人在线观看黄| 亚洲欧洲国产日本综合| 亚洲av无码一区二区三区性色| 午夜精品在线视频| 激情综合网站| 在线播放黄色av| 舔着乳尖日韩一区| 北条麻妃在线| 147欧美人体大胆444| 国产亚洲精品自拍| 影音先锋男人看片资源| 欧美xxxxxxxx| 欧美最新精品| 91免费国产精品| 久久精品男人天堂av| 99久久精品国产成人一区二区| 97视频在线看| 99久久www免费| 污污内射在线观看一区二区少妇| 在线观看91精品国产入口| 50度灰在线| 欧美日韩一区二| 国产成人综合网| 潘金莲一级淫片aaaaaa播放| 欧美成人午夜影院| 精品高清在线| 亚洲av成人片无码| 欧美日韩一区二区在线视频| 91白丝在线|