精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

首個多模態統一CoT獎勵模型來了,模型、數據集、訓練腳本全開源

人工智能 新聞
UnifiedReward-Think 展示了獎勵模型的未來方向 —— 不僅僅是一個 “打分器”,而是一個具備認知理解、邏輯推理與可解釋輸出能力的智能評估系統。

在多模態大模型快速發展的當下,如何精準評估其生成內容的質量,正成為多模態大模型與人類偏好對齊的核心挑戰。然而,當前主流多模態獎勵模型往往只能直接給出評分決策,或僅具備淺層推理能力,缺乏對復雜獎勵任務的深入理解與解釋能力,在高復雜度場景中常出現 “失真失準”。

那么,獎勵模型是否也能具備像人類一樣的深度思考能力?

近日,騰訊混元與上海 AI Lab、復旦大學、上海創智學院聯合提出全新研究工作 UnifiedReward-Think,構建出首個具備長鏈式推理能力的統一多模態獎勵模型,首次讓獎勵模型在各視覺任務上真正 “學會思考”,實現對復雜視覺生成與理解任務的準確評估、跨任務泛化與推理可解釋性的大幅提升。

圖片


  • 論文題目: Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning
  • 項目主頁:https://codegoat24.github.io/UnifiedReward/think
  • 論文鏈接:https://arxiv.org/pdf/2505.03318
  • GitHub:https://github.com/CodeGoat24/UnifiedReward
  • 模型:https://huggingface.co/collections/CodeGoat24/unifiedreward-models-67c3008148c3a380d15ac63a
  • 數據集:https://huggingface.co/collections/CodeGoat24/unifiedreward-training-data-67c300d4fd5eff00fa7f1ede

一、背景與動機:獎勵模型也需要 “思考”

當前的多模態獎勵模型大多只能對結果進行 “表面判斷”,缺乏深度推理與可解釋的決策依據,難以支撐對復雜視覺任務的精準評估。

該工作研究團隊提出關鍵問題:是否可以引入 “長鏈式思考”(Chain-of-Thought, CoT)機制,賦予獎勵模型更強的推理能力?

挑戰在于,當前缺乏高質量的多模態 CoT 獎勵推理數據,傳統 SFT 等訓練范式難以直接教會模型掌握推理過程。

他們認為,多模態大模型本身具備深層、多維度的推理潛力,關鍵在于設計一套高效訓練范式去激發并強化獎勵模型的 “思考能力”。

圖片

二、解決方案:三階段訓練范式,逐步進化獎勵模型推理能力

該研究提出一套新穎的 “三階段” 訓練框架,分為 “激發 → 鞏固 → 強化”,層層推進模型的推理進化:

階段一:冷啟動激發(Cold Start)

使用僅 5K 圖像生成任務的高質量 CoT 獎勵推理數據,讓模型學會基本的推理格式與結構。實驗表明,這一階段就能激發模型在多個視覺任務中的推理能力。

階段二:拒絕采樣鞏固(Rejection Sampling)

利用冷啟動后的模型在各視覺任務的泛化能力,對大規模多模態偏好數據進行推理,通過拒絕采樣剔除邏輯錯誤樣本,強化模型對正確思維鏈的推理模式。

階段三:GRPO 強化(Group Relative Policy Optimization)

針對推理錯誤樣本,引入 GRPO 強化學習機制,引導模型探索多樣化推理路徑,從錯誤中學習,逐步收斂到正確邏輯思考。

三、實驗亮點:獎勵模型不僅能 “顯示長鏈推理”,還能 “隱式邏輯思考”

UnifiedReward-Think 在多個圖像生成與理解任務中進行了系統評估,結果表明該模型具備多項突破性能力:

  • 更強可解釋性:能夠生成清晰、結構化的獎勵推理過程;
  • 更高可靠性與泛化能力:各視覺任務均表現出顯著性能提升;
  • 出現隱式推理能力:即使不顯式輸出思維鏈,模型也能作出高質量判斷,表明推理邏輯已 “內化” 為模型能力的一部分。

定量實驗:長鏈推理帶來全面性能飛躍

圖片

定量結果表明

  • 在圖像與視頻生成獎勵任務中,全面優于現有方法;
  • 在圖像理解類獎勵任務上,長鏈思維鏈推理帶來顯著性能提升,驗證了復雜視覺理解對深度推理能力的高度依賴;
  • 即便在不顯式輸出思維鏈的情況下,模型仍能通過隱式邏輯推理保持領先表現,相比顯式 CoT 推理僅有輕微下降,展現出強大的 “內化邏輯” 能力;
  • 與基礎版本 UnifiedReward 相比,加入多維度、多步驟推理帶來了多任務的全面性能躍升,驗證了 “獎勵模型也能深度思考” 的價值。

消融實驗:三階段訓練策略缺一不可

該工作進行了系統的消融實驗,驗證三階段訓練范式中每一步的獨立貢獻:

  • 冷啟動階段:模型學會了 CoT 推理的結構,但對獎勵預測的準確性仍較有限;
  • 拒絕采樣階段:通過篩除推理錯誤樣本,顯著提升了模型對 “正確思維鏈” 的偏好,有效增強了模型的穩定性與泛化性;
  • GRPO 階段:提升幅度最大,模型聚焦于錯誤推理樣本,通過多路徑推理探索,逐步收斂至更精確的推理過程,體現出該階段對 “推理糾錯” 的關鍵作用。
  • 無推理路徑的 GRPO 版本效果顯著下降。我們進一步驗證:若去除 CoT 推理、讓獎勵模型僅對最終答案進行 GRPO 強化,雖然略優于 baseline,但提升比較有限。說明僅優化結果遠不足以驅動深層推理能力的形成。

結論:顯式建模思維鏈推理路徑,是強化獎勵模型泛化與魯棒性的關鍵。GRPO 訓練階段之所以有效,根源在于 “強化正確推理過程”,而非僅僅是 “強化正確答案”。

圖片

圖片

定性效果展示

該工作在多種視覺任務中對模型進行了案例測試,展現出其按任務定制評估維度的能力。通過對圖像、視頻或答案進行細粒度、多維度打分,并基于各維度總分進行整體判斷。此設計有效緩解了多模態模型中常見的 “推理過程與最終評分語義脫節” 問題,顯著提升了評估的一致性與可信度。

圖片

圖片

圖片

圖片

圖片

圖片

四:總結

UnifiedReward-Think 展示了獎勵模型的未來方向 —— 不僅僅是一個 “打分器”,而是一個具備認知理解、邏輯推理與可解釋輸出能力的智能評估系統。

目前,該項目已全面開源:包括模型、數據集、訓練腳本與評測工具,歡迎社區研究者探索、復現與應用。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-06-06 14:09:32

模型開源

2025-06-13 08:45:00

數據模型可視化

2024-04-08 12:19:19

AI數據

2025-04-07 00:00:00

多模態大模型

2023-12-10 15:21:39

2024-03-25 12:30:18

AI訓練開源

2024-07-22 07:10:00

小模型機器學習蘋果

2024-12-18 18:57:58

2023-09-13 13:21:52

模型數據

2025-01-06 10:00:00

模型視覺生成

2025-07-31 08:45:00

模型AI開源

2025-09-19 09:05:18

AI模型訓練

2022-01-21 15:33:56

架構模型AI

2024-07-04 10:13:18

2024-09-23 08:20:00

模型訓練

2022-08-08 09:47:09

AI算法模型

2025-07-24 11:38:40

2025-04-10 09:15:00

模型AI數據

2025-06-09 09:41:25

2025-07-09 08:57:55

點贊
收藏

51CTO技術棧公眾號

一区二区三区精品视频在线| 极品少妇xxxx精品少妇| 亚洲欧美日韩精品久久亚洲区| 北条麻妃在线视频观看| av资源在线观看免费高清| 精品制服美女丁香| 97av在线播放| 国产又黄又粗又猛又爽的| av综合网址| 欧美色电影在线| 久久99久久99精品| av播放在线观看| 丁香激情综合五月| 国产精品人成电影在线观看| 不卡的免费av| 国产精品91一区二区三区| 亚洲精品一区二区三区香蕉| 欧美日韩怡红院| 四虎影视国产在线视频| 久久麻豆一区二区| 97久久夜色精品国产九色| 无码人妻熟妇av又粗又大| 亚洲人成免费网站| 国产午夜精品全部视频在线播放| 香蕉视频xxxx| 国产精品第一国产精品| 精品欧美一区二区三区| 日韩video| eeuss影院在线观看| av在线播放不卡| 亚洲www在线观看| 成人av网站在线播放| 精品1区2区3区4区| 美女视频久久黄| 成人在线观看免费高清| 欧美人成在线观看ccc36| 91精品婷婷国产综合久久竹菊| 国产偷人视频免费| 7777kkk亚洲综合欧美网站| 亚洲人成网站影音先锋播放| 日韩欧美在线一区二区| 四虎影院在线域名免费观看| 国产69精品久久久久毛片| 国产日韩精品在线观看| 中文字幕免费高清网站| 亚洲欧美成人综合| 国模叶桐国产精品一区| 免费无遮挡无码永久在线观看视频| 日韩精品久久| 国产亚洲精品一区二区| 一级片手机在线观看| 狼人天天伊人久久| 亚洲第一av在线| 蜜桃色一区二区三区| 亚洲日本va| 欧美一级搡bbbb搡bbbb| 97人人模人人爽人人澡| 91成人福利社区| 欧美丰满美乳xxx高潮www| 久久久久久久久久一区二区| 日本一区二区中文字幕| 欧美吞精做爰啪啪高潮| 一区二区成人网| 91福利精品在线观看| 91九色最新地址| 99免费视频观看| 91大神在线观看线路一区| 欧美性xxxxxxxx| 亚洲美女性囗交| 久久视频社区| 精品国偷自产国产一区| 国产a级黄色片| 牲欧美videos精品| 亚洲欧美日韩国产成人| 自拍偷拍你懂的| 国产韩日影视精品| 久久免费精品视频| 亚洲影院在线播放| 另类欧美日韩国产在线| 91久久久久久久久久久| 亚洲爱爱综合网| kk眼镜猥琐国模调教系列一区二区| 精品国产一区二区三区日日嗨| 午夜国产在线观看| 国产香蕉久久精品综合网| 亚洲欧美日韩国产yyy| 国产一二三区在线观看| 亚洲va韩国va欧美va| 色综合av综合无码综合网站| 成人精品三级| 精品少妇一区二区三区在线播放| 国产高清自拍视频| 成人影视亚洲图片在线| 欧美成人精品影院| 毛片视频网站在线观看| 久久精品久久99精品久久| 99久久精品免费看国产四区| 深夜视频在线免费| 中文字幕亚洲一区二区va在线| 可以在线看黄的网站| 成人一级福利| 欧美日韩高清一区| 色综合久久五月| 成人区精品一区二区婷婷| 九色成人免费视频| 久久人人爽人人爽人人片av免费| 国产在线精品一区二区| 久久青青草原一区二区| av网站免费在线观看| 日韩欧美精品网址| 日本xxxx免费| 日韩欧美一区免费| 97在线视频免费看| 国产精品免费无遮挡| 91丨porny丨户外露出| 黄色一级片网址| 日韩影片中文字幕| 亚洲国产欧美一区二区丝袜黑人 | 国产精品天美传媒沈樵| 人妻av中文系列| 伊人久久大香线蕉综合影院首页| 精品视频—区二区三区免费| 欧美老熟妇一区二区三区| 日韩国产精品久久久| 国产一区免费视频| 视频在线观看入口黄最新永久免费国产| 色妞www精品视频| 图片区偷拍区小说区| 国产精品88久久久久久| 国产精品成人播放| 色播色播色播色播色播在线| 一区二区日韩av| 国产精品视频中文字幕| 国产一区二区三区四区二区| 97人人模人人爽人人喊中文字| 国产精品熟女久久久久久| 国产日产欧产精品推荐色| 久久久一本二本三本| youjizzjizz亚洲| 大胆人体色综合| 97超碰人人模人人人爽人人爱| 国产亚洲欧美在线| 波多野结衣家庭教师视频| 青青一区二区| 性欧美办公室18xxxxhd| www.五月婷婷| 一区二区三区四区视频精品免费| 男女污污视频网站| 99久久精品费精品国产| 国产精品天天狠天天看| 香蕉视频在线播放| 欧美日韩在线三级| 国产精品视频看看| 国产制服丝袜一区| 色香蕉在线观看| 9999在线精品视频| 欧美xxxx做受欧美| 国产chinasex对白videos麻豆| 亚洲品质自拍视频| 杨幂一区二区国产精品| 欧美日韩 国产精品| 国产69精品久久久久9999apgf | 欧美精品久久久久久久久25p| 国产亚洲一区| 国产精品一二区| 欧美日本高清| 日韩丝袜美女视频| 日本少妇激情视频| 久久久亚洲精品石原莉奈| 韩国日本美国免费毛片| 日韩成人a**站| 91亚洲精华国产精华| 色呦呦在线视频| 亚洲精品第一国产综合精品| 在线视频一区二区三区四区| 欧美激情一区二区在线| 制服丝袜中文字幕第一页| 欧美午夜一区| 激情小说网站亚洲综合网| av高清不卡| 日韩在线播放一区| www.黄色小说.com| 欧美性xxxxxx| 亚洲欧美综合7777色婷婷| 国产福利电影一区二区三区| 亚洲中文字幕无码专区| 四季av一区二区凹凸精品| av电影成人| 在线高清av| 久久精品中文字幕电影| 欧美一区二区三区黄片| 日本高清不卡视频| avtt天堂在线| 久久午夜国产精品| 伊人色在线视频| 亚洲永久网站| av磁力番号网| 亚洲欧美tv| 666精品在线| 欧美gay视频| 欧美俄罗斯性视频| h视频在线免费| 亚洲福利在线看| 97人妻精品一区二区三区| 午夜激情一区二区| 欧美视频一区二区在线| 久久综合九色综合欧美亚洲| 国产成人在线综合| 国产精品丝袜xxxxxxx| mm131午夜| 国产一区二区三区不卡视频网站| 99国产精品久久久久老师| 成人黄色免费短视频| 色综合视频一区中文字幕| 中文字幕在线免费| 亚洲另类xxxx| 人妻91麻豆一区二区三区| 欧美美女喷水视频| 欧美一区二区三区不卡视频| 亚洲一区二区三区四区在线| 女性裸体视频网站| 久久综合九色综合97_久久久| 日本少妇xxx| 精品中文字幕一区二区| 日韩一级片播放| 亚洲综合二区| 国产精品久久..4399| 91精品电影| 在线看成人av电影| 国精一区二区| 久久手机视频| 哺乳一区二区三区中文视频| 2020国产精品久久精品不卡| 日韩精品第二页| 国产精品嫩草影院一区二区| 午夜日韩成人影院| 欧美在线视频网站| 91超碰免费在线| 久久久久中文字幕| 黑人玩欧美人三根一起进| 美女福利视频一区| 国产高清一区二区三区视频 | 激情网站在线| 欧美成人激情在线| 在线黄色网页| 久久成人精品视频| 高潮毛片在线观看| 日韩视频在线观看免费| 五月婷婷在线视频| 日韩中文字幕第一页| 午夜视频在线观看网站| 日韩中文在线不卡| 黄色网页在线观看| 久久成人免费视频| 羞羞视频在线免费国产| 欧美日韩福利电影| av中文字幕在线观看第一页| 午夜精品理论片| 亚洲精华液一区二区三区| 4444欧美成人kkkk| 亚洲va中文在线播放免费| 国产大片精品免费永久看nba| 成人爱爱网址| 国产精品成久久久久三级| 黄色精品视频网站| 成人啪啪免费看| jizz国产精品| 美日韩免费视频| 日韩欧美网址| 日韩成人手机在线| 中文精品视频| 九九热在线免费| 黄色日韩网站视频| 佐佐木明希电影| 久久亚洲私人国产精品va媚药| 波多野吉衣中文字幕| 中文字幕免费不卡| 青娱乐国产精品| 欧美午夜视频一区二区| 亚洲精品国产欧美在线观看| 3atv一区二区三区| 日韩有码第一页| 亚洲欧洲国产伦综合| 香蕉视频免费在线播放| 国模gogo一区二区大胆私拍| 欧美成人免费电影| 91pron在线| 久久av中文| 日韩精品免费一区| 久久亚洲欧洲| 国产又粗又猛又爽又黄| 久久婷婷色综合| 午夜爽爽爽男女免费观看| 图片区小说区区亚洲影院| 亚洲一二区视频| 亚洲福利视频网站| 黄色网址视频在线观看| 欧美亚洲国产日本| 日韩亚洲精品在线观看| 欧美日韩一区在线视频| 午夜精品国产| 天天操天天摸天天爽| 成人一区二区视频| 日韩欧美视频免费观看| 黑人巨大精品欧美一区二区一视频 | 国产精品久久久久影院日本| 99国产精品久久一区二区三区| 日韩成人av网站| 激情久久久久久久| www.cao超碰| 国产天堂亚洲国产碰碰| 亚洲一区 视频| 91精品国产高清一区二区三区蜜臀 | 久草视频免费在线播放| 欧美午夜精品电影| 五月天丁香视频| 美女av一区二区| 成人黄色免费观看| 日本视频一区在线观看| 激情成人亚洲| 制服下的诱惑暮生| 国产精品久久久久久亚洲伦 | 毛片在线视频| 欧美一区二区三区免费视| 亚洲精品v亚洲精品v日韩精品| 午夜精品一区二区在线观看| 国产精品免费看| 中文在线字幕观看| 亚洲黄网站在线观看| 中文字幕一级片| 亚洲精品天天看| 九九色在线视频| 成人午夜在线影院| 97人人精品| 日日噜噜夜夜狠狠| 中文字幕免费一区| 中文字幕一区二区三区人妻四季 | 欧美日韩在线资源| 国产精品揄拍一区二区| 欧洲杯什么时候开赛| 欧美日韩在线成人| 久久久不卡影院| 欧美a视频在线观看| 国产视频自拍一区| 天堂√中文最新版在线| 精品亚洲第一| 国产精品美女久久久| 大黑人交xxx极品hd| 欧美午夜精品久久久久久久| 欧美性孕妇孕交| 国产精品6699| 成人在线电影在线观看视频| 亚洲国产日韩欧美在线观看| 国产精品视频在线看| 国产精品女人久久久| 欧美大片免费观看| 国产一级成人av| 91国视频在线| 久久久无码精品亚洲日韩按摩| 在线精品免费视| 亚洲日韩欧美视频一区| 精品三区视频| 正在播放国产精品| 国产精品88av| 日韩成年人视频| 国产亚洲美女精品久久久| 男人天堂久久| 男女裸体影院高潮| 99精品欧美一区二区三区综合在线| 国产精品一区二区6| 国产婷婷成人久久av免费高清| 台湾成人免费视频| 色撸撸在线观看| www.色综合.com| 欧美男人亚洲天堂| 精品国产一区二区在线| 亚洲乱码一区| 久久精品视频91| 亚洲精品国产无天堂网2021 | 久久久久久久9| 久久精品一区二区三区av| 国产一区二区视频免费观看| 欧美激情va永久在线播放| 国产a久久精品一区二区三区| 五月天开心婷婷| 偷偷要91色婷婷| 国产日产一区二区| 欧美婷婷久久| 国产福利精品导航| 中文字幕乱码人妻无码久久| 国内精品一区二区三区| 日韩电影免费网站| 私密视频在线观看| 91精品国产色综合久久久蜜香臀| 午夜欧美激情| 91亚洲精品国产| 1区2区3区精品视频| 日韩欧美亚洲系列| 俄罗斯精品一区二区三区| 美女视频一区二区|