精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

告別數據「噪音」,UCSD大模型推理新方法DreamPRM充當「信號放大器」,登頂MathVista測評榜

人工智能 新聞
我們通過雙層優化框架,將數據域權重(Domain Weights)作為可學習參數,動態抑制低質量數據域的影響,同時強化高信息密度數據域(如需要多步跨模態推理的 M3CoT 數據集)的貢獻,實現數據質量與覆蓋率的理想平衡。

DreamPRM 由加州大學圣地亞哥分校的研究團隊開發,在數學推理權威測評榜MathVista上獲得了第一名。第一作者為博士生 Qi Cao,通訊作者為該校副教授 Pengtao Xie,團隊其他成員還包括王睿一,Ruiyi Zhang 和 Sai Ashish Somayajula。

使用過程獎勵模型(PRM)強化大語言模型的推理能力已在純文本任務中取得顯著成果,但將過程獎勵模型擴展至多模態大語言模型(MLLMs)時,面臨兩大難題:

  • 由于多模態輸入(圖像 + 文本)構成高維連續與離散信號的混合空間,訓練數據與測試數據的分布偏移(Distribution Shift)遠超純文本場景,導致一般過程獎勵模型泛化能力顯著下降。
  • 數據集質量失衡。現有開源多模態推理數據集存在大量低價值樣本,如冗余模態與低難度問題。若直接用于訓練,噪聲數據會稀釋過程獎勵模型對關鍵推理步驟(如跨模態邏輯銜接)的監督信號。

針對上述問題,我們通過雙層優化框架,將數據域權重(Domain Weights)作為可學習參數,動態抑制低質量數據域的影響,同時強化高信息密度數據域(如需要多步跨模態推理的 M3CoT 數據集)的貢獻,實現數據質量與覆蓋率的理想平衡。

圖片

  • 論文標題:DreamPRM: Domain-Reweighted Process Reward Model for Multimodal Reasoning
  • 論文地址:https://arxiv.org/abs/2505.20241v2
  • 代碼地址:https://github.com/coder-qicao/DreamPRM

圖片

圖片

DreamPRM 方法在 MathVista 數學推理排行榜上榮登榜首。DreamPRM 以多層級優化為核心,作為一個與具體大語言模型無關的通用框架,可與任何多模態大語言模型無縫集成,顯著提升其數學推理能力。

圖片

通過解決數據質量不均衡問題,DreamPRM 大幅提升了多模態過程獎勵模型的性能。

圖片

DreamPRM 雙層優化框架

技術核心:雙層優化機制詳解

DreamPRM 的核心創新在于將過程獎勵模型的訓練過程構建為一個可微分的雙層優化問題,通過動態調整數據域權重來解決多模態推理中的分布偏移和質量失衡問題。該框架包含兩個緊密耦合的優化階段,共同驅動模型性能的提升。

在下層優化階段,系統同時在 15 個多樣化訓練域上進行 PRM 參數訓練。每個數據域(如科學問答、幾何推理等)都被賦予一個動態權重圖片以反映不同數據域對總體損失函數的貢獻程度。具體實現中,系統會計算每個域的蒙特卡洛監督信號:

對于給定的中間推理步驟,通過多次采樣補全結果并統計正確率,生成對當前步驟質量的概率估計。下層優化使用域加權的過程獎勵模型輸出與正確率監督的 MSE 損失更新過程獎勵模型的參數:

圖片

圖片

在上層優化階段,系統使用獨立于下層優化訓練資料的基于 MMMU 篩選的元數據集作為訓練數據。這個精心構建的元數據集覆蓋 30 個學科 183 個子領域,能夠真實且全面地模擬 PRM 的推理場景以評估其泛化能力。上層優化階段通過最小化聚合后的過程評價與最終答案準確與否的差異,反向傳播誤差并更新各個數據域的權重。

這個雙層架構創造了一個自適應的正反饋循環:高質量的推理數據域(如需要復雜跨模態推理的 M3CoT)會逐漸獲得更高的權重,而包含大量簡單樣本的域(如 AI2D)的權重則會下降。整個優化過程展現出良好的收斂特性,初始設為 1.0 的域權重會在訓練中自然分化,最終形成與數據域信息密度高度相關的權重分布。

圖片

實驗結果

主要性能表現

圖片

  • 領域重加權優勢顯著:DreamPRM 在所有五項基準測試中穩定超越其他 PRM 方法,相比無數據選擇的原始 PRM 提升 2-3%。其自動學習的域權重策略優于人工設計的啟發式規則(如 s1-PRM 和 CaR-PRM),證明數據驅動的優化更有效。
  • 小模型超越大模型:DreamPRM 使僅 80 億參數的 InternVL-2.5-8B-MPO 模型在多數基準上表現優于大型閉源模型(如 GPT-4v 和 Gemini-1.5),展現了強大的推理能力提升。
  • 細粒度評估帶來提升:過程監督模型通過逐步評分機制超越其他測試時優化方法(如自洽性校驗),驗證了細粒度評估的關鍵作用。

規模擴展實驗

圖片

  • DreamPRM 的性能隨著候選推理鏈(CoT)數量的增加而穩定提升。如圖所示,當 CoT 數量從 2 條增至 8 條時,DreamPRM 在全部五個基準測試上的準確率均持續提高。
  • DreamPRM 能無縫遷移到更強的多模態大模型上。如圖所示,當應用于 GPT-4.1-mini 和 o4-mini 等更強模型時,在 MathVista 基準上的準確率均有提升,充分證明了 DreamPRM 的泛化能力。

學習到的數據域權重

圖片

最終學習到的數據域權重范圍為 0.55 至 1.49,其中 M3CoT 和 FigureQA 獲得最高權重(約 1.5),而 AI2D 和 IconQA 權重較低(小于 0.8)。這種權重分配模式有效提升了 PRM 性能,同時證實了不同數據集間存在顯著的質量差異。

總結

DreamPRM 通過創新的雙層優化機制,成功解決了多模態過程獎勵模型訓練中數據質量失衡和分布偏移的難題。雙層優化框架自動學習各數據域的最優權重,使 DreamPRM 在五項基準測試中全面超越一般 PRM 方法,尤其在高難度數學推理任務上表現突出。

實驗表明,該方法不僅能提升基礎模型 4% 的平均性能,還可無縫遷移至 o4-mini 等新模型,且隨著候選推理鏈數量增加持續改善結果。DreamPRM 的細粒度過程監督和可解釋的權重分配,為多模態過程獎勵模型的高效訓練提供了新范式。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-09-19 14:53:34

2014-08-07 15:33:09

光纖放大器

2024-03-01 13:31:21

2015-08-21 09:14:40

大數據

2025-08-29 09:09:00

AI模型數據

2025-06-06 09:15:00

2019-10-09 14:47:26

人工智能AI

2009-03-20 09:58:00

WiMax功率測試

2022-07-25 10:27:06

谷歌模型

2021-09-27 10:12:42

欺騙防御rMTD網絡攻擊

2023-07-06 15:29:52

數據中心能源回收

2025-09-01 07:43:25

2010-04-01 09:30:57

2022-10-28 15:16:52

檢測數據

2021-09-08 10:55:05

云計算云存儲數據存儲

2023-04-27 13:06:46

AI手機模型

2014-06-24 15:46:24

RFaxis無線

2025-10-24 14:21:34

2023-09-25 10:04:37

模型AI

2025-06-30 09:08:00

點贊
收藏

51CTO技術棧公眾號

91爱视频在线| 亚洲精品国产suv| 亚洲第一精品区| av网站在线免费看| 国产色综合网| 色偷偷偷亚洲综合网另类| 伊人五月天婷婷| 国产在线观看www| 国产欧美一区二区精品久导航| 国产精品一区二区女厕厕| 欧美精品成人久久| 蜜桃tv一区二区三区| 在线播放中文一区| 久久久久免费看黄a片app| 国产美女性感在线观看懂色av| 国产在线播放一区三区四| 国内精品国产三级国产在线专| 熟女高潮一区二区三区| 秋霞一区二区三区| 91久久人澡人人添人人爽欧美| 免费国产成人看片在线| 可以在线观看的av| 国产成人综合在线观看| 国产成人高潮免费观看精品| 免费一级全黄少妇性色生活片| 国产成人调教视频在线观看| 日韩美女视频一区二区在线观看| 蜜臀av午夜一区二区三区| a免费在线观看| 国产人妖乱国产精品人妖| 国内精品久久久久久久果冻传媒| 一区二区不卡视频在线观看| 午夜一级在线看亚洲| 久久成人精品电影| 久久久免费看片| 亚洲精品播放| 亚洲国产精品久久久久秋霞蜜臀| 伊人免费视频二| 国产精品字幕| 色综合夜色一区| 国产 日韩 欧美在线| a级网站在线播放| 国产精品久久久久7777按摩 | 香蕉影院在线观看| 激情视频一区| 九九热精品在线| 三上悠亚在线观看视频| 成人在线免费观看91| 亚洲三级 欧美三级| 中文文字幕文字幕高清| 国产美女高潮久久白浆| 国产一级片中文字幕| 日韩成人高清| 欧美香蕉大胸在线视频观看 | 亚洲小说区图片区| 久久精品中文字幕一区| 国产jizz18女人高潮| 日本欧美肥老太交大片| 在线国产精品播放| 欧美乱大交做爰xxxⅹ小说| 国产精品一区二区99| 国产亚洲a∨片在线观看| 国产男女猛烈无遮挡a片漫画| 国产精品传媒| 亚洲国产女人aaa毛片在线| 亚洲天堂av网站| 成人台湾亚洲精品一区二区| 精品久久久久久综合日本欧美| 野花视频免费在线观看| 日韩成人在线观看视频| 亚洲成人亚洲激情| 性久久久久久久久久久| 日韩黄色网络| 亚洲最新av网址| 四虎国产成人精品免费一女五男| 婷婷激情图片久久| 欧美美最猛性xxxxxx| 久久视频免费看| 亚洲视频1区| 青青草99啪国产免费| www.五月婷婷.com| 国产真实精品久久二三区| 亚洲综合色av| 亚州精品国产精品乱码不99按摩| 久久久99久久| 一区中文字幕在线观看| 欧美videosex性极品hd| 午夜精品久久久久久久| 白嫩少妇丰满一区二区| 国产成人午夜性a一级毛片| 欧美精品粉嫩高潮一区二区| 苍井空张开腿实干12次| 另类尿喷潮videofree| 精品网站999www| 成人黄色短视频| 你懂的成人av| 欧美最猛性xxxxx亚洲精品| 中文字幕在线观看你懂的| 国内久久精品视频| 国产视频一区二区不卡| h视频在线播放| 一区二区三区日韩| 欧美日韩中文在线视频| 日韩一级特黄| 亚洲国产欧美一区二区三区久久| 欧美人与禽zoz0善交| 国内精品久久久久久久影视蜜臀| 欧美最猛性xxxx| 99久久精品国产成人一区二区| eeuss国产一区二区三区| 亚洲精品成人自拍| 99re6在线精品视频免费播放| 在线欧美一区二区| 久久久久久国产精品日本| 亚洲高清极品| 久久69精品久久久久久国产越南| 国产成人av免费| 成人一区二区三区视频| 婷婷四房综合激情五月| 青草在线视频| 欧美日韩高清一区二区三区| 在线观看国产网站| 婷婷伊人综合| 国产成人中文字幕| 婷婷视频在线观看| 亚洲欧美一区二区三区孕妇| 亚洲黄色a v| 欧美色图五月天| 欧美大片第1页| 一本一道人人妻人人妻αv| 97成人超碰视| 亚洲色成人www永久在线观看| 国产精品99| 亚洲日本成人女熟在线观看 | www.亚洲视频| 欧美视频一二三| 国产清纯白嫩初高中在线观看性色| 日韩成人精品一区二区| 国产成人精品视| 视频一区二区在线播放| 亚欧色一区w666天堂| 欧美69精品久久久久久不卡| 久久久久久久久丰满| 国产美女搞久久| 电影av一区| 色婷婷亚洲综合| 久久国产精品影院| 一本色道精品久久一区二区三区 | 久久综合另类图片小说| 欧美高清videos高潮hd| 精品国产九九九| 亚洲蜜臀av乱码久久精品| 911福利视频| 999视频精品| 国产日韩中文在线| 欧美黄色激情| 欧美日韩国产不卡| 一区二区三区影视| 狠狠色狠狠色合久久伊人| 椎名由奈jux491在线播放| 久久99国产精品二区高清软件| 伊人精品在线观看| 中文字幕一级片| 国产精品久久三| 亚洲一区二区三区四区五区| 亚洲国产一区二区三区在线播放 | 欧美美女18p| 亚洲精品成人区在线观看| 亚洲第一福利视频在线| 亚洲国产果冻传媒av在线观看| 日韩午夜电影| 日韩欧美激情一区二区| 欧洲亚洲精品久久久久| 久热精品在线视频| 殴美一级特黄aaaaaa| 精品国产电影一区| 亚洲成人黄色av| 免费成人av在线| 裸体裸乳免费看| 一区二区视频| 欧美中文字幕在线播放| av在线之家电影网站| 69久久夜色精品国产69蝌蚪网| 久久成人国产精品入口| 99久久精品国产一区二区三区| 激情综合网婷婷| 婷婷综合激情| 国产中文一区二区| 精品国产欧美日韩一区二区三区| 日韩在线欧美在线国产在线| 亚洲精品一区二区三区四区| 欧美性黄网官网| 女同久久另类69精品国产| 丰满白嫩尤物一区二区| 免费在线观看毛片网站| 欧美/亚洲一区| 美国av一区二区三区| 9999在线精品视频| 国内精品400部情侣激情| 亚洲视频tv| 日韩精品在线免费| 亚洲无码精品国产| 亚洲aⅴ怡春院| 人妻无码一区二区三区免费| 成人午夜看片网址| 亚洲 欧美 另类人妖| 亚洲承认在线| 在线无限看免费粉色视频| 中文字幕精品影院| 91亚洲精品丁香在线观看| 成人性生交大片免费网站 | 草草在线视频| 久久久国产在线视频| 你懂的好爽在线观看| 欧美一区二区三区在线| 日韩精品在线一区二区三区| 亚洲图片欧美色图| 国产精品综合激情| 91麻豆123| 中文字幕在线观看91| 麻豆91小视频| 久草资源站在线观看| 欧美久久视频| 中文字幕不卡每日更新1区2区| 夜色77av精品影院| 国产v亚洲v天堂无码| 婷婷久久综合九色综合99蜜桃| 欧美专区中文字幕| 999福利在线视频| 不卡毛片在线看| 在线免费观看黄色| 亚洲片在线资源| 天堂av网在线| 亚洲国产日韩欧美在线动漫| 国产xxxxxx| 91精品国产综合久久香蕉麻豆| 探花国产精品一区二区| 日韩欧美在线网址| 青青草免费观看视频| 亚洲愉拍自拍另类高清精品| 免费中文字幕在线| 亚洲桃色在线一区| 精品亚洲乱码一区二区| 国产精品热久久久久夜色精品三区| 日韩av在线看免费观看| 99久久99久久精品免费观看| 性感美女一区二区三区| 粉嫩aⅴ一区二区三区四区| 欧美性受xxxx黒人xyx性爽| 久久精品久久综合| 中文字幕66页| 狠狠色伊人亚洲综合成人| 色91精品久久久久久久久| 免费成人美女在线观看.| 国产视频1区2区3区| 久久69国产一区二区蜜臀| 日韩爱爱小视频| 美洲天堂一区二卡三卡四卡视频| 校园春色 亚洲色图| 麻豆精品一二三| 久久久久久久久久久久久久久国产| 麻豆国产精品官网| 天堂中文av在线| 国产在线视频一区二区| 日本少妇xxx| 99久久久精品| 色婷婷在线影院| 国产精品美女久久久久aⅴ| 久久精品一区二区三区四区五区| 成人免费在线视频| 免看一级a毛片一片成人不卡| 亚洲一区成人在线| 亚洲 欧美 日韩 综合| 在线精品视频一区二区三四| 在线观看视频二区| 91精品国产综合久久久久久久久久 | 亚洲成av人电影| 久久久国内精品| 国产精品社区| 蜜臀av免费观看| 国产成人av资源| 亚洲av无码成人精品国产| 久久久久久久综合日本| 成人一级黄色大片| 亚洲一区二区四区蜜桃| 在线精品免费视| 欧美精品123区| 女人18毛片一区二区三区| 亚洲精选一区二区| 黄色av电影在线观看| 97精品欧美一区二区三区| 在线人成日本视频| 成人网欧美在线视频| 欧美日韩一区二区三区在线电影| 亚洲国产欧美不卡在线观看| 午夜欧美精品| 黄色av免费在线播放| 国产另类ts人妖一区二区| 少妇大叫太粗太大爽一区二区| 中文字幕一区三区| 久久国产视频播放| 欧美精品欧美精品系列| 四虎在线免费观看| 欧美成人午夜激情在线| 成人一区福利| 国产精品裸体一区二区三区| 日韩毛片视频| 国产二区视频在线播放| 国产精品自在在线| 国产精品扒开腿做爽爽| 亚洲欧美二区三区| 国产男人搡女人免费视频| 精品久久久久久最新网址| 日本成a人片在线观看| 热门国产精品亚洲第一区在线| 欧美经典一区| 天堂av一区二区| 国产精品一页| 乱码一区二区三区| 国产精品三级久久久久三级| 青草视频在线观看免费| 精品毛片乱码1区2区3区| h视频在线观看免费| 国产v综合ⅴ日韩v欧美大片 | 日韩视频在线观看一区二区| 国产毛片在线看| 欧美在线视频观看| 国产精品毛片视频| 超碰97在线看| 国内欧美视频一区二区| 黄色激情小视频| 欧美最新大片在线看| 精品999视频| 久久免费成人精品视频| 狂野欧美xxxx韩国少妇| 中文字幕一区二区三区5566| 奇米精品一区二区三区四区| 18禁裸乳无遮挡啪啪无码免费| 亚洲午夜久久久久久久久电影院 | 日韩电影大全网站| 久久精彩视频| 一道本一区二区| 国产a级黄色片| 亚洲成人在线观看视频| 亚洲精品久久久久久无码色欲四季| 久久综合伊人77777| 激情五月综合婷婷| 免费在线精品视频| 国产一区二区精品久久99| 97精品在线播放| 6080日韩午夜伦伦午夜伦| 激情成人四房播| 91日韩在线播放| 综合精品一区| 在线中文字日产幕| 亚洲高清久久久| 欧美一区二区三区成人片在线| 国产69精品久久久| 玖玖玖免费嫩草在线影院一区| 尤物av无码色av无码| 久久影视一区二区| 成人毛片一区二区三区| 国产一区二区三区精品久久久 | 一区二区三区免费在线观看视频| 黑人欧美xxxx| 黄色免费在线播放| 国产美女直播视频一区| 婷婷亚洲综合| 国产精品日日摸夜夜爽| 香蕉加勒比综合久久| 日韩在线免费看| 国产精品福利观看| 91精品久久久久久久蜜月| 超碰中文字幕在线观看| 亚洲图片欧美一区| 久草福利在线视频| 国产欧美一区二区三区在线看| 艳女tv在线观看国产一区| 久久久久亚洲AV成人网人人小说| 婷婷综合五月天| 可以直接在线观看的av| 91欧美精品成人综合在线观看| 国产在线不卡| 国产成人av一区二区三区不卡| 欧美午夜精品久久久久久孕妇| 黄色网页网址在线免费| 国产精品sss| 久久人人97超碰国产公开结果| 国产精品夜夜夜爽阿娇| 精品成人佐山爱一区二区| 三上悠亚亚洲一区| 中文字幕一区二区三区四区五区人| 豆国产96在线|亚洲| 老熟妇一区二区三区啪啪| 欧美黑人巨大xxx极品| 国产一区二区三区网| 国产成人av片| 欧美在线观看一区二区| 青青在线视频| 色狠狠久久av五月综合|