精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

登頂多模態推理榜MMMU!UCSD新方法超越GPT-5、Gemini

人工智能 新聞
DreamPRM由加州大學圣地亞哥分校的研究團隊開發,在數學推理權威測評榜MMMU上獲得了第一名。

近年來,大語言模型(LLM)在推理能力上的進展顯著,其中過程獎勵模型(Process Reward Model, PRM)的提出,使得模型能夠在推理鏈條的中間步驟獲得監督,從而更穩健地選擇合理的解題路徑。

這類方法在文本推理任務中已經取得了良好效果,但在擴展至多模態場景 時,仍然面臨兩個突出挑戰:

分布偏移:多模態輸入空間巨大,訓練與推理分布往往存在顯著差異;

數據質量不均:大規模訓練集不可避免地包含噪聲或低質量樣本,降低了有效監督信號。

因此,如何在多模態推理中有效利用高質量樣本,抑制噪聲樣本的負面影響,成為亟需解決的問題。

針對于此,研究人員設計了新的訓練框架,通過雙層優化框架,將數據樣本的權重(Instance Weights)作為可學習參數,動態改變數據樣本的在訓練中的影響。

論文地址:https://arxiv.org/abs/2509.05542

代碼地址:https://github.com/coder-qicao/DreamPRM-1.5

MMMU Leaderboard

論文第一作者為博士生Qi Cao,通訊作者為該校副教授Pengtao Xie。

從DreamPRM到DreamPRM-1.5

從「領域加權」到「樣本加權」

此前,研究人員提出了DreamPRM 框架,通過領域級重加權(domain reweighting)的方式,在不同數據子集之間分配權重,從而提升訓練效果。

在此基礎上,DreamPRM-1.5將加權粒度進一步細化到單個訓練樣本

  • 高質量樣本獲得更大權重;
  • 低質量或噪聲樣本權重降低。

這種實例級重加權(instance reweighting)策略,使模型能夠充分挖掘每條數據的潛在價值。

兩種方法:Instance Table和Instance Net

DreamPRM1.5的兩種模型架構

為了實現「樣本級加權」,研究人員設計了兩種互補方案:

Instance Table

給每個訓練樣本一個獨立的權重參數;

靈活度高,尤其適合小規模數據集;

缺點是參數量和樣本數掛鉤,數據一大就很難撐住。

Instance Net

不直接存表,而是用一個小型MLP網絡來預測每條數據的權重;

參數量固定,不受數據規模限制;

更適合大規模訓練,泛化能力更強。

這就像兩種「學習筆記」方式:Instance Table 像是給每道題都寫一條批注;Instance Net 則像是總結出一套「看題給分」的規則。

方法核心

雙層優化(Bi-level Optimization)

DreamPRM-1.5 的訓練流程采用 雙層優化框架

  1. 下層優化:利用樣本權重對 PRM 進行更新:

  1. 上層優化:在元數據集上評估推理表現,并基于反饋動態更新樣本權重:

這種設計確保了權重的學習不是靜態設定,而是由推理效果驅動、動態調整的,從而增強了模型在復雜任務中的適應性。

生成式獎勵模型

面向推理過程的打分機制

在DreamPRM-1.5中,研究人員采用了生成式獎勵模型(Generative Reward Model) 來對推理過程中的每一步進行評分。其核心思想是:

  • 評分方式:模型在每一步輸出「+」或「-」,分別表示該步推理是否合理;
  • 打分機制:通過softmax計算 「+」 的概率,將其作為該步驟的置信度;
  • 聚合策略:對整條推理鏈的步驟分數進行聚合(平均),再與標準答案進行對比,用于指導樣本權重的更新。

這一設計的優點在于,它不僅能逐步評估推理鏈條的合理性,還能為實例重加權 提供更細粒度的信號。

實驗設計與實現細節

  1. 模型基座:采用InternVL3-1B作為PRM的基礎模型,并在推理階段基于GPT-5-mini進行測試。設計了生成式獎勵模型的
  2. 訓練數據:從VisualPRM-400k中采樣不同規模的數據(12k、100k)分別訓練Instance Table與Instance Net
  3. 元數據集:使用MMMU-Pro的標準分割(僅使用test set數據,以避免與validation set出現重合),生成候選推理鏈作為meta set,用于權重更新
  4. 訓練流程

a.冷啟動:先進行一次有監督微調(20k樣本),使模型能夠穩定輸出「+/-」標記;

b.雙層優化:在此基礎上進行100k步迭代,采用AdamW優化器與余弦學習率調度。

  1. 計算資源:單卡NVIDIA A100,訓練約72小時完成

實驗結果

在MMMU基準上的表現

研究人員在MMMU(Massive Multi-discipline Multimodal Understanding) 基準上對方法進行了系統評測。

該基準涵蓋30個學科、183個子領域,題型覆蓋圖表、地圖、化學結構等多模態輸入,是目前最具挑戰性的推理測試之一。

主要結果

  • GPT-5-mini w/ thinking(基線):80.0%
  • DreamPRM-1.5(Instance Table):84.6% (+4.6)
  • DreamPRM-1.5(Instance Net):83.6% (+3.6)

對比分析

  • No Selection:使用相同數據但不做重加權,僅有 79.1%,驗證了實例加權的重要性;
  • VisualPRM:盡管使用完整的 400k 數據集,但僅達到 80.5%,說明數據規模并不能完全彌補質量差異;
  • Self-consistency:經典的 test-time scaling 方法為 81.4%,依然低于 DreamPRM-1.5。

整體來看,DreamPRM-1.5 不僅顯著超越了基于 GPT-5-mini 的多種強基線,還在精度上超過了GPT-5(84.2%)和Gemini 2.5 Pro Deep-Think(84.0%)等頂級閉源模型。

結論與展望

DreamPRM-1.5將實例級重加權引入多模態推理訓練中,通過雙層優化動態調整樣本權重,使模型能夠更好地識別和利用高質量數據。

主要貢獻體現在:

  • 提出實例級重加權框架,突破了僅在領域級別加權的限制;
  • 設計了Instance Table 與 Instance Net兩種互補實現,兼顧小規模與大規模訓練場景;
  • MMMU基準上取得新的SOTA結果,超過多個閉源大模型。

這一結果表明,在未來的推理模型研究中,數據質量的精細利用方式也是值得關注的重要方面。

更智能的樣本加權與過程評分方法,有望成為推動多模態推理進一步發展的關鍵方向。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-07-11 09:15:00

2025-08-15 14:53:43

2025-08-29 09:09:00

AI模型數據

2025-08-07 16:21:27

GPT-5AI模型

2023-11-09 12:41:04

AI模型

2024-08-28 13:00:42

2021-09-27 10:12:42

欺騙防御rMTD網絡攻擊

2025-06-19 09:06:00

2024-01-09 12:53:16

模型訓練

2025-08-19 08:08:05

2023-09-06 09:50:29

人工智能模型

2025-01-22 13:30:00

2010-04-01 09:30:57

2015-08-21 09:14:40

大數據

2022-10-28 15:16:52

檢測數據

2022-12-12 11:31:39

數據學習

2025-11-04 08:42:27

2023-04-25 14:00:00

GPTAI

2025-08-14 09:31:24

GPT-5AI

2025-07-25 10:35:12

點贊
收藏

51CTO技術棧公眾號

koreanbj精品视频一区| 欧美性在线观看| 欧美激情国内自拍| 羞羞视频在线免费国产| 97久久人人超碰| 国产精品91一区| 欧美卡一卡二卡三| 欧美日韩xxxx| 欧美一区二区三区播放老司机| 亚洲国产精品无码av| 国产二区视频在线观看| 国产91精品入口| 国产精品久久不能| 黄色一级片在线| av一区二区在线播放| 精品国产人成亚洲区| 在线观看av日韩| 538在线观看| 国产精品久久久久久久岛一牛影视| 亚洲精品免费一区二区三区| 亚洲免费黄色网址| 一区二区三区网站| 精品性高朝久久久久久久| 亚洲男人天堂av在线| 在线天堂中文资源最新版| 亚洲欧美电影院| 日韩欧美在线电影| 亚洲av成人精品毛片| 久久99精品国产麻豆婷婷| 2019中文字幕在线| 久久久久久久蜜桃| 偷偷www综合久久久久久久| 日韩成人av一区| 特级特黄刘亦菲aaa级| 曰本一区二区| 欧美色图天堂网| 成年人观看网站| 波多野结衣在线观看| 有坂深雪av一区二区精品| 亚洲精品国产精品国自产| 欧美日韩激情视频一区二区三区| 国产91综合一区在线观看| 91色在线观看| 亚洲天堂中文网| 日韩电影在线观看电影| 日本精品免费观看| 一级黄色免费网站| 国产亚洲欧洲| 97色在线视频观看| 国产成人免费观看视频| 一区二区亚洲精品| 久久青草福利网站| 免费一级特黄特色大片| 国产一区亚洲| 久久视频在线免费观看| 亚洲国产精品一区二区久久hs| 操欧美老女人| 中国日韩欧美久久久久久久久 | 91首页免费视频| 久久99精品久久久久久久青青日本| 亚洲精品一区二区三区四区 | 国产精品国产亚洲精品看不卡15 | 成人国产精品免费观看视频| 国产精品 日韩| 姝姝窝人体www聚色窝| 久久综合狠狠综合久久激情| 欧美12av| 日韩免费一级视频| 岛国片在线免费观看| 欧美在线色图| 神马久久久久久| 任我爽在线视频| 欧美.日韩.国产.一区.二区| 免费99精品国产自在在线| 国产夫妻自拍一区| 免费黄色在线播放| 91国内精品| 亚洲国内高清视频| 国产美女精品久久| 日韩一区自拍| 欧美精品亚州精品| 国产成人精品a视频一区| 亚洲综合社区| 国产欧美精品在线播放| 国产福利免费视频| www.欧美亚洲| 午夜精品一区二区三区在线观看| 日本免费中文字幕在线| 一个色综合av| 一本大道熟女人妻中文字幕在线 | 亚洲视频中文字幕| av在线观看地址| 91国内外精品自在线播放| 91精品国产一区二区人妖| 日本一级片在线播放| 日韩免费看片| 国外色69视频在线观看| 波多野结衣人妻| 国产成人免费在线观看不卡| 欧美国产二区| 男人天堂亚洲| 欧美写真视频网站| 国产一级免费片| 日韩精品免费一区二区在线观看| 欧美激情一区二区三区久久久| 亚洲黄色免费观看| 国产iv一区二区三区| 天堂av一区二区| 91九色porn在线资源| 欧美乱熟臀69xxxxxx| 久久久久成人精品无码中文字幕| 久久国产精品亚洲人一区二区三区| 久久久久久欧美| 一二三区中文字幕| 久久久久久99精品| 大伊香蕉精品视频在线| 午夜不卡一区| 亚洲天堂2020| 国产女同在线观看| 国产黑丝在线一区二区三区| 亚洲精品国产精品国自产观看| 中文在线免费二区三区| 亚洲成人精品视频| 看免费黄色录像| 日韩精品欧美成人高清一区二区| 国产精品乱子乱xxxx| 大地资源网3页在线观看| 欧美日韩中字一区| 在哪里可以看毛片| 亚洲全部视频| 国产高清在线一区| 丝袜美腿av在线| 69av一区二区三区| 婷婷国产成人精品视频| 免费的成人av| 亚洲 国产 欧美一区| 欧美一区国产| 在线观看国产成人av片| 成人免费视频毛片| 91免费在线看| 狠狠操精品视频| 国产欧美久久一区二区三区| 欧美亚洲视频在线看网址| 涩涩视频免费看| 性做久久久久久久免费看| 日韩欧美中文视频| 欧美三级视频| 国产精品theporn88| h片在线观看| 亚洲第一福利网站| 在线观看精品国产| 久久综合九色综合欧美98 | 蜜桃av一区二区| 亚洲国产一区二区精品视频 | 欧美三级电影一区| 成人欧美一区二区三区黑人一| 精品一区二区三区免费毛片爱| 中文字幕一区二区三区乱码| 精品国产亚洲日本| 欧美日本中文字幕| 色噜噜在线播放| 欧美色播在线播放| 无码 人妻 在线 视频| 麻豆国产精品官网| 欧美h视频在线观看| 一区二区在线免费播放| 91国产在线精品| 激情小视频在线观看| 欧美三级日韩三级| 午夜爽爽爽男女免费观看| 国产成+人+日韩+欧美+亚洲| 精品无码国产一区二区三区av| 久久久久观看| 国产精品成人免费视频| 蜜桃av在线免费观看| 日韩精品一区二区三区老鸭窝| 日韩精品――中文字幕| 久久精品视频一区| 亚洲一区二区中文字幕在线观看| 国产精品久久| 日韩欧美一区二区三区四区| 久久中文字幕一区二区| 国产69精品久久久久久| 日本三级在线视频| 亚洲国产精品久久久久久| 五月天婷婷激情| 亚洲欧洲一区二区三区| 亚洲一级Av无码毛片久久精品| 久久精品主播| 一区二区三区四区免费观看| 欧美日韩精品一区二区三区在线观看| 日本精品久久久久影院| 97caopron在线视频| 亚洲另类欧美自拍| 国产男男gay网站| 色综合一个色综合| 青青草免费av| 久久精品一区二区三区四区| 久久精品一卡二卡| 日韩成人av影视| 999一区二区三区| 久久在线免费| 久久国产一区二区| 欧美高清一级片| 国产成人精品亚洲精品| 国精一区二区三区| 色噜噜久久综合伊人一本| 香蕉久久一区二区三区| 日韩一二在线观看| 在线观看亚洲一区二区| 欧美日韩亚洲高清| 免费在线观看黄视频| 欧美激情一区二区三区| 中文字幕一区二区久久人妻网站| 国产真实乱对白精彩久久| 蜜臀视频一区二区三区| 一区二区三区成人精品| 国产精品av免费观看| 婷婷亚洲综合| 亚洲天堂电影网| 精品国产一区二区三区小蝌蚪| 国产精品露出视频| 综合激情久久| 91亚色免费| 国语精品视频| 成人国产在线视频| 日韩综合久久| 国产精品爽黄69| 99久久伊人| 国产成人久久久精品一区| 国产欧美一区二区三区精品酒店| 午夜精品99久久免费| 国产精品一品| 欧美日本黄视频| 美足av综合网| 欧美激情a在线| 欧美xxxx性xxxxx高清| 欧美乱大交xxxxx另类电影| 国产成人无吗| 久久视频在线免费观看| 菠萝蜜视频国产在线播放| 久久激情视频免费观看| 欧美精品电影| 精品国产依人香蕉在线精品| 在线观看完整版免费| 日韩中文字幕视频| 麻豆传媒视频在线观看| 久久久精品在线观看| 麻豆免费在线观看| 久久福利视频网| 四虎亚洲成人| 69影院欧美专区视频| 久草在线中文最新视频| 欧洲日韩成人av| 成人软件在线观看| 国产精品日日摸夜夜添夜夜av| 亚洲精品一区三区三区在线观看| 国产高清在线不卡| jvid一区二区三区| 91久久在线观看| 亚洲无线观看| 国产免费一区二区三区| 羞羞答答一区二区| 亚洲永久激情精品| 欧美在线亚洲| 91视频 -- 69xx| 日韩精品一二三四| 激情在线观看视频| www.亚洲精品| 成人一级片免费看| 亚洲激情五月婷婷| 可以免费看的av毛片| 91国内精品野花午夜精品| 国产精品欧美久久久久天天影视 | 色网站在线免费观看| 亚洲一二三在线| 成人国产免费电影| 欧美在线观看网站| 亚洲精品一区二区在线播放∴| 99久久精品免费看国产一区二区三区| 美女av一区| 亚洲乱码一区二区三区| 亚洲手机视频| 手机看片福利日韩| 粉嫩绯色av一区二区在线观看| av直播在线观看| 中文字幕一区不卡| 韩国av中文字幕| 69堂精品视频| 国产原创av在线| 久久91亚洲精品中文字幕奶水| 黄色成人免费网| 97久草视频| 91综合视频| 国模吧无码一区二区三区| 国产一区二区三区免费看 | 亚洲欧美怡红院| 成人精品在线看| 欧美一区午夜精品| 黄色美女网站在线观看| 欧美高清视频一区二区| 精品视频在线一区二区在线| 痴汉一区二区三区| 日韩综合在线| 99久久久无码国产精品6| 国产精品一区二区果冻传媒| 免费看污片网站| 亚洲国产日韩在线一区模特| 亚洲天堂中文在线| 亚洲美女av在线| 91九色porn在线资源| 91美女片黄在线观| 欧美综合一区| 无码人妻h动漫| 波多野结衣一区二区三区 | 超碰在线国产| 97超级碰在线看视频免费在线看 | 老司机久久99久久精品播放免费| 免费黄视频在线观看| 国产精品成人午夜| 日韩av免费播放| 精品丝袜一区二区三区| 青春草视频在线| 亚洲最大的免费| 欧美疯狂party性派对| 少妇黄色一级片| 久久色.com| 亚洲精品男人的天堂| 亚洲成人在线视频播放| 日本不卡影院| 91嫩草免费看| 欧美激情四色| 亚洲视频在线不卡| 亚洲欧美激情视频在线观看一区二区三区 | 黑人巨大精品欧美一区二区| 国产综合在线播放| 欧美国产日韩在线| 北条麻妃在线一区二区免费播放 | 69av视频在线| 91精品午夜视频| 久操视频在线观看| 成人欧美一区二区三区在线| 97精品国产一区二区三区| 天堂中文视频在线| 国产精品色哟哟网站| 一区二区三区在线免费观看视频| 宅男66日本亚洲欧美视频| 另类一区二区| 一区二区在线观| 国产一区二区成人久久免费影院| 中文字幕另类日韩欧美亚洲嫩草| 7777精品伊人久久久大香线蕉超级流畅| 国产原创视频在线观看| 91手机在线播放| 日韩视频中文| 色婷婷在线影院| 欧美日韩国产美| av在线free| 精品久久久久久一区| 久久天堂精品| 国产精品一区二区亚洲| 欧美一区二区美女| 2019中文字幕在线电影免费 | 台湾av在线二三区观看| 日产精品99久久久久久| 日韩电影二区| 69久久精品无码一区二区 | 午夜精品一区二| 色偷偷av一区二区三区乱| 日韩精品一区二区三区中文字幕 | 亚洲国产精品综合小说图片区| 午夜精品一二三区| 欧美激情亚洲国产| 夜夜春成人影院| 国产精品一区二区小说| 亚洲主播在线观看| 欧美精品久久久久久久久久丰满| 国产精品美女呻吟| 国产精品hd| 免费观看a级片| 欧美一区二区三区精品| 在线毛片观看| 国产高清精品软男同| jiyouzz国产精品久久| 中文字幕第315页| 欧美人在线视频| 成人影院天天5g天天爽无毒影院| 免费黄频在线观看| 色综合亚洲欧洲| 成人在线免费看黄| 日本一区二区精品视频| 国产精品亚洲第一区在线暖暖韩国| 国产成人在线免费观看视频| 在线色欧美三级视频| 91精品短视频| www.超碰97.com| 色中色一区二区| 女同一区二区免费aⅴ| 亚洲精品久久区二区三区蜜桃臀 | 欧美美乳视频网站在线观看|