精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

揭秘大模型強(qiáng)推理能力幕后功臣“缺陷”,過程級獎勵模型新基準(zhǔn)來了

人工智能 新聞
復(fù)旦大學(xué)、蘇州大學(xué),上海AI Lab等聯(lián)合提出了 PRMBench,它包含 6,216 條精心設(shè)計(jì)的問題和 83,456 個步驟級標(biāo)簽,用于評測模型細(xì)粒度的錯誤檢測能力。

截止目前,o1 等強(qiáng)推理模型的出現(xiàn)證明了 PRMs(過程級獎勵模型)的有效性。

(“幕后功臣” PRMs 負(fù)責(zé)評估推理過程中的每一步是否正確和有效,從而引導(dǎo) LLMs 的學(xué)習(xí)方向。)

但關(guān)鍵問題來了:我們?nèi)绾螠?zhǔn)確評估 PRMs 本身的性能?

作為回應(yīng),復(fù)旦大學(xué)、蘇州大學(xué),上海AI Lab等聯(lián)合提出了 PRMBench,它包含 6,216 條精心設(shè)計(jì)的問題和 83,456 個步驟級標(biāo)簽,用于評測模型細(xì)粒度的錯誤檢測能力。

圖片

具體而言,目前主流的評估方法往往側(cè)重于最終結(jié)果的正確性,而忽略了對推理過程中細(xì)致入微的錯誤類型的識別。例如,一個推理步驟可能存在冗余、部分正確、 甚至完全錯誤等多種狀態(tài),簡單的“正確/錯誤”標(biāo)簽難以捕捉其復(fù)雜性。

而 PRMBench 提供了一個更全面、更精細(xì)化的評估工具,可以更有效地識別 PRMs 的潛在缺陷,促進(jìn)相關(guān)算法的改進(jìn)。

實(shí)驗(yàn)發(fā)現(xiàn),目前 PRMs 在細(xì)粒度錯誤檢測上仍有較大提升空間。即使是表現(xiàn)最佳的模型 Gemini-2-Thinking,其 PRMScore 也僅為 68.8,勉強(qiáng)高于隨機(jī)猜測的 50.0。

即使是專門在步驟級數(shù)據(jù)上訓(xùn)練過的 PRMs,其表現(xiàn)仍不如優(yōu)秀的閉源通用模型,且多步推理能力專門增強(qiáng)過的模型表現(xiàn)優(yōu)于一般通用模型。

除此之外,研究人員還公布了一些其他發(fā)現(xiàn)和探討。

PRMBench:一次針對PRMs的“全方位體檢”

據(jù)介紹,PRMBench 并非簡單的“升級版”評估數(shù)據(jù)集,而是一套經(jīng)過精心設(shè)計(jì)的“體檢方案”,目的是全面考察 PRMs 在不同維度上的能力。

下圖為 PRMBench 的主要結(jié)構(gòu),左側(cè)部分展示了數(shù)據(jù)整理的流程,右側(cè)部分展示了評估主題的示例以及測試模型的相對性能表。

圖片

其主要特點(diǎn)包括:

  • 海量且精細(xì)的標(biāo)注數(shù)據(jù):包含 6,216 個精心設(shè)計(jì)的問題,并包含 83,456 個步驟級別的標(biāo)簽,確保評估的深度和廣度。
  • 多維度、多層次的評估體系:從簡潔性 (Simplicity)、合理性 (Soundness) 和敏感性 (Sensitivity) 三個主要維度出發(fā),進(jìn)一步細(xì)分為九個子類別,例如非冗余性、非循環(huán)邏輯、評價合理性、步驟一致性、領(lǐng)域一致性、置信度不變性、前提條件敏感性、 欺騙抵抗和一題多解一致性,力求全面覆蓋PRMs可能遇到的挑戰(zhàn)。
  • 揭示現(xiàn)有 PRMs 的“盲區(qū)”:研究團(tuán)隊(duì)對 15 個代表性模型進(jìn)行了廣泛的實(shí)驗(yàn),包括開源 PRMs 以及將強(qiáng)力通用語言模型提示作為 Critic Model 的模型。實(shí)驗(yàn)結(jié)果令人驚訝,也引人深思。

具體來說,研究的主要發(fā)現(xiàn)如下:

1、整體表現(xiàn)堪憂。即使是表現(xiàn)最佳的模型 Gemini-2-Thinking,其 PRMScore 也僅為 68.8,勉強(qiáng)高于隨機(jī)猜測的 50.0。這表明,即使是最先進(jìn)的 PRMs,在多步過程評估中仍然有巨大的提升空間。

2、開源 PRMs 表現(xiàn)更弱。開源 PRMs 的平均 PRMScore 更低至 50.1,部分模型甚至不如隨機(jī)猜測,揭示了其可靠性和潛在訓(xùn)練偏差的問題。

3、“簡潔性”成最大挑戰(zhàn)。在 “簡潔性” 維度上,即使是表現(xiàn)相對較好的 ReasonEval-34B,其 PRMScore 也驟降至 51.5,表明 PRMs 在識別推理過程中的冗余步驟方面能力不足。

4、 “陽性偏好”現(xiàn)象顯著。部分模型,例如 ReasonEval-7B 和 RLHFlow-DeepSeek-8B,在評估中表現(xiàn)出顯著的“陽性偏好”,難以區(qū)分正確和錯誤的步驟。

5、數(shù)據(jù)驅(qū)動的洞察。研究發(fā)現(xiàn),錯誤步驟出現(xiàn)的位置也會影響PRMs的判斷準(zhǔn)確率??偟膩碚f,隨著錯誤步驟位置的后移,PRMs 的表現(xiàn)會逐漸提升。

具體提出過程

下面介紹一下具體研究過程。

提出主要問題

在一項(xiàng)需要舉出反例的證明題實(shí)踐中,研究人員觀察到一個有趣的現(xiàn)象:

即使大語言模型 (o1) 自身意識到當(dāng)前推理過程存在一些問題,仍然會產(chǎn)生錯誤的推理步驟。

更令人擔(dān)憂的是, 當(dāng)調(diào)用現(xiàn)有的 PRMs 去檢測剛剛 o1 生成的推理過程時,結(jié)果卻發(fā)現(xiàn)多數(shù) PRMs 無法檢測出這種細(xì)粒度的錯誤。

這一發(fā)現(xiàn)引出了一個關(guān)鍵問題:當(dāng)前的 PRMs 是否具備檢測推理過程中細(xì)粒度錯誤的能力?

下圖為,當(dāng)詢問模型一道拉格朗日中值定理相關(guān)問題時,o1 和 PRMs 可能會產(chǎn)生的錯誤。

圖片

然而,現(xiàn)有針對 PRMs 評測而設(shè)計(jì)的 benchmark 大多僅僅關(guān)注步驟評判的對錯,而忽視步驟評判的錯誤類型, 缺乏對錯誤類型的細(xì)致分類。

這也就意味著,目前缺少這樣能夠評測 PRMs 在細(xì)粒度錯誤上表現(xiàn)的綜合 benchmark。

而這,正是研究人員推出 PRMBench 這一精細(xì)化基準(zhǔn)的根本原因。

他們希望通過 PRMBench,打破現(xiàn)有評估的局限,真正遴選出能夠有效識別細(xì)粒度錯誤的“優(yōu)秀” PRM。

下圖為 PRMBench 與其他數(shù)據(jù)集對比。

圖片

PRMBench構(gòu)建

如下所示,PRMBench 包含三大評測主題:簡潔性,合理性和敏感性。

圖片

  • 數(shù)據(jù)來源:基于 PRM800K 構(gòu)建,首先篩選出其完全正確的問題、答案以及解題步驟作為元數(shù)據(jù)。
  • 錯誤引入:針對多數(shù)評測主題(前8個)使用 LLMs(特別是 GPT-4o)將各種細(xì)粒度的錯誤引入到完全正確的解題推理步驟中。對于一題多解的情況,則使用多步推理增強(qiáng)過的語言模型為同一問題生成不同的正確解法及其推理步驟。
  • 人工驗(yàn)證:嚴(yán)格的人工審查,以確保引入錯誤的質(zhì)量和相關(guān)性。
  • 數(shù)據(jù)集統(tǒng)計(jì):包含 6,216 個精心設(shè)計(jì)的問題,帶有 83,456 個步驟級別的標(biāo)簽。
  • 評估對象:分為三個主要領(lǐng)域。簡潔性評估冗余檢測能力(非冗余性、非循環(huán)邏輯);合理性評估PRM產(chǎn)生獎勵的準(zhǔn)確性和正確性(評價合理性、步驟一致性、領(lǐng)域一致性、 置信度不變性);敏感性評估對變化和誤導(dǎo)性信息的魯棒性(前提條件敏感性、欺騙抵抗、多解一致性)

實(shí)驗(yàn)與結(jié)果

研究人員測試了 15 個模型,包括開源 PRMs (Skywork-PRM, Llemma-PRM, MATHMinos-Mistral,MathShepherd-Mistral, RLHFlow-PRM) 和提示為 Critic Models 的優(yōu)秀閉源語言模型 (GPT-4o, o1-mini,Gemini-2)

評估指標(biāo)主要為:

  • 負(fù) F1 分?jǐn)?shù) (Negative F1 Score):評估錯誤檢測性能的主要指標(biāo)。
  • PRMScore:將 F1 和負(fù) F1 相結(jié)合的統(tǒng)一、標(biāo)準(zhǔn)化的分?jǐn)?shù),以反映整體能力。

圖片

可以看出,整體而言 PRMs 在多步過程評估中表現(xiàn)出有限的能力,其得分通常僅略高于隨機(jī)猜測。

同時, 開源 PRMs 的表現(xiàn)通常不如將強(qiáng)力通用語言模型(如o1, Gemini-thinking等)提示為 Critic Model 的表現(xiàn)更好。

而且相較于其他評測主題,檢測冗余 (簡潔性) 被證明對 PRMs 來說尤其困難。

另外,通過 PRMBench 下模型對于正確標(biāo)簽測試樣例(陽性數(shù)據(jù))和錯誤標(biāo)簽測試樣例(陰性數(shù)據(jù))的得分對比及相似度來看。

許多 PRMs 表現(xiàn)出對正確標(biāo)簽的偏好,難以正確識別錯誤標(biāo)簽測試樣例(陰性數(shù)據(jù))。

圖片

且從推理步驟位于推理鏈中不同位置對模型 PRMScore 的影響來看,PRMs 的性能往往會隨著推理步驟位于推理鏈中的位置逐漸靠后而提高。

圖片

最后從不同 Few shot 數(shù)目對于提示為 Critic Model 的通用語言模型表現(xiàn)影響來看,少樣本 ICL 的影響有限。

在 reward 過程中使用不同數(shù)量示例的 In-Context Learning 對閉源模型的性能影響不大。

圖片

小結(jié)一下,PRMBench 的發(fā)布,提醒我們重新審視現(xiàn)有 PRMs 的能力邊界。

按照研究團(tuán)隊(duì)的說法,“我們希望 PRMBench 能夠成為推動 PRM 評估和發(fā)展研究的堅(jiān)實(shí)基石”。

更多細(xì)節(jié)歡迎查閱原論文。

論文鏈接:https://arxiv.org/abs/2501.03124
項(xiàng)目主頁:https://prmbench.github.io/
Code:https://github.com/ssmisya/PRMBench
Data:https://huggingface.co/datasets/hitsmy/PRMBench_Preview

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-05-30 02:00:00

獎勵模型RRMAI

2025-06-09 09:32:35

2025-05-21 08:47:00

2025-04-30 16:48:07

2024-02-01 08:34:30

大模型推理框架NVIDIA

2024-08-14 14:06:01

2023-10-11 12:32:53

AI模型

2025-05-29 03:00:00

混合推理模型LHRMAI

2023-05-05 13:29:04

模型推理

2025-08-11 08:00:00

2025-06-26 09:06:59

2024-06-17 13:34:54

2023-05-15 15:38:59

AI模型

2025-05-30 04:00:00

IBMRLVRGRPO

2025-05-26 08:33:00

2024-04-01 08:00:00

AI模型

2025-04-14 00:10:00

人工智能AIAI 模型

2023-06-04 13:29:24

OpenAI員工UC

2024-10-22 13:28:53

2025-11-13 08:00:00

大推理模型AI人工智能
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

日日碰狠狠添天天爽| 欧美性久久久久| 在线亚洲欧美日韩| 91综合久久| 欧美一区二区免费视频| 国产欧美日韩小视频| 日本一卡二卡四卡精品| 日韩高清一区在线| 久久久国产成人精品| 久久久久亚洲av成人网人人软件| 麻豆视频在线观看免费网站黄| 久久久久青草大香线综合精品| 国产在线久久久| 日本熟妇一区二区| 成人黄色小视频| 亚洲成年网站在线观看| 亚洲精品高清无码视频| 91精品国产91久久久久久青草| 99国内精品久久| 91亚洲精华国产精华| 国产视频91在线| 天天做天天爱天天综合网| 亚洲第一综合天堂另类专| 亚洲欧美在线精品| 看黄在线观看| 亚洲精品国产第一综合99久久 | 精品一区二区日韩| 久久久久久久久久久91| 色偷偷男人天堂| 性人久久久久| 精品剧情v国产在线观看在线| 成人性生生活性生交12| 国产经典三级在线| 中文字幕一区二区三区在线播放| 欧美连裤袜在线视频| 精品久久久无码中文字幕| 热久久久久久久| 51ⅴ精品国产91久久久久久| 国产一级一级片| 香蕉久久网站| 中文字幕亚洲无线码a| 一本加勒比北条麻妃| jazzjazz国产精品久久| 制服丝袜亚洲色图| 黄大色黄女片18第一次| 欧美大片免费高清观看| 亚洲成人av在线电影| 免费在线精品视频| 草碰在线视频| 中文字幕精品在线不卡| 欧美极品日韩| 你懂的视频在线观看| 99视频超级精品| 国产精品10p综合二区| 精品久久人妻av中文字幕| 国产一区二区在线观看免费 | 日韩熟女一区二区| 夜夜嗨一区二区三区| 久久久人成影片一区二区三区观看| 日本在线一级片| 91精品一区二区三区综合在线爱| 色噜噜狠狠狠综合曰曰曰88av| 青娱乐国产视频| 国产一区二区精品福利地址| 日韩精品视频在线| 性欧美成人播放77777| 日韩最新在线| 亚洲女人被黑人巨大进入| 成都免费高清电影| 免费欧美视频| 正在播放欧美一区| 2014亚洲天堂| 亚洲最大黄网| 欧美国产精品va在线观看| 九热这里只有精品| 在线日韩欧美| 日本欧美精品在线| 在线播放精品视频| 国产麻豆视频一区| 国产精品久久7| 人妻视频一区二区三区| 99精品久久免费看蜜臀剧情介绍| 欧美日韩一区在线播放| 色视频在线免费观看| 国产精品初高中害羞小美女文| 亚洲免费视频播放| 91www在线| 一本到高清视频免费精品| 色婷婷.com| 中文字幕视频精品一区二区三区| 日韩av影视综合网| 亚洲ⅴ国产v天堂a无码二区| 亚洲国产一区二区三区在线播放| 久久久久久久香蕉网| 特级做a爱片免费69| 美女在线视频一区| 国产精品美女诱惑| 国产专区在线| 亚洲一区二区视频在线观看| 777米奇影视第四色| 久久亚洲精品中文字幕| 日韩精品一区二区三区在线| 在线国产视频一区| 欧美在线日韩| 国产97在线视频| 亚洲成人中文字幕在线| 久久久99精品免费观看| 免费观看国产视频在线| 涩涩在线视频| 4438x成人网最大色成网站| xxxx黄色片| 99精品网站| 欧美综合第一页| 99热在线只有精品| 久久久久久久久久久99999| 色婷婷777777仙踪林| 精品91久久| 精品久久一区二区三区| 蜜桃av.com| 久久精品午夜| 成人午夜电影在线播放| 嫩草香蕉在线91一二三区| 欧美日韩激情视频8区| 五月六月丁香婷婷| 精品久久精品| 97在线视频免费播放| 99久久精品国产一区二区成人| 99精品欧美一区二区三区小说| 亚洲精品偷拍视频| 日本精品在线中文字幕| 亚洲国模精品一区| 欧美黄片一区二区三区| 久久av中文字幕片| 日韩免费一区二区三区| 色在线视频观看| 亚洲国产成人精品电影| 国产波霸爆乳一区二区| 免费精品视频在线| 欧洲一区二区在线 | 亚洲综合一区二区三区| 污污网站在线观看视频| 国产一区二区三区探花| 韩国精品久久久999| 精品欧美一区二区精品少妇| 国产精品青草久久| 中文字幕在线观看第三页| 欧美a级网站| 91精品国产乱码久久久久久蜜臀| www.爱爱.com| 亚洲精品美腿丝袜| www.桃色.com| 欧美91精品| 91亚洲精品一区| 中文字幕有码在线视频| 欧美一级免费大片| 日本精品人妻无码77777| 乱一区二区av| 曰韩不卡视频| 国产精品一区二区精品视频观看| 日韩中文字幕免费| 国产精品女同一区二区| 亚洲素人一区二区| 18深夜在线观看免费视频| 欧美色图首页| 国产精品国产精品国产专区蜜臀ah | 欧美日韩视频免费观看| 中文字幕av一区中文字幕天堂| 中日精品一色哟哟| 亚洲欧美在线视频观看| 熟妇无码乱子成人精品| 国产精品va| 含羞草久久爱69一区| 欧美片第1页| 中文字幕一区二区精品| 国产男女无套免费网站| 一区二区三区四区国产精品| 无码一区二区精品| 天堂一区二区在线| 一区二区三视频| 国产精品亚洲欧美一级在线| 欧美黑人一级爽快片淫片高清| 男人天堂av网| 欧美性xxxxxxx| 欧美成人另类视频| 国产精品一区二区不卡| av7777777| 欧美日韩中字| 91午夜理伦私人影院| 成人免费网站观看| 在线观看日韩av| 国内毛片毛片毛片毛片| 欧美性黄网官网| 成人小视频免费看| 国产成人在线观看| 国产一区亚洲二区三区| 羞羞色午夜精品一区二区三区| 国产一区国产精品| 成人在线视频免费| 国内伊人久久久久久网站视频| 国产视频精选在线| 日韩欧美国产小视频| 波多野结衣高清视频| 亚洲三级小视频| 欧美色图亚洲激情| 久久99精品视频| 每日在线更新av| 91精品啪在线观看国产18| 久久久久天天天天| 国产精品视频一区二区三区| 日本一区二区不卡| 污影院在线观看| 国产香蕉精品视频一区二区三区| 午夜精品久久久久久久96蜜桃 | 国产裸体美女永久免费无遮挡| 亚洲精品国产成人久久av盗摄| 成年人免费观看视频网站| 国产成人精品亚洲777人妖| 激情婷婷综合网| 一区福利视频| 欧美亚洲视频一区| 精品国产成人| 久久99欧美| 成人在线超碰| 91九色视频在线| 在线日本欧美| 欧美在线日韩在线| 污视频在线看网站| xxx一区二区| 国产私拍精品| 亚洲老司机av| 天天色棕合合合合合合合| 日韩一区二区在线观看视频| 在线观看一二三区| 91久久精品午夜一区二区| 日本熟妇乱子伦xxxx| 亚洲精品欧美在线| 在线观看美女av| 国产精品无遮挡| 国内精品卡一卡二卡三| 91免费视频网| 国产夫妻性爱视频| 成人黄页在线观看| 91精品国产高清91久久久久久| 国产在线播精品第三| 亚洲免费av一区| 精品一区二区三区视频| 亚洲午夜激情影院| 久久精品999| 国产永久免费网站| 精品影视av免费| av中文字幕网址| 久久99这里只有精品| 岛国毛片在线播放| 蜜桃免费网站一区二区三区| 久久撸在线视频| 麻豆精品国产91久久久久久| 在线观看av网页| 精品一区中文字幕| 国产探花一区二区三区| 丁香婷婷综合网| 欲求不满的岳中文字幕| 99精品偷自拍| 成人性生交大免费看| 日本一区免费视频| 国产在线观看免费视频软件| 亚洲天天做日日做天天谢日日欢 | 奇米成人av国产一区二区三区| 亚洲欧洲美洲av| 国产成人免费av| 亚洲成人高清| 99久久精品免费看国产一区二区三区| 欧美日韩va| 亚洲最大的免费| 久久97精品| 看欧美日韩国产| 色喇叭免费久久综合| 精品91一区二区三区| 亚洲福利电影| 任你操这里只有精品| 紧缚奴在线一区二区三区| 久久国产免费视频| 久久影视一区二区| 免费黄色国产视频| 亚洲国产日产av| 午夜一级黄色片| 91精品国产综合久久精品性色| 日本精品久久久久久| 亚洲欧美另类在线观看| 免费a在线看| 97色在线观看| 成人免费毛片嘿嘿连载视频…| 91牛牛免费视频| 欧美a一欧美| 欧美h视频在线观看| 99riav1国产精品视频| 日韩欧美黄色大片| 国产成人三级在线观看| 午夜在线观看一区| 亚洲一区二区在线观看视频| 欧美成人一区二区视频| 精品欧美一区二区久久| av在线播放网站| 久久人人爽人人爽人人片av高清| 91国内外精品自在线播放| 国产激情美女久久久久久吹潮| 欧美色女视频| 成人在线观看你懂的| 激情六月婷婷综合| a级大片在线观看| 亚洲午夜电影在线观看| 一级做a爱片久久毛片| 日韩久久精品成人| 久色国产在线| 亚洲一区二区三| 日韩成人精品一区二区| 国产青青在线视频| 国产不卡在线一区| 成人免费视频入口| 色综合一个色综合亚洲| 亚洲精品久久久久久久久久| 日韩在线观看免费全| 欧美色网一区| 国产偷久久久精品专区| 欧美+亚洲+精品+三区| 一级黄色特级片| 国产人伦精品一区二区| 国产精品视频久久久久久久| 日韩美女一区二区三区四区| 麻豆影视国产在线观看| 国产精品丝袜一区二区三区| 蜜臀久久99精品久久一区二区| www.亚洲成人网| 国内欧美视频一区二区| 四虎国产成人精品免费一女五男| 色哟哟亚洲精品| 亚洲色欧美另类| 97在线视频免费| 美国成人xxx| www.中文字幕在线| 成人福利视频网站| 黄色激情视频在线观看| 精品国产露脸精彩对白| 色综合999| 99影视tv| 午夜欧美精品| 中文写幕一区二区三区免费观成熟| 亚洲欧洲日本在线| 国产精品久久久久久久成人午夜| 色哟哟入口国产精品| 成人综合网站| 亚洲精品久久久久久一区二区| 免费黄网站欧美| 国产精品麻豆免费版现看视频| 欧美性xxxxxx少妇| av男人的天堂在线| 国产日韩欧美另类| 婷婷六月综合| 波多野结衣电影免费观看| 亚洲精品成人少妇| 亚洲国产日韩在线观看| 欧美精品videossex88| 成人香蕉社区| 黄色一级视频片| 久久伊人蜜桃av一区二区| 波多野结衣人妻| 中文字幕欧美视频在线| 久久av影院| 国产成年人在线观看| 懂色中文一区二区在线播放| 国产亚洲精品久久久久久无几年桃 | 2021天堂中文幕一二区在线观| 99在线高清视频在线播放| 精品动漫av| 精品无码在线视频| 色菇凉天天综合网| av网站在线免费播放| 成人免费看吃奶视频网站| 亚洲字幕久久| 国产二级一片内射视频播放| 色综合久久久久网| 999国产在线视频| 亚洲va欧美va国产综合剧情| 亚洲国产综合在线看不卡| 国产偷人妻精品一区| 欧美三级在线播放| 欧美v亚洲v| 免费在线观看91| 国产一区二区三区四区五区入口| 国产一级黄色av| 亚洲欧美一区二区激情| 粉嫩av国产一区二区三区| 精品无码一区二区三区在线| 国产午夜亚洲精品羞羞网站| 国产av无码专区亚洲av麻豆| 91成人免费观看网站| 欧美mv日韩| 一区二区视频观看| 欧美日高清视频| 国产在线精彩视频| 天天干天天操天天干天天操|