精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

過程獎勵模型也可以測試時擴展?清華、上海AI Lab 23K數據讓1.5B小模型逆襲GPT-4o

人工智能 新聞
清華大學聯合上海 AI Lab 提出生成式過程獎勵模型 ——GenPRM,將生成式思維鏈推理(CoT)與代碼驗證相結合,并引入測試時拓展機制,為過程監督推理提供了新思路。

趙儉,北京郵電大學本科三年級,研究方向為大語言模型。劉潤澤,清華大學碩士二年級,師從李秀教授,研究方向為大語言模型與強化學習,特別關注大模型推理能力增強與測試時間擴展,在 NeurIPS、ICML、ICLR、AAAI 等頂級學術會議發表多篇論文,個人主頁:ryanliu112.github.io。

隨著 OpenAI o1 和 DeepSeek R1 的爆火,大語言模型(LLM)的推理能力增強和測試時擴展(TTS)受到廣泛關注。然而,在復雜推理問題中,如何精準評估模型每一步回答的質量,仍然是一個亟待解決的難題。傳統的過程獎勵模型(PRM)雖能驗證推理步驟,但受限于標量評分機制,難以捕捉深層邏輯錯誤,且其判別式建模方式限制了測試時的拓展能力。

那么,是否有辦法通過測試時拓展提升過程獎勵模型的過程監督推理能力呢?

為此,清華大學聯合上海 AI Lab 提出生成式過程獎勵模型 ——GenPRM,將生成式思維鏈推理(CoT)與代碼驗證相結合,并引入測試時拓展機制,為過程監督推理提供了新思路。與 DeepSeek 近期發布的逐點生成獎勵模型(GRM)類似,GenPRM 也通過生成式建模和測試時擴展增強獎勵模型的推理能力,但 GenPRM 更專注于過程獎勵模型,彌補了 GRM 在過程監督方面的不足。

圖片

  • 論文標題:GenPRM: Scaling Test-Time Compute of Process Reward Models via Generative Reasoning
  • 論文鏈接:http://arxiv.org/abs/2504.00891
  • 項目鏈接:https://ryanliu112.github.io/GenPRM
  • GitHub:https://github.com/RyanLiu112/GenPRM
  • HuggingFace:https://huggingface.co/GenPRM

在 ProcessBench 等數學推理基準的測試中,GenPRM 展現出驚人實力:僅 1.5B 參數的模型通過測試時擴展超越 GPT-4o,而 7B 參數版本更是擊敗 72B 參數的 Qwen2.5-Math-PRM-72B,同時表現出強大的步驟級批評能力。

圖片

GenPRM:從評分到推理,再到測試時擴展

現有過程獎勵模型依賴分類器式的標量評分,這種 “黑箱” 機制導致兩個核心問題:一是無法解釋錯誤根源,僅能判斷步驟 “對錯”,卻無法解釋 “為何錯”,二是無法通過增加模型測試時間計算資源提升判斷精度。

生成式過程獎勵模型

為了突破這些瓶頸,GenPRM 引入生成式設計,徹底革新過程監督范式:

  • 思維鏈推理:GenPRM 模擬人類解題時的邏輯推導,對每一步推理進行自然語言分析,提供透明、可解釋的步驟評估。
  • 代碼驗證:為確保推理的可靠性,GenPRM 還會生成并執行對應數學運算的 Python 代碼,將文字推導與實際計算結果交叉驗證。例如,在求解三角函數表達式時,模型先分析角度轉換的合理性,再通過代碼計算具體數值,避免 “符號推導正確但計算失誤” 的情況。

圖片

其獎勵推理過程可以表示為:

圖片


其中 s_t 為當前狀態,a_t 為當前步驟,v_1:t?1 和 f_1:t-1 分別為之前步驟的推理過程和代碼執行反饋,v_t 和 f_t 為當前步驟的推理與反饋。這種 “先解釋、再驗證” 的機制不僅能判斷對錯,還能提供步驟級別的批評改進建議和嚴謹準確的反饋,大幅提升了過程監督的深度和實用性。

測試時擴展

在推理階段,GenPRM 通過并行采樣 N 條推理路徑,綜合多條路徑的獎勵值并取平均,得到最終獎勵:

圖片

這種策略充分利用額外計算資源,進一步提升評估精度,使小模型也能在復雜任務中表現出色。

數據高效:23K 樣本背后的合成秘密

GenPRM 的另一個亮點是僅使用 23K 訓練樣本就取得了優異的性能,遠少于許多模型動輒數十萬級的數據量(如 PRM800K 需 80 萬人工標注),其高效性源于獨特的數據合成方法,結合相對進步估計(RPE)和代碼驗證,生成高質量的過程監督數據。

圖片

通過相對進步估計改進硬估計

傳統過程獎勵模型通過蒙特卡羅(MC)分數進行硬估計,研究者觀察到盡管許多步驟的 MC 分數大于 0,但這些步驟是卻存在錯誤。RPE 通過比較當前狀態和上一狀態的 MC 分數,用 “進步幅度” 評估每步質量,比傳統硬標簽更準確。其形式化如下:

圖片

其中,MC (s_t, a_t) 表示當前步驟的蒙特卡羅分數,MC (s_t) 表示上一步驟的蒙特卡羅分數。若進步幅度低于閾值(?=0.8),則判定步驟無效;若首步錯誤(MC 為 0),后續步驟分數歸零。這種方法顯著提升標簽準確性,避免了硬估計的誤判。

代碼驗證驅動的數據合成

研究者利用 QwQ-32B 模型合成 CoT 和代碼驗證推理數據,通過在 Python 環境中真實執行代碼重復檢驗 CoT 推理過程。使用共識過濾(過濾率 51%),保留高質量過程監督數據,最終得到 23K 訓練數據集。

測試時擴展:小模型的逆襲

在 ProcessBench 過程監督基準測試中,GenPRM 展現出顯著優勢:

  • 僅用 23K 訓練數據的 1.5B GenPRM,通過多數投票(Maj@8)的測試時計算擴展策略,其 F1 分數超越 GPT-4o;
  • 7B 版本的 GenPRM 以 80.5% 的 F1 分數一舉超過 72B 參數的 Qwen2.5-Math-PRM-72B。

這一結果證明,測試時擴展能有效放大過程獎勵模型的能力,使小模型實現性能飛躍。

圖片

此外,GenPRM 同樣適用于策略模型測試時擴展。通過 Best-of-N 實驗,GenPRM-7B 展現出相比于基線方法更加優異的篩選能力,并可通過測試時擴展進一步增強過程監督能力。

圖片

從驗證器到批評者:過程獎勵模型新范式

GenPRM 不僅能當 “裁判”,作為驗證器(Verifier)篩選答案,還能當 “教練”,作為步驟級別的批評模型(Critic)指導策略模型迭代優化原始回答。實驗表明,GenPRM 通過 3 輪反饋將策略模型的回答準確率從 45.7% 提升至 51.5%,性能提升達到基線方法的 3.4 倍。

圖片

這種 “生成 - 批評 - 反思” 的閉環,驗證了 GenPRM 不僅可以作為驗證器驗證答案的準確性,還可以作為批評者,為模型完善自身輸出提供逐步關鍵指導,為大語言模型的自我改進提供了可解釋的技術路徑。

研究者已開源代碼、模型及 23K 訓練數據集。該工作為大語言模型的可解釋過程監督提供了新思路,未來可擴展至代碼生成、多模態推理等領域。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-01-21 10:10:56

2025-01-08 09:00:00

訓練數據研究

2024-06-17 18:04:38

2025-04-25 09:20:00

數據模型AI

2024-12-19 09:00:00

模型數學訓練

2024-05-14 11:29:15

2025-04-23 15:25:27

語言模型Eagle 2.5英偉達

2025-10-28 02:11:00

2025-07-22 10:22:02

2025-01-06 12:46:16

模型數據訓練

2025-02-13 09:10:00

2024-12-02 14:20:00

模型訓練

2024-11-28 15:51:19

GPT-4o微軟

2025-10-24 12:07:12

2025-04-27 09:54:48

2024-05-30 12:50:05

2025-07-14 09:00:00

2025-06-06 14:17:11

模型訓練AI

2025-03-10 09:38:00

2025-08-21 16:01:58

點贊
收藏

51CTO技術棧公眾號

午夜免费视频网站| 天堂社区 天堂综合网 天堂资源最新版| 天天爽天天爽天天爽| 亚洲精品在线播放| 精品久久久在线观看| 日韩电影免费观看在| 国产精品亚洲欧美在线播放| 国产精品av久久久久久麻豆网| 亚洲电影免费观看高清| 在线免费观看av的网站| heyzo高清国产精品| 国产视频在线观看一区二区三区| 国产综合色香蕉精品| 亚洲欧美在线视频免费| 清纯唯美亚洲综合一区| 日韩美一区二区三区| 天天干在线影院| √最新版天堂资源网在线| 国产精品美女久久久久久久| 精品国产区在线| 亚洲一区二区视频在线播放| 中文欧美日韩| 欧美日韩国产91| 四虎影视一区二区| 国产免费久久| 亚洲成人免费在线视频| 国产亚洲视频一区| 自由日本语热亚洲人| 亚洲最色的网站| 中文字幕久久综合| 国产三级电影在线观看| www.欧美日韩| 动漫一区二区在线| 99精品在线视频观看| 青青草国产成人99久久| 日本精品久久久久久久| 国产精品99精品| 综合国产精品| 久久精品国产欧美激情| 摸摸摸bbb毛毛毛片| 亲子伦视频一区二区三区| 欧美变态tickling挠脚心| 亚洲a级黄色片| 国产成人a视频高清在线观看| 欧美性猛交xxxxx水多| 免费看国产一级片| av在线视屏| 亚洲午夜精品网| 久草视频这里只有精品| 亚洲国产精品精华素| ...av二区三区久久精品| 亚洲乱码国产乱码精品天美传媒| 你懂的视频在线观看| xf在线a精品一区二区视频网站| 久久99精品久久久久久秒播放器| 手机av在线免费观看| 波多野结衣视频一区| 国产精品麻豆免费版| 神马午夜电影一区二区三区在线观看 | 欧美成人video| 国产亚洲色婷婷久久| 久久影院一区二区三区| 欧美一区二区福利在线| 国产成人精品一区二区在线小狼| 99久久人爽人人添人人澡| 日韩午夜三级在线| 在线播放第一页| 欧美性生活一级片| 亚洲欧美日韩精品久久亚洲区| 亚洲激情视频小说| 日韩国产专区| 久久九九全国免费精品观看| 欧美精品久久久久性色| 狠狠色综合网| 4438全国成人免费| 夜夜躁日日躁狠狠久久av| 日本成人在线一区| 91系列在线观看| 黄色www视频| 久久久久久久久久看片| 亚洲国产精品毛片| 在线视频中文字幕第一页| 亚洲午夜免费电影| 别急慢慢来1978如如2| 一区在线不卡| 亚洲精品二三区| 久久精品三级视频| 欧美日韩三级| 久久久久亚洲精品| 无码一区二区三区| 国产高清在线精品| 欧美日韩日本网| 免费观看久久久久| 欧美日韩免费网站| 亚洲欧美视频二区| 欧美wwwsss9999| 日韩视频免费在线| 精品成人免费视频| 极品少妇xxxx精品少妇| 黑人另类av| 免费日本一区二区三区视频| 精品久久久久久久久久国产| 国内外成人免费在线视频| 99ri日韩精品视频| 综合欧美国产视频二区| 久久精品亚洲无码| 久久国产三级精品| 麻豆久久久9性大片| free性欧美hd另类精品| 91久久一区二区| 国产极品一区二区| 91成人看片| 国产97色在线| 手机看片福利永久| 亚洲综合视频网| 日本黄大片一区二区三区| 欧美三级午夜理伦三级小说| 日韩在线观看成人| 五月婷婷激情五月| 99在线精品观看| 日本一道在线观看| 久久91视频| 亚洲欧美精品一区| 91蜜桃视频在线观看| 国产一区二区精品久久| 性欧美.com| 婷婷午夜社区一区| 亚洲精品suv精品一区二区| 日韩欧美中文免费| 亚洲精品一区二区三| 欧美一级鲁丝片| 精品少妇一区二区三区在线播放| 成年人免费视频播放| 日韩国产在线一| 女女同性女同一区二区三区91| 啦啦啦中文在线观看日本| 91精品国产福利| 天堂网avav| 狠狠色狠狠色综合| 在线观看一区二区三区三州 | 国产成人啪精品视频免费网| 日韩一级免费视频| 亚洲午夜日本在线观看| 国内自拍偷拍视频| 国产精品v亚洲精品v日韩精品| 成人综合网网址| 成人高清免费在线| 这里是久久伊人| 成人涩涩小片视频日本| av观看在线免费| 成人黄色在线看| 美女扒开大腿让男人桶| 亚洲三级av| 久久久久久久久久久免费精品| 亚洲精品无amm毛片| 亚洲午夜三级在线| 呦呦视频在线观看| 国产亚洲毛片| 欧美日韩视频在线一区二区观看视频| 依依综合在线| 在线播放日韩av| 97超碰人人草| 一区二区三区美女视频| 中国黄色片视频| 国产日韩欧美三级| 欧美精品一区二区三区四区五区| 欧美大电影免费观看| 在线电影欧美日韩一区二区私密| 亚洲一级特黄毛片| 亚洲精品乱码久久久久久黑人| jjzz黄色片| 亚洲欧美日本国产专区一区| 日韩精品久久久毛片一区二区| 亚洲精品无播放器在线播放| av一区二区不卡| 国产激情一区二区三区在线观看| 最近高清中文在线字幕在线观看1| 国产一区二区三区在线看| 国产一区二区在线不卡| 一区二区三区四区不卡视频| jizz欧美性20| 老司机精品视频导航| 肉大捧一出免费观看网站在线播放| 国产精品jk白丝蜜臀av小说| 日本老师69xxx| h视频在线免费观看| 日韩精品999| 在线免费观看中文字幕| 樱桃国产成人精品视频| 瑟瑟视频在线观看| 国产精品影视在线观看| 麻豆av免费在线| 亚洲激情久久| 欧美日本韩国一区二区三区| 久久9999免费视频| 日韩免费精品视频| jizz国产在线| 婷婷综合伊人| 国产欧美一区二区三区久久人妖| av大大超碰在线| 亚洲香蕉成视频在线观看 | 日韩欧美123| 久久久久久久久黄色| 亚洲嫩草精品久久| 久久久久久久久久久久| 福利电影一区二区| 蜜臀一区二区三区精品免费视频| 91久久夜色精品国产九色| 一区二区三区四区不卡| 色天天色综合| 99久久精品免费看国产四区| 欧洲成人一区| 欧美一级片免费在线| 性直播体位视频在线观看| 国产一区二区三区视频免费| 日本高清视频www| 欧美一区二区三区影视| 夜夜躁日日躁狠狠久久av| 舔着乳尖日韩一区| 久久久久香蕉视频| 亚洲免费av在线| 久久精品色妇熟妇丰满人妻| 久久久久久电影| 国产白嫩美女无套久久| 国产成人亚洲综合a∨猫咪| 超碰超碰在线观看| 日本在线播放一区二区三区| 欧洲av无码放荡人妇网站| 伊人久久亚洲影院| 国产精品无码免费专区午夜| 天天影视天天精品| 在线观看成人av电影| 久久影院一区| 亚洲精品无人区| 精品一区二区三区在线| 亚洲天堂免费观看| 四虎成人免费影院| 久久久99精品免费观看不卡| 国产精品无码一区二区三区免费| 国产69精品一区二区亚洲孕妇| 久久无码人妻一区二区三区| 麻豆91在线播放| 亚洲怡红院在线| 久久99国产精品久久99果冻传媒 | 看片的网站亚洲| 日日干夜夜操s8| 久久国产人妖系列| 8x8x成人免费视频| 国产米奇在线777精品观看| 国产女同无遮挡互慰高潮91| 精品无码三级在线观看视频| 亚洲黄色av片| 狠狠色狠狠色综合日日91app| 亚洲理论中文字幕| 国产一区不卡视频| 被黑人猛躁10次高潮视频| 国产一区二区视频在线播放| 亚洲天堂网2018| 国产成人99久久亚洲综合精品| 美女日批在线观看| 不卡区在线中文字幕| 国产乱了高清露脸对白| 91视频在线观看免费| 亚洲久久久久久久| 中文字幕不卡的av| 波多野结衣亚洲一区二区| 亚洲一区在线观看免费观看电影高清 | 日韩成人综合| 色婷婷777777仙踪林| 好看不卡的中文字幕| 欧美网站免费观看| 人人精品人人爱| 四川一级毛毛片| 成人app下载| 欧美人妻一区二区三区| 国产精品国产精品国产专区不蜜| 99久久99久久精品国产| 亚洲一级二级在线| 中文字幕黄色片| 欧美久久久久久久久中文字幕| www.五月天激情| 亚洲精品中文字幕女同| av电影在线观看一区二区三区| 理论片在线不卡免费观看| 日本一道本久久| 欧美久久久久| 亚洲国产成人精品无码区99| 日韩国产欧美三级| 日本高清免费观看| 久久综合成人精品亚洲另类欧美 | 欧美特黄aaa| 成人av影院在线| 影音先锋男人在线| 亚洲高清免费视频| 久久这里只有精品9| 欧美成人艳星乳罩| jizz在线观看中文| 91黑丝在线观看| 国产精品一区二区美女视频免费看 | 亚洲高清极品| 国产欧美综合一区| 久久精品亚洲一区二区| 特种兵之深入敌后| 欧美国产日韩a欧美在线观看 | 亚洲免费高清| 日本国产一级片| 国产午夜精品在线观看| 久久久无码精品亚洲国产| 欧美三级在线播放| 日本国产在线| 欧美高跟鞋交xxxxxhd| 青青国产精品| 日本一区二区三区免费观看| 亚洲区一区二| 中文字幕一二三区| 亚洲国产高清不卡| 亚洲AV无码成人精品区东京热| 日韩欧美国产不卡| 日本亚洲精品| 国产精品高清免费在线观看| 欧美亚视频在线中文字幕免费| 黄网站色视频免费观看| 青青草国产成人av片免费| 巨胸大乳www视频免费观看| 亚洲国产精品久久久久婷婷884| 国产精品老熟女视频一区二区| 夜夜躁日日躁狠狠久久88av| 性欧美又大又长又硬| 国产精品精品软件视频| 影音先锋成人在线电影| 色婷婷一区二区三区av免费看| 国产亚洲成av人在线观看导航| 国产一级18片视频| 日韩精品视频在线| av免费不卡国产观看| 国产伦精品一区二区三区视频黑人 | 91成人免费在线观看| 日韩精品一区二区三区免费观看| 国产v亚洲v天堂无码久久久| 久久色在线视频| wwwwww国产| 亚洲精选一区二区| gay欧美网站| 日本不卡一区二区三区在线观看 | 亚洲网友自拍偷拍| www黄色在线观看| 欧美激情18p| 国产精品巨作av| 国模无码视频一区二区三区| 99精品欧美一区二区三区综合在线| 日本最新中文字幕| 日韩成人激情在线| 欧美片第一页| 亚洲成人av动漫| 黄一区二区三区| 久操视频免费在线观看| 亚洲成在人线av| 日本黄色免费在线| 视频一区免费观看| 久久国产人妖系列| 麻豆chinese极品少妇| 亚洲精品久久在线| 视频二区不卡| 一道精品一区二区三区| 国产一区二区伦理| 国产精彩视频在线观看| 日韩精品在线观| 福利一区二区三区视频在线观看| 亚洲亚洲精品三区日韩精品在线视频| 精品一区二区在线免费观看| 激情综合网五月天| 亚洲精品白浆高清久久久久久| 久久uomeier| 宅男在线精品国产免费观看| 国产高清不卡二三区| 看片网址国产福利av中文字幕| 亚洲性xxxx| 久久伦理中文字幕| 看av免费毛片手机播放| 国产精品视频一区二区三区不卡 | 亚洲男人天堂2023| 亚洲狼人综合| 777精品久无码人妻蜜桃| 国产欧美一区二区精品性色| av老司机久久| 国产97在线观看| 欧美精品色网| 欧美大波大乳巨大乳| 欧美一级欧美三级在线观看| 无码小电影在线观看网站免费| 亚洲在线不卡| 成人国产视频在线观看| 又骚又黄的视频| 激情成人午夜视频| 成人免费毛片xxx| 欧美大片日本大片免费观看| 四虎4545www国产精品| 国产欧美精品aaaaaa片| 国产欧美日韩亚州综合| 欧美一区二区在线观看视频|