精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

OpenAI | Let’s Verify Step by Step詳細解讀

發布于 2024-7-12 11:00
瀏覽
0收藏

一、概述

title:Let’s Verify Step by Step

論文地址:https://arxiv.org/abs/2305.20050

代碼:https://github.com/openai/prm800k

1.1 Motivation

  • 近期大模型的出現極大的提升了復雜問題的多步推理能力,例如可以通過逐步思考(CoT)改善推理任務,但是即使最先進的模型也會產生邏輯錯誤。
  • 如何訓練一個更好的reward model,來做大模型的alignment對齊研究也是一個具有挑戰的問題。
  • 結果監督(只提供最終的結果作為監督信號)和過程監督(提供每一個中間推理結果的反饋)哪個好,還有待詳細對比和研究。

1.2 Methods

  1. 實驗步驟和方法:
  • 訓練最可靠的reward model:對GPT-4模型進行微調,拿到最可靠的ORM和PRM。
  • 生成器:通過GPT-4生成所有候選解決方法,此步GPT-4沒經過RL來alignment優化。
  • 評價:對生成的結果進行N選1,最終根據答案來評分。
  • 兩種不同規模的模型:所有大模型是通過GPT-4微調,沒有經過RL訓練,小規模模型和GPT4類似,但是計算量少200倍,模型在15億數學相關的數據集MathMix上進行了微調。
  1. 過程反饋數據收集方法:

OpenAI | Let’s Verify Step by Step詳細解讀-AI.x社區

  • 數據收集方案【基礎方案】:對于每一步收集人類反饋結果
  • 優化策略【高價值負樣本挖掘】:標注數據的時候,盡可能對更有可能欺騙reward模型的數據來進行標注,如果展示明顯錯誤的解決方案,獲得的反饋價值沒那么大
  • 迭代訓練獎勵模型【高價值負樣本挖掘】:在每次迭代中,對每個問題生成N個解決方案,并僅向數據標注者展示得分最高的K個具有說服力的錯誤答案解決方案。作者嘗試將此top-K過濾應用于問題級別(每個問題K個解決方案)或全局級別(總共K個解決方案,在問題之間不均勻分布)
  1. ORM以及PRM建模方法
  • Outcome-supervised Reward Models (ORMs):直接判斷一個solution最終結果是正確還是錯誤的【有可能中間推理錯誤,最終結果正確的現象】。
  • Process-supervised Reward Models (PRMs):在每一步都加入監督信號,訓練PRMs去預測每一step是否正確。同時加入了每一步step的標記,這樣可以直接在自回歸模型進行訓練,也方便在遇到結束位置標記時來進行監督反饋。
  • 如何解決ORM和PRM監督信號不對等的問題:在提供過程監督時,他們有意選擇只監督到第一個錯誤的步驟。這樣做使得結果監督和過程監督之間的比較更加簡單明了。對于正確的解決方案,兩種方法提供相同的信息,即每個步驟都是正確的。對于不正確的解決方案,兩種方法都揭示了至少存在一個錯誤,而過程監督還揭示了該錯誤的具體位置。如果他們在第一個錯誤之后提供額外的過程監督,那么過程監督將具有更大的信息優勢。這個決策還保持了對人類的標注成本相似:在不依賴于易于檢查的最終答案的情況下,確定解決方案的正確性等價于確定其第一個錯誤。

OpenAI | Let’s Verify Step by Step詳細解讀-AI.x社區

說明:左邊是正確的slutions,右邊有部分推理是錯誤的,PRM(過程監督)正確地指出了錯誤答案中的錯誤

1.3 Conclusion

OpenAI | Let’s Verify Step by Step詳細解讀-AI.x社區

  • 過程監督比結果監督好很多,在數學領域,能極大的提升performance,訓練更可靠的reward model,本文訓練的過程監督模型在MATH子數據集解決了78%的問題,消除這一重大進入障礙將促進對大型語言模型對齊的相關研究。
  • 主動學習(active learning)可以極大提升過程監督的效率(data efficiency提升2.6倍)。
  • 放出了PRM800K數據集:80萬 step-level人類反饋的標簽(本文訓練reward model的數據集)

二、詳細內容

1 大規模監督學習

目的:比較PRM(過程監督) vs ORM(結果監督)最佳表現與N(每個問題N個solution的數量選一個最終的結果)的關系

OpenAI | Let’s Verify Step by Step詳細解讀-AI.x社區

  • N:每個問題solution的個數
  • ORM:結果監督,解決72.4%,比投票好一點,說明加上監督信號的reward 模型還是有用的。
  • PRM:過程監督,解決78.2%的問題,比ORM好不少。
  • Majority Voting:投票,感覺也不錯,需要產生多個結果來投票,有點類似模型融合。
  • 與N的關系:隨著N的增大,PRM和ORM的gap越來越大,說明相對于ORM和Majority Voting,PRM能更有效的在眾多答案中找到正確的答案。

2 小規模合成監督學習【公平對比ORM和PRM】

背景:由于數據集構建,監督方法的不同,以及結果評判方法的不同,直接對比ORM和PRM有點不太好比較

原因:(1)ORM和PRM的訓練集無法直接進行比較:PRM訓練集是通過主動學習構建的,偏向于錯誤答案的解決方案,并且規模小了一個數量級。(2)ORM最終答案的評分正確但可能推理過程錯誤帶來評判不公平。(3)收集人工反饋的成本很高,無法輕易地通過人工標注者去除這些因素

解決方法:使用大規模的PRM(PRMlarge)來監督較小的模型來進行相關的消融實驗。這個設置可以以較低的成本模擬大量的數據收集。

OpenAI | Let’s Verify Step by Step詳細解讀-AI.x社區

  • solution生成:從一個小規模的生成器中隨機選取每個問題1到200個解決方案。
  • 三種監督方式:相當于利用大的PRMlarge來做小模型的PRM或者ORM,控制PRM或者ORM作為變量,監督模型PRMlarge保持不變的:

PRM(PRMlarge supervised):利用PRMlarge(即大規模PRM,以下簡稱PRMlarge)來做過程監督

ORM(PRMlarge supervised):利用PRMlarge(即大規模PRM,以下簡稱PRMlarge)來做結果監督

ORM(final-answer supervised):不看過程,只看最終結果,相當于只拿最終結果來進行監督

OpenAI | Let’s Verify Step by Step詳細解讀-AI.x社區

  • 結論:

圖(a)根據500個最佳選擇來評估每個獎勵模型。我們看到,在所有數據收集規模上,PRM過程監督的表現都大大優于兩種形式的結果監督(ORM(PRMlarge supervised)和 ORM(final-answer supervised))。

圖(b)通過其在N個不同值中的最佳表現來評估每個系列的最佳獎勵模型。我們看到,使用PRMlarge進行結果監督明顯比最終答案檢查更有效。這可以解釋為,PRMlarge為使用不正確的推理得出正確最終答案【結果正確,推理錯誤】的解決方案提供了更好的監督。

3 主動學習

  • 背景:主動學習是一種機器學習技術,它可以通過選擇最具價值的樣本來優化模型訓練過程。
  • 方法步驟:

使用一種小規模的獎勵模型PRMselector,每個問題評分1000個樣本。

從每個問題選擇N個樣本,其中80%是最令人信服的錯誤答案樣本,20%是剩下的最令人信服的樣本(正確或錯誤答案)

使用PRMlarge對所選樣本進行評分并基于這些評分并進行訓練

  • 結論:

性能如圖4a所示。通過比較具有和不具有主動學習的最佳擬合線的斜率,這種數據標記方案的性能比均勻數據標記大約高效2.6倍。

當使用最大主動學習數據集(每個問題200個樣本)訓練模型時,結果略低于預期的趨勢線,可能是因為200個樣本代表了整體選擇池(1000個樣本)的相當大比例,導致相對缺乏多樣性限制了主動學習的潛在優勢。

4 泛化能力

OpenAI | Let’s Verify Step by Step詳細解讀-AI.x社區

OpenAI | Let’s Verify Step by Step詳細解讀-AI.x社區

  • 方法:一個包含224個STEM問題的保留集上評估了大規模ORM和PRM,這些問題來自最近的AP物理學、AP微積分、AP化學、AMC10和AMC12考試。這些測試是在預訓練數據集編制之后發布的,因此可以高度確信模型沒有見過這些問題。
  • 結論:PRM的泛化能力表現優于ORM和多數投票。這向我們表明,PRM可以容忍適度的distribution shift,其強勁的表現在新的測試問題上保持不變。

三、參考文獻

  1. OpenAI最新研究Let's verify step-by-step,過程勝于結果!:??https://mp.weixin.qq.com/s/bvrJKy8dufRF0KfC90PDMA??
  2. Let's Verify Step by Step:??https://mp.weixin.qq.com/s/6ELuM8gkrp1RP1wE47hi0Q???

本文轉載自??NLP PaperWeekly??,作者: 胡翔 

已于2024-7-13 00:32:36修改
收藏
回復
舉報
回復
相關推薦
亚洲欧美卡通动漫| 黄色手机在线视频| 深夜福利在线观看直播| 久久激情视频| 久久精品国产清自在天天线| 午夜诱惑痒痒网| 夜鲁夜鲁夜鲁视频在线播放| 成人免费一区二区三区在线观看| 国产精品免费看一区二区三区| 欧产日产国产69| 亚洲成人精品| 精品一区精品二区| 欧美激情第四页| 欧美人体一区二区三区| 亚洲一区二区三区美女| 先锋在线资源一区二区三区| 老司机午夜福利视频| 免费美女久久99| 51色欧美片视频在线观看| www色aa色aawww| 欧美码中文字幕在线| 精品播放一区二区| 一级黄色在线播放| 色成人免费网站| 亚洲午夜影视影院在线观看| 亚洲欧洲精品一区二区| 青青国产在线| 成a人片亚洲日本久久| 成人免费网视频| 无码人妻aⅴ一区二区三区有奶水| 国产综合久久| 欧美精品一本久久男人的天堂| 久久中文字幕精品| 九热爱视频精品视频| 亚洲精品电影久久久| 四虎国产精品免费| 国产免费区一区二区三视频免费 | 国产精品500部| 911精品美国片911久久久| 正在播放亚洲1区| 制服 丝袜 综合 日韩 欧美| 成人h动漫免费观看网站| 日韩一二三四区| 999热精品视频| 自拍偷拍欧美日韩| 制服丝袜中文字幕亚洲| 成年网站免费在线观看| 成人午夜在线| 欧美午夜精品免费| 日本久久久久久久久久久久| 四虎4545www国产精品| 日本高清不卡视频| 男女啪啪网站视频| 成人毛片免费| 欧美视频精品在线| 污视频网址在线观看| 国产日本久久| 91精品麻豆日日躁夜夜躁| 中文字幕第38页| 美女久久久久久| 777xxx欧美| 91成人在线观看喷潮蘑菇| 视频欧美一区| 精品国产三级a在线观看| 无码人妻精品一区二区三| 成人高潮a毛片免费观看网站| 精品久久久久久久久久久久久久久久久 | 日韩专区中文字幕一区二区| 国产精品九九九| 亚洲一级av毛片| 午夜裸体女人视频网站在线观看| 亚洲精品v日韩精品| 国产女主播av| 福利小视频在线| 欧美日韩国产在线看| 无码人妻丰满熟妇区毛片18| 欧美三级精品| 欧美日韩久久久久久| 亚洲成人手机在线观看| 高清日韩欧美| 亚洲网址你懂得| 男人av资源站| 欧美午夜在线| 午夜精品蜜臀一区二区三区免费| 视频一区二区三区四区五区| 免费在线观看一区二区三区| 亚洲一区二区三区sesese| 亚洲男人天堂久久| 91麻豆高清视频| 国产精品无码乱伦| 97蜜桃久久| 欧美日韩中文国产| 男人女人拔萝卜视频| 亚洲欧美成人vr| 精品国产一区二区在线| 日产亚洲一区二区三区| 毛片av一区二区| 国产亚洲欧美一区二区| 91亚洲欧美| 亚洲成人动漫在线观看| 中文字幕免费高清在线| 一区二区三区四区在线看| 久久九九免费视频| av图片在线观看| 国产精品亚洲成人| 日韩精品久久一区| av伦理在线| 欧美精品第一页| 欧美熟妇一区二区| 欧美国产激情| 国产精品一区av| 日本黄色免费视频| **性色生活片久久毛片| 99精品视频在线看| 99精品国产一区二区三区2021| 亚洲性视频网站| 日韩av一二三区| 国产久卡久卡久卡久卡视频精品| 天堂精品视频| 在线中文字幕播放| 亚洲国产毛片完整版| 午夜免费激情视频| 美女免费视频一区二区| 女同一区二区| 亚洲精品日产| 亚洲国产欧美在线成人app| 可以直接看的黄色网址| 蜜臀av性久久久久蜜臀aⅴ| 免费在线一区二区| 国产粉嫩在线观看| 精品盗摄一区二区三区| 免费在线观看一级片| 麻豆精品视频在线观看免费| 欧美亚洲爱爱另类综合| 精品丝袜在线| 亚洲电影av在线| 精品无码人妻一区二区三区品| 国产麻豆视频一区二区| 先锋影音男人资源| 中文字幕日韩亚洲| 日韩亚洲精品视频| 一级黄色片视频| 国产精品美女一区二区三区| 粉嫩虎白女毛片人体| 中文字幕亚洲影视| 国产v综合ⅴ日韩v欧美大片| 精品福利视频导航大全| 色偷偷88欧美精品久久久| 性欧美丰满熟妇xxxx性仙踪林| 亚洲高清在线| 久久亚裔精品欧美| 亚洲欧美小说色综合小说一区| 日韩精品视频免费| 日韩视频在线观看一区| 久久夜色精品国产欧美乱极品| 亚洲欧洲日产国码无码久久99| 日韩av中文字幕一区| 午夜精品视频网站| 欧美日本网站| 在线免费视频一区二区| 91麻豆制片厂| 国产精品亚洲午夜一区二区三区| 成人短视频在线观看免费| 国产精品白丝av嫩草影院| 九九精品在线视频| 天堂在线观看视频| 一道本成人在线| 狂野欧美性猛交| 国产精品一区二区无线| 国产96在线 | 亚洲| 台湾亚洲精品一区二区tv| 国产精品av电影| 麻豆av在线免费看| 精品成人在线观看| 波多野结衣不卡| 亚洲天堂久久久久久久| 亚洲色偷偷色噜噜狠狠99网| 噜噜噜躁狠狠躁狠狠精品视频| 神马影院一区二区| 国产日韩欧美中文在线| 91av在线视频观看| 亚洲1卡2卡3卡4卡乱码精品| 欧美videos中文字幕| 国产又大又粗又爽| 亚洲视频1区2区| 日韩av手机在线播放| 日韩电影在线看| 国产爆乳无码一区二区麻豆| 欧美人妖在线| 成人免费网站在线观看| 中文不卡1区2区3区| 久久亚洲国产精品成人av秋霞| 欧美性猛交 xxxx| 欧美在线制服丝袜| 国产亚洲精品成人| 国产日本一区二区| www日本在线观看| 久久精品亚洲一区二区| 亚洲五码在线观看视频| jlzzjlzz亚洲女人| 国产三区精品| 国产精品视频首页| 国产精品爱啪在线线免费观看| 亚洲丝袜精品| 中国人与牲禽动交精品| 国产1区在线观看| 8v天堂国产在线一区二区| 国产三级av片| 亚洲精品国产高清久久伦理二区| 久久久久久久久久久久久久久| 国产传媒欧美日韩成人| 99视频在线视频| 一区二区三区国产盗摄| 狠狠干视频网站| 欧美综合一区| 欧美xxxx黑人又粗又长密月| japanese色系久久精品| 91免费看片在线| 欧美大片1688网站| 日本人成精品视频在线| caoporn视频在线| 久久中文字幕一区| 伊人在线视频| 在线观看欧美日韩| 欧美一区二区三区少妇| 精品国产91洋老外米糕| 国产露脸91国语对白| 欧美日韩一区二区三区免费看| www.日本精品| 亚洲国产成人va在线观看天堂| 爱爱视频免费在线观看| 国产精品久久久久久久久搜平片| 99久久人妻精品免费二区| 成人免费视频网站在线观看| 亚洲男人天堂2021| 国产在线精品一区二区夜色| 天天综合网日韩| 日本麻豆一区二区三区视频| 国语对白做受xxxxx在线中国| 日韩午夜电影| 国产原创中文在线观看| 亚洲黄色影片| 少妇人妻无码专区视频| 亚洲激情成人| 国产91美女视频| 美女精品网站| 妺妺窝人体色www在线观看| 日韩精品每日更新| 日韩欧美黄色大片| 青草av.久久免费一区| 91人人澡人人爽人人精品| 美腿丝袜亚洲综合| 日韩成人精品视频在线观看| 韩国三级在线一区| 中文字幕在线播放一区二区| 成人一级黄色片| www.色多多| 久久精品视频网| 91麻豆制片厂| 亚洲另类色综合网站| 精品视频一区二区在线观看| 香港成人在线视频| 精品国产xxx| 欧美色网一区二区| 精品欧美在线观看| 亚洲级视频在线观看免费1级| 青青草视频在线观看| 中日韩美女免费视频网址在线观看| 日韩av中文| 欧美日韩成人精品| 国产在线88av| 国产精品美女视频网站| 日韩欧美久久| 欧美一二三四五区| 99久久婷婷| 97超碰人人澡| 喷白浆一区二区| 少妇熟女视频一区二区三区| 91香蕉视频在线| 国产破处视频在线观看| 亚洲午夜三级在线| 日本视频网站在线观看| 777a∨成人精品桃花网| 午夜一区在线观看| 日韩色av导航| 一个人www视频在线免费观看| 国产免费一区二区三区在线观看 | 女人一区二区三区| 亚洲精品99| 欧美日韩在线中文| 国内精品免费在线观看| 我和岳m愉情xxxⅹ视频| 日韩美女视频一区| 中文字幕xxxx| 欧美videos中文字幕| 淫片在线观看| 日本精品免费观看| 亚洲精品一区在线| 亚欧精品在线| 国产亚洲一区在线| 欧美污在线观看| 欧美国产精品中文字幕| 国产精品第九页| 91麻豆精品国产91久久久久久久久| 熟妇人妻av无码一区二区三区 | 国产理论电影在线| 91精品美女在线| 伊人久久大香线蕉| 国产欧美精品aaaaaa片| 三级亚洲高清视频| 女同性恋一区二区三区| 亚洲你懂的在线视频| 波多野结衣黄色网址| 日韩电影中文字幕在线观看| 影音先锋在线视频| 成人黄色生活片| 欧美日一区二区| 男人操女人免费软件| 成人一区二区在线观看| 欧美成人精品欧美一| 欧美日韩精品欧美日韩精品一 | 亚洲精品无amm毛片| 色婷婷av一区二区三区久久| 日韩国产激情| 黄色99视频| 亚洲天堂偷拍| 中文字幕人妻熟女人妻a片| 国产精品不卡视频| 中文av免费观看| 国产一区二区三区网站| 中文字幕在线免费观看视频| www日韩av| 国产精品xvideos88| gogo亚洲国模私拍人体| 亚洲丝袜自拍清纯另类| 国产老妇伦国产熟女老妇视频| 日韩中文字幕精品视频| 久久av影院| 亚洲精品在线观看免费| 男人操女人的视频在线观看欧美| 91成年人网站| 91福利社在线观看| 成人动漫在线播放| 国产精品精品久久久| 成人在线丰满少妇av| 不卡的av中文字幕| 亚洲人成电影网站色mp4| 国产人妖一区二区三区| 久久综合免费视频影院| 国产亚洲字幕| 800av在线免费观看| 成a人片亚洲日本久久| 特级西西444www大精品视频免费看| 国产偷亚洲偷欧美偷精品| 电影网一区二区| 少妇免费毛片久久久久久久久| 蜜桃av一区二区| 国产女片a归国片aa| 精品国产免费人成电影在线观看四季| 欧美黄色视屏| 久久久久高清| 日本亚洲最大的色成网站www| 美女网站视频色| 日韩欧美电影一区| 亚洲电影观看| 中国一区二区三区| 国产suv一区二区三区88区| 圆产精品久久久久久久久久久| 亚洲精品自拍视频| 国产精品久久久久久妇女| 在线国产99| 9i在线看片成人免费| 国产偷人爽久久久久久老妇app| 日韩在线观看免费| 超碰成人在线观看| 免费大片在线观看| 亚洲人精品午夜| 亚洲色偷精品一区二区三区| 国产精品流白浆视频| 欧美片第1页综合| b站大片免费直播| 91精品在线免费观看| 国产极品在线观看| 在线视频91| 99re成人在线| 911美女片黄在线观看游戏| 欧美激情免费视频| 精品久久91| 911亚洲精选| 欧美日韩高清一区二区三区| 国产啊啊啊视频在线观看| 四虎影院一区二区三区| 成人激情av网| 国产原创中文av| 欧美影院久久久| 一本一本久久a久久综合精品| 少妇大叫太粗太大爽一区二区| 欧美一区二区三区视频在线 | 91久久久亚洲精品| 午夜在线精品偷拍|