精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

完全使用「自生成數據」實現LLM自我糾正,DeepMind新突破SCoRe:糾正性能提升15.9%

人工智能
Google DeepMind的SCoRe方法通過在線多輪強化學習,顯著提升了大型語言模型在沒有外部輸入的情況下的自我修正能力。該方法在MATH和HumanEval基準測試中,分別將自我修正性能提高了15.6%和9.1%。

OpenAI最新發布的o1模型再次證明了自我糾正、顯式思考過程在大模型推理中的重要性,思維鏈可以幫助大模型分解復雜問題,利用計算和交互來改進模型在測試時的性能。

不過,最近有多項研究結果表明,大模型在缺乏外部輸入的情況下,基本上無法實現自我糾正,而現有的自我糾正訓練方法要么需要多個模型,要么依賴更強大的模型或其他形式的監督信號。

Google DeepMind的研究人員發布了一種多輪在線強化學習(RL)方法 SCoRe,在完全使用自生成數據(entirely self-generated data)的情況下,顯著提高了LLM的自我糾正能力。

圖片圖片

論文鏈接:https://arxiv.org/pdf/2409.12917

研究人員首先驗證了有監督微調 (SFT) 及其變體得到的離線模型,生成的糾正軌跡(correction traces)不足以把自我糾正能力灌輸(still)給語言模型。

還可以觀察到,通過 SFT 進行的訓練要么會受到訓練數據與模型本身回復之間分布不匹配的影響,要么會傾向于某種在測試時無效的糾正模式。

SCoRe 通過在模型本身的自生成糾正軌跡分布下進行訓練,并使用適當的正則化來引導學習過程,來學習在測試時有效的自我糾正策略,而非簡單地根據給定提示來擬合高獎勵回復,從而解決了前面提到的難題。

圖片圖片

在基本模型上運行強化學習的第一階段進行正則化,防止生成容易崩潰的策略初始化,然后使用額外獎勵來放大訓練期間的自我糾正信號。

在實驗階段,把SCoRe應用于Gemini 1.0 Pro和1.5 Flash模型時,該策略的自我糾正性能最高,在MATH和HumanEval基準上分別將基礎模型的自我糾正性能提高了15.6%和9.1%。

如何把自我糾正能力注入到大模型中?

之前嘗試實現自我糾正的大模型要么依賴于提示工程,要么需要專門針對自我糾正進行微調模型,兩種方法都有缺陷:提示工程無法有效地執行有意義的內在自我糾正,而基于微調的方法需要在推理時運行多個模型,比如需要一個額外的驗證器或優化(refinement)模型,或是一個預言模型(oracle)來指導自我糾正的過程。

研究人員提出的基于強化學習實現自我糾正(SCoRe, Self-Correction via Reinforcement Learning)只需要訓練一個模型,既可以對推理問題產生回復,也可以在沒有接收到任何預言信號(oracle)反饋的情況下糾正錯誤,SCoRe完全在自生成的數據上訓練,而不需要任何預測器來指導模型。

文中首先研究了現有基于微調策略在這種設置中的失敗模式,可以觀察到,在多輪自我糾正軌跡上運行有監督微調,結合拒絕采樣,通常會放大模型的偏見,雖然與基礎模型的自我糾正行為相比有顯著改進,但仍未能達到積極的自我修正率,并且與第一次嘗試相比,第二次嘗試的表現更差。

圖片圖片

通過對訓練過的模型進行探測,研究人員發現這些失敗在很大程度上源于有監督微調放大了基礎模型的初始偏見,導致模型只能對第一次嘗試回復進行微小的編輯變化。

圖片圖片

SCoRe策略

SCoRe通過使用在線多輪強化學習(RL)來解決SFT方法的缺陷,即在自生成的數據上運行多輪RL,以避免訓練和推理之間分布不匹配。

圖片圖片

為了避免在基于策略的數據上訓練時學習最小編輯策略的失敗模式,研究人員分兩個階段訓練SCoRe,每個階段都通過正則化學習過程來防止行為崩潰(collapse its behavior)。

第一階段

SCoRe第一階段的目標是通過提高基礎模型對第二次嘗試回復的覆蓋范圍,從而獲得良好的模型初始化,以便后續的自我糾正訓練不易受到STaR/SFT崩潰的影響。

由于SFT訓練模型僅依賴于一種修正行為模式,因此SFT初始化不會生成有信息量和探索性的學習軌跡,所以研究人員不使用SFT來初始化RL訓練,而是開發第一階段來產生一個不易崩潰的單獨初始化。

為此,需要明確地對基礎模型進行微調,以在第二次嘗試時產生高獎勵的糾正信號,同時通過使用KL散度將第一次嘗試的回復分布約束得盡可能接近基礎模型,限制模型不會改變第一次嘗試回復的內容。

雖然這個策略看起來是次優的,但第一階段的主要目標是減少基礎模型簡單地耦合第一次和第二次嘗試分布的偏見,防止在實際運行多輪RL時陷入局部最優,優化目標為:

圖片

第二階段

運行多輪強化學習來優化兩次嘗試的獎勵,同時使用一個額外獎勵項(reward bonus term)來激勵模型以改進回復。初始化和額外獎勵都可以確保模型不只是簡單地學會在第一次生成的時候模仿最佳回復內容,然后再進行一些微小的文本編輯。

圖片

從效果來看,SCoRe能夠從基礎模型中引出知識,以實現積極的自我修正。

實驗評估

研究人員的目標是證明SCoRe在通過訓練自身生成的數據可以有效地教導大型語言模型來糾正自己的錯誤,并深入分析SCoRe的每個組成部分對于這種能力的貢獻。

任務

主要關注數學和編程任務:MATH數據集上的數學問題,以及MBPP和HumanEval上的代碼生成任務。

評估協議和指標

研究人員主要報告了自我糾正的準確性,有兩次連續的問題嘗試,即一輪自我糾正。

對于MBPP的評估協議,文中報告了MBPP-R的結果。MBPP-R是一個離線修復任務,需要修正PaLM 2生成的錯誤的第一次嘗試程序。

模型

MBPP上的所有實驗使用微調Gemini 1.0 Pro;MATH的實驗微調Gemini 1.5 Flash

對于所有評估結果,使用貪婪解碼(即溫度0)的推理計算擴展,將溫度設置為0.7

對于每個訓練方法,使用固定的模型樣本和梯度更新budget,在運行期間不改變學習率和批量大小等超參數;在強化學習時,選擇訓練獎勵最高的檢查點。

評估提示

在MATH上使用零樣本CoT提示進行評估,在HumanEval上使用零樣本提示進行評估,并在MBPP上使用三樣本提示進行第一次嘗試訓練樣本;

圖片圖片

在第二次嘗試時,使用一個不透露之前答案正確性的指令,要求模型嘗試推斷其第一次嘗試回復中是否存在錯誤,如果存在錯誤,需要重寫回復。

對比基線

基于提示的方法Self-Refine;基于微調的方法Pair-SFT及多輪STaR,通過最小化合成配對糾正軌跡和成功糾正軌跡上的負對數似然來微調模型。

基準結果

MATH

實驗結果顯示,SCoRe在直接和自我糾正準確率方面都表現出顯著更強的性能。

圖片

圖片

值得注意的是,內在自我糾正增益Δ(t1, t2)為4.4%,是第一個顯著為正的增量,并且準確率Accuracy@t1更高,所以需要修正的錯誤問題更少。

與基礎1.5 Flash模型相比,SCoRe將Δ(t1, t2)提高了15.6%,將Accuracy@t2提高了23.0%,比最接近的基線Pair-SFT分別提高了10.2%和2.6%

通過觀察問題從第一次嘗試不正確變為第二次嘗試正確的頻率,可以看到SCoRe提高了修正錯誤答案的比率(14.5% vs 基礎模型9.5%),并減少了改變正確答案的比例。

代碼生成

研究人員發現SCoRe不僅實現了更高的自我糾正性能,而且還具有強大的離線修復性能。

對于MBPP-R,發現SCoRe將基礎模型的準確率從47.3%提高到60.6%,與GPT-3.5到GPT-4之間的差距相當(分別為42.9%和63.2%)。

雖然模型僅在MBPP上進行訓練,仍然可以觀察到SCoRe有效地泛化到了HumanEval基準,實現了12.2%的內在自我糾正增量,比基礎模型高出9%

相比之下,Pair-SFT在靜態糾正任務MBPP-R上的表現幾乎和SCoRe一樣好,但在自我糾正設置評估時實際上降低了基礎模型的性能,證明了自我糾正中基于策略采樣的重要性。

參考資料:https://x.com/_philschmid/status/1837121100196594084

責任編輯:武曉燕 來源: 新智元
相關推薦

2025-03-03 09:00:00

2021-12-17 10:09:47

編碼器語言模型DeepMind

2023-10-22 14:21:21

模型LLM數據

2023-11-27 13:19:54

模型訓練

2025-10-09 00:00:00

Neo4jLLMs結構化

2010-07-27 11:19:18

Flex

2022-08-05 23:19:33

人工智能機器學習3D打印機

2025-07-15 08:50:00

AI模型訓練

2025-10-17 09:00:00

AI模型代碼

2024-09-18 09:50:00

大模型AI

2023-06-12 12:21:27

研究框架

2025-05-30 10:50:27

2024-02-02 17:04:35

UCLALLMGPT-4

2023-07-04 14:01:26

GPT-4模型

2009-11-24 20:04:36

PHP常見錯誤

2024-11-28 13:40:00

模型訓練

2024-09-05 11:26:08

人工智能

2022-12-29 08:17:57

AIAI人工標注ChatGPT

2015-07-28 15:47:55

2025-03-24 09:35:00

點贊
收藏

51CTO技術棧公眾號

中文字幕在线看高清电影| 国内自拍中文字幕| 无码人妻丰满熟妇区bbbbxxxx| 久久99蜜桃| 91精品国产麻豆| 国产精品久久中文字幕| 91在线直播| 成人精品电影在线观看| 国产999视频| 91视频免费在线看| 国产99亚洲| 精品国精品国产| 热久久精品免费视频| 日本乱理伦在线| 中文av一区二区| 精品国产乱码久久久久久88av| 五月天中文字幕| 亚洲精品欧美| 欧美成人精品影院| 国产123在线| 国内露脸中年夫妇交换精品| 欧美老人xxxx18| 免费黄色特级片| 888av在线视频| 亚洲男同性视频| 亚洲精品久久区二区三区蜜桃臀 | 亚洲www.| 亚洲狠狠爱一区二区三区| 亚洲国产精品一区二区第一页| 无码精品黑人一区二区三区| 精品系列免费在线观看| 国产大片精品免费永久看nba| 精品少妇久久久| 亚洲精品一区二区妖精| 亚洲图片在线综合| 国产一级黄色录像| 视频免费一区二区| 欧美日韩一区二区三区视频| 人妻有码中文字幕| 9765激情中文在线| 亚洲国产成人av| 可以在线看黄的网站| 欧美69xxxx| 中文幕一区二区三区久久蜜桃| 欧美精品欧美精品| 四虎精品成人免费网站| 成人ar影院免费观看视频| 亚洲在线免费看| 国产成人三级在线播放| 免费成人av在线| 国产精欧美一区二区三区| 亚洲天堂av片| 久久久水蜜桃av免费网站| 91精品国产沙发| 国产精品100| 午夜一区不卡| 日本aⅴ大伊香蕉精品视频| 在线观看国产亚洲| 麻豆成人在线| 国产精品第一视频| 国产又粗又黄又爽视频| 国产一区二区三区在线看麻豆| 成人欧美一区二区三区黑人孕妇 | 日韩av在线不卡| 精品无码在线视频| 亚洲成aⅴ人片久久青草影院| 亚洲国产成人av在线| 国产精品久久无码| 欧美欧美黄在线二区| 亚洲一级片在线看| 久草福利资源在线| 欧美激情四色| 97视频在线观看成人| 丁香六月婷婷综合| 日韩av高清在线观看| 国产一区二区丝袜| 国产99久一区二区三区a片 | 免费看黄色的视频| 欧美成人激情| 欧美精品久久久久| 波多野结衣啪啪| 久久se精品一区二区| 亚洲自拍另类欧美丝袜| 亚洲精品一区二区三区四区| 久久综合av免费| 亚洲国产精品毛片| 欧美bbbxxxxx| 欧洲在线/亚洲| 波多野结衣网页| 日韩欧美美女在线观看| 中文字幕亚洲专区| 国产无遮挡免费视频| 日本欧美加勒比视频| 99久久99久久精品国产片| 无码精品人妻一区二区三区影院| 久久精品欧美一区二区三区麻豆 | 精品成人无码一区二区三区| 天天射成人网| 97国产精品视频| 91亚洲国产成人精品一区| 成人黄色国产精品网站大全在线免费观看| 日本一区二区三区四区在线观看 | 久久亚洲AV成人无码国产野外| 日本欧美肥老太交大片| 午夜精品福利在线观看| 夜夜躁很很躁日日躁麻豆| aaa亚洲精品一二三区| 一本色道婷婷久久欧美| 亚洲私拍视频| 精品免费日韩av| 国产白丝一区二区三区| 夜夜精品视频| 亚洲精品女av网站| www黄在线观看| 偷拍一区二区三区| 国产精品熟女一区二区不卡| 欧美综合另类| 欧美最猛性xxxxx亚洲精品| 国产激情视频在线播放| 国产精品免费丝袜| 亚洲精品一二三四五区| 欧美成人午夜77777| 久久99久久久久久久噜噜| 一区二区三区播放| 久久九九久久九九| 北条麻妃在线视频观看| 91成人噜噜噜在线播放| 久久深夜福利免费观看| 中文字幕1区2区3区| 99精品在线观看视频| 黄色成人在线免费观看| 99精品国产九九国产精品| 国产亚洲精品美女久久久久| 欧美h在线观看| 99久久er热在这里只有精品15| 免费的一级黄色片| 亚洲图色一区二区三区| 久久亚洲精品成人| 国产精品毛片一区二区在线看舒淇 | 黄免费在线观看| 免费日韩精品中文字幕视频在线| 国产精品一区二区不卡视频| 久久不射影院| 欧美不卡一区二区三区四区| 国产女片a归国片aa| 国产在线精品一区二区不卡了| 一区二区av| 2019中文亚洲字幕| 久久亚洲精品成人| 精品黑人一区二区三区在线观看| 亚洲精品五月天| 免费观看黄网站| 国产精品多人| 国产一区二区三区高清视频| 黄毛片在线观看| 亚洲码在线观看| 最好看的日本字幕mv视频大全| 中文字幕乱码日本亚洲一区二区| 性生活免费在线观看| 91麻豆国产自产在线观看亚洲| 91精品久久久久久久久久另类 | 日韩精品免费一区二区三区| 国产女同一区二区| 成人日日夜夜| 亚洲国产日韩精品在线| 五月婷婷视频在线| 中文字幕欧美区| 亚洲精品永久视频| 亚洲午夜激情在线| 免费久久一级欧美特大黄| 神马电影网我不卡| www.欧美免费| 亚洲免费成人网| 欧美性猛交xxxx黑人| 免费网站在线高清观看| 国产一区二区三区免费在线观看| 毛片av在线播放| 免费久久精品| 91久久精品一区| 182在线视频观看| 亚洲性生活视频| 国产wwwwwww| 欧美日韩在线另类| www.av免费| 成人免费的视频| 亚洲xxxx2d动漫1| 欧美区亚洲区| 日本在线高清视频一区| 97久久中文字幕| 人人爽久久涩噜噜噜网站| 欧美激情办公室videoshd| 亚洲第一福利网站| 亚洲午夜无码久久久久| 一区二区三区成人在线视频| 男女黄床上色视频| 国产在线精品视频| 欧美一级片中文字幕| 欧美成人日韩| 水蜜桃亚洲一二三四在线| 大桥未久女教师av一区二区| 国产精品美乳一区二区免费| 欧美日韩经典丝袜| 在线看欧美日韩| 香蕉视频成人在线| 欧美一级片免费看| 久久久999久久久| 精品久久久久久久久久久久| 日韩高清dvd碟片| 国产色产综合色产在线视频| 蜜桃色一区二区三区| 蜜桃一区二区三区在线观看| 欧美 国产 综合| 欧美 日韩 国产 一区| 日韩中文字幕一区二区| 欧美人体视频| 国产不卡一区二区在线观看| 欧美成人福利| 国产精品av免费在线观看| free性m.freesex欧美| 久久成人人人人精品欧| 午夜老司机在线观看| 国产午夜精品理论片a级探花| 亚洲精品成人区在线观看| 在线不卡欧美精品一区二区三区| 台湾佬中文在线| 精品久久久久久中文字幕大豆网| 少妇影院在线观看| 一区精品在线播放| 人妻无码一区二区三区免费| 久久久精品国产免大香伊| 中文字幕久久久久久久| 国产一区日韩二区欧美三区| 九九热99视频| 轻轻草成人在线| 国产一线二线三线在线观看| 老妇喷水一区二区三区| 国产毛片视频网站| 夜久久久久久| 日批视频在线免费看| 亚洲一级在线| 欧美性大战久久久久xxx | 奇米色欧美一区二区三区| 国模精品一区二区三区| 欧美日韩直播| 蜜桃传媒视频麻豆第一区免费观看 | 欧美在线一二三区| 夜夜春成人影院| 青青草原成人| 成人精品电影| 一区二区91美女张开腿让人桶| 欧美独立站高清久久| 亚洲精品第一区二区三区| 偷拍欧美精品| 免费的av在线| 亚洲精品影院在线观看| 亚洲欧洲日产国码无码久久99| 一区二区久久| 熟妇人妻va精品中文字幕| 日本亚洲一区二区| 三级一区二区三区| 国产成人av电影免费在线观看| 26uuu国产| 99久久久久久| 中文字幕伦理片| 亚洲人精品午夜| 国产网站在线看| 色综合天天性综合| 伊人精品一区二区三区| 日韩一区二区电影网| 视频一区 中文字幕| 亚洲精品久久视频| 成人精品福利| 久久99精品国产99久久6尤物| 麻豆蜜桃在线观看| 国产精品自拍网| 综合激情网...| 青青草久久网络| 欧美91精品| 成人观看免费完整观看| 精品一区二区三区视频在线观看 | 亚洲va久久| av动漫免费观看| 亚洲第一黄网| 天天操天天爽天天射| 国产精一品亚洲二区在线视频| 亚洲欧美日韩偷拍| 国产精品国产三级国产三级人妇| 欧美成人免费看| 色www精品视频在线观看| 国产偷人妻精品一区二区在线| 亚洲韩国青草视频| 欧美日韩xx| 欧美做爰性生交视频| 日韩综合一区二区三区| 日本高清一区| 在线观看日韩av电影| 色播五月综合网| 91影院在线免费观看| www深夜成人a√在线| 欧美日韩在线看| www.五月天激情| 一区二区三区天堂av| 国产精品探花在线| 国产有码一区二区| 免费看成人哺乳视频网站| 糖心vlog在线免费观看| 日韩精彩视频在线观看| 99re这里只有| 亚洲精品欧美二区三区中文字幕| 制服.丝袜.亚洲.中文.综合懂色| 制服丝袜成人动漫| 91ph在线| 日韩av片免费在线观看| 国产欧美啪啪| av动漫在线免费观看| 麻豆国产精品777777在线| 免费黄色在线视频| 亚洲6080在线| 精品人妻一区二区三区三区四区| 在线播放国产一区二区三区| 天堂8中文在线最新版在线| 97超碰人人看人人| 国产精品99一区二区三区| 国产精品天天av精麻传媒| 久久蜜桃av一区精品变态类天堂| 久久久久久久福利| 日韩欧美一区二区三区在线| 欧美成人xxx| 国产欧美日韩丝袜精品一区| 精品黄色一级片| 成人精品视频一区二区| 久久精品亚洲乱码伦伦中文 | 免费在线中文字幕| 91色p视频在线| 午夜久久免费观看| 奇米视频7777| 国产精品不卡在线| 91影院在线播放| 久久精品亚洲一区| 白嫩亚洲一区二区三区| 椎名由奈jux491在线播放| 久久成人免费网| 神马久久精品综合| 91精品国产综合久久福利| 黄网站在线播放| 18成人免费观看网站下载| 欧美欧美全黄| 国产高潮视频在线观看| 亚洲网友自拍偷拍| 少妇高潮一区二区三区69| 555www成人网| 精品国产一区二区三区噜噜噜| 亚洲福利精品视频| 中文字幕亚洲欧美在线不卡| 国产美女精品视频国产| 欧美成人免费小视频| 18国产精品| jizzjizz国产精品喷水| 久久久久久日产精品| 中文字幕日韩第一页| 日韩视频免费在线观看| 麻豆一二三区精品蜜桃| 精品人妻人人做人人爽| a级高清视频欧美日韩| 久久久久久无码精品大片| 自拍偷拍亚洲在线| 免费一区二区三区在线视频| 91黄色在线看| 久久亚洲二区三区| 一区精品在线观看| 欧美精品激情blacked18| 欧美精品momsxxx| 日本高清一区二区视频| 亚洲一区在线视频| 激情视频在线观看免费| 91美女高潮出水| 国产亚洲精品bv在线观看| 成人在线观看免费高清| 日韩亚洲电影在线| 不卡福利视频| 欧美日韩一区二区三区电影| 成人免费视频播放| 中文字幕av影视| 欧美激情视频在线| 精品大片一区二区| 日本黄色www| 在线视频一区二区免费| 福利在线视频网站| 久久视频在线观看中文字幕| 精品一区二区三区欧美| 日韩免费一级片| 日韩资源在线观看| 欧美日韩一本| 免费看的av网站| 欧美性生活一区| 国产高潮在线| 欧洲金发美女大战黑人| 国产亚洲1区2区3区| 性一交一乱一透一a级| 国产精品激情自拍|