精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

強化學習讓大模型自動糾錯,數學、編程性能暴漲,DeepMind新作

人工智能 新聞
無需依賴外部反饋或額外模型,純純的自我糾正。

自我糾正(Self-correction)是大語言模型 (LLM) 非常重要的能力,但人們發現這種能力在現代 LLM 中基本上很少存在?,F有的訓練自我糾正的方法要么需要多個模型,要么依賴于更強大的模型或其他形式的監督。

我們如何才能讓 LLM 具備自我糾正能力?之前的研究要么依賴于提示工程,要么依賴于專門用于自我糾正的微調模型。但前者通常無法有效地進行有意義的內在自我糾正,而后者基于微調的方法需要在推理時運行多個模型,例如需要 oracle「教師」來監督指導自我糾正過程。

在最近提交的一篇論文中,來自 Google DeepMind 的研究者開發了一種無需上述任何要求即可有效進行自我糾正的方法,即通過強化學習進行自我糾正(SCoRe,Self-Correction via Reinforcement Learning),只需訓練一個模型,該模型既可以對推理問題做出響應,也可以糾正錯誤,盡管沒有收到任何 oracle 反饋。更重要的是,SCoRe 完全通過在自生成數據上進行訓練來教模型具備這種能力,而無需任何 oracle。

  • 論文標題:Training Language Models to Self-Correct via Reinforcement Learning
  • 論文地址:https://arxiv.org/pdf/2409.12917

本文主要貢獻在于提出了一種多輪強化學習方法 ——SCoRe,用于教 LLM 如何糾正自己的錯誤。相對于基礎 Gemini 模型,SCoRe 在 MATH 推理問題的自我糾正方面獲得了 15.6% 的增益,在 HumanEval 編碼問題上獲得了 9.1% 的增益。

SCoRe 原理介紹

為了教 LLM 進行自我糾正,SCoRe 將標準單輪強化學習(公式 2)擴展到 Zhou 等人提出的分層框架下的多輪設置。

圖片

不過這樣做面臨諸多挑戰。首先,優化公式 1 解決了分布偏移問題,但尚不清楚它是否也能滿足要求 [D2]。

圖片

這里的 [D2] 如下圖所示,圖中展示了 SFT 方法失敗的兩個原因。而有效的解決方案必須滿足兩個要求:[D1] 模型應該直接在自生成軌跡上進行訓練,以緩解 SFT 的分布不匹配(圖 4),[D2] 所采用的自生成軌跡應防止在學習過程中因進行微小編輯而崩潰。

作者開發了一種在線 RL 方法,通過仔細的初始化和獎勵塑造來解決這些挑戰。

圖片

圖片

其次用于微調的基礎模型初始化在編輯距離上呈現出高度傾斜的分布(圖 3a),這使得它們容易受到模式崩潰的影響,這是深度強化學習中一個常見的問題。即使基礎模型可以在自我校正過程中產生編輯距離比傾斜度較小的分布,但仍然需要強化學習訓練過程從訓練數據中學習一種可以推廣到測試提示的自我校正策略。

圖片

SCoRe 旨在解決上述關鍵挑戰,其分為兩個階段,這兩個階段都是通過適當初始化模型和控制后續 RL 使模型偏向學習自我糾正。

具體而言,這兩個階段包括:

階段 I:訓練模型初始化以防止崩潰

SCoRe 第一階段的目標是通過提高基礎模型對第二次嘗試響應的覆蓋率來獲得良好的模型初始化,以便后續自我糾正訓練不會出現 STaR/SFT 中觀察到的崩潰現象。

為了達到此目的,該研究不采用 SFT 來初始化 RL 訓練,而是開發了第一階段來產生不易崩潰的單獨初始化。

作者微調基礎模型,以便在第二次嘗試時產生高獎勵修正,同時通過使用 KL 散度將第一次嘗試的響應分布限制為盡可能接近基礎模型的響應分布,從而強制模型不改變其第一次嘗試的響應。雖然這看起來不是最優的 —— 但第一次嘗試的響應錯誤較少,可以糾正為更好的第二次嘗試響應。優化的目標可以表示為:

圖片

其中 ??_2 是一個超參數,旨在僅在第一次嘗試時強制執行嚴格的 KL 懲罰,以避免第一輪響應發生偏移(用藍色項表示)。請注意,作者仍然使用公式 2 中的默認 KL 散度懲罰,但該懲罰的權重要小得多,并且為了簡潔起見,公式 3 中省略了它。事實上,與簡單的多輪 RL 不同,階段 I 在分離兩個響應方面更有效(圖 5b)。

圖片

階段 II:帶有獎勵的多輪強化學習

借助第一階段的模型初始化,該模型在耦合兩個響應時表現出更小的偏差,SCoRe 的第二階段現在可以訓練兩次嘗試的響應,并根據公式 1 優化獎勵。當然,作者還希望確保在此過程中不會降低第一次嘗試的響應。因此,對于兩輪自我糾正問題,作者針對以下目標訓練策略 ??_??(?∣?):

圖片

圖 6 為階段 I、階段 II 流程說明??梢钥闯?SCoRe 以交錯方式應用階段 I 和 II 進行多次迭代。

圖片

圖片

實驗評估

該研究進行了一系列實驗,來驗證 SCoRe 在教 LLM 具備自我糾正能力方面的有效性,并通過消融實驗探索了 SCoRe 的每個組件的影響。

該研究主要關注數學和編碼任務,使用以下基準來評估方法的有效性:

  • MATH;
  • MBPP 和 HumanEval。

幾種方法在 MATH 基準上的實驗評估結果如下表 3 所示:

圖片

在代碼生成方面,實驗結果如下表 4 所示:

圖片

消融研究

為了探究以下幾個問題,該研究進行了消融實驗:

  • 多輪訓練的重要性
  • 多階段訓練的重要性
  • 獎勵函數設計(reward shaping)的影響
  • on-policy 強化學習的重要性

消融實驗結果如下表 5 所示:

圖片

感興趣的讀者可以閱讀論文原文,了解更多研究內容。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-09-21 10:29:01

AI模型

2023-08-28 06:52:29

2025-06-23 09:09:00

2025-10-11 09:23:28

RLPT強化學習預訓練數據

2022-07-24 19:24:32

機器學習預訓練模型機器人

2024-12-06 09:00:00

2022-11-02 14:02:02

強化學習訓練

2025-07-09 01:22:00

AI強化學習監督學習

2023-12-25 09:23:07

模型技術

2025-10-14 08:59:00

2025-06-09 09:32:35

2025-10-30 09:13:55

2021-09-10 16:31:56

人工智能機器學習技術

2020-02-21 15:33:44

人工智能機器學習技術

2021-12-09 15:27:46

模型人工智能深度學習

2025-11-10 08:46:00

AI模型訓練

2023-05-05 13:11:16

2021-06-25 15:36:37

框架AI開發

2023-07-21 14:58:05

智能開發

2022-10-08 09:53:17

AI算法
點贊
收藏

51CTO技術棧公眾號

亚洲精品国产首次亮相| 麻豆蜜桃在线观看| 国产精品538一区二区在线| 欧美福利视频网站| 无码人妻精品一区二区三区温州 | 97se亚洲国产综合自在线 | 午夜毛片在线观看| 日韩精品久久久久久久电影99爱| 欧美一级二级三级蜜桃| 国产乱子伦农村叉叉叉| 香蕉视频国产在线观看| 国产成人精品三级| 国产激情久久久| 国产小视频在线看| 日韩高清欧美| 日韩大陆欧美高清视频区| 中文字幕有码av| 7777kkk亚洲综合欧美网站| 欧美国产日韩a欧美在线观看| 成人3d动漫一区二区三区91| 亚洲av无码精品一区二区| 中文字幕亚洲精品乱码| 国产一区二区三区视频在线观看 | 精品国产麻豆| 在线精品视频小说1| 性高湖久久久久久久久aaaaa| 成人午夜影视| 91网上在线视频| 国产精品国产三级国产专区53 | 日韩西西人体444www| 欧美性猛交久久久乱大交小说| 色噜噜狠狠狠综合欧洲色8| 国产亚洲一区二区三区在线观看| 成人自拍爱视频| 国产精品视频久久久久久| 久久国产主播| 7m精品福利视频导航| 青青草手机视频在线观看| 色综合色综合| 在线观看日韩欧美| 91视频在线网站| 欧美亚视频在线中文字幕免费| 日韩一区二区三区在线观看| 天堂在线中文在线| 国产成人精品一区二区三区在线 | 久久视频在线观看免费| www.日本高清视频| 成人中文在线| 在线国产精品播放| 国产精品理论在线| 欧美亚洲在线日韩| 亚洲欧洲国产精品| 丝袜美腿中文字幕| 色综合综合色| 亚洲欧美制服第一页| 午夜av免费看| 日韩人体视频| 亚洲精选一区二区| 亚洲av无码一区二区三区人 | 日韩精品人妻中文字幕| 欧美午夜在线| 午夜精品在线视频| 国产尤物在线视频| 日韩专区在线视频| 国产精品欧美在线| 国产精品伊人久久| 国产美女视频一区| 大波视频国产精品久久| 韩国中文字幕hd久久精品| 成人91在线观看| 免费国产在线精品一区二区三区| 免费资源在线观看| 中文一区二区在线观看| 亚洲一区bb| 亚洲91av| 狠狠久久五月精品中文字幕| 白嫩少妇丰满一区二区| 久草综合在线| 日韩精品一区二区三区视频在线观看| 手机免费看av片| 亚洲免费专区| 色噜噜亚洲精品中文字幕| 手机在线免费看片| 亚洲精选91| 国产精品av电影| 国产超碰人人模人人爽人人添| 国产91精品久久久久久久网曝门 | 欧美一级电影免费在线观看| 波多野结衣 久久| 捆绑紧缚一区二区三区视频| 亚洲一区二区日本| 婷婷婷国产在线视频| 国产三级精品视频| 国产 欧美 日本| 久久毛片亚洲| 欧美成人综合网站| 国产特级黄色录像| 欧美日韩一区自拍| 国产成人短视频| 99国产在线播放| 久久久99精品免费观看| 日本三级中文字幕在线观看| 麻豆成全视频免费观看在线看| 欧美三级在线播放| 喷水视频在线观看| 久久在线电影| 欧美一区二粉嫩精品国产一线天| 在线观看亚洲国产| eeuss鲁片一区二区三区在线观看| 五月天久久综合网| 九色porny丨首页入口在线| 欧美日韩第一区日日骚| 欧美深性狂猛ⅹxxx深喉| 欧美国产偷国产精品三区| 性金发美女69hd大尺寸| 国产精品久久无码一三区| 26uuu色噜噜精品一区二区| 欧美性视频在线播放| 亚洲欧洲日本韩国| 精品久久久久久久久久久久包黑料| 女~淫辱の触手3d动漫| 欧美特黄一级| 成人欧美一区二区三区在线| 久久手机免费观看| 亚洲国产精品久久久久婷婷884| 中文字幕第38页| 婷婷综合成人| 午夜精品蜜臀一区二区三区免费| 国产精品无码天天爽视频| 久久久99精品久久| 无码人妻h动漫| 国产精品qvod| 欧美疯狂做受xxxx高潮| 国产日产亚洲系列最新| 中文字幕中文乱码欧美一区二区| 日韩 欧美 高清| 日本国产精品| 98精品国产自产在线观看 | 国产偷亚洲偷欧美偷精品| 久久久久久久久艹| 国产精品综合视频| 天天综合五月天| 亚洲综合资源| 久久人人爽亚洲精品天堂| 在线播放精品视频| 日本一区二区三区视频视频| 日韩黄色片视频| 任你弄精品视频免费观看| 午夜精品久久久99热福利| 欧美亚洲精品在线观看| 亚洲午夜精品一区二区三区他趣| 精品人妻人人做人人爽夜夜爽| 亚洲在线久久| 91青青草免费观看| 日本在线视频网址| 欧美精品一区二区三| 久一视频在线观看| 91丨九色丨蝌蚪丨老版| 日韩欧美亚洲天堂| 美女毛片一区二区三区四区| 日本久久久久久久久久久| 韩日视频在线| 欧美日韩一区成人| 五月天色婷婷丁香| 国产99久久久久久免费看农村| 韩国无码av片在线观看网站| 2020最新国产精品| 欧美主播福利视频| 成人av一区| 欧美精品高清视频| 免费在线看黄网址| 99久久久久久99| 色诱视频在线观看| 久久在线视频| 国产v亚洲v天堂无码| 1234区中文字幕在线观看| 精品视频—区二区三区免费| 无码免费一区二区三区| 国产精品美女久久久久久久久久久 | 亚洲aⅴ日韩av电影在线观看| h网站久久久| 亚洲成人网在线| 免费观看日批视频| 亚洲免费伊人电影| 亚洲午夜久久久久久久久红桃| 美女视频黄频大全不卡视频在线播放 | 在线观看免费污视频| 午夜精品剧场| 日本一区二区三区在线视频| av日韩一区| 456亚洲影院| 色影院视频在线| 亚洲精品国产精品国自产在线 | 国产欧美另类| 一区在线电影| 日韩理论电影中文字幕| 国产在线久久久| 97在线超碰| 神马国产精品影院av| 欧美一区二不卡视频| 欧美体内she精视频| 国产一级片播放| 欧美高清在线视频| 天天躁日日躁狠狠躁免费麻豆| 免费高清在线视频一区·| 免费在线观看视频a| 日本一区二区在线看| 国产欧美一区二区在线播放| 色999久久久精品人人澡69| 91a在线视频| 菠萝菠萝蜜在线观看| 亚洲天堂影视av| 女人18毛片水真多18精品| 欧美图片一区二区三区| 日本黄色片视频| 亚洲欧洲综合另类| 黄色片网站免费| 91在线观看地址| 日本wwwwwww| 精品一区二区三区免费毛片爱| 精品一区二区中文字幕| 欧美精品自拍| 亚洲第一精品区| 欧美日韩一区二区综合| 久99久在线| www.丝袜精品| 91一区二区三区| 91精品麻豆| 国产精自产拍久久久久久| 欧美成人影院| 欧美最顶级的aⅴ艳星| wwww亚洲| 久久久久免费精品国产| 婷婷色在线资源| 久久综合网hezyo| 永久免费av片在线观看全网站| 亚洲一级一级97网| 人人九九精品| 亚洲欧美日韩久久久久久| 特黄视频在线观看| 亚洲国产精品成人av| 亚洲精选一区二区三区| 日韩精品一区二区三区swag| a天堂视频在线| 日韩精品中文字幕一区| 国模无码一区二区三区| 亚洲第一区在线| 手机看片1024日韩| 日韩大片在线观看视频| 日本国产在线| 亚洲视屏在线播放| 日本在线免费网| 乱亲女秽乱长久久久| 91在线中文| 九九久久综合网站| 91福利在线免费| 欧美亚州一区二区三区| 一区二区三区短视频| 国产ts一区二区| 99久久久国产精品免费调教网站| 国产精品久久久久久久久久小说 | 国产亚洲永久域名| 久久久噜噜噜www成人网| 久久国产88| 成人午夜激情av| 国产在线观看免费一区| 日韩av成人网| 2021国产精品久久精品| 免费成人深夜天涯网站| 中文字幕一区二区三区在线播放| 日本高清一二三区| 五月天激情综合| 国产精品无码一区| 欧美一区二区在线免费播放| 精品国产乱码久久久久久蜜臀网站| 日韩精品中文字幕一区 | 日韩一区av在线| av毛片在线免费| 97超级碰在线看视频免费在线看| 欧美日韩视频免费观看| 91精品免费视频| 女同一区二区三区| 亚洲国产欧洲综合997久久| 午夜精品影院| 日本熟妇人妻中出| 国产精品69毛片高清亚洲| 极品粉嫩小仙女高潮喷水久久| www久久精品| 国产日产在线观看| 樱桃视频在线观看一区| 六月丁香激情综合| 91.麻豆视频| 日韩大片b站免费观看直播| 综合网中文字幕| 爱啪视频在线观看视频免费| 国产精品久久视频| 伦理一区二区| 亚洲国产精品女人| 久久精品成人| 国产成人av免费观看| 国产丝袜美腿一区二区三区| 国产高清在线免费观看| 在线一区二区视频| 免费激情视频网站| 日韩一二三在线视频播| 自拍视频在线看| 成人免费看片网址| 久久免费av| av动漫在线观看| 成人国产精品视频| 久久免费看少妇高潮v片特黄| 狠狠躁夜夜躁人人爽超碰91| 国产特级黄色片| 中文字幕在线精品| 亚洲精品mv| 粉嫩av免费一区二区三区| 欧美a级片视频| 久久精品网站视频| 26uuu成人网一区二区三区| 欧美爱爱小视频| 欧美久久久久久久久| 国产露出视频在线观看| 88国产精品欧美一区二区三区| 精品一级视频| 在线免费观看成人网| 玖玖精品视频| 一区二区不卡免费视频| 亚洲国产精品久久久久婷婷884| 国产手机av在线| 久久精品一本久久99精品| 成人软件在线观看| 欧美 日韩 国产在线| 99在线|亚洲一区二区| 韩国黄色一级片| 伊人性伊人情综合网| 国产免费黄色录像| 久久久精品在线观看| 青青在线精品| 在线一区高清| 久久99日本精品| 999久久久国产| 欧美精品乱码久久久久久按摩| 超碰免费在线观看| 国产欧美久久久久久| 日本黄色精品| 色噜噜狠狠永久免费| 国产精品美日韩| 国产精品一区二区免费视频| 久久成人精品视频| 视频欧美一区| 少妇人妻无码专区视频| 99精品欧美一区二区蜜桃免费| 亚洲 欧美 日韩 综合| 亚洲精品成人久久| 超碰一区二区| 日韩高清国产一区在线观看| 三级欧美在线一区| 18啪啪污污免费网站| 欧美精品九九99久久| 色av手机在线| 狠狠色噜噜狠狠狠狠色吗综合| 在线亚洲成人| 熟女少妇内射日韩亚洲| 欧美系列日韩一区| 国产在线高潮| 国产精成人品localhost| 中日韩男男gay无套| xxxx日本免费| 欧美日韩午夜在线| h片在线免费| 久久久www免费人成黑人精品| 日韩国产高清影视| 国产色无码精品视频国产| 亚洲成人av片| 国产v综合v| 欧美国产视频一区| 91麻豆6部合集magnet| 依依成人在线视频| 久久久久久久久久久免费精品| 青青视频一区二区| 色一情一区二区| 亚欧色一区w666天堂| 91最新在线| 成人xxxxx色| 美女精品在线| 黄色a级片在线观看| 日韩精品久久久久久福利| 九九久久国产| 国精产品一区一区三区视频| 欧美激情一区二区三区在线| www.热久久| 国产精品美女www爽爽爽视频| 欧美激情1区| 性欧美一区二区| 精品欧美一区二区在线观看| 亚州一区二区三区| 800av在线免费观看| 国产欧美一区二区在线| 可以免费观看的毛片| 国产精品久久色|