精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型訓(xùn)練新突破!“不對稱”訓(xùn)練讓AI學(xué)會自我反思,推理零開銷

人工智能 新聞
在訓(xùn)練時讓模型對自己的輸出結(jié)果進(jìn)行反思和評估,推理時卻僅輸出答案,將反思能力完全內(nèi)化。

首次實現(xiàn)“訓(xùn)練-推理不對稱”,字節(jié)團(tuán)隊提出全新的語言模型訓(xùn)練方法:Post-Completion Learning (PCL)。

在訓(xùn)練時讓模型對自己的輸出結(jié)果進(jìn)行反思和評估,推理時卻僅輸出答案,將反思能力完全內(nèi)化

與目前主流的訓(xùn)練方式相比,這一創(chuàng)新方法不僅實現(xiàn)了模型能力的顯著提升,更重要的是推理時完全零額外開銷

測試結(jié)果顯示,PCL方法在保持推理效率的同時,顯著提升了模型的輸出質(zhì)量和自我評估能力,為大語言模型訓(xùn)練開辟了全新技術(shù)路徑。

圖片

下面通過實際的對話案例,直觀展示PCL的訓(xùn)練和推理效果。例如,對于如下問題:

小明手里有50塊錢,巧克力7塊錢一顆,小明買了5顆,還剩多少錢?

模型在訓(xùn)練時,會完整輸出以下內(nèi)容,并通過多目標(biāo)優(yōu)化同時提升其推理、評估能力:  

think: 小明買了五顆巧克力,一共花費(fèi) 5*7=35 元;因此,小明還剩下 50-35=15 元。
answer: 15
<post>
evaluation: 讓我重新檢查一下我的回答過程。首先,我的兩步計算過程:5*7=35,50-35=15 都是準(zhǔn)確的,因此我的最終答案應(yīng)該是正確的,可以獲得 accuracy reward。其次,我的輸出也符合正確的格式,包含了 think + answer 兩部分內(nèi)容,因此也可以獲得 format reward。
reward: {accuracy reward:1, format reward: 1}

在推理時,模型以<post>作為新的結(jié)束符,只需要輸出推理部分的內(nèi)容:

think: 小明買了五顆巧克力,一共花費(fèi) 5*7=35 元;因此,小明還剩下 50-35=15 元。 answer: 15

可以看到,模型在推理時完全不輸出evaluation部分,從而無需任何額外的推理開銷。而通過在訓(xùn)練時進(jìn)行自我反思和評估,模型的實際能力也得到了提升,這一點在實驗中得到了驗證。

方法

1 突破性的“不對稱訓(xùn)練”范式

傳統(tǒng)語言模型訓(xùn)練存在一個根本性限制:訓(xùn)練和推理必須完全對稱

現(xiàn)有方法通常以結(jié)束符(EOS)作為序列終止點,模型的學(xué)習(xí)目標(biāo)也僅限于預(yù)測到結(jié)束符為止的內(nèi)容,形成了“訓(xùn)練什么就輸出什么”的對稱約束,就像學(xué)生考試時必須把所有思考過程都寫在答卷上。然而,人類在完成答題后往往會進(jìn)行檢查,反思和評估自己的回答質(zhì)量,而大模型卻缺少了這個關(guān)鍵的自我反思環(huán)節(jié)。

PCL方法首次打破了這種對稱性約束,實現(xiàn)了訓(xùn)練的創(chuàng)新,其核心思路簡單而巧妙

  • 訓(xùn)練時:將原始的EOS替換為臨時結(jié)束符,讓模型繼續(xù)輸出自我評估和質(zhì)量預(yù)測
  • 推理時:模型在處直接停止,無需輸出后續(xù)的評估部分

這樣一來,模型在訓(xùn)練階段學(xué)會了”內(nèi)省”的能力,但部署時保持原有計算效率。實驗結(jié)果表明,通過在訓(xùn)練時評估自己的答案,模型本身的回答能力也得到了提升。

圖片

PCL 方法示意圖:(a) 傳統(tǒng)方法以結(jié)束符作為訓(xùn)練的終點;(b) 方法在訓(xùn)練時,首先將其替換為臨時結(jié)束符 ,然后在后面繼續(xù)加入自我反思、自我評估的部分;(c) 在推理時,將臨時結(jié)束符 作為新的結(jié)束符,作為輸出的終止,從而避免了額外的推理開銷。

2 白盒化強(qiáng)化學(xué)習(xí):讓AI學(xué)會“自我評價”

為了有效利用這一點,研究團(tuán)隊提出了另一項創(chuàng)新:實現(xiàn)了強(qiáng)化學(xué)習(xí)過程的白盒化

這一點也是基于目前對強(qiáng)化學(xué)習(xí)的普遍認(rèn)知:大模型依賴并被動接受外部的獎勵信號,難以理解獎勵函數(shù)的機(jī)制,其優(yōu)化過程更像是一個黑盒,優(yōu)化效果較差。

PCL的白盒化設(shè)計則截然不同:直接教會模型如何計算獎勵,讓模型主動進(jìn)行自我評估,因此其訓(xùn)練過程完全透明可解釋。利用模型自己輸出的評估結(jié)果,與外部獎勵函數(shù)的結(jié)果進(jìn)行對齊,從而監(jiān)督模型的評估能力。

就像從“老師打分”變成了“學(xué)生自己會打分”,模型不僅學(xué)會了做題,還學(xué)會了評分標(biāo)準(zhǔn),知道應(yīng)該從哪些角度去得分,從而實現(xiàn)更高效的優(yōu)化。

圖片

白盒化強(qiáng)化學(xué)習(xí)的對話示意圖,教會模型如何計算獎勵,并設(shè)計一致性獎勵函數(shù)用于對齊

3 統(tǒng)一混合訓(xùn)練框架

在具體實現(xiàn)上,PCL 實現(xiàn)了統(tǒng)一 SFT + RL 訓(xùn)練框架,進(jìn)行多目標(biāo)的聯(lián)合優(yōu)化。這種混合訓(xùn)練范式也在最近的不少工作中得到驗證。

圖片

  • 推理能力 SFT:使用推理數(shù)據(jù)集,專注于 think + answer 部分,訓(xùn)練模型回答問題的能力
  • 評估能力 SFT:使用教師輸出進(jìn)行蒸餾,專注于 evaluation + reward 部分,讓模型基于完整推理過程進(jìn)行評估
  • 推理能力 GRPO:使用 accuracy + format 獎勵函數(shù),驗證答案與格式的正確性。獎勵函數(shù)因任務(wù)而異,可以拓展到更多的場景
  • 評估能力 GRPO:設(shè)計了一致性獎勵函數(shù),指導(dǎo)模型預(yù)測出準(zhǔn)確的獎勵得分

各優(yōu)化目標(biāo)在統(tǒng)一框架中混合訓(xùn)練,將監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)優(yōu)化(GRPO)完美融合,實現(xiàn)多目標(biāo)協(xié)同優(yōu)化。

實驗結(jié)果

作者設(shè)置了多種實驗,驗證了PCL的各組成部分的效果:

  • 對比 SFT, RL 等經(jīng)典訓(xùn)練方法,對比混合訓(xùn)練策略
  • 消融驗證 PCL 中的評估 SFT、一致性獎勵函數(shù)的效果

圖片

實驗結(jié)果上,論文在數(shù)學(xué)推理、邏輯推理兩個領(lǐng)域的數(shù)據(jù)集,分別在 Qwen-2.5 和 Llama-3.2 不同尺寸的模型上都取得了普遍正向的指標(biāo)提升,消融實驗也驗證了方法并非完全依賴蒸餾或強(qiáng)化學(xué)習(xí)策略,而是有效利用了自我評估,提升了模型的內(nèi)在推理能力。

圖片

圖片圖片

結(jié)論

PCL方法的提出,為語言模型訓(xùn)練領(lǐng)域帶來了三個重要啟示:

  • EOS后空間的價值:被忽視的訓(xùn)練空間蘊(yùn)含巨大潛力,自我評估能夠提升推理能力
  • 白盒化RL的可能:強(qiáng)化學(xué)習(xí)不必是“黑盒子”,提升可解釋性可以學(xué)得更好
  • 訓(xùn)練推理解耦:復(fù)雜訓(xùn)練+簡潔推理的平衡,“不對稱”的訓(xùn)練+推理過程

這種不對稱訓(xùn)練的新范式,既能顯著提升訓(xùn)練效果,又無需額外推理開銷,有望成為未來大模型訓(xùn)練的標(biāo)準(zhǔn)做法

論文鏈接:https://arxiv.org/abs/2507.20252

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-10-17 09:00:00

AI模型代碼

2023-10-11 12:32:53

AI模型

2023-01-05 09:33:37

視覺模型訓(xùn)練

2025-05-12 14:29:16

絕對零外部數(shù)據(jù)訓(xùn)練法

2025-09-24 09:10:24

2025-06-18 09:03:07

2025-04-01 09:54:09

AI算法大模型AI

2025-10-11 09:23:28

RLPT強(qiáng)化學(xué)習(xí)預(yù)訓(xùn)練數(shù)據(jù)

2025-05-16 08:58:09

2025-06-13 09:29:51

2023-06-09 07:29:03

模型文本document

2025-06-09 09:32:35

2025-01-09 08:01:10

2015-08-03 15:06:13

2024-07-01 20:45:55

2023-09-25 07:31:19

算力AI框架

2025-08-08 06:00:00

大模型AI推理AI大模型

2010-02-22 16:02:01

不對稱交換機(jī)

2024-02-19 00:21:45

開源圖片

2010-03-22 18:01:17

對稱交換機(jī)
點贊
收藏

51CTO技術(shù)棧公眾號

国产乱国产乱老熟300| 欧美美女一级片| 狠狠狠综合7777久夜色撩人| 视频在线在亚洲| 精品国产一区二区三区久久久狼| 女同性αv亚洲女同志| 蜜臀久久精品| 国产精品高潮久久久久无| 成人女人免费毛片| 羞羞色院91蜜桃| 很黄很黄激情成人| 国产亚洲福利一区| 97精品人人妻人人| www.成人在线视频| 午夜欧美视频在线观看| 亚洲国产婷婷香蕉久久久久久99| 亚洲精品国产一区二| 日韩国产成人精品| 国内精品免费午夜毛片| 久久久久久久麻豆| 亚洲欧美校园春色| 亚洲精品在线网站| 99精品视频国产| 高清成人在线| 性感美女久久精品| 国产高清不卡无码视频| 色多多视频在线观看| 久久综合九色综合97婷婷| 91在线免费看网站| 中文字幕日本人妻久久久免费| 亚洲国产高清一区| 欧美成人精品h版在线观看| 91网站免费入口| 欧美美女啪啪| 亚洲第一网站免费视频| 国产在线a视频| 国产999精品在线观看| 在线观看网站黄不卡| 久色视频在线播放| 丰乳肥臀在线| 尤物在线网址| 国产精品主播直播| 国产欧美最新羞羞视频在线观看| 天堂中文字幕在线观看| 欧美日韩ab| 久操成人在线视频| 五月天丁香激情| 最新精品国产| 色综合久综合久久综合久鬼88 | 国产欧美日韩麻豆91| 精品无人区一区二区三区竹菊| 精品久久久久久亚洲综合网站| 久久se这里有精品| 91精品久久久久久久久中文字幕| 少妇又紧又色又爽又刺激视频| 亚洲欧美大片| 日本伊人精品一区二区三区介绍| 一级片中文字幕| 亚洲一区二区三区四区五区午夜| 97免费中文视频在线观看| japanese在线播放| eeuss影院www在线播放| 国产午夜精品一区二区三区嫩草| 久久久久久久久久码影片| 日本激情视频网站| 97精品超碰一区二区三区| 国产自产精品| 飘雪影视在线观看免费观看| 久久久久久亚洲综合| 日韩精品欧美在线| 国产午夜在线视频| 国产精品欧美综合在线| 在线不卡视频一区二区| 99福利在线| 亚洲第一av色| 国产一级片黄色| 欧美另类激情| 欧美成人高清电影在线| 老司机午夜免费福利| 九九久久成人| www.99久久热国产日韩欧美.com| 极品魔鬼身材女神啪啪精品| 国产精品分类| 国产成人久久久| 亚洲特级黄色片| 激情深爱一区二区| 国产精品精品软件视频| 日本高清视频www| 国产亚洲精品超碰| 日本黄网站色大片免费观看| 秋霞在线视频| 色综合久久中文字幕综合网| 污污网站免费看| 久久av国产紧身裤| 中文字幕日韩欧美精品在线观看| 青娱乐在线视频免费观看| 国产欧美一级| 成人精品一区二区三区电影免费 | 日韩人妻无码一区二区三区99| 亚洲女同同性videoxma| 成人黄色影片在线| 网站黄在线观看| 国产精品国产a级| 成人黄色大片网站| 成人精品国产亚洲| 欧美精品一区二区三区高清aⅴ| 人妻少妇无码精品视频区| 亚洲国产不卡| 国产福利精品在线| 天堂av2024| 中文字幕日韩欧美一区二区三区| koreanbj精品视频一区| 99国内精品久久久久| 精品伊人久久97| 免费在线黄色网| 秋霞电影网一区二区| 国产嫩草一区二区三区在线观看 | 欧美成人精品在线| 加勒比在线一区| 99re成人精品视频| 日韩精品手机在线观看| 99久久精品一区二区成人| 亚洲精品99久久久久中文字幕| 日韩av毛片在线观看| 香蕉国产精品偷在线观看不卡| 91精品国产91久久久久青草| 日本在线观看视频| 91国产视频在线观看| 天堂www中文在线资源| 你懂的成人av| 国产一区视频在线| 在线视频二区| 欧美视频一区二区三区| 51调教丨国产调教视频| 亚洲国产激情| 国产精品swag| 少妇av在线| 欧美一区二区人人喊爽| 精品亚洲乱码一区二区| 日本色综合中文字幕| 欧美日韩国产三区| 香蕉伊大人中文在线观看| 亚洲国产精品一区二区久| 国产性70yerg老太| 高清shemale亚洲人妖| 日本中文字幕一级片| 亚洲一区二区三区久久久| 日韩在线观看免费网站| 日本一区二区三区久久| 国产精品视频yy9299一区| 久久久久久蜜桃一区二区| 成人免费在线观看av| 国产精品最新在线观看| 无遮挡的视频在线观看| 欧美日本一区二区在线观看| 殴美一级黄色片| 久久国产精品色婷婷| 最近看过的日韩成人| 日本99精品| 久久久综合av| 九色在线视频蝌蚪| 在线区一区二视频| 国产黄色片在线| 国产精品自在欧美一区| 国产免费裸体视频| 日韩影视在线观看| 日本sm极度另类视频| 成人av毛片| 91麻豆精品国产综合久久久久久 | 精品女厕一区二区三区| 人妻 日韩 欧美 综合 制服| av成人黄色| 视频一区二区三| 国产精品麻豆| 97国产suv精品一区二区62| 色天堂在线视频| 欧美日韩小视频| 妺妺窝人体色www聚色窝仙踪| 东方欧美亚洲色图在线| 久久国产亚洲精品无码| 成人嘿咻视频免费看| 91香蕉亚洲精品| 国产中文在线播放| 国产一区二区三区视频在线观看| 国产精品久久久久久久免费看| 亚洲尤物在线视频观看| 国产成人精品无码免费看夜聊软件| 免费在线看一区| 精品国偷自产一区二区三区| 中文字幕av一区二区三区人| 91精品国产综合久久男男| 国产探花视频在线观看| 一区二区三区在线播放欧美| 国产按摩一区二区三区| 日韩欧美第一页| 超碰手机在线观看| 久久久亚洲午夜电影| 国产精品嫩草影视| 久久亚洲国产精品一区二区| 成人在线观看www| 一本久久青青| 国产91一区二区三区| 视频精品导航| 羞羞色国产精品| 欧美18一19xxx性| 日韩久久精品电影| 国产丝袜在线视频| 在线中文字幕一区| 国产在线拍揄自揄拍无码视频| 国产精品污污网站在线观看| 无码一区二区精品| 国产一区二区视频在线播放| 成年人视频网站免费观看| 在线中文字幕亚洲| 亚洲国产日韩综合一区| 在线成人动漫av| 国产日韩精品推荐| 日韩精品成人在线观看| 国产精品日韩在线一区| 在线中文字幕播放| 97视频免费在线观看| 91麻豆一二三四在线| 色综合伊人色综合网| 欧洲天堂在线观看| 亚洲第一男人av| 亚洲高清视频网站| 欧美一区二区网站| 国产精品一品二区三区的使用体验| 欧美日韩一区二区三区在线免费观看 | 成年人免费在线播放| 尤物网精品视频| 国产精品igao激情视频| 羞羞答答成人影院www| 亚洲二区三区四区| 欧美精品一区二区久久| 欧美亚洲精品日韩| 综合综合综合综合综合网| 国产在线精品一区二区中文 | 日产精品高清视频免费| 日韩精选在线| 久久国产精品亚洲va麻豆| 北条麻妃一区二区三区在线| www.成人av| 无码国模国产在线观看| 粉嫩av一区二区三区免费观看 | 日产欧产va高清| 亚洲午夜久久久久久久久电影院 | 国产精品一区二区不卡视频| 久久在线观看| 国产超碰91| 久久中文字幕导航| 久久久久久久久四区三区| 亚洲永久精品唐人导航网址| 欧美一区2区三区4区公司二百| 亚洲日本三级| 亚洲国产一区二区三区在线播| 日韩av在线中文字幕| 中文字幕日韩精品久久| 中文字幕亚洲综合久久五月天色无吗''| 在线视频一区观看| 欧美黄色一级视频| 全黄性性激高免费视频| 亚洲影院一区| 91人人澡人人爽人人精品| 精品午夜一区二区三区在线观看| 免费成人黄色大片| 国产v综合v亚洲欧| 久久人人爽人人爽人人片| 久久久久久久久久久久久女国产乱| 欧美人妻一区二区三区| 亚洲视频资源在线| 麻豆疯狂做受xxxx高潮视频| 欧美日韩国产区| 中文在线字幕av| 欧美一二三在线| 婷婷亚洲一区二区三区| 国产一区二区成人| 成人影院www在线观看| 久久久久女教师免费一区| 国产精欧美一区二区三区蓝颜男同| 国产精品国语对白| 亚洲精品一区国产| 欧美亚洲精品日韩| 一本一道久久a久久精品蜜桃| 美女黄色免费看| 日韩影院免费视频| 日本wwwxx| 欧美激情自拍偷拍| 久久久久久久久久久久久久久久久 | 99久久人爽人人添人人澡| 欧美xxxx黑人又粗又长精品| 日韩在线综合| 精品久久久久久久久久中文字幕| 日本不卡中文字幕| 深田咏美中文字幕| 国产精品久久久久久久午夜片| 久久这里只有精品免费| 在线视频国内自拍亚洲视频| 亚洲精品久久久久avwww潮水| 亚洲人av在线影院| gratisvideos另类灌满| 国产精品免费一区豆花| 欧美理论电影在线精品| 久久av喷吹av高潮av| 亚欧美中日韩视频| 不许穿内裤随时挨c调教h苏绵 | 日韩理论片久久| 午夜小视频福利在线观看| 国产精品嫩草视频| 亚洲精品小区久久久久久| 日韩一级片一区二区| 久久国产欧美日韩精品| 亚洲av无码一区二区二三区| 亚洲精品日产精品乱码不卡| 久久久久精彩视频| 国产婷婷97碰碰久久人人蜜臀| 91cn在线观看| 国产日韩av在线| 成人在线一区| 青青在线视频免费| 26uuu国产一区二区三区 | 在线视频一区二区三| 婷婷久久久久久| 欧美国产日韩一区二区| 伊人久久大香线蕉综合影院首页| 日本高清不卡三区| 国产亚洲一级| 玖玖爱在线精品视频| 一区二区三区成人| 国产三级伦理片| 久久久精品视频成人| 欧美一区=区三区| 日韩精品久久久毛片一区二区| 久久国产精品久久久久久电车| 久久人妻一区二区| 亚洲风情在线资源站| 黑人精品一区二区三区| 欧美激情日韩图片| 亚洲日本视频在线| bt天堂新版中文在线地址| 国产精品一区一区| 免费视频网站www| 欧美不卡一区二区三区四区| 91精选在线| yy111111少妇影院日韩夜片 | 久久久久免费视频| swag国产精品一区二区| 又大又硬又爽免费视频| 不卡的电视剧免费网站有什么| 国产精品suv一区二区69| 精品sm在线观看| 天堂8中文在线最新版在线| 免费观看成人在线| 日韩精品五月天| 亚洲图片第一页| 欧美丰满少妇xxxxx高潮对白| 国内精品久久久久国产| 91在线视频免费| 中文字幕一区二区三三| 在线中文字日产幕| 狠狠久久五月精品中文字幕| 噜噜噜在线观看播放视频| 国产精品美女免费看| 香蕉国产精品| 免费观看一区二区三区| 五月婷婷另类国产| 免费在线视频一级不卡| 91精品久久久久久综合乱菊| 欧美99在线视频观看| 欧美xxxxx精品| 在线观看一区二区视频| 黄网站在线播放| 国产亚洲一区二区三区在线播放| 性欧美暴力猛交另类hd| 亚洲欧洲综合网| 亚洲国产精品中文| 精品123区| 9191国产视频| 国产日韩欧美综合在线| 国产情侣一区二区| 国模吧一区二区三区| 精品国产123区| 国产精品无码自拍| 在线亚洲人成电影网站色www| 最爽无遮挡行房视频在线| 久久久综合香蕉尹人综合网| 日本在线观看不卡视频| 国产亚洲精品久久777777| 亚洲天堂视频在线观看| 日韩成人18| 亚洲性生活网站| 亚洲午夜av在线| 香蕉视频免费在线播放| 国内一区二区三区在线视频| 美腿丝袜亚洲综合| 国产成人一区二区三区影院在线| 日韩亚洲在线观看| 蜜桃a∨噜噜一区二区三区| 日本成人xxx| 在线看不卡av|