精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

突破后訓(xùn)練瓶頸?Meta超級(jí)智能實(shí)驗(yàn)室又一力作:CaT解決RL監(jiān)督難題

人工智能 新聞
本文評(píng)估了 Compute as Teacher 的兩種模式:CaT 和 CaT-RL,實(shí)驗(yàn)涵蓋三個(gè)模型系列:Gemma 3 4B、Qwen 3 4B 和 Llama 3.1 8B。

在 AI 領(lǐng)域,大家通常采取后訓(xùn)練方式來讓模型獲取專項(xiàng)技能。然而后訓(xùn)練一般依賴帶有標(biāo)注參考的監(jiān)督微調(diào),或通過可驗(yàn)證的程序化檢查器提供獎(jiǎng)勵(lì)。

這就帶來一些問題,目前許多有價(jià)值的任務(wù)可能同時(shí)缺乏這兩種資源。例如在不可驗(yàn)證的場景中(臨床、自由對(duì)話和創(chuàng)意寫作),可能存在多個(gè)有效答案,確定性規(guī)則檢查難以實(shí)施。

在這種情況下,實(shí)踐者往往只能依賴(i)繁瑣的標(biāo)注流程,或(ii)通過另一個(gè) LLM 對(duì)自由形式輸出進(jìn)行粗略獎(jiǎng)勵(lì)。

然而,當(dāng)后訓(xùn)練缺乏真實(shí)標(biāo)注時(shí),學(xué)習(xí)信號(hào)從何而來?

為了回答這一問題,來自牛津大學(xué)、Meta 超級(jí)智能實(shí)驗(yàn)室等機(jī)構(gòu)的研究者提出設(shè)想:

推理計(jì)算是否可以替代缺失的監(jiān)督?

本文認(rèn)為答案是肯定的,他們提出了一種名為 CaT(Compute as Teacher)的方法,核心思想是把推理時(shí)的額外計(jì)算當(dāng)作教師信號(hào),在缺乏人工標(biāo)注或可驗(yàn)證答案時(shí),也能為大模型提供監(jiān)督信號(hào)。

結(jié)果顯示,推理時(shí)直接應(yīng)用 CaT顯著提升了 Gemma 3 4B、Qwen 3 4B 和 Llama 3.1 8B 的性能,即使在不可驗(yàn)證領(lǐng)域(MATH-500 最高提升 27%;HealthBench 提升 12%)。結(jié)合強(qiáng)化學(xué)習(xí)的CaT(CaT-RL)可進(jìn)一步獲得增益(最高提升 33% 和 30%),訓(xùn)練后的策略甚至能超越初始教師信號(hào)。

  • 論文地址:https://arxiv.org/pdf/2509.14234
  • 論文標(biāo)題:Compute as Teacher: Turning Inference Compute Into Reference-Free Supervision

有意思的是,這篇論文作者全部都在 Meta 超級(jí)智能實(shí)驗(yàn)室做過研究(?Work done at Meta Superintelligence Labs)。我們不得不感嘆,近期,他們發(fā)文的頻率真是太快了。

在論文上線的同時(shí),這項(xiàng)研究也引起了大家廣泛討論,有人表示:CaT 解決了 RL 中缺少監(jiān)督的難題,這是一種優(yōu)雅的解決方案。

還有人認(rèn)為:CaT 的這項(xiàng)研究意義重大,它將計(jì)算本身轉(zhuǎn)化為監(jiān)督。如果將其規(guī)模化,可能會(huì)改寫我們?cè)诮】岛桶踩炔豢沈?yàn)證領(lǐng)域的強(qiáng)化學(xué)習(xí)方法。

「對(duì)于在驗(yàn)證成本高昂或無法驗(yàn)證的領(lǐng)域來說,這可能是重要的一步。」

方法介紹

CaT 流程如下:

  • 探索階段:針對(duì)每個(gè)輸入提示,當(dāng)前策略生成一組并行推演結(jié)果(parallel rollouts);
  • 合成階段:一個(gè)凍結(jié)的錨點(diǎn)模型(frozen anchor)(即初始策略,僅作為估計(jì)器使用)以這組推演結(jié)果為條件,通過整合遺漏、矛盾和不完整的解決方案,合成一個(gè)單一的估計(jì)參考答案;
  • 角色分離設(shè)計(jì):當(dāng)前策略負(fù)責(zé)探索,生成多樣化的推演;錨點(diǎn)模型作為穩(wěn)定的估計(jì)器,將額外的推理計(jì)算轉(zhuǎn)化為完全源于模型行為的教學(xué)信號(hào);
  • 計(jì)算效率:CaT 復(fù)用了強(qiáng)化學(xué)習(xí)中常見的組推演計(jì)算預(yù)算(如 GRPO),除已有采樣計(jì)算外幾乎不引入額外開銷。

這種方法的核心優(yōu)勢在于:無需人工標(biāo)注或外部驗(yàn)證器,僅通過模型自身的推理過程就能生成高質(zhì)量的監(jiān)督信號(hào),適用于數(shù)學(xué)推理、醫(yī)療咨詢、創(chuàng)意寫作等缺乏標(biāo)準(zhǔn)答案的任務(wù)。

本文最大創(chuàng)新是將額外的推理計(jì)算轉(zhuǎn)化為監(jiān)督信號(hào),在公式表達(dá)上:對(duì)于每個(gè)輸入提示 q,當(dāng)前策略 在 GRPO 時(shí)間步 t 生成一組 G 個(gè)并行推演結(jié)果 o1:G。然后一個(gè)凍結(jié)的錨點(diǎn)策略(通常是初始模型)通過整合所有推演結(jié)果中的信息,解決遺漏和矛盾,合成一個(gè)統(tǒng)一的參考響應(yīng) s。最后是獎(jiǎng)勵(lì)生成,分兩種場景,將估計(jì)的參考響應(yīng) s 轉(zhuǎn)化為獎(jiǎng)勵(lì)信號(hào)。

此外,本文還通過提供獎(jiǎng)勵(lì)函數(shù)來優(yōu)化模型,使其接近預(yù)估參考值,稱之為 CaT-RL。

對(duì)于數(shù)學(xué)等可驗(yàn)證領(lǐng)域,這很容易。只需檢查預(yù)估參考答案是否與策略部署的答案相同即可。如果相同,則獎(jiǎng)勵(lì) +1!

對(duì)于自由聊天等不可驗(yàn)證領(lǐng)域,這要困難得多!因?yàn)橛泻芏嘤行Т鸢浮?所以本文做了一些不同的事情。

方法是模型再次查看預(yù)估參考值,并生成一個(gè)標(biāo)準(zhǔn)列表(一個(gè)評(píng)估標(biāo)準(zhǔn)),以二進(jìn)制是 / 否檢查表的形式對(duì)其進(jìn)行描述。然后,讓 GPT-4o 判斷每個(gè)策略部署是否滿足評(píng)估標(biāo)準(zhǔn),并給予獎(jiǎng)勵(lì)。

實(shí)驗(yàn)

本文評(píng)估了 Compute as Teacher 的兩種模式:CaT 和 CaT-RL,實(shí)驗(yàn)涵蓋三個(gè)模型系列:Gemma 3 4B、Qwen 3 4B 和 Llama 3.1 8B。

結(jié)果 1:CaT-RL 不僅超越了初始策略,其表現(xiàn)也優(yōu)于 CaT 方法(圖 4)。

結(jié)果 2:自擬評(píng)分標(biāo)準(zhǔn)(Self-proposed rubrics)在不可驗(yàn)證領(lǐng)域可以作為有效獎(jiǎng)勵(lì)。圖 5(左)顯示,自擬評(píng)分標(biāo)準(zhǔn)的表現(xiàn)優(yōu)于模型評(píng)判,并可與人類專家注釋相媲美。

結(jié)果 3:基于自擬評(píng)分標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)(CaT-RL)優(yōu)于監(jiān)督微調(diào)(SFT)。盡管在處理不可驗(yàn)證輸出時(shí),SFT 是事實(shí)上的默認(rèn)方法,但在圖 5(右)中顯示:當(dāng)獎(jiǎng)勵(lì)來自自擬評(píng)分標(biāo)準(zhǔn)時(shí),RL 效果更佳。

結(jié)果 4:CaT 比單樣本和選擇基線模型能產(chǎn)生更好的參考估計(jì)。圖 6 為在推理時(shí)間與其他方案進(jìn)行了比較,結(jié)果表明 CaT 產(chǎn)生的參考估計(jì)最強(qiáng),并且用途最廣泛。

結(jié)果 5:CaT 會(huì)隨著 rollout 數(shù)量 G 的增加而擴(kuò)展。圖 7(左)顯示,在 MATH-500 上,擴(kuò)展是單調(diào)的,而在 HealthBench 上,CaT 在大約 4 次 rollout 后達(dá)到平臺(tái)期。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-09-08 23:19:25

2020-09-26 22:30:18

開源技術(shù) 數(shù)據(jù)

2025-11-21 12:04:58

2025-09-12 09:11:54

Meta語言模型LSP

2025-07-01 09:04:00

2025-08-20 09:10:00

2025-09-26 08:59:36

2025-10-23 10:17:20

2012-07-19 17:10:03

神奇的阿力Amazing AleRovio

2025-07-02 01:40:00

OpenAI人工智能扎克伯格

2021-08-04 09:48:05

數(shù)字化

2025-06-27 10:10:43

AI模型技術(shù)

2025-07-29 09:06:00

2024-06-28 13:40:03

2020-03-18 13:20:49

量子芯片網(wǎng)絡(luò)

2015-02-06 09:23:52

賽可達(dá)實(shí)驗(yàn)室網(wǎng)絡(luò)安全

2011-05-25 17:51:40

2023-10-17 12:33:27

AI模型

2025-08-20 12:41:10

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

亚洲国产欧美在线观看| 俄罗斯嫩小性bbwbbw| 国产成人1区| 欧美性色黄大片| 欧美日韩在线免费观看视频| 99草在线视频| 国产麻豆综合| 北条麻妃99精品青青久久| 精品久久久久久无码人妻| 伊人网在线播放| 亚洲视频免费观看| 久精品国产欧美| 在线观看国产精品视频| 在线欧美不卡| 最近免费中文字幕视频2019| 国产一卡二卡三卡四卡| 91p九色成人| 亚洲第一综合色| 亚洲一区二区不卡视频| 香蕉视频网站在线| 国产成人综合网| 国产精品久久国产精品99gif| 欧美精品xxxxx| 日韩欧美伦理| 蜜桃视频在线观看一区| 欧美日韩中文字幕| 狠狠干视频网站| 成年人在线观看视频| 成人福利电影精品一区二区在线观看| 国产精品啪视频| 欧美精品韩国精品| 黄色精品网站| 欧美成人精品xxx| 你懂得视频在线观看| 欧美日韩一区二区三区四区不卡| 欧美一区二区久久| 亚洲第一区第二区第三区| 最新欧美电影| 欧美性猛交xxxx乱大交| av免费看网址| 三级网站视频在在线播放| 国产精品国产自产拍高清av| 欧美一区1区三区3区公司| 天天躁日日躁狠狠躁喷水| 国产成人免费在线观看| 成人夜晚看av| 91福利免费视频| 美女网站色91| 国产一区二区香蕉| 中文字幕人成人乱码亚洲电影| 国产日韩欧美三区| 韩国精品美女www爽爽爽视频| 天天爽天天爽天天爽| 日韩理论电影大全| 色婷婷av一区二区三区久久| 夜夜春很很躁夜夜躁| 国产成人av| 永久免费毛片在线播放不卡| 受虐m奴xxx在线观看| 视频一区欧美| 国产一区二区三区丝袜| 人妻熟人中文字幕一区二区| 国产在线日韩精品| 综合国产在线观看| 激情无码人妻又粗又大| 888久久久| 欧美夫妻性视频| 日韩三级视频在线| 男女精品视频| 国产精品久久久爽爽爽麻豆色哟哟| 欧美亚洲另类视频| 婷婷激情五月网| 手机精品视频在线观看| 国产精品久久久久高潮| 一级黄色录像大片| 国产精品88888| 国产精品对白一区二区三区| 婷婷色在线视频| 久久久精品天堂| 亚洲在线视频一区二区| av在线免费网站| 精品久久中文字幕| 黄色成人免费看| 人人精品久久| 日韩久久久精品| 无码人妻精品一区二区三应用大全| 激情综合网站| 欧美成人h版在线观看| 日韩三级视频在线| 日本少妇一区二区| av资源站久久亚洲| 深夜福利在线视频| 日韩理论片网站| 免费看一级大黄情大片| 成人免费一区| 精品国产成人在线影院| 波多野在线播放| 亚洲影视一区| 青青精品视频播放| 999久久久久久| 久久久99精品久久| av日韩在线看| 日韩网站中文字幕| 精品国产一区二区亚洲人成毛片| 国产肥白大熟妇bbbb视频| 欧美一区91| 国产成人在线一区| 亚洲国产精品成人久久蜜臀| 国产女主播一区| 日本欧美视频在线观看| 日韩三区四区| 亚洲免费电影在线观看| 欧美精品入口蜜桃| 久久97超碰国产精品超碰| 免费成人看片网址| 欧美xxxx做受欧美88bbw| 在线看日韩精品电影| 亚洲一区二区三区xxx视频| 免费在线观看污| 欧美三级网页| 成人两性免费视频| 国产在线观看网站| 午夜视频在线观看一区二区三区| 热久久久久久久久| 欧美偷拍综合| 欧美一区二区.| 亚洲精品无码久久久| 亚洲欧洲一区二区在线播放| 精品视频一区二区在线| 精品国内亚洲2022精品成人| 欧美成人午夜激情视频| 亚洲精品国产欧美在线观看| 91看片淫黄大片一级在线观看| 欧美a级免费视频| 日韩色性视频| xxx欧美精品| 中文字幕免费视频观看| 久久伊人中文字幕| 欧美亚洲国产成人| 欧美天堂社区| 8x拔播拔播x8国产精品| 深夜福利视频网站| 亚洲国产sm捆绑调教视频| 在线免费黄色小视频| 91偷拍一区二区三区精品| 国产精品一区二区久久国产| 高清日韩av电影| 欧洲精品一区二区| 先锋影音av在线| 三级欧美韩日大片在线看| 久久av免费观看| 亚洲国产福利| 亚洲日韩中文字幕| 亚洲视屏在线观看| 国产精品热久久久久夜色精品三区 | 国内外成人激情免费视频| 国产精品久久乐| 日韩综合视频在线观看| 91成年人视频| 亚洲狠狠丁香婷婷综合久久久| 天美一区二区三区| 午夜电影亚洲| 精品国产福利| 另类专区亚洲| 久久亚洲私人国产精品va媚药| 久久九九全国免费精品观看| 亚洲天堂手机在线| 最新国产成人在线观看| 少妇愉情理伦片bd| 亚洲国产电影| 久久综合久久久| a∨色狠狠一区二区三区| 久久精品国产亚洲| 亚洲av永久无码国产精品久久| 亚洲成人精品在线观看| wwwwww日本| 久久超碰97人人做人人爱| 在线观看三级网站| 欧美国产不卡| 国产精品高精视频免费| jizz性欧美| 日韩成人中文字幕| 中文字幕欧美人妻精品一区蜜臀 | 精品女同一区二区| 中文字幕在线观看免费视频| 久久精品一区二区| 51自拍视频在线观看| 夜久久久久久| 在线不卡日本| 欧美巨大xxxx| 国产欧美久久久久久| 肉肉视频在线观看| 中文字幕久久精品| 黄色av网址在线| 欧美性感一区二区三区| 久久久无码精品亚洲国产| 国产亚洲欧美一区在线观看| 6080国产精品| 久久久久久久波多野高潮日日| 自拍偷拍亚洲色图欧美| 理论片一区二区在线| 国产一区玩具在线观看| 丁香花在线电影| 中文欧美日本在线资源| 国产成人手机在线| 欧美日本在线看| 精品美女久久久久| 亚洲三级在线观看| xxxx日本黄色| 99久久综合色| 无套白嫩进入乌克兰美女| 亚洲精品资源| 中文字幕精品在线播放| 国产午夜一区| 精品欧美一区二区精品久久| 欧美激情视频二区| 亚洲天堂黄色| 一区二区三区一级片| 欧美极品中文字幕| 国产区二精品视| 国产精品中文| 国产一区红桃视频| 97精品国产99久久久久久免费| 992tv成人免费影院| 日韩激情av| 美女久久久久久久久久久| 99青草视频在线播放视| 亚洲美女视频网站| 特黄aaaaaaaaa真人毛片| 日韩写真欧美这视频| 最好看的日本字幕mv视频大全 | 免费观看成人毛片| 一区二区三区四区中文字幕| 亚洲精品电影院| 国产精品久久福利| 久久视频一区二区三区| 国产亚洲女人久久久久毛片| 成人免费网站黄| 国产在线观看网站| 欧美综合在线视频| 亚洲欧美偷拍视频| 激情久久av一区av二区av三区| 欧美片一区二区| 亚洲黄色av一区| 欧美黑人精品一区二区不卡| 亚洲美女少妇撒尿| 久久久精品视频免费观看| 亚洲视频小说图片| 欧美精品99久久久| 亚洲一区二区在线观看视频| 清纯粉嫩极品夜夜嗨av| 亚洲成人在线网站| 圆产精品久久久久久久久久久| 亚洲va韩国va欧美va精品| 免费一级特黄特色大片| 五月综合激情日本mⅴ| 欧美bbbbbbbbbbbb精品| 岛国视频午夜一区免费在线观看| 天天综合网入口| 色婷婷一区二区三区四区| 日韩精品在线一区二区三区| 欧美三电影在线| 国产伦理吴梦梦伦理| 欧美videofree性高清杂交| 欧美性受xxxx狂喷水| 亚洲国产另类久久精品| 美国成人毛片| 色老头一区二区三区在线观看| 欧美日韩在线看片| 久久久久久com| 涩涩视频网站在线观看| 国产精品久久久久久网站| 亚洲国产综合在线观看| 国产精品对白一区二区三区| 亚洲免费观看高清完整版在线观| 日韩高清国产一区在线观看| 日韩一区亚洲二区| 六月婷婷激情综合| 久久国产一二区| 在线看免费毛片| 成熟亚洲日本毛茸茸凸凹| 右手影院亚洲欧美| 亚洲色图视频免费播放| 日本三级2019| 欧美三级中文字幕在线观看| 国产按摩一区二区三区| 日韩国产高清污视频在线观看| chinese偷拍一区二区三区| 欧美成人精品在线| 电影网一区二区| 亚洲一区二区三区sesese| 婷婷综合电影| 免费成人深夜夜行网站视频| 亚洲人人精品| 久热精品在线播放| av日韩在线网站| 911国产在线| 欧美午夜视频一区二区| 99免费在线视频| 亚洲天堂2020| 999福利在线视频| 成人两性免费视频| 国产精品视频一区二区三区四蜜臂| 中文字幕精品—区二区日日骚| 一区二区动漫| 在线视频日韩欧美| 欧美韩国日本不卡| 久久久久久久久影院| 欧美一区二区人人喊爽| 尤物视频在线免费观看| 91chinesevideo永久地址| 欧美三级一区| 亚洲精品日韩精品| 99热免费精品在线观看| 欧美激情第四页| 国产精品美女久久久久aⅴ国产馆| 日韩久久精品视频| 日韩欧美在线观看一区二区三区| 成年女人的天堂在线| 欧美一区第一页| 久久365资源| 成人毛片100部免费看| 麻豆一区二区三区| 亚洲精品国产一区黑色丝袜| 婷婷综合在线观看| 亚洲精品成人电影| 久久亚洲一区二区三区四区五区高| 日韩欧美一区二区三区免费观看| 精品一区在线播放| 好看的日韩av电影| 男人添女人荫蒂国产| 18欧美乱大交hd1984| 青青艹在线观看| 国产亚洲精品综合一区91| 在线看片国产福利你懂的| 国产视频一区二区三区在线观看| 免费黄色在线网址| 狠狠色狠狠色综合日日小说| 神宫寺奈绪一区二区三区| 久久久免费电影| 久久a爱视频| 国产精品999视频| 成人av电影在线网| 日本亚洲欧美在线| 亚洲成人久久久久| 黄色视屏在线免费观看| 精品国产乱码久久久久久丨区2区| 欧美视频亚洲视频| www.com日本| 亚洲va韩国va欧美va| 深夜影院在线观看| 国产精品99久久久久久久久| 国模精品一区| 日日干夜夜操s8| 亚洲人成网站在线| 99久久久国产精品无码免费| 久久999免费视频| 成人午夜网址| 精品人妻一区二区三区四区在线 | 日本天堂在线观看| 91亚洲午夜在线| 国产精品九九| 亚洲 欧美 日韩在线| 一本一道久久a久久精品 | 欧美大胆视频| 国内外成人激情视频| 国产欧美精品国产国产专区 | 亚洲日本无吗高清不卡| 久久99国产精品成人| 久久久无码一区二区三区| 精品一区二区三区电影| julia一区二区三区中文字幕| 夜夜爽www精品| 国产成人免费在线观看| 六月丁香在线视频| 色婷婷综合成人| 亚洲综合影院| 久久国产色av免费观看| 国产精品不卡一区二区三区| 丰满肉肉bbwwbbww| 日本在线精品视频| 久久久人成影片免费观看| 完美搭档在线观看| 欧美日韩国产免费| 女同视频在线观看| 日本一区二区三区www| 国产一区二区三区免费观看| 国产午夜福利一区二区| 在线视频欧美日韩精品| 亚洲中文字幕在线观看| 欧美日韩一级大片网址| 日本h片在线| 日韩欧美视频一区二区| 国产91综合网| 五月激情丁香网| 国模精品一区二区三区色天香| 成人无号精品一区二区三区| www.com日本| 久久精品视频在线看| 国产aaaaa毛片|