突破后訓(xùn)練瓶頸?Meta超級(jí)智能實(shí)驗(yàn)室又一力作:CaT解決RL監(jiān)督難題
在 AI 領(lǐng)域,大家通常采取后訓(xùn)練方式來讓模型獲取專項(xiàng)技能。然而后訓(xùn)練一般依賴帶有標(biāo)注參考的監(jiān)督微調(diào),或通過可驗(yàn)證的程序化檢查器提供獎(jiǎng)勵(lì)。
這就帶來一些問題,目前許多有價(jià)值的任務(wù)可能同時(shí)缺乏這兩種資源。例如在不可驗(yàn)證的場景中(臨床、自由對(duì)話和創(chuàng)意寫作),可能存在多個(gè)有效答案,確定性規(guī)則檢查難以實(shí)施。
在這種情況下,實(shí)踐者往往只能依賴(i)繁瑣的標(biāo)注流程,或(ii)通過另一個(gè) LLM 對(duì)自由形式輸出進(jìn)行粗略獎(jiǎng)勵(lì)。
然而,當(dāng)后訓(xùn)練缺乏真實(shí)標(biāo)注時(shí),學(xué)習(xí)信號(hào)從何而來?
為了回答這一問題,來自牛津大學(xué)、Meta 超級(jí)智能實(shí)驗(yàn)室等機(jī)構(gòu)的研究者提出設(shè)想:
推理計(jì)算是否可以替代缺失的監(jiān)督?
本文認(rèn)為答案是肯定的,他們提出了一種名為 CaT(Compute as Teacher)的方法,核心思想是把推理時(shí)的額外計(jì)算當(dāng)作教師信號(hào),在缺乏人工標(biāo)注或可驗(yàn)證答案時(shí),也能為大模型提供監(jiān)督信號(hào)。
結(jié)果顯示,推理時(shí)直接應(yīng)用 CaT顯著提升了 Gemma 3 4B、Qwen 3 4B 和 Llama 3.1 8B 的性能,即使在不可驗(yàn)證領(lǐng)域(MATH-500 最高提升 27%;HealthBench 提升 12%)。結(jié)合強(qiáng)化學(xué)習(xí)的CaT(CaT-RL)可進(jìn)一步獲得增益(最高提升 33% 和 30%),訓(xùn)練后的策略甚至能超越初始教師信號(hào)。

- 論文地址:https://arxiv.org/pdf/2509.14234
- 論文標(biāo)題:Compute as Teacher: Turning Inference Compute Into Reference-Free Supervision
有意思的是,這篇論文作者全部都在 Meta 超級(jí)智能實(shí)驗(yàn)室做過研究(?Work done at Meta Superintelligence Labs)。我們不得不感嘆,近期,他們發(fā)文的頻率真是太快了。
在論文上線的同時(shí),這項(xiàng)研究也引起了大家廣泛討論,有人表示:CaT 解決了 RL 中缺少監(jiān)督的難題,這是一種優(yōu)雅的解決方案。

還有人認(rèn)為:CaT 的這項(xiàng)研究意義重大,它將計(jì)算本身轉(zhuǎn)化為監(jiān)督。如果將其規(guī)模化,可能會(huì)改寫我們?cè)诮】岛桶踩炔豢沈?yàn)證領(lǐng)域的強(qiáng)化學(xué)習(xí)方法。

「對(duì)于在驗(yàn)證成本高昂或無法驗(yàn)證的領(lǐng)域來說,這可能是重要的一步。」
方法介紹
CaT 流程如下:
- 探索階段:針對(duì)每個(gè)輸入提示,當(dāng)前策略生成一組并行推演結(jié)果(parallel rollouts);
- 合成階段:一個(gè)凍結(jié)的錨點(diǎn)模型(frozen anchor)(即初始策略,僅作為估計(jì)器使用)以這組推演結(jié)果為條件,通過整合遺漏、矛盾和不完整的解決方案,合成一個(gè)單一的估計(jì)參考答案;
- 角色分離設(shè)計(jì):當(dāng)前策略負(fù)責(zé)探索,生成多樣化的推演;錨點(diǎn)模型作為穩(wěn)定的估計(jì)器,將額外的推理計(jì)算轉(zhuǎn)化為完全源于模型行為的教學(xué)信號(hào);
- 計(jì)算效率:CaT 復(fù)用了強(qiáng)化學(xué)習(xí)中常見的組推演計(jì)算預(yù)算(如 GRPO),除已有采樣計(jì)算外幾乎不引入額外開銷。
這種方法的核心優(yōu)勢在于:無需人工標(biāo)注或外部驗(yàn)證器,僅通過模型自身的推理過程就能生成高質(zhì)量的監(jiān)督信號(hào),適用于數(shù)學(xué)推理、醫(yī)療咨詢、創(chuàng)意寫作等缺乏標(biāo)準(zhǔn)答案的任務(wù)。

本文最大創(chuàng)新是將額外的推理計(jì)算轉(zhuǎn)化為監(jiān)督信號(hào),在公式表達(dá)上:對(duì)于每個(gè)輸入提示 q,當(dāng)前策略
在 GRPO 時(shí)間步 t 生成一組 G 個(gè)并行推演結(jié)果 o1:G。然后一個(gè)凍結(jié)的錨點(diǎn)策略
(通常是初始模型)通過整合所有推演結(jié)果中的信息,解決遺漏和矛盾,合成一個(gè)統(tǒng)一的參考響應(yīng) s。最后是獎(jiǎng)勵(lì)生成,分兩種場景,將估計(jì)的參考響應(yīng) s 轉(zhuǎn)化為獎(jiǎng)勵(lì)信號(hào)。

此外,本文還通過提供獎(jiǎng)勵(lì)函數(shù)來優(yōu)化模型,使其接近預(yù)估參考值,稱之為 CaT-RL。
對(duì)于數(shù)學(xué)等可驗(yàn)證領(lǐng)域,這很容易。只需檢查預(yù)估參考答案是否與策略部署的答案相同即可。如果相同,則獎(jiǎng)勵(lì) +1!
對(duì)于自由聊天等不可驗(yàn)證領(lǐng)域,這要困難得多!因?yàn)橛泻芏嘤行Т鸢浮?所以本文做了一些不同的事情。
方法是模型再次查看預(yù)估參考值,并生成一個(gè)標(biāo)準(zhǔn)列表(一個(gè)評(píng)估標(biāo)準(zhǔn)),以二進(jìn)制是 / 否檢查表的形式對(duì)其進(jìn)行描述。然后,讓 GPT-4o 判斷每個(gè)策略部署是否滿足評(píng)估標(biāo)準(zhǔn),并給予獎(jiǎng)勵(lì)。

實(shí)驗(yàn)
本文評(píng)估了 Compute as Teacher 的兩種模式:CaT 和 CaT-RL,實(shí)驗(yàn)涵蓋三個(gè)模型系列:Gemma 3 4B、Qwen 3 4B 和 Llama 3.1 8B。
結(jié)果 1:CaT-RL 不僅超越了初始策略,其表現(xiàn)也優(yōu)于 CaT 方法(圖 4)。

結(jié)果 2:自擬評(píng)分標(biāo)準(zhǔn)(Self-proposed rubrics)在不可驗(yàn)證領(lǐng)域可以作為有效獎(jiǎng)勵(lì)。圖 5(左)顯示,自擬評(píng)分標(biāo)準(zhǔn)的表現(xiàn)優(yōu)于模型評(píng)判,并可與人類專家注釋相媲美。

結(jié)果 3:基于自擬評(píng)分標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)(CaT-RL)優(yōu)于監(jiān)督微調(diào)(SFT)。盡管在處理不可驗(yàn)證輸出時(shí),SFT 是事實(shí)上的默認(rèn)方法,但在圖 5(右)中顯示:當(dāng)獎(jiǎng)勵(lì)來自自擬評(píng)分標(biāo)準(zhǔn)時(shí),RL 效果更佳。
結(jié)果 4:CaT 比單樣本和選擇基線模型能產(chǎn)生更好的參考估計(jì)。圖 6 為在推理時(shí)間與其他方案進(jìn)行了比較,結(jié)果表明 CaT 產(chǎn)生的參考估計(jì)最強(qiáng),并且用途最廣泛。

結(jié)果 5:CaT 會(huì)隨著 rollout 數(shù)量 G 的增加而擴(kuò)展。圖 7(左)顯示,在 MATH-500 上,擴(kuò)展是單調(diào)的,而在 HealthBench 上,CaT 在大約 4 次 rollout 后達(dá)到平臺(tái)期。































