突破后訓(xùn)練瓶頸？Meta超級(jí)智能實(shí)驗(yàn)室又一力作：CaT解決RL監(jiān)督難題

2025-09-22 10:41:42

本文評(píng)估了 Compute as Teacher 的兩種模式：CaT 和 CaT-RL，實(shí)驗(yàn)涵蓋三個(gè)模型系列：Gemma 3 4B、Qwen 3 4B 和 Llama 3.1 8B。

在 AI 領(lǐng)域，大家通常采取后訓(xùn)練方式來讓模型獲取專項(xiàng)技能。然而后訓(xùn)練一般依賴帶有標(biāo)注參考的監(jiān)督微調(diào)，或通過可驗(yàn)證的程序化檢查器提供獎(jiǎng)勵(lì)。

這就帶來一些問題，目前許多有價(jià)值的任務(wù)可能同時(shí)缺乏這兩種資源。例如在不可驗(yàn)證的場景中（臨床、自由對(duì)話和創(chuàng)意寫作），可能存在多個(gè)有效答案，確定性規(guī)則檢查難以實(shí)施。

在這種情況下，實(shí)踐者往往只能依賴（i）繁瑣的標(biāo)注流程，或（ii）通過另一個(gè) LLM 對(duì)自由形式輸出進(jìn)行粗略獎(jiǎng)勵(lì)。

然而，當(dāng)后訓(xùn)練缺乏真實(shí)標(biāo)注時(shí)，學(xué)習(xí)信號(hào)從何而來？

為了回答這一問題，來自牛津大學(xué)、Meta 超級(jí)智能實(shí)驗(yàn)室等機(jī)構(gòu)的研究者提出設(shè)想：

推理計(jì)算是否可以替代缺失的監(jiān)督？

本文認(rèn)為答案是肯定的，他們提出了一種名為 CaT（Compute as Teacher）的方法，核心思想是把推理時(shí)的額外計(jì)算當(dāng)作教師信號(hào)，在缺乏人工標(biāo)注或可驗(yàn)證答案時(shí)，也能為大模型提供監(jiān)督信號(hào)。

結(jié)果顯示，推理時(shí)直接應(yīng)用 CaT顯著提升了 Gemma 3 4B、Qwen 3 4B 和 Llama 3.1 8B 的性能，即使在不可驗(yàn)證領(lǐng)域（MATH-500 最高提升 27%；HealthBench 提升 12%）。結(jié)合強(qiáng)化學(xué)習(xí)的CaT（CaT-RL）可進(jìn)一步獲得增益（最高提升 33% 和 30%），訓(xùn)練后的策略甚至能超越初始教師信號(hào)。

論文地址：https://arxiv.org/pdf/2509.14234
論文標(biāo)題：Compute as Teacher: Turning Inference Compute Into Reference-Free Supervision

有意思的是，這篇論文作者全部都在 Meta 超級(jí)智能實(shí)驗(yàn)室做過研究（?Work done at Meta Superintelligence Labs）。我們不得不感嘆，近期，他們發(fā)文的頻率真是太快了。

在論文上線的同時(shí)，這項(xiàng)研究也引起了大家廣泛討論，有人表示：CaT 解決了 RL 中缺少監(jiān)督的難題，這是一種優(yōu)雅的解決方案。

還有人認(rèn)為：CaT 的這項(xiàng)研究意義重大，它將計(jì)算本身轉(zhuǎn)化為監(jiān)督。如果將其規(guī)模化，可能會(huì)改寫我們?cè)诮】岛桶踩炔豢沈?yàn)證領(lǐng)域的強(qiáng)化學(xué)習(xí)方法。

「對(duì)于在驗(yàn)證成本高昂或無法驗(yàn)證的領(lǐng)域來說，這可能是重要的一步。」

方法介紹

CaT 流程如下：

探索階段：針對(duì)每個(gè)輸入提示，當(dāng)前策略生成一組并行推演結(jié)果（parallel rollouts）；
合成階段：一個(gè)凍結(jié)的錨點(diǎn)模型（frozen anchor）（即初始策略，僅作為估計(jì)器使用）以這組推演結(jié)果為條件，通過整合遺漏、矛盾和不完整的解決方案，合成一個(gè)單一的估計(jì)參考答案；
角色分離設(shè)計(jì)：當(dāng)前策略負(fù)責(zé)探索，生成多樣化的推演；錨點(diǎn)模型作為穩(wěn)定的估計(jì)器，將額外的推理計(jì)算轉(zhuǎn)化為完全源于模型行為的教學(xué)信號(hào)；
計(jì)算效率：CaT 復(fù)用了強(qiáng)化學(xué)習(xí)中常見的組推演計(jì)算預(yù)算（如 GRPO），除已有采樣計(jì)算外幾乎不引入額外開銷。

這種方法的核心優(yōu)勢在于：無需人工標(biāo)注或外部驗(yàn)證器，僅通過模型自身的推理過程就能生成高質(zhì)量的監(jiān)督信號(hào)，適用于數(shù)學(xué)推理、醫(yī)療咨詢、創(chuàng)意寫作等缺乏標(biāo)準(zhǔn)答案的任務(wù)。

本文最大創(chuàng)新是將額外的推理計(jì)算轉(zhuǎn)化為監(jiān)督信號(hào)，在公式表達(dá)上：對(duì)于每個(gè)輸入提示 q，當(dāng)前策略在 GRPO 時(shí)間步 t 生成一組 G 個(gè)并行推演結(jié)果 o1:G。然后一個(gè)凍結(jié)的錨點(diǎn)策略（通常是初始模型）通過整合所有推演結(jié)果中的信息，解決遺漏和矛盾，合成一個(gè)統(tǒng)一的參考響應(yīng) s。最后是獎(jiǎng)勵(lì)生成，分兩種場景，將估計(jì)的參考響應(yīng) s 轉(zhuǎn)化為獎(jiǎng)勵(lì)信號(hào)。

此外，本文還通過提供獎(jiǎng)勵(lì)函數(shù)來優(yōu)化模型，使其接近預(yù)估參考值，稱之為 CaT-RL。

對(duì)于數(shù)學(xué)等可驗(yàn)證領(lǐng)域，這很容易。只需檢查預(yù)估參考答案是否與策略部署的答案相同即可。如果相同，則獎(jiǎng)勵(lì) +1！

對(duì)于自由聊天等不可驗(yàn)證領(lǐng)域，這要困難得多！因?yàn)橛泻芏嘤行Т鸢浮?所以本文做了一些不同的事情。

方法是模型再次查看預(yù)估參考值，并生成一個(gè)標(biāo)準(zhǔn)列表（一個(gè)評(píng)估標(biāo)準(zhǔn)），以二進(jìn)制是 / 否檢查表的形式對(duì)其進(jìn)行描述。然后，讓 GPT-4o 判斷每個(gè)策略部署是否滿足評(píng)估標(biāo)準(zhǔn)，并給予獎(jiǎng)勵(lì)。

實(shí)驗(yàn)

本文評(píng)估了 Compute as Teacher 的兩種模式：CaT 和 CaT-RL，實(shí)驗(yàn)涵蓋三個(gè)模型系列：Gemma 3 4B、Qwen 3 4B 和 Llama 3.1 8B。

結(jié)果 1：CaT-RL 不僅超越了初始策略，其表現(xiàn)也優(yōu)于 CaT 方法（圖 4）。

結(jié)果 2：自擬評(píng)分標(biāo)準(zhǔn)（Self-proposed rubrics）在不可驗(yàn)證領(lǐng)域可以作為有效獎(jiǎng)勵(lì)。圖 5（左）顯示，自擬評(píng)分標(biāo)準(zhǔn)的表現(xiàn)優(yōu)于模型評(píng)判，并可與人類專家注釋相媲美。

結(jié)果 3：基于自擬評(píng)分標(biāo)準(zhǔn)的強(qiáng)化學(xué)習(xí)（CaT-RL）優(yōu)于監(jiān)督微調(diào)（SFT）。盡管在處理不可驗(yàn)證輸出時(shí)，SFT 是事實(shí)上的默認(rèn)方法，但在圖 5（右）中顯示：當(dāng)獎(jiǎng)勵(lì)來自自擬評(píng)分標(biāo)準(zhǔn)時(shí)，RL 效果更佳。

結(jié)果 4：CaT 比單樣本和選擇基線模型能產(chǎn)生更好的參考估計(jì)。圖 6 為在推理時(shí)間與其他方案進(jìn)行了比較，結(jié)果表明 CaT 產(chǎn)生的參考估計(jì)最強(qiáng)，并且用途最廣泛。

結(jié)果 5：CaT 會(huì)隨著 rollout 數(shù)量 G 的增加而擴(kuò)展。圖 7（左）顯示，在 MATH-500 上，擴(kuò)展是單調(diào)的，而在 HealthBench 上，CaT 在大約 4 次 rollout 后達(dá)到平臺(tái)期。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 模型訓(xùn)練