無需標注數據！TTRL用“少數服從多數”解鎖大模型測試時強化學習新范式

發布于 2025-5-6 07:09

瀏覽

0收藏

今天分享一篇來自清華大學和上海人工智能實驗室的文章，標題為 TTRL: Test-Time Reinforcement Learning（測試時強化學習）。

這篇文章探討了一個重要且具有挑戰性的問題：如何在沒有顯式標簽（ground-truth） 的情況下，利用強化學習（RL）在測試階段提升大型語言模型（LLM）在推理任務上的性能。核心挑戰在于測試時無法獲得真實的獎勵信號。

研究者們發現，像多數投票（majority voting） 這類在測試時擴展（Test-Time Scaling, TTS）中常用的策略，可以驚人地產生有效的獎勵信號來驅動RL訓練。基于此，他們提出了TTRL（Test-Time Reinforcement Learning），一種新穎的在無標簽數據上使用RL訓練LLM的方法。TTRL使得LLM能夠利用其預訓練模型中蘊含的先驗知識進行自我進化（self-evolution）。

核心方法：TTRL通過重復采樣生成多個候選答案，利用多數投票機制估計“偽標簽”，并基于此計算獎勵，最后通過RL算法（如GRPO、PPO）更新模型策略，整個過程僅依賴無標簽的測試數據。

主要亮點：

1. 無需標簽：在無標簽測試數據上即可通過RL提升模型性能，降低對標注數據的依賴。

2. 效果顯著：實驗表明TTRL在多種任務和模型上都能穩定提升性能，例如在AIME 2024數學競賽數據集上，僅用無標簽測試數據就將Qwen-2.5-Math-7B的pass@1性能提升了約159%。

3. 超越自洽：TTRL訓練后的模型性能能夠超越其自身用于生成獎勵信號的多數投票基線（Maj@N），甚至接近使用真實標簽進行RL訓練的性能上限。

4. 自我進化：展示了LLM在測試階段進行自我學習和改進的潛力。

一、概述

? Title: TTRL: Test-Time Reinforcement Learning

? URL:?? https://arxiv.org/abs/2504.16084??

? Authors: Yuxin Zuo1, Kaiyan Zhang1, Shang Qu1,2, Li Sheng1,2, Xuekai Zhu1, Biqing Qi2, Youbang Sun1, Ganqu Cui2, Ning Ding?1,2, Bowen Zhou?1,2 (*表示同等貢獻, +表示通訊作者)

? Institutions: 1Tsinghua University, 2Shanghai AI Lab

? Code:?? https://github.com/PRIME-RL/TTRL??

1.Motivation

? 缺乏測試時獎勵信號：在LLM推理任務中，尤其是在部署或面對新數據流時，往往缺乏真實的標簽或獎勵信息，這使得應用傳統的RL方法進行在線或測試時優化變得困難。

? 持續學習與適應需求：現實世界任務復雜多變，模型需要能夠適應新的、未標記的數據分布。僅依賴大規模訓練數據進行預訓練和微調不足以應對這種動態性。

? 測試時擴展（TTS）的潛力未充分挖掘：現有的TTS方法（如自洽性、多數投票）主要用于提升單次推理的準確性，但這些方法產生的聚合信號（如多數投票結果）本身可能蘊含著可用于模型訓練的監督信息，這一潛力尚未被用于測試時訓練。

2.Methods

省流版總結:

TTRL的核心思想是在測試階段，利用模型自身生成的多個輸出來構造一個“偽”獎勵信號，然后用這個信號通過RL來優化模型自身。具體來說：模型針對一個無標簽的測試問題生成多個（N個）答案，通過多數投票選出最頻繁的答案作為“偽標簽”。然后，將每個生成答案與這個“偽標簽”進行比較，匹配則獎勵為1，否則為0。最后，使用這個基于規則生成的獎勵信號，通過標準的RL算法（如GRPO或PPO）來更新模型參數，使其傾向于生成更符合“共識”（即多數投票結果）的答案。這個過程完全在無標簽的測試數據上進行。

詳細方法和步驟:

TTRL方法結合了測試時推理（TTI，如多數投票）和測試時訓練（TTT）的思想，具體步驟如下（參考Figure 2）：

1）輸入 (Input): 給定一個無標簽的測試數據（問題/prompt） ??x??。

2）候選生成 (Candidate Generation): 使用當前的模型策略 ??πθ(y|x)???（參數為θ）對輸入 ??x??? 進行多次（N次）采樣，生成一組候選輸出（答案） ??{??, ??, ..., ?N}??。實踐中，會使用較高的temperature（如1.0）來增加多樣性。

3） 標簽估計 (Label Estimation):

? 對每個候選輸出 ?????? 進行答案提取（例如，提取數學題的最終數字答案）。

? 使用多數投票 (Majority Voting, MV) 機制，統計所有提取出的答案，選擇出現次數最多的那個答案作為該問題的估計標簽（偽標簽） ??y??。

4）獎勵計算 (Reward Calculation):

? 根據預定義的獎勵函數（如Listing 1所示的規則），計算每個候選輸出 ??????? 相對于估計標簽 ??y??? 的獎勵 ??R(??, y)??。

? 最簡單的獎勵函數是：如果 ?????? 的提取答案等于 ??y??，則獎勵為1；否則獎勵為0。

5）RL 策略更新 (RL Update):

? 將生成的候選 ??{??}???、計算出的獎勵 ??{R(??, y)}??? 和原始輸入 ??x?? 作為經驗數據。

? 使用選定的RL算法（文章主要使用GRPO，也驗證了PPO）和這些經驗數據來計算策略梯度 ???θ E[R(y, y)]??。

? 根據梯度上升規則更新模型參數 ??θ???： ??θ ← θ + η ?θ E[R(y, y)]???，其中 ??η?? 是學習率。

6）迭代: 對測試集中的每個樣本重復以上過程，或者進行多輪（episodes）訓練。

關鍵點:

?無監督:整個過程不需要任何真實標簽。

?測試時:訓練發生在模型部署后的測試階段，利用的是當前的測試數據。

?自生成獎勵:獎勵信號是基于模型自身輸出的共識（多數投票）產生的。

3.Conclusion

?顯著性能提升:TTRL能夠在使用無標簽測試數據的情況下，顯著提升LLM在多種推理任務（尤其是數學推理）上的性能，例如在AIME 2024上提升Qwen-7B模型性能達159.3%，平均在三個基準上提升84.1%。

?超越自身信號上限:TTRL訓練后的模型性能不僅超過了其初始狀態，甚至超越了其用于生成訓練信號的多數投票性能指標（Maj@N），并能接近使用真實標簽進行RL訓練（RL Leakage）的性能上限。

?可行且有效的無監督RL:證明了在無監督（無標簽）條件下，通過巧妙設計獎勵函數（如多數投票），可以實現有效且穩定的LLM強化學習，為模型的持續學習和自我進化提供了可能途徑。

4.Limitation

?依賴先驗知識和模型能力:TTRL的效果很大程度上取決于基礎模型的初始能力和對目標任務的先驗知識。如果模型太弱或任務太難，多數投票可能無法產生有意義的偽標簽，導致TTRL失效（如在AIME 2024上對1.5B模型效果不明顯）。

?超參數敏感:作為一種RL方法，TTRL對超參數（如采樣溫度、學習率、訓練輪數/Episodes）比較敏感，需要仔細調整才能達到最佳效果和訓練穩定性。不當的設置可能導致訓練失敗（如Figure 10所示）。

?多數投票的局限性:依賴多數投票作為獎勵來源，可能不適用于所有類型的任務，例如那些沒有唯一正確答案或需要創造性輸出的任務。此外，當模型輸出高度一致（即使是錯誤的一致）時，多數投票可能失效。

?泛化性待驗證:目前實驗主要集中在數學推理基準上。TTRL在更廣泛、更開放的任務（如對話、代碼生成、Agentic任務）上的有效性和泛化能力有待進一步驗證。

二、詳細內容

1.TTRL 與多數投票基線性能比較 (Majority voting performance comparison)

無需標注數據！TTRL用“少數服從多數”解鎖大模型測試時強化學習新范式-AI.x社區

?說明:比較了基礎Qwen模型和經過TTRL訓練后的模型在Avg@64（平均性能）和Maj@64（多數投票性能）兩個指標上的表現。

?總結:TTRL不僅提升了模型的平均性能（Avg@64），也提升了多數投票性能（Maj@64）。關鍵在于，TTRL訓練后的Maj@64顯著高于訓練前的Maj@64，證明模型超越了其初始的、用于生成獎勵的信號質量。

2.訓練指標深度分析 (Comparison of Majority Ratio, Label Accuracy, and Reward Accuracy)

?說明:在AIME 2024上，繪制了TTRL訓練過程中三個關鍵指標隨步數的變化：多數票占比（Majority Ratio）、偽標簽準確率（Label Accuracy，與真實標簽對比）、獎勵準確率（Reward Accuracy，與真實獎勵對比）。
?總結:揭示了TTRL工作的關鍵：盡管偽標簽準確率可能很低（20%-50%），但由于獎勵是基于偽標簽計算的，其準確率（衡量獎勵信號是否正確反映了相對于偽標簽的優劣）卻出奇地高（初始接近92%），這為有效的RL優化提供了可靠的基礎。

3.主要實驗結果 (Main results of TTRL on each task)

?說明:列出了Qwen2.5-Math (1.5B, 7B) 和 LLaMA-3.1-8B-Instruct 模型在應用TTRL前后，以及與其他基線模型（包括Instruct版本和其他RL模型）在AIME 2024, AMC, MATH-500三個基準上的Pass@1準確率對比。

?總結:提供了TTRL有效性的核心量化證據。TTRL在所有測試模型和任務上均帶來提升，尤其是在7B模型和AIME 2024這種挑戰性任務上提升巨大。其性能可與其他在大量標注數據上訓練的RL模型相媲美甚至超越。

4.Why it work?

TTRL之所以有效，主要歸功于以下兩點：

1）強化學習（RL）本身對獎勵噪聲具有一定的容忍度，并且自生成的獎勵信號可能更適合引導當前模型的學習。

2）基于多數投票的獎勵計算機制，即使在偽標簽估計不準確的情況下，也能提供足夠有效且“稠密”的獎勵信號來指導學習。

下面是更詳細的解釋：這一部分從兩個關鍵方面分析TTRL有效的原因：標簽估計 (Label Estimations) 和 獎勵計算 (Reward Calculations)。

1）標簽估計 (Label Estimations)

?挑戰:TTRL的核心是使用模型自身通過多數投票生成的“偽標簽”來代替真實標簽進行RL訓練。這自然會引入不準確性，因為偽標簽可能與真實標簽不符。

?為什么可行？

?(i) RL的魯棒性:論文指出，強化學習（RL）與監督微調（SFT）不同。SFT傾向于記憶訓練數據，而RL更側重于探索和學習一個能最大化累積獎勵的策略。RL過程中的獎勵信號通常是比較“模糊”的（vague），主要起方向性引導作用，因此RL本身就能容忍一定程度的獎勵噪聲（引用了 Razin et al., 2025 和 Chu et al., 2025 的研究）。TTRL利用多數投票產生的帶噪聲的獎勵信號，正好符合RL的這一特性。

?(ii) “好老師”不等于“最準確”:論文引用了 Wang et al. (2020) 的觀點，即從優化角度看，一個更準確的獎勵模型并不一定是一個更好的“老師”。有時候，由策略模型自身估計出的獎勵信號（即使不完美），可能為當前策略的學習提供更“合適”的指導。

2）獎勵計算 (Reward Calculations)

?核心問題: 當模型能力較弱，無法通過多數投票準確估計標簽時（例如在困難的AIME 2024任務上），TTRL為什么還能工作？

?根本原因: 關鍵在于RL中基于規則的獎勵是如何定義的。獎勵是根據模型的預測答案是否匹配“標簽”來分配的。在TTRL中，這個“標簽”就是多數投票產生的偽標簽。

?重要洞見: 即使估計出的偽標簽是錯誤的，只要模型產生的某個（同樣是錯誤的）預測答案與這個錯誤的偽標簽不同，那么這個預測答案仍然會收到一個正確的“負獎勵”（例如獎勵為0）。這使得系統即使在偽標簽不準的情況下，也能從區分“與偽標簽相同”和“與偽標簽不同”中學習。

?案例分析 (AIME 2024, Figure 8 & 9):

獎勵比標簽更“稠密” (Rewards are denser than labels): 即使偽標簽錯了，在一次Rollout（N次采樣）中，可能有很多個預測答案。只要這些預測答案與錯誤的偽標簽不同，它們都會得到正確的“負獎勵”（獎勵=0）。這比僅僅依賴于是否匹配真實標簽（如果知道的話）要提供了更多的學習信號。Figure 9 的玩具示例形象地說明了這一點：偽標簽是2（真實是3），預測1/4/5/6雖然也是錯的，但因為它們不等于偽標簽2，所以它們都收到了值為0的正確獎勵信號（相對于偽標簽而言是正確的負反饋），只有預測2會收到錯誤的獎勵1。這使得整體的獎勵信號對偽標簽錯誤更加魯棒。

模型越弱，獎勵反而可能越準 (Paradoxical Phenomenon): 當基礎模型能力較弱時（如Figure 8中AIME任務初期），它的輸出會非常多樣化且大部分是錯誤的。這意味著，雖然通過多數投票選出的偽標簽準確率（Label Accuracy）很低（Figure 8顯示在20%-50%波動），但絕大多數生成的錯誤答案都不會恰好等于那個（可能也是錯誤的）偽標簽。因此，計算出的獎勵準確率 (Reward Accuracy)（即獎勵信號是否正確反映了預測相對于偽標簽的匹配度）反而會非常高（Figure 8顯示初始可達92%）。這種高準確率的（相對）獎勵信號為模型初期的自我改進提供了可靠的基礎。

三、總結

核心結論:

1.TTRL是一種有效的測試時優化方法:它成功地利用強化學習在沒有真實標簽的測試數據上提升了大型語言模型的推理能力，尤其是在數學等需要精確推理的任務上表現突出。

2.多數投票是關鍵:通過巧妙地利用多數投票機制生成偽標簽和獎勵信號，TTRL克服了測試時缺乏監督信息的挑戰，為RL訓練提供了有效（盡管有噪聲）的指導。

3.模型可實現自我進化:TTRL證明了LLM有能力通過利用自身輸出的“共識”進行學習和改進，其性能可以超越初始的自洽水平，展現了通向更自主、持續學習模型的潛力。

亮點與價值:

?降低標注成本:為模型在部署后適應新數據、提升特定任務性能提供了一條低成本（無需人工標注）的路徑。

?提升模型上限:TTRL發掘了模型在測試階段進一步優化的潛力，其性能可以逼近使用真實標簽訓練的上限，顯示出比傳統“訓練-評估”范式更高的效率潛力。

?范式創新:TTRL是探索LLM自我改進和無監督強化學習的重要一步，對持續學習、終身學習和Agent智能體領域具有啟發意義。

本文轉載自????NLP PaperWeekly????，作者：NLP PaperWeekly

標簽

TTRL

大模型

測試

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂