Self-Play Critic:以“對抗博弈”創新大語言模型推理評估

大家好,我是肆〇柒。今天,我想和大家聊一項創新的評估思路——Self-Play Critic(SPC)。大型語言模型(LLM)目前已成為我們生活和工作中不可或缺的工具。它們能夠處理各種復雜的任務,從寫作到翻譯,再到解決數學難題。然而,隨著這些模型的推理過程變得越來越復雜,如何確保它們的每一步推理都是可靠的?這個推理過程的可靠性評估,對于提升 LLM 的整體性能來說,至關重要。
現有的 CoT 訓練方法,比如監督微調(SFT)和從人類反饋中強化學習(RLHF),雖然在提升模型推理能力方面取得了一定成果,但獲取高質量步驟級監督數據的困難,以及模型快速更新迭代導致的標注過時等問題,都讓現有的驗證模型面臨巨大挑戰。
最近,我讀到了一篇論文《SPC: Evolving Self-Play Critic via Adversarial Games for LLM Reasoning》,里面講到了一種新方法——SPC。這個方法,通過自我對抗游戲機制,讓評判器能夠自我進化,無需依賴大量手動標注數據,為 LLM 推理評估提供了全新的思路。在這個機制中,誤導生成器會創建包含細微錯誤的步驟,以此來挑戰評判器,而評判器需要準確區分正確和錯誤的步驟,并提供批判。通過這種持續的對抗過程,SPC 不斷為評判器生成正負樣本,促使模型不斷進化,從而提升其評估能力。

對抗游戲生成強化訓練樣本
上圖就展示了SPC的核心思想。通過對抗游戲,SPC能夠持續生成用于強化訓練評判器的樣本。誤導生成器負責創建細微錯誤的步驟來挑戰評判器,而評判器則需要準確區分正確和錯誤的步驟并提供批判。借助這種對抗優化機制,兩個模型能夠相互學習,不斷提高自身能力,類似于人類通過棋類游戲提升技能的過程。
下面我們一起來看看這篇論文講了什么。
研究背景與動機
LLM 復雜任務處理與 CoT 推理過程的緊密聯系
大型語言模型(LLM)在處理復雜任務時,往往依賴于鏈式思考(CoT)推理過程。這種推理方式將復雜問題分解為多個步驟逐步解決,使得推理過程的可靠性直接關系到最終答案的準確性。例如,在解決數學應用題時,模型需要通過多步推理,包括理解題目、規劃解題步驟、逐步計算等,每一步的準確性都會影響最終結果。LLM 通過 CoT 推理過程,能夠在諸如數學求解、邏輯推理等多種復雜任務中展現出色的性能。但隨著 LLM 生成的 CoT 日趨復雜和多樣化,驗證推理過程的可靠性、分析潛在錯誤并指導測試時搜索以改進推理過程變得尤為重要。近期研究發現,盡管一些先進的 LLM 擅長進行深度思考并生成長 CoT,但其自我批判的有效比例仍然很低,且存在對自身推理過程自我批判的偏差。因此,開發一個能夠評估各種 LLM 推理步驟的簡單外部評判器,提供步驟級批判顯得尤為必要。
現有 CoT 訓練方法的局限性及對可靠性評估的需求
現有的 CoT 訓練方法,如監督微調(SFT)、從人類反饋中強化學習(RLHF)以及自我強化學習等,在提升模型推理能力方面取得了顯著成果。然而,這些方法在獲取高質量步驟級監督數據方面面臨很多困難。一方面,提取最終答案以確定解決方案的正確性并自動收集訓練數據相對簡單,但確定推理步驟的正確性并獲取用于訓練過程驗證器的高質量步驟級標注數據則要困難得多。另一方面,LLM 的快速更新迭代使得針對特定 LLM 輸出的人工專家標注可能因分布差異而不適用于最新 LLM。再有,僅限于步驟正確性標注的數據集限制了評判模型的訓練,使其無法提供實質性的反饋,而僅僅淪為一個評分機制。
SPC 方法論
SPC 框架概述
SPC(Self-Play Critic)是一種新穎的方法,它的核心思想是讓兩個模型:“誤導生成器”(sneaky generator)和“評判器”(critic),相互對抗、共同進化。我們可以把這想象成一場智力游戲。誤導生成器就像是一個搗蛋鬼,它的任務是故意制造錯誤,而且這些錯誤還要盡量隱蔽,能夠騙過評判器。評判器則像是一個偵探,它的任務是仔細分析推理步驟,判斷這些步驟是否正確,找出其中的錯誤。
這兩個模型可以分別由兩個相同的基模型微調而來。誤導生成器通過學習如何將正確的推理步驟轉換為錯誤的步驟,來制造 “陷阱”。而評判器則通過學習如何識別這些陷阱,來提升自己的評估能力。它們之間的對抗游戲,就像是一個永無止境的 “貓鼠游戲”。誤導生成器不斷嘗試制造更難被發現的錯誤,評判器則不斷努力提升自己的識別能力。通過這種方式,評判器的評估能力逐漸提升,最終能夠準確地評估 LLM 的推理步驟。
舉個例子,在解決一個數學問題時,誤導生成器可能會故意在某個計算步驟中引入一個小小的錯誤,比如將一個簡單的加法運算結果寫錯。評判器接收到這個錯誤步驟后,會仔細分析這個步驟,判斷它是否正確。如果評判器成功識破了這個錯誤,它就會獲得獎勵;而誤導生成器則會因為 “誤導” 不夠而受到懲罰。相反,如果誤導生成器成功騙過了評判器,誤導生成器就會獲得獎勵,評判器則會受到懲罰。就這樣,通過不斷地對抗和學習,兩個模型都在不斷地進步。

SPC 框架
SPC 框架中,部分解決方案和正確步驟輸入到誤導生成器中,生成錯誤步驟后由評判器進行評判。評判器成功識別錯誤獲得正向獎勵,反之則受到懲罰。這種機制推動模型不斷進化。
誤導生成器的初始化與優化
誤導生成器的初始化過程就像是給一個新手搗蛋鬼傳授一些基本技能。研究者首先使用了一個名為 Qwen2.5-7B-Instruct 的模型,并通過監督微調(SFT)的方式,讓這個模型具備了一些基本的錯誤生成能力。他們利用了一個名為 PRM800K 的數據集,這個數據集包含了大量正確和錯誤的推理步驟對。

然而,只有錯誤的步驟還不夠,這些錯誤必須能夠真正影響問題解決的成功率,才能算作是有效的錯誤。因此,在驗證誤導生成器生成的錯誤步驟時,研究者采用了一種自動化驗證方法。他們讓一個開源的 LLM 模型分別從正確的步驟和錯誤的步驟開始,完成整個問題的解決過程。如果從正確步驟開始的成功率明顯高于從錯誤步驟開始的成功率,那么就認為這個錯誤步驟是有效的。只有通過這種驗證的錯誤步驟,才會被用來訓練評判器。
步驟評判器的初始化
與誤導生成器相對的,是步驟評判器。評判器的任務是識別推理步驟的正確性,這就需要它具備強大的分析和判斷能力。為了實現這個目標,研究者采用了 DeepSeek-R1-Distill-Qwen-7B 模型,并結合了其他模型的優勢,將其打造成一個既能深入推理又能簡潔明了給出評判的 “評判團隊”。
他們首先讓 DeepSeek-R1-Distill-Qwen-7B 模型對數學問題的解答步驟進行初步評判,生成一篇長篇評判。然而,這些評判往往過于冗長,而且包含很多不必要的內容。為了使評判更加簡潔明了,研究者利用 GPT-4 模型對這些長篇評判進行改寫,生成簡潔標準化的評判。
例如,對于一個數學問題的解答步驟,DeepSeek-R1-Distill-Qwen-7B 模型可能生成如下評判:

然后,GPT-4 模型將其改寫為:

這樣,評判器就具備了簡潔明了給出評判的能力。在訓練數據的準備過程中,研究者將正確和錯誤的步驟以 1:1 的比例混合,確保評判器在訓練過程中能夠均衡地接觸到各種類型的步驟,從而具備全面的評估能力。
對抗游戲機制
對抗游戲機制是 SPC 框架的核心部分,它就像是兩個模型之間的 “智力競賽”。在每次對抗游戲迭代中,首先由不同模型家族的 LLM 解決器為每個問題生成原始步驟解決方案,這就像是不同的選手先給出自己的答案。然后,從這些解決方案中隨機選取單步進行誤導轉換,這就像是給這些答案設置一些 “陷阱”。

這種對抗目標,推動了模型性能的持續提升。就像選手們在不斷的對決中不斷提高自己的水平一樣,誤導生成器和評判器也在不斷地對抗和學習中進步。通過這種方式,評判器能夠逐漸提升自己的評估能力,最終能夠準確地評估 LLM 的推理步驟。
基于強化學習的進化
在每次對抗游戲結束后,誤導生成器和評判器都會根據游戲結果進行自我進化。這個過程就像是對模型進行 “專項訓練”。研究者采用離線強化學習的方式,基于對抗游戲生成的正負樣本,對評判器和誤導生成器分別進行訓練。
在每次迭代中,通過對抗游戲獲得正負樣本后,研究者采用離線強化學習分別對評判器和誤導生成器進行訓練,以實現基于游戲結果的自我改進。他們采用以下優化目標來實現高效穩定的 RL 訓練:

對于誤導生成器,考慮需要其生成實際錯誤步驟,研究者將未能影響問題解決成功率的誤導步驟視為負樣本。此外,成功影響 LLM 解決率但未能欺騙評判器的誤導步驟也被視為負樣本,而既能影響解決率又能欺騙評判器的誤導步驟則被視為正樣本。因此,訓練誤導生成器的數據包括正樣本和兩類負樣本,比例為 1:1:1。
對于評判器,研究者將正確解決方案中的正確步驟與誤導生成器生成的錯誤步驟混合,以供評判器預測。成功預測的樣本獲得正獎勵,錯誤預測的樣本獲得負獎勵。最終,正負樣本各占總樣本的一半。
基于對抗游戲,研究者采用迭代訓練來實現兩個角色的持續進化。在每次迭代中,新更新的策略參與對抗游戲以進一步生成數據,將初始策略更新為進化版本。有趣的是,研究者發現更平衡的對抗游戲有助于模型的自我進化。例如,初始誤導生成器 S0 比初始評判器 C0 弱,導致勝率不平衡。通過采用非對稱進化策略,讓更強的 S1 與 C0 進行更平衡的游戲以生成第二輪數據,從而使第二輪訓練的評判器 C2 進一步提升性能。
實驗設計與評估
評估基準與指標
為了全面評估 SPC 的性能,研究者精心設計了一系列實驗,并選擇了三個具有代表性的基準數據集:PRM800K、ProcessBench 和 DeltaBench。
PRM800K 數據集是由 OpenAI 收集的,包含了 800,000 個由 GPT 生成的推理步驟,這些步驟都經過了人工標注,明確指出了每一步的正確性。這個數據集的規模龐大,涵蓋了多種類型的推理問題,是一個非常有價值的訓練和評估資源。
ProcessBench 數據集則更具挑戰性,它包含了來自 12 個不同 LLM 的 3,400 個數學問題解答步驟,這些步驟的多樣性非常高。與 PRM800K 不同,ProcessBench 的數據不僅包括正確步驟,還涵蓋了各種錯誤類型,這使得它能夠更全面地評估模型在面對不同風格和錯誤類型的推理步驟時的表現。
DeltaBench 數據集則專注于評估長 CoT 的推理過程。長 CoT 推理是指在解決復雜問題時,模型需要生成較長的推理鏈條。這個數據集的難點在于,它要求模型不僅能夠識別單個步驟的正確性,還要能夠理解整個推理鏈條的連貫性和邏輯性。因此,DeltaBench 對模型的泛化能力和深度推理能力提出了更高的要求。
在評估指標方面,研究者選擇了準確率、召回率、平均值和調和平均值等指標。準確率衡量的是模型正確預測的比例,它能夠直觀地反映模型的性能。召回率則衡量模型識別所有正確或錯誤步驟的能力,它能夠確保模型不會遺漏重要的錯誤。平均值和調和平均值則綜合考慮了準確率和召回率的平衡,使得評估結果更加全面和客觀。
基線模型對比
為了驗證 SPC 的優勢,研究者將它與多種基線模型進行了對比。這些基線模型包括過程獎勵模型(PRM)和提示大型語言模型作為評判模型。
過程獎勵模型(PRM)是一種常見的推理過程評估方法,它通過為每一步驟分配分數來評估推理過程。例如,Math-Shepherd 和 Qwen2.5-Math-7B-PRM800K 都是基于 PRM 的模型,它們通過學習如何為每一步驟分配合理的分數,從而評估整個推理過程的質量。
提示大型語言模型作為評判模型則利用了模型的生成能力。這些模型通過生成對推理步驟的評判文本,來判斷步驟的正確性。例如,Llama、Qwen、R1 和 GPT-4 等模型都可以通過提示的方式,生成對推理步驟的詳細評判。
通過與這些基線模型的對比,研究者發現 SPC 在推理過程評判任務中具有顯著的優勢。SPC 不僅能夠更準確地識別推理步驟的正確性,還能夠更好地適應不同類型的推理問題和錯誤類型。這表明,SPC 的對抗游戲機制和強化學習進化策略,確實能夠提升模型的性能和泛化能力。
主要實驗結果
在三個基準數據集上的實驗結果非常令人鼓舞。在 ProcessBench 數據集上,SPC 的平均準確率從 70.8% 提升至 77.7%。這個提升幅度表明,SPC 能夠在面對多種不同 LLM 生成的解答步驟時,有效識別其中的錯誤類型,提升評估的準確性。例如,在處理一些復雜的數學問題時,SPC 能夠準確地識別出推理步驟中的邏輯錯誤和計算錯誤,從而給出正確的評判。
在 DeltaBench 數據集上,SPC 的性能提升也非常顯著,準確率從 54.9% 提升至 60.5%。這個數據集的難點在于評估長 CoT 的推理過程,而 SPC 的優勢在于能夠有效識別長推理鏈中的錯誤,保證推理過程的連貫性和準確性。例如,在處理一些需要多步推理的數學問題時,SPC 能夠準確地識別出推理鏈條中的薄弱環節,從而給出正確的評判。
此外,SPC 在 PRM800K 數據集上的表現也優于其他基線模型。例如,SPC(Round 2)在 PRM800K 上的平均準確率達到 75.8%,高于其他基線模型。這表明,SPC 通過對抗游戲和強化學習,能夠更好地學習如何評估推理步驟的正確性,從而提升模型的整體性能。
這些實驗結果表明,SPC 不僅在理論上具有創新性,而且在實際應用中也展現出了強大的性能和優勢。它能夠有效提升 LLM 的推理評估能力,為人工智能的發展提供了新的思路和方法。
模型 | GSM8K | MATH | OlympiadBench | OmniMATH | 平均 |
Math-Shepherd-PRM-7B | 58.0 | 58.4 | 68.0 | 64.1 | 62.1 |
Qwen2.5-Math-7B-PRM800K | 77.0 | 72.9 | 66.9 | 62.1 | 69.7 |
Llama-3.1-8B-Instruct | 59.5 | 57.7 | 53.6 | 53.9 | 56.2 |
Llama-3.1-70B-Instruct | 67.2 | 62.8 | 61.7 | 61.9 | 63.4 |
Qwen2.5-7B-Instruct | 64.2 | 64.0 | 62.1 | 60.8 | 62.8 |
Qwen2.5-32B-Instruct | 76.2 | 68.1 | 68.9 | 63.9 | 69.3 |
GPT-4o | 75.5 | 70.5 | 70.0 | 64.5 | 70.1 |
DeepSeek-R1-Distill-Qwen-7B | 79.0 | 81.3 | 73.4 | 67.3 | 75.2 |
SPC (Round 0) | 78.0 | 74.1 | 67.8 | 63.2 | 70.8 |
SPC (Round 1) | 82.0 | 80.3 | 74.8 | 70.3 | 76.8 |
SPC (Round 2) | 84.2 | 80.8 | 76.5 | 69.2 | 77.7 |
不同對抗訓練策略對評判器進化的影響
在消融研究中,研究者詳細分析了不同對抗訓練策略對評判器進化的影響。他們發現,構建配對樣本在強化學習訓練中具有顯著的效果。通過將成功欺騙評判器的錯誤步驟和未成功欺騙評判器的錯誤步驟配對,能夠幫助評判器更好地學習正確和錯誤步驟之間的差異特征,從而提升識別能力。
例如,在第一輪對抗訓練中,評判器通過學習配對樣本,能夠更準確地識別出錯誤步驟中的細微差別,從而將準確率從 70.8% 提升至 76.8%。而未構建配對樣本的方法,由于缺乏這種對比學習的機會,準確率僅達到 75.0%。
此外,研究者還探討了不同對抗游戲設置對模型性能的影響。他們發現,平衡對抗游戲能夠顯著提升評判器的泛化能力。例如,通過讓誤導生成器與不同輪次的評判器進行對抗,評判器能夠接觸到更多樣化的錯誤類型,從而在面對未知錯誤時具有更強的適應能力。相反,如果對抗游戲過于不平衡,比如誤導生成器的實力遠超評判器,評判器就很難從對抗中學習到有效的知識,導致性能下降。
消融研究
誤導生成器的性能分析
研究者分析了誤導生成器生成錯誤步驟的特點,并探討了其性能提升對評判器優化方向的影響。隨著迭代次數的增加,誤導生成器成功攻擊 LLM 解決器的比例從 21.5% 逐漸提升至 33.6%。同時,誤導生成器在對抗評判器時的勝率也從 20.6%(Sneaky-0)提升至 30.3%(Sneaky-2)。這表明,誤導生成器在生成錯誤步驟方面的能力不斷進化,能夠生成更具隱蔽性的錯誤,從而對評判器構成更大的挑戰。
此外,研究者還分析了一種未從解決器獲取失敗攻擊獎勵的訓練設置。結果表明,這種設置嚴重影響了誤導生成器的性能,成功攻擊比例大幅下降至 12.1%,且在成功攻擊的樣本中,能夠欺騙評判器的比例也很低。這強調了確保誤導生成器從解決器和評判器處獲取獎勵的重要性。


消融研究上面第一張圖展示了不同策略對評判器進化的影響,而下面那張圖展示了誤導生成器攻擊 LLM 解決器的成功率及其與不同輪次評判器對抗的勝率。
關鍵結論與啟示
SPC 在推理過程評估基準上的卓越表現充分證明了其有效性。通過對抗游戲和強化學習實現評判器自我進化的技術創新點,不僅提升了評判器的性能,還為 LLM 推理能力的提升提供了重要支持。SPC 的應用使 LLM 能夠在測試時搜索過程中及時糾正錯誤步驟,從而顯著提升數學推理性能。例如,在 MATH500 和 AIME2024 數據集上,SPC 輔助的 LLM 解決器性能顯著優于基線驗證器。
解決器 | 驗證器 | MATH500 | AIME2024 |
Llama-3.1-8B-Instruct | 無 | 47.0 | 4.27 |
自我一致性 | 55.6 | 3.33 | |
Math-Shepherd | 52.4 | 3.33 | |
Qwen2.5-Math-7B-PRM800K | 54.6 | 3.33 | |
自我一致性 + Math-Shepherd | 53.6 | 6.67 | |
自我一致性 + Qwen2.5-Math-7B-PRM800K | 60.4 | 3.33 | |
SPC | 54.5 | 5.63 | |
自我一致性 + SPC | 62.8 | 6.67 | |
Qwen2.5-32B-Instruct | 無 | 78.0 | 14.4 |
自我一致性 | 82.0 | 16.7 | |
Math-Shepherd | 78.8 | 13.3 | |
Qwen2.5-Math-7B-PRM800K | 82.8 | 16.7 | |
自我一致性 + Math-Shepherd | 80.8 | 13.3 | |
自我一致性 + Qwen2.5-Math-7B-PRM800K | 84.6 | 16.7 | |
SPC | 83.0 | 17.7 | |
自我一致性 + SPC | 85.2 | 23.3 | |
DeepSeek-R1-Distill-Qwen-7B | 無 | 87.7 | 53.8 |
自我一致性 | 92.2 | 70.0 | |
Math-Shepherd | 87.0 | 53.3 | |
Qwen2.5-Math-7B-PRM800K | 84.2 | 63.3 | |
自我一致性 + Math-Shepherd | 89.2 | 60.0 | |
自我一致性 + Qwen2.5-Math-7B-PRM800K | 91.8 | 73.3 | |
SPC | 92.3 | 52.6 | |
自我一致性 + SPC | 94.0 | 73.3 |
然而,SPC 在實際應用中也可能面臨一些挑戰,如計算資源消耗較高、對抗訓練的穩定性問題等。未來的研究可以進一步優化對抗游戲機制,拓展 SPC 在不同類型推理任務中的應用,并結合更多模型架構以提升性能。此外,SPC 的成功也為 LLM 推理評判領域提供了新的研究方向,如探索引入更多對抗角色或更復雜的對抗策略,以進一步提升模型的學習效果。
未來研究方向展望
未來的研究可以進一步優化 SPC 的對抗游戲機制,例如引入更多的對抗角色或設計更復雜的對抗策略,以提升模型的學習效果。此外,拓展 SPC 在不同類型推理任務中的應用,如自然語言推理、邏輯推理等,將有助于驗證其通用性和適應性。結合更多模型架構,如 Transformer 的變體、新型神經網絡結構等,也將進一步提升 SPC 的性能和效率。
同時,將 SPC 方法與其他先進技術相結合也是一個值得探索的方向。例如,與提示學習(Prompt Learning)、模型蒸餾等技術融合,可以在提高模型性能的同時,降低計算成本并增強模型的可解釋性。這些結合將推動 LLM 推理評判領域的進一步發展。
潛在的社會影響
SPC 技術具有顯著的積極社會影響。它能夠提升 LLM 在醫療、教育、金融等各個領域的應用可靠性,促進人工智能技術的廣泛采用和推廣。例如,在醫療領域,SPC 可以幫助提升診斷系統的準確性;在教育領域,它可以輔助開發更智能的輔導工具;在金融領域,它可以增強風險評估模型的可靠性。此外,SPC 還有助于研究人員更深入地理解 LLM 的推理機制,為開發更智能、更可靠的 AI 系統提供理論基礎和技術支持。
然而,也存在潛在的負面社會影響。例如,誤導生成器可能被濫用以生成虛假或誤導性信息,從而造成不良影響。因此,研究如何增強 LLM 的魯棒性以及訓練通用評判器自動審查網絡虛假信息顯得特別重要且急迫。
總結、感想
通過了解 SPC 給我的感受就是,模型的訓練越來越從“農業社會”向“工業社會”進化。SPC 不僅解決了傳統方法中對大量手動標注數據的依賴問題,還通過創新的對抗游戲機制實現了評判器的自我進化。這種技術的突破讓我看到了AI 的進化在未來應用中的巨大潛力,無論是提升模型性能還是拓展應用場景,都具有重要意義。
SPC 巧妙地利用了兩個模型之間的對抗關系,通過不斷生成和識別錯誤步驟,實現了雙方的共同進步。這種自我強化的學習方式不僅高效,而且具有很強的適應性,能夠隨著 LLM 的更新迭代持續提升性能。所以,AI 的發展,從技術角度不是僅構建更強大的模型,而是應該動態的設計出能夠自我優化和進化的系統。
當然一體兩面的看, SPC 在實際應用中可能會帶來一些社會性影響。比如,它有望在多個領域提升 AI 系統的可靠性和性能,為大家帶來便利;但,另一方面,也需要小心 SPC 可能被濫用的風險(往壞處想想,不展開)。
不過,SPC 作為一項創新的技術,不僅在學術研究中具有重要價值,也為工業界的應用提供了新的思路和方法。SPC 這種方式,一定會在 AI 發展中發揮重要的作用。



































