AgentRM 獎勵建模：智能體泛化能力的“導航儀”與“加速器”

作者：肆零柒 2025-07-25 10:06:41

AgentRM 提出三種獎勵模型方法，顯式獎勵建模、隱式獎勵建模和LLM作為裁判。AgentRM 通過創(chuàng)新的獎勵建模和測試時搜索機制，顯著提升了智能體在未見任務中的表現，為智能體的泛化能力提升提出新思路。

大家好，我是肆〇柒。在 AI 領域，大型語言模型（LLM）基礎智能體正逐漸成為解決復雜交互任務的關鍵力量。然而，一個不容忽視的問題是：盡管它們在訓練中見過的任務上表現出色，但面對未見過的新任務時，泛化能力卻往往不盡人意。這就好比一個學生在題海戰(zhàn)術中刷過的題目上能拿高分，但面對新題目時卻無從下手。所以，為了提升智能體的泛化能力，研究者們提出了眾多方法，其中 AgentRM 以其獨特視角和創(chuàng)新機制，讓我看到了通用獎勵模型的一種可能。這是出自清華大學今年 2 月發(fā)表的一篇研究論文《AgentRM: Enhancing Agent Generalization with Reward Modeling》。3 月的時候我已看過一遍，因剛結束不久的智源大會提及，所以，我又過了一遍這篇論文，今天和大家一起再重溫一下。

剛才，在文章開頭，我們就提到基礎智能體泛化能力不足的問題。現有智能體大都經過多任務微調，通過接觸多樣化任務來提升泛化性。然而，這種方式并非一勞永逸。多任務微調雖能在一定程度上擴展智能體的能力邊界，卻也存在明顯局限性。一方面，隨著任務數量的增加，微調過程變得愈發(fā)復雜，模型容易陷入過擬合困境，對訓練中見過的任務愈發(fā)熟練，對未見過的任務卻依然無能為力。另一方面，不同任務間的數據分布和特征差異，可能導致智能體在學習新任務時遺忘之前掌握的任務模式，陷入 “負遷移” 的尷尬境地。而微調獎勵模型可能會帶來另外一種收益。

下圖清晰地展示了微調獎勵模型，相較于微調策略模型在智能體任務中的更魯棒性能。其中，（a）顯示了微調策略模型會導致未見任務性能嚴重下降；b）和（c）分別展示了使用獎勵模型進行 Best-of-5 采樣時，在微調策略模型和微調獎勵模型后的性能表現，對比鮮明地揭示了微調獎勵模型的優(yōu)勢。

在智能體任務中，對獎勵模型進行微調比對策略模型進行微調會更加穩(wěn)健

AgentRM 方法論

行為克隆：搭建智能體的 “起跑線”

在 AgentRM 的方法體系中，行為克隆是構建初始策略模型的關鍵步驟，為后續(xù)的獎勵建模和智能體優(yōu)化奠定了堅實基礎。研究者們從海量的訓練集中精心篩選出一部分具有代表性的任務指令，這些指令覆蓋了智能體需要掌握的核心技能和典型場景。隨后，借助專家智能體的精準標注，對這些任務指令進行高質量的示范演繹，生成一系列專家軌跡。這些軌跡猶如經驗豐富的導師親手書寫的 “標準答案”，為智能體的學習提供了明確的方向和參照。

基于這些專家軌跡，研究者們采用監(jiān)督微調（SFT）技術，對初始策略模型進行針對性訓練。在訓練過程中，模型通過反復觀摩專家軌跡中的決策邏輯和行動模式，逐漸學會了在不同場景下如何做出合理的選擇。這一過程就像是智能體在進行一場場高強度的 “模擬考試”，在不斷的練習和糾正中，逐步掌握了基礎的任務解決能力。最終，經過監(jiān)督微調的初始策略模型 πinit 脫穎而出，它具備了扎實的基本功，能夠應對訓練集中常見的任務類型，并為后續(xù)的探索和優(yōu)化積累了寶貴的經驗，為智能體在復雜多變的任務環(huán)境中脫穎而出做好了準備。

獎勵建模：解鎖智能體泛化的 “秘鑰”

下圖向我們展示了 AgentRM 方法的總體框架。包括通過行為克隆（SFT）在專家軌跡上導出初始策略模型；利用初始策略模型探索環(huán)境構建搜索樹；從搜索樹中提取狀態(tài) - 獎勵對訓練通用獎勵模型；以及在推理階段，使用獎勵模型指導策略模型的決策過程，無論策略模型的初始強度如何，都能增強其決策能力。

概述：? 基于專家軌跡訓練一個監(jiān)督式微調（SFT）智能體；? 使用SFT智能體探索環(huán)境，構建搜索樹；? 在從搜索樹中提取的狀態(tài)-獎勵對上訓練一個可泛化的獎勵模型；? 無論初始策略模型的強度如何，通過獎勵模型引導的測試時搜索來增強策略模型，以應對未見過的任務，例如具身規(guī)劃、文字游戲、工具使用等

顯式獎勵建模 —— 精準的 “導航儀”

顯式獎勵建模是 AgentRM 的核心創(chuàng)新之一，它借助樹搜索技術，為智能體的每一步行動都賦予了清晰明確的獎勵信號，就像為智能體配備了一個高精度的導航儀，使其在復雜任務的 “迷宮” 中也能精準定位方向。

在這一方法中，研究者們將智能體的搜索軌跡構建為樹狀結構，每個節(jié)點代表智能體在特定狀態(tài)下的決策點，每條邊則表示智能體采取的具體行動。從初始狀態(tài)開始，智能體依據當前策略模型，在策略模型的引導下逐步擴展搜索樹。在每一次擴展過程中，智能體都會從當前節(jié)點出發(fā)，基于策略模型隨機采樣多個可能的行動，并預估這些行動可能導致的后續(xù)狀態(tài)。為了避免重復探索，節(jié)省計算資源，算法采用了蒙特卡洛樹搜索（MCTS）的策略，通過計算 Upper Confidence Bound（UCB）值來選擇最具潛力的節(jié)點進行擴展。

當搜索樹逐步構建完成后，研究者們從樹中提取每個狀態(tài)對應的價值估計 V(st)，并以此為基礎構建獎勵模型的訓練數據集。在模型訓練階段，一個帶有價值預測頭的語言模型被用來擬合這些狀態(tài) - 價值對。通過最小化預測值與真實值之間的均方誤差（MSE），模型逐漸學會了如何準確評估智能體在不同狀態(tài)下所采取行動的好壞優(yōu)劣。這種基于顯式獎勵建模的方法，能夠將稀疏的結果獎勵合理分配到任務的每一步，還能讓智能體在執(zhí)行任務的過程中實時獲得反饋，從而及時調整策略，優(yōu)化決策路徑。

顯式獎勵建模 的核心在于通過樹搜索構建一個全面且精細的狀態(tài)價值估計體系。這一過程要求模型能夠準確預測每個狀態(tài)的潛在價值，還要求模型能夠在不同狀態(tài)之間建立有效的關聯，從而形成一個連貫的價值網絡。例如，在處理復雜的網頁導航任務時，智能體需要理解不同網頁元素之間的關系以及用戶可能的交互意圖。通過對這些元素和意圖的綜合評估，顯式獎勵建模能夠為智能體提供明確的行動指引，使其能夠高效地完成任務目標。

此外，顯式獎勵建模在處理具有長期依賴關系的任務時展現出獨特的優(yōu)勢。例如，在科學實驗模擬任務中，智能體需要根據一系列連續(xù)的實驗步驟和觀察結果來調整后續(xù)的實驗操作。顯式獎勵建模通過構建一個動態(tài)的價值估計網絡，能夠捕捉到這些長期依賴關系，并為智能體提供及時且準確的反饋，從而幫助智能體在復雜的實驗環(huán)境中做出最優(yōu)決策。

隱式獎勵建模 —— 深藏不露的 “智慧源泉”

相較于顯式獎勵建模的直觀與透明，隱式獎勵建模則更像是一位深藏不露的智者，它不依賴于外部的標注信息，而是通過挖掘策略模型自身的優(yōu)勢函數，巧妙地推導出過程獎勵。

在隱式獎勵建模中，過程獎勵被定義為優(yōu)勢（Advantage），即智能體在某個狀態(tài)下采取特定行動相較于其他行動所能帶來的額外收益。具體一點，結果獎勵被參數化為策略模型和參考模型的對數似然比，通過數學歸納法，研究者們證明了 Q 值（即從當前狀態(tài)開始，采取特定行動后所能獲得的期望累積獎勵）可以在策略模型的訓練過程中被隱式地學習到。基于此，過程獎勵可以通過相鄰時間步的 Q 值之差來計算得出。

在實際操作中，對于每個任務指令，研究者們會通過策略模型采樣多條完整軌跡，并利用這些軌跡構建訓練數據集。隨后，一個語言模型被訓練用來預測這些軌跡中每個狀態(tài)的優(yōu)勢值。與顯式獎勵建模不同的是，這里采用的是均方誤差（MSE）損失函數來衡量預測值與真實值之間的差距，而非像某些傳統(tǒng)方法那樣使用交叉熵損失。這種隱式獎勵建模方法的優(yōu)勢在于，它無需額外的標注成本，能夠充分利用策略模型自身的特性，挖掘出隱藏在數據背后的獎勵信號，為智能體的優(yōu)化提供了一種高效且經濟的途徑。

隱式獎勵建模 的獨特之處在于其對策略模型內部信息的深度挖掘。通過分析策略模型的優(yōu)勢函數，隱式獎勵建模能夠揭示出智能體在不同狀態(tài)下的潛在行動價值，而無需依賴外部的標注信息。這種方法在處理具有高度不確定性和多樣性的任務時表現出色。例如，在處理用戶生成內容的審核任務時，智能體需要對各種復雜的文本內容進行快速且準確的評估。隱式獎勵建模通過分析策略模型在不同文本片段上的表現，能夠為智能體提供一個內在的評估標準，幫助其在面對新內容時做出合理的決策。

另外，隱式獎勵建模在多任務學習場景中具有顯著的優(yōu)勢。由于它不依賴于任務特定的標注信息，因此能夠更靈活地適應不同類型的任務需求。例如，在同時處理網頁導航和文本游戲任務時，智能體可以利用隱式獎勵建模從一個任務中學習到的知識遷移到另一個任務中，從而提高其在多個任務上的整體性能。

LLM-as-a-judge —— 隨時隨地的 “裁判”

除了上述兩種基于模型訓練的獎勵建模方法外，AgentRM 還創(chuàng)造性地引入了 LLM-as-a-judge 這一獨特的訓練免費獎勵模型。這種方法跳出了傳統(tǒng)獎勵建模依賴復雜訓練過程的框架，直接借助大型語言模型的強大語言理解和推理能力，對智能體的行動軌跡進行即時評估，就像一位隨時隨地可用的智能裁判。

在實際應用中，研究者們精心設計了一系列提示指令，將 LLM 打造成一個軌跡獎勵模型。當需要對智能體的行動軌跡進行評估時，首先向 LLM 提供詳細的任務描述和目標，使其對任務要求有清晰的認識。接著，將多個候選軌跡呈現給 LLM，讓 LLM 對這些軌跡進行對比分析。最后，通過強制 LLM 調用特定的函數，從多個候選答案中挑選出最符合任務要求的那一個。如下就是 LLM-as-a-judge prompt 示例：

You are trajectory reward model, an expert in defining which trajectory is better and closer to solving the task. Here is the task description:
*******************************
task description: {task_description}
task goal: {task_goal}
*******************************
Here are several candidates. They are all trying to solve the task. Their trajectories are as follows.
*******************************
CANDIDATE1:
{candidate_1}
*******************************
CANDIDATE2:
{candidate_2}
*******************************
CANIDATE3:
{candidate_3}
*******************************
CANIDATE4:
{candidate_4}
*******************************
CANIDATE5:
{candidate_5}
*******************************

這樣可以強制讓 LLM 調用以下函數來給出答案：

[{
"type": "function",
"function": {
"name": "choose_preferred_answer",
"description": "Choose the preferred answer for the task within all given answers.",
"parameters": {
"type": "object",
"properties": {
"preference": {
"type": "number",
"enum": [1, 2, 3, 4, 5],
"description": "The index of the preferred answer in all given answers (ranging from 1 to 5)."
},
},
}
}
}]

這種方法的優(yōu)勢在于其靈活性和高效性，無需復雜的訓練過程，能夠快速適應各種不同類型的任務，為智能體的實時評估和優(yōu)化提供了一種簡便易行的解決方案。

LLM-as-a-judge 方法的核心 在于利用大型語言模型的通用性和適應性。通過精心設計的提示指令，LLM 能夠在不同的任務場景中快速切換角色，從一個任務的裁判轉變?yōu)榱硪粋€任務的裁判。例如，在處理多語言文本生成任務時，LLM 可以根據不同的語言和文化背景，對智能體生成的文本進行準確評估，確保其符合特定語言的語法和語義要求。

LLM-as-a-judge 方法在處理具有高度復雜性和多樣性的任務時表現出色。例如，在處理跨領域的問題解決任務時，智能體需要在不同的知識領域之間進行快速切換和整合。LLM-as-a-judge 能夠憑借其強大的語言理解和推理能力，為智能體提供即時的反饋，幫助其在復雜多變的任務環(huán)境中保持高效的決策能力。

獎勵引導搜索：智能體決策的 “加速器”

Best-of-N 采樣 —— 精挑細選的 “決策助手”

在測試階段，為了充分利用獎勵模型的評估能力，提升智能體的決策質量，AgentRM 采用了 Best-of-N 采樣方法。簡單來說，這種方法就像是為智能體配備了一個精挑細選的決策助手，在面對復雜任務時，能夠幫助智能體從眾多可能的行動方案中選出最優(yōu)的那個。

具體操作過程中，智能體會依據當前策略模型，一次性生成 N 條完整的行動軌跡。這些軌跡就像是智能體在腦海中快速模擬出的多種未來情景，涵蓋了各種可能的行動路徑和決策選擇。隨后，這些軌跡被逐一輸入到獎勵模型中進行評估。獎勵模型基于其對任務目標和獎勵機制的理解，為每條軌跡打分，就像一位嚴格的評委對每個參賽作品進行打分一樣。最終，智能體依據這些分數，選擇得分最高的那條軌跡作為最終的行動方案。這個過程可以有效提升智能體在面對復雜任務時的決策質量，還能夠充分利用策略模型的生成能力和獎勵模型的評估能力，實現兩者的完美結合。

Best-of-N 采樣方法 的核心在于通過多樣化的軌跡生成和精準的評估選擇，為智能體提供最優(yōu)的決策路徑。這種方法在處理具有高度不確定性和復雜性的任務時表現出色。例如，在處理多目標優(yōu)化任務時，智能體需要在多個相互沖突的目標之間找到最優(yōu)的平衡點。通過 Best-of-N 采樣，智能體可以生成多種可能的解決方案，并通過獎勵模型對這些方案進行全面評估，從而選出最符合任務要求的最優(yōu)解。

Best-of-N 采樣方法在多智能體協(xié)作任務中也具有顯著優(yōu)勢。在多智能體環(huán)境中，每個智能體都需要根據其他智能體的行為和環(huán)境狀態(tài)做出合理的決策。通過 Best-of-N 采樣，每個智能體可以生成多種可能的行動方案，并通過獎勵模型評估這些方案在協(xié)作環(huán)境中的效果，從而選擇出最優(yōu)的行動路徑，提高整個多智能體系統(tǒng)的協(xié)作效率。

步級 beam search —— 穩(wěn)扎穩(wěn)打的 “探索先鋒”

如果說 Best-of-N 采樣是智能體在多個完整方案中進行選擇，那么步級 beam search 則更像是智能體在每一步決策中都進行穩(wěn)扎穩(wěn)打的探索，逐步構建出最優(yōu)的行動路徑。在步級 beam search 過程中，智能體的行動被分解為多個步驟，每一步都依據獎勵模型的評估進行優(yōu)化。

初始階段，智能體為第一步采樣 W1×W2 個初始動作，這些動作涵蓋了多種可能的決策方向。接下來，對這些動作進行評分，利用獎勵模型評估每個動作可能導致的后續(xù)狀態(tài)的價值。根據評分結果，智能體僅保留得分最高的 W1 個狀態(tài)，淘汰掉那些不太可能帶來好結果的選項。在動作擴展階段，智能體為每個保留下來的狀態(tài)進一步采樣 W2 個動作，從而生成 W1×W2 個新的狀態(tài)。然后，智能體再次對這些新狀態(tài)進行評分、過濾和擴展，不斷重復這一過程，直到所有保留狀態(tài)都完成了任務或達到了最大步數限制。這種方法能夠在保證探索多樣性的同時，逐步聚焦于最有潛力的決策路徑，使智能體在復雜任務環(huán)境中更加穩(wěn)健地前行。

步級 beam search 方法 的核心在于通過逐步優(yōu)化和篩選，為智能體提供一條穩(wěn)健的行動路徑。這種方法在處理具有長期依賴關系和復雜決策序列的任務時表現出色。例如，在處理復雜的機器人路徑規(guī)劃任務時，智能體需要根據環(huán)境中的障礙物和目標位置，逐步調整其行動路徑。通過步級 beam search ，智能體可以在每一步都對可能的行動方向進行評估和選擇，從而逐步構建出一條最優(yōu)的路徑，避免在復雜的環(huán)境中迷失方向。

此外，步級 beam search 方法在多任務學習場景中也具有顯著優(yōu)勢。由于其能夠逐步優(yōu)化決策路徑，因此可以更好地適應不同類型任務的需求。例如，在同時處理網頁導航和文本游戲任務時，智能體可以通過步級 beam search 在每一步都對任務目標和環(huán)境狀態(tài)進行評估，從而選擇出最優(yōu)的行動方案，提高其在多個任務上的整體性能。

小結 AgentRM 方法論

AgentRM 方法通過行為克隆、獎勵建模和獎勵引導搜索等關鍵技術，為智能體的泛化能力提升提供了一套完整的解決方案。顯式獎勵建模和隱式獎勵建模分別從不同角度為智能體提供了精準的獎勵信號，而 LLM-as-a-judge 方法則為智能體提供了靈活的實時評估能力。Best-of-N 采樣和步級 beam search 方法則在測試階段為智能體的決策提供了優(yōu)化支持。這些方法的結合可以顯著提升智能體在復雜任務中的表現，為智能體的泛化能力提升提供了新的思路和方向。

實驗設計與結果分析

實驗基線對比：與強大對手的 “巔峰對決”

為了全面評估 AgentRM 的性能，研究者們精心設計了一系列實驗，將其與多種現有的智能體方法進行了對比。對比方法包括原始貪婪搜索、任務特定智能體（如 SPIN、NAT、ETO 等）以及通用智能體（如 Agent - FLAN、AgentGym、AgentGen 等）。這些對比方法各具特色，代表了當前智能體領域的不同發(fā)展方向。

原始貪婪搜索作為一種基礎的決策方法，智能體在每一步都選擇當前看起來最優(yōu)的行動，不考慮未來的不確定性和可能的更好結果。任務特定智能體則專注于某一特定類型的任務，經過專門的優(yōu)化和訓練，在特定領域內展現出了卓越的性能。例如，SPIN 通過增強專家軌跡數據集，提升了智能體在特定任務上的表現；NAT 和 ETO 則通過引入失敗軌跡，讓智能體從錯誤中學習，進一步增強了其應對復雜情況的能力。

通用智能體的目標則更為宏大，它們可以通過多任務學習，掌握多種不同類型任務的解決方法，實現更廣泛的泛化能力。Agent - FLAN 專注于優(yōu)化 LLM 的 “思考” 過程，通過精心設計的提示和訓練方法，讓智能體在多種任務中展現出靈活的思維能力；AgentGym 則通過持續(xù)學習和動態(tài)調整，使智能體能夠不斷適應新任務和新環(huán)境；AgentGen 借助 LLM 合成多樣化數據，為智能體的訓練提供了豐富的素材，拓寬了其能力邊界。

在與這些強大對手的對比中，AgentRM 以其獨特的獎勵建模方法脫穎而出，它在已見任務上保持了競爭力，更在未見任務上展現出了卓越的泛化能力，為智能體領域的發(fā)展提供了一種新思路。

實驗設置：精細入微的 “標尺”

數據集：智能體能力的 “練兵場”

實驗的數據集選取了多個具有代表性的智能體任務，它們猶如智能體能力的 “練兵場”，全面覆蓋了智能體在實際應用中可能遇到的各種場景和挑戰(zhàn)。其中，已見任務包括 ETO 中的 Webshop（網頁導航）、Alfworld（實體家庭操作）和 Sciworld（實體科學實驗）三個任務。這些任務具有明確的指令和目標，并且還涉及到復雜的環(huán)境交互和長期決策，能夠充分考驗智能體的基本能力和泛化潛力。

已保留任務和未保留任務的統(tǒng)計數據。“Prog./Succ.”表示進展/成功率

為了更全面地評估智能體的泛化性能，研究者們還從 AgentBoard 和 AgentGym 中選取了一系列未見任務。這些任務在環(huán)境動態(tài)性、任務目標和操作要求等方面與已見任務存在顯著差異，能夠有效檢驗智能體在陌生環(huán)境中的適應能力和遷移學習效果。在處理 Alfworld 和 Sciworld 任務時，研究者們特別注意了不同來源數據的一致性問題，確保實驗結果的可靠性和可比性。

評估指標：衡量智能體表現的 “標尺”

在評估指標方面，研究者們根據不同任務的特點，采用了成功率和進度率兩種指標來衡量智能體的表現。Maze 和 Alfworld（ETO）任務提供了成功率指標，它清晰地反映了智能體是否能夠成功完成任務目標，是一個簡單直接的評價標準。對于其他任務，則采用了進度率指標，該指標以標量形式衡量智能體對任務完成進度的推進程度，能夠更細膩地反映智能體在復雜任務中的表現。最終，研究者們以每個任務的平均獎勵作為綜合評估指標，將成功率和進度率有機結合起來，全面衡量智能體在不同任務中的整體表現。

實現細節(jié)：實驗落地的 “基礎設施”

在實現細節(jié)上，研究者們選擇了 LLaMA3-8B-Instruct 系列模型作為策略模型，這一選擇基于其在自然語言處理領域的卓越性能和廣泛的適用性。為了獲得高質量的初始策略模型和獎勵模型訓練數據，研究者們對專家軌跡數據進行了合理劃分。1/4 的專家軌跡用于監(jiān)督微調（SFT），通過模仿專家的決策路徑，讓初始策略模型掌握基本任務技能；剩余 3/4 的專家軌跡則用于構建獎勵模型訓練數據，為智能體的優(yōu)化提供了豐富的反饋信息。這些精心設計的實現細節(jié)，為實驗的成功落地提供了堅實的基礎設施保障。

不同階段的訓練超參數

結果呈現與解讀：數據背后的 “真相” 與 “驚喜”

與通用智能體對比：泛化能力的 “分水嶺”

在與通用智能體的對比中，下表的數據揭示了一個令人深思的現象。現有通用智能體在已見任務上普遍存在嚴重過擬合的問題，其整體性能甚至未能超越原始貪婪搜索這一簡單基線。這一結果表明，盡管這些通用智能體在多任務學習方面做出了諸多努力，但它們在平衡已見任務和未見任務性能方面仍存在較大缺陷。

性能與通用智能體的對比分析。帶有*號的任務表示在策略訓練期間已經見過，并作為保留任務進行評估

然而，AgentRM 的三種獎勵建模方法卻展現出了截然不同的局面。顯式 RM 表現最為出色，平均性能提升了 8.8 個點，遠超其他方法。這一顯著提升，證明了顯式獎勵建模在捕捉任務關鍵特征和引導智能體優(yōu)化方面的優(yōu)勢，也為智能體的泛化能力提升提供了一條切實可行的路徑。此外，在與已見任務具有一定相似性的 Babyai 任務上，顯式 RM 展現出了明顯的正遷移效應，進一步驗證了其在知識遷移方面的潛力。而部分策略模型在未訓練任務上出現的負遷移現象，則從反面凸顯了 AgentRM 方法的穩(wěn)健性和優(yōu)勢。

值得注意的是，LLM-as-a-judge 方法在整體性能上較貪婪搜索略有下降，但在一些相對簡單的任務上，如工具相關任務，卻表現出了相對較好的性能。這表明，LLM-as-a-judge 在面對簡單任務時，能夠憑借其強大的語言理解和推理能力，快速準確地做出評估，為智能體提供有效的指導。

與任務特定智能體對比：多任務精通的 “新星”

在與任務特定智能體的對比中，下表的數據令人興奮。使用顯式 RM 的 Best-of-5 方法在三個已見任務上分別提升了策略模型 9.6、23.2 和 9.5 個點，下表這一卓越表現成功超越了多個頂級任務特定智能體。這一結果猶如一顆新星崛起，證明了 AgentRM 方法在多任務精通方面的巨大潛力。

與特定任務型 Agent 的比較

與傳統(tǒng)任務特定智能體不同，AgentRM 無需為每個任務單獨訓練策略模型，而是通過一個通用的獎勵模型，在多個任務上實現了性能的全面提升。這種方法不僅降低了訓練和維護成本，還為智能體在實際應用場景中應對多種不同類型任務提供了可能。例如，在一個要求智能體既能進行網頁導航，又能完成家庭操作和科學實驗的復雜場景中，AgentRM 能夠憑借其通用獎勵模型，快速適應不同任務要求，高效地完成各項任務。

更為令人興奮的是，當結合步級 beam search 時，AgentRM 的性能還能進一步提升。這表明，AgentRM 與搜索策略之間存在良好的協(xié)同效應，通過優(yōu)化搜索過程，能夠充分挖掘獎勵模型的潛力，使智能體在復雜任務中表現得更加出色。

深入分析：挖掘 AgentRM 的 “潛力寶藏”

對擾動的魯棒性：智能體的 “定海神針”

為了測試 AgentRM 在面對輸入擾動時的表現，研究者們在 Alfworld 任務指令中精心設計了 5 種不同類型的擾動實驗。這些擾動包括修改動作描述中的關鍵詞、調整語句結構、刪除空格等，這可以模擬智能體在實際應用中可能遇到的各種輸入變化。

實驗結果顯示，AgentGym 和 Agent-FLAN 在面對這些擾動時性能出現了顯著下降。以 Alfworld 任務為例，AgentGym 的成功率下降了 25.6 個點，Agent - FLAN 的成功率更是下降了 30.3 個點。而 AgentRM 方法卻展現出了強大的魯棒性，其平均分最高且標準差最低。這一結果表明，AgentRM 并非簡單地記憶訓練數據中的模式，而是真正具備了從語義層面理解和應對任務指令的能力，能夠在復雜多變的輸入環(huán)境中保持穩(wěn)定的性能。這種對擾動的魯棒性猶如智能體的 “定海神針”，使其在實際應用中更具可靠性。

在不同擾動規(guī)則下Alfworld的性能表現。其中，“Succ./Prog.”分別表示成功率和進度率。帶有“?”的任務表示在訓練過程中見過，并被視為內部保留評估任務

上表展示了 Alfworld 任務在不同擾動規(guī)則下的性能表現，清楚地呈現了 AgentRM 在面對輸入擾動時的優(yōu)異魯棒性。

訓練數據規(guī)模的擴展趨勢：數據驅動的 “成長之路”

下圖清晰地展示了獎勵模型訓練數據量與整體性能之間的關系，為數據驅動的智能體訓練提供了有力證據。實驗結果表明，即使只有 4k 狀態(tài)的小規(guī)模數據集，也能有效提升獎勵模型在智能體任務中的性能，其表現甚至超過了基于提示的、無需訓練的 LLM-as-a-judge 方法。這一發(fā)現令人振奮，因為它證明了 AgentRM 方法在數據受限場景下的有效性，為在資源有限的情況下提升智能體性能提供了可能。

訓練數據的規(guī)模增長趨勢

隨著訓練數據量的不斷增加，獎勵模型的性能呈現出持續(xù)增長的趨勢，并且沒有出現飽和跡象。這種對數線性增長的趨勢表明，AgentRM 方法具有很強的擴展性，隨著更多數據的積累和利用，其性能有望進一步提升。這為智能體領域的未來發(fā)展指明了一條數據驅動的 “成長之路”，即通過不斷收集和利用高質量的訓練數據，逐步優(yōu)化獎勵模型，從而不斷提升智能體的性能。

任務特定 RM 的泛化性：多樣性鑄就的 “泛化長城”

通過分析下圖中各任務特定 RM 在不同任務上的表現，研究者們發(fā)現，通用 RM 在多數任務上優(yōu)于任務特定 RM。這一結果有力地驗證了任務多樣性對于提升獎勵模型泛化能力的重要性。當獎勵模型接觸到多種不同類型的任務時，它能夠學習到更廣泛、更通用的獎勵模式，從而在面對新任務時具備更強的適應能力。

針對9項任務的特定任務型RM（任務特定模型）性能表現。紅色/橙色/藍色條形分別表示在 Webshop/Alfworld/Sciworld上訓練的RM。虛線表示通用RM的性能表現

然而，Alfworld 任務特定 RM 的性能相對較弱，研究者們推測這可能與該任務在構建獎勵模型訓練數據時采用成功率而非更密集的進度率作為結果監(jiān)督信號有關。成功率作為一種稀疏的獎勵信號，無法提供足夠的反饋信息來引導獎勵模型的學習過程，從而限制了其性能表現。這一發(fā)現提醒我們在設計獎勵模型時，應充分考慮獎勵信號的密度和質量，以確保模型能夠獲得充分有效的學習指導。

對其他策略模型的泛化性：弱智能體經驗的 “逆襲舞臺”

實驗結果表明，僅在 LLaMA-3-8B 策略模型采樣狀態(tài)下訓練的 RM，能夠有效應用于其他 LLM 智能體。如下表所示，該 RM 對 LLaMA-3-70B 提升了 12.6 個點，對 AgentGen 提升了 5.9 個點。這一現象揭示了弱智能體的試錯經驗對于強智能體性能提升的巨大價值，為智能體領域的知識傳承和能力遷移提供了一個全新的視角。

在這個過程中，弱智能體通過大量的試錯積累的經驗，猶如一座蘊藏豐富的礦山，為強智能體的優(yōu)化提供了寶貴的資源。強智能體在吸收這些經驗后，能夠在更復雜的任務環(huán)境中展現出更出色的性能。這種弱到強的泛化能力，可以拓寬智能體能力提升的路徑，并且為構建高效、經濟的智能體訓練體系提供了新的思路。

獎勵建模的狀態(tài)表示：信息融合的 “藝術之美”

顯式獎勵模型的狀態(tài)表示的消融實驗

上表的消融實驗結果深入揭示了獎勵建模中狀態(tài)表示的奧秘。實驗發(fā)現，獎勵建模主要依賴動作標記，僅使用動作標記建模對整體有效性影響不大，反而能加速訓練和推理過程，提升方法的可擴展性。這一發(fā)現令人驚訝，因為它顛覆了我們對狀態(tài)表示的傳統(tǒng)認知，讓我們意識到在某些情況下，簡化狀態(tài)表示反而能夠提高模型的效率和性能。

判斷相對步長獎勵的準確性

然而，思考和觀察標記并非可有可無。實驗結果顯示，當同時移除思考和觀察標記時，性能下降了 3.2 個百分點。這表明思考和觀察標記雖然單獨影響較小，但它們在狀態(tài)表示中提供了互補的信息，共同作用時能夠提升模型的性能。這種信息融合的藝術之美，體現了智能體在決策過程中對多維度信息的綜合考量，也為我們設計更優(yōu)的狀態(tài)表示方法提供了啟示。

測試時搜索的擴展趨勢：計算資源的 “效益最大化”

以 Pddl 任務為例，研究者們深入探討了增加 Best-of-N 采樣候選數量時，不同獎勵建模方法的性能變化趨勢。顯式 RM 隨著計算資源的增加持續(xù)提升性能，展現出強大的擴展能力。這表明在顯式獎勵建模的引導下，智能體能夠充分利用額外的計算資源，生成更多高質量的候選軌跡，從而提高決策質量。下圖就展示了隨著 Best-of-N 采樣候選數量的增加，不同獎勵建模方法的性能變化趨勢，揭示了不同獎勵建模方法在測試時擴展（Test-time Scaling）方面的差異和挑戰(zhàn)。（擴展閱讀??《Test-Time Scaling：挖掘大型語言模型推理潛能（3萬字綜述）》）

Best-of-N 的擴展趨勢

相比之下，隱式 RM 在候選數量過多時可能會因混淆而出現性能下降。這可能是由于隱式 RM 在處理大量候選軌跡時，難以區(qū)分細微的獎勵差異，導致選擇出錯。而 LLM-as-a-judge 方法由于模型輸入長度的限制，在候選數量增加時，超出長度限制的部分會被截斷，從而影響了其擴展性。這一發(fā)現提示我們，在設計測試時搜索策略時，需要充分考慮不同獎勵建模方法的特點和限制，以實現計算資源的效益最大化。

對通用推理任務的泛化性：通用推理的 “隱藏天賦”

當研究者們將僅在智能體任務上訓練的 RM 應用于通用推理基準測試（如 GSM8k、MATH 和 codecontests）時，下表的結果顯示 RM 對通用推理任務的影響微乎其微。這一現象表明，AgentRM 在智能體任務上的訓練并未使其局限于特定任務模式，而是獲得了一種更通用的推理能力。這種能力就像智能體的 “隱藏天賦”，使其在面對不同類型的推理任務時，能夠靈活調用已有的知識和經驗，展現出一定的適應性。

在通用推理任務中的表現

盡管這種影響較為微弱，但它揭示了 AgentRM 作為一種通用獎勵模型的潛力。

總結：智能體發(fā)展的 “新航標”

AgentRM 這篇研究論文主要講了如何讓基于大型語言模型（LLM）的智能體在各種復雜任務中表現得更好，尤其是在之前沒見過的新任務中。論文的核心就是提出了一個叫 AgentRM 的通用獎勵模型，這個模型能有效地引導智能體在執(zhí)行任務時做出更好的決策。

這就像我們用GPS導航軟件找路線一樣，現有的導航軟件（好比策略模型）在熟悉的路上表現很好，但一旦遇到沒走過的新路，可能就會迷路。這篇論文的研究發(fā)現，與其直接優(yōu)化這個導航軟件本身（策略模型），不如先訓練一個專門的“路線評估員”（獎勵模型）來幫助它。這個“評估員”會告訴導航軟件每一步的決策是好還是壞，從而引導它找到更好的路線。

AgentRM 作為一種創(chuàng)新的通用獎勵模型，通過測試時搜索顯著提升了LLM智能體在多種智能體任務中的性能，在專一性和泛化性方面都交出了令人滿意的答卷。它不僅在實驗中展現出了卓越的性能提升，還通過深入分析驗證了其在測試時擴展、對其他策略模型的直接遷移性等方面的巨大潛力。

文中提出了：

三種獎勵模型方法：文中詳細研究了三種不同的方法來構建這個獎勵模型：顯式獎勵建模、隱式獎勵建模和LLM作為裁判。顯式獎勵建模就是直接給出每一步的獎勵，隱式獎勵建模則是讓模型自己通過最終結果推斷出每一步的獎勵，而LLM作為裁判則是利用大型語言模型來直接判斷哪條路線更好。

實驗驗證：在九個不同的任務上進行了實驗，包括網頁導航、實體規(guī)劃、文本游戲和工具使用等，發(fā)現AgentRM能顯著提升策略模型的性能，并且在多項指標上超越了現有的通用智能體和專用智能體。

泛化能力：AgentRM不僅在訓練過的任務上表現良好，還能很好地推廣到未見過的任務，這種能力在智能體領域是非常重要的。

當然，AgentRM 也具有局限性。目前的研究僅包含了三個已見任務，這限制了我們對其在更廣泛任務場景中的全面評估。同時，MCTS 參數設置有限，可能影響了過程獎勵估計的精度。

最后，我想期待一下，在學界和業(yè)界能夠看到更多關于獎勵建模的研究與實踐。畢竟，智能體能夠高效地獲得獎勵建模，對于智能的進化起著至關重要的作用。

責任編輯：龐桂玉來源：覺察流