精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AgentRM 獎勵建模:智能體泛化能力的“導航儀”與“加速器”

人工智能
AgentRM 提出三種獎勵模型方法,顯式獎勵建模、隱式獎勵建模和LLM作為裁判。AgentRM 通過創(chuàng)新的獎勵建模和測試時搜索機制,顯著提升了智能體在未見任務中的表現,為智能體的泛化能力提升提出新思路。

大家好,我是肆〇柒。在 AI 領域,大型語言模型(LLM)基礎智能體正逐漸成為解決復雜交互任務的關鍵力量。然而,一個不容忽視的問題是:盡管它們在訓練中見過的任務上表現出色,但面對未見過的新任務時,泛化能力卻往往不盡人意。這就好比一個學生在題海戰(zhàn)術中刷過的題目上能拿高分,但面對新題目時卻無從下手。所以,為了提升智能體的泛化能力,研究者們提出了眾多方法,其中 AgentRM 以其獨特視角和創(chuàng)新機制,讓我看到了通用獎勵模型的一種可能。這是出自清華大學今年 2 月發(fā)表的一篇研究論文《AgentRM: Enhancing Agent Generalization with Reward Modeling》。3 月的時候我已看過一遍,因剛結束不久的智源大會提及,所以,我又過了一遍這篇論文,今天和大家一起再重溫一下。

剛才,在文章開頭,我們就提到基礎智能體泛化能力不足的問題。現有智能體大都經過多任務微調,通過接觸多樣化任務來提升泛化性。然而,這種方式并非一勞永逸。多任務微調雖能在一定程度上擴展智能體的能力邊界,卻也存在明顯局限性。一方面,隨著任務數量的增加,微調過程變得愈發(fā)復雜,模型容易陷入過擬合困境,對訓練中見過的任務愈發(fā)熟練,對未見過的任務卻依然無能為力。另一方面,不同任務間的數據分布和特征差異,可能導致智能體在學習新任務時遺忘之前掌握的任務模式,陷入 “負遷移” 的尷尬境地。而微調獎勵模型可能會帶來另外一種收益。

下圖清晰地展示了微調獎勵模型,相較于微調策略模型在智能體任務中的更魯棒性能。其中,(a)顯示了微調策略模型會導致未見任務性能嚴重下降;b)和(c)分別展示了使用獎勵模型進行 Best-of-5 采樣時,在微調策略模型和微調獎勵模型后的性能表現,對比鮮明地揭示了微調獎勵模型的優(yōu)勢。

在智能體任務中,對獎勵模型進行微調比對策略模型進行微調會更加穩(wěn)健

AgentRM 方法論

行為克隆:搭建智能體的 “起跑線”

在 AgentRM 的方法體系中,行為克隆是構建初始策略模型的關鍵步驟,為后續(xù)的獎勵建模和智能體優(yōu)化奠定了堅實基礎。研究者們從海量的訓練集中精心篩選出一部分具有代表性的任務指令,這些指令覆蓋了智能體需要掌握的核心技能和典型場景。隨后,借助專家智能體的精準標注,對這些任務指令進行高質量的示范演繹,生成一系列專家軌跡。這些軌跡猶如經驗豐富的導師親手書寫的 “標準答案”,為智能體的學習提供了明確的方向和參照。

基于這些專家軌跡,研究者們采用監(jiān)督微調(SFT)技術,對初始策略模型進行針對性訓練。在訓練過程中,模型通過反復觀摩專家軌跡中的決策邏輯和行動模式,逐漸學會了在不同場景下如何做出合理的選擇。這一過程就像是智能體在進行一場場高強度的 “模擬考試”,在不斷的練習和糾正中,逐步掌握了基礎的任務解決能力。最終,經過監(jiān)督微調的初始策略模型 πinit 脫穎而出,它具備了扎實的基本功,能夠應對訓練集中常見的任務類型,并為后續(xù)的探索和優(yōu)化積累了寶貴的經驗,為智能體在復雜多變的任務環(huán)境中脫穎而出做好了準備。

獎勵建模:解鎖智能體泛化的 “秘鑰”

下圖向我們展示了 AgentRM 方法的總體框架。包括通過行為克隆(SFT)在專家軌跡上導出初始策略模型;利用初始策略模型探索環(huán)境構建搜索樹;從搜索樹中提取狀態(tài) - 獎勵對訓練通用獎勵模型;以及在推理階段,使用獎勵模型指導策略模型的決策過程,無論策略模型的初始強度如何,都能增強其決策能力。

概述:? 基于專家軌跡訓練一個監(jiān)督式微調(SFT)智能體;? 使用SFT智能體探索環(huán)境,構建搜索樹;? 在從搜索樹中提取的狀態(tài)-獎勵對上訓練一個可泛化的獎勵模型;? 無論初始策略模型的強度如何,通過獎勵模型引導的測試時搜索來增強策略模型,以應對未見過的任務,例如具身規(guī)劃、文字游戲、工具使用等

顯式獎勵建模 —— 精準的 “導航儀”

顯式獎勵建模是 AgentRM 的核心創(chuàng)新之一,它借助樹搜索技術,為智能體的每一步行動都賦予了清晰明確的獎勵信號,就像為智能體配備了一個高精度的導航儀,使其在復雜任務的 “迷宮” 中也能精準定位方向。

在這一方法中,研究者們將智能體的搜索軌跡構建為樹狀結構,每個節(jié)點代表智能體在特定狀態(tài)下的決策點,每條邊則表示智能體采取的具體行動。從初始狀態(tài)開始,智能體依據當前策略模型,在策略模型的引導下逐步擴展搜索樹。在每一次擴展過程中,智能體都會從當前節(jié)點出發(fā),基于策略模型隨機采樣多個可能的行動,并預估這些行動可能導致的后續(xù)狀態(tài)。為了避免重復探索,節(jié)省計算資源,算法采用了蒙特卡洛樹搜索(MCTS)的策略,通過計算 Upper Confidence Bound(UCB)值來選擇最具潛力的節(jié)點進行擴展。

當搜索樹逐步構建完成后,研究者們從樹中提取每個狀態(tài)對應的價值估計 V(st),并以此為基礎構建獎勵模型的訓練數據集。在模型訓練階段,一個帶有價值預測頭的語言模型被用來擬合這些狀態(tài) - 價值對。通過最小化預測值與真實值之間的均方誤差(MSE),模型逐漸學會了如何準確評估智能體在不同狀態(tài)下所采取行動的好壞優(yōu)劣。這種基于顯式獎勵建模的方法,能夠將稀疏的結果獎勵合理分配到任務的每一步,還能讓智能體在執(zhí)行任務的過程中實時獲得反饋,從而及時調整策略,優(yōu)化決策路徑。

顯式獎勵建模 的核心在于通過樹搜索構建一個全面且精細的狀態(tài)價值估計體系。這一過程要求模型能夠準確預測每個狀態(tài)的潛在價值,還要求模型能夠在不同狀態(tài)之間建立有效的關聯,從而形成一個連貫的價值網絡。例如,在處理復雜的網頁導航任務時,智能體需要理解不同網頁元素之間的關系以及用戶可能的交互意圖。通過對這些元素和意圖的綜合評估,顯式獎勵建模能夠為智能體提供明確的行動指引,使其能夠高效地完成任務目標。

此外,顯式獎勵建模在處理具有長期依賴關系的任務時展現出獨特的優(yōu)勢。例如,在科學實驗模擬任務中,智能體需要根據一系列連續(xù)的實驗步驟和觀察結果來調整后續(xù)的實驗操作。顯式獎勵建模通過構建一個動態(tài)的價值估計網絡,能夠捕捉到這些長期依賴關系,并為智能體提供及時且準確的反饋,從而幫助智能體在復雜的實驗環(huán)境中做出最優(yōu)決策。

隱式獎勵建模 —— 深藏不露的 “智慧源泉”

相較于顯式獎勵建模的直觀與透明,隱式獎勵建模則更像是一位深藏不露的智者,它不依賴于外部的標注信息,而是通過挖掘策略模型自身的優(yōu)勢函數,巧妙地推導出過程獎勵。

在隱式獎勵建模中,過程獎勵被定義為優(yōu)勢(Advantage),即智能體在某個狀態(tài)下采取特定行動相較于其他行動所能帶來的額外收益。具體一點,結果獎勵被參數化為策略模型和參考模型的對數似然比,通過數學歸納法,研究者們證明了 Q 值(即從當前狀態(tài)開始,采取特定行動后所能獲得的期望累積獎勵)可以在策略模型的訓練過程中被隱式地學習到。基于此,過程獎勵可以通過相鄰時間步的 Q 值之差來計算得出。

在實際操作中,對于每個任務指令,研究者們會通過策略模型采樣多條完整軌跡,并利用這些軌跡構建訓練數據集。隨后,一個語言模型被訓練用來預測這些軌跡中每個狀態(tài)的優(yōu)勢值。與顯式獎勵建模不同的是,這里采用的是均方誤差(MSE)損失函數來衡量預測值與真實值之間的差距,而非像某些傳統(tǒng)方法那樣使用交叉熵損失。這種隱式獎勵建模方法的優(yōu)勢在于,它無需額外的標注成本,能夠充分利用策略模型自身的特性,挖掘出隱藏在數據背后的獎勵信號,為智能體的優(yōu)化提供了一種高效且經濟的途徑。

隱式獎勵建模 的獨特之處在于其對策略模型內部信息的深度挖掘。通過分析策略模型的優(yōu)勢函數,隱式獎勵建模能夠揭示出智能體在不同狀態(tài)下的潛在行動價值,而無需依賴外部的標注信息。這種方法在處理具有高度不確定性和多樣性的任務時表現出色。例如,在處理用戶生成內容的審核任務時,智能體需要對各種復雜的文本內容進行快速且準確的評估。隱式獎勵建模通過分析策略模型在不同文本片段上的表現,能夠為智能體提供一個內在的評估標準,幫助其在面對新內容時做出合理的決策。

另外,隱式獎勵建模在多任務學習場景中具有顯著的優(yōu)勢。由于它不依賴于任務特定的標注信息,因此能夠更靈活地適應不同類型的任務需求。例如,在同時處理網頁導航和文本游戲任務時,智能體可以利用隱式獎勵建模從一個任務中學習到的知識遷移到另一個任務中,從而提高其在多個任務上的整體性能。

LLM-as-a-judge —— 隨時隨地的 “裁判”

除了上述兩種基于模型訓練的獎勵建模方法外,AgentRM 還創(chuàng)造性地引入了 LLM-as-a-judge 這一獨特的訓練免費獎勵模型。這種方法跳出了傳統(tǒng)獎勵建模依賴復雜訓練過程的框架,直接借助大型語言模型的強大語言理解和推理能力,對智能體的行動軌跡進行即時評估,就像一位隨時隨地可用的智能裁判。

在實際應用中,研究者們精心設計了一系列提示指令,將 LLM 打造成一個軌跡獎勵模型。當需要對智能體的行動軌跡進行評估時,首先向 LLM 提供詳細的任務描述和目標,使其對任務要求有清晰的認識。接著,將多個候選軌跡呈現給 LLM,讓 LLM 對這些軌跡進行對比分析。最后,通過強制 LLM 調用特定的函數,從多個候選答案中挑選出最符合任務要求的那一個。如下就是 LLM-as-a-judge prompt 示例:

You are trajectory reward model, an expert in defining which trajectory is better and closer to solving the task. Here is the task description:
*******************************
task description: {task_description}
task goal: {task_goal}
*******************************
Here are several candidates. They are all trying to solve the task. Their trajectories are as follows.
*******************************
CANDIDATE1:
{candidate_1}
*******************************
CANDIDATE2:
{candidate_2}
*******************************
CANIDATE3:
{candidate_3}
*******************************
CANIDATE4:
{candidate_4}
*******************************
CANIDATE5:
{candidate_5}
*******************************

這樣可以強制讓 LLM 調用以下函數來給出答案:

[{
"type": "function",
"function": {
"name": "choose_preferred_answer",
"description": "Choose the preferred answer for the task within all given answers.",
"parameters": {
"type": "object",
"properties": {
"preference": {
"type": "number",
"enum": [1, 2, 3, 4, 5],
"description": "The index of the preferred answer in all given answers (ranging from 1 to 5)."
},
},
}
}
}]

這種方法的優(yōu)勢在于其靈活性和高效性,無需復雜的訓練過程,能夠快速適應各種不同類型的任務,為智能體的實時評估和優(yōu)化提供了一種簡便易行的解決方案。

LLM-as-a-judge 方法的核心 在于利用大型語言模型的通用性和適應性。通過精心設計的提示指令,LLM 能夠在不同的任務場景中快速切換角色,從一個任務的裁判轉變?yōu)榱硪粋€任務的裁判。例如,在處理多語言文本生成任務時,LLM 可以根據不同的語言和文化背景,對智能體生成的文本進行準確評估,確保其符合特定語言的語法和語義要求。

LLM-as-a-judge 方法在處理具有高度復雜性和多樣性的任務時表現出色。例如,在處理跨領域的問題解決任務時,智能體需要在不同的知識領域之間進行快速切換和整合。LLM-as-a-judge 能夠憑借其強大的語言理解和推理能力,為智能體提供即時的反饋,幫助其在復雜多變的任務環(huán)境中保持高效的決策能力。

獎勵引導搜索:智能體決策的 “加速器”

Best-of-N 采樣 —— 精挑細選的 “決策助手”

在測試階段,為了充分利用獎勵模型的評估能力,提升智能體的決策質量,AgentRM 采用了 Best-of-N 采樣方法。簡單來說,這種方法就像是為智能體配備了一個精挑細選的決策助手,在面對復雜任務時,能夠幫助智能體從眾多可能的行動方案中選出最優(yōu)的那個。

具體操作過程中,智能體會依據當前策略模型,一次性生成 N 條完整的行動軌跡。這些軌跡就像是智能體在腦海中快速模擬出的多種未來情景,涵蓋了各種可能的行動路徑和決策選擇。隨后,這些軌跡被逐一輸入到獎勵模型中進行評估。獎勵模型基于其對任務目標和獎勵機制的理解,為每條軌跡打分,就像一位嚴格的評委對每個參賽作品進行打分一樣。最終,智能體依據這些分數,選擇得分最高的那條軌跡作為最終的行動方案。這個過程可以有效提升智能體在面對復雜任務時的決策質量,還能夠充分利用策略模型的生成能力和獎勵模型的評估能力,實現兩者的完美結合。

Best-of-N 采樣方法 的核心在于通過多樣化的軌跡生成和精準的評估選擇,為智能體提供最優(yōu)的決策路徑。這種方法在處理具有高度不確定性和復雜性的任務時表現出色。例如,在處理多目標優(yōu)化任務時,智能體需要在多個相互沖突的目標之間找到最優(yōu)的平衡點。通過 Best-of-N 采樣,智能體可以生成多種可能的解決方案,并通過獎勵模型對這些方案進行全面評估,從而選出最符合任務要求的最優(yōu)解。

Best-of-N 采樣方法在多智能體協(xié)作任務中也具有顯著優(yōu)勢。在多智能體環(huán)境中,每個智能體都需要根據其他智能體的行為和環(huán)境狀態(tài)做出合理的決策。通過 Best-of-N 采樣,每個智能體可以生成多種可能的行動方案,并通過獎勵模型評估這些方案在協(xié)作環(huán)境中的效果,從而選擇出最優(yōu)的行動路徑,提高整個多智能體系統(tǒng)的協(xié)作效率。

步級 beam search —— 穩(wěn)扎穩(wěn)打的 “探索先鋒”

如果說 Best-of-N 采樣是智能體在多個完整方案中進行選擇,那么步級 beam search 則更像是智能體在每一步決策中都進行穩(wěn)扎穩(wěn)打的探索,逐步構建出最優(yōu)的行動路徑。在步級 beam search 過程中,智能體的行動被分解為多個步驟,每一步都依據獎勵模型的評估進行優(yōu)化。

初始階段,智能體為第一步采樣 W1×W2 個初始動作,這些動作涵蓋了多種可能的決策方向。接下來,對這些動作進行評分,利用獎勵模型評估每個動作可能導致的后續(xù)狀態(tài)的價值。根據評分結果,智能體僅保留得分最高的 W1 個狀態(tài),淘汰掉那些不太可能帶來好結果的選項。在動作擴展階段,智能體為每個保留下來的狀態(tài)進一步采樣 W2 個動作,從而生成 W1×W2 個新的狀態(tài)。然后,智能體再次對這些新狀態(tài)進行評分、過濾和擴展,不斷重復這一過程,直到所有保留狀態(tài)都完成了任務或達到了最大步數限制。這種方法能夠在保證探索多樣性的同時,逐步聚焦于最有潛力的決策路徑,使智能體在復雜任務環(huán)境中更加穩(wěn)健地前行。

步級 beam search 方法 的核心在于通過逐步優(yōu)化和篩選,為智能體提供一條穩(wěn)健的行動路徑。這種方法在處理具有長期依賴關系和復雜決策序列的任務時表現出色。例如,在處理復雜的機器人路徑規(guī)劃任務時,智能體需要根據環(huán)境中的障礙物和目標位置,逐步調整其行動路徑。通過步級 beam search ,智能體可以在每一步都對可能的行動方向進行評估和選擇,從而逐步構建出一條最優(yōu)的路徑,避免在復雜的環(huán)境中迷失方向。

此外,步級 beam search 方法在多任務學習場景中也具有顯著優(yōu)勢。由于其能夠逐步優(yōu)化決策路徑,因此可以更好地適應不同類型任務的需求。例如,在同時處理網頁導航和文本游戲任務時,智能體可以通過步級 beam search 在每一步都對任務目標和環(huán)境狀態(tài)進行評估,從而選擇出最優(yōu)的行動方案,提高其在多個任務上的整體性能。

小結 AgentRM 方法論

AgentRM 方法通過行為克隆、獎勵建模和獎勵引導搜索等關鍵技術,為智能體的泛化能力提升提供了一套完整的解決方案。顯式獎勵建模和隱式獎勵建模分別從不同角度為智能體提供了精準的獎勵信號,而 LLM-as-a-judge 方法則為智能體提供了靈活的實時評估能力。Best-of-N 采樣和步級 beam search 方法則在測試階段為智能體的決策提供了優(yōu)化支持。這些方法的結合可以顯著提升智能體在復雜任務中的表現,為智能體的泛化能力提升提供了新的思路和方向。

實驗設計與結果分析

實驗基線對比:與強大對手的 “巔峰對決”

為了全面評估 AgentRM 的性能,研究者們精心設計了一系列實驗,將其與多種現有的智能體方法進行了對比。對比方法包括原始貪婪搜索、任務特定智能體(如 SPIN、NAT、ETO 等)以及通用智能體(如 Agent - FLAN、AgentGym、AgentGen 等)。這些對比方法各具特色,代表了當前智能體領域的不同發(fā)展方向。

原始貪婪搜索作為一種基礎的決策方法,智能體在每一步都選擇當前看起來最優(yōu)的行動,不考慮未來的不確定性和可能的更好結果。任務特定智能體則專注于某一特定類型的任務,經過專門的優(yōu)化和訓練,在特定領域內展現出了卓越的性能。例如,SPIN 通過增強專家軌跡數據集,提升了智能體在特定任務上的表現;NAT 和 ETO 則通過引入失敗軌跡,讓智能體從錯誤中學習,進一步增強了其應對復雜情況的能力。

通用智能體的目標則更為宏大,它們可以通過多任務學習,掌握多種不同類型任務的解決方法,實現更廣泛的泛化能力。Agent - FLAN 專注于優(yōu)化 LLM 的 “思考” 過程,通過精心設計的提示和訓練方法,讓智能體在多種任務中展現出靈活的思維能力;AgentGym 則通過持續(xù)學習和動態(tài)調整,使智能體能夠不斷適應新任務和新環(huán)境;AgentGen 借助 LLM 合成多樣化數據,為智能體的訓練提供了豐富的素材,拓寬了其能力邊界。

在與這些強大對手的對比中,AgentRM 以其獨特的獎勵建模方法脫穎而出,它在已見任務上保持了競爭力,更在未見任務上展現出了卓越的泛化能力,為智能體領域的發(fā)展提供了一種新思路。

實驗設置:精細入微的 “標尺” 

數據集:智能體能力的 “練兵場”

實驗的數據集選取了多個具有代表性的智能體任務,它們猶如智能體能力的 “練兵場”,全面覆蓋了智能體在實際應用中可能遇到的各種場景和挑戰(zhàn)。其中,已見任務包括 ETO 中的 Webshop(網頁導航)、Alfworld(實體家庭操作)和 Sciworld(實體科學實驗)三個任務。這些任務具有明確的指令和目標,并且還涉及到復雜的環(huán)境交互和長期決策,能夠充分考驗智能體的基本能力和泛化潛力。

已保留任務和未保留任務的統(tǒng)計數據。“Prog./Succ.”表示進展/成功率

為了更全面地評估智能體的泛化性能,研究者們還從 AgentBoard 和 AgentGym 中選取了一系列未見任務。這些任務在環(huán)境動態(tài)性、任務目標和操作要求等方面與已見任務存在顯著差異,能夠有效檢驗智能體在陌生環(huán)境中的適應能力和遷移學習效果。在處理 Alfworld 和 Sciworld 任務時,研究者們特別注意了不同來源數據的一致性問題,確保實驗結果的可靠性和可比性。

評估指標:衡量智能體表現的 “標尺”

在評估指標方面,研究者們根據不同任務的特點,采用了成功率和進度率兩種指標來衡量智能體的表現。Maze 和 Alfworld(ETO)任務提供了成功率指標,它清晰地反映了智能體是否能夠成功完成任務目標,是一個簡單直接的評價標準。對于其他任務,則采用了進度率指標,該指標以標量形式衡量智能體對任務完成進度的推進程度,能夠更細膩地反映智能體在復雜任務中的表現。最終,研究者們以每個任務的平均獎勵作為綜合評估指標,將成功率和進度率有機結合起來,全面衡量智能體在不同任務中的整體表現。

實現細節(jié):實驗落地的 “基礎設施”

在實現細節(jié)上,研究者們選擇了 LLaMA3-8B-Instruct 系列模型作為策略模型,這一選擇基于其在自然語言處理領域的卓越性能和廣泛的適用性。為了獲得高質量的初始策略模型和獎勵模型訓練數據,研究者們對專家軌跡數據進行了合理劃分。1/4 的專家軌跡用于監(jiān)督微調(SFT),通過模仿專家的決策路徑,讓初始策略模型掌握基本任務技能;剩余 3/4 的專家軌跡則用于構建獎勵模型訓練數據,為智能體的優(yōu)化提供了豐富的反饋信息。這些精心設計的實現細節(jié),為實驗的成功落地提供了堅實的基礎設施保障。


不同階段的訓練超參數

結果呈現與解讀:數據背后的 “真相” 與 “驚喜”

與通用智能體對比:泛化能力的 “分水嶺”

在與通用智能體的對比中,下表的數據揭示了一個令人深思的現象。現有通用智能體在已見任務上普遍存在嚴重過擬合的問題,其整體性能甚至未能超越原始貪婪搜索這一簡單基線。這一結果表明,盡管這些通用智能體在多任務學習方面做出了諸多努力,但它們在平衡已見任務和未見任務性能方面仍存在較大缺陷。

性能與通用智能體的對比分析。帶有*號的任務表示在策略訓練期間已經見過,并作為保留任務進行評估

然而,AgentRM 的三種獎勵建模方法卻展現出了截然不同的局面。顯式 RM 表現最為出色,平均性能提升了 8.8 個點,遠超其他方法。這一顯著提升,證明了顯式獎勵建模在捕捉任務關鍵特征和引導智能體優(yōu)化方面的優(yōu)勢,也為智能體的泛化能力提升提供了一條切實可行的路徑。此外,在與已見任務具有一定相似性的 Babyai 任務上,顯式 RM 展現出了明顯的正遷移效應,進一步驗證了其在知識遷移方面的潛力。而部分策略模型在未訓練任務上出現的負遷移現象,則從反面凸顯了 AgentRM 方法的穩(wěn)健性和優(yōu)勢。

值得注意的是,LLM-as-a-judge 方法在整體性能上較貪婪搜索略有下降,但在一些相對簡單的任務上,如工具相關任務,卻表現出了相對較好的性能。這表明,LLM-as-a-judge 在面對簡單任務時,能夠憑借其強大的語言理解和推理能力,快速準確地做出評估,為智能體提供有效的指導。

與任務特定智能體對比:多任務精通的 “新星”

在與任務特定智能體的對比中,下表的數據令人興奮。使用顯式 RM 的 Best-of-5 方法在三個已見任務上分別提升了策略模型 9.6、23.2 和 9.5 個點,下表這一卓越表現成功超越了多個頂級任務特定智能體。這一結果猶如一顆新星崛起,證明了 AgentRM 方法在多任務精通方面的巨大潛力。

與特定任務型 Agent 的比較

與傳統(tǒng)任務特定智能體不同,AgentRM 無需為每個任務單獨訓練策略模型,而是通過一個通用的獎勵模型,在多個任務上實現了性能的全面提升。這種方法不僅降低了訓練和維護成本,還為智能體在實際應用場景中應對多種不同類型任務提供了可能。例如,在一個要求智能體既能進行網頁導航,又能完成家庭操作和科學實驗的復雜場景中,AgentRM 能夠憑借其通用獎勵模型,快速適應不同任務要求,高效地完成各項任務。

更為令人興奮的是,當結合步級 beam search 時,AgentRM 的性能還能進一步提升。這表明,AgentRM 與搜索策略之間存在良好的協(xié)同效應,通過優(yōu)化搜索過程,能夠充分挖掘獎勵模型的潛力,使智能體在復雜任務中表現得更加出色。

深入分析:挖掘 AgentRM 的 “潛力寶藏”

對擾動的魯棒性:智能體的 “定海神針”

為了測試 AgentRM 在面對輸入擾動時的表現,研究者們在 Alfworld 任務指令中精心設計了 5 種不同類型的擾動實驗。這些擾動包括修改動作描述中的關鍵詞、調整語句結構、刪除空格等,這可以模擬智能體在實際應用中可能遇到的各種輸入變化。

實驗結果顯示,AgentGym 和 Agent-FLAN 在面對這些擾動時性能出現了顯著下降。以 Alfworld 任務為例,AgentGym 的成功率下降了 25.6 個點,Agent - FLAN 的成功率更是下降了 30.3 個點。而 AgentRM 方法卻展現出了強大的魯棒性,其平均分最高且標準差最低。這一結果表明,AgentRM 并非簡單地記憶訓練數據中的模式,而是真正具備了從語義層面理解和應對任務指令的能力,能夠在復雜多變的輸入環(huán)境中保持穩(wěn)定的性能。這種對擾動的魯棒性猶如智能體的 “定海神針”,使其在實際應用中更具可靠性。

在不同擾動規(guī)則下Alfworld的性能表現。其中,“Succ./Prog.”分別表示成功率和進度率。帶有“?”的任務表示在訓練過程中見過,并被視為內部保留評估任務

上表展示了 Alfworld 任務在不同擾動規(guī)則下的性能表現,清楚地呈現了 AgentRM 在面對輸入擾動時的優(yōu)異魯棒性。

訓練數據規(guī)模的擴展趨勢:數據驅動的 “成長之路”

下圖清晰地展示了獎勵模型訓練數據量與整體性能之間的關系,為數據驅動的智能體訓練提供了有力證據。實驗結果表明,即使只有 4k 狀態(tài)的小規(guī)模數據集,也能有效提升獎勵模型在智能體任務中的性能,其表現甚至超過了基于提示的、無需訓練的 LLM-as-a-judge 方法。這一發(fā)現令人振奮,因為它證明了 AgentRM 方法在數據受限場景下的有效性,為在資源有限的情況下提升智能體性能提供了可能。

訓練數據的規(guī)模增長趨勢

隨著訓練數據量的不斷增加,獎勵模型的性能呈現出持續(xù)增長的趨勢,并且沒有出現飽和跡象。這種對數線性增長的趨勢表明,AgentRM 方法具有很強的擴展性,隨著更多數據的積累和利用,其性能有望進一步提升。這為智能體領域的未來發(fā)展指明了一條數據驅動的 “成長之路”,即通過不斷收集和利用高質量的訓練數據,逐步優(yōu)化獎勵模型,從而不斷提升智能體的性能。

任務特定 RM 的泛化性:多樣性鑄就的 “泛化長城”

通過分析下圖中各任務特定 RM 在不同任務上的表現,研究者們發(fā)現,通用 RM 在多數任務上優(yōu)于任務特定 RM。這一結果有力地驗證了任務多樣性對于提升獎勵模型泛化能力的重要性。當獎勵模型接觸到多種不同類型的任務時,它能夠學習到更廣泛、更通用的獎勵模式,從而在面對新任務時具備更強的適應能力。

針對9項任務的特定任務型RM(任務特定模型)性能表現。紅色/橙色/藍色條形分別表示在 Webshop/Alfworld/Sciworld上訓練的RM。虛線表示通用RM的性能表現

然而,Alfworld 任務特定 RM 的性能相對較弱,研究者們推測這可能與該任務在構建獎勵模型訓練數據時采用成功率而非更密集的進度率作為結果監(jiān)督信號有關。成功率作為一種稀疏的獎勵信號,無法提供足夠的反饋信息來引導獎勵模型的學習過程,從而限制了其性能表現。這一發(fā)現提醒我們在設計獎勵模型時,應充分考慮獎勵信號的密度和質量,以確保模型能夠獲得充分有效的學習指導。

對其他策略模型的泛化性:弱智能體經驗的 “逆襲舞臺”

實驗結果表明,僅在 LLaMA-3-8B 策略模型采樣狀態(tài)下訓練的 RM,能夠有效應用于其他 LLM 智能體。如下表所示,該 RM 對 LLaMA-3-70B 提升了 12.6 個點,對 AgentGen 提升了 5.9 個點。這一現象揭示了弱智能體的試錯經驗對于強智能體性能提升的巨大價值,為智能體領域的知識傳承和能力遷移提供了一個全新的視角。

在這個過程中,弱智能體通過大量的試錯積累的經驗,猶如一座蘊藏豐富的礦山,為強智能體的優(yōu)化提供了寶貴的資源。強智能體在吸收這些經驗后,能夠在更復雜的任務環(huán)境中展現出更出色的性能。這種弱到強的泛化能力,可以拓寬智能體能力提升的路徑,并且為構建高效、經濟的智能體訓練體系提供了新的思路。

獎勵建模的狀態(tài)表示:信息融合的 “藝術之美”

顯式獎勵模型的狀態(tài)表示的消融實驗

上表的消融實驗結果深入揭示了獎勵建模中狀態(tài)表示的奧秘。實驗發(fā)現,獎勵建模主要依賴動作標記,僅使用動作標記建模對整體有效性影響不大,反而能加速訓練和推理過程,提升方法的可擴展性。這一發(fā)現令人驚訝,因為它顛覆了我們對狀態(tài)表示的傳統(tǒng)認知,讓我們意識到在某些情況下,簡化狀態(tài)表示反而能夠提高模型的效率和性能。

判斷相對步長獎勵的準確性

然而,思考和觀察標記并非可有可無。實驗結果顯示,當同時移除思考和觀察標記時,性能下降了 3.2 個百分點。這表明思考和觀察標記雖然單獨影響較小,但它們在狀態(tài)表示中提供了互補的信息,共同作用時能夠提升模型的性能。這種信息融合的藝術之美,體現了智能體在決策過程中對多維度信息的綜合考量,也為我們設計更優(yōu)的狀態(tài)表示方法提供了啟示。

測試時搜索的擴展趨勢:計算資源的 “效益最大化”

以 Pddl 任務為例,研究者們深入探討了增加 Best-of-N 采樣候選數量時,不同獎勵建模方法的性能變化趨勢。顯式 RM 隨著計算資源的增加持續(xù)提升性能,展現出強大的擴展能力。這表明在顯式獎勵建模的引導下,智能體能夠充分利用額外的計算資源,生成更多高質量的候選軌跡,從而提高決策質量。下圖就展示了隨著 Best-of-N 采樣候選數量的增加,不同獎勵建模方法的性能變化趨勢,揭示了不同獎勵建模方法在測試時擴展(Test-time Scaling)方面的差異和挑戰(zhàn)。(擴展閱讀??《Test-Time Scaling:挖掘大型語言模型推理潛能(3萬字綜述)》)

 Best-of-N 的擴展趨勢

相比之下,隱式 RM 在候選數量過多時可能會因混淆而出現性能下降。這可能是由于隱式 RM 在處理大量候選軌跡時,難以區(qū)分細微的獎勵差異,導致選擇出錯。而 LLM-as-a-judge 方法由于模型輸入長度的限制,在候選數量增加時,超出長度限制的部分會被截斷,從而影響了其擴展性。這一發(fā)現提示我們,在設計測試時搜索策略時,需要充分考慮不同獎勵建模方法的特點和限制,以實現計算資源的效益最大化。

對通用推理任務的泛化性:通用推理的 “隱藏天賦”

當研究者們將僅在智能體任務上訓練的 RM 應用于通用推理基準測試(如 GSM8k、MATH 和 codecontests)時,下表的結果顯示 RM 對通用推理任務的影響微乎其微。這一現象表明,AgentRM 在智能體任務上的訓練并未使其局限于特定任務模式,而是獲得了一種更通用的推理能力。這種能力就像智能體的 “隱藏天賦”,使其在面對不同類型的推理任務時,能夠靈活調用已有的知識和經驗,展現出一定的適應性。

在通用推理任務中的表現

盡管這種影響較為微弱,但它揭示了 AgentRM 作為一種通用獎勵模型的潛力。

總結:智能體發(fā)展的 “新航標”

AgentRM 這篇研究論文主要講了如何讓基于大型語言模型(LLM)的智能體在各種復雜任務中表現得更好,尤其是在之前沒見過的新任務中。論文的核心就是提出了一個叫 AgentRM 的通用獎勵模型,這個模型能有效地引導智能體在執(zhí)行任務時做出更好的決策。

這就像我們用GPS導航軟件找路線一樣,現有的導航軟件(好比策略模型)在熟悉的路上表現很好,但一旦遇到沒走過的新路,可能就會迷路。這篇論文的研究發(fā)現,與其直接優(yōu)化這個導航軟件本身(策略模型),不如先訓練一個專門的“路線評估員”(獎勵模型)來幫助它。這個“評估員”會告訴導航軟件每一步的決策是好還是壞,從而引導它找到更好的路線。

AgentRM 作為一種創(chuàng)新的通用獎勵模型,通過測試時搜索顯著提升了LLM智能體在多種智能體任務中的性能,在專一性和泛化性方面都交出了令人滿意的答卷。它不僅在實驗中展現出了卓越的性能提升,還通過深入分析驗證了其在測試時擴展、對其他策略模型的直接遷移性等方面的巨大潛力。

文中提出了:

三種獎勵模型方法:文中詳細研究了三種不同的方法來構建這個獎勵模型:顯式獎勵建模、隱式獎勵建模和LLM作為裁判。顯式獎勵建模就是直接給出每一步的獎勵,隱式獎勵建模則是讓模型自己通過最終結果推斷出每一步的獎勵,而LLM作為裁判則是利用大型語言模型來直接判斷哪條路線更好。

實驗驗證:在九個不同的任務上進行了實驗,包括網頁導航、實體規(guī)劃、文本游戲和工具使用等,發(fā)現AgentRM能顯著提升策略模型的性能,并且在多項指標上超越了現有的通用智能體和專用智能體。

泛化能力:AgentRM不僅在訓練過的任務上表現良好,還能很好地推廣到未見過的任務,這種能力在智能體領域是非常重要的。

當然,AgentRM 也具有局限性。目前的研究僅包含了三個已見任務,這限制了我們對其在更廣泛任務場景中的全面評估。同時,MCTS 參數設置有限,可能影響了過程獎勵估計的精度。

最后,我想期待一下,在學界和業(yè)界能夠看到更多關于獎勵建模的研究與實踐。畢竟,智能體能夠高效地獲得獎勵建模,對于智能的進化起著至關重要的作用。

責任編輯:龐桂玉 來源: 覺察流
相關推薦

2025-06-17 09:50:30

2025-06-27 08:23:43

2011-10-26 12:00:54

惠普激光打印機

2009-11-04 15:25:20

嵌入式開發(fā)工具

2010-09-06 10:43:15

DB2 SQL存儲過程

2025-03-03 00:25:00

2022-01-12 09:09:30

數據庫信息化加速器

2011-08-30 10:37:43

CDN

2021-07-13 14:33:39

京東物流智能

2009-03-30 09:08:40

微軟瀏覽器IE8

2012-02-29 13:47:16

激光打印機行情

2018-04-18 17:26:06

數字化

2022-07-07 11:51:15

比特幣區(qū)塊鏈加密貨幣

2011-10-31 15:58:24

應用評估服務

2011-07-21 09:12:55

2020-07-20 10:32:43

暗網網絡安全網絡攻擊

2025-07-08 09:06:49

2019-03-21 12:35:27

阿里云SaaS智能
點贊
收藏

51CTO技術棧公眾號

国产精品美女久久| 日韩午夜小视频| 色狠狠久久av五月综合| 在线视频你懂得| 国内精品久久久久久久影视蜜臀| 精品国产一区二区三区av性色| 青青青国产在线观看| 成人免费视频| 成人午夜伦理影院| 国产精品xxx视频| 久久久久久久久久久久国产| 国产99精品一区| 在线综合+亚洲+欧美中文字幕| 免费毛片网站在线观看| 日韩精品黄色| 久久综合国产精品| 成人黄色免费在线观看| 久久亚洲天堂网| 你懂的网址国产 欧美| 亚洲欧美日韩精品久久奇米色影视 | 91精品一久久香蕉国产线看观看| 亚洲国产综合色| 在线综合视频网站| 黄色软件在线观看| www.亚洲精品| 成人xxxxx色| 在线观看免费中文字幕| 噜噜噜91成人网| 国内精品免费午夜毛片| 黄色a级片在线观看| 成人羞羞网站入口免费| 亚洲欧美日韩网| 你懂的在线观看网站| 中文无码日韩欧| 5月丁香婷婷综合| 色悠悠久久综合网| 欧美福利在线播放| 欧美日韩一区二区在线播放| 免费的一级黄色片| 国产精品久久久久久福利| 久久久久国产成人精品亚洲午夜| 国产精品露出视频| 国产超碰人人模人人爽人人添| 青青草一区二区三区| 日本精品一区二区三区在线| 国产一级片毛片| 国产一区二区三区的电影| 久久人人爽人人爽人人片av高清| avove在线播放| 2023国产精品久久久精品双| 精品国产一区二区三区久久久 | 色姑娘综合天天| 亚洲国产天堂| 7777精品伊人久久久大香线蕉超级流畅| www.欧美日本| 国产精品成人国产| 欧美日韩国产在线播放网站| 奇米影视四色在线| 欧美日韩va| 7777精品伊人久久久大香线蕉| 中日韩av在线播放| 免费一区二区三区在线视频| 91精品国产乱| 欧美成人精品一区二区综合免费| 成人av影音| 日韩风俗一区 二区| 右手影院亚洲欧美| 精品国产乱码久久久久久1区2匹| 一级做a爰片久久毛片美女图片| 怡红院一区二区三区| 热久久天天拍国产| 成人97在线观看视频| 美女福利视频在线观看| 影音国产精品| 欧美亚洲伦理www| 懂色av蜜臀av粉嫩av喷吹| 免费美女久久99| 97免费资源站| 四虎在线观看| 中文字幕欧美一区| 69sex久久精品国产麻豆| 欧美男男激情videos| 91福利在线免费观看| 三区视频在线观看| 视频二区欧美毛片免费观看| 亚洲激情视频在线| 激情五月激情综合| 伊人影院久久| 国产精品自拍偷拍视频| 性一交一乱一精一晶| 91啪亚洲精品| 成人手机视频在线| 成av人片在线观看www| 欧美性视频一区二区三区| 超碰91在线播放| 美女午夜精品| 久久久精品999| 免费在线观看黄网站| 久久国产精品99精品国产| 俄罗斯精品一区二区三区| 免费理论片在线观看播放老| 亚洲女爱视频在线| 熟妇人妻va精品中文字幕| 日韩一区二区三区精品视频第3页| 日韩精品亚洲元码| 暗呦丨小u女国产精品| 久久xxxx| 国产区欧美区日韩区| 99re热久久这里只有精品34| 亚洲午夜三级在线| aaa一级黄色片| 亚洲性视频大全| 欧美黑人巨大精品一区二区| 自拍偷拍色综合| 99视频精品全部免费在线| 樱空桃在线播放| 日本一区二区电影| 国产婷婷成人久久av免费高清| 日韩视频中文字幕在线观看| 日本视频在线一区| 久久久一本精品99久久精品66| 综合久久2019| 欧美日韩精品一区视频| 人妻大战黑人白浆狂泄| 伊人久久大香线蕉av超碰演员| 91久久国产精品| av网站在线免费播放| 岛国av在线不卡| 91免费视频污| 天天做天天爱天天爽综合网| 国产精品日日做人人爱| 人妻少妇精品无码专区久久| 亚洲美女在线国产| 午夜视频在线网站| 日韩视频在线观看| 国产精品欧美风情| 国产三级视频在线看| 色婷婷综合久久久久中文| 韩国无码一区二区三区精品| 亚洲激情黄色| 国产日韩欧美一区二区| 超碰中文在线| 欧美成人a∨高清免费观看| 成年人午夜剧场| 国产在线视频一区二区三区| 在线观看精品视频| 亚洲午夜剧场| 欧美大尺度激情区在线播放| 国产欧美一级片| 亚洲女同一区二区| 国产精品偷伦视频免费观看了 | 欧美成人免费一级人片100| 亚洲最大成人av| 中文字幕一区二区三| 亚洲免费av一区| 亚洲综合小说| 成人一区二区三区四区| 岛国片av在线| 国产视频精品自拍| 日本精品入口免费视频| 欧美高清在线精品一区| 浓精h攵女乱爱av| 亚洲蜜桃视频| 国产欧美亚洲日本| 在线观看欧美日韩电影| 在线免费观看羞羞视频一区二区| 中文字幕日产av| 亚洲欧美日韩国产综合在线| 在线观看免费看片| 99精品久久久| 色一情一乱一伦一区二区三区丨| 免费日韩成人| 欧美极品在线播放| 亚洲av激情无码专区在线播放| 色呦呦国产精品| 亚洲激情图片网| 盗摄精品av一区二区三区| 97超碰青青草| 性欧美欧美巨大69| 国产一区在线免费| 国模视频一区| 欧美成人精品在线播放| 婷婷综合激情网| 欧美猛男超大videosgay| 青娱乐国产在线视频| 亚洲欧美视频一区二区三区| 免费日韩精品中文字幕视频在线| 日韩精品一二区| 日本午夜精品一区二区三区电影| 日本一区中文字幕| 国产美女视频一区| 99久久综合狠狠综合久久| 中文字幕高清一区| 亚洲午夜免费视频| 色综合天天在线| 97av中文字幕| 欧美久久精品| 国产日韩亚洲欧美| 动漫一区二区| 在线视频欧美性高潮| 精品人妻一区二区三区三区四区| 天天综合天天综合色| 欧美成人短视频| av成人动漫在线观看| 在线观看岛国av| 国产精品毛片在线| 2021国产视频| 波多野结衣在线播放一区| 国产日韩欧美一区二区| 国产精品亚洲欧美一级在线| 国产精品9999| 美女91在线看| 蜜臀久久99精品久久久久久宅男 | 穿情趣内衣被c到高潮视频| 伊人久久大香线蕉| 国产成人成网站在线播放青青| 久久亚洲国产精品尤物| 全亚洲最色的网站在线观看| 日韩免费影院| 久久精品视频va| 国产区在线视频| 日韩av影视在线| 亚洲国产成人一区二区| 911精品产国品一二三产区| 人人草在线观看| 午夜精品久久一牛影视| 国产精品白嫩白嫩大学美女| 欧美激情一区二区三区不卡| aa一级黄色片| 26uuu亚洲综合色| 亚洲精品国产精品久久| 国内精品免费| 91久久精品www人人做人人爽| 欧美暴力调教| 日本精品久久中文字幕佐佐木| 欧美黄色视屏| 超碰日本道色综合久久综合 | 一区二区在线免费视频| 五月婷婷丁香六月| 精品国产a毛片| 欧美一级片免费| 精品国内片67194| 不卡视频在线播放| 日韩视频123| av网站免费播放| 欧美一区二区网站| 国产熟女一区二区丰满| 91精品在线免费观看| 91久久久久久久久久久久| 欧美日韩在线免费视频| 中文字幕 视频一区| 欧洲国内综合视频| 在线观看免费视频一区| 欧美精品在线一区二区| 97久久人国产精品婷婷| 欧美精品粉嫩高潮一区二区| 91福利免费视频| 91麻豆精品91久久久久久清纯| 国产又粗又猛视频免费| 91麻豆精品国产91久久久使用方法 | av一区二区三区四区电影| 欧美久久亚洲| 国产麻豆日韩| 九九视频精品全部免费播放| 日日夜夜精品网站| 天天做天天爱天天综合网| 久久综合亚洲精品| 一本久道综合久久精品| 欧美一级黄色片视频| 美女视频第一区二区三区免费观看网站| 亚洲精品20p| 国产成人午夜视频| 北岛玲一区二区| 中文字幕精品在线不卡| 色欲一区二区三区精品a片| 伊人一区二区三区| 久久免费激情视频| 欧美日本国产视频| 黄色福利在线观看| 亚洲人成亚洲人成在线观看| 三区四区电影在线观看| 国内精品久久久久影院 日本资源 国内精品久久久久伊人av | 国产寡妇亲子伦一区二区三区四区| 日本二三区不卡| 国产巨乳在线观看| 亚洲国产精品久久久久久| 国产资源在线看| 久久99久久久久久久噜噜| 99热99re6国产在线播放| 国产精品va在线播放| 日韩精品免费视频一区二区三区| 精品一区久久久| 91九色精品| 亚洲色欲综合一区二区三区| 久久国产日韩欧美精品| 国产xxxx视频| 国产精品毛片a∨一区二区三区| 久草视频在线资源| 欧美视频一二三区| 神马午夜一区二区| 另类图片第一页| 日日骚一区二区网站| 狠狠色综合网| 99视频在线视频| av动漫一区二区| 四虎884aa成人精品| 欧美天天综合色影久久精品| 国产精品一级二级| 亚洲欧洲黄色网| 波多野结衣中文在线| 国产噜噜噜噜噜久久久久久久久| 欧美韩一区二区| 欧美日韩激情四射| 麻豆91在线播放| 四虎影成人精品a片| 亚洲综合一区二区| 一级全黄裸体免费视频| 精品一区二区三区三区| 四虎影院观看视频在线观看 | 91麻豆精品| 色综合影院在线观看| 免费看亚洲片| 男人的天堂影院| 一区二区三区中文字幕精品精品| 国产又粗又猛又爽又| 亚洲精品国产品国语在线| 性xxxxfjsxxxxx欧美| 成人激情视频网| 欧美第十八页| 日本a√在线观看| 国产午夜精品在线观看| 91丝袜一区二区三区| 亚洲精品成a人在线观看| 在线xxxx| 91久久精品一区二区别| 综合激情视频| 男人操女人下面视频| 亚洲欧美日本在线| 国产又粗又黄又爽的视频| 日韩在线中文字| 欧美在线一级| 一区二区三区四区国产| 麻豆免费精品视频| аⅴ天堂中文在线网| 欧美性感一区二区三区| 国产一区二区三区探花| 国产精品视频免费一区二区三区| 午夜精品一区二区三区国产 | 日本熟女一区二区| 日韩精品影音先锋| 久草在线资源站资源站| www.久久久| 在线国产日韩| av在线电影播放| 97精品久久久| 亚洲国产91| 欧美mv和日韩mv国产网站| 日韩欧美a级片| 亚洲国产精品字幕| sm在线播放| 精品国产一区二区三区麻豆免费观看完整版 | 国产一区二区女| 欧美成欧美va| 亚洲成人久久一区| 男人av在线播放| 欧美日韩另类综合| 蜜臀久久99精品久久久画质超高清 | 黄色av一级片| 正在播放国产一区| 精品久久国产一区| 男女私大尺度视频| 久久嫩草精品久久久精品| 午夜一区二区三区四区| xxx一区二区| 久久a爱视频| 色乱码一区二区三区在线| 亚洲欧美成人一区二区三区| 四虎永久在线观看| 国产精品爱久久久久久久| 91精品高清| 少妇毛片一区二区三区| 欧美性色aⅴ视频一区日韩精品| 国产激情在线| 欧美精品成人一区二区在线观看 | 欧美日韩国产高清| 男生裸体视频网站| 欧美日韩国产免费一区二区| 日本不卡影院| 亚洲高清不卡一区| 国产成人亚洲综合a∨婷婷图片| 国产微拍精品一区| 超碰精品一区二区三区乱码| 色老板在线视频一区二区| av在线网址导航| 亚洲成人免费在线| 亚洲精品传媒| 久草热久草热线频97精品| 精品午夜一区二区三区在线观看 | 午夜在线一区| 69av视频在线|