精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

計算效率提升8倍!復旦黃萱菁教授團隊提出AgentPRM:重新定義智能體過程獎勵

人工智能
螞蟻集團提出?AgentPRM,一種面向智能體任務的過程獎勵模型(PRM),通過評估每步決策對最終目標的貢獻并捕捉決策間的依賴關系,實現更有效的進度追蹤和探索-利用平衡。

智能體任務本質上具有動態性和上下文敏感性,這與傳統的靜態任務有所不同,在這些任務中取得良好表現需要模型不僅能夠理解與任務相關的知識并解釋環境線索,還需要進行前瞻性規劃以預見到其決策的未來后果。當前大語言模型在智能體任務中仍面臨挑戰,即每個動作缺乏明確的“正確性”,且決策存在序列依賴。

為此,螞蟻集團提出 AgentPRM,一種面向智能體任務的過程獎勵模型(PRM),通過評估每步決策對最終目標的貢獻并捕捉決策間的依賴關系,實現更有效的進度追蹤和探索-利用平衡。為高效獲取訓練數據,采用基于時序差分(TD)結合廣義優勢估計(GAE)的自動化方法。實驗顯示,使用Qwen2.5?3B時,AgentPRM在多任務上比基線方法計算效率提升超過8倍,同時在擴展推理計算時仍保持穩定、魯棒的性能改進。

  • 論文標題:AgentPRM: Process Reward Models for LLM Agents viaStep-Wise Promise and Progress
  • 論文鏈接: https://arxiv.org/pdf/2511.08325

一、方法

AgentPRM的核心思想是評估每一步到目標狀態的接近程度,并跟蹤LLM所取得的進展。

圖1:AgentPRM與基線方法的比較,以及Best-of-N結果圖1:AgentPRM與基線方法的比較,以及Best-of-N結果

圖 2:AgentPRM的訓練和應用概述圖 2:AgentPRM的訓練和應用概述

(1)AgentPRM:重新定義LLM智能體的過程獎勵

1)利用值函數評估未來成功可能性的期望

為評估一個決策是否將狀態更接近目標,定義狀態值函數??(????):

圖片

其中,????(????,????)衡量強化學習中基于狀態????執行特定動作????后的預期未來成功概率。

然后利用圖片數據集來訓練一個模型圖片,使用均方誤差(MSE)損失來預測動作值。

圖片

訓練完成后,基于模型圖片的預測結果,可以進行推理時搜索或 Best-of-N(BoN)采樣。

2)利用優勢函數捕獲步驟間的依賴關系

上述圖片僅衡量動作對最終目標的潛在貢獻,而忽略了狀態或決策之間的連續依賴關系,未能反映實際進展。這容易導致過度利用、探索不足,從而阻礙智能體達成目標。而RL中優勢函數量化了某一動作所帶來的成功概率相對于基準的相對提升。

圖片

研究團隊進一步引入了一個獨特的損失項來擬合優勢:

圖片

其中圖片表示標注的優勢標簽。

因為智能體任務具有稀疏獎勵,即在任何時間步?? < ??, r?? = 0 (其中?? 是最終時間步),所以優勢損失L??(??)的損失項變為:

圖片

最終,AgentPRM的損失為:圖片不僅考慮對最終結果的貢獻,還考慮相鄰動作之間的依賴關系,其中??是一個平衡兩個損失項的縮放因子。

(2)AgentPRM的實際訓練方式

訓練AgentPRM所需的"真實"價值標簽并不容易獲得,必須進行估計。為獲取可靠的訓練數據,研究團隊聚焦于改進底層的動作價值函數估計方式,提出了基于時序差分(TD)并結合廣義優勢估計(GAE)的新方法。

首先, 定義動作的TD誤差如下:

圖片

其中,rt是時間步t的即時獎勵,接下來,給定一個軌跡圖片使用GAE估計不同動作的優勢:

圖片

其中??是折扣因子。最終,當前估計的 圖片 可以表示為:

圖片

其中??<??。對于終止步驟??=??,目標動作值圖片直接定義為從環境中獲得的最終結果獎勵。

該訓練方式提供兩大主要優勢:

  • 從效率角度來看,基于TD的估計結合GAE不需要像基于 MC的方法那樣從每個狀態進行額外的rollout,從而節省了大量計算資源。
  • 從性能角度來看,盡管基于TD的方法存在高方差問題,但是引入GAE后降低了方差并提高了穩定性,最終實現了更好的性能。

二、評估

(1)主要結果

1)與貪心解碼相比,引入獎勵模型用于 BoN采樣和搜索可以提升大模型在智能體任務上的表現。

實驗結果如表1和圖3所示。與采用貪心解碼的SFT和RFT方法相比,引入獎勵模型用于BoN采樣與搜索策略顯著提升了模型性能,且隨著推理時計算量的增加,性能進一步增強。

表1 基于訓練的方法和基于獎勵模型的束搜索在智能體任務上的評估結果

圖片圖片

圖3 Best-of-N 評估的性能圖3 Best-of-N 評估的性能

2)AgentPRM 比其他獎勵模型具有更高的計算效率,且在 BoN 采樣和測試時搜索中始終表現更優。

圖1(右上)顯示,平均而言,AgentPRM 的計算效率比 PVMs 和 ORMs 高出約8倍。這凸顯了 AgentPRM 在訓練更強的大語言模型智能體方面的潛力,例如結合強化學習等方法。

如圖3所示,在不同采樣預算的 BoN 評估下,本文方法方法在各類任務上均持續優于 ORMs和PVMs,充分驗證了其有效性。如表1所示,在束搜索中,該方法同樣在不同任務上顯著超越 ORMs 和 PVMs,證明了其在引導模型搜索、實現良好探索與利用平衡方面的能力。例如,在 WebShop 任務上使用 Qwen2.5-3B 模型并采用 8×8 采樣搜索設置時,比 PVM 高出超過 20 個點。

3)隨著推理計算資源的增加,AgentPRM 表現出更穩健、更穩定的性能提升趨勢。

如圖1和圖3所示,隨著采樣預算的增大,PVMs 和 ORMs 往往出現性能瓶頸,甚至性能下降,這些問題可能會限制它們在未來基于強化學習和自我改進方法中訓練更強智能體的有效性。相比之下,AgentPRM 始終展現出持續穩定的性能提升,凸顯了其魯棒性,并展現出在未來應用中的廣闊前景。

(2)將AgentPRM應用于強化學習

為評估本文獎勵模型的有效性,將其集成到強化學習優化過程中。在 BabyAI 和 TextCraft 任務上使用 Qwen2.5-3B 模型進行實驗,并采用廣泛應用的近端策略優化(Proximal Policy Optimization, PPO)算法。如圖 5 所示,其他基線獎勵模型在優化過程中面臨訓練不穩定或性能提升緩慢的問題,AgentPRM 實現了更穩定且高效的優化,顯著優于基線方法。

圖5 RL 優化的任務得分圖5 RL 優化的任務得分

(3)數學推理性能

為了驗證方法的通用性,在數學推理任務上也進行了實驗。使用 GSM8K 數據集,結果如圖6和表2顯示,AgentPRM在數學推理任務上依然顯著優于其他基線,體現出良好的泛化能力和適應性,未來計劃將其拓展到代碼生成、邏輯推理等更多任務中。

圖6 數學推理任務上的 Best-of-N 結果圖6 數學推理任務上的 Best-of-N 結果

表2 數學推理任務中束搜索的評估結果

圖片 圖片

責任編輯:武曉燕 來源: 智猩猩AI
相關推薦

2020-05-12 10:42:58

人工智能云計算AI

2013-05-21 11:40:26

2025-08-29 07:47:54

2024-01-26 10:26:11

邊緣計算數據處理電信

2024-02-20 14:33:24

人工智能數據中心

2024-03-12 14:45:07

邊緣數據中心服務器能源消耗

2025-11-04 00:00:00

AI智能體deepagents

2022-09-24 23:49:47

人工智能自動駕駛自動化

2020-08-17 07:00:00

混合云云計算技術

2017-10-13 22:18:53

物聯網

2022-09-20 11:36:32

人工智能AI

2014-10-31 15:08:23

商業智能大數據

2025-03-11 08:30:00

2013-05-21 10:12:52

BYOD重定義云計算

2019-04-18 09:32:16

淘寶情景計算

2023-09-28 08:00:00

人工智能圖像搜索

2023-10-26 08:30:00

人工智能圖像搜索

2025-09-26 09:26:23

2019-06-12 06:48:00

云計算IT團隊企業

2009-11-05 11:42:45

Unix專家
點贊
收藏

51CTO技術棧公眾號

国产精品久久久久久久久久久久冷 | 成年人在线观看视频免费| 欧洲天堂在线观看| 青草av.久久免费一区| 中文字幕日本欧美| 国产sm在线观看| 国产免费不卡| 亚洲免费成人av| 欧美国产一区二区在线| 国产又粗又长又黄| 一本色道久久综合亚洲精品不| 亚洲欧美综合另类中字| 国产精品成人一区二区三区电影毛片 | 国产精品初高中害羞小美女文| 亚洲综合社区网| 亚洲精品国产精品乱码| 波多野结衣在线播放一区| 69堂成人精品免费视频| 无码播放一区二区三区| 在线视频1区2区| 99久久精品情趣| 91精品久久久久久久久久久| 欧美成人精品欧美一级乱黄| 香蕉av一区二区| 亚洲小视频在线观看| 国产女主播在线播放| 久久久久毛片| 精品日本美女福利在线观看| 香蕉视频免费版| av在线免费播放网站| 99久久久国产精品| www.一区二区三区| 国产毛片久久久久| 日韩国产欧美视频| 97国产suv精品一区二区62| 亚洲AV成人无码精电影在线| 中文字幕亚洲影视| 日韩第一页在线| 4438x全国最大成人| 欧美一级二级视频| 欧美日韩在线观看视频| 日韩一级片免费视频| a级片国产精品自在拍在线播放| 国产午夜一区二区三区| 久久精品国产理论片免费| 国产福利小视频| 国产一区日韩二区欧美三区| 国产精品午夜视频| 中文无码精品一区二区三区| 首页综合国产亚洲丝袜| 97国产suv精品一区二区62| 国产在线观看免费av| 中文字幕一区二区精品区| 精品国产一区av| 国产美女网站视频| 日韩国产欧美一区二区| 一区二区三区www| 久久av无码精品人妻系列试探| 香蕉久久精品| 亚洲欧美日韩成人| a级在线免费观看| 精品国产aⅴ| 国产亚洲人成a一在线v站| 69视频在线观看免费| 波多野结衣的一区二区三区 | 欧美私人免费视频| 亚州精品一二三区| 日本久久久久| 日韩视频在线永久播放| 久久久久久久穴| 欧美亚洲国产日韩| 亚洲欧美一区二区三区四区 | 亚洲3atv精品一区二区三区| 国产资源在线视频| 深夜成人影院| 欧美日韩小视频| 日本一二三区在线| 成人高潮视频| 亚洲欧美日韩国产中文| 国产精品一区二区亚洲| 欧美国产另类| 97av在线视频| 日韩乱码一区二区三区| 国内精品国产成人| 国产一级精品aaaaa看| 日韩大胆视频| 国产精品久久久久久久久图文区| 中文字幕一区二区三区最新| 黑人玩欧美人三根一起进| 欧美日韩国产在线看| 在线免费观看av的网站| 欧州一区二区三区| 精品中文字幕久久久久久| 日韩欧美视频免费观看| 极品少妇一区二区三区| 国产精彩精品视频| 国产a级免费视频| www成人在线观看| 一区二区在线高清视频| а√在线天堂官网| 欧美日韩一卡二卡| 精品一区二区视频在线观看| 日韩av久操| 午夜精品久久久久久久男人的天堂 | 国内精品久久久久国产| 亚欧色一区w666天堂| 一区二区三区网址| 精品国内亚洲2022精品成人| 神马国产精品影院av| 日本熟女一区二区| 国产真实乱子伦精品视频| 精品日韩电影| av免费在线网站| 欧美性极品少妇| 亚洲精品乱码久久久久久久| 亚州av乱码久久精品蜜桃| 欧美在线一级视频| 亚洲精品网站在线| 国产精品白丝在线| 少妇性饥渴无码a区免费| 免费欧美网站| 日韩小视频在线| 69亚洲精品久久久蜜桃小说| 岛国av在线一区| 致1999电视剧免费观看策驰影院| 成人性生活视频| 亚洲成人国产精品| h色网站在线观看| 免费成人性网站| 欧美在线视频一区二区三区| 操人在线观看| 欧美不卡一区二区三区四区| 手机在线免费看片| 久久精品99久久久| 色综合久久久久久久久五月| 天堂网在线最新版www中文网| 日韩欧美电影一区| 欧美一级片在线视频| 男女男精品网站| 免费成人看片网址| 色网在线免费观看| 亚洲第一精品夜夜躁人人躁 | 99视频在线观看地址| 日韩欧美国产激情| 麻豆精品免费视频| 国产精品久久久久毛片大屁完整版 | 久久91精品国产91久久跳| 中文字幕在线观看国产| 久久精品视频一区| 免费男同深夜夜行网站 | 亚洲欧美日韩视频一区| 久久综合成人网| 国产91在线观看| 妞干网视频在线观看| 亚洲一级大片| 国内精品视频久久| 熟妇人妻系列aⅴ无码专区友真希| 亚洲一区二区在线观看视频| 国产人成视频在线观看| 99综合视频| 久久久99爱| japanese23hdxxxx日韩| 一个人www欧美| 在线视频免费观看一区| 成人免费在线视频观看| 奇米777在线| 一区精品久久| 久久婷婷开心| 69堂精品视频在线播放| 国产亚洲精品美女久久久| 在线观看免费中文字幕| 亚洲女同ⅹxx女同tv| 中文字幕久久久久久久| 99精品视频免费观看视频| 日本婷婷久久久久久久久一区二区 | 亚洲电影一区二区| 草草影院第一页| 美腿丝袜亚洲综合| 永久免费网站视频在线观看| 99久久免费精品国产72精品九九| 91精品国产99久久久久久| 免费在线观看污视频| 欧美乱妇20p| 免费中文字幕在线观看| 久久色在线观看| 色天使在线观看| 激情久久久久| 日韩久久久久久久| 精品国产亚洲一区二区在线观看| 欧美激情精品久久久久久变态| 手机亚洲第一页| 91国偷自产一区二区三区观看| 伊人久久久久久久久久久久久久| 丰满放荡岳乱妇91ww| 国产免费视频传媒| 亚洲人metart人体| 久久免费看av| 麻豆国产一区| 日本在线观看天堂男亚洲| 国产美女在线观看| 亚洲人成网站免费播放| www.av导航| 欧美亚洲国产一区二区三区va | 美国美女黄色片| 成人性生交大合| 91插插插插插插插插| 亚洲电影成人| 综合久久国产| 欧美人妖在线| 国产成人成网站在线播放青青 | 亚洲a在线观看| 激情亚洲影院在线观看| 欧美激情区在线播放| av在线电影观看| 日韩成人在线观看| 午夜精品小视频| 欧美女孩性生活视频| 久热这里只有精品在线| 国产精品久久久久久久久久久免费看 | av成人资源网| 91麻豆桃色免费看| av亚洲一区| 日韩av手机在线| 末成年女av片一区二区下载| 欧美日产国产成人免费图片| 在线观看国产原创自拍视频| 亚洲裸体xxxx| 偷拍自拍在线视频| 日韩一二三区不卡| 国产精品呻吟久久| 精品久久久久久久久久久国产字幕| 成人免费av在线| 国产女同无遮挡互慰高潮91| 日韩在线卡一卡二| www.亚洲天堂网| 在线综合亚洲| 人妻av中文系列| 日韩精品一区二区三区免费观看| 欧美一区二区三区四区夜夜大片| 欧美影院天天5g天天爽| 国产98在线|日韩| 超碰地址久久| 国内一区二区在线视频观看| 日韩av综合| 99国产在线观看| 亚洲精品在线a| 亚洲aaaaaa| 亚洲一区电影| 精品国产乱码久久久久软件 | 精品嫩草影院久久| xxxwww在线观看| 精品国产乱码久久久久久牛牛 | 国产嫩草影院久久久久| 国产黄色大片免费看| 国产欧美日韩麻豆91| 欧美人与禽zoz0善交| 国产精品女主播在线观看| 99精品中文字幕| 亚洲色图.com| 欧美高清视频一区二区三区| 亚洲一区二区三区四区中文字幕| 国产一级片久久| 婷婷综合另类小说色区| 二区视频在线观看| 在线观看亚洲精品视频| 伊人成人在线观看| 在线不卡a资源高清| a天堂在线视频| 亚洲成av人乱码色午夜| 青青青草网站免费视频在线观看| 亚洲视频网站在线观看| 午夜免费福利在线观看| 久热精品视频在线观看一区| 欧美高清另类hdvideosexjaⅴ| 91精品国产99| 国产成人精品一区二区三区免费| 亚洲一区中文字幕在线观看| aaa国产精品视频| 欧美在线播放一区| 综合激情婷婷| 免费观看日韩毛片| 免费在线观看日韩欧美| 性xxxxxxxxx| 久久久久高清精品| 国产精品免费人成网站酒店| 亚洲成av人片在线| 在线观看毛片av| 亚洲第一男人av| 日本三级视频在线播放| 久久全国免费视频| 成人四虎影院| 国产欧美一区二区在线播放| 精品国产欧美日韩| 大胆欧美熟妇xx| 亚洲精品影视| 一起操在线视频| 91麻豆高清视频| 26uuu成人网| 91激情在线视频| 手机看片一区二区三区| 最近中文字幕2019免费| 草草在线观看| 亚洲综合一区二区不卡| 免费成人网www| 成人午夜免费剧场| 三级在线观看一区二区| 国产视频精品视频| 国产精品网曝门| 日本少妇做爰全过程毛片| 欧美日本在线一区| 欧美xxx.com| 久久久久久久亚洲精品| 四虎在线精品| 日韩精品久久一区| 一区二区三区四区五区精品视频| 黄色小视频免费网站| 久久久精品黄色| 日本最新中文字幕| 日韩视频中午一区| 麻豆av在线导航| 国产精品视频专区| 亚洲素人在线| 免费欧美一级视频| 成人免费的视频| 九九视频在线观看| 欧美一区二区视频在线观看2020 | 国产精品扒开腿爽爽爽视频| 久久伊人久久| 手机在线视频你懂的| 日韩高清电影一区| 亚洲精品国产熟女久久久| 五月天视频一区| 国产色片在线观看| 色哟哟入口国产精品| 欧美日韩尤物久久| 欧美日韩一区二区三| 久久国产99| 精品人妻一区二区三区视频| 亚洲靠逼com| 99精品免费观看| 超碰91人人草人人干| 欧美激情啪啪| 欧美日韩一级在线| 久久成人麻豆午夜电影| 欧日韩不卡视频| 在线观看91av| 日韩精品卡一| 亚洲欧美成人在线| 无码人妻精品一区二区三| fc2成人免费人成在线观看播放 | 国产精品美女www| 久久久久久久久久久久久久久久久久久久| 只有这里有精品| 国产精品 日产精品 欧美精品| 538精品在线视频| 日韩欧美黄色影院| 青青草原av在线| 国产91aaa| 日韩午夜电影| 久久久精品人妻无码专区| 日韩欧美在线中文字幕| 国产高清视频在线| 91视频-88av| 国产综合亚洲精品一区二| 亚洲成人av免费在线观看| 欧美性xxxx在线播放| 国产特黄在线| 成人午夜在线视频一区| 亚洲欧美一级二级三级| 97人妻精品一区二区三区免费| 同产精品九九九| wwwww在线观看免费视频| 91在线高清视频| 日韩午夜一区| 亚洲成人黄色av| 555夜色666亚洲国产免| 国产一线二线在线观看| 女同一区二区| 国产自产2019最新不卡| 日本中文字幕免费观看| 亚洲视频欧美视频| 国产精品一区二区三区www| 欧美精品卡一卡二| 久久久久久99精品| 国产绿帽一区二区三区| 国内精品视频一区| 精品日韩一区| 免费黄视频在线观看| 日韩欧美国产视频| 久热国产在线| 狠狠色综合网站久久久久久久| 日本视频免费一区| 私库av在线播放| 亚洲人高潮女人毛茸茸| 日韩免费一级| 亚洲污视频在线观看| 亚洲地区一二三色| 色大18成网站www在线观看| 激情小说综合区| 国产一区中文字幕|