精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

從「會說」邁向「會做」,LLM下半場:Agentic強化學習范式綜述

人工智能 新聞
自 2025 年初 DeepSeek R1 及其背后的 GRPO 范式獲得空前熱度以后,一種新的訓練范式 ——Agentic Reinforcement Learning(Agentic RL),愈發到社區關注。它試圖讓 LLM 從「被動對齊」進化為「主動決策」的智能體,在動態環境中規劃、行動、學習。

本文第一作者為新加坡國立大學博士生 張桂彬、牛津大學研究員 耿鶴嘉、帝國理工學院博士生 于曉航;通訊作者為上海人工智能實驗室青年領軍科學家 白磊 和 牛津大學博士后 / 上海人工智能實驗室星啟研究員 尹榛菲

過去幾年,大語言模型(LLM)的訓練大多依賴于基于人類或數據偏好的強化學習(Preference-based Reinforcement Fine-tuning, PBRFT):輸入提示、輸出文本、獲得一個偏好分數。這一范式催生了 GPT-4、Llama-3 等成功的早期大模型,但局限也日益明顯:缺乏長期規劃、環境交互與持續學習能力。

為了突破這樣的瓶頸,自 2025 年初 DeepSeek R1 及其背后的 GRPO 范式獲得空前熱度以后,一種新的訓練范式 ——Agentic Reinforcement Learning(Agentic RL),愈發到社區關注。它試圖讓 LLM 從「被動對齊」進化為「主動決策」的智能體,在動態環境中規劃、行動、學習。

  • 論文標題:The Landscape of Agentic Reinforcement Learning for LLMs: A Survey
  • arXiv 地址:https://arxiv.org/pdf/2509.02547
  • GitHub 地址:https://github.com/xhyumiracle/Awesome-AgenticLLM-RL-Papers

為了捋清這一新興領域,一篇長達 100 頁、由牛津大學、新加坡國立大學、伊利諾伊大學厄巴納-香檳分校,倫敦大學學院、帝國理工學院、上海人工智能實驗室等 16 家海內外頂級研究機構聯合完成的最新綜述論文,全面系統地梳理了作用于 LLM 的 Agentic RL 這一方向,覆蓋 500 + 相關研究,構建了 Agentic RL 的理論框架、演化脈絡與資源版圖,并討論了可信性、擴展性和復雜環境等未來挑戰。

范式遷移:從 PBRFT 到 Agentic RL

從 LLM-RL 到 Agentic RL 范式遷移概覽

該綜述首先給出范式遷移的形式化定義:早期 RL 研究多基于 PBRFT 范式,可被視為退化的單步 MDP(單 prompt、一次性文本輸出、立即終止),而 Agentic RL 則將 LLM 置于部分可觀測馬爾可夫決策過程(POMDP)下進行多步交互:

其中關鍵變化在于動作空間從單一文本擴展為「文本 + 操作」();同時獎勵從「單步評分」擴展為「時序反饋」,優化整條決策軌跡,把 LLM 從「文本生成器」推進為「可交互的決策體」。

一句話:PBRFT 讓模型更會一次地說,Agentic RL 讓模型更會長程地做。

在強化學習優化算法層面,當前實踐形成了一條從通用策略梯度到偏好優化的譜系,Table 2 匯總比較了三類算法家族及其代表方法,便于讀者快速對照「訓練用什么算法」與「對齊目標/信號形態」 的對應關系。

六大核心能力:智能體的「內功」

要讓 LLM 真正成為智能體,僅有動作空間還不夠,它必須發展出一套完整的能力體系。該綜述將其總結為六大核心模塊,并對每個模塊提出了前瞻性討論:

1. 規劃(Planning):為復雜任務設定子目標與多步行動序列。通過外部引導(外部打分生成獎勵)或內部驅動(自主規劃并修正)實現。

2. 工具使用(Tool Use):調用外部工具完成任務。從 ReAct 等靜態提示模仿演進到 Tool-integrated RL (TIR),讓智能體學會自主選擇組合工具。

Agentic Tool Using 演化路徑

3. 記憶(Memory):保持上下文連貫并積累知識,包括基于外部數據庫檢索記憶、Token 級別記憶和結構化記憶。其中,值得關注的工作包括來自字節跳動的 MemAgent 和麻省理工大學的 MEM1,他們都通過強化學習讓 LLM Agent 擁有自行管理記憶窗口的能力。

4. 自我改進(Self-Improvement)同樣是目前 Agent 最熱門的發展方向。該綜述高屋建瓴地將目前 Agent 自我提升的能力劃分為以下三類:

  • 基于語言強化學習,即類似于 Reflexion、Self-Critic 等風格的自我糾正;
  • 通過強化學習訓練內化自提升能力,譬如來自 MIT-IBM Watson AI Lab 的 Satori 便通過強化學習內化 Agent 在測試階段自我糾正的能力;類似的工作還有來自上海 AI Lab 的 TTRL,Meta 的 SWEET-RL 等等;
  • 通過迭代自訓練,譬如來自清華的 Absolute Zero、來自斯坦福的 Sirius 等等。

5. 推理(Reasoning):解決復雜問題的推導能力,分為快速直覺推理(憑經驗直覺迅速答題)和慢速縝密推理(多步演繹得出嚴謹結論)。

6. 感知(Perception):理解多模態輸入的信息獲取能力。模型從被動識別走向主動感知,可通過定位驅動(將推理錨定具體對象)、工具驅動(借助外部工具輔助)和生成驅動(生成圖像草圖輔助推理)等方式提升感知效果。

智能體與環境交互閉環示意

借助強化學習,這些能力由人工啟發式轉變為可學習的策略,規劃不再依賴硬編碼流程、工具使用也可由模型自主決定、端到端訓練。

Agentic RL 6 大核心能力板塊

任務落地與演化路徑

不同任務領域的 Agent RL 進化樹

Agentic RL 也在橫向拓展應用邊界,涌現出多種智能體雛形:

  • 搜索與研究:優化多輪檢索與證據整合策略,學會何時繼續搜索、何時下結論;
  • 代碼:將編譯錯誤與單元測試結果用作獎勵,推動智能體能力從一次性代碼生成進化到自動調試以及自動化軟件工程流程;

  • 數學:在非形式化 (informal) 推理中,利用正確率或中間過程獎勵來塑造推理軌跡;在形式化 (formal) 推理中,交互式定理證明器 (ITPs) 提供可驗證的二值信號,使智能體能在嚴格規則下探索證明路徑;

  • 圖形界面 (GUI):在網頁和桌面環境中讓智能體學習點擊、輸入、導航等操作,從靜態腳本模仿走向交互式操作,提升對真實應用的適配性;

  • 視覺與具身:融合視覺感知與決策規劃,實現「看-思-做」的連續決策閉環,增強智能體在多模態問答、導航與機器人操作等任務中的表現;
  • 多智能體系統:通過獎勵設計促使多個模型在競爭或合作中逐漸涌現溝通與分工能力。

  • 其他探索:RL 也被應用于數據分析、科學發現等場景,顯示出 Agentic RL 在更多任務中的潛在適應性。

總體來看,Agentic RL 已在多個場景初步落地,并正從單一任務逐漸邁向更復雜、更貼近現實的任務生態。

環境與框架

Agentic RL 的發展離不開可復用的實驗環境與工具鏈。現有工作已涵蓋網頁、GUI、代碼、游戲等多種開源平臺,并配套了相應的評測基準與框架,為研究者提供了開展實驗和對比的基礎設施。

此外,這份綜述還整合了 500+ 篇相關研究,并在 GitHub 上開源了 Awesome-AgenticLLM-RL-Papers,將論文、環境、基準與框架一站式匯總,為后續研究提供了全景式的參考地圖。

挑戰與前瞻

盡管 Agentic RL 已展現出廣闊潛力,但要真正走向穩健和實用,還存在若干核心挑戰:

  • 可信性與安全性:相比傳統 LLM,Agentic RL 智能體集成了規劃、工具調用和記憶等能力,攻擊面顯著擴大;同時,RL 的獎勵驅動機制也可能導致 reward hacking,使不安全行為被強化,帶來更持久的風險。
  • Scale Up 智能體訓練:大規模 Agentic RL 訓練面臨算力、數據和算法效率的瓶頸。當前 RL 方法成本高昂,難以在長時程決策或復雜環境中穩定擴展,需要發展更高效的優化范式。
  • Scale Up 智能體環境:現有的交互環境難以覆蓋真實世界的復雜性。未來應探索環境與智能體的「協同進化」,例如通過自動化獎勵設計、課程生成和環境自適應優化,讓環境在訓練中發揮「主動教學」的作用,而不僅僅作為靜態測試平臺。

這些挑戰構成了 Agentic RL 進一步發展的關鍵門檻,也為未來研究提供了明確方向。

結語

這篇綜述系統化梳理了 Agentic RL 的理論框架、能力維度、任務應用與資源生態,確立了其作為 LLM 演進的重要訓練范式。

綜述強調:單步對齊已難以支撐復雜任務,LLM 訓練范式由此進入 Agentic RL 的下半場,而強化學習是將規劃、工具使用、記憶、推理等核心能力從啟發式功能轉化為穩健智能行為的關鍵機制。

未來,隨著可信性、可擴展性和復雜環境等挑戰的逐步突破,LLM 將有望真正從 「會說」邁向「會做」,成長為更通用、更自主的智能體。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-10-11 04:00:00

2025-07-29 09:05:00

2019-03-21 10:57:58

技術開源數據

2018-11-22 09:07:45

NFV網絡功能虛擬化網絡

2017-12-13 16:50:14

傳播

2018-10-29 13:50:40

2016-12-21 16:53:51

大數據互聯網阿里

2021-08-05 11:11:29

5G數字化行業專網

2020-07-13 07:00:03

微服務服務網格架構

2022-08-09 08:40:51

運營商互聯網云云計算

2021-03-04 09:37:40

云計算云原生計算云安全

2024-09-23 08:42:11

2016-12-13 12:34:23

寬帶電信移動

2024-10-12 17:14:12

2021-01-27 09:12:30

微信搜索騰訊

2018-08-12 11:54:41

BlackHat

2018-12-06 09:55:38

區塊鏈數字貨幣互聯網

2025-02-06 13:50:06

2025-05-28 02:25:00

2018-09-13 11:37:55

微信小程序騰訊
點贊
收藏

51CTO技術棧公眾號

在线国产一区二区| 韩日一区二区| 不卡电影免费在线播放一区| 26uuu亚洲伊人春色| 欧美特级黄色录像| 外国电影一区二区| 亚洲一卡二卡三卡四卡五卡| 久久免费99精品久久久久久| 亚洲中文字幕在线一区| 欧美日韩影院| 一区二区成人精品| 国产精品19p| 88xx成人免费观看视频库| 最新国产の精品合集bt伙计| 国产精品一区二区欧美| 凹凸精品一区二区三区| 狠色狠色综合久久| 在线观看欧美日韩| 亚洲av熟女高潮一区二区| 欧美一级二级视频| 黄色成人在线免费| 三级网在线观看| 欧美18xxxxx| 国产精品18久久久久久久久 | 成人免费看aa片| 亚洲一区二区av| 欧美日在线观看| 日韩人妻一区二区三区蜜桃视频| 免费在线稳定资源站| 国产成人无遮挡在线视频| 国产精品自产拍在线观看中文| 国产一级特黄视频| 99久久久国产精品美女| 亚洲欧美日韩直播| 亚洲图片欧美另类| 国产精品久久免费视频| 色婷婷综合久久久| 免费av观看网址| 色呦呦视频在线观看| 亚洲欧洲性图库| 日本福利一区二区三区| 视频国产一区二区三区| 粉嫩aⅴ一区二区三区四区五区| 国产精品尤物福利片在线观看| 日韩三级一区二区| 亚洲一区激情| 91成品人片a无限观看| 麻豆国产尤物av尤物在线观看| 日韩中文在线电影| 这里只有精品在线播放| 亚洲精品色午夜无码专区日韩| 超碰在线亚洲| 精品国产sm最大网站免费看| 欧洲熟妇的性久久久久久| 精品国产亚洲日本| 69久久夜色精品国产69蝌蚪网| 在线观看高清免费视频| 91在线成人| 欧美色图第一页| 国产精品久久久毛片| 不卡亚洲精品| 欧美日韩电影在线播放| 最新天堂在线视频| 91精品视频一区二区| 欧美巨大另类极品videosbest| 粉色视频免费看| 国产精品xnxxcom| 日韩一级视频免费观看在线| 免费不卡av网站| 清纯唯美激情亚洲| 精品国产乱子伦一区| 国产精品成人99一区无码| 麻豆精品av| 亚洲区一区二区| 国产精品理论在线| 欧美伊人久久| 久久久久久久久久久国产| 日韩无码精品一区二区三区| 国产欧美在线| 国产精品视频精品| 国产色综合视频| 成人av网址在线观看| 久久96国产精品久久99软件| 男人天堂亚洲二区| 国产精品久久久久影院亚瑟| 亚洲精品天堂成人片av在线播放| 精品精品导航| 色综合咪咪久久| 亚洲图片 自拍偷拍| 日韩精品成人在线观看| 亚洲韩国青草视频| 极品尤物一区二区| 欧美一区二区| 97超级碰碰人国产在线观看| 精品无码一区二区三区的天堂| 久久av中文字幕片| 国产高清在线一区| 高清福利在线观看| 一区二区三区四区精品在线视频| 国产美女网站在线观看| 国产伊人久久| 亚洲精品电影网| 肉色超薄丝袜脚交69xx图片| 91久久亚洲| 成人黄色免费在线观看| 天天综合在线视频| 亚洲人xxxx| 黄色国产精品视频| 日韩第一区第二区| 亚洲午夜精品久久久久久性色 | 伊人性伊人情综合网| 国产成人a亚洲精v品无码| 色综合一区二区日本韩国亚洲| 亚洲国产小视频在线观看| 男人的午夜天堂| 在线视频精品| 国产91色在线|亚洲| av在线播放av| 日韩欧美国产高清91| 杨幂一区二区国产精品| 国产一区二区三区四区| 欧美激情视频免费观看| 亚洲一区二区三区高清视频| 99在线热播精品免费| 日韩中文字幕亚洲精品欧美| 色婷婷综合久久久中字幕精品久久| 欧美va日韩va| 伊人久久久久久久久久久久久久| 久久免费高清| 国产伦一区二区三区色一情| www在线免费观看视频| 色视频成人在线观看免| 星空大象在线观看免费播放| 一区二区三区毛片免费| 国产精品欧美一区二区三区奶水| 欧洲一区av| 福利一区视频在线观看| 亚洲av无码专区在线播放中文| 欧美激情偷拍自拍| 国产精品久在线观看| 国产在线视频网址| 日韩欧美有码在线| 蜜桃精品成人影片| 在线视频精品| 蜜桃日韩视频| 中文字幕高清在线播放| 亚洲精品午夜精品| 天天爽夜夜爽夜夜爽精品| 成人动漫av在线| 免费超爽大片黄| 加勒比色老久久爱综合网| 欧美精品videosex性欧美| 国产乱淫av免费| 亚洲欧洲三级电影| 热久久久久久久久| 欧美永久精品| 国产精品18毛片一区二区| 四季久久免费一区二区三区四区| 欧美一区二区三区白人| 欧美成人精品一区二区免费看片| 韩国av一区二区三区四区| 日韩国产精品毛片| 亚洲3区在线| 久久久久久久999| 人妻无码一区二区三区久久99| 亚洲成人一区在线| 呦呦视频在线观看| 免费亚洲婷婷| 亚洲成人自拍视频| 国产精久久久| 高清欧美性猛交xxxx黑人猛交| 欧美自拍偷拍第一页| 欧美日韩精品在线观看| 久久精品—区二区三区舞蹈| 日本美女一区二区三区视频| 一本色道久久综合亚洲精品婷婷 | 欧美曰成人黄网| 国产无遮挡在线观看| 极品少妇一区二区| 欧洲精品在线播放| 亚洲桃色综合影院| 国产日韩欧美在线播放| 亚洲资源一区| 日韩激情在线视频| 一区二区日韩视频| 亚洲国产精品影院| 国产黄色大片免费看| 激情六月婷婷综合| 午夜免费福利小电影| 波多野结衣一区| 91久久爱成人| 亚洲午夜天堂| 久久偷看各类女兵18女厕嘘嘘| 午夜精品久久久久久久爽 | 欧美成人精品网站| 亚洲人成影院在线观看| 亚洲国产欧美视频| 久久99热99| 免费毛片小视频| 99精品综合| 免费在线国产精品| 久久九九精品视频| 国产99久久精品一区二区 夜夜躁日日躁| 思思99re6国产在线播放| 精品美女一区二区| 中国精品一区二区| 亚洲sss视频在线视频| 99久久久无码国产精品不卡| 成人91在线观看| 嫩草视频免费在线观看| 免费永久网站黄欧美| 欧美精品久久96人妻无码| 日韩中出av| 97久久天天综合色天天综合色hd | 99www免费人成精品| 日韩免费小视频| 欧美激情综合色综合啪啪五月| 第一页在线观看| 亚洲精品一区二区三区香蕉| 91女人18毛片水多国产| 欧美性xxxx极品hd欧美风情| 欧美成人aaa片一区国产精品| 久久精品日产第一区二区三区高清版| 1314成人网| 毛片av中文字幕一区二区| 成人中文字幕在线播放| 欧美区亚洲区| 成年人黄色在线观看| 欧美日韩老妇| 奇米视频888战线精品播放| 福利片在线一区二区| 亚洲在线一区二区| 亚洲精品一区av| 国产精品久久久一区| 亚洲欧洲自拍| 68精品国产免费久久久久久婷婷| 中文在线手机av| www.亚洲成人| 午夜激情视频在线观看| 在线观看成人黄色| 大乳在线免费观看| 亚洲人av在线影院| 九色在线免费| 亚洲色图第三页| 日韩精品视频无播放器在线看 | 欧美日韩亚洲视频一区| 国产精品18p| 亚洲一区二区精品3399| 久久久久亚洲AV| 亚洲一区在线免费观看| 欧美色图亚洲天堂| 亚洲一区二区三区爽爽爽爽爽| 特级片在线观看| 一区二区三区在线播| 欧美爱爱小视频| 亚洲国产欧美一区二区三区丁香婷 | 蜜桃精品视频| 亚洲一区中文字幕在线观看| 久久天堂久久| 国产91精品一区二区绿帽| 国产精品超碰| 欧美激情一区二区三区在线视频| 自拍视频一区| 亚洲激情一区二区| 久久精品亚洲人成影院| 毛片在线视频观看| 伊人成人在线视频| 欧美v在线观看| 久久亚洲风情| 精品亚洲一区二区三区四区| 极品少妇xxxx精品少妇偷拍| 一个人看的视频www| 高清不卡一区二区在线| yy6080午夜| 国产偷v国产偷v亚洲高清| 日日操免费视频| 亚洲精品视频在线看| 国产精品第一页在线观看| 欧美日韩免费一区| 亚洲熟妇av乱码在线观看| 欧美一区二区三区成人| 婷婷亚洲一区二区三区| 中文字幕国产日韩| 新版中文在线官网| 日本最新高清不卡中文字幕| 国产成人午夜性a一级毛片| av噜噜色噜噜久久| 米奇777超碰欧美日韩亚洲| 亚洲欧美精品在线观看| 好看不卡的中文字幕| 国产精品人人妻人人爽人人牛| 久久成人免费网| 91丨porny丨对白| 欧美激情在线观看视频免费| 亚洲熟女www一区二区三区| 日韩欧美国产视频| 国产美女精品视频国产| 国产视频久久久久| www在线免费观看视频| 日韩免费观看高清| 玖玖精品一区| 日本一区网站| 国内精品福利| 亚洲综合婷婷久久| av日韩在线网站| 国产黄色录像片| 黄网动漫久久久| 国产精品玖玖玖| 亚洲欧美成人网| 久久不射影院| 国产啪精品视频| 亚洲国产精品嫩草影院久久av| 在线播放 亚洲| 天堂蜜桃91精品| 亚洲香蕉中文网| 亚洲视频你懂的| 狠狠躁夜夜躁人人爽视频| 欧美变态tickling挠脚心| www视频在线观看免费| 91精品国产91久久| 伊人精品综合| 51xx午夜影福利| 九九热在线视频观看这里只有精品| 女同毛片一区二区三区| 亚洲一卡二卡三卡四卡| 国产喷水福利在线视频| 国产一区二区av| 日韩伦理在线一区| 国产精品一 二 三| 午夜精品免费| 中文字幕第66页| 国产精品久久久久精k8| 波多野结衣啪啪| 亚洲精品一区中文| а√天堂中文在线资源8| 99re6热在线精品视频播放速度| 欧美xxxx中国| 色婷婷成人在线| 亚洲国产成人自拍| 国产女主播喷水视频在线观看| 亚洲国模精品一区| 国产精品一二三产区| 国产三级精品在线不卡| 亚洲午夜精品久久久久久app| 一级片免费在线观看视频| ㊣最新国产の精品bt伙计久久| 夜夜嗨av禁果av粉嫩avhd| 在线视频欧美日韩| 四虎4545www精品视频| 日韩精品久久久免费观看| 巨乳诱惑日韩免费av| 一级黄色片大全| 色老汉一区二区三区| 国产综合视频一区二区三区免费| 日本久久久久久| 国产九一精品| 艹b视频在线观看| 中文字幕视频一区二区三区久| 亚洲一卡二卡在线| 久久影视免费观看| 久久久国产精品入口麻豆| 欧美在线观看黄| 成人国产精品视频| 制服.丝袜.亚洲.中文.综合懂色| 亚洲精品98久久久久久中文字幕| 僵尸再翻生在线观看| 欧美午夜精品久久久久久蜜| 久久经典综合| 国产三级精品三级观看| 日韩免费成人网| 黄色污网站在线观看| 日本精品视频一区| 国精产品一区一区三区mba视频| 欧美三级 欧美一级| 亚洲精品理论电影| 日韩精品免费观看视频| 99热一区二区三区| 成人国产精品免费观看| www.国产毛片| 久久精品美女视频网站| 一区二区三区免费在线看| 国产视频一视频二| 国产欧美日韩在线看| 国产黄色美女视频| 日本成人黄色片| 久久精品影视| 中文字幕日韩三级片| 欧美日韩国产高清一区| 青草视频在线免费直播| 欧美日韩精品免费观看| 国产一区在线精品| 国产69精品久久久久久久久久| 中文字幕欧美精品日韩中文字幕| 无码国模国产在线观看| 乱子伦视频在线看| 亚洲欧美一区二区三区久本道91| 色婷婷av一区二区三| 国产伦精品免费视频| 亚洲福利一区| 免费成人深夜蜜桃视频|