精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

任意Agent皆可強化學習!微軟推出Agent Lightning框架,無需修改任何代碼

人工智能 新聞
AI Agent已逐漸從科幻走進現實!不僅能夠執行編寫代碼、調用工具、進行多輪對話等復雜任務,甚至還可以進行端到端的軟件開發,已經在金融、游戲、軟件開發等諸多領域落地應用。

當前的AI Agent在訓練與優化環節卻面臨著嚴峻挑戰,傳統強化學習方法也在復雜、動態交互場景下表現不佳。

為此,微軟團隊推出了一個靈活、可擴展的框架Agent Lightning,其可對任何AI Agent進行基于強化學習的LLM訓練,有望重塑AI Agent的未來訓練范式。相關研究論文已發表在預印本網站arXiv上。

論文鏈接:https://arxiv.org/abs/2508.03680

核心貢獻如下:

  • Agent Lightning是首個實現 Agent 與強化學習訓練完全解耦的框架,能夠無縫應用于任何 AI Agent,無論其實現方式如何,幾乎無需進行任何代碼修改。將訓練與 Agent 的執行邏輯對齊,提升了 Agent 在實際應用中的性能。這使開發者能夠突破靜態預訓練模型的局限,釋放自適應學習型 Agent 的全部潛力。

  • 在算法層面,Agent Lightning基于 Agent 的馬爾可夫決策過程(MDP)建模,并引入統一數據接口。該接口抽象化了不同 Agent 執行邏輯的復雜性,使 Agent 執行過程中收集的數據可直接轉換為訓練軌跡。此外,Agent Lightning 采用分層強化學習框架,并配備信用分配模塊,將軌跡級回報分配給每次調用生成的響應。該設計與現有單輪強化學習算法無縫集成,實現高效且有效的訓練。

  • 在系統層面,Agent Lightning引入了Training-Agent解耦架構實現強化學習訓練與 Agent 執行的清晰分離。該架構通過 Lightning Server 和 Lightning Client 實現,兩者共同提供適用于任何 Agent 的標準化模型訓練服務。Lightning Client 作為 Agent 運行時,透明地管理 Agent 執行并收集軌跡,無需進行代碼修改。該設計使可觀察性基礎設施在訓練場景中得以復用,確保了可擴展性(extensibility)、可伸縮性(scalability)和與各種 Agent 框架的無縫集成。

Agent Lightning:

訓練任意AI Agent

在真實世界中,AI Agent的運行邏輯極為復雜,絕非簡單的一問一答模式。

它們常常需要多輪交互,像人類對話一樣循序漸進推進任務,通過調用外部工具或API,與外部系統交互獲取更多信息,依據環境反饋和當前狀態靈活做出動態決策,甚至在復雜場景中,多個Agent需協同合作完成任務。

但現有強化學習訓練框架,往往將強化學習訓練過程與Agent的具體執行邏輯緊密捆綁,導致一系列問題,嚴重阻礙了強化學習在AI Agent大規模訓練和部署中的應用。

例如:

  • 耦合度高:若想利用強化學習訓練一個已有的Agent,開發者往往不得不對 Agent 代碼進行大規模修改,甚至重構,開發成本巨大;
  • 擴展性差:針對特定任務設計的強化學習方法,很難直接遷移到其他類型的Agent;
  • 數據利用率低:Agent在真實環境中產生的豐富交互數據,因與強化學習訓練框架不兼容而難以被有效利用;
  • 多輪交互生成的上下文序列過于冗長:增加了LLM計算和內存開銷。

微軟此次提出的Agent Lightning框架的核心創新點,在于實現了AI Agent執行與強化學習訓練之間的徹底解耦。二者可獨立運作,又能進行信息交換。

Agent Lightning概述

除了上述提到的完全解耦和統一數據接口之外,Lightning RL也是該研究的主要亮點之一。

LightningRL是微軟為利用收集到的轉換數據優化策略LLM,而提出的專為Agent訓練設計的分層強化學習算法。

LightningRL示意圖

該算法包含信用分配模塊,能夠將任何Agent生成的軌跡分解為訓練所需的轉換數據,從而使強化學習能夠處理復雜的交互邏輯,如多Agent場景和動態工作流。

在信用分配過程中,高層信用分配首先將整個任務的最終獎勵合理分配到任務執行過程中的每一步驟,例如在最簡單實現中,可讓每一次調用的獎勵都等于最終獎勵。

經過高層信用分配后,低層策略更新將每一次LLM調用(input、output、reward)轉化為一個獨立的單次調用強化學習問題。

此時可直接套用任何現成的、成熟的單次調用強化學習算法(如PPO、DPO或GRPO),來更新模型參數。

這種設計不僅具備靈活性和復用性,可直接利用社區中SOTA單次調用強化學習算法,還從根本上解決了因上下文累積導致的序列過長問題,避免了復雜易錯的掩碼操作。

Agent Lightning將計算密集型的LLM生成與傳統編程語言編寫、輕量級但多樣化且靈活的應用邏輯和工具分離。

在系統設計方面,Agent Lightning引入了Training-Agent解耦架構,構建了一個適用于任意Agent的標準化訓練服務。

該架構由Agent Lightning Server和Agent Lightning Client組成。

Training-Agent解耦架構

Agent Lightning Server:作為強化學習訓練系統的大腦,承擔著管理訓練流程的重任,并通過類OpenAI API向客戶端暴露更新后的模型。它負責運行強化學習訓練算法、分配GPU資源、管理模型版本等一系列復雜且計算密集型的任務。

Agent Lightning Client:包含兩個功能模塊:一個模塊負責與服務器通信,實現數據傳輸與接收;另一個模塊運行Agent并執行數據收集,充當Agent的運行時環境。

得益于統一數據接口,Agent運行時能夠將OpenTelemetry等全面的可觀測性框架集成到訓練過程中,用于軌跡收集。

這一機制將監控基礎設施與強化學習訓練連接起來,使優化算法能夠利用豐富的系統監控數據,從而構建更具可擴展性與靈活性的訓練基礎。

這種前后端分離式的架構設計,徹底將Agent開發者從復雜的強化學習系統配置中解放出來,讓他們得以專注于Agent本身的邏輯和創意,極大降低了AI Agent進化的門檻。

實驗結果

研究團隊在多個任務上對Agent Lightning框架進行了實驗驗證,涵蓋Text-to-SQL、開放域問答、數學問答等。

在這些實驗中,Agent Lightning均展示出穩定且持續的性能提升。

實驗中任務和設置的總結

通過LangChain實現Text-to-SQL

第一個任務采用LangChain實現,設計為多Agent系統架構。

系統包含三個Agent,工作流程如下:

SQL writing agent首先會生成SQL查詢語句并執行。

若查詢正確,SQL executor會返回數據庫信息;若出錯,則返回錯誤提示。

隨后,checking agent評估SQL查詢的正確性及檢索信息的有效性和完整性,并決定是重寫查詢還是直接生成答案。

若需重寫,re-writing agent將根據checking agent的反饋修改查詢語句;若無需重寫,該agent同時承擔問答任務,利用檢索到的信息和問題生成最終答案。

在此工作流程中,SQL寫入(writing)、校驗(checking)和重寫(re-writing)均由同一LLM完成,但針對不同任務定制了專屬提示,從而實現三個Agent協同運作。

在訓練過程中,研究團隊只對其中兩個進行了優化,即SQL writing agent和re-writing Agent,這兩個agent是同步進行優化的,說明Agent Lightning 可以在多Agent系統中選擇性地對一個或多個Agent進行優化。

如圖,Agent Lightning能夠穩定地提高獎勵,展示了其優化涉及代碼生成和工具使用的復雜多步決策的能力。

Text-to-SQL任務的獎勵曲線

通過OpenAI Agent SDK實現檢索增強生成

第二個任務是典型的檢索增強生成(RAG)任務。

給定一個問題和文檔數據庫,Agent首先會生成自然語言查詢,通過現有檢索工具獲取支持性文檔。

該Agent是使用OpenAI Agent SDK實現的。與之前的Text-to-SQL任務相比,這里的Agent工作流程類似但更簡單。

策略LLM需要先生成查詢請求,然后根據檢索到的文檔決定是優化查詢還是直接生成答案。

該圖展示了Agent Lightning在這一具有挑戰性的任務上實現了穩定的性能提升,證明了其在更復雜和開放式RAG場景中的有效性。

通過AutoGen實現數學問答與工具使用

第三個任務是數學類問答任務,旨在評估Agent調用工具(具體指計算器)解決算術和符號問題的能力。

最終的獎勵取決于Agent是否正確回答了問題,模型的性能也通過測試集上的答案準確度進行評估。

如圖,Agent Lightning在訓練過程中持續提高了性能。這證明了它在工具增強設置中的有效性,即需要精確的外部函數調用和推理。

未來方向:推動Agent能力迭代升級

在論文的最后,研究團隊也探討了未來的工作方向。

首先,除了強化學習外,Agent Lightning建模框架還很好地支持其他優化方法,如自動prompt優化。

關注關鍵組件及其調用是Agent優化的主要方法,而不僅僅局限于基于強化學習的方法。

為此,團隊提出了Component of Interest(CoI)的概念,用于指定執行軌跡中受優化影響的組件子集。

例如,prompt模板渲染可視為工具調用,通過將該工具視為CoI,Agent Lightning可支持prompt優化方法。

這種統一且可擴展的數據結構支持對Agent行為進行全面的下游優化與分析。

其次,研究團隊認為,開發更高效的強化學習算法是解決復雜Agent場景下模型優化的關鍵,包括但不限于長程信用分配、探索算法、off-policy算法等。

Agent Lightning通過過渡來建模和組織數據,使集成額外算法更加方便。

此外,支持LLM的強化學習基礎設施持續演進,為與基于Agent的強化學習框架的協同開發提供了重大機會。

一個有前景的方向是進一步分解系統組件,即將訓練器、推斷引擎和Agent工作流程分離,以解決推斷瓶頸并提升大規模強化學習訓練的可擴展性。

探索此類架構改進可帶來更高效且靈活的強化學習管道。

此外,針對長程任務的優化將受益于強化學習算法與系統設計協同創新,從而實現復雜Agent更高效的訓練。

最后,在LLM高效服務方面,研究團隊建議采用更適合LLM的抽象方法,可以優化資源利用率和響應時間。

此外,通過優化服務環境和工具的資源調度,還能進一步簡化操作流程,提高在多樣化部署場景中的擴展能力。

隨著Agent Lightning框架解決了強化學習與Agent耦合的難題,強化學習有望成為Agent訓練的標配。

同時,Agent在真實世界中產生的海量交互數據,將不再被閑置浪費。

Agent Lightning的統一數據接口,能夠高效地將這些數據用于強化學習訓練,推動Agent能力迭代升級。

責任編輯:張燕妮 來源: 新智元
相關推薦

2025-08-22 09:56:18

2024-09-30 14:40:00

AI強化學習框架

2024-01-30 09:00:28

框架BMRL模型

2018-08-29 08:13:22

Google 學習框架技術

2025-09-11 06:57:11

2020-08-10 06:36:21

強化學習代碼深度學習

2025-08-21 09:10:00

2025-04-25 13:34:53

R1DeepSeekAgent

2025-08-18 03:00:00

AI智能體微軟

2025-02-17 10:36:00

微軟開源模型

2025-01-08 15:15:16

2025-11-18 08:00:00

2025-05-30 14:59:36

GoogleAgent2AI

2020-06-05 08:09:01

Python強化學習框架

2025-07-24 09:05:00

2024-12-09 08:45:00

模型AI

2020-11-12 19:31:41

強化學習人工智能機器學習

2023-03-09 08:00:00

強化學習機器學習圍棋

2025-05-15 09:04:00

2020-11-16 08:54:05

Google 開源技術
點贊
收藏

51CTO技術棧公眾號

色先锋aa成人| 久久露脸国语精品国产91| 一级片在线观看免费| www.欧美| 日韩**一区毛片| 日韩精品中文字幕在线一区| 日本视频一区二区不卡| 国产极品美女高潮无套嗷嗷叫酒店| 欧洲精品一区二区三区| 99久久精品国产导航| 欧美丰满少妇xxxx| 日本在线观看视频一区| 在线免费av网站| 国产精品一国产精品| 香港成人在线视频| 国产福利不卡| 美女的奶胸大爽爽大片| 日日夜夜亚洲精品| 国产精品免费丝袜| 国产精品美女呻吟| 国产真人真事毛片视频| 免费在线观看一区| 国产精品色在线观看| 国产精品久久精品国产| 国产亚洲色婷婷久久99精品| 午夜免费欧美电影| 亚洲午夜精品一区二区三区他趣| 亚洲综合中文字幕68页| 永久久久久久久| 欧美区一区二区| 夜夜嗨av一区二区三区网页 | 欧美日韩一区不卡| 日韩精品久久一区二区三区| 麻豆精品久久久久久久99蜜桃| 91精品综合| 欧美一区二区三区在线观看视频 | 亚洲国产欧美日韩在线| gogogogo高清视频在线| 国产精品1区2区| 欧美精品在线观看91| 蜜桃色一区二区三区| 99色在线观看| 99精品在线观看视频| 精品高清在线| 中文字幕在线一区免费| 国产精品视频中文字幕91| 男人的天堂官网| 色综合视频一区二区三区日韩 | 99欧美精品| 中文字幕精品一区二区精品绿巨人 | 亚洲青涩在线| 精品亚洲一区二区三区四区五区| 男人操女人免费| 成a人v在线播放| 国产电影精品久久禁18| 成人欧美一区二区三区黑人| 免费在线视频一区二区| 久久不见久久见中文字幕免费| 欧美在线一区二区三区| 日韩中文在线字幕| 瑟瑟在线观看| 国产自产2019最新不卡| 91av福利视频| 天海翼在线视频| 日韩母乳在线| 91精品免费观看| aa在线观看视频| 成人p站proumb入口| 国产夜色精品一区二区av| 亚洲伊人久久综合| 国产日韩在线观看一区| 国产欧美一级| 精品久久国产精品| 亚洲最大免费视频| 91成人短视频在线观看| 欧美日韩aaa| 黄在线观看网站| 中文在线资源| 亚洲在线视频免费观看| 国产亚洲黄色片| 日本最黄一级片免费在线| av电影天堂一区二区在线观看| 国产精品旅馆在线| 中文文字幕一区二区三三| 黄色亚洲在线| 日韩天堂在线视频| 日韩精品无码一区二区三区久久久| 国产一区二区三区免费在线| 在线日韩av片| 国产精品v日韩精品v在线观看| 123区在线| 色欧美片视频在线观看在线视频| 妞干网视频在线观看| 日本免费中文字幕在线| 一区二区三区四区蜜桃| 一区在线电影| 成人欧美一区| 亚洲久本草在线中文字幕| 亚洲午夜精品一区二区| 激情小视频在线| jizz国产在线观看| 秋霞影院一区| 亚洲大胆人体av| 天天久久综合网| 奇米一区二区| 亚洲女在线观看| 日本一区二区在线免费观看| 日韩成人视屏| 亚洲人成网站777色婷婷| 97人妻精品一区二区三区免| 加勒比久久高清| 亚洲高清福利视频| 日本美女bbw| 欧美一级精品片在线看| 亚洲香蕉在线观看| 免费看日本黄色片| 亚洲精品综合| 亚洲影影院av| 9色在线视频| 午夜电影一区二区三区| 四虎成人在线播放| 日韩欧美字幕| 久久久成人的性感天堂| 亚洲毛片一区二区三区| 成人激情视频网站| 国产女主播一区二区三区| 国模无码一区二区三区| 成人avav影音| 国产欧美自拍视频| 性xxxxfjsxxxxx欧美| 亚洲成av人片| a级大片免费看| 国产成人夜色高潮福利影视| 亚洲精品成a人在线观看| av直播在线观看| 国产在线日韩| 91综合免费在线| 日本网站在线免费观看视频| 欧美影视一区在线| 在线观看av免费观看| 精品一区二区三区在线| 欧美在线中文字幕| 成人免费一区二区三区| 国内精品第一页| 国产伦精品一区二区三区照片| 美女写真理伦片在线看| 亚洲一二三四久久| 亚洲精品无码久久久久久久| 国产精品伦理久久久久久| 九九热精品在线| 亚洲天堂一区在线观看| 久色成人在线| 91精品国产高清久久久久久91裸体| 欧美特级特黄aaaaaa在线看| 久久蜜桃一区二区| 日本三日本三级少妇三级66| 日韩成人综合网| 日韩一中文字幕| 国产精品伦理一区| 99国产精品久久久| 欧美 日韩 国产一区| 国产一区二区av在线| 久久亚洲精品毛片| 国产伦精品一区二区三区视频我| 2021国产精品久久精品| 久久久久久久少妇| 免费看日产一区二区三区| 美日韩精品免费视频| 亚洲精品911| 国产精品视频看| 一道本视频在线观看| 精品国产导航| 欧美专区国产专区| www.在线视频.com| 91精品国产色综合久久不卡蜜臀| 欧美日韩综合一区二区| 成人免费av资源| 国产精品99久久久久久大便| 日韩伦理在线一区| 日韩欧美中文一区二区| 国产欧美小视频| 激情综合五月天| 日韩美女爱爱视频| 久久av网址| 成人在线中文字幕| 东热在线免费视频| 欧美视频在线视频| 国产精品入口麻豆| 欧美日韩精品一本二本三本 | 天天综合天天做| 成人小视频在线| 91蝌蚪视频在线观看| 亚洲最大av| 国产精品专区一| 色www永久免费视频首页在线| 精品视频久久久久久久| 一级黄色片免费| 国产女主播视频一区二区| 鲁一鲁一鲁一鲁一澡| h视频久久久| 欧美寡妇偷汉性猛交| 欧美色18zzzzxxxxx| 欧美日韩国产一区二区三区| 成年女人免费视频| 日韩国产一区二| 精品在线一区| 阿v视频在线观看| 亚洲缚视频在线观看| 中文字幕一区二区久久人妻| 亚洲国产精品天堂| 国产伦精品一区二区三区精品| 日韩国产精品大片| 日韩 欧美 视频| 天天影视天天精品| 久久青青草综合| 毛片免费看不卡网站| 亚洲欧美日韩另类| 亚洲精品久久久蜜桃动漫| 欧美午夜电影网| 男女啊啊啊视频| 久久精品男人的天堂| 蜜臀av粉嫩av懂色av| 黄色精品一二区| 午夜免费精品视频| 国产欧美日韩一级| 亚洲色成人www永久在线观看 | 久久国产精品美女| 国产成人午夜视频网址 | 色老头一区二区三区| 激情网站在线观看| 国产精品人人做人人爽人人添| 国产女人18毛片水真多18 | 蜜臀av粉嫩av懂色av| 国产精品一二三区| av在线播放亚洲| 中文字幕免费一区二区三区| 亚洲区一区二区三区| 91精品亚洲一区在线观看| 日韩美女在线观看一区| 网友自拍视频在线| 国产一区二区三区三区在线观看| 污污视频在线观看网站| 在线看不卡av| 亚洲欧美一二三区| 欧美日韩性生活视频| 国产情侣在线视频| 欧美日韩亚洲视频| 亚洲伊人成人网| 欧美午夜美女看片| 潘金莲一级淫片aaaaaa播放| 色哟哟精品一区| 亚洲欧美偷拍一区| 欧美性受极品xxxx喷水| www.五月婷婷.com| 欧美色老头old∨ideo| 91片黄在线观看喷潮| 欧美日韩一区二区三区四区 | 久久综合给合久久狠狠色| 欧美日韩美女| 九九热精品在线| 日本资源在线| 国模极品一区二区三区| 9色在线观看| 久久九九热免费视频| 在线中文字幕第一页| 亚洲无亚洲人成网站77777| 九色在线视频蝌蚪| 少妇av一区二区三区| 国产剧情在线| 一本大道亚洲视频| 欧美 日韩 中文字幕| 日韩禁在线播放| 成人av一区二区三区在线观看| 色综合色综合色综合 | 欧美一级片在线| 亚洲毛片在线播放| 亚洲情综合五月天| 久久黄色美女电影| 久久久久久国产免费| 四虎久久免费| 色综合视频一区中文字幕| 亚洲美女炮图| 成人福利视频在线观看| 风间由美一区二区av101| 任我爽在线视频精品一| 在线免费观看日本欧美爱情大片| av日韩一区二区三区| 亚洲欧美在线专区| 男女超爽视频免费播放| 日本vs亚洲vs韩国一区三区 | 国产在线一区不卡| 久99久视频| 色一区二区三区四区| 全黄性性激高免费视频| 美女视频一区二区| 亚洲精品一二三四五区| 亚洲在线一区| 国产精品网站免费| 久久精品国产成人一区二区三区| 久久综合久久色| 免费中文字幕日韩欧美| 国产极品粉嫩福利姬萌白酱| 久久99久国产精品黄毛片色诱| 日本a√在线观看| 国产福利91精品| 亚洲一二三精品| 亚洲r级在线视频| 国产美女免费视频| 亚洲人午夜色婷婷| 啊啊啊久久久| 99电影在线观看| avtt综合网| 日本免费一区二区三区| 亚洲承认在线| a√天堂在线观看| 国产一区二区三区精品欧美日韩一区二区三区 | 亚洲激情免费观看| 97影院秋霞午夜在线观看| 国产精品v片在线观看不卡| 日韩电影免费观| 国产高清精品一区二区| 亚洲国产精品成人| 浓精h攵女乱爱av| 久久综合五月天婷婷伊人| 久久久久久久九九九九| 5566中文字幕一区二区电影| 国产人成在线视频| 日本不卡高字幕在线2019| 狼人天天伊人久久| 男人添女人荫蒂免费视频| 精品一区二区三区在线播放视频| 久久久视频6r| 在线亚洲高清视频| 黄色的视频在线免费观看| 欧美亚洲国产精品| 成人黄色毛片| 精品一区二区日本| 日韩视频二区| 日本www.色| 久久久久久久网| 色哟哟一一国产精品| 欧美性感一类影片在线播放| 你懂的视频在线| 国产91色在线播放| 国产一区二区观看| 国产一级片黄色| 中文字幕乱码日本亚洲一区二区| 亚洲综合成人av| 国产亚洲美女精品久久久| 国产韩日精品| 一区二区精品在线观看| 麻豆91精品91久久久的内涵| 欧日韩不卡视频| 欧美高清你懂得| 亚洲区小说区图片区| 8090成年在线看片午夜| 亚洲精品亚洲人成在线| 91九色国产ts另类人妖| 国产在线观看免费一区| 欧美国产日韩综合| 精品国产凹凸成av人导航| 成人动漫在线免费观看| 国产啪精品视频网站| 偷拍自拍一区| 成人三级视频在线播放| 中文字幕av一区二区三区| 一级α片免费看刺激高潮视频| 亚洲国产精品久久久| 天天综合av| 亚洲成人第一| 国产精品99久久久久久似苏梦涵 | 98在线视频| 91免费看片网站| 一区二区视频欧美| 国产特黄级aaaaa片免| 亚洲一区二区在线免费看| 欧美一级淫片aaaaaa| 清纯唯美亚洲激情| 久久视频国产| 国产真人无码作爱视频免费| 国产精品久久久久一区| 亚洲av无码乱码国产精品| 4438全国成人免费| 日韩av有码| 国产白袜脚足j棉袜在线观看| 日本韩国欧美在线| 97caopor国产在线视频| 欧美男人的天堂| av成人天堂| 国产又粗又长又硬| 欧美精品一区二区三区很污很色的| 亚洲女同av| 中文字幕第50页| 久久看人人爽人人| 97免费观看视频| 26uuu国产精品视频| 亚洲色图插插| 91网站免费视频| 色婷婷av一区二区三区gif| 国产在线高清理伦片a|