精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

端到端優化所有能力,字節跳動提出強化學習LLM Agent框架AGILE

人工智能 新聞
AGILE是一種基于強化學習的LLM Agent框架。AGILE Agent具備擁有長期記憶、使用外部工具、向人類專家進行咨詢、反思等能力,并且所有能力可以進行端到端的統一優化。

大語言模型(Large Language Models, LLMs)的強大能力推動了 LLM Agent 的迅速發展。圍繞增強 LLM Agent 的能力,近期相關研究提出了若干關鍵組件或工作流。然而,如何將核心要素集成到一個統一的框架中,能夠進行端到端優化,仍然是一個亟待解決的問題。

來自字節跳動 ByteDance Research 的研究人員提出了基于強化學習(Reinforcement Learning, RL)的 LLM Agent 框架 ——AGILE。該框架下,Agent 能夠擁有記憶、工具使用、規劃、反思、與外界環境交互、主動求助專家等多種能力,并且通過強化學習實現所有能力的端到端訓練。尤其值得注意的是,AGILE 框架允許 Agent 在不自信時主動向人類專家尋求建議。這帶來了兩大優勢:首先,Agent 在處理復雜問題時能夠持續保持高準確率;其次,通過向人類學習,增強了其快速適應新任務的泛化能力。

  • 論文地址:https://arxiv.org/abs/2405.14751
  • 代碼地址:https://github.com/bytarnish/AGILE

研究者讓 AGILE 框架在復雜問答任務中進行了驗證。在 ProductQA 與 MedMCQA 任務上,經過 RL 訓練后的 13B 模型或者 7B 模型能夠超越提示工程構建的 GPT-4 Agent。

AGILE Agent 框架

如圖 1 (a) 所示,AGILE 框架包含四個核心模塊:LLM、記憶(Memory)、工具(Tools)和執行器(Executor)。LLM 負責預測動作;記憶模塊記錄 Agent 的軌跡;工具模塊提供 Agent 可以調用的外部 API;執行器會監聽 LLM 的輸出,根據 LLM 的輸出調用相應的模塊執行具體的操作,并將執行操作得到的結果添加到 LLM 的上下文中。

圖片

圖 1 (b) 展示了 AGILE Agent 在電商問答場景中的一個示例。電商問答是一個復雜的實際應用場景,面臨的挑戰包括需要海量商品的領域知識、靈活運用商品檢索工具、以及快速適應不斷涌現的新商品。如圖 1 (b) 所示,AGILE Agent 會根據用戶的問題檢索記憶,如果無法確定問題的答案,Agent 會向人類專家尋求幫助。在獲得專家的反饋后,Agent 會反思并將新掌握的領域知識存儲在記憶中。在未來,面對新的問題時,Agent 能夠從記憶中檢索到這條知識,并基于這些知識直接給出準確的答案。除此之外,AGILE Agent 也會根據用戶的問題選擇是否調用外部工具(如搜索、數據庫檢索),輔助生成最終的回答。

強化學習定義:LLM Agents 被定義為一個 token-level MDP(Markov Decision Process)。動作空間(Action space)由 LLM 的詞表構成,LLM 生成的每一個 token 是一個動作,LLM 本身則作為 Agent 的策略模型(Policy model)。Agent 的狀態(State)由 LLM 上下文和記憶組成。在每個時刻,LLM 預測動作,執行器根據預定義的邏輯完成狀態轉移,同時環境給予 Agent 相應的獎勵(Reward)。

在 AGILE 框架下,Agent 有兩種策略學習方法。第一種是模仿學習,通過收集人類軌跡數據或更高級別 Agent 的軌跡數據,對 LLM 進行 SFT 訓練。第二種是強化學習,通過定義獎勵函數,利用強化學習算法來訓練 LLM。

此外,LLM Agent 可能會產生跨越數百萬個 tokens 的軌跡,這為直接訓練帶來了挑戰。為了應對這種長程依賴的問題,研究人員提出了一種片段級別的優化算法。

主動尋求幫助:AGILE 框架允許 Agent 主動向外部的人類專家尋求幫助。這種機制有兩個優勢:首先,當 Agent 遇到不確定的情況時,通過求助人類專家,確保其在實際應用中達到高準確率。其次,Agent 能夠通過對人類的反饋反思并積累知識,從而更快適應新環境,提升其泛化能力。然而決定何時尋求幫助是一個復雜決策,它涉及到 Agent 的自我評估、人類反饋對未來的價值以及人類專家的成本。因此,標注何時應該求助是很難的。但在強化學習框架中,可以通過定義相關獎勵,將這種求助能力作為策略模型的一部分,在端到端訓練中得到提升。

實驗結果

ProductQA

ProductQA 是一個商品問答任務。該數據集包含 26 個對應不同商品類別的 QA 任務,每個任務平均包含 3,393 個問題。ProductQA 包括基于事實的問題、推理問題和商品推薦問題,它能夠全面評估 Agent 處理歷史信息和累積知識、利用工具、向人求助、自我評估和反思的能力。此外,訓練和測試集由不同的任務構成,以評估 Agent 在新商品問答上的泛化能力。

圖片

在商品問答(ProductQA)任務上,基于 Vicuna-13b 訓練的 AGILE Agent(agile-vic13b-ppo)表現超過了 GPT-4(gpt4-prompt)與提升工程構建的 GPT-4 Agent(agile-gpt4-prompt)。在使用了相當的求助比例(Advice Rate)的情況下,agile-vic13b-ppo 的 acc 相比于 agile-gpt4-prompt 提升了 7.4%,在 Total Score 上提升了 9.2%。

圖片

從上圖可以看出,在執行包含上千個問答的任務整個過程中,agile-vic13b-ppo 的 acc 持續穩定地高于 agile-gpt4-prompt。同時尋求人類幫助的頻率(Advice Rate)隨著問答輪數的增加逐漸下降。此外,通過調整人類的咨詢成本(Seeking Advice Cost)和進行強化學習訓練,AGILE Agent 可以有效實現準確率與專家成本的權衡。

圖片

消融實驗結果顯示,記憶、反思、咨詢人類建議、工具使用、RL 訓練在實現高性能的 AGILE Agent 中均具有重要作用。

MedMCQA

MedMCQA 是一個多項選擇的問答數據集,其問題來自醫學院入學考試。在 MedMCQA 任務上,基于 Meerkat-7b 訓練的 AGILE Agent(agile-mek7b-ppo)表現優于 GPT-4 Agent。準確率達到了 85.2%,超過了之前的 SOTA 方法 ——GPT 4-MedPrompt 的 79.1%。消融實驗結果進一步驗證了記憶、咨詢人類建議、反思和 RL 訓練的重要性。

圖片

更多研究細節,可參考原論文。

總結

AGILE是一種基于強化學習的LLM Agent框架。AGILE Agent具備擁有長期記憶、使用外部工具、向人類專家進行咨詢、反思等能力,并且所有能力可以進行端到端的統一優化。AGILE的一個重要特點是Agent在遇到無法自行解決的問題時可以向人類專家咨詢,這種機制保證了應用場景中對高準確率的要求,同時增強了Agent的學習與泛化能力。實驗表明,經過強化學習訓練的13B或7B模型的Agent,其能力可以超過GPT-4 Agent。

團隊介紹

ByteDance Research 專注于人工智能領域的前沿技術研究,涵蓋了機器翻譯、視頻生成基礎模型、機器人研究、機器學習公平性、量子化學、AI 制藥、分子動力學等多技術研究領域,同時致力于將研究成果落地,為公司現有的產品和業務提供核心技術支持和服務。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2021-09-26 13:50:52

AI 數據強化學習

2025-06-05 06:36:17

2025-09-11 06:57:11

2023-08-05 13:08:54

2025-05-26 17:16:51

2025-11-10 04:15:00

2025-08-29 00:10:00

2025-10-11 09:02:40

2025-03-21 13:00:54

2025-08-07 09:16:41

2012-08-24 09:34:58

戴爾

2022-11-02 14:02:02

強化學習訓練

2025-02-20 08:00:00

2025-08-08 09:15:00

2025-08-08 09:02:00

AI架構模型

2025-05-28 02:25:00

2024-10-11 09:32:48

2023-06-25 11:30:47

可視化

2020-06-05 08:09:01

Python強化學習框架

2024-01-03 16:29:01

Agent性能優化
點贊
收藏

51CTO技術棧公眾號

亚洲视频网站在线观看| 欧美日韩另类在线| 国产综合动作在线观看| 国产免费a视频| 婷婷综合亚洲| 亚洲成人久久网| 成年人在线看片| a级影片在线| 91一区二区三区在线观看| 国产精品高潮粉嫩av| 免费在线观看亚洲| 日韩欧美视频在线播放| 亚洲成人久久久| 在线一区二区不卡| 成人短视频app| 亚洲男人的天堂在线观看| 免费成人av网站| 亚洲第一天堂影院| 久久99久久99小草精品免视看| 欧美激情网友自拍| 国产第一页精品| 欧美电影在线观看完整版| 欧美日韩在线直播| 欧美 日韩精品| missav|免费高清av在线看| 国产精品九色蝌蚪自拍| 欧美第一黄网| 国产91免费看| 国产精品69久久久久水密桃| 国产精品成人av在线| 99精品视频99| 亚洲天堂黄色| 欧美多人爱爱视频网站| 免费黄色在线网址| jiujiure精品视频播放| 亚洲美女视频网| 超碰男人的天堂| 福利欧美精品在线| 欧美大片顶级少妇| 色婷婷狠狠18禁久久| 国产精品视频一区二区三区综合| 欧美午夜精品久久久久久超碰| 欧美成人xxxxx| 密臀av在线播放| 亚洲高清在线视频| 缅甸午夜性猛交xxxx| 久久99亚洲网美利坚合众国| 亚洲欧美国产高清| 亚洲天堂第一区| 国产在线二区| 亚洲精品视频一区| 国产爆乳无码一区二区麻豆| 污污视频在线| 一二三区精品视频| 老司机激情视频| 欧美78videosex性欧美| 亚洲综合另类小说| 国产精品成人久久电影| 黄色羞羞视频在线观看| 亚洲成a天堂v人片| 国产二区视频在线播放| a一区二区三区| 欧美四级电影网| 天堂av在线8| 日韩成人18| 亚洲国产天堂久久国产91| 超碰97在线资源站| 精品日韩在线| 久久手机精品视频| 久热精品在线观看| 免费日韩av片| 国产欧美在线播放| www.国产黄色| 91社区在线播放| 视频在线精品一区| 成人看片免费| 午夜视频一区在线观看| 国产精品视频一区二区三区四区五区| 一区二区视频免费完整版观看| 欧美日韩在线免费视频| 丰满少妇中文字幕| 亚洲国产欧美日韩在线观看第一区| 国产亚洲欧洲黄色| 亚洲国产美女视频| 国产精品老牛| 成人午夜一级二级三级| 欧美自拍偷拍一区二区| 久久九九99视频| a级网站在线观看| 日韩影院在线| 欧美精品在线一区二区三区| 国产艳妇疯狂做爰视频| 久久综合色占| 欧美日韩不卡合集视频| 国产精品视频123| 国产美女视频一区| 欧美日韩在线一二三| av在线免费网址| 日韩欧美在线国产| 四虎1515hh.com| 狠狠操综合网| 欧美日产国产成人免费图片| 成人黄色三级视频| 成人深夜在线观看| 中文字幕一区二区三区5566| 国产v日韩v欧美v| 9191精品国产综合久久久久久| 男人网站在线观看| 亚洲mv大片欧洲mv大片| 国产不卡av在线| 亚洲欧美另类综合| 中文字幕日本乱码精品影院| 浮妇高潮喷白浆视频| 日本少妇精品亚洲第一区| 亚洲人成电影网站| 国产欧美日韩另类| 国产乱码精品一区二区三区av | 中文字幕精品一区| 国产精品999视频| 亚洲国产一区二区三区网站| 中文字幕久久精品| 色av性av丰满av| 99久久99久久精品国产片果冻| 在线观看成人免费| 欧美日韩伦理一区二区| 亚洲人午夜色婷婷| 国产原创视频在线| www.亚洲色图.com| 免费网站永久免费观看| 豆花视频一区| 色七七影院综合| 一级一级黄色片| 久久九九影视网| 可以在线看的黄色网址| 欧美精品中文字幕亚洲专区| 欧美极品欧美精品欧美视频| 精品久久久久成人码免费动漫| 中文字幕一区二区三区四区| 欧美大尺度做爰床戏| 国产欧美高清视频在线| 欧美在线视频a| 无码国精品一区二区免费蜜桃| 亚洲一区二区三区爽爽爽爽爽| 亚洲高清av一区二区三区| 婷婷中文字幕一区| 亚洲jizzjizz日本少妇| 中文字幕在线观看网站| 欧美一级片在线观看| 18岁成人毛片| 国产91综合一区在线观看| 国产乱人伦精品一区二区三区| 成人黄色91| 欧美老少做受xxxx高潮| 亚洲国产综合网| 五月婷婷另类国产| 人妻丰满熟妇aⅴ无码| 另类天堂av| 日本一区二区三区在线视频| 91九色综合| 日韩在线观看免费| 国产成人毛毛毛片| 亚洲午夜一区二区三区| 成年人的黄色片| 久久国产精品99国产| 日韩精品欧美专区| 在线观看欧美| 久久久久久久电影一区| 四虎在线免费看| 欧美色综合网站| 国产精品国产三级国产传播| 国产精品自拍av| 久久亚洲中文字幕无码| 国产成人影院| 成人福利免费观看| bl视频在线免费观看| 亚洲免费一在线| 亚洲一级特黄毛片| 亚洲一区二区三区爽爽爽爽爽| 国产精品1000部啪视频| 久久精品久久综合| 丰满的少妇愉情hd高清果冻传媒| 亚洲最大在线| 成人免费网站在线| 中文字幕在线看片| 精品国内亚洲在观看18黄| 高潮一区二区三区乱码| 色婷婷亚洲婷婷| 全网免费在线播放视频入口| 成人的网站免费观看| 亚洲成人福利在线观看| 欧美精品午夜| 亚欧精品在线| 第四色中文综合网| 国产日韩在线播放| 久草在线资源站手机版| 日韩中文字幕在线观看| 天天操天天射天天| 91精品在线免费| 在线免费观看av网址| 亚洲综合久久久久| 天天操天天摸天天舔| av一区二区三区四区| 欧美视频亚洲图片| 奶水喷射视频一区| 777av视频| 亚洲欧美网站在线观看| 欧美成人dvd在线视频| 网站一区二区| 成人国产精品av| 深夜视频一区二区| 69**夜色精品国产69乱| 天天色天天射天天综合网| 色噜噜国产精品视频一区二区 | 久久久久久久久久久综合| 国产欧美高清视频在线| 国新精品乱码一区二区三区18| 成人网av.com/| 国产激情久久久| 僵尸再翻生在线观看| 久久五月天色综合| 1024国产在线| 一区二区三区天堂av| 亚洲欧洲综合在线| 亚洲国产成人久久| 亚洲va欧美va| 日韩视频免费观看高清完整版 | 免费在线观看亚洲| 亚洲视频香蕉人妖| 日本黄区免费视频观看| 国产色产综合产在线视频| 久久精品综合视频| 99久久综合精品| 欧美性生交xxxxx| 粉嫩13p一区二区三区| 野花视频免费在线观看| 国产乱人伦偷精品视频不卡| 九一精品久久久| 久久国产夜色精品鲁鲁99| 久久久国产欧美| 奇米在线7777在线精品| 国产视频手机在线播放| 青娱乐精品视频| 国产又猛又黄的视频| 久久久精品网| 成人性视频欧美一区二区三区| 久久三级福利| 九色porny91| 蜜臀久久99精品久久久画质超高清| 日本成人黄色网| 轻轻草成人在线| 色天使在线观看| 狠狠色狠狠色综合| 久久发布国产伦子伦精品| 国产成人精品免费视频网站| 中文字幕人妻熟女人妻a片| 国产**成人网毛片九色 | 一区二区三区欧美精品| 久热成人在线视频| 深夜福利网站在线观看| 国产aⅴ综合色| 在线黄色免费网站| 久久久蜜桃精品| 在线观看亚洲大片短视频| 国产精品第13页| 91精品国产高清一区二区三蜜臀| 伊人色综合久久天天| 久草国产精品视频| 色就色 综合激情| 国产又大又长又粗| 日韩欧美一区二区视频| 天堂中文在线资源| 一区二区三区天堂av| 成人黄视频在线观看| 国内精品模特av私拍在线观看| 日韩欧美精品一区二区三区| 国产精品青青在线观看爽香蕉| 国产精品成人3p一区二区三区| 国产伦精品一区二区三区高清版 | 精品视频在线播放色网色视频| 国产香蕉视频在线看| 久久激情视频免费观看| 激情网站在线| 国产精品99蜜臀久久不卡二区| 四虎精品在线观看| 国严精品久久久久久亚洲影视 | 国产亚洲综合视频| 蜜臀久久99精品久久久画质超高清| 五月天六月丁香| 久久久亚洲午夜电影| 国产色无码精品视频国产| 亚洲成人1区2区| 国产又粗又猛又黄又爽无遮挡| 欧美mv和日韩mv的网站| 91在线直播| 国精产品一区一区三区有限在线| 91精品美女| 精品国产一二| 欧美精品午夜| 久久人人爽av| 久久久综合九色合综国产精品| 国产尤物在线播放| 日本高清无吗v一区| 亚洲第一视频在线播放| 日韩在线观看精品| 原纱央莉成人av片| 国产福利久久| 99久久精品国产亚洲精品| 成人小视频在线看| a级高清视频欧美日韩| 人人干在线观看| 91精品1区2区| 天堂中文字幕av| 欧美激情国内偷拍| 99久久这里有精品| 色综合视频二区偷拍在线| 国产精品久久久久9999高清| 最好看的中文字幕| 国产精品欧美经典| 中文字幕国产在线观看| 精品国产亚洲一区二区三区在线观看 | 乱人伦视频在线| 99久热re在线精品视频| 99久久www免费| 日本www.色| 久久天天做天天爱综合色| 日本三级片在线观看| 日韩午夜激情免费电影| 老司机午夜在线视频| 国产精品美女主播在线观看纯欲| 久久精品色综合| 欧美乱大交xxxxx潮喷l头像| 国产美女久久久久| 国产黄色的视频| 欧美一卡二卡在线| 26uuu亚洲电影在线观看| 成人国产精品一区二区| 色小子综合网| 四季av一区二区三区| 亚洲欧美在线视频观看| 136福利视频导航| 久久精品国产综合| а天堂中文最新一区二区三区| 亚洲一区二区不卡视频| 久久国产精品99久久久久久老狼| 久久丫精品忘忧草西安产品| 色播五月激情综合网| 韩国福利在线| 国产精品视频久久久| 欧美超碰在线| 999久久久精品视频| 亚洲私人影院在线观看| jlzzjlzzjlzz亚洲人| 欧美激情xxxx性bbbb| 大奶一区二区三区| 91视频 -- 69xx| 欧美高清一级片在线观看| 中文字幕日韩第一页| 久久视频免费观看| 亚洲一区二区三区免费| 男人添女人下部高潮视频在观看| 91女神在线视频| 波多野结衣一区二区三区在线| 综合国产在线视频| 精品中文字幕一区二区三区| 蜜臀精品一区二区| 久久综合九色综合97婷婷| 日本精品入口免费视频| 久久九九国产精品怡红院 | 日韩免费电影网站| 91资源在线观看| 日本一区二区久久精品| 精品一区二区三区视频 | 欧美性大战xxxxx久久久| 黄在线免费看| 国内精品久久国产| 日本不卡一区二区三区高清视频| 欧美成人777| 日韩精品在线免费观看| 欧美xxxx性| 波多野结衣综合网| 欧美韩国一区二区| 亚洲国产www| 国产福利精品视频| 欧美日一区二区在线观看 | 亚洲欧美日韩小说| 无码国产伦一区二区三区视频 | h狠狠躁死你h高h| 欧美在线视频免费播放| 香蕉av一区二区| 性欧美成人播放77777| 欧美日韩国产另类不卡| 岛国片av在线| 亚洲午夜精品久久久久久浪潮| 国产成人免费在线观看不卡| 久久久成人免费视频| 欧美大成色www永久网站婷| 国产欧美日韩免费观看| 亚洲成人激情小说| 欧美男人的天堂一二区| 亚洲黄色中文字幕|