精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

LLM強(qiáng)化學(xué)習(xí)新框架!UCSD多智能體訓(xùn)練框架讓LLM工具調(diào)用能力暴增5.8倍

人工智能
在大語言模型(LLM)智能體的各種任務(wù)中,已有大量研究表明在各領(lǐng)域下的多智能體工作流在未經(jīng)訓(xùn)練的情況下就能相對單智能體有顯著提升。 但是現(xiàn)有的LLM智能體訓(xùn)練框架都是針對單智能體的,多智能體的“群體強(qiáng)化”仍是一個亟須解決的問題。

大語言模型智能體的強(qiáng)化學(xué)習(xí)框架, 首次實(shí)現(xiàn)了通用的多智能體的“群體強(qiáng)化”。

在大語言模型(LLM)智能體的各種任務(wù)中,已有大量研究表明在各領(lǐng)域下的多智能體工作流在未經(jīng)訓(xùn)練的情況下就能相對單智能體有顯著提升。

但是現(xiàn)有的LLM智能體訓(xùn)練框架都是針對單智能體的,多智能體的“群體強(qiáng)化”仍是一個亟須解決的問題。

為了解決這一領(lǐng)域的研究痛點(diǎn),來自UCSD和英特爾的研究人員,提出了新的提出通用化多智能體強(qiáng)化學(xué)習(xí)框架——PettingLLMs。支持任意組合的多個LLM一起訓(xùn)練。

圖片圖片

研究背景

大語言模型驅(qū)動的多智能體系統(tǒng)在醫(yī)療、編程、科研、具身智能等多個領(lǐng)域均能大幅度提升任務(wù)表現(xiàn)。

為訓(xùn)練大模型智能體,Group Relative Policy Optimization (GRPO) 已被驗(yàn)證為通用的有效強(qiáng)化學(xué)習(xí)算法。然而,當(dāng)前所有針對LLM的強(qiáng)化學(xué)習(xí)訓(xùn)練框架,包括GRPO算法本身,都局限于單智能體訓(xùn)練的范疇。多智能體間的協(xié)作優(yōu)化,即“群體強(qiáng)化”的學(xué)習(xí)機(jī)制,仍然是一個亟待填補(bǔ)的空白。

GRPO算法的核心機(jī)制是,針對同一個輸入(prompt),通過多次采樣生成一組候選回答。隨后,算法在組內(nèi)對這些回答進(jìn)行評估(例如,通過一個獎勵模型),并計算它們之間的相對優(yōu)勢。

這種優(yōu)勢計算的有效性與公平性依賴于一個關(guān)鍵假設(shè)——組內(nèi)所有用于比較的候選回答,都必須基于一個完全相同的上下文(即prompt)生成。

然而,將GRPO直接應(yīng)用于多智能體(multi-agent)多輪(multi-turn)環(huán)境中存在一個核心困難。

在多智能體場景下,即使是針對同一個初始問題,不同智能體在不同輪次接收到的prompt差異顯著。

例如(如圖所示),一個負(fù)責(zé)編程的智能體,其在第二輪的prompt不僅包含原始問題,還可能融合了第一輪中自己生成的代碼以及其他智能體生成的單元測試。

圖片圖片

因此,如果在MA環(huán)境中仍然簡單地將同一個初始問題產(chǎn)生的所有(跨輪次、跨智能體的)回答視為一個“group”來進(jìn)行優(yōu)勢計算,這就直接違反了GRPO所要求的“共同prompt”的核心假設(shè)。

這導(dǎo)致組內(nèi)的優(yōu)勢計算基準(zhǔn)不統(tǒng)一,使得計算結(jié)果不再公平或有效。

所以核心問題就是,如何既保證每個組內(nèi)有一定批次量的回答,又能保證優(yōu)勢計算的公平。

方法概述

作者提出了一種greedy-search的樹狀采樣方法。

每輪次每個agent形成一個節(jié)點(diǎn)進(jìn)行K個分支,在分支以后選擇此時reward最高的agent進(jìn)行下一次分支。這樣能夠讓多智能體訓(xùn)練能平衡好探索(exploration)與利用(exploitation)。

每一個agent的獎勵函數(shù)都考慮自身角色的獎勵和全局任務(wù)的獎勵來保證角色專屬能力和合作能力的進(jìn)化。

圖片圖片

對于多智能體的強(qiáng)化學(xué)習(xí)進(jìn)化的另一個面臨一個核心的策略問題:在何種任務(wù)下,讓模型進(jìn)化成不同角色的“專屬模型”(specialized models)?又在何種任務(wù)下,讓所有智能體共享一個“通用模型”(shared model)會更優(yōu)?

為了實(shí)現(xiàn)兩種不同的訓(xùn)練模式,作者搭建了如圖所示的異步分發(fā)訓(xùn)練系統(tǒng)。

圖片圖片

系統(tǒng)中的路由模塊負(fù)責(zé)收集多智能體系統(tǒng)在環(huán)境中交互產(chǎn)生的軌跡數(shù)據(jù)。

專屬模型模式下,系統(tǒng)可以配置多個獨(dú)立的模型資源池(如圖中的池i和池j)。路由模塊會將智能體i的數(shù)據(jù)批次僅發(fā)送給池i的更新單元,專門更新模型i;同時將智能體j的數(shù)據(jù)批次發(fā)送給池j的更新單元,獨(dú)立更新模型j。

而在共享模型模式中,相對地,路由模塊也可以將所有智能體的軌跡數(shù)據(jù)合并,并全部發(fā)送給同一個模型資源池的更新單元,以集中更新一個共享模型。

通用的多智能體強(qiáng)化學(xué)習(xí)框架:PettingLLMs

基于該項(xiàng)研究,作者開源了通用的多智能體強(qiáng)化學(xué)習(xí)框架,使得多智能體強(qiáng)化學(xué)習(xí)訓(xùn)練開發(fā)變得敏捷、簡潔、優(yōu)雅。

  • 在作者現(xiàn)有的系統(tǒng)上搭建環(huán)境開發(fā)只需要任務(wù)特有的agent的交互和獎勵函數(shù)。同時,作者也給環(huán)境開發(fā)設(shè)計建立了詳細(xì)的環(huán)境開發(fā)教程。
  • 已有的環(huán)境也已經(jīng)包括了主流的agent任務(wù)比如數(shù)學(xué)、code、游戲等。
  • 該框架支持不同模型和agent之間的任意映射。也支持每個agent適配不同的lora的方式。

實(shí)驗(yàn)效果

在推箱子這種長規(guī)劃任務(wù)中,通過AT-GRPO訓(xùn)練,兩個agent都得到了強(qiáng)化,任務(wù)性能從14%提升至96%。

圖片圖片

作者在Qwen3-1.7B與Qwen3-8B兩個規(guī)模上開展了大規(guī)模實(shí)驗(yàn),覆蓋規(guī)劃(Sokoban、Plan-Path)、代碼(LiveCodeBench、APPS、CodeContests)與數(shù)學(xué)(AIME24/25、OlympiadBench)三大類任務(wù)。

圖片圖片

實(shí)驗(yàn)結(jié)果表明:

  • 規(guī)劃類任務(wù)中,Sokoban從14%提升至96%,Plan-Path從47%提升至99.5%;
  • 代碼生成任務(wù)中,LiveCodeBench提升+6.1%,APPS+4.2%,CodeContests+7.0%;
  • 數(shù)學(xué)推理中,AIME 24提升+9.0%,AIME 25提升+17.9%。

圖片圖片

消融實(shí)驗(yàn)進(jìn)一步驗(yàn)證了關(guān)鍵設(shè)計——

只在單智能體(SA)里訓(xùn)練,收益有限:把規(guī)劃/工具等子角色各自放在 SA 環(huán)境里訓(xùn)練,單看各自指標(biāo)會從 5.0% 提到11.0%/14.5%,但放回MAS聯(lián)合作業(yè)僅到16.0%。

互換角色策略會“崩盤”:把已經(jīng)學(xué)成的兩個角色策略對調(diào),準(zhǔn)確率從96.0%→6.0%,說明兩位“隊(duì)友”學(xué)到的是互補(bǔ)但不可替代的能力。

協(xié)同越來越順、回合越來越少:訓(xùn)練過程中兩位代理的學(xué)習(xí)回報同步上升,任務(wù)所需平均回合數(shù)持續(xù)下降——體現(xiàn)出更緊密的對齊與分工協(xié)作。

圖片圖片

PettingLLMs通過支持通用的多智能體強(qiáng)化學(xué)習(xí)算法,讓多智能體一起學(xué)習(xí)一起進(jìn)化,實(shí)現(xiàn)了跨任務(wù)、跨規(guī)模的通用強(qiáng)化學(xué)習(xí)算法。

論文:https://huggingface.co/papers/2510.11062
GitHub:https://github.com/pettingllms-ai/PettingLLMs

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2025-03-28 10:16:15

2024-09-30 14:40:00

AI強(qiáng)化學(xué)習(xí)框架

2023-05-04 15:53:34

強(qiáng)化學(xué)習(xí)開發(fā)

2025-05-28 02:25:00

2020-04-15 16:44:38

谷歌強(qiáng)化學(xué)習(xí)算法

2021-07-22 15:25:14

開源技術(shù) 框架

2025-03-21 13:00:54

2025-10-11 04:00:00

2023-08-28 06:52:29

2017-06-10 16:19:22

人工智能智能體強(qiáng)化學(xué)習(xí)

2023-05-05 17:49:23

2025-09-11 06:57:11

2025-04-21 09:10:00

2025-03-20 14:18:57

AI算法模型

2025-09-11 13:46:59

2020-06-30 09:54:30

框架AI開發(fā)

2023-09-22 07:23:50

Alice模型任務(wù)

2025-06-09 09:32:35

2025-08-29 07:47:54

2025-10-10 08:33:49

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

26uuu久久天堂性欧美| 国产韩日影视精品| 色婷婷精品大在线视频| 欧美日韩一区二区三区在线视频 | 18欧美乱大交hd1984| 成人黄色免费在线观看| 国产精品7777| 欧美一区二区三区久久| 欧美性大战久久久久久久| 成人在线观看毛片| 午夜激情在线视频| 久久久久久夜| 欧美美女18p| 三级网站在线免费观看| 国模大尺度视频一区二区| 亚洲午夜精品一区二区三区他趣| 视频二区一区| www.狠狠干| 亚洲精品激情| 久久在线免费视频| 中文字幕丰满乱子伦无码专区| 亚洲欧洲一二区| 欧美日韩中文在线观看| 无颜之月在线看| 二区在线视频| 成人av在线看| 亚洲精品欧美日韩| 男操女视频网站| 亚洲精品偷拍| 欧美成人免费观看| av免费播放网站| 欧洲亚洲视频| 欧美成va人片在线观看| 一本色道久久亚洲综合精品蜜桃| 国产精品原创| 亚洲黄网站在线观看| 亚洲欧美精品在线观看| 欧美孕妇孕交xxⅹ孕妇交| 成人一区二区在线观看| 亚洲xxxx18| 一级欧美一级日韩| 日韩av在线发布| 欧亚精品在线观看| 国产精品自拍视频一区| 欧美日韩三级| 蜜臀久久99精品久久久久久宅男| 亚洲激情图片网| 国产真实有声精品录音| 亚洲欧美变态国产另类| 国产美女视频免费观看下载软件| 亚洲国产aⅴ精品一区二区| 91精品欧美一区二区三区综合在| 亚洲综合日韩欧美| 亚洲第一会所| 欧美在线一区二区| 欧美aⅴ在线观看| 国产亚洲成av人片在线观看| 亚洲国产你懂的| 青草视频在线观看视频| 丝袜国产在线| 亚洲高清免费视频| 中文字幕无码精品亚洲资源网久久| 中文字幕有码在线视频| 亚洲伦在线观看| 国产乱子伦精品视频| 幼a在线观看| 中文字幕一区二区三区色视频| 亚洲乱码一区二区三区| 麻豆av在线免费看| 亚洲精品一二三区| 国产一区 在线播放| 888av在线视频| 黑人巨大精品欧美一区二区免费| 熟女少妇在线视频播放| 九九热线视频只有这里最精品| 91福利视频网站| www午夜视频| 国产亚洲高清一区| 亚洲国模精品私拍| 一级片视频免费看| 日韩欧美网址| 欧美激情18p| 久久亚洲天堂网| 日韩成人午夜电影| 91精品在线影院| 男人天堂网在线视频| 久久久久久久久99精品| 亚洲欧美日韩国产成人综合一二三区| 久久五月精品| 黄色成人av在线| 亚洲天堂网一区| 香蕉成人app| 亚洲日本欧美中文幕| 少妇高潮在线观看| 国产精品啊v在线| 日本精品久久久久影院| 国产又粗又猛又黄又爽| 成人黄页毛片网站| 色就是色欧美| 污污的视频在线观看| 大荫蒂欧美视频另类xxxx| 亚洲国产精品三区| 97品白浆高清久久久久久| 日韩精品中文字幕久久臀| 国产又粗又猛又爽又黄的视频小说| 欧美日韩1区| 国产福利精品视频| 亚洲免费国产视频| 国产精品视频九色porn| av女优在线播放| 日本a人精品| 精品亚洲va在线va天堂资源站| 黄色录像免费观看| 麻豆亚洲精品| 成人欧美一区二区三区视频xxx | 一卡二卡3卡四卡高清精品视频| 在线免费观看污| 欧美中文字幕亚洲一区二区va在线 | 欧美色网站导航| xxxwww国产| 五月婷婷六月综合| 国产精品成人久久久久| 天天操天天干天天爽| 国产精品国产三级国产aⅴ中文| 国产婷婷一区二区三区| 日韩av黄色| 亚洲最新视频在线| 日本一级黄色大片| 日本伊人午夜精品| 蜜桃视频在线观看成人| 国产理论电影在线| 91精品综合久久久久久| 免费黄色在线网址| 亚洲一区亚洲| 国产精品日韩二区| 污影院在线观看| 91精品国产综合久久久久久久 | 成人欧美一区二区三区小说| 国产情侣av自拍| 日韩成人午夜| 91国内精品久久| 黄色福利在线观看| 一卡二卡三卡日韩欧美| 一级黄色大片儿| 99精品全国免费观看视频软件| 国产精品第一第二| 国产精品一级伦理| 色94色欧美sute亚洲线路一ni| 7788色淫网站小说| 亚洲黄色天堂| 国产一区在线免费| 成人观看网址| 亚洲国产精品va在线看黑人| 美女福利视频在线观看| 国产一区二区按摩在线观看| 国产日韩视频在线播放| 亚洲午夜国产成人| 久久精品一本久久99精品| 91亚洲国产成人久久精品麻豆| 久久午夜老司机| 成人黄色片视频| 国产精品三级| 国产精品欧美日韩一区二区| 四虎久久免费| 欧美一区二区三区免费观看视频| 亚洲二区在线播放| 成人小视频免费观看| 国产精品又粗又长| 亚洲人成网亚洲欧洲无码| 日韩免费av在线| av在线电影院| 91精品国产欧美日韩| 久草视频在线免费看| caoporm超碰国产精品| 九九九九免费视频| 精品一区不卡| 3d动漫精品啪啪一区二区三区免费| 超碰在线网址| 亚洲国产精品成人精品| 波多野结衣啪啪| 中文文精品字幕一区二区| 手机免费av片| 伊人久久婷婷| 欧美在线一区二区三区四区| 国产69精品久久久久9999人| 久久这里只有精品99| 婷婷视频在线观看| 欧美日韩一区在线| 青娱乐在线视频免费观看| 99久久精品国产精品久久| 国产黄色特级片| 亚洲欧美综合久久久| 国产精品免费一区二区三区在线观看| 一区二区电影免费观看| 色哟哟网站入口亚洲精品| 亚洲国产成人精品一区二区三区| 黄色一区二区三区| 69夜色精品国产69乱| 91免费视频观看| а 天堂 在线| 亚洲永久免费| 久久精品在线免费视频| 亚洲国产美女视频| 午夜在线视频观看日韩17c| 一区二区视频在线播放| 国产精品xxx在线观看| 国产精品老女人精品视频| 欧美bbbxxxxx| 中国人与牲禽动交精品| 蜜桃av鲁一鲁一鲁一鲁俄罗斯的| 欧美综合天天夜夜久久| 国产精品23p| 中文字幕日韩av资源站| 亚洲成人网在线播放| 国产成人在线视频免费播放| 国内自拍视频网| 亚洲最黄网站| av动漫在线播放| 久久一级电影| 日本在线成人一区二区| 国产成人av毛片| 成人高清视频观看www| 成人欧美大片| 国内精品400部情侣激情| 中文字幕在线播放| 亚洲欧美国内爽妇网| 韩国av永久免费| 欧美一区二区三区电影| 中文字幕乱码一区二区| 欧美日韩中文字幕在线视频| 久久久久久久中文字幕| 亚洲人成精品久久久久久| 亚洲日本精品视频| www一区二区| 99久久免费看精品国产一区| 国产精品主播直播| 欧美美女一级片| 奇米色一区二区| 免费男同深夜夜行网站| 亚洲专区欧美专区| 欧美精品自拍视频| 今天的高清视频免费播放成人| 中文字幕第一页亚洲| 99久久这里只有精品| 色视频一区二区三区| 欧美日韩一二| 午夜精品一区二区在线观看的| 精品在线播放| 亚洲高清乱码| 成人中文视频| 亚洲欧洲精品一区| 日韩精品第一区| 夜夜春亚洲嫩草影视日日摸夜夜添夜| 红桃成人av在线播放| 日韩一本精品| 欧美电影免费观看高清| 伊人色综合影院| 午夜精品久久久久久久四虎美女版| 一区高清视频| 仙踪林久久久久久久999| 日韩精品手机在线观看| 亚洲网站视频| 欧美网站免费观看| 日本vs亚洲vs韩国一区三区| 欧美日韩中文不卡| 国产一区二区精品久久| 人妻激情偷乱频一区二区三区| www.欧美日韩国产在线| 亚洲做受高潮无遮挡| 久久精品一区二区| 粉嫩精品久久99综合一区| 亚洲天堂福利av| 国产一级视频在线观看| 富二代精品短视频| 国产欧美一区二区三区在线看蜜臂| 色香色香欲天天天影视综合网| 特级西西444www高清大视频| 制服丝袜一区二区三区| 丰满肉嫩西川结衣av| 亚洲欧美国产精品va在线观看| 在线视频二区| 欧美精品激情blacked18| 在线毛片观看| 91精品免费久久久久久久久| 91国内精品白嫩初高生| 噜噜噜噜噜久久久久久91| 欧美日韩国产高清电影| 亚洲天堂第一区| 免费在线成人| 日韩欧美中文视频| 91丨porny丨在线| 亚洲女人毛茸茸高潮| 性欧美疯狂xxxxbbbb| 亚洲 小说区 图片区| 日韩一区二区三区在线观看| 色猫av在线| 久久av中文字幕| 希岛爱理一区二区三区av高清| 成人午夜激情网| 免费电影一区二区三区| 国产精品久久久影院| 久久婷婷一区| 美女伦理水蜜桃4| 国产精品全国免费观看高清| 国产精品第一页在线观看| 欧美日韩国产精品成人| 手机在线不卡av| 久久精品青青大伊人av| 另类专区亚洲| 国产精品免费在线播放| 欧美第一精品| 九一精品在线观看| 91丨九色丨蝌蚪丨老版| 久久激情免费视频| 欧美久久久久久久久中文字幕| 天堂av网在线| 欧美人成在线视频| 外国成人毛片| 日韩精品最新在线观看| aⅴ色国产欧美| 精品国产一二区| 亚洲欧美日韩人成在线播放| 97人妻精品视频一区| 精品视频在线播放免| 精品精品导航| 亚洲一区美女视频在线观看免费| 欧美在线电影| 日日碰狠狠丁香久燥| 99久免费精品视频在线观看| 激情综合五月网| 91精品国产乱| 欧美成人三区| 国产区精品在线观看| 人人狠狠综合久久亚洲婷婷| 日韩a在线播放| 91在线观看一区二区| 国产成人啪精品午夜在线观看| 91精品国产综合久久国产大片| 丝袜美腿美女被狂躁在线观看| 国产福利视频一区| 精品欧美久久| 999精品视频在线| 国产欧美一区二区精品性色| 日批视频免费在线观看| 日韩精品中文字幕在线| 亚洲女同志freevdieo| 精品免费视频123区| 在线精品福利| 手机在线成人av| 精品久久久久久久久国产字幕 | 国产一区二区视频在线播放| 国产探花视频在线| 欧美日韩国产免费| 秋霞影院午夜丰满少妇在线视频| 国产精品久久久久秋霞鲁丝| 成久久久网站| 欧美一级视频在线| 亚洲人妖av一区二区| 精品人妻一区二区三区浪潮在线| 久久香蕉国产线看观看网| 欧美第一在线视频| 17c丨国产丨精品视频| av网站免费线看精品| 特级做a爱片免费69| 国产一区二区久久精品| 九九九精品视频| 看一级黄色录像| 懂色av一区二区三区免费看| 日韩精品一区三区| 亚洲毛片一区二区| 成人毛片免费| 成人污网站在线观看| 成人激情视频网站| 蜜臀99久久精品久久久久小说 | 青青青国内视频在线观看软件| 99久久国产免费免费| 国产一区二区三区的电影| 一级黄色片网址| 日韩午夜在线播放| 韩漫成人漫画| 亚洲国产精品影视| 99在线视频精品| 日批视频免费观看| 欧美日本中文字幕| 美女毛片一区二区三区四区最新中文字幕亚洲 | 欧美日韩精品系列| 国产三级伦理在线| 日韩在线观看电影完整版高清免费| 国产一区二区三区香蕉| 青青草av在线播放| 色哟哟入口国产精品| 国产一区二区三区不卡av| 99视频在线免费| 一区二区三区精品在线| 人成在线免费视频| 亚洲jizzjizz日本少妇| 噜噜噜躁狠狠躁狠狠精品视频 | 欧美99久久| 国产精品高清无码在线观看| 欧美一区二区在线免费播放|