精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

多智能體強化學習大模型初探

人工智能
本次分享從基礎背景開始,介紹為什么強化學習需要大模型、多智能體決策大模型有哪些挑戰、如何描述此類系統。此后根據提出的問題,提出動作語義網絡、置換不變性與置換同變性、跨任務自動化課程學習三個核心設計的先驗。

一、多智能體決策大模型面臨的挑戰

現實世界中的大量實際問題可以建模為包含了多個主體的協同控制和優化問題。合作式多智能體系統由多個參與主體,合作地優化某個(或多個)相同的目標函數,如:游戲AI中的多“英雄”協作、多用戶-多商品推薦、多車輛運輸投遞優化、智能倉儲多車輛調度、云計算多資源調度、多車輛協作調度等。

圖片

多智能體問題與單智能體強化學習問題的主要區別在于智能體數量由單個增加至n個,單個智能體的動作空間變為笛卡爾積下的指數型聯合動作空間,動作作用于環境,由環境反饋的狀態變為包含n個智能體信息的狀態集合,為指數次方的狀態空間。通常,該類系統使用MMDP或Dec-POMDP方式進行形式化描述。MMDP方法將單智能體的馬爾可夫過程擴展至多智能體,核心區別在于動作空間與狀態空間的指數拓展,并假設系統內的每個智能體均可以觀察到系統全局的狀態。Dec-POMDP方法則使用觀測函數對系統內的每個智能體在有限視野范圍內觀測到的信息進行建模。合作系統的目標在于優化所有智能體的聯合策略以最大化系統全局的累積回報。

圖片

求解合作式多智能體系統的最優控制策略通常面臨以下三個方面的難點:①由狀態觀測空間和聯合動作空間隨實體數量指數增長帶來的維度災難;②由維度災難導致現有的強化學習算法學習樣本效率低;③在多個任務之間模型通用性與泛化性較差。

圖片

多智能體強化學習大模型的根本目的在于設計一個模型,使其具有比較好的泛化性,一個模型可以解決多個類似問題,包括相同游戲不同場景與不同游戲不同場景。

圖片

 

大模型已在自然語言處理、計算機視覺等領域已取得突破性成果,最新研究顯示強化學習同樣具有BBF(Bigger, Better, Faster)的結論,當模型更大時,模型將具有更好的性能與更快的學習速度。在強化學習經典的Atari-100k測試環境中,model-based的EfficientZero方法被公認為具有較高的sample efficiency,而BBF的研究表明model-free的DQN算法通過增大模型的規模可以取得與EfficientZero相同的樣本效率并能夠顯著降低訓練的開支。隨著網絡參數規模的增大,通過合理的機制設計可以使算法性能逐漸提升。

圖片

多智能體強化學習大模型目前主要面臨四類挑戰:①不同場景的智能體數量、種類不同;②實體的特征、觀測、狀態不同,導致模型網絡輸入維度、含義等不同;③動作空間不同,導致策略網絡輸出維度、含義不同;④獎勵函數不同,導致價值函數網絡輸出尺度不同。

針對以上挑戰,需要對多智能體系統構建一套完備描述的方法,使得在該描述基礎上設計通用的決策模型成為可能。類比語言模型,可對多智能體系統內部進行統一描述。大語言模型的底座由詞表構成,詞表構成句子,并形成對客觀世界的底層描述。使用tokenizer將詞轉化為可學習的詞向量,并對齊含義與維度,將詞向量傳遞至神經網絡中并針對具體任務進行訓練。對應的,多智能體系統中通過全局的屬性表與動作表(動作語義)形成對系統中實體的完備描述(實體表),通過tokenizer的方式將屬性轉化為屬性向量與實體向量,將實體向量傳遞至后續策略網絡等神經網絡模型中,輸出控制策略。

二、動作語義網絡

動作語義網絡研究工作的核心思想是根據前面定義的語言描述,將系統整體的動作空間按照不同的動作語義進行劃分。如星際爭霸中,動作可以劃分為與自身狀態相關的移動動作與涉及兩個智能體交互的攻擊動作。在完成動作語義劃分后,根據不同的動作類型進行不同的后續處理,移動動作僅與智能體自身狀態相關,攻擊動作使用pairwise的方式表征兩個智能體之間的交互關系。

圖片


該先驗知識的引入使得在星際爭霸、Neural MMO等場景中模型性能有較大提升。該方案也落地到網易《逆水寒》游戲中,顯著提升游戲AI的性能。

圖片

三、置換不變性與置換同變性

利用多智能體之間的置換不變性與置換同變性對系統內部天然存在的信息冗余進行壓縮,以縮小系統的學習空間,并間接處理網絡輸入維度不同的問題。

在含有m個實體(包含n個智能體和m-n個非玩家物體)的系統中,狀態、觀測空間隨實體數量指數增長。系統的狀態刻畫的是實體集合的客觀信息,不隨輸入順序的變化而變化。在包含同質智能體的系統中,實體信息在排列上存在冗余,因此可利用同質智能體間天然存在的對稱性,在模型搭建過程中忽略輸入順序的影響可極大程度約減原有呈指數增長的狀態空間。

圖片

同時,系統內部具有不同類型的動作,包括僅與自身狀態相關的動作和存在實體之間交互的動作。在考慮排除輸入順序影響的時候,由于實體間交互動作與對應實體的狀態存在一一對應的關系,輸入順序的變化將導致輸出含義的對應改變,這對應了函數的置換同變性。另一種僅與自身狀態相關的動作類型,改變輸入順序后輸出仍然應保持不變,對應了函數的置換不變性。

圖片

通過設計兼具置換同變性與置換不變性的策略網絡結構,利用先驗知識對系統狀態空間進行壓縮,從而能夠極大程度提升后期策略學習的效率與效果。

決策網絡的輸入是由多個實體構成的觀測,經過典型的input layer、backbone layer(任意網絡結構)和output layer,輸出控制策略。我們期望輸出中,僅與自身狀態相關的動作不受輸入順序的影響(具備置換不變性),與輸入實體有一一對應關系的動作與輸入順序的改變發生相同的變化(具備置換同變性)。為了設計更通用的模型架構,我們重點遵循“最小改動原理”,在盡量少地去改變已有網絡結構的條件下達到期望性質,最終我們僅改動input layer A使其具備置換不變性,并將輸入順序信息告知并修改output layer D使其具備置換同變性。

圖片

傳統不具備置換不變性的MLP網絡輸入可以視作每個實體信息乘上獨立、對應的子模塊參數并對輸出進行加和。我們首先提出Dynamic Permutation Network (DPN),通過增加一個分類選擇函數,實現為每個輸入實體信息一一綁定確定的子模塊參數,進而實現輸入層的置換不變性。輸出層要求與輸入具有一一對應關系,構造類似的分類網絡,為每一個實體的輸出特征選擇確定性的矩陣,使輸出的順序隨輸入順序的變化發生協同的變化,從而實現置換同變性。

圖片

基于相同的思想,我們進一步提出Hyper Policy Network (HPN),利用“超網絡”(用一個網絡為另一個網絡生成權重參數)自動化地為每個實體生成相應的參數矩陣。以每個實體的特征作為超網絡的輸入,超網絡輸出每個實體對應的參數,此結構下實體特征與參數矩陣天然具有一一對應關系,求和后的輸出具備置換不變性。輸出層利用超網絡結構為每一個輸入實體特征一一綁定地生成對應參數,使輸出與輸入實體存在一一對應關系,具備置換同變性。 

圖片

在典型的星際爭霸測試環境中,將HPN的網絡結構集成到QMIX算法,在所有困難場景均取得100%勝率。

圖片

由于設計遵循最小改動原理,該網絡結構可非常容易地集成至不同算法(如QPLEX、MAPPO)中,并使算法性能得到較大提升。

圖片

此外,在星際爭霸V2、MPE、谷歌足球等更復雜、隨機性更強的環境中,該模型架構同樣能夠取得明顯的性能優勢。

圖片

同時,由于該網絡結構能自動適應由不同實體帶來的輸入維度不同與輸出維度不同的問題,因此具有較好的可泛化性與可遷移性,能夠實現不同數量不同規模任務中控制策略的高效復用。

圖片

四、跨任務自動化課程學習

在跨任務的課程學習過程中,系統中存在多個待學習的任務,包括難度較大的目標任務、較簡單的起始任務與其他候選的任務集合,課程學習算法每一步需要從候選任務集合中選出最合適的任務從而最終輸出一條“最優學習序列(路徑)”。解決該問題需要回答兩個核心問題:

①選哪個課程作為下一個學習目標合適?

②前面學到的知識在新的課程中如何復用?

圖片

我們提出基于難度和任務相似度選擇課程。把當前策略在備選任務集合的所有任務上進行評估,得到相應的獎勵值。根據獎勵值排序,選擇處在中間40%的任務,下一課程在這些任務中產生。同時基于任務相似度,在難度適中的候選任務中選擇與目標任務最接近的任務作為最終選定的課程。為了評估與目標任務的相似度,基于當前策略在目標任務和候選任務中進行rollout獲得狀態訪問分布,利用混合高斯模型對該分布進行建模,利用分布相似性衡量任務相似性。

圖片

基于HPN網絡結構實現策略遷移和復用。采用前述具有置換不變性和置換同變性,同時支持變長輸入和輸出的HPN網絡結構實現策略的遷移和復用。自動化課程學習的整體框架為,利用難度和相似度選定下一個學習任務,該任務學習過程中利用HPN的結構重載上一個任務學得的策略,依次循環,最終在目標任務上取得更好的性能。

圖片

我們在星際爭霸場景中進行算法驗證,根據種族類型,將星際爭霸中的游戲場景分成不同的任務集合(Marines,Stalkers & Zealots,以及Medivac & Marauders & Marines),每個任務集合均給定起始任務與難度極大的最終任務。對比經典遷移學習算法,不同算法在任務選擇序列上具有較大差異,我們算法能夠基于任務難度和對最終任務的幫助程度選擇出更適合的任務序列,在最終的任務中能夠取得非常大的性能提升。

圖片

五、pymarl3:代碼開源

最后,我們將系列工作的源代碼開源,將MARL社區常用的pymarl2 (https://github.com/hijkzzz/pymarl2 )代碼庫升級為pymarl3(https://github.com/tjuHaoXiaotian/pymarl3),其特性如下:

(1)增加對SMAC-V2(https://github.com/oxwhirl/smacv2)的支持,同時支持SMAC-V1和SMAC-V2,已集成在內,無需獨立安裝各個環境。

(2)升級pymarl2中的算法,使其具備置換不變性和置換同變性,設計的網絡結構可非常容易地集成到任意MARL算法中,并提升其性能。

(3)增強版算法,在SMAC-V1和SMAC-V2上均取得SOTA的性能。

圖片

本次分享概述多智能體決策大模型面臨的挑戰與類比語言模型對多智能體系統進行描述和建模的方案;提出3條重要設計先驗:動作語義網絡、置換不變性與置換同變性、跨任務自動化課程學習。歡迎大家一起合作,進一步研究強化學習大模型!

責任編輯:姜華 來源: DataFunTalk
相關推薦

2025-07-04 08:53:00

大模型AI訓練

2020-12-23 06:07:54

人工智能AI深度學習

2020-11-04 10:28:48

機器人人工智能系統

2021-03-05 15:03:36

算法強化學習技術

2022-03-03 10:15:16

強化學習模型論文

2021-09-10 16:31:56

人工智能機器學習技術

2025-01-06 09:45:00

AI訓練數據

2023-05-04 15:53:34

強化學習開發

2023-07-21 14:58:05

智能開發

2021-07-22 15:25:14

開源技術 框架

2024-08-28 13:53:42

多代理強化學習機器人

2025-06-09 09:32:35

2023-05-05 13:11:16

2025-06-03 06:12:03

2017-06-10 16:19:22

人工智能智能體強化學習

2020-05-06 16:07:05

百度飛槳

2024-10-12 17:14:12

2025-10-11 09:23:28

RLPT強化學習預訓練數據

2024-09-23 08:30:00

AI模型

2025-08-07 09:16:41

點贊
收藏

51CTO技術棧公眾號

欧美a视频在线观看| 色国产在线视频| 天天操天天干天天插| 一本色道久久综合亚洲精品不卡 | 亚洲国产精一区二区三区性色| av在线不卡精品| 国产人伦精品一区二区| 国产在线观看不卡| 538精品在线视频| 136导航精品福利| 欧美日韩一二三四五区| 亚洲精品一区二区三| 国产欧美综合视频| 在线不卡欧美| 国产一区二区三区在线视频| www,av在线| 久草在线资源福利站| 国产日韩欧美精品电影三级在线| 国产在线观看91精品一区| 九九热国产精品视频| 九一精品国产| 91麻豆精品国产91久久久更新时间 | a级片免费在线观看| 91影院在线观看| 国产91在线播放精品91| 极品久久久久久| 日韩三级毛片| 91精品视频网| 青青在线视频观看| 91在线中字| 国产视频一区二区在线| 粉嫩av一区二区三区免费观看| 欧美一区二区三区不卡视频| 99视频精品视频高清免费| 亚洲韩国日本中文字幕| 日本超碰在线观看| 欧洲一区精品| 亚洲精品一卡二卡| 日日噜噜噜噜夜夜爽亚洲精品| 亚洲第一精品网站| 毛片基地黄久久久久久天堂| 国自在线精品视频| 成人免费毛片xxx| 国内黄色精品| 日韩电影中文字幕av| 九九九久久久久久久| 99色在线观看| 亚洲一区二区三区免费视频| 亚洲国产精品综合| 青青久在线视频免费观看| 国产成人av电影在线播放| 国产综合久久久久久| 99久久久久久久久| 国产精品一二| 97精品在线观看| 久久久久久久久久久网 | 超碰97人人干| 精品国产18久久久久久洗澡| 欧美一区二区三区四区视频 | 国产麻豆成人精品| 国产精品自产拍在线观看中文| 日本天堂网在线| 亚洲国产日本| 国内精品久久久久影院优 | 一区二区在线观看免费视频播放| 亚洲精品中字| 中文字幕日本在线| 国产精品久久二区二区| 亚洲 日韩 国产第一区| 二区三区在线| 久久久噜噜噜久噜久久综合| 欧美日韩精品免费观看视一区二区| 女人18毛片一区二区三区| 国产成人精品网址| 国产乱码一区| 色一情一乱一区二区三区| av在线不卡免费看| 激情小说综合网| 天天舔天天干天天操| 99国产精品久久久久| 狠狠色噜噜狠狠色综合久| 天堂av资源在线| 久久婷婷国产综合国色天香| 欧美二区三区在线| 成人午夜电影在线观看| 日本一区二区免费在线| 亚洲三区在线观看| 毛片网站在线免费观看| 亚洲美女免费视频| 男女日批视频在线观看| 亚洲欧洲高清| 欧美日韩在线播| 欧美国产日韩另类| 日韩在线亚洲| 亚洲国产成人在线播放| 国产网站无遮挡| 国产午夜一区| 久久久精品网站| 国产精品99精品| 日韩精品高清不卡| 91在线高清免费观看| 六月婷婷中文字幕| 久久精品亚洲精品国产欧美 | 日韩午夜影院| 国产精品不卡一区| 久操网在线观看| 日韩三级影视| 欧美一区日本一区韩国一区| av无码一区二区三区| 国产99久久| 欧美成人激情图片网| 日韩精品视频播放| 卡一卡二国产精品 | 风流少妇一区二区| 精品麻豆av| 五月天婷婷在线视频| 亚洲一区免费视频| 91热这里只有精品| 国产精品毛片视频| 中文字幕欧美日韩| 久久久久久国产精品视频| 久久香蕉精品| 99影视tv| 91最新在线| 精品久久久久久久久久久久久久| 亚洲36d大奶网| 国产成人高清精品免费5388| 伊人精品在线观看| 日韩免费一级片| 加勒比av一区二区| 欧美激情第一页在线观看| 在线免费观看污| 欧洲精品在线观看| 亚洲国产精品狼友在线观看| 精品日韩毛片| 欧美黑人巨大精品一区二区| 国产免费www| 99热在这里有精品免费| 在线观看欧美一区| 日本韩国欧美| 亚洲激情久久久| 欧美日韩精品一区二区三区视频播放 | 黄页在线观看免费| 欧美日韩的一区二区| 偷拍女澡堂一区二区三区| 国产精品chinese| 成人激情综合网| 成人在线高清视频| 色综合久久中文字幕综合网| 午夜不卡久久精品无码免费| 888久久久| 成人av电影天堂| 涩涩视频在线观看免费| 亚洲国产精品久久久男人的天堂 | 欧美电影h版| 亚洲国产精品小视频| 久久久91视频| 国产麻豆91精品| 在线视频一区观看| 日本一区二区三区中文字幕 | 国产精品草莓在线免费观看| 日韩av成人| 日韩欧美999| 国产伦精品一区二区三区妓女| 亚洲日本免费| 精品网站在线看| 高潮在线视频| 日韩精品www| 国产污污视频在线观看| 国产精品18久久久久久久久| 婷婷视频在线播放| 日韩大陆av| 久久精品国产96久久久香蕉| 怡春院在线视频| 亚洲同性gay激情无套| 8x8x成人免费视频| 亚洲理论电影网| 91国产在线免费观看| 免费在线看电影| 精品国产精品一区二区夜夜嗨| 久青草免费视频| 成人国产免费视频| 亚洲中文字幕无码不卡电影| 激情五月色综合国产精品| 国产精品精品国产| 免费人成在线观看播放视频 | 亚洲风情第一页| 亚洲精品国产a| 国产xxxx视频| 久久久久久黄| 在线观看福利一区| 亚洲国产欧美国产第一区| 国模叶桐国产精品一区| 国产精品久久久久一区二区国产| 欧美日韩一区国产| 男女做暖暖视频| www.亚洲激情.com| 91色国产在线| 欧美日韩18| 欧美精品一区二区视频| 欧美综合社区国产| 欧美精品久久久久久久免费观看| 亚洲欧美另类综合| 日本韩国欧美国产| √天堂中文官网8在线| av在线免费不卡| gogogo高清免费观看在线视频| 午夜电影亚洲| 麻豆久久久av免费| 麻豆久久久久| 97在线观看免费高清| 91激情在线| 亚洲精品不卡在线| 亚洲一区在线观| 黄色成人在线免费| 久久久久久久久久97| 成人三级伦理片| 国产高清视频网站| 99精品久久久| 亚洲精品国产精品国自产| 中文在线综合| 国产成人免费av| 麻豆av在线免费观看| 国产一区二区三区精品久久久 | 欧美男人的天堂一二区| 中日韩黄色大片| 亚洲精品国产a久久久久久| 国产精品密蕾丝袜| www.日韩大片| 在线播放国产视频| 男女视频一区二区| 欧美日本视频在线观看| 亚洲乱码电影| 亚洲精品第一区二区三区| 老司机精品视频在线播放| 亚洲xxxx18| 久久91超碰青草在哪里看| 欧美在线观看一区二区三区| 91麻豆免费在线视频| 少妇精69xxtheporn| 久久久资源网| 9191成人精品久久| 久久午夜鲁丝片| 一区二区三区欧美激情| 99鲁鲁精品一区二区三区| 亚洲国产成人午夜在线一区| 日韩精品无码一区二区三区久久久| 国产成人亚洲精品狼色在线| 午夜国产福利在线观看| 日韩国产高清在线| 妞干网在线免费视频| 日韩亚洲国产精品| 真人抽搐一进一出视频| 亚洲私人影院| 成人在线播放网址| 欧美日本精品| 国产内射老熟女aaaa| 久久精品亚洲欧美日韩精品中文字幕| 午夜精品区一区二区三| 国产精品美女久久久久久不卡| 欧美日韩一区二区三区在线观看免 | 99久久久久成人国产免费| 欧美日韩在线直播| 成人黄色片在线观看| 色哟哟一区二区在线观看| 日本午夜视频在线观看| 懂色aⅴ精品一区二区三区蜜月| 国产精品美女毛片真酒店| 亚洲午夜久久久久久久久久久| 九九热只有精品| 亚洲最快最全在线视频| 黄色一级视频免费观看| 国产精品成人午夜| 极品久久久久久| 亚洲一区二区精品久久av| 国产污视频在线看| 精品久久久久久中文字幕大豆网| 成人免费a视频| 91黄色在线观看| 91国在线视频| 精品国内二区三区| 天堂网av2014| 一本大道亚洲视频| 国产色在线观看| 欧美精品激情在线观看| 亚洲天堂av影院| 国产精品视频地址| 国产精品亚洲四区在线观看 | www.色国产| 欧美狂野另类xxxxoooo| www.黄色av| 精品视频一区在线视频| 国产三级视频在线| 久久亚洲私人国产精品va| 综合图区亚洲| 2019av中文字幕| 精品自拍视频| 国产伦精品一区二区| 九九精品久久| 无颜之月在线看| 亚洲理论在线| 国产第一页视频| 国产精品亚洲视频| aa片在线观看视频在线播放| 久久久精品综合| а天堂中文在线资源| 亚洲在线免费播放| 中文字幕一区二区人妻痴汉电车 | 污视频在线免费| 最好看的2019年中文视频| 暖暖在线中文免费日本| 国产成人中文字幕| 一区二区三区四区精品视频| 日本精品一区二区三区不卡无字幕| 综合久久久久| 日韩一级理论片| av在线不卡电影| 国产精品白丝喷水在线观看| 色呦呦日韩精品| 国产精品久久久午夜夜伦鲁鲁| 亚洲精品福利在线观看| 麻豆网站视频在线观看| 性色av香蕉一区二区| 久久亚洲资源中文字| 久久精品美女| 欧美在线国产| 九九九在线观看视频| 99在线精品视频| 国产这里有精品| 欧美高清一级片在线| 人成在线免费视频| 欧美精品久久久久久久| 国产精品视频一区二区三区| 日韩av电影在线观看| 99伊人成综合| 国产精品熟妇一区二区三区四区| 国产精品久久网站| 99久久久久久久久| 日韩福利视频在线观看| 日本精品600av| 91在线国产电影| 日韩欧美电影| 最近中文字幕一区二区| 久久亚洲一级片| 欧美三级午夜理伦| 亚洲激情自拍图| 国产丝袜精品丝袜| 不卡一卡2卡3卡4卡精品在| 日本久久一二三四| 老熟妇仑乱视频一区二区| 91蝌蚪porny| 九九九在线观看| 日韩精品久久久久| 久草在线资源福利站| 国产精品久久久久久久免费大片| 性xxxx欧美老肥妇牲乱| 污污的视频免费观看| 国产精品丝袜一区| 又色又爽又黄无遮挡的免费视频| 国产亚洲欧美日韩一区二区| 免费观看欧美大片| 日本亚洲欧洲精品| 日韩高清在线不卡| www色com| 欧美系列一区二区| 北岛玲日韩精品一区二区三区| 欧美一级片一区| 伦理一区二区| 日本阿v视频在线观看| av一区二区三区在线| 九九热在线视频播放| 日韩精品中文字| а√天堂资源国产精品| 一区二区三区欧美在线| 韩国女主播成人在线| 欧美精品乱码视频一二专区| 91精品国产综合久久久久久久| 黄色网页在线免费看| 一区在线免费观看| 在线免费视频一区| 一区二区三区免费| 青青草在线播放| 成人深夜直播免费观看| 亚洲精选91| 2014亚洲天堂| 亚洲国产精品人久久电影| 成人在线免费| 欧美一级欧美一级| 国产精品蜜臀av| 全部免费毛片在线播放一个| 国产精品夫妻激情| 激情综合自拍| 欧美成人短视频| 亚洲激情在线观看| 欧美日韩黄网站| 一本久道中文无码字幕av| 一区二区三区视频在线观看| 国产成人天天5g影院在线观看| 99在线高清视频在线播放| 奇米一区二区三区av|