精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

星際爭霸II協(xié)作對抗基準超越SOTA,新型Transformer架構解決多智能體強化學習問題

人工智能 新聞
這項工作又讓我們回到那個老生常談的問題:Transformer 真的是萬能的嗎?

多智能體強化學習 (MARL) 是一個具有挑戰(zhàn)性的問題,它不僅需要識別每個智能體的策略改進方向,而且還需要將單個智能體的策略更新聯(lián)合起來,以提高整體性能。最近,這一問題得到初步解決,有研究人員引入了集中訓練分散執(zhí)行 (CTDE) 的方法,使智能體在訓練階段可以訪問全局信息。然而,這些方法無法涵蓋多智能體交互的全部復雜性。

事實上,其中一些方法還被證明是失敗的。為了解決這個問題,有人提出多智能體優(yōu)勢分解定理。在此基礎上,HATRPO 和 HAPPO 算法被推導出來。然而,這些方法也存在局限性,這些方法仍然依賴于精心設計的最大化目標。

近年來,序列模型(SM)在自然語言處理(NLP)領域取得了實質(zhì)性進展。如 GPT 系列、BERT 在廣泛的下游任務上表現(xiàn)出色,并且在小樣本泛化任務上取得了較強的性能。

由于序列模型與語言的序列特性自然契合,因此可用于語言任務,但是序列方法不僅限于 NLP 任務,而是一種廣泛適用的通用基礎模型。例如,在計算機視覺 (CV) 中,可以將圖像分割成子圖并將它們按序列排列,就好像它們是 NLP 任務中的 token 一樣 。近期比較出名的模型 Flamingo、DALL-E 、 GATO 等都有序列方法的影子。

隨著 Transformer 等網(wǎng)絡架構的出現(xiàn),序列建模技術也引起了 RL 社區(qū)的極大關注,這促進了一系列基于 Transformer 架構的離線 RL 開發(fā)。這些方法在解決一些最基本的 RL 訓練問題方面顯示出了巨大的潛力。

盡管這些方法取得了顯著的成功,但沒有一種方法被設計用來建模多智能體系統(tǒng)中最困難 (也是 MARL 獨有的) 的方面——智能體之間的交互。事實上,如果簡單地賦予所有智能體一個 Transformer 策略,并對其進行單獨訓練,這仍然不能保證能提高 MARL 聯(lián)合性能。因此,雖然有大量強大的序列模型可用,但 MARL 并沒有真正利用序列模型性能優(yōu)勢。

如何用序列模型解決 MARL 問題?來自上海交通大學、Digital Brain Lab、牛津大學等的研究者提出一種新型多智能體 Transformer(MAT,Multi-Agent Transformer)架構,該架構可以有效地將協(xié)作 MARL 問題轉(zhuǎn)化為序列模型問題,其任務是將智能體的觀測序列映射到智能體的最優(yōu)動作序列。

本文的目標是在 MARL 和 SM 之間建立橋梁,以便為 MARL 釋放現(xiàn)代序列模型的建模能力。MAT 的核心是編碼器 - 解碼器架構,它利用多智能體優(yōu)勢分解定理,將聯(lián)合策略搜索問題轉(zhuǎn)化為序列決策過程,這樣多智能體問題就會表現(xiàn)出線性時間復雜度,最重要的是,這樣做可以保證 MAT 單調(diào)性能提升。與 Decision Transformer 等先前技術需要預先收集的離線數(shù)據(jù)不同,MAT 以在線策略方式通過來自環(huán)境的在線試驗和錯誤進行訓練。

圖片


  • 論文地址:https://arxiv.org/pdf/2205.14953.pdf
  • 項目主頁:https://sites.google.com/view/multi-agent-transformer

為了驗證 MAT,研究者在 StarCraftII、Multi-Agent MuJoCo、Dexterous Hands Manipulation 和 Google Research Football 基準上進行了廣泛的實驗。結(jié)果表明,與 MAPPO 和 HAPPO 等強基線相比,MAT 具有更好的性能和數(shù)據(jù)效率。此外,該研究還證明了無論智能體的數(shù)量如何變化,MAT 在沒見過的任務上表現(xiàn)較好,可是說是一個優(yōu)秀的小樣本學習者。

背景知識

在本節(jié)中,研究者首先介紹了協(xié)作 MARL 問題公式和多智能體優(yōu)勢分解定理,這是本文的基石。然后,他們回顧了現(xiàn)有的與 MAT 相關的 MARL 方法,最后引出了 Transformer。

圖片

傳統(tǒng)多智能體學習范式(左)和多智能體序列決策范式(右)的對比。

問題公式

協(xié)作 MARL 問題通常由離散的部分可觀察馬爾可夫決策過程(Dec-POMDPs)圖片來建模。

多智能體優(yōu)勢分解定理

智能體通過 Q_π(o, a)和 V_π(o)來評估行動和觀察的值,定義如下。

圖片

?定理 1(多智能體優(yōu)勢分解):令 i_1:n 為智能體的排列。如下公式始終成立,無需進一步假設。

圖片

?重要的是,定理 1 提供了一種用于指導如何選擇漸進式改進行動的直覺。

現(xiàn)有 MARL 方法

研究者總結(jié)了目前兩種 SOTA MARL 算法,它們都構建在近端策略優(yōu)化(Proximal Policy Optimization, PPO)之上。PPO 是一種以簡潔性和性能穩(wěn)定性聞名的 RL 方法。

多智能體近端策略優(yōu)化(MAPPO)是首個將 PPO 應用于 MARL 中的最直接方法。

圖片

?異構智能體近端策略優(yōu)化(HAPPO)是目前的 SOTA 算法之一,它可以充分利用定理 (1) 以實現(xiàn)具有單調(diào)提升保證的多智能體信任域?qū)W習。

圖片

Transformer 模型?

基于定理 (1) 中描述的序列屬性以及 HAPPO 背后的原理,現(xiàn)在可以直觀地考慮用 Transformer 模型來實現(xiàn)多智能體信任域?qū)W習。通過將一個智能體團隊視作一個序列,Transformer 架構允許建模具有可變數(shù)量和類型的智能體團隊,同時可以避免 MAPPO/HAPPO 的缺點。

多智能體 Transformer

為了實現(xiàn) MARL 的序列建模范式,研究者提供的解決方案是多智能體 Transformer(MAT)。應用 Transformer 架構的思路源于這樣一個事實,即智能體觀察序列 (o^i_1,...,o^i_n) 輸入與動作序列(a^ i_1 , . . . , a^i_n)輸出之間的映射是類似于機器翻譯的序列建模任務。正如定理 (1) 所回避的,動作 a^i_m 依賴于先前所有智能體的決策 a ^i_1:m?1。

因此,如下圖(2)所示,MAT 中包含了一個用于學習聯(lián)合觀察表示的編碼器和一個以自回歸方式為每個智能體輸出動作的解碼器。

圖片


?編碼器的參數(shù)用φ 表示,它以任意順序獲取觀察序列(o^i_1 , . . . , o^i_n),并將它們傳遞通過幾個計算塊。每個塊都由一個自注意力機制、一個多層感知機(MLP)和殘差連接組成,以防止隨深度增加出現(xiàn)梯度消失和網(wǎng)絡退化。

解碼器的參數(shù)用θ表示,它將嵌入的聯(lián)合動作 a^i_0:m?1 , m = {1, . . . n}(其中 a^i_0 是指示解碼開始的任意符號)傳遞到解碼塊序列。至關重要的是,每個解碼塊都有一個掩碼的自注意力機制。為了訓練解碼器,研究者將如下裁剪 PPO 目標最小化。

圖片

MAT 中的詳細數(shù)據(jù)流如下動圖所示。

圖片

?實驗結(jié)果

為了評估 MAT 是否符合預期,研究者在星際爭霸 II 多智能體挑戰(zhàn)(SMAC)基準(MAPPO 在之上具有優(yōu)越性能)和多智能體 MuJoCo 基準上(HAPPO 在之上具有 SOTA 性能)對 MAT 進行了測試。

此外,研究者還在 Bimanual Dxterous Hand Manipulation (Bi-DexHands)和 Google Research Football 基準上了對 MAT 進行了擴展測試。前者提供了一系列具有挑戰(zhàn)性的雙手操作任務,后者提供了一系列足球游戲中的合作場景。

最后,由于 Transformer 模型通常在小樣本任務上表現(xiàn)出強大的泛化性能,因此研究者相信 MAT 在未見過的 MARL 任務上也能具有類似強大的泛化能力。因此,他們在 SMAC 和多智能體 MuJoCo 任務上設計了零樣本和小樣本實驗。

協(xié)作 MARL 基準上的性能

如下表 1 和圖 4 所示,對于 SMAC、多智能體 MuJoCo 和 Bi-DexHands 基準來說,MAT 在幾乎所有任務上都顯著優(yōu)于 MAPPO 和 HAPPO,表明它在同構和異構智能體任務上強大的構建能力。此外,MAT 還得到了優(yōu)于 MAT-Dec 的性能,表明了 MAT 設計中解碼器架構的重要性。

圖片


圖片

同樣地,研究者在 Google Research Football 基準上也得到了類似的性能結(jié)果,如下圖 5 所示。

圖片

MAT 用于小樣本學習

表 2 和表 3 中總結(jié)了每種算法的零樣本和小樣本結(jié)果,其中粗體數(shù)字表示最佳性能。

研究者還提供了數(shù)據(jù)相同情況下 MAT 的性能,其與對照組一樣從頭開始訓練。如下表所示,MAT 獲得了大多數(shù)最好成績,這證明了 MAT 小樣本學習的強大泛化性能。

圖片

責任編輯:張燕妮 來源: 機器之心
相關推薦

2024-09-23 15:04:16

2023-08-28 06:52:29

2020-01-16 15:57:36

AI 數(shù)據(jù)人工智能

2019-08-12 08:43:53

GitHub代碼開發(fā)者

2017-02-24 13:27:37

阿里開源

2019-01-25 18:37:20

AI數(shù)據(jù)科技

2021-09-10 16:31:56

人工智能機器學習技術

2021-11-30 08:00:00

人工智能數(shù)據(jù)技術

2012-01-17 12:39:09

JavaSwing

2010-07-19 13:15:49

星際爭霸2

2010-01-14 17:17:32

云計算

2013-07-02 13:52:07

2025-06-03 06:12:03

2023-11-18 09:48:23

2014-03-18 15:23:58

星際爭霸ARM平臺

2020-11-04 10:28:48

機器人人工智能系統(tǒng)

2022-05-31 10:45:01

深度學習防御

2021-03-05 15:03:36

算法強化學習技術

2024-11-18 14:35:00

智能體AI

2025-10-10 08:33:49

點贊
收藏

51CTO技術棧公眾號

www.日本久久| 久久青青草原| 成人免费黄色小视频| 国产成人av毛片| 亚洲一区二区三区中文字幕在线| 久久99精品久久久久久久青青日本| 国产一区免费看| 亚洲老妇激情| 亚洲欧美福利视频| 欧美激情第四页| 在线观看的黄色| 亚洲乱码中文字幕| 欧美日韩国产免费一区二区三区| 一级全黄少妇性色生活片| 亚洲无吗在线| 最新的欧美黄色| 免费日本黄色网址| 成人在线日韩| 91久久一区二区| av一区二区三区免费观看| 成年人视频在线看| 成人avav影音| 成人精品aaaa网站| 极品国产91在线网站| 国产综合色产| 久久资源免费视频| 国产福利短视频| 91成人福利| 欧美视频自拍偷拍| 99热成人精品热久久66| 黄色在线观看视频网站| 亚洲欧美综合另类在线卡通| 欧美成人在线免费观看| 成人毛片在线精品国产| 精品一区二区免费在线观看| 日韩av大片在线| 国偷自拍第113页| 亚洲电影在线一区二区三区| 中文字幕av一区| 一级黄色片大全| 日本三级久久| 日韩电影在线观看中文字幕| 午夜剧场免费看| 亚洲一区二区三区日本久久九 | 日韩精品视频免费播放| 伊人久久大香线蕉精品组织观看| 色妞色视频一区二区三区四区| 免费黄色在线视频| 亚洲深夜福利在线观看| 亚洲精品美女在线| 91黄色免费视频| jizzjizzjizz欧美| 欧美精品一区二区三区久久久| 激情成人在线观看| 国产精品免费精品自在线观看| 欧美日韩国产天堂| 鲁一鲁一鲁一鲁一av| 91av一区| 欧美猛男gaygay网站| 999在线观看| 国产aa精品| 欧美一级高清大全免费观看| 欧美国产在线一区| 97青娱国产盛宴精品视频| 日韩一区二区影院| 在线观看亚洲免费视频| 久久99国产精品久久99大师 | 日本久久久久久久久久| 538任你躁精品视频网免费| 亚洲成人激情在线观看| 国产人妻人伦精品1国产丝袜| 另类图片第一页| 亚洲欧美国产精品专区久久| 黄色片网站免费| 婷婷综合伊人| 欧美劲爆第一页| 精品人妻一区二区色欲产成人| 久久久噜噜噜| 国产一区二区色| 国产91麻豆视频| 91香蕉视频在线| 亚洲精品在线视频观看| 亚洲综合影视| 黑人与娇小精品av专区| 一级在线免费视频| 视频亚洲一区二区| 亚洲女成人图区| 2014亚洲天堂| 亚洲久久成人| 国产精品久久久久久av下载红粉 | 久久久精品一区二区毛片免费看| 在线成人av网站| 欧美熟妇精品一区二区蜜桃视频| 欧美色女视频| 国内精品久久久久影院优| 天干夜夜爽爽日日日日| 国产在线精品一区二区不卡了 | 国产精品高潮粉嫩av| aaa一区二区三区| 久久综合久久综合亚洲| 三级网在线观看| 中文字幕资源网在线观看免费| 欧美日韩精品福利| 菠萝菠萝蜜网站| 91tv精品福利国产在线观看| 97国产精品人人爽人人做| 亚洲综合精品国产一区二区三区| 成人一区二区视频| 亚洲一区二区在线免费观看| 三妻四妾的电影电视剧在线观看| 91精品一区二区三区在线观看| 三级黄色片网站| 天天做天天爱天天综合网2021| 欧美一级淫片videoshd| 超碰在线观看av| 中文字幕一区二区三区在线观看| 能在线观看的av| 97超碰成人| www日韩欧美| 欧美人一级淫片a免费播放| 成人激情综合网站| 欧美交换配乱吟粗大25p| 在线日本欧美| 亚洲欧美国产另类| 国产成人愉拍精品久久 | 欧美日本一区二区三区| 色无极影院亚洲| 99在线观看免费视频精品观看| 亚洲最大av网站| 免费在线观看av片| 欧美性大战xxxxx久久久| av小说在线观看| 国产视频一区在线观看一区免费| 97超碰人人模人人爽人人看| 米奇777四色精品人人爽| 欧美性大战xxxxx久久久| 亚洲 小说 欧美 激情 另类| 国产一区二区三区的电影 | 国产一区二区三区站长工具| 97人洗澡人人免费公开视频碰碰碰| 国产裸体无遮挡| 最新高清无码专区| 天天操天天干天天做| 日韩精品1区| 国产在线高清精品| 精品国产白色丝袜高跟鞋| 欧美性xxxxxx少妇| 五月婷婷婷婷婷| 另类人妖一区二区av| 亚洲一区美女| 欧美视频第一| 久久综合久中文字幕青草| 国产乱色精品成人免费视频 | 成人免费毛片a| 日韩成人手机在线| 精品五月天堂| 欧美怡春院一区二区三区| 日韩一二三四| 欧美性猛片xxxx免费看久爱 | 亚洲成人激情自拍| 中文字幕精品久久久| 一区二区黄色| 日韩av免费电影| 亚洲伦理网站| 久久99精品视频一区97| 欧美性受xxxx狂喷水| 午夜精品福利久久久| 亚洲最大成人网站| 久久精品久久久精品美女| 天天干天天色天天爽| 超碰在线亚洲| 国产成人啪精品视频免费网| 色视频在线免费观看| 精品国产网站在线观看| 国产a∨精品一区二区三区仙踪林| 久久亚洲一区二区三区明星换脸 | 日本精品视频| 91国内揄拍国内精品对白| 国产综合在线观看| 欧美一区二区视频在线观看2020| 国产一级片视频| 国产清纯白嫩初高生在线观看91 | eeuss鲁片一区二区三区| 57pao国产成人免费| 亚洲成人三级| 精品国产乱码久久久久久久久 | 日韩精品另类天天更新| 99亚洲男女激情在线观看| 国内精品视频久久| av在线资源网| 亚洲激情视频在线观看| 成人黄色免费网| 亚洲成人精品在线观看| 美女网站视频色| 99re热这里只有精品免费视频 | 成人不卡免费av| 亚洲高清在线免费观看| 黄色日韩在线| 亚洲精品在线免费看| 日韩aaa久久蜜桃av| 成人网在线免费看| 国产va在线视频| 久久天天躁日日躁| 国产尤物视频在线| 日韩欧美亚洲一区二区| а中文在线天堂| 性做久久久久久| 精品人妻伦九区久久aaa片| 久久精品欧美一区二区三区麻豆| 日本人dh亚洲人ⅹxx| 蜜臀av性久久久久蜜臀aⅴ流畅 | 狠狠噜天天噜日日噜| 精品国产一区二区三区噜噜噜| 成人欧美一区二区| 先锋影音网一区二区| 国产成人精品一区二区三区| free性m.freesex欧美| 久久综合伊人77777| 国产综合视频一区二区三区免费| 亚洲精品久久久久久久久| 999av视频| 欧美日韩情趣电影| 波多野结衣视频网址| 岛国av一区二区| 69精品久久久| 一区二区三区日韩| 国产午夜手机精彩视频| 国产精品区一区二区三| 极品人妻一区二区三区| av在线播放一区二区三区| 亚洲精品乱码久久久久久9色| 久久精品国产精品亚洲精品| 成人羞羞国产免费网站| 午夜在线a亚洲v天堂网2018| 黄色激情在线视频| 欧美网站在线| 成人污网站在线观看| 欧美在线黄色| 免费观看中文字幕| 欧美激情1区2区3区| 国产精品12p| 欧美一区网站| 久草视频这里只有精品| 国产一区激情| 久久99久久99精品| 在线欧美不卡| 中文字幕无码精品亚洲35| 亚洲精品韩国| 国产网站免费在线观看| 国产精品亚洲综合久久| 日本女优爱爱视频| 国产亚洲高清视频| 超碰影院在线观看| 日本视频一区二区三区| 狠狠操狠狠干视频| 国产麻豆精品在线观看| 乳色吐息在线观看| 97se亚洲国产综合自在线观| 性色av蜜臀av色欲av| 久久精品这里都是精品| www久久久久久久| 亚洲欧美在线视频观看| 破处女黄色一级片| 午夜视频一区在线观看| 国产精品自拍99| 欧美色图第一页| 国产模特av私拍大尺度| 精品国产污污免费网站入口 | 亚洲在线观看av| 欧美一区二区久久| 手机看片一区二区三区| 亚洲人在线观看| 免费网站免费进入在线| 欧美激情在线观看视频| 在线看的毛片| 国产在线观看精品| 加勒比久久高清| 日本亚洲欧洲精品| 久久久久久久久国产一区| www.日本三级| 三级久久三级久久| 永久免费黄色片| 99精品视频一区| 农村老熟妇乱子伦视频| 一二三区精品视频| www.日韩一区| 日韩精品最新网址| 黄色在线观看网| 欧美精品做受xxx性少妇| 欧美久久天堂| 91在线直播亚洲| 亚洲第一二三区| 992tv快乐视频| 天堂一区二区在线| 日本中文字幕精品| 国产日产欧美一区二区三区| 欧美日韩在线视频免费| 欧美午夜美女看片| 国产强伦人妻毛片| 亚洲欧美日韩综合| 欧美人与牲禽动交com | av成人综合| 一区二区三区三区在线| 99精品国产在热久久婷婷| 日本美女视频一区| 久久久精品一品道一区| 久久精品一区二区三| 91激情在线视频| 天天操天天干天天干| 久久精品99久久久香蕉| 欧美一级大片| 精品毛片久久久久久| 亚洲乱码精品| 中文字幕第38页| 久久婷婷综合激情| 国产无套在线观看| 日韩一区二区在线免费观看| av中文字幕一区二区三区| 国产69久久精品成人看| 91久久精品无嫩草影院| 在线观看一区欧美| 男女性色大片免费观看一区二区| 亚洲国产精品自拍视频| 一区二区三区在线免费观看| 一本一道精品欧美中文字幕| 亚洲天堂av电影| 日韩脚交footjobhd| 国产精品99久久久久久久| 在线精品国产| 99九九精品视频| 中文字幕一区二区三区色视频| 日批视频免费观看| 国产亚洲欧美aaaa| 卡通欧美亚洲| 日本电影一区二区三区| 老司机精品导航| av小说在线观看| 色成人在线视频| 欧美xxx.com| 欧美中文字幕视频| 亚洲春色h网| 成年人免费大片| 国产欧美视频一区二区| 波多野结衣大片| 在线观看成人黄色| 欧美国产视频| a级黄色片网站| 国产精品夜夜爽| 久热这里只有精品在线| 日韩欧美三级在线| 国产天堂在线播放视频| 国产精品久久精品国产| 一区二区亚洲精品| 狠狠人妻久久久久久综合蜜桃| 天天综合网 天天综合色| 亚洲 美腿 欧美 偷拍| 91高潮在线观看| 奇米狠狠一区二区三区| 成人午夜激情av| 亚洲天堂成人网| 亚洲美女性生活| 2019中文字幕在线观看| 成人精品亚洲| 四虎成人在线播放| 亚洲自拍欧美精品| 四虎精品在线| 国产精品久久精品| 综合久久综合| 亚洲欧美在线不卡| 欧美亚一区二区| 男女在线视频| 蜜桃传媒视频麻豆第一区免费观看| 久久综合婷婷| 国产一二三四区| 亚洲精品av在线播放| 欧美free嫩15| 红桃一区二区三区| 91在线视频免费观看| 中文字幕777| 久久久人成影片一区二区三区| 五月国产精品| 激情五月俺来也| 亚洲第一福利一区| jizz在线观看| 国产精品theporn88| 日韩电影在线观看网站| 亚洲国产精品免费在线观看| 亚洲国产欧美在线成人app| 日本h片久久| 欧美亚洲黄色片| 国产精品乱码久久久久久| 免费看黄网站在线观看| 国产精品久久久久久久9999| 精品91视频| 国产一区二区三区视频播放| 亚洲国产第一页| 国产95亚洲| 精品久久久噜噜噜噜久久图片| 亚洲免费观看高清在线观看| 高清中文字幕一区二区三区|