精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

OpenAI提出強化學習新方法:讓智能體學習合作、競爭與交流

開發 開發工具
近日,OpenAI、麥吉爾大學和加州大學伯克利分校的幾位研究者提出了一種「用于合作-競爭混合環境的多智能體 actor-critic」。之后,OpenAI 發布博客對這項研究進行了解讀,機器之心對該解讀文章進行了編譯介紹。

讓智能體(agent)學會合作一直以來都是人工智能領域內的一項重要研究課題,一些研究者也認為合作能力是實現通用人工智能(AGI)的必要條件。而除了合作,讓智能體學會競爭可能也是實現這一目標的一大關鍵。近日,OpenAI、麥吉爾大學和加州大學伯克利分校的幾位研究者提出了一種「用于合作-競爭混合環境的多智能體 actor-critic」。之后,OpenAI 發布博客對這項研究進行了解讀,機器之心對該解讀文章進行了編譯介紹。

讓智能體能在其中為資源進行競爭的多智能體環境是實現通用人工智能之路的墊腳石。

多智能體環境(multi-agent environment)有兩個實用的屬性:***,存在一個自然的全套考驗——環境的難度取決于你的競爭者的能力(而且如果你正在和你的克隆體進行對抗的話,環境就可以精確地匹配出你的技術水平)。第二點,多智能體環境沒有穩定的平衡態(equilibrium):無論一個智能體多么聰明,總會有讓它變得更智能的壓力。這些環境和傳統環境相比有很大的不同,并且要想掌控它們我們還需要大量的研究。

我們已經設計了一個新算法 MADDPG(Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments),可用于多智能體環境中的中心化學習(centralized learning)和去中心化執行(decentralized execution),讓智能體可以學習彼此合作和競爭。

用來訓練 4 個紅色智能體追逐 2 個綠色智能體的 MADDPG

用來訓練 4 個紅色智能體追逐 2 個綠色智能體的 MADDPG。紅色智能體已經學會和「同伴」進行團隊合作來追逐單個綠色智能體,以獲得更高的獎勵。同時,綠色智能體學會了彼此分散,并且當它們中的一個正在被追逐時,另一個就會嘗試接近水源(藍色圓圈)以躲避紅色智能體。

MADDPG 對 DDPG(https://arxiv.org/abs/1509.02971)這種強化學習算法進行了延伸,并從 actor-critic 強化學習技術上獲得了靈感;也有其他研究團隊正在探索這些思路的變體和并行實現的方法,參閱以下論文:

  • Learning Multiagent Communication with Backpropagation:https://arxiv.org/abs/1605.07736
  • Learning to Communicate with Deep Multi-Agent Reinforcement Learning:https://arxiv.org/abs/1605.06676
  • Counterfactual Multi-Agent Policy Gradients:https://arxiv.org/abs/1705.08926

我們把仿真實驗中的每一個智能體都當作「演員(actor)」,并且每個演員都從「批評家(critic)」那里獲得建議,從而來幫助 actor 去決策哪些動作在訓練過程中應該被強化。傳統上,critic 會設法去預測在一個特定狀態中一個動作的價值(value,即將來期望得到的獎勵),這個獎勵會被智能體(actor)用來更新它自己的策略(policy)。和直接使用獎勵(reward)相比,這無疑是更加可靠的,因為它可以根據具體情況來進行調整。為了讓這種方法適用于多智能體全局協同(globally-coordinated)的情況,我們改進了我們的 critic,使它們可以獲得所有智能體的觀察結果和動作,如下圖所示。

我們的智能體無需在測試的時候有一個中心 critic;它們可以基于它們的觀察以及它們對其它智能體的行為的預測來采取行動。因為一個中心化的 critic 是為每個智能體獨立學習到的,所以我們的方法也可以在多智能體之間構造任意的獎勵結構,包括擁有相反獎勵的對抗案例。

我們在許多不同的任務上對我們的方法進行了測試,其在所有任務上的表現都優于 DDPG。在上面的動畫中你可以看到,從上到下:兩個 AI 智能體試圖到達特定地點,學會了分開行動以向其對手智能體隱藏其目標位置;一個智能體與另一個智能體溝通目標的名稱;三個智能體協調,在不碰撞彼此的情況下到達目標。

使用 MADDPG(上)訓練的紅色智能體表現出了比那些使用 DDPG(下)訓練的智能體更復雜的行為。其中,紅色智能體試圖通過綠色的森林來追逐綠色的智能體,同時繞過黑色的障礙。我們的智能體可以捕捉到更多智能體,而且也看得出來,我們的智能體比 DDPG 方法訓練的智能體合作能力更強。

傳統強化學習不給力的地方

傳統的去中心化強化學習方法(DDPG、actor-critic 學習和深度 Q 學習等等)難以在多智能體環境中學習,因為在每一個時間步,每個智能體都會嘗試學習預測其它智能體的動作,同時還要采取自己的行動。有競爭的情形中,尤其如此。MADDPG 使用了一種中心化的 critic 來為智能體提供補充,這些補充信息包括它們同伴的觀察和潛在動作,從而可以將一個不可預測的環境轉換成可預測的。

使用策略梯度方法會帶來進一步的難題:因為這會帶來很高的方差,當獎勵不一致時很難學習到正確的策略。我們還發現添加 critic 雖然可以提高穩定性,但是仍然不能應對我們的部分環境,比如合作交流(cooperative communication)。似乎在訓練中考慮其它智能體的動作對學習合作策略來說非常重要。

初步研究

在我們開發 MADDPG 之前,在使用去中心化技術時,我們注意到如果說話者在表達自己的去處時不一致,那么聽話者智能體(listener agent)就常常會學會忽略說話者。然后該智能體會將所有與該說話者的信息關聯的權重設置為 0,從而有效地「靜音」。一旦這種情況發生,就很難通過訓練恢復了;因為缺乏任何反饋,所以該說話者將永遠無法知道它說的是否正確。為了解決這個問題,我們研究了最近一個分層強化學習項目

(https://arxiv.org/abs/1703.01161)中提出的技術,這可以讓我們迫使聽話者在其決策過程中整合該說話人的表述。但這個解決方案沒有作用,因為盡管其強迫聽話者關注說話者,但對說話者了解應該說什么相關內容卻毫無助益。我們的中心化 critic 方法有助于解決這些難題,可以幫助說話者了解哪些表述可能與其它智能體的動作相關。

下一步

在人工智能研究領域,智能體建模(agent modeling)可謂歷史悠久,很多場景都已經得到過了研究。過去的很多研究都只考慮了少量時間步驟和很小的狀態空間。深度學習讓我們可以處理復雜的視覺輸入,而強化學習可以給我們帶來學習長時間行為的工具。現在,我們可以使用這些能力來一次性訓練多個智能體,而無需它們都了解環境的動態(環境會在每個時間步驟如何變化),我們可以解決大量涉及到交流和語言的問題,同時學習環境的高維信息。以下為原論文的摘要:

論文:用于合作-競爭混合環境的多智能體 Actor-Critic(Multi-Agent Actor-Critic for Mixed Cooperative-Competitive Environments)

論文地址:https://arxiv.org/pdf/1706.02275.pdf

用于合作-競爭混合環境的多智能體

我們探索了用于多智能體域(multi-agent domains)的深度強化學習方法。我們開始分析了傳統算法在多智能體案例中的困難:Q 學習(Q-learning)因為環境固有的非平穩性(non-stationarity)而受到了挑戰,而策略梯度(policy gradient)則飽受隨智能體數量增長而增大的方差之苦。然后我們提出了對 actor-critic 方法的一種調整,其考慮了其它智能體的動作策略(action policy),能夠成功學習到需要復雜多智能體協調的策略。此外,我們還引入了一種為每個智能體使用策略集成(ensemble of policies)的訓練方案,可以得到更加穩健的多智能體策略。我們表明了我們的方法相對于已有的方法在合作和競爭場景中的能力,其中智能體群(agent populations)能夠發現各種物理和信息的協調策略。

原文:https://blog.openai.com/learning-to-cooperate-compete-and-communicate/

【本文是51CTO專欄機構“機器之心”的原創譯文,微信公眾號“機器之心( id: almosthuman2014)”】

 

戳這里,看該作者更多好文

責任編輯:趙寧寧 來源: 51CTO專欄
相關推薦

2025-10-20 08:50:00

2025-10-10 08:33:49

2025-10-28 15:42:32

AlphaGo強化學習算法

2025-03-07 09:24:00

2023-08-28 06:52:29

2022-11-03 14:13:52

強化學習方法

2025-04-25 09:12:00

2020-04-15 16:44:38

谷歌強化學習算法

2023-10-05 06:05:54

谷歌時間訓練

2017-03-28 10:15:07

2025-01-23 10:08:00

虛擬數字AI

2025-11-10 04:15:00

2021-10-11 17:15:30

AI 數據人工智能

2019-12-30 09:41:59

機器學習人工智能計算機

2025-04-01 09:32:00

模型訓練AI

2022-11-02 14:02:02

強化學習訓練

2022-11-27 12:50:01

AI算法MIT

2023-08-16 15:25:43

2017-08-22 15:56:49

神經網絡強化學習DQN

2017-08-17 09:15:23

強化學習KerasOpenAI
點贊
收藏

51CTO技術棧公眾號

日韩欧美视频一区二区三区| 岛国片在线免费观看| 国产精品久久久久久成人| 国产91欧美| 激情婷婷久久| 欧美日韩一区在线观看| 国产一区二区黄色| 人与动物性xxxx| 二区三区不卡| www.66久久| 精品自在线视频| 国产免费又粗又猛又爽| 五月天婷婷在线播放| 欧美午夜一区二区福利视频| 欧美剧情片在线观看| 日韩av免费电影| 日本一区二区欧美| 清纯唯美激情亚洲| 亚洲欧洲综合另类| 国产在线久久久| 国产麻豆天美果冻无码视频 | 亚洲欧美制服综合另类| 蜜臀精品一区二区| 不卡视频免费在线观看| 亚洲自拍偷拍网| 777精品伊人久久久久大香线蕉| 亚洲电影免费| 91亚洲欧美激情| 成人嫩草影院| 在线视频你懂得一区| 日本一区不卡| 中文字幕av在线免费观看| 国产亚洲欧美日韩在线观看一区二区 | 素人啪啪色综合| 91麻豆免费视频| 91精品国产91久久久久久| 三级视频网站在线观看| 超碰99在线| 国产在线成人| 精品日产卡一卡二卡麻豆| 欧美在线观看视频免费| 婷婷在线免费视频| 免费看黄裸体一级大秀欧美| 欧美电影免费提供在线观看| 日本丰满少妇xxxx| 黄色在线网站| 久久成人综合网| 久久久精品免费视频| 亚洲一级片免费观看| 亚洲小说区图片| 久久综合九色综合欧美亚洲| 国产精品激情自拍| 麻豆视频在线免费看| jizzjizzjizz欧美| 色视频成人在线观看免| 中文字幕一区二区三区5566| 朝桐光av在线一区二区三区| 久久国产乱子精品免费女| 欧美成人高清视频| av在线网站观看| 国产精品igao视频网网址不卡日韩| 一区二区三区不卡视频| 精品一区二区日本| 在线免费观看高清视频| 国产精品av久久久久久麻豆网| 中文字幕日韩av综合精品| 欧美午夜性视频| 9999在线视频| 久久久久久久久岛国免费| 午夜精品福利在线观看| 久久成人激情视频| 日韩av首页| 欧美国产精品一区| 国产精品亚洲激情| 美女爆乳18禁www久久久久久| 亚洲精品一二三**| 午夜精品久久久久久久99樱桃| 国产精品久久久久久久免费大片| 久久久久久久久久久久国产| 国产成人精品亚洲线观看| 在线亚洲人成电影网站色www| 国产亚洲精品网站| 免费在线观看黄| 国内精品免费**视频| 久久久久久久久国产精品| 亚洲ⅴ国产v天堂a无码二区| 91免费精品国偷自产在线在线| 91精品在线免费观看| 中文字幕55页| 日韩视频一区二区三区四区| 精品一区二区三区电影| 亚洲精品20p| 麻豆免费在线| 亚洲精品视频免费观看| 区一区二区三区中文字幕 | 亚洲精品美女久久久久| 日韩av手机版| a级大胆欧美人体大胆666| 五月婷婷另类国产| 成人免费在线观看视频网站| 国产精品国产亚洲精品| 亚洲精品二三区| 手机在线免费毛片| 好吊妞国产欧美日韩免费观看网站| 亚洲高清av在线| 欧美成人三级在线播放| 网友自拍亚洲| 黑人与娇小精品av专区| 国产又大又长又粗又黄| 神马精品久久| 国产精品热久久久久夜色精品三区| 一级做a爰片久久| 天天干天天摸天天操| 国产日韩在线不卡| 肥熟一91porny丨九色丨| 性xxxx视频| 亚洲欧洲三级电影| 日本一区免费观看| 国产高清av在线| 国产91精品欧美| 亚洲xxxx视频| 国产又粗又大又黄| 成人的网站免费观看| 97se亚洲综合| 成人在线观看免费| 久久综合久久鬼色| 成人av在线播放观看| 国产成人免费9x9x人网站视频| 日韩欧美久久一区| www.日本高清视频| 午夜日韩在线| 欧美激情免费看| 永久免费看mv网站入口| 性色一区二区三区| 91精品久久香蕉国产线看观看| 欧美欧美欧美| 久久精品一区八戒影视| 屁屁影院ccyy国产第一页| 唐人社导航福利精品| 亚洲韩国青草视频| 国产精久久久久久| 一本色道久久综合亚洲精品不卡| 欧美国产激情18| 一本一道人人妻人人妻αv| 91久色porny| 欧洲精品在线播放| 日本一区二区三区播放| 中文字幕亚洲一区| 国产在线观看第一页| 欧美+亚洲+精品+三区| 日韩美女免费视频| 天堂成人在线观看| 亚洲免费毛片网站| 日本特黄在线观看| 日韩毛片视频| 久久九九亚洲综合| 中文字幕黄色av| 欧美国产丝袜视频| 亚洲综合欧美日韩| 日韩三区在线| 国产一区二区三区日韩欧美| 国产三级aaa| 免费欧美在线视频| 成人在线视频网| 日本三级一区二区三区| 91麻豆高清视频| 麻豆传传媒久久久爱| 国产精品蜜月aⅴ在线| 7777精品伊人久久久大香线蕉| 性猛交ⅹxxx富婆video| 91精品在线观看国产| 国产精品一久久香蕉国产线看观看 | 国产原创av在线| 日本精品一区二区三区四区的功能| 女尊高h男高潮呻吟| 久久伊人亚洲| 国产精品一二区| 欧美高清视频| 日韩一区二区麻豆国产| 久久婷婷一区二区| 99久久婷婷国产综合精品电影| 人妻少妇被粗大爽9797pw| 亚洲一区av| 国产视频精品自拍| 黄色片中文字幕| 久久99久久久久久久久久久| 天天干天天操天天干天天操| 秋霞一区二区| 欧美孕妇与黑人孕交| 99精品视频在线播放免费| 91论坛在线播放| 日韩福利视频在线| 亚洲精品国产偷自在线观看| 久久大片网站| 成人av集中营| 欧美日韩成人网| 亚洲 小说区 图片区 都市| 91久久免费观看| 中文字幕在线观看2018| 免费亚洲网站| 亚洲资源在线网| 亚洲精品视频一二三区| 国产精品视频成人| 丁香花视频在线观看| 亚洲视频在线观看视频| 国产精品久久影视| 亚洲成人黄色影院| 国产主播av在线| 成人丝袜18视频在线观看| 视频一区国产精品| 依依综合在线| 色偷偷亚洲男人天堂| 亚洲图片欧美日韩| 亚洲欧美二区三区| 亚洲国产无码精品| 国产成人免费在线观看| 波多野结衣天堂| 亚洲狼人精品一区二区三区| 成人av蜜桃| 女人天堂av在线播放| 欧美夫妻性生活| 你懂的国产视频| 日韩一区在线播放| 免费观看av网站| 国产成人综合亚洲91猫咪| 激情婷婷综合网| 亚洲精选一区| 亚洲AV无码成人精品一区| 精品九九在线| 精品视频第一区| 国产美女精品视频免费播放软件| 国产成人精品免高潮费视频| 深夜福利在线观看直播| 337p亚洲精品色噜噜狠狠| 久久久久久无码午夜精品直播| 国产91精品一区二区麻豆网站 | 天堂av中文在线| 自拍偷拍亚洲精品| 免费一级在线观看播放网址| 精品日韩av一区二区| 国产乱子伦精品无码码专区| 欧美午夜精品一区| 久久精品国产成人av| av电影在线观看一区| 中文字幕55页| 国产一区在线不卡| 国模私拍视频在线观看| 男人的j进女人的j一区| 黄色一级二级三级| 中文精品视频| 久久www免费人成精品| 日本一区二区三区播放| 91精品久久久久久久久久另类 | 93在线视频精品免费观看| 清纯唯美一区二区三区| 国产欧美久久一区二区三区| 久久人人爽爽人人爽人人片av| 极品国产人妖chinesets亚洲人妖| 久久欧美在线电影| 黄色在线视频观看网站| 亚洲欧美日韩另类| 黄色av网址在线免费观看| 日韩精品视频在线免费观看| 天天色综合久久| 亚洲护士老师的毛茸茸最新章节 | 亚洲男人av在线| 日本aaa在线观看| 亚洲国产日韩精品在线| 欧美777四色影视在线 | 污污内射在线观看一区二区少妇| 成人午夜av影视| 国产a级黄色片| 91在线观看视频| 8x8x最新地址| 免费成人小视频| 福利视频999| 欧美综合二区| 日本黄色片一级片| 1024精品久久久久久久久| 欧美国产日韩激情| 欧美亚洲视频| www.激情小说.com| 国产美女在线精品| 一级黄色片毛片| 久久久精品综合| 青草影院在线观看| 一个色妞综合视频在线观看| 亚洲精品视频在线观看免费视频| 91高清视频在线| 国产熟女一区二区三区四区| 精品99999| 在线中文字幕网站| 欧美另类变人与禽xxxxx| 六月婷婷综合网| 欧美高清你懂得| 亚洲美女综合网| 亚洲男人7777| av片在线观看网站| 97超碰蝌蚪网人人做人人爽| 免费高清视频在线一区| 成人性教育视频在线观看| 亚州国产精品| 国产成人精品免费看在线播放| 国产专区一区| 丝袜制服一区二区三区| 国产91精品免费| 法国伦理少妇愉情| 亚洲最色的网站| 色婷婷久久综合中文久久蜜桃av| 日韩一区二区麻豆国产| 成人欧美一区| 久久久人成影片一区二区三区观看| 在线天堂资源| 97超级碰在线看视频免费在线看| 福利一区二区三区视频在线观看| 成人午夜电影免费在线观看| 欧美一级精品| 免费国产a级片| 国内精品国产三级国产a久久| 中文字幕av网址| 亚洲一区免费观看| 一卡二卡三卡在线观看| 日韩经典中文字幕在线观看| av在线电影播放| 青青草一区二区| 在线综合色站| 中文字幕一区二区三区精彩视频| 久久久成人网| 亚洲啪av永久无码精品放毛片| 亚洲欧美国产三级| 中文字幕一区二区在线视频| 日韩av影视综合网| 国产丝袜精品丝袜| 亚洲专区中文字幕| 国产成人久久精品一区二区三区| 日本不卡久久| 一区二区精品| 国产女主播在线播放| 中文字幕一区二区三区在线不卡 | 国产欧美精品国产国产专区| 日本少妇激情视频| 日韩欧美国产高清| 蜜臀av国内免费精品久久久夜夜| 国产欧美久久久久久| 综合伊思人在钱三区| 免费在线观看视频a| 国产.欧美.日韩| 黑人と日本人の交わりビデオ| 欧美亚一区二区| 国产小视频免费在线网址| 91极品视频在线| 牛牛精品成人免费视频| 久久国产精品精品国产色婷婷| 国产精品porn| 少妇搡bbbb搡bbb搡打电话| 亚洲乱码日产精品bd| a网站在线观看| 久热在线中文字幕色999舞| 偷拍自拍亚洲| 操bbb操bbb| 国产精品正在播放| 欧美日韩国产精品一区二区三区 | 蜜桃视频久久一区免费观看入口| 欧美成人黑人xx视频免费观看| 四虎影视国产精品| 日本xxx免费| 国产不卡视频一区| 国产小视频在线免费观看| 精品欧美一区二区三区| 神马一区二区三区| 欧美一级成年大片在线观看| 一道本一区二区三区| 色诱视频在线观看| 中文字幕在线不卡国产视频| 国产女人18毛片水18精| 欧美国产中文字幕| 日韩高清在线免费观看| 亚洲熟妇无码一区二区三区| 久久久不卡网国产精品二区| 中文字幕黄色av| 欧美日韩国产成人在线| 国产成人福利av| 欧美日韩第二页| 中文字幕一区免费在线观看| 北条麻妃一二三区| 欧美亚洲一级片| 国产精品久久久久久久久久10秀| 成年人在线观看视频免费| 亚洲精品成人悠悠色影视| 草久久免费视频| 在线观看国产精品91| a级大胆欧美人体大胆666| 欧美色欧美亚洲另类七区| 99久久综合| 国产午夜在线一区二区三区| 日本大香伊一区二区三区| 日本免费在线视频| 国产91在线高潮白浆在线观看| 日韩美女一区二区三区在线观看| 日本xxxx免费|