精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

搞強化學習還不了解AutoRL,牛津大學、谷歌等十余位學者撰文綜述

人工智能 機器學習 新聞
來自牛津大學、弗萊堡大學、谷歌研究院等機構的十余位研究者撰文綜述 AutoRL。

強化學習 (RL) 與深度學習的結合帶來了一系列令人印象深刻的成果,許多人認為(深度)強化學習提供了通向通用智能體的途徑。然而,RL 智能體的成功通常對訓練過程中的設計選擇高度敏感,可能需要繁瑣且容易出錯的手動調整。這使得將 RL 用于新問題具有挑戰(zhàn)性,同時也限制了 RL 的全部潛力。

在機器學習的許多其他領域,AutoML 已經(jīng)表明可以自動化此類設計選擇,并且在應用于 RL 時也產生了有希望的初步結果。然而,自動強化學習 (AutoRL) 不僅涉及 AutoML 的標準應用,還包括 RL 獨有的額外挑戰(zhàn),這使得研究者自然而然地產生了一些不同的方法。

AutoRL 已成為 RL 研究的一個重要領域,為從 RNA 設計到圍棋等游戲的各種應用提供了希望。由于 RL 中考慮的方法和環(huán)境具有多樣性,因此許多研究都是在不同的子領域進行的。來自牛津大學、弗萊堡大學、谷歌研究院等機構的十余位研究者撰文試圖統(tǒng)一 AutoRL 領域,并提供了通用分類法,該研究詳細討論了每個領域并提出未來研究人員可能感興趣的問題。

論文地址:https://arxiv.org/pdf/2201.03916.pdf

AutoRL 方法

強化學習理論上可以用于任何任務,包括世界模型未知的環(huán)境。然而,這種通用性也是有代價的,其最大的缺點就是智能體往往不能獲得環(huán)境的真實模型。如果智能體想在一個場景下使用模型,那它必須完全從經(jīng)驗中學習,這會帶來很多挑戰(zhàn)。智能體探索出來的模型和真實模型之間存在誤差,而這種誤差會導致智能體在學習到的模型中表現(xiàn)很好,但在真實的環(huán)境中表現(xiàn)得不好(甚至很差)。

該研究調查的目的是介紹 AutoRL 領域,AutoRL 可以應對各種挑戰(zhàn):一方面,RL 算法的脆弱性阻礙了其在新領域的應用,尤其是那些從業(yè)者缺乏大量資源來搜索最佳配置的領域。在許多情況下,對于完全不可見的問題,手動找到一組中等強度的超參數(shù)可能會非常昂貴。AutoRL 已被證明可以在這種情況下幫助解決重要問題,例如設計 RNA。另一方面,對于那些受益于更多計算的人來說,顯然增加算法的靈活性可以提高性能。著名的 AlphaGo 智能體已經(jīng)展示了這一點,該智能體通過使用貝葉斯優(yōu)化得到了顯著改進。

早在 1980 年代,AutoRL 算法就被證明是有效的。然而,最近 AutoML 的流行導致了更先進技術的新生應用。與此同時,最近元學習的流行導致了一系列旨在自動化 RL 過程的工作。

該論文試圖提供這些方法的分類,他們希望通過思想的交叉融合來開辟一系列未來的工作,同時也向 RL 研究人員介紹一套技術來提高他們的算法性能。該研究相信 AutoRL 在提高強化學習潛在影響方面發(fā)揮著重要作用,無論是在開放式研究和還是在現(xiàn)實應用中。

此外,該研究希望將對 AutoML 感興趣的研究人員吸引到 AutoRL 社區(qū),特別地,RL 具有非平穩(wěn)性(non-stationarity),因為智能體正在訓練的數(shù)據(jù)是當前策略的函數(shù)。此外,該研究還介紹了 AutoRL 針對特定 RL 問題的環(huán)境和算法設計。

該研究調查了 AutoRL 社區(qū)以及技術等內容。一般來說,AutoRL 方法大多數(shù)都可以通過組合內部循環(huán)和外部循環(huán)組織起來。每個循環(huán)都可以通過黑箱或基于梯度的方法進行優(yōu)化,然而外部循環(huán)的梯度和內部循環(huán)的黑箱不能組合在一起,因為內部循環(huán)黑箱設置將使梯度不可用,如表 2 和圖 2 所示:

如下表 3 所示,該研究按照大類總結了 AutoRL 方法的分類,方法分類將體現(xiàn)在第四章的每一小節(jié)

隨機 / 網(wǎng)格搜索驅動方法

該研究首先討論了最簡單的方法:隨機搜索和網(wǎng)格搜索。隨機搜索從搜索空間中隨機采樣超參數(shù)配置,而網(wǎng)格搜索將搜索空間劃分為固定的網(wǎng)格點,并對其進行評估。由于其簡單性,隨機搜索和網(wǎng)格搜索可用于選擇超參數(shù)列表,評估超參數(shù)并選擇最佳配置。事實上,網(wǎng)格搜索仍然是 RL 中最常用的方法,網(wǎng)格搜索在絕大多數(shù)情況下都會調整超參數(shù),但不應將其視為最有效的方法。但是這些經(jīng)典方法沒有考慮優(yōu)化問題的潛在非平穩(wěn)性,下圖 3 描述了這個問題:

提高隨機搜索性能的一種常見方法是使用 Hyperband,這是一種用于超參數(shù)優(yōu)化的配置評估。它專注于通過自適應資源分配和早停(early-stopping)來加速隨機搜索。特別的,Hyperband 使用「Successive Halving」將預算分配給一組超參數(shù)配置。Zhang 等人使用隨機搜索和 Hyperband 來調整其 MBRL 算法的超參數(shù)。

貝葉斯優(yōu)化

貝葉斯優(yōu)化(Bayesian Optimization ,BO)是迄今為止最流行的方法之一,主要用于工業(yè)應用和各種科學實驗。對于 RL 應用程序,BO 最突出的用途之一是調整 AlphaGo 超參數(shù),其中包括蒙特卡洛樹搜索 (MCTS) 超參數(shù)和時間控制設置。這導致 AlphaGo 在自我對弈中的勝率從 50% 提高到 66.5%。圖 4 展示了 RL 案例中貝葉斯優(yōu)化的一般概念:

演化算法

演化算法被廣泛應用于各種優(yōu)化任務,其機制如圖 5 所示:

演化算法經(jīng)常被用于搜索 RL 算法的超參數(shù)。Eriksson 等人使用實數(shù)遺傳算法 (GA),通過種群中每個個體的基因編碼 RL 算法的超參數(shù),以調整 SARSA 超參數(shù),研究者將該方法應用于控制移動機器人。Cardenoso Fernandez 和 Caarls 使用 GA 在簡單設置中調整 RL 算法的超參數(shù),并通過結合自動重啟策略以擺脫局部最小值,取得了良好的性能。Ashraf 等人使用 Whale 優(yōu)化算法(WOA),其靈感來自座頭鯨的狩獵策略,在各種 RL 任務中優(yōu)化 DDPG 超參數(shù)以提高性能。

用于在線調優(yōu)的元梯度

元梯度提供了一種替代方法來處理 RL 超參數(shù)的非平穩(wěn)性。元梯度公式的靈感來自元學習方法,例如 MAML,它使用梯度優(yōu)化了內部和外部循環(huán)。特別是,元梯度方法將其(可微分)超參數(shù)的子集指定為元參數(shù) η。在內部循環(huán)中,智能體使用固定的 η 進行優(yōu)化,采用梯度 step 來最小化(通常是固定的)損失函數(shù)。在外部循環(huán)中,通過采取梯度 step 來優(yōu)化 η,以最小化外部損失函數(shù)。內部和外部損失函數(shù)的每個特定選擇都定義了一個新的元梯度算法。

黑盒在線調優(yōu)

PBT 和元梯度的優(yōu)勢在于動態(tài)調整超參數(shù)的能力,然而,這并不是唯一的方法。事實上,研究者已經(jīng)考慮了各種其他方法,從黑盒方法到在線學習啟發(fā)方法。本節(jié)重點介紹在超參數(shù)不是可微的設置中動態(tài)適應的單智能體方法。

自適應選擇超參數(shù)的方法自 20 世紀 90 年代以來一直很重要。Sutton 和 Singh (1994) 提出了 TD 算法中自適應加權方案的三種替代方法,Kearns 和 Singh (2000) 推導出時序差分算法誤差上限,并使用這些邊界推導出 λ 的時間表。Downey 和 Sanner (2010) 使用貝葉斯模型平均來為 TD 方法選擇 λ bootstrapping 超參數(shù)。最近, White (2016) 提出了 λ-greedy 來適應 λ 作為狀態(tài)的函數(shù),并實現(xiàn)近似最優(yōu)的偏差 - 方差權衡,Paul 等人 (2019) 提出了 HOOF,它使用帶有非策略數(shù)據(jù)的隨機搜索來周期性地為策略梯度算法選擇新的超參數(shù)。

環(huán)境設計

環(huán)境設計是強化學習智能體自動學習的重要組成部分。從課程學習到合成環(huán)境學習和生成,到將課程學習與環(huán)境生成相結合,這里的目標是加快機器學習智能體通過環(huán)境設計的學習速度。如圖 7 所示:

混合方法

不可避免的是,一些方法不屬于單一類別。事實上,許多方法都試圖利用不同方法的優(yōu)勢,可稱之為混合方法。在該研究中,這些混合方法被定義為使用表 3 中不止一類技術的方法,例如 BOHB、DEHB 等。

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2020-04-20 10:55:57

大數(shù)據(jù)人工智能技術

2021-03-23 13:49:21

人工智能機器學習

2019-10-30 09:25:58

NginxApache 服務器

2024-09-10 15:10:00

智能強化學習框架

2022-03-28 13:14:50

機器學習語言訓練AI

2024-07-10 13:20:45

2024-05-21 09:41:15

3DLLM

2024-10-12 17:14:12

2017-07-25 16:04:31

概念應用強化學習

2021-07-28 15:35:58

谷歌神經(jīng)網(wǎng)絡AI

2024-02-21 12:20:00

AI訓練

2017-03-27 14:39:10

互聯(lián)網(wǎng)

2019-12-11 15:36:23

AI 數(shù)據(jù)人工智能

2019-01-14 14:41:27

Mysql存儲觸發(fā)器

2024-06-05 19:45:08

2022-09-30 11:55:36

AI算力

2022-04-11 11:37:13

AI研究NLP

2024-12-23 14:30:00

AI模型數(shù)據(jù)

2020-09-16 07:59:40

數(shù)組內存

2020-11-30 06:27:35

Java泛型Object
點贊
收藏

51CTO技術棧公眾號

中文字幕午夜精品一区二区三区| 午夜裸体女人视频网站在线观看| 黄网站免费久久| 欧美成在线视频| 黄色国产在线观看| 国产亚洲精品精品国产亚洲综合| 亚洲免费电影在线| 国产女人水真多18毛片18精品| 日韩精品一区二区亚洲av| 99精品视频在线观看免费播放| 精品欧美黑人一区二区三区| 日韩欧美黄色大片| 欧美大胆的人体xxxx| 久久久久久久久久看片| 91入口在线观看| 探花视频在线观看| 黄色av日韩| 深夜成人在线观看| 亚洲乱码国产乱码精品精大量| 欧美一区二区三区婷婷| 黑人巨大精品欧美一区二区三区 | 亚洲熟妇av乱码在线观看| 欧美日韩视频一区二区三区| 在线看片第一页欧美| 韩国三级在线看| 欧美黑粗硬大| 色中色一区二区| 91黄色在线看| a级片国产精品自在拍在线播放| 久久综合丝袜日本网| 99国精产品一二二线| 中文字幕人妻一区二区三区视频| 国产一区观看| 久久国产精品久久久久久| 先锋影音av在线| 偷拍自拍一区| 亚洲国产精品高清久久久| 精品人妻一区二区三| 国产69精品久久| 在线观看免费亚洲| 亚洲熟妇av一区二区三区 | 2020久久国产精品| 日本特黄一级片| 欧美激情日韩| 久久亚洲国产精品成人av秋霞| 色综合99久久久无码国产精品| 亚洲盗摄视频| 日韩毛片中文字幕| 欧美精品欧美极品欧美激情| 国产精品2023| 精品国产91洋老外米糕| 激情综合激情五月| 成人自拍在线| 亚洲成人999| 看全色黄大色黄女片18| eeuss国产一区二区三区四区| 日韩视频免费观看高清完整版| 五月天婷婷亚洲| 在线观看亚洲精品福利片| 欧美三级电影精品| 男生操女生视频在线观看| 亚洲精品自拍| 日韩欧美国产综合| 国产麻豆剧传媒精品国产av| 国产成人在线中文字幕| 日韩av在线免费观看一区| 亚洲成人日韩在线| 精品久久久久久久久久久下田| 亚洲另类欧美自拍| 久久视频精品在线观看| 999视频精品| 欧美成人合集magnet| avove在线播放| 亚洲精品综合| 欧美与黑人午夜性猛交久久久| 久久精品视频7| 日本伊人精品一区二区三区观看方式 | 国产精品国产精品国产专区不卡| 免费国产羞羞网站视频| 91丨porny丨蝌蚪视频| 日韩欧美在线观看强乱免费| 麻豆tv入口在线看| 亚洲成人激情自拍| 亚洲免费av一区二区三区| 国产精品色婷婷在线观看| 精品国产乱码久久久久久久| 亚洲AV无码国产成人久久| 久久中文字幕av| 欧美激情欧美激情在线五月| 日日噜噜噜噜人人爽亚洲精品| 久久精品国产**网站演员| 国产精品美女黄网| 草碰在线视频| 亚洲一二三区在线观看| 九九热免费精品视频| 日韩区一区二| 伊人成人开心激情综合网| 九九九在线视频| 噜噜噜91成人网| 亚洲xxx自由成熟| 欧美日韩国产综合视频| 亚洲人妖av一区二区| 中文字幕日本最新乱码视频| 日本午夜免费一区二区| 日韩精品在线第一页| 99久久久免费精品| 欧美一级二区| 97se亚洲综合| yw在线观看| 亚洲成人一区二区| 天天操天天干天天做| 日韩成人动漫在线观看| 中文字幕不卡在线视频极品| 乱老熟女一区二区三区| 亚洲制服少妇| 国产精品区一区二区三含羞草| yiren22亚洲综合伊人22| 香蕉影视欧美成人| 肉丝美足丝袜一区二区三区四| 精品国产一级毛片| 欧美一级免费看| 精品人妻一区二区三区三区四区| 中文字幕av不卡| 成人黄色片视频| 美女av一区| 久久久av免费| 中国女人一级一次看片| 久久综合九色综合97婷婷女人| 国产片侵犯亲女视频播放| 99精品美女视频在线观看热舞| 一区二区欧美在线| 综合激情网五月| 成人免费毛片嘿嘿连载视频| 青青草影院在线观看| 亚洲成a人片777777久久| 亚洲视频视频在线| 久久国产视频精品| av成人老司机| 一区二区传媒有限公司| 精品国内亚洲2022精品成人| 久久久免费观看| xxxx18国产| 一区二区三区欧美亚洲| 国产毛片久久久久久| 88国产精品视频一区二区三区| 国产精品欧美激情在线播放| www日韩tube| 欧美三片在线视频观看| 国产精品久久久久久成人| 免费在线欧美视频| 亚洲欧美精品| 伊人久久大香线蕉综合影院首页| 国产一区二区三区三区在线观看| 成人h动漫精品一区二区下载| 久久奇米777| 成人性做爰aaa片免费看不忠| 国产毛片一区二区三区| 国产精品扒开腿做爽爽爽男男| 国产香蕉视频在线看| 欧美亚洲综合色| 亚洲色图100p| 国产精品一级片| 久久手机在线视频| 啪啪激情综合网| 国产国语videosex另类| av片在线免费观看| 欧美一区二区三区在线视频 | 麻豆一区产品精品蜜桃的特点| 蜜臀精品久久久久久蜜臀| 午夜老司机精品| 四虎国产精品免费久久| 欧美裸体xxxx极品少妇| 欧美在线精品一区二区三区| 欧美日韩免费看| 日本美女bbw| 国产呦萝稀缺另类资源| 精品一区二区三区无码视频| 私拍精品福利视频在线一区| 国产精品白嫩初高中害羞小美女 | 俺要去色综合狠狠| 成人午夜小视频| a天堂资源在线| 亚洲一区二区精品| h片在线免费看| 欧美性猛交xxxx久久久| 992在线观看| 丁香婷婷综合色啪| 国产野外作爱视频播放| 欧美福利电影在线观看| 欧美久久电影| 久久综合给合| 国产成+人+综合+亚洲欧洲 | 亚洲瘦老头同性70tv| 国产欧美精品久久久| av免费不卡国产观看| 在线午夜精品自拍| 少妇一区二区三区四区| 欧美日韩免费视频| 日本三级一区二区| 亚洲视频在线一区二区| a毛片毛片av永久免费| 国产乱国产乱300精品| 国产一级片黄色| 欧美三级不卡| 中文有码久久| 国产欧美日韩视频在线| 豆国产97在线| 91精品视频一区二区| 91精品国产色综合| av片在线观看永久免费| 亚洲视频axxx| 人妻无码中文字幕| 在线不卡一区二区| 一区二区乱子伦在线播放| 午夜精品免费在线| 久久成人在线观看| 国产精品电影一区二区| 色哟哟精品观看| 成人av片在线观看| 国产九九九视频| 麻豆成人免费电影| 国产成人综合一区| 亚洲一区网站| 日本国产在线播放| 国产伊人精品| 91大学生片黄在线观看| 999国产精品| 亚洲免费久久| 不卡日本视频| 欧美一区二区三区在线免费观看| gogo人体一区| 99视频网站| 日韩有吗在线观看| 91在线高清免费观看| 亚洲免费一区| 国产精品视频一区二区三区四 | 午夜久久tv| 中文字幕の友人北条麻妃| 亚洲精品极品少妇16p| 三年中文高清在线观看第6集| 欧美综合一区| 一区一区视频| 国产精品久久久久一区二区三区厕所 | 中文字幕中文字幕在线一区| 性猛交娇小69hd| 久久精品一区二区三区不卡牛牛| 黑人巨大精品欧美| 久久久噜噜噜久噜久久综合| 狠狠人妻久久久久久综合蜜桃| 99这里只有精品| 国产精品伦子伦| 91丨porny丨户外露出| 91精品人妻一区二区| 91最新地址在线播放| 9.1成人看片| 国产日韩欧美精品一区| 丁香六月激情综合| 亚洲欧洲无码一区二区三区| 日本中文字幕免费在线观看| 亚洲精品久久久久久国产精华液| 超碰手机在线观看| 亚洲一二三四久久| 中文字幕亚洲乱码熟女1区2区| 色综合一区二区| 伊人成人在线观看| 欧美日韩精品一区二区天天拍小说| 国产精品高潮呻吟久久久| 欧美一区二区视频免费观看| 欧美一区二区三区黄片| 精品亚洲一区二区三区| 国产在线资源| 美日韩精品免费观看视频| 黄色在线观看视频网站| 日韩美女主播视频| 91国产一区| 九色一区二区| 日韩成人精品一区| 免费日韩在线观看| 国产一级一区二区| 色91精品久久久久久久久| 国产成人亚洲精品青草天美| 最近中文字幕无免费| 国产精品看片你懂得| 免费中文字幕在线观看| 在线观看精品一区| www.97超碰| 在线精品高清中文字幕| 最新国产在线拍揄自揄视频| 欧美一性一乱一交一视频| 久久国内精品| 国产一区免费在线观看| 欧美中文一区二区| 欧美黄网在线观看| 日韩成人午夜精品| 在线观看一区二区三区视频| 久久欧美中文字幕| 久久久久久久久久99| 91国产成人在线| 亚洲AV无码一区二区三区性 | 成人免费看片网址| 成久久久网站| 蜜桃传媒一区二区三区| 国内精品久久久久影院一蜜桃| 全黄一级裸体片| 亚洲一区二区av在线| 在线观看免费视频a| 日韩av在线免费观看一区| av在线下载| 国产精品永久免费观看| 蜜桃视频欧美| 欧日韩免费视频| 国产麻豆91精品| 永久免费观看片现看| 欧美性xxxxxx| 日本精品一区二区在线观看| 色偷偷9999www| 99精品在免费线偷拍| 精品伦理一区二区三区| 欧美特黄一区| 亚洲精品在线网址| 国产精品久久久久婷婷二区次| www.com国产| 日韩电影网在线| 一卡二卡三卡四卡五卡| 国产免费黄视频| 中文字幕一区二区三区人妻四季 | 日韩国产一区二| 91精品国产色综合久久| 久久精精品视频| 日韩欧美大片在线观看| 高潮按摩久久久久久av免费| 国产欧美日韩在线观看| 久久久天堂国产精品女人| 日本中文字幕精品—区二区| 欧洲免费在线视频| 亚洲日本黄色| 亚洲成人精品视频在线观看| 永久免费看av| 人妻一区二区三区四区| 91黑人精品一区二区三区| 欧美系列精品| 一区二区三区在线视频观看 | 蜜桃免费在线| 久久国产精品久久w女人spa| 精品欧美一区二区久久| 鲁鲁视频www一区二区| 国产又大又黑又粗免费视频| 一区二区三区欧洲区| 日韩视频中午一区| 亚洲第一页av| 99在线精品视频在线观看| 国产精品91av| 亚洲国产成人av好男人在线观看| 丁香六月婷婷综合| 亚洲美女www午夜| 蜜臀国产一区| 亚洲国产成人不卡| 久久99精品一区二区三区三区| 亚洲综合图片一区| 欧美一区二区三区公司| 日韩三级免费| 国产中文一区二区| 午夜亚洲伦理| 男人天堂资源网| 这里只有精品电影| 91福利在线免费| 久久久久资源| 午夜一区在线观看| 欧美色电影在线| 最新黄网在线观看| 久久av一区二区三区漫画| 男人天堂欧美日韩| 永久免费未视频| 欧美videossexotv100| 性欧美freesex顶级少妇| 亚洲精品第一区二区三区| 国产美女在线观看一区| 国产污视频在线看| 国产亚洲欧美日韩精品| 国产一区二区三区免费在线| 男女啪啪免费视频网站| 日本一区二区视频在线观看| 国产免费的av| 91av网站在线播放| 四虎国产精品免费观看| 涩视频在线观看| 91久久免费观看| 欧美草逼视频| 日本最新一区二区三区视频观看| 国内精品在线播放| 欧美性猛交bbbbb精品| xxxx性欧美| 亚洲人和日本人hd| 亚洲高清av一区二区三区| 福利视频第一区| av免费在线免费| 日本一区视频在线| 精品无码三级在线观看视频| 久久黄色精品视频| 欧美大成色www永久网站婷|