精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

深度策略梯度算法是真正的策略梯度算法嗎?

開發 開發工具 機器學習 算法
來自 MIT 和 Two Sigma 的研究者重新檢驗了深度強化學習方法的概念基礎,即目前深度強化學習的實踐多大程度上反映了其概念基礎框架的原則?該研究重點探討深度策略梯度方法。

近期深度強化學習取得了很多成功,但也存在局限性:缺乏穩定性、可復現性差。來自 MIT 和 Two Sigma 的研究者重新檢驗了深度強化學習方法的概念基礎,即目前深度強化學習的實踐多大程度上反映了其概念基礎框架的原則?該研究重點探討深度策略梯度方法。

[[250025]]

深度強化學習是現代機器學習最為人所知的成就,它造就了 AlphaGO 這樣廣為人知的應用。對很多人來說,該框架展示了機器學習對現實世界的影響力。但是,不像當前的深度(監督)學習框架,深度強化學習工具包尚未支持足夠的工程穩定性。的確,近期的研究發現當前***的深度強化學習算法對超參數選擇過于敏感,缺乏穩定性,且可復現性差。

這表明或許需要重新檢驗深度強化學習方法的概念基礎,準確來說,該研究要解決的重要問題是:目前深度強化學習的實踐多大程度上反映了其概念基礎框架的原則?

該論文重點研究深度策略梯度方法,這是一種廣泛使用的深度強化學習算法。研究目標是探索這些方法的當前***實現多大程度上體現了通用策略梯度框架的關鍵基元。

該論文首先檢驗重要的深度策略梯度方法近端策略優化(PPO)。研究發現 PPO 的性能嚴重依賴于非核心算法的優化,這表明 PPO 的實際成功可能無法用其理論框架來解釋。

這一觀察促使研究者進一步檢查策略梯度算法及其與底層框架之間的關系。研究者對這些算法在實踐中展示的關鍵強化學習基元進行了細致地檢查。具體而言,研究了:

  • 梯度估計(Gradient Estimation):研究發現,即使智能體的獎勵有所提升,用于更新參數的梯度估計通常與真實梯度不相關。
  • 價值預測(Value Prediction):實驗表明價值網絡能夠訓練并成功解決監督學習任務,但無法擬合真正的價值函數。此外,將價值網絡作為基線函數僅能稍微降低梯度估計的方差(但能夠顯著提升智能體的性能)。
  • ***化 Landscape:研究發現***化 Landscape 通常無法反映其真正獎勵的潛在 Landscape,后者在相關的采樣方案(sample regime)中通常表現不佳。
  • 置信域:研究發現深度策略梯度算法有時會與置信域產生理論沖突。實際上,在近端策略優化中,這些沖突來源于算法設計的基礎問題。

研究者認為以上問題以及我們對相關理論知識的缺乏是深度強化學習脆弱性和低復現性的主要原因。這表明構建可信賴的深度強化學習算法要求拋棄之前以基準為中心的評估方法,以便多角度地理解這些算法的非直觀行為。

論文:Are Deep Policy Gradient Algorithms Truly Policy Gradient Algorithms?

論文:Are Deep Policy Gradient Algorithms Truly Policy Gradient Algorithms?

論文鏈接:https://arxiv.org/pdf/1811.02553.pdf

摘要:本文研究了深度策略梯度算法對促進其發展的底層概念框架的反映程度。我們基于該框架的關鍵要素對當前***方法進行了精細分析,這些方法包括梯度估計、價值預測、***化 landscape 和置信域分析。我們發現,從這個角度來看,深度策略梯度算法的行為通常偏離其概念框架的預測。我們的分析開啟了鞏固深度策略梯度算法基礎的***步,尤其是,我們可能需要拋棄目前以基準為中心的評估方法。

檢查深度策略梯度算法的基元

1. 梯度估計的質量

策略梯度方法的核心前提是恰當目標函數上的隨機梯度上升帶來優秀的策略。具體來說,這些算法使用(代理)獎勵函數的梯度作為基元:

梯度

這些方法的理論背后的底層假設是,我們能夠獲取對梯度的合理估計,即我們能夠使用有限樣本(通常大約 103 個)的經驗平均值準確估計上面的期望項。因此研究者對實踐中該假設的有效性很感興趣。

我們計算出的梯度估計準確度如何?為了解決該問題,研究者使用了評估估計質量最自然的度量標準:經驗方差(empirical variance)和梯度估計向「真正」梯度的收斂情況。

梯度

圖 2

圖 2:梯度估計的經驗方差在 MuJoCo Humanoid 任務中可作為狀態-動作對關于數量的函數,x 軸為狀態-動作對,y 軸是梯度估計的經驗方差。

圖 3

圖 3:MuJoCo Humanoid 任務中梯度估計向「真正」期望梯度的收斂情況。

2. 價值預測

策略梯度算法

圖 4

圖 4:對于訓練用于解決 MuJoCo Walker2d-v2 任務的智能體,在留出狀態-動作對上的價值預測質量(度量指標為平均相對誤差 MRE)。

3. 探索***化 landscape

策略梯度算法的另一個基礎假設是對策略參數使用一階更新可以帶來性能更好的策略。因此接下來我們就來看該假設的有效性。

圖 6:在 Humanoid-v2 MuJoCo 任務上,TRPO 的真正獎勵函數 Landscape。

圖 8:在 Humanoid-v2 MuJoCo 任務上,PPO 的真正和代理獎勵函數 Landscape。

4. 置信域的優化

圖 9

圖 9:對于訓練用于解決 MuJoCo Humanoid 任務的智能體,每一步的平均獎勵、***速率(maximum ratio)、平均 KL 和 maximum versus mean KL 情況。

為深度強化學習奠定更好的基礎

深度強化學習算法根植于基礎穩固的經典強化學習框架,在實踐中展示了巨大的潛力。但是,該研究調查顯示,該底層框架無法解釋深度強化學習算法的很多行為。這種分裂妨礙我們深入理解這些算法成功(或失敗)的原因,而且成為解決深度強化學習所面臨重要挑戰的極大障礙,比如廣泛的脆弱性和薄弱的可復現性。

為了解決這種分類,我們需要開發更加貼近底層理論的方法,或者構建能夠捕捉現有策略梯度算法成功原因的理論。不管哪種情況,***步都要準確指出理論和實踐的分岔點。這部分將分析和鞏固前一章的發現和結果。

  • 梯度估計。上一章的分析表明策略梯度算法使用的梯度估計的質量很差。即使智能體還在提升,此類梯度估計通常與真正的梯度幾乎不相關(見圖 3),彼此之間也不相關(見圖 2)。這表明遵循現有理論需要算法獲取更好的梯度估計。或者,我們需要擴展理論,以解釋現代策略梯度算法為什么在如此差的梯度估計情況下還能取得成功。
  • 價值預測。研究結果說明兩個關鍵問題。一,盡管價值網絡成功解決了接受過訓練的監督學習任務,但它無法準確建模「真正」的價值函數。二,將該價值網絡作為基線會降低梯度方差。但與「真」價值函數提供的方差減少程度對比來說則太少了。這些現象促使我們發問:建模真價值函數的失敗是在所難免的嗎?價值網絡在策略梯度方法中的真正作用是什么?
  • ***化 Landscape。由上一章可知,現代策略梯度算法的***化 Landscape 通常無法反映底層真正獎勵的 Landscape。事實上,在策略梯度方法使用的采樣方案中,真獎勵的 Landscape 有噪聲,且代理獎勵函數通常具備誤導性。因此我們需要深入理解為什么這些方有這么問題還能成功,更寬泛一點來看,如何更準確地展現真獎勵函數的 Landscape。
  • 置信域近似。該研究的發現表明策略需要局部類似可能存在大量原因,包括帶噪聲的梯度估計、較差的基線函數和代理 Landscape 未對齊。底層理論的置信域優化不僅未察覺到這些因素,將該理論轉換成高效算法也非常困難。因此深度策略梯度方法放松對置信域的約束,這使得其性能難以理解和分析。因此,我們需要一種更加嚴格地執行置信域的技術,或者對于置信域放松的更嚴謹理論。

【本文是51CTO專欄機構“機器之心”的原創譯文,微信公眾號“機器之心( id: almosthuman2014)”】

戳這里,看該作者更多好文

責任編輯:趙寧寧 來源: 51CTO專欄
相關推薦

2023-06-25 11:30:47

可視化

2017-07-25 12:59:10

機器學習梯度下降算法

2023-03-23 16:30:53

PyTorchDDPG算法

2023-03-06 16:07:19

梯度提升算法機器學習

2022-08-05 11:01:18

梯度法MARLPG

2017-05-08 08:39:12

梯度算法Octave機器學習

2021-01-21 12:13:23

算法梯度下降網絡

2022-06-08 19:10:27

MarcusLeCun算法

2017-06-29 09:15:36

推薦算法策略

2019-04-10 19:05:00

云計算云端遷移

2017-04-24 08:35:09

深度學習神經網絡合成梯度

2016-11-28 09:24:08

Python內存技巧

2022-01-25 11:11:27

智能汽車技術

2024-08-08 16:17:29

2011-05-25 19:53:45

SEO

2011-11-09 09:53:40

算法

2025-10-27 08:44:00

2016-06-15 10:35:59

云計算

2011-07-22 09:31:11

2023-02-03 17:37:08

點贊
收藏

51CTO技術棧公眾號

中文字幕亚洲乱码熟女1区2区| 亚洲欧美综合视频| av在线电影院| 韩国av一区二区三区在线观看| 欧美成aaa人片免费看| 26uuu国产| 456亚洲精品成人影院| 中文字幕中文乱码欧美一区二区| 99精品99久久久久久宅男| 成人免费区一区二区三区| 精品国产乱码久久久| 欧美一卡二卡在线观看| 91视频最新入口| 色三级在线观看| 成人一区在线观看| 国产精品国产三级国产专播精品人| 蜜桃av.com| 天堂俺去俺来也www久久婷婷| 欧美日韩成人在线| av免费观看国产| 91涩漫在线观看| 成人高清免费观看| 国产精品第一第二| 久久在线视频精品| 日韩av密桃| 亚洲精品国产精品国自产观看浪潮| 亚洲高清在线免费观看| 国精产品一区一区三区mba下载| 久久精品欧美一区二区三区不卡 | 色综合666| 亚洲国产中文字幕在线| 奇米精品一区二区三区在线观看 | 欧美黄色免费看| 国产一区二区三区四区五区传媒| 欧美成人a∨高清免费观看| 男女视频一区二区三区| av在线加勒比| 亚洲毛片av在线| 色综合影院在线观看| 欧美一区二区黄片| 国产成人精品三级| 成人网中文字幕| 国产免费www| 在线视频亚洲| 亚洲91精品在线| 男女免费视频网站| 欧美一区成人| 久热99视频在线观看| www.日本高清视频| 久久av中文| 精品视频一区在线视频| 人妻激情偷乱频一区二区三区| 精品国产一区二区三区性色av | 精品久久久久久久免费人妻| 白白色在线观看| 亚洲精品自拍动漫在线| 99久re热视频精品98| 欧美三级黄网| 国产精品久久久久久久浪潮网站| 无遮挡亚洲一区| 成人好色电影| 亚洲国产精品激情在线观看| 欧美重口乱码一区二区| 国产高清在线看| 国产香蕉久久精品综合网| 欧美精品国产精品久久久| 人操人视频在线观看| 2020国产精品自拍| 精品视频第一区| 欧美偷拍视频| 国产免费观看久久| 一区二区精品在线| 麻豆网站在线看| 亚洲欧美乱综合| 久久国产精品免费观看| 女同一区二区免费aⅴ| 亚洲综合在线五月| a级黄色一级片| 456亚洲精品成人影院| 欧美三区在线视频| 97人人模人人爽人人澡| 国产丝袜一区| 国产视频精品久久久| 先锋影音av在线| 国产精品久久久久久久久妇女| 日韩在线观看免费高清完整版| 欧美第一页在线观看| 国产中文一区| 青青精品视频播放| 亚洲最大成人av| 国内精品免费在线观看| 国产精品swag| 欧美孕妇孕交| 亚洲欧美激情一区二区| 草草视频在线免费观看| 欧美黄色三级| 日韩视频中午一区| 全黄一级裸体片| 午夜av一区| 91av视频在线观看| 91久久久久国产一区二区| 高清成人在线观看| 欧美日韩在线播放一区二区| av片在线观看免费| 色婷婷综合五月| 国产九九九视频| 精品一区欧美| 久久天天躁夜夜躁狠狠躁2022| 日本网站在线免费观看| 麻豆成人av在线| 国产精品视频一区二区三区经| 成人亚洲综合天堂| 午夜久久久久久久久| 特黄视频免费观看| 亚洲人成亚洲精品| 欧美国产日韩一区二区| 久久这里只有精品9| 成人久久久精品乱码一区二区三区| 午夜精品福利一区二区| 成人免费网站观看| 日韩视频免费观看高清完整版在线观看 | www欧美com| 日韩精品国产欧美| 久久久99爱| 欧洲中文在线| 91超碰这里只有精品国产| 无码一区二区三区在线| 激情综合亚洲| 114国产精品久久免费观看| 成av人电影在线观看| 欧美日韩国产精品专区| 99riav国产精品视频| 97偷自拍亚洲综合二区| 国产精品美腿一区在线看| 日色在线视频| 欧美午夜电影在线| 久久久久9999| 亚洲三级视频| 国产成人av一区二区三区| 精品孕妇一区二区三区| 欧美在线|欧美| 国产在线观看h| 免费在线亚洲欧美| 黑人另类av| 1024在线看片你懂得| 日韩精品一区在线观看| 日韩黄色免费观看| 国产精品一品视频| 欧美日韩dvd| 精品午夜视频| 欧美精品在线视频观看| 国产女人18毛片水18精| 亚洲精品va在线观看| 想看黄色一级片| 99久久这里只有精品| 国产精品一区二区性色av | 一本色道久久综合亚洲| 国产精品私人自拍| 亚洲欧美日韩综合网| 久久网站免费观看| 国产精品一香蕉国产线看观看| 国产爆初菊在线观看免费视频网站 | 成人性生活视频免费看| 日韩影视高清在线观看| 日韩av黄色在线观看| 国产高清美女一级毛片久久| 欧美色成人综合| 裸体武打性艳史| 粉嫩av一区二区三区在线播放| 亚洲精品蜜桃久久久久久| 菁菁伊人国产精品| 日韩av电影手机在线观看| av播放在线观看| 日韩午夜激情av| 中文字幕亚洲高清| 国产女人aaa级久久久级| 日韩视频在线观看一区二区三区| 欧美午夜在线视频| 久久精品美女| jizz久久久久久| 欧美日本高清视频| 欧美成人免费| 这里只有精品99re| 国产手机在线视频| 国产农村妇女毛片精品久久麻豆| 激情久久综合网| 99精品国产在热久久| 亚洲成人一区二区三区| 视频二区欧美| 国产成人精品视频在线观看| а天堂中文在线官网| 日韩av在线一区二区| jizz国产在线| 亚洲一区二区美女| 蜜臀久久99精品久久久久久| 丁香啪啪综合成人亚洲小说| 日韩中文字幕二区| 国产精品大片免费观看| 清纯唯美一区二区三区| 麻豆国产一区二区三区四区| 欧美一区视频在线| 国产激情在线| 亚洲一品av免费观看| 国产高潮在线观看| 91极品视觉盛宴| 久草精品视频在线观看| 国产精品少妇自拍| 中国xxxx性xxxx产国| 欧美aaaaaa午夜精品| 久久久久免费看黄a片app| 97久久视频| 蜜桃日韩视频| 嗯用力啊快一点好舒服小柔久久| 国产精品丝袜高跟| 国产资源在线观看入口av| 久久成人精品视频| av在线播放网站| 日韩av最新在线观看| av无码精品一区二区三区宅噜噜| 91国产免费观看| 精品欧美一区二区三区免费观看| 一区二区三区中文字幕精品精品| 少妇愉情理伦三级| 久久久亚洲欧洲日产国码αv| 第一页在线视频| 精品一区二区三区免费观看| 日韩黄色片视频| a91a精品视频在线观看| 日本免费a视频| 欧美亚洲不卡| 日韩在线视频在线| 综合久久一区| 日本丰满少妇黄大片在线观看| 成人久久久久| 午夜精品亚洲一区二区三区嫩草| 秋霞影视一区二区三区| 精品产品国产在线不卡| 九九热播视频在线精品6| 国产66精品久久久久999小说| 久久中文字幕一区二区| 成人中文字幕+乱码+中文字幕| 九九久久国产| 成人免费观看网址| 四虎国产精品免费久久| 国产精品自拍网| 日韩黄色在线| 成人在线视频网站| 国产精品视频一区视频二区| 成人免费午夜电影| 国产精品一区二区三区www| 91青草视频久久| 日韩精品一区二区三区中文字幕| 91在线观看网站| youjizzjizz亚洲| 狠狠色综合色区| 精品在线手机视频| 亚洲精品日韩在线观看| 999久久久精品国产| 日韩不卡视频一区二区| 欧美精品网站| 国产综合av在线| 久久精品毛片| www.超碰97.com| 国产成人h网站| theav精尽人亡av| 国产嫩草影院久久久久| www.xxxx日本| 五月天婷婷综合| 波多野结衣理论片| 欧美人狂配大交3d怪物一区| 精品国产99久久久久久宅男i| 日韩欧美高清一区| 性感美女一级片| 在线日韩第一页| a在线免费观看| 欧美一级淫片aaaaaaa视频| 成人不卡视频| 91手机在线视频| 久久超碰99| 青青草免费在线视频观看| 国产精品视频| 做a视频在线观看| 国产999精品久久| 欧美 日韩 成人| 中文字幕亚洲在| 日本三级小视频| 欧美人伦禁忌dvd放荡欲情| 刘玥91精选国产在线观看| 国产一区二区三区在线免费观看| 久久bbxx| 欧美一级电影久久| 精品一区二区三区在线观看视频 | 国产永久精品大片wwwapp| 日本一区二区免费高清视频| 亚洲深夜影院| www.久久久久久久久久久| www久久精品| 国内偷拍精品视频| 欧美午夜片在线看| 天天操天天插天天射| 久久精品国产69国产精品亚洲| 高清在线视频不卡| 91亚洲一区精品| 精品无人区麻豆乱码久久久| 久久手机在线视频| 看国产成人h片视频| 亚洲狠狠婷婷综合久久久久图片| 亚洲女人小视频在线观看| 无码人妻av一区二区三区波多野 | 国产成人天天5g影院在线观看| 欧美激情第三页| 久久av影院| 日韩精品福利视频| 亚洲高清自拍| www.污网站| 国产精品入口麻豆九色| 日韩精品一区不卡| 亚洲精品美女久久| 国产三级伦理在线| 91综合免费在线| 三区四区不卡| 九九九在线观看视频| 2020日本不卡一区二区视频| 日韩黄色在线视频| 欧美不卡一区二区三区| 国产日产一区二区| 成人黄色网免费| 欧美电影《睫毛膏》| 免费涩涩18网站入口| 久久久久久久久久美女| 国产成人无码精品亚洲| 精品福利一区二区三区| 欧美野外wwwxxx| 91免费看网站| 国产精品啊v在线| 国产精品偷伦视频免费观看了| 亚洲色图欧美激情| 国产精品视频在线观看免费| 日韩中文字幕第一页| 成人在线视频免费| 亚洲春色在线视频| 美女mm1313爽爽久久久蜜臀| 极品蜜桃臀肥臀-x88av| 欧美午夜不卡视频| 91在线视频| 91亚洲va在线va天堂va国| 亚洲91视频| www.四虎精品| 精品国产福利在线| 天堂网www中文在线| 欧美性受xxxx白人性爽| 久久99青青| 国产探花在线看| 亚洲色欲色欲www在线观看| 精品久久久免费视频| 久久久久久久久久婷婷| 日本欧美韩国国产| 久久久久国产精品熟女影院| 国产精品免费av| 国产强伦人妻毛片| 欧美激情视频网站| 欧美巨大xxxx| 欧美黑人又粗又大又爽免费| 国产精品嫩草影院com| 一起草av在线| 欧美黑人国产人伦爽爽爽| 欧美人体视频| 亚洲第一中文av| 亚洲另类一区二区| 午夜小视频免费| 国产精品老女人精品视频| 99久久精品费精品国产| 久久久无码人妻精品无码| 欧美视频在线视频| 8888四色奇米在线观看| 91福利入口| 亚洲综合精品四区| 91免费公开视频| 亚洲国产天堂久久国产91| 羞羞影院欧美| 成人免费看片视频在线观看| 成人高清免费观看| 中文字幕码精品视频网站| 欧美成人激情视频| 在线亚洲a色| 欧美视频亚洲图片| 欧美日韩亚洲一区二区| 2019中文字幕在线视频| 国产亚洲一区二区三区在线播放| 日韩精品免费视频人成| 九九精品在线观看视频| 亚洲人成五月天| 日韩三级av高清片| 欧美婷婷精品激情| 婷婷夜色潮精品综合在线| 秋霞影院午夜丰满少妇在线视频| 国产一区免费视频| 国产中文字幕一区| 嫩草影院一区二区三区| 91国产一区在线|