精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大神Aviral Kumar:價值學習真的是離線 RL 的主要瓶頸嗎? 原創

發布于 2024-6-18 12:40
瀏覽
0收藏

大神Aviral Kumar:價值學習真的是離線 RL 的主要瓶頸嗎?-AI.x社區

動機

  • 離線強化學習 (RL) 和模仿學習之間的主要區別在于使用價值函數,并且離線 RL 中的大多數先前工作都側重于使用更好的技術學習更好的價值函數。
  • 所以價值函數學習是離線 RL 的主要瓶頸……對嗎?
  • 在這項工作中,研究人員表明,實踐中情況往往并非如此!

分析離線強化學習的瓶頸

這項工作的主要目標是了解離線 RL 的性能在實踐中如何受到瓶頸限制。

離線 RL 有三個潛在瓶頸:

  • (B1 )數據價值評估不完善
  • (B2)從學習到的價值函數中提取不完善的策略
  • (B3)測試時策略泛化不完善,表明策略在評估期間訪問

請注意,離線 RL 算法的瓶頸總是可以歸因于這些因素中的一個或幾個,因為如果所有因素都完美,代理將獲得最佳性能。因此需要做的就是分別剖析這些組件!

主要假設

首先陳述本項研究的主要研究假設:

“離線 RL 的主要瓶頸是策略學習,而不是價值學習。”

換句話說,盡管價值學習當然很重要,如何從價值函數(B2 )中提取策略以及策略如何很好地推廣到它在評估時訪問的狀態(B3)通常是顯著影響許多問題中的性能和可擴展性的主要因素。

為了驗證這一假設,在本文中進行了兩項主要分析:在第一次分析中,比較了價值學習和策略提取(B1和B2);在第二次分析中,分析了策略泛化的效果(B3)。

長話短說

這是本文分析的簡要內容 ??:

  • (1)策略提取通常比價值學習更重要:不要使用加權行為克隆(AWR);始終使用行為約束策略梯度(DDPG + BC)。
  • (2)測試時間策略泛化是離線 RL 中最顯著的瓶頸之一:當前的離線 RL 通常已經擅長在數據集狀態下學習有效策略,而性能通常僅僅由其在分布外狀態下的性能決定。

分析1:是價值還是政策?(B1和B2)

  • 價值學習還是策略提取哪個更重要?
  • 為了回答這個問題,研究人員使用不同數量的數據運行不同的算法進行價值函數訓練和策略提取,并繪制數據縮放矩陣來可視化結果。
  • 這說明(1)性能的瓶頸在于價值還是策略;(2)各種價值學習和策略提取算法之間的性能差異。
  • 為了清楚地剖析價值學習和策略提取,在本研究中重點關注具有解耦價值和策略學習階段的離線 RL 方法(例如IQL、一步式 RL、CRL 等)。這聽起來可能有點限制性,但即使在這些解耦方法中,策略學習通常也是主要瓶頸!
分析設置

在本分析中考慮以下算法和環境。

三種價值學習算法:

  • (1)隱式 Q 學習(IQL)
  • (2)一步 RL(SARSA)
  • (3)對比 RL(CRL)。

三種策略提取算法:

  • (1)加權行為克隆(例如AWR、RWR、AWAC 等)
  • (2)行為約束策略梯度(例如DDPG+BC、TD3+BC 等)
  • (3) 基于采樣的動作選擇(例如,SfBC,BCQ,IDQL 等)

八項任務(包括目標條件(“ gc- ”)和基于像素的任務!):

  • (1) gc-antmaze-large
  • (2) antmaze-large
  • (3) d4rl-hopper
  • (4) d4rl-walker2d
  • (5) exorl-walker
  • (6) exorl-cheetah
  • (7) kitchen
  • (8)(基于像素的)gc-roboverse。
結果

大神Aviral Kumar:價值學習真的是離線 RL 的主要瓶頸嗎?-AI.x社區


顯示全部結果

  • 上圖顯示了數據縮放矩陣。重點介紹了exorl-walker和exorl-cheetah上的結果。單擊上面的按鈕可查看八個任務的完整數據縮放矩陣,這些矩陣是從總共 7744 次運行中匯總而來的。為每個矩陣條目單獨調整了策略提取超參數。
  • 通過查看顏色漸變,可以看到每個算法的性能如何隨著更多數據的增加而擴展以及/或者如何出現瓶頸。下面,重點介紹一些關鍵觀察結果。
  • 首先,可以看到,策略提取算法通常對性能和數據擴展趨勢的影響遠遠大于一般的價值學習目標(也許除了antmaze-large),即使它們從相同的價值函數中提取策略!
  • 在策略提取算法中,可以發現DDPG+BC 幾乎總是全面實現最佳性能和擴展行為,其次是 SfBC,而 AWR 的性能在許多情況下明顯落后于其他兩種。
  • 還可以看到,AWR 的數據縮放矩陣總是具有垂直或對角線的顏色漸變,這表明它沒有充分利用價值函數(請參閱下文以獲得更明顯的證據)。

分析2:策略泛化(B3)

  • 現在,將注意力轉向離線 RL 中的第三個獨特瓶頸:策略泛化。
  • 在離線 RL 中,代理在測試時會遇到新的、可能超出分布的狀態,而它對這些新狀態的推廣程度會直接影響性能。
分析設置
  • 為了理解這個泛化瓶頸,首先定義三個量化策略準確性的關鍵指標:

大神Aviral Kumar:價值學習真的是離線 RL 的主要瓶頸嗎?-AI.x社區

  • 直觀地講,這些指標衡量了該策略在三種不同分布上的準確度。
  • 也許你已經熟悉訓練 MSE和驗證 MSE。但還有另一個指標:評估 MSE,它看起來可能與驗證 MSE 相似,但實際上非常不同。
  • 驗證 MSE 和評估 MSE 之間的關鍵區別在于,驗證 MSE 衡量的是分布內的策略準確率,而評估 MSE 衡量的是分布外的策略準確率(見上圖)。評估 MSE 恰好對應于要測量的泛化瓶頸。
  • 為了了解這些數量與性能之間的關系,觀察了這些指標和性能如何隨著額外的在線交互數據而發展(通常稱為離線到在線 RL設置)。
結果

大神Aviral Kumar:價值學習真的是離線 RL 的主要瓶頸嗎?-AI.x社區


  • 上圖顯示了回報和 MSE 指標如何隨著更多在線互動數據而改善。用紅色表示在線訓練步驟。
  • 結果非常令人驚訝!可以看到:(1)離線到在線 RL 大多只會改善評估 MSE,而驗證 MSE 和訓練 MSE 通常保持完全平坦;(2)離線 RL 的性能與評估 MSE指標呈非常強(負)相關性。
  • 這是什么意思?這意味著當前的離線 RL 算法可能已經足夠擅長在離線數據集覆蓋的狀態分布中學習最佳策略,并且性能通常僅由代理在測試時遇到的新狀態的策略準確性決定!
  • 這為離線 RL 中的泛化提供了一個新的視角,這與之前對悲觀主義和行為正則化的關注有些不同。
  • 那么,如何才能提高測試時策略的泛化能力呢?不幸的是,這在原則上非常困難,因為它需要泛化到一個可能完全不同的分布。盡管如此,如果稍微放寬假設,就可以解決這個問題,在本文中提出了兩種這樣的解決方案。
解決方案 1:提高離線數據覆蓋率

大神Aviral Kumar:價值學習真的是離線 RL 的主要瓶頸嗎?-AI.x社區


  • 第一個解決方案是使用高覆蓋率的數據集。
  • 理由很簡單:如果測試時間分布外的泛化是瓶頸,可以簡單地使用更多數據使測試時間狀態分布內(當然,當可以收集更多數據時??)!
  • 在上面的圖中,盡管高覆蓋率數據集的次優性有所增加,但它們確實提高了性能。另外,請注意,在這種情況下,使用正確的策略提取目標 (DDPG+BC) 也很重要!
解決方案 2:測試時策略改進
  • 如果無法控制數據,那么提高測試時間策略準確性的另一種方法就是在測試時間狀態下即時訓練或指導策略。
  • 為此,在論文中提出了一種非常簡單的方法,稱為即時策略提取(OPEX)。關鍵思想是在評估時簡單地按照價值梯度的方向調整策略動作。
  • 具體來說,在測試時從策略?
  • 中采樣一個動作后,會根據凍結的學習到的 Q 函數進一步調整該動作,公式如下。

其中

是與測試時“學習率”相對應的超參數。

  • OPEX 在評估時只需要一行額外的代碼,并且根本不會改變訓練程序!
  • 在本文中,研究人員提出了另一種方法,即測試時訓練(TTT),它在測試時推出期間進一步更新策略參數。
  • 這些即時策略改進技術通過緩解測試時間策略泛化瓶頸,提高了各種任務的性能。

大神Aviral Kumar:價值學習真的是離線 RL 的主要瓶頸嗎?-AI.x社區

要點:測試時策略泛化是離線強化學習中最顯著的瓶頸之一。使用高覆蓋率數據集。使用即時策略改進技術提高測試時狀態下的策略準確性。

那么,這說明了什么?

  • 與之前認為價值學習是離線 RL 的主要瓶頸的觀點有些相反, 當前的離線 RL 方法通常嚴重受限于從價值函數中提取策略的準確性以及該策略推廣到測試時間狀態的準確性。
  • 對于實踐者來說,分析表明離線 RL 有一個明確的方案:在盡可能多樣化的數據上訓練價值函數,并允許策略最大限度地利用價值函數,并采用最佳策略提取目標(例如DDPG+BC)和/或潛在的測試時間策略改進策略。
  • 對于未來的算法研究,強調離線 RL 中的兩個重要開放問題:(1)從學習到的價值函數中提取策略的最佳方法是什么?有沒有比 DDPG+BC 更好的方法?(2)如何訓練策略,使其在測試時間狀態下具有很好的泛化能力?
  • 第二個問題特別有趣,因為它提出了與離線 RL 中普遍存在的悲觀主義主題截然相反的觀點,其中只有少數作品明確旨在解決離線 RL 的這種泛化方面!

譯自(有刪改):https://seohong.me/projects/offrl-bottlenecks/


本文轉載自公眾號AIGC最前線   

原文鏈接:??https://mp.weixin.qq.com/s/CIRqxjZld3xSyu980YT9JA??

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
在线观看免费版| 亚洲天堂免费av| 亚洲免费福利一区| 在线观看亚洲a| youjizz.com亚洲| 天天摸天天碰天天爽天天弄| 日韩国产欧美在线视频| 欧美大胆在线视频| 人妻丰满熟妇av无码久久洗澡| 日韩不卡在线| 亚洲国产精品久久久男人的天堂| 欧美在线视频一区二区三区| www.成人精品| 日日摸夜夜添夜夜添精品视频| 久久6精品影院| 亚洲欧美va天堂人熟伦| 视频在线一区| 欧美性色欧美a在线播放| 青春草国产视频| 午夜看片在线免费| 91在线一区二区三区| 亚洲精品欧美日韩| 中国女人一级一次看片| 亚洲精品麻豆| 美乳少妇欧美精品| 日本猛少妇色xxxxx免费网站| 国产精品任我爽爆在线播放| 欧美精品乱人伦久久久久久| 国产午夜伦鲁鲁| 免费不卡av| 亚洲精品少妇30p| 亚洲精品一区二区三区四区五区| 视频在线观看你懂的| 国产麻豆精品久久一二三| 国产精品久久国产精品99gif| www.日本精品| 亚洲视频免费| 日韩中文字幕视频在线观看| 丰腴饱满的极品熟妇| 欧美调教视频| 亚洲国产高清自拍| 亚洲成年人av| 一区二区视频| 日韩亚洲欧美高清| 久久精品久久99| 国产一区二区| 日韩一区二区三区电影 | 超碰最新在线| 国产精品久久三| 四虎影院一区二区三区| 国产福利第一视频在线播放| 久久精品一区四区| 日本一区视频在线播放| 国产福利电影在线| 中文字幕的久久| 夜夜爽99久久国产综合精品女不卡| 麻豆国产在线播放| 国产夜色精品一区二区av| 欧美二级三级| av在线中文| 国产精品久久福利| 国产奶头好大揉着好爽视频| 国产在线高潮| 亚洲国产色一区| 欧美日本视频在线观看| 亚洲妇女成熟| 在线观看成人小视频| 香蕉视频禁止18| 中文成人在线| 欧美成人一区二区三区片免费| 麻豆免费在线观看视频| 都市激情久久| 亚洲欧美制服第一页| 2019男人天堂| 小说区亚洲自拍另类图片专区| 欧美成人亚洲成人| 国产成人无码精品亚洲| 久久综合导航| 成人免费网视频| 亚洲国产剧情在线观看| 99精品在线观看视频| 日本一区视频在线观看免费| 麻豆传媒在线完整视频| 亚洲一区二区在线免费观看视频 | 日韩电影网1区2区| 成人激情在线播放| 日本xxxx人| 日本一区二区三区dvd视频在线| 亚洲欧洲日夜超级视频| 亚洲卡一卡二| 日本电影亚洲天堂一区| 欧美wwwwwww| 中文字幕一区二区三区中文字幕| 日韩av网址在线观看| 亚洲色图27p| 一区二区久久| 成人免费网站在线| 女人天堂在线| 亚洲欧美韩国综合色| 逼特逼视频在线| 国产视频一区二| 亚洲人成在线观| 久久久久久久久久久97| 日本女人一区二区三区| 好吊色欧美一区二区三区| 婷婷在线视频| 一本久道中文字幕精品亚洲嫩| 亚洲天堂av一区二区三区| 久久91成人| 久久久久久久国产精品视频| 欧美日韩 一区二区三区| 丁香婷婷深情五月亚洲| 亚洲人成人77777线观看| av漫画网站在线观看| 欧美日韩另类一区| 法国伦理少妇愉情| 亚洲手机在线| 91久久精品视频| yw在线观看| 欧美视频不卡中文| 涩视频在线观看| 91精品蜜臀一区二区三区在线| 日韩av片免费在线观看| 日本激情一区二区三区| 亚洲视频精选在线| 国产九九热视频| 国内精品视频在线观看 | 欧美黄色三级| 精品视频偷偷看在线观看| 久久久久久久久久久97| 国产精品一品二品| 亚洲第一精品区| 精品亚洲a∨| 一区二区三区久久精品| 欧产日产国产69| 26uuu亚洲综合色| 中文字幕无码精品亚洲资源网久久| 国产午夜亚洲精品一级在线| 久久久国产成人精品| 伊人网中文字幕| 日本一区二区成人| 中文字幕欧美人妻精品一区| 国产日产精品_国产精品毛片| 88国产精品欧美一区二区三区| 国产 欧美 精品| 亚洲综合图片区| yjizz视频| 亚洲日本激情| 精品一区二区国产| 国产中文在线播放| 亚洲精品视频播放| 永久免费无码av网站在线观看| 99久久综合精品| 成人在线观看黄| 欧洲激情综合| 成人久久18免费网站图片| 精品国产99久久久久久| 91精品国产品国语在线不卡| 麻豆精品一区二区三区视频| 国产999精品久久| 日韩黄色短视频| 日韩在线麻豆| 日韩免费观看网站| 日本中文字幕电影在线免费观看| 91.麻豆视频| 日本少妇激情舌吻| 久久噜噜亚洲综合| 日日躁夜夜躁aaaabbbb| 影视亚洲一区二区三区| 国产日韩一区二区三区| 综合日韩av| 久久精品一偷一偷国产| 国产精品久久无码一三区| 一区二区三区成人| 在线观看国产网站| 捆绑变态av一区二区三区| 久久久成人精品一区二区三区 | 男女性色大片免费观看一区二区| 一区二区三区三区在线| 视频二区欧美| 欧美在线视频网站| 浪潮av一区| 亚洲国产另类久久精品 | 亚洲少妇视频| 综合激情国产一区| 亚洲经典一区二区三区| 色欧美乱欧美15图片| 午夜激情福利网| 91理论电影在线观看| av噜噜在线观看| 尤物在线精品| 亚洲午夜精品一区二区| 9l视频自拍九色9l视频成人| 国产精品成人免费视频| 青草av在线| 三级精品视频久久久久| 姝姝窝人体www聚色窝| 欧美日韩亚洲综合一区| 日韩精品一区二区在线播放| 国产精品视频yy9299一区| jjzzjjzz欧美69巨大| 日本vs亚洲vs韩国一区三区| 欧美人成在线观看| 欧美wwwww| 久久久久久国产精品mv| 日韩中文字幕无砖| 国产精品丝袜白浆摸在线| 乱馆动漫1~6集在线观看| 久久久精品一区二区| 国产视频网站在线| 亚洲激情第一页| av在线免费在线观看| 欧美亚洲国产怡红院影院| 男女啊啊啊视频| 亚洲精品一二三| 乱老熟女一区二区三区| 国产视频亚洲色图| 色天使在线视频| 懂色av一区二区三区蜜臀| 三级一区二区三区| 日本不卡在线视频| 亚洲色成人一区二区三区小说| 欧美性色综合| 天天操天天干天天玩| 日韩精品影视| 日韩福利视频| 欧美理论电影大全| 日本一区视频在线| 尤物tv在线精品| 久久日韩精品| 日韩aaa久久蜜桃av| 国产一区二区三区四区hd| 日本少妇精品亚洲第一区| 成人淫片在线看| 亚洲一区二区三区久久久| 国产精品久久久久av免费| 天堂中文av在线资源库| 欧美一区三区三区高中清蜜桃| 俺来俺也去www色在线观看| 欧美激情女人20p| 污的网站在线观看| 欧美日韩第一页| 免费av不卡在线观看| 欧美国产视频日韩| 久草在线视频福利| 欧美精品999| segui88久久综合9999| 韩国国内大量揄拍精品视频| 92久久精品| 久久免费精品日本久久中文字幕| 日本aa在线| 97婷婷涩涩精品一区| 日韩欧美一中文字暮专区| 欧美孕妇毛茸茸xxxx| 国产精品专区免费| 国产精品久久久久秋霞鲁丝| 123成人网| 91美女片黄在线观| 亚洲精品在线播放| 国产区一区二区| 日韩av系列| 亚洲国产欧美一区二区三区不卡| 91综合视频| 久久99久久久久久| 亚洲欧美日韩在线观看a三区| 日韩中字在线观看| 日韩激情在线观看| www.久久av.com| 国产福利91精品一区| av电影在线播放| 久久久久国色av免费看影院| 欧美乱大交做爰xxxⅹ小说| 亚洲男人天堂av| 影音先锋亚洲天堂| 欧美三日本三级三级在线播放| av在线免费在线观看| 日韩精品在线观看一区二区| 最新97超碰在线| 欧美激情2020午夜免费观看| 日韩伦理在线一区| 成人h视频在线观看播放| 91欧美日韩在线| 日韩高清av| 欧美日韩一区二区高清| 国产aaa一级片| 精彩视频一区二区三区| 亚洲天堂资源在线| 国产精品久久综合| 日韩成人免费观看| 欧美日韩美少妇| 亚洲欧美日韩免费| 久久亚洲精品一区二区| 91av亚洲| 7777奇米亚洲综合久久| 国产精品一区二区av日韩在线| 特级西西444| 奇米影视7777精品一区二区| 午夜影院福利社| 中文字幕欧美三区| 国产成人无码精品久久久久| 欧美精品日韩精品| 久久米奇亚洲| 海角国产乱辈乱精品视频| 色8久久久久| 欧美性色黄大片人与善| 国产精品hd| 手机免费av片| 中文字幕乱码日本亚洲一区二区| 久久久久久久伊人| 91麻豆精品国产无毒不卡在线观看 | 久久激情婷婷| www.四虎精品| 亚洲色图视频免费播放| 日韩精品在线一区二区三区| 亚洲第一综合天堂另类专| av理论在线观看| 国产精品视频男人的天堂| 外国成人在线视频| av在线观看地址| 国产精品88av| √天堂中文官网8在线| 欧美精品自拍偷拍| 91在线品视觉盛宴免费| 国产999在线观看| 婷婷五月色综合香五月| 搞av.com| 不卡一区在线观看| 久久免费黄色网址| 欧美一级专区免费大片| 看女生喷水的网站在线观看| 国产精品久久久久久久午夜| 蜜臀av免费一区二区三区| 麻豆tv在线播放| 成人久久视频在线观看| 久久视频免费看| 精品久久久久久久久久久久包黑料 | 91成人免费观看| 香蕉视频官网在线观看日本一区二区| 天天干在线影院| 国产精品情趣视频| 最近中文字幕av| www.欧美三级电影.com| 国产精品无码久久久久| 亚洲v日韩v欧美v综合| 日本视频免费一区| 波多野结衣一二三四区| 欧美亚洲动漫另类| 91精彩视频在线播放| 国产精品视频精品| 久久国产电影| 热久久久久久久久| 亚洲女同女同女同女同女同69| 国产永久免费视频| 不卡中文字幕av| 最新精品在线| 国产精品后入内射日本在线观看| 91麻豆文化传媒在线观看| 五月天婷婷激情| 一区二区福利视频| 996久久国产精品线观看| 国产在线视频综合| 波多野结衣一区二区三区| 亚洲免费黄色网址| 在线性视频日韩欧美| av在线成人| 福利视频一二区| 久久九九99视频| 911美女片黄在线观看游戏| 超碰97人人做人人爱少妇| 成人知道污网站| 成人三级视频在线播放| 国产精品毛片高清在线完整版| 国产精品特级毛片一区二区三区| 欧美激情精品久久久久久久变态| 国偷自产视频一区二区久| 日本三区在线观看| 中文字幕一区二区在线观看| 亚洲精品久久久狠狠狠爱| 欧美一级电影免费在线观看| 日本一区二区高清不卡| 黄页网站在线看| 色婷婷久久久综合中文字幕| 免费观看在线午夜影视| 国产日韩精品久久| 蜜桃精品在线观看| 国产亚洲色婷婷久久99精品| 精品伊人久久97| 精品国模一区二区三区欧美| 日本午夜激情视频| 国产精品乱人伦中文| 黄色小视频免费在线观看| 国产精品久久久久久久久久免费| 亚洲激情久久| 亚洲国产无码精品| 日韩欧美成人激情| 日韩中文影院| 国产中文字幕乱人伦在线观看| 久久久久久一级片| 亚洲乱码在线观看| 国产精品久久久一区|