精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

中科大提出動(dòng)作價(jià)值表征學(xué)習(xí)新方法,率先填補(bǔ)長期決策信息的缺失

人工智能 新聞
來自中科大的研究人員在信息瓶頸(Information Bottleneck)框架下,提出了一種新穎的魯棒動(dòng)作價(jià)值表征學(xué)習(xí)方法ROUSER。

在視覺強(qiáng)化學(xué)習(xí)中,許多方法未考慮序列決策過程,導(dǎo)致所學(xué)表征缺乏關(guān)鍵的長期信息的空缺被填補(bǔ)上了。

來自中科大的研究人員在信息瓶頸(Information Bottleneck)框架下,提出了一種新穎的魯棒動(dòng)作價(jià)值表征學(xué)習(xí)方法ROUSER。

作者從理論上證明了ROUSER能夠使用學(xué)習(xí)到的魯棒表征準(zhǔn)確估計(jì)動(dòng)作價(jià)值,從而避免了智能體在測試環(huán)境中的決策能力遭到削弱。

圖片

具體而言,ROUSER通過最大化表征與動(dòng)作價(jià)值之間的互信息,來保留長期信息;同時(shí),最小化表征與狀態(tài)-動(dòng)作對之間的互信息,以濾除無關(guān)特征。

由于動(dòng)作價(jià)值是未知的,ROUSER提出將狀態(tài)-動(dòng)作對的魯棒表征分解為單步獎(jiǎng)勵(lì)和下一狀態(tài)-動(dòng)作對的魯棒表征。

實(shí)驗(yàn)結(jié)果表明,在包括背景干擾與顏色干擾的12項(xiàng)任務(wù)中,ROUSER于其中的11項(xiàng)任務(wù)上優(yōu)于多種當(dāng)前的先進(jìn)方法。

傳統(tǒng)方法難以捕捉關(guān)鍵長期信息

視覺強(qiáng)化學(xué)習(xí)中的泛化問題近年來受到了廣泛關(guān)注,其研究潛力在于使智能體具備處理現(xiàn)實(shí)復(fù)雜任務(wù)的能力,并能在多樣化環(huán)境中表現(xiàn)良好。

這里的泛化能力是指智能體能夠?qū)⑵鋵W(xué)到的策略直接應(yīng)用于未知環(huán)境,即使這些環(huán)境中存在與訓(xùn)練階段不同的視覺干擾(如動(dòng)態(tài)背景或可控物體顏色變化)。

因此,具備良好泛化能力的智能體可以在面臨未見干擾的環(huán)境時(shí)依然保持高性能執(zhí)行任務(wù),無需大量的重新訓(xùn)練。

盡管現(xiàn)有方法以數(shù)據(jù)增廣、對比學(xué)習(xí)等技術(shù)增強(qiáng)了智能體面向環(huán)境視覺干擾的魯棒性,但值得注意的是,這類研究往往僅聚焦于如何從視覺圖像中提取魯棒的、不隨環(huán)境變化的信息,忽略了下游關(guān)鍵的決策過程。

這導(dǎo)致這些方法難以捕捉序列數(shù)據(jù)中關(guān)鍵的長期信息,而這正是視覺強(qiáng)化學(xué)習(xí)泛化能力的核心因素之一。

為了針對性地解決這類問題,作者在信息瓶頸(Information Bottleneck)框架下,提出了魯棒動(dòng)作價(jià)值表征學(xué)習(xí)方法(ROUSER),通過引入信息瓶頸來學(xué)習(xí)能有效捕捉?jīng)Q策目標(biāo)中長期信息的向量化表征。

分解狀態(tài)-動(dòng)作對魯棒表征

本文提出的ROUSER主要包括兩個(gè)核心思路:

一是為了學(xué)習(xí)能有效捕捉?jīng)Q策目標(biāo)中長期信息的向量化表征,ROUSER基于信息瓶頸框架,通過最大化表征與動(dòng)作價(jià)值之間的互信息,來保留長期信息;

同時(shí),最小化表征與狀態(tài)-動(dòng)作對之間的互信息,以濾除無關(guān)特征。

二是由于動(dòng)作價(jià)值是未知的,無法直接最大化表征與動(dòng)作價(jià)值之間的互信息,因此ROUSER提出將狀態(tài)-動(dòng)作對的魯棒表征分解為僅包含單步獎(jiǎng)勵(lì)信息的表征和下一狀態(tài)-動(dòng)作對的魯棒表征。

這樣一來,可以借助已知的單步獎(jiǎng)勵(lì),計(jì)算用于魯棒表征學(xué)習(xí)的損失函數(shù)。

方法架構(gòu)圖如下所示:

圖片

為實(shí)現(xiàn)上述思路,ROUSER主要包括兩個(gè)核心模塊——獎(jiǎng)勵(lì)模型(Reward Model)和魯棒損失(Robust Loss)。

其中獎(jiǎng)勵(lì)模型旨在學(xué)習(xí)僅包含單步獎(jiǎng)勵(lì)信息的表征。

具體來說,獎(jiǎng)勵(lì)模型基于信息瓶頸框架,最大化從狀態(tài)-動(dòng)作對中提取的獎(jiǎng)勵(lì)表征與單步獎(jiǎng)勵(lì)之間的互信息,同時(shí)最小化獎(jiǎng)勵(lì)表征與對應(yīng)狀態(tài)-動(dòng)作對之間的互信息,從而引導(dǎo)模型學(xué)習(xí)僅包含獎(jiǎng)勵(lì)信息的表征。

魯棒損失則旨在構(gòu)建可計(jì)算的損失函數(shù),學(xué)習(xí)能有效捕捉?jīng)Q策目標(biāo)中長期信息的向量化表征。

基于對狀態(tài)-動(dòng)作對的魯棒表征分解技術(shù),構(gòu)建遞歸式損失函數(shù),僅利用獎(jiǎng)勵(lì)模型編碼的表征即可直接計(jì)算該損失。

且該部分僅為損失函數(shù)的構(gòu)建,并沒有更改強(qiáng)化學(xué)習(xí)中批評家(Critic)模型的架構(gòu)。最終旨在學(xué)習(xí)的向量化表征為批評家模型的中間層嵌入(Embedding)。

本文理論證明了ROUSER能夠利用學(xué)習(xí)到的向量化表征準(zhǔn)確估計(jì)決策目標(biāo),即動(dòng)作價(jià)值。

基于這一理論結(jié)果,ROUSER能有效結(jié)合各類連續(xù)和離散控制的視覺強(qiáng)化學(xué)習(xí)算法,以提升其對動(dòng)作價(jià)值估計(jì)的準(zhǔn)確性,從而提升整體魯棒性。

實(shí)驗(yàn)結(jié)果

在視覺強(qiáng)化學(xué)習(xí)泛化性研究的12個(gè)連續(xù)控制任務(wù)中,ROUSER于11個(gè)任務(wù)上取得了最優(yōu)性能。

其中下圖的6個(gè)任務(wù)是智能體面向物體動(dòng)態(tài)顏色變化干擾的泛化性能。

圖片

下圖的6個(gè)任務(wù)展示了智能體面向背景干擾的泛化性能。

圖片

ROUSER方法的一大特點(diǎn)是可以兼容離散控制任務(wù),本文在Procgen環(huán)境中進(jìn)行了相關(guān)實(shí)驗(yàn)。

如下表所示,當(dāng)ROUSER與基于價(jià)值的VRL方法結(jié)合應(yīng)用于非連續(xù)控制任務(wù)時(shí),也能夠提升智能體的泛化性能。

圖片

更多內(nèi)容請參考原論文與項(xiàng)目主頁。

論文第一作者楊睿,中國科學(xué)技術(shù)大學(xué)2019級(jí)碩博連讀生,師從王杰教授、李斌教授,主要研究方向?yàn)閺?qiáng)化學(xué)習(xí)、自動(dòng)駕駛等。

論文地址:
https://openreview.net/pdf?id=PDtMrogheZ

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-10-21 10:35:00

2021-12-06 09:53:09

自然語言神經(jīng)網(wǎng)絡(luò)人工智能

2024-01-15 13:11:22

模型數(shù)據(jù)

2017-06-10 16:19:22

人工智能智能體強(qiáng)化學(xué)習(xí)

2023-12-04 13:23:00

數(shù)據(jù)訓(xùn)練

2024-11-04 13:30:00

模型AI

2023-12-18 13:11:00

AI論文

2025-05-26 09:41:26

2025-10-20 08:50:00

2023-10-05 06:05:54

谷歌時(shí)間訓(xùn)練

2024-12-09 10:15:00

AI技術(shù)

2025-01-16 10:20:00

AI生成動(dòng)畫

2021-05-07 09:34:20

量子芯片計(jì)算機(jī)

2019-12-30 09:41:59

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2024-11-04 08:30:00

2021-05-17 10:05:08

神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)圖形

2015-07-20 11:49:56

Wi-Fi

2025-03-03 08:00:00

小紅書AI圖像檢測模型AI

2011-12-01 14:15:19

信息優(yōu)化惠普

2013-06-19 11:32:32

計(jì)算性能ISCHPC
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

国产一级在线观看视频| wwwww在线观看| 青青青青在线| 国产精品白丝av| 2023亚洲男人天堂| 精品人妻一区二区三区四区| 精品视频一二| 欧美日韩中文字幕在线| 一区一区视频| 天天摸天天碰天天爽天天弄| 免费观看成人鲁鲁鲁鲁鲁视频| 久久国产精品久久久久| 白丝女仆被免费网站| 国产aa精品| 色综合久久66| 国产亚洲精品久久久久久久| 精品无人乱码| 成人免费三级在线| 国产免费一区二区三区在线观看| 日韩精品一区二区不卡| 欧美高清视频在线观看mv| 亚洲第一男人av| 中文字幕在线视频精品| 成人影院av| 一区二区三区不卡视频| 无码免费一区二区三区免费播放 | 91福利视频导航| 国产主播第一页| 在线成人黄色| 不卡av在线播放| 少妇愉情理伦三级| 免费短视频成人日韩| 亚洲第一网站免费视频| 手机在线视频一区| 在线亚洲国产精品网| 一二美女精品欧洲| 午夜免费福利影院| 国产精品毛片aⅴ一区二区三区| 欧美性极品xxxx做受| 97视频在线免费| yellow91字幕网在线| 国产精品色呦呦| 日韩av电影免费播放| 日本福利片在线| 91免费国产在线观看| 国产精品久久久久久久小唯西川| av中文字幕观看| 韩国成人福利片在线播放| 国产精品久久久久久久久久| 日产精品久久久| 国产精品婷婷| 26uuu另类亚洲欧美日本一 | 午夜伦理一区二区| 亚洲国产一二三精品无码| 毛片av在线| 亚洲天堂福利av| 在线观看欧美亚洲| 国产成人高清精品| 亚洲九九爱视频| 日韩一级免费看| 黄页网站在线| 精品国产91久久久久久老师| 131美女爱做视频| 免费毛片b在线观看| 欧美日韩国产一区二区| 日韩精品视频久久| 国产免费不卡| 欧美日韩在线三级| 一区二区三区免费播放| 成人国产一区| 欧美一区二区三区在线电影| 一区二区在线免费观看视频| 国产成人一二片| 亚洲精品国产综合久久| 中文字幕一区二区三区人妻| 精品视频免费在线观看| 久久精品99久久久香蕉| 精品少妇theporn| 亚洲主播在线| 国产精品久久电影观看| 国产露脸91国语对白| 国产99久久久久久免费看农村| 国语精品中文字幕| 国产在线你懂得| 1024国产精品| 全黄性性激高免费视频| 三级成人黄色影院| 欧美高清视频不卡网| 人妻av一区二区| 精品国产一区二区三区久久久樱花 | 久热精品在线观看视频| 色悠久久久久综合先锋影音下载| 日韩高清免费观看| 在线看片中文字幕| 欧美精品网站| 国产99在线|中文| 国产精品久久久久久久久毛片 | 相泽南亚洲一区二区在线播放| 久草资源在线| 精品人伦一区二区三区蜜桃免费| 丝袜制服一区二区三区| 午夜视频在线观看精品中文| 精品视频久久久久久| 视频国产一区二区| 一区二区三区国产盗摄| 成人情趣片在线观看免费| 亚洲日本国产精品| 亚洲欧美日韩精品久久久久| 91九色在线观看视频| 伊人久久大香线蕉综合影院首页| 亚洲国产欧美久久| 天天操夜夜操av| 久久久青草婷婷精品综合日韩| 91中文字幕在线| 国产女主播在线直播| 亚洲综合丝袜美腿| 五月婷婷丁香综合网| 久久视频在线观看| 美日韩在线视频| 波多野结衣绝顶大高潮| 成人av高清在线| 一道本在线观看视频| 国产精品高清乱码在线观看| 亚洲国产精品福利| 国产免费无码一区二区视频| 免费观看日韩av| 欧美性xxxx69| 精品极品在线| 精品国产亚洲在线| 男人的午夜天堂| 日韩不卡一区二区| 日本电影一区二区三区| 天堂√中文最新版在线| 亚洲国产精品字幕| 欧美亚洲天堂网| 成人免费va视频| 996这里只有精品| 狂野欧美xxxx韩国少妇| 日韩在线一区二区三区免费视频| 欧美brazzers| 国产亚洲综合在线| 日本精品www| 亚欧洲精品视频在线观看| 午夜免费日韩视频| 黄色福利在线观看| 亚洲国产欧美日韩另类综合| 91超薄肉色丝袜交足高跟凉鞋| 亚洲精品在线观看91| 国产区精品视频| 精品黄色免费中文电影在线播放| 欧美日韩一级二级| 天堂а√在线中文在线鲁大师| 强制捆绑调教一区二区| 五码日韩精品一区二区三区视频| 免费在线观看一区| 中文字幕在线国产精品| 中文字幕一区二区三区四区视频| 中文字幕免费观看一区| 91制片厂毛片| 国产精品传媒精东影业在线| 国产日韩av在线| 黄色免费网站在线观看| 日韩一区二区麻豆国产| 久久老司机精品视频| 成人av在线看| 日韩中文字幕免费在线| 欧美手机视频| 成人免费视频在线观看超级碰| 成人免费观看视频大全| 欧美成人aa大片| 久久久久久久久久影院| 国产清纯美女被跳蛋高潮一区二区久久w | 91超碰在线免费| 亚洲精品美女在线| 欧美三日本三级少妇99| 国产亚洲成aⅴ人片在线观看| 黄色手机在线视频| 中文字幕亚洲综合久久五月天色无吗''| 亚洲永久免费观看| 天堂资源在线| 色妞色视频一区二区三区四区| 99久久夜色精品国产亚洲| 亚洲国产一区二区a毛片| 免费毛片视频网站| 国产专区综合网| 免费在线观看亚洲视频| 日本一区二区三区视频| 成人自拍偷拍| 成人涩涩视频| 欧美国产乱视频| 国产精品一级伦理| 欧美变态tickling挠脚心| 成人午夜视频在线播放| 中文字幕制服丝袜成人av| av不卡中文字幕| 日韩福利电影在线观看| 免费极品av一视觉盛宴| 国产成人精品三级高清久久91| 成人在线播放av| 亚洲深夜视频| 美女av一区二区三区| 久久电影中文字幕| 精品国产免费一区二区三区香蕉 | av漫画网站在线观看| 视频直播国产精品| 亚欧在线观看视频| 91麻豆精品国产91久久久久久久久 | 91高清视频免费看| 国产精品久久久久久久精| 国产欧美精品在线观看| 国产高清成人久久| 精品制服美女久久| 漂亮人妻被中出中文字幕| 黑丝一区二区| 日韩视频在线观看视频| 国产精品亚洲片在线播放| 99理论电影网| 国产美女视频一区二区| 国产精品久久久久久久久久三级| 爱情岛亚洲播放路线| 久久成人综合视频| 91最新在线| 亚洲欧美日韩区| 天天射天天色天天干| 日韩一区二区免费在线观看| 一区二区三区亚洲视频| 色猫猫国产区一区二在线视频| 日本少妇激情视频| 亚洲一二三四久久| 国产乱国产乱老熟300| 国产精品久久久久永久免费观看| 欧美多人猛交狂配| 91原创在线视频| 一级少妇精品久久久久久久| 国产精品12区| 超碰在线免费av| 精品一区二区三区不卡| 在线观看免费不卡av| 久久精品国产99国产| 美女网站免费观看视频| 992tv成人免费观看| 婷婷综合激情| 中文字幕一区二区三区5566| 日产精品一区二区| 香蕉久久免费影视| 成人激情在线| 一区二区三区av在线| 久久视频在线| 在线精品日韩| 天天综合网网欲色| 福利在线小视频| 欧美精品黄色| 人妻久久久一区二区三区| 亚洲人成久久| 免费观看精品视频| 久久综合九色| 第四色婷婷基地| 久久99久久99| 韩国三级hd中文字幕有哪些| 岛国一区二区三区| 日本黄色动态图| 国产日韩欧美电影| 91大神福利视频| 亚洲欧美区自拍先锋| 久久网中文字幕| 大桥未久av一区二区三区| 欧美性猛交bbbbb精品| 在线看一区二区| 国产男男gay体育生白袜| 欧美一级午夜免费电影| 色一情一乱一区二区三区| 日韩av中文字幕在线免费观看| 韩国中文字幕2020精品| 中文字幕日韩精品在线| 香蕉成人app免费看片| 2019中文字幕免费视频| 亚洲精品555| 成人欧美一区二区| 国产精品欧美在线观看| youjizz.com亚洲| 亚洲国产日本| 青青草精品视频在线观看| 国产精品中文字幕一区二区三区| 午夜av免费看| 中文字幕第一区第二区| 久久久精品视频在线| 色综合一区二区三区| 国产精品国产一区二区三区四区| 亚洲国模精品一区| 在线免费观看黄色网址| 久久久久久亚洲精品| 国产一区二区精品调教| 福利视频一区二区三区| 欧美精品乱码| 欧美国产日韩激情| 免费久久99精品国产| 毛茸茸free性熟hd| 国产精品传媒在线| 毛片在线免费视频| 欧美一区二区二区| 免费一级毛片在线观看| 久久99热精品| 欧美成人毛片| 欧美日韩精品免费看| 欧美精品一卡| 老司机午夜性大片| 久久免费偷拍视频| 黄色一级视频免费观看| 欧美日韩中字一区| 日韩欧美亚洲系列| 欧美激情在线一区| 成人影院网站ww555久久精品| 久久99久久精品国产| 亚洲影视一区二区三区| 人妻内射一区二区在线视频| 成人自拍视频在线观看| 免费在线观看h片| 在线观看网站黄不卡| 天天干免费视频| 久久久亚洲成人| 麻豆国产一区| 在线观看欧美一区| 蜜桃久久久久久| a级大片在线观看| 精品久久香蕉国产线看观看亚洲| 超碰在线播放97| 欧美成人高清视频| 99国内精品久久久久| 亚洲精品日韩精品| 日日夜夜免费精品| 三级网站在线免费观看| 一本色道综合亚洲| 亚洲av成人精品毛片| 久久久久久12| 亚洲一区二区电影| 黄黄视频在线观看| 狠狠色丁香久久婷婷综合_中 | 国产欧美一区二区白浆黑人| 国产精品免费大片| 国内自拍视频一区| 日本一区二区三区dvd视频在线| 日本中文字幕在线观看视频| 亚洲免费中文字幕| 欧美黑人一区| 日韩av一区二区三区在线| 视频一区在线播放| 干b视频在线观看| 在线观看亚洲专区| 成人免费在线视频网| 国产精品久久久久免费a∨大胸| 奇米影视亚洲| 天天色天天综合网| 亚洲精品日产精品乱码不卡| 亚洲高清在线观看视频| 国产综合在线看| 亚洲国产合集| 青青在线免费观看视频| 国产精品色哟哟| 国产精品伦理一区| 欧美风情在线观看| 激情av综合| 日本va中文字幕| 亚洲欧洲另类国产综合| av无码精品一区二区三区宅噜噜| 久久久久久久av| 亚洲深夜福利在线观看| 丝袜制服一区二区三区| 亚洲欧美日韩国产另类专区 | 精品视频一区二区三区在线观看| 黄色特一级视频| 91亚洲精品久久久蜜桃网站| 久久久精品毛片| 久久久99久久精品女同性| 综合中文字幕| 成年人在线看片| 日韩理论在线观看| www.日日夜夜| 青青精品视频播放| 亚洲h色精品| 800av在线播放| 欧美日本一道本| av小说在线播放| 亚洲国产午夜伦理片大全在线观看网站| 精品中文字幕一区二区小辣椒| 日本少妇xxxx动漫| 色综久久综合桃花网| ady日本映画久久精品一区二区| 日韩中文字幕三区| 亚洲色图欧美在线| 色视频免费在线观看| 国产一区欧美二区三区| 亚洲精品四区| 91久久国产综合| 亚洲欧美综合图区| 亚洲国产欧美国产第一区| 熟妇人妻va精品中文字幕| 亚洲精选视频免费看| 超碰免费在线观看| 九色视频成人porny| 韩国成人福利片在线播放|