精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

率先突破大規模多類數據損壞問題!中科大離線強化學習新方式入選NeurIPS 2024

人工智能 新聞
中科大王杰教授團隊 (MIRA Lab) 提出了一種變分貝葉斯推斷方法,有效地提升了智能決策模型的魯棒性。

機器人控制和自動駕駛的離線數據損壞問題有解了!

中科大王杰教授團隊 (MIRA Lab) 提出了一種變分貝葉斯推斷方法,有效地提升了智能決策模型的魯棒性。

論文發表在CCF-A類人工智能頂級會議NeurIPS 2024。

圖片

現實世界的離線數據集(如機器人控制、自動駕駛等)常常因傳感器故障或惡意攻擊而受到數據損壞(如數據帶有噪聲或對抗性攻擊)的影響。

盡管現有離線強化學習(offline RL)方法在魯棒性方面已取得了進展,但它們仍難以處理因離線數據的各類元素(即狀態、動作、獎勵和轉移動態)均部分損壞所引入的高不確定性。

作者針對離線數據的各類元素均有受損這一復雜的實際問題,提出了一種魯棒的變分貝葉斯推斷方法TRACER

在面臨各類數據損壞時,該方法于所有實驗中均實現了最優,相對于現有的SOTA方法提升了高達+21.1%的決策性能,并在24組僅有單類數據損壞的實驗中仍實現了16組的最優性能

TRACER主要具有以下三點優勢:

  • TRACER首次將貝葉斯推斷引入到抗損壞的離線強化學習(corruption-robust offline RL)中。通過將所有離線數據作為觀測值,TRACER捕捉了由各類損壞數據所導致的動作價值函數中的不確定性。
  • 通過引入基于熵的不確定性度量,TRACER能夠區分損壞數據和干凈數據,從而調控并減弱損壞數據對智能體模型訓練的影響,以增強魯棒性。
  • 作者在機器人控制(MuJoCo)和自動駕駛(CARLA)仿真環境中進行了系統性地測試,驗證了TRACER在各類離線數據損壞、單類離線數據損壞的場景中均顯著提升了智能體的魯棒性,超出了多個現有的SOTA方法。

注:下文中公式若顯示不完整,請嘗試左右滑動查看

背景與問題

貝葉斯強化學習

即最大化證據下界(ELBO):

數據損壞下的離線強化學習

基于上述公式,作者的目的是基于損壞數據學習魯棒的策略

方法介紹

總的來說,該方法將所有類別的數據損壞視為行動價值函數(action-value function)中的不確定性,并使用所有類別的離線數據作為觀測值,以估計行動價值函數的后驗分布。

這顯著增強了智能體對所有類別數據損壞的魯棒性

此外,考慮到受損數據通常會引起更高的不確定性和熵,該方法引入了基于熵的不確定性度量,進而能有效區分損壞數據和干凈數據

基于這類度量,該方法能調節并減弱損壞數據對智能體模型訓練的負面影響,進而顯著提高模型在干凈測試環境中的魯棒性和性能。

動機

使用多種受損數據估計累積獎勵函數(即動作值函數)會引入很高的不確定性,原因主要有兩個方面:

  • 一是多種類型的損毀會向數據集的所有元素引入較高的不確定性;
  • 二是每個元素與累積獎勵(即動作值、Q值)之間存在明確的相關性關系。

下圖為決策過程的概率圖模型。實線連接的節點表示數據集中的數據,而虛線連接的Q值(即動作值、累積回報)不屬于數據集。這些Q值通常是算法旨在估計的任務目標。

圖片

為了處理這類由多種數據損毀(即狀態、動作、獎勵、狀態轉移數據受損)導致的高不確定性問題,基于上圖所示的概率圖模型,作者提出利用數據集中的所有元素作為觀測數據。

這樣做的目的,是利用這些觀測數據與累積獎勵之間的高度相關性,來準確地識別動作值函數的不確定性。

基于受損數據的貝葉斯推斷

作者提出使用離線數據集的所有元素作為觀測值,利用數據之間的相關性同時解決不確定性問題。

通過引入貝葉斯推理框架,該步的目標是逼近動作價值函數的后驗分布。

基于熵的不確定性度量

為了進一步應對各類數據損壞帶來的挑戰,作者思考如何利用不確定性進一步增強魯棒性。

鑒于目標是提高在干凈環境中的智能體性能,作者提出減少損壞數據的影響,重點是使用干凈數據來訓練智能體。

因此,作者設計了一個兩步計劃——先區分損壞數據和干凈數據;再調控與損壞數據相關的損失,減少其影響,從而提升在干凈環境中的表現。

對于第一步數據的區分,由于損壞數據通常會造成比干凈數據更高的不確定性和動作價值分布熵,因此作者提出使用熵來量化損壞數據和干凈數據的不確定性。

因此,在學習過程中,TRACER 能夠調控與損壞數據相關的損失,并專注于最小化與干凈數據相關的損失,從而增強在干凈環境中的魯棒性和性能。

算法架構

TRACER的框架圖如下所示。

圖片

可見相對于傳統的離線強化學習算法,作者的提出方法修改了批評家(critic)模型,將其改為用于分布強化學習(distributional RL)的動作值分位數回歸的架構。

此外,作者還添加了一個新的集成模型(ensemble model)

數據受損,依然保持魯棒性

為了模擬數據受損的情形,作者對數據集的部分數據加入隨機噪聲或對抗攻擊來構建損壞數據。

在實驗中,作者對30%的單類數據進行損壞。

在機器人控制(MuJoCo)仿真環境測試中,作者選擇了常用的3個機器人控制環境(Halfcheetah,Walker2d,Hopper)

這些環境的狀態為仿真機器人各個部位(如腿部、關節等)的不同物理量(如位置、角度、速度等),控制動作為機器人特定部位(如腿部、頭部)的力。

所有類型數據元素均存在隨機損壞(random)或對抗損壞(advers)時的實驗結果見下表。

可以看到,TRACER在所有控制環境中均獲得了較為明顯的性能提升,提升幅度達+21.1%,在所有環境中都獲得了最高的平均得分。

這一結果展現了TRACER對大規模、各類數據損壞的強魯棒性。

圖片

單種類型數據元素存在損壞的部分實驗結果見表2和表3。

而在單類數據損壞中,TRACER于24個實驗設置里實現16組最優性能,可見TRACER面向小規模、單類數據損壞的問題也能有效地增強魯棒性。

存在隨機損壞時,TRACER在8個實驗設置中獲得了最高的平均得分。

圖片

同樣地,單類元素存在對抗損壞時,TRACER在8個實驗設置中也獲得了最高的平均得分。

圖片

作者簡介

本論文作者楊睿是中國科學技術大學2019級碩博連讀生,師從王杰教授、李斌教授,主要研究方向為強化學習、自動駕駛等。

他曾以第一作者在 NeurIPS、KDD 等頂級期刊與會議上發表論文兩篇,曾獲滴滴精英實習生(16/1000+)

論文地址:https://openreview.net/pdf?id=rTxCIWsfsDGitHub:
https://github.com/MIRALab-USTC/RL-TRACER

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-11-18 07:45:00

2025-04-01 09:32:00

模型訓練AI

2021-12-06 09:53:09

自然語言神經網絡人工智能

2020-10-15 19:22:09

Menger機器學習強化學習

2023-04-06 16:29:18

模型AI

2020-11-16 08:54:05

Google 開源技術

2017-02-27 11:36:31

阿里

2025-03-14 10:22:03

2023-12-04 13:23:00

數據訓練

2017-06-10 16:19:22

人工智能智能體強化學習

2022-11-03 14:13:52

強化學習方法

2025-10-27 09:15:00

2024-12-09 10:15:00

AI技術

2025-10-20 08:50:00

2025-03-03 09:12:00

2021-07-22 15:25:14

開源技術 框架

2025-06-09 09:32:35

2024-10-28 14:20:00

2020-04-15 16:44:38

谷歌強化學習算法
點贊
收藏

51CTO技術棧公眾號

丁香花高清在线观看完整版| 中文字幕在线观看视频网站| 国产精品一站二站| 一区二区高清免费观看影视大全| 国产伦精品一区二区三区视频孕妇| 精品欧美一区二区三区免费观看| 欧洲乱码伦视频免费| 欧美一区二区三区四区高清| 免费看一级大黄情大片| 风间由美一区| 成人av在线网站| 国产精品午夜视频| 日韩特黄一级片| 93在线视频精品免费观看| 亚洲第一精品久久忘忧草社区| 任你操这里只有精品| 欧美卡一卡二| 国产精品的网站| 久久精品美女| www.av在线.com| 免费的成人av| 亚洲开心激情| 专区另类欧美日韩| 欧美日韩精品免费看| 国产丰满果冻videossex| 天堂av在线一区| 欧美激情一二三| 手机在线中文字幕| 国产欧美日韩精品高清二区综合区| 欧美成va人片在线观看| 亚洲视频一二三四| 桃花岛成人影院| 精品动漫一区二区三区| www.亚洲成人网| 激情在线小视频| 国产日韩v精品一区二区| 精品日本一区二区三区| 国产高清在线观看视频| 国内精品久久久久影院色| 日韩av日韩在线观看| 中文字幕一区二区三区精品| 久久久久国产精品| 精品国产一区二区三区久久| 成人黄色免费网址| 欧美猛男男男激情videos| 亚洲高清色综合| 国产一级免费片| 澳门成人av| 欧美不卡视频一区| 亚洲成人激情小说| 亚洲精品观看| 欧美成人猛片aaaaaaa| 一卡二卡三卡四卡五卡| 电影91久久久| 欧美一区二区观看视频| 91欧美一区二区三区| 日韩第一区第二区| 欧美一区二区性放荡片| 97人人模人人爽人人澡| 欧美日韩国产一区二区在线观看| 欧美一区欧美二区| 俄罗斯女人裸体性做爰| 国产成人一二片| 亚洲电影av在线| 人妻丰满熟妇aⅴ无码| 国产精品视频一区二区久久| 久久亚洲人体| 欧美亚洲综合久久| 手机免费av片| 欧美成人一级| 亚洲国产精品久久| 久久丫精品国产亚洲av不卡| 国产一区国产二区国产三区| 日韩小视频网址| 91在线播放观看| 在线精品观看| 日韩免费视频在线观看| 中文字幕在线观看免费| 国内一区二区视频| 国产亚洲欧美另类一区二区三区| 嫩草在线播放| 国产精品久久久久影视| 日本免费成人网| 全亚洲第一av番号网站| 欧美精品丝袜久久久中文字幕| 亚洲欧洲日产国码无码久久99| 精品免费av一区二区三区| 欧美一区二区性放荡片| 鲁大师私人影院在线观看| 青草国产精品| 欧美黑人巨大xxx极品| 少妇太紧太爽又黄又硬又爽| 老鸭窝一区二区久久精品| 亚洲精品免费一区二区三区| 日本精品一二区| 国产精品网站导航| 日本精品久久久久久久久久| 欧美电影免费观看高清完整| 欧美久久一二区| a视频免费观看| 在线国产一区| 国产精品9999| 隣の若妻さん波多野结衣| 国产午夜精品理论片a级大结局| 欧美性受黑人性爽| 卡通欧美亚洲| 精品福利在线导航| 日本裸体美女视频| 久久精品一区二区三区中文字幕 | 精品一区免费观看| 日韩av一区二区三区四区| 99r国产精品视频| 日韩中文字幕亚洲精品欧美| www.蜜臀av| 久久伊99综合婷婷久久伊| 日韩最新中文字幕| 亚洲一区二区三区四区| 精品国产乱码久久久久久浪潮| 人人人妻人人澡人人爽欧美一区| 亚洲性感美女99在线| 国产在线一区二区三区| 欧美日韩在线中文字幕| 一级日本不卡的影视| 色啦啦av综合| 国产欧美亚洲精品a| 91黑丝在线观看| www.av在线.com| 亚洲欧美日韩国产一区二区三区 | 免费久久久一本精品久久区| 综合久久2019| 69久久99精品久久久久婷婷| 免费看污片的网站| 亚洲欧美日韩国产一区| 国产精品日韩二区| 伊人福利在线| 日韩欧美一区二区不卡| av成人免费网站| 久久国产成人午夜av影院| 日本一区二区在线视频| 亚洲女同志freevdieo| 亚洲精品成人免费| 日韩精品一区二区av| 国产不卡视频一区二区三区| 欧美一级中文字幕| 日本免费一区二区三区视频| 久久综合久久八八| 国产黄色大片网站| 亚洲在线一区二区三区| 性感美女一区二区三区| 国产精品多人| 国产精品一级久久久| 黄网av在线| 亚洲成人xxx| 人人干人人干人人干| 99久久婷婷国产综合精品电影| 成年人网站国产| 日韩精品免费一区二区夜夜嗨| 91av在线国产| 黄色免费在线播放| 欧美日韩国产一二三| 日本黄色录像视频| 三上悠亚国产精品一区二区三区| 韩国v欧美v日本v亚洲v| 欧美日韩在线免费观看视频| 懂色av色香蕉一区二区蜜桃| 欧美精品生活片| 秋霞欧美在线观看| 日韩欧美在线免费| 国产又大又粗又爽的毛片| 麻豆成人91精品二区三区| 一区国产精品| 日本在线成人| 欧美亚洲第一页| h网站视频在线观看| 欧美精品 国产精品| 欧美xxxx黑人xyx性爽| 成人sese在线| 国产精品久久久久9999小说| 外国成人激情视频| 国产精品免费一区二区三区观看 | 美国黄色一级视频| 日韩午夜激情| 婷婷久久五月天| 免费看日产一区二区三区| 韩国三级电影久久久久久| 欧美偷拍视频| 91精品综合久久久久久| 999这里只有精品| 国产精品久久久久久久久久久免费看| 日本高清免费在线视频| 性欧美暴力猛交另类hd| 一卡二卡3卡四卡高清精品视频| 日本免费一区二区视频| 国产成人精品亚洲精品| av电影免费在线观看| 精品偷拍一区二区三区在线看| 中文字幕在线观看高清| 五月天欧美精品| 蜜桃av免费观看| 波多野结衣中文字幕一区| 黄色在线视频网| 亚洲国产日韩在线| 亚洲午夜在线观看| 精品久久对白| 91久久国产综合久久91精品网站| av资源中文在线| 久久精品久久久久久| 日本亚洲一区| 精品国产电影一区二区| 夜夜嗨aⅴ一区二区三区| 欧美日韩美女视频| 国内偷拍精品视频| 中文字幕成人av| 国产精品无码午夜福利| 国产suv精品一区二区6| 天堂视频免费看| 欧美亚洲视频| 僵尸世界大战2 在线播放| 91精品国产调教在线观看| 日韩欧美在线电影| 伊人久久大香线蕉综合网站| 不卡一区二区三区视频| 国产精品一区二区精品视频观看| 国产精品吊钟奶在线| 在线手机中文字幕| 国内精品久久久久久久| 影音先锋在线视频| 久久精品中文字幕| 瑟瑟视频在线| 精品亚洲国产成av人片传媒| 免费激情视频网站| 欧美成人r级一区二区三区| 99草在线视频| 制服丝袜亚洲网站| 亚洲怡红院av| 欧美日韩夫妻久久| 中文字幕一区二区三区波野结| 欧美日韩中文字幕| 欧美亚洲精品天堂| 偷拍日韩校园综合在线| 日韩精品成人一区| 天天影视涩香欲综合网| 国产午夜视频在线| 亚洲一区在线播放| 久艹视频在线观看| 亚洲综合免费观看高清完整版| 久草综合在线视频| 亚洲精品久久嫩草网站秘色| 青娱乐国产精品| 亚洲一区av在线| 久久av高潮av无码av喷吹| 玉足女爽爽91| 国产小视频在线观看免费| 一区二区三区四区不卡视频| 欧美日韩成人免费观看| 亚洲一级电影视频| 日韩精品视频免费看| 色一情一乱一乱一91av| 成人h动漫精品一区二区下载| 色综合久久99| 影音先锋黄色网址| 欧美一三区三区四区免费在线看| 亚洲av无码国产综合专区| 亚洲成人动漫在线播放| 欧美性孕妇孕交| 日韩在线视频免费观看高清中文| 国产精品扒开做爽爽爽的视频| 久久99精品视频一区97 | 国产精品久久久久久久久久ktv | 免费亚洲婷婷| 久久久精品麻豆| 狠狠色丁香婷综合久久| 中文字幕永久免费| 久久人人超碰精品| 国产黄a三级三级| 亚洲一卡二卡三卡四卡五卡| 亚洲天堂视频网站| 欧美日韩高清一区二区不卡| 亚洲欧美强伦一区二区| 亚洲欧美中文日韩在线v日本| 成人精品一区二区三区校园激情| 日韩中文字幕国产| 国产夫妻在线播放| 国产精品视频区| 这里视频有精品| 日韩成人av电影在线| 欧美fxxxxxx另类| 国产精品亚洲a| 久久久久国产精品免费| 人妻精品无码一区二区三区| 翔田千里一区二区| 亚洲一区在线不卡| 国产91精品精华液一区二区三区| 艳妇乳肉亭妇荡乳av| 中文字幕欧美国产| 久久网免费视频| 精品人伦一区二区三区蜜桃免费| 国产日韩在线免费观看| 精品少妇一区二区| 懂色一区二区三区| 欧美激情在线视频二区| 日韩一级二级| 国内精品国语自产拍在线观看| 欧美日韩国产免费观看视频| 欧美中日韩在线| 蜜臀av亚洲一区中文字幕| 精品国产乱码久久久久夜深人妻| 日本一区免费视频| 国产一级视频在线| 欧美美女一区二区在线观看| 先锋av资源站| 色综合久久悠悠| 日韩av懂色| 日韩av大全| 国产一区91| 亚洲性图第一页| 成人免费在线播放视频| 精品人妻一区二区三区潮喷在线| 精品国产1区2区3区| av在线下载| 国产综合香蕉五月婷在线| 宅男在线一区| 国产乱子伦农村叉叉叉| 国产一区二区免费视频| 久久久久麻豆v国产| 色婷婷综合五月| 欧美一级一区二区三区| 久久精品色欧美aⅴ一区二区| 成人精品电影在线| 精品综合在线| 99视频精品免费观看| 成人一区二区三区仙踪林| 亚洲免费观看高清在线观看| 亚洲综合五月天婷婷丁香| 国产亚洲激情视频在线| 综合日韩av| 久中文字幕一区| 鲁大师影院一区二区三区| 一本色道综合久久欧美日韩精品| 亚洲一区在线看| 亚洲福利在线观看视频| 欧美成人亚洲成人| 91麻豆精品一二三区在线| 午夜精品电影在线观看| 日韩av中文字幕一区二区三区 | 福利一区二区免费视频| 精品一区在线播放| 国产日韩精品视频一区二区三区 | av中文字幕在线免费观看| 操人视频在线观看欧美| 精品国产欧美| 日本美女爱爱视频| 国产精品夜夜嗨| 国产在线视频在线观看| 欧美成人综合网站| 欧美性猛片xxxxx免费中国| 成人资源视频网站免费| 欧美日韩岛国| 黑人玩弄人妻一区二区三区| 性做久久久久久久免费看| 亚洲 小说区 图片区 都市| 欧美中文在线观看国产| 九九亚洲精品| 黄色一级片免费的| 亚洲男人电影天堂| 高h震动喷水双性1v1| 77777少妇光屁股久久一区| 亚洲精品亚洲人成在线观看| 亚洲一区二区三区四区五区xx| 国产精品福利一区二区| 国产超碰人人模人人爽人人添| 欧美激情欧美激情| 夜夜春成人影院| 欧美女同在线观看| 一区二区三区 在线观看视频| 亚洲三区在线观看无套内射| 国产精品美女久久久免费| 午夜久久美女| 国产精品第七页| 欧美日本一区二区三区四区| av毛片在线看| 久久av二区| 精品在线一区二区| 久久久久无码国产精品不卡| 亚洲美女中文字幕| 91精品网站在线观看| 僵尸世界大战2 在线播放| 国产日韩三级在线| wwwav在线播放| 国产91精品高潮白浆喷水| 日韩欧美精品综合| av漫画在线观看| 欧美日韩中字一区| 91美女精品| 自拍偷拍亚洲色图欧美| 不卡av电影在线播放| 一级特黄录像免费看| 91禁外国网站| 欧美777四色影| 成人黄色a级片|