精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

深度強化學習中的對抗攻擊和防御

人工智能 新聞
本篇文章分享論文 『Attacking and Defending Deep Reinforcement Learning Policies 』 ,深度強化學習中的對抗攻擊和防御。

 01 前言

該論文是關于深度強化學習對抗攻擊的工作。在該論文中,作者從魯棒優化的角度研究了深度強化學習策略對對抗攻擊的魯棒性。在魯棒優化的框架下,通過最小化策略的預期回報來給出最優的對抗攻擊,相應地,通過提高策略應對最壞情況的性能來實現良好的防御機制。

考慮到攻擊者通常無法 在訓練環境中 攻擊,作者提出了一種貪婪攻擊算法,該算法試圖在不與環境交互的情況下最小化策略的預期回報;另外作者還提出一種防御算法,該算法以最大-最小的博弈來對深度強化學習算法進行對抗訓練。

在Atari游戲環境中的實驗結果表明,作者提出的對抗攻擊算法比現有的攻擊算法更有效,策略回報率更差。論文中提出的對抗防御算法生成的策略比現有的防御方法對一系列對抗攻擊更具魯棒性。

02 預備知識

2.1對抗攻擊

給定任何一個樣本(x,y)和神經網絡f,生成對抗樣本的優化目標為:

其中 是神經網絡f的參數,L是損失函數, 是對抗擾動集合, 是以x為中心, 為半徑的范數約束球。通過PGD攻擊生成對抗樣本的計算公式如下所示:

其中 表示的是投影操作,如果輸入在范數球外,則將輸入投影到以x中心, 為半徑的 球上, 表示的是PGD攻擊的單步擾動大小。

2.2強化學習和策略梯度

一個強化學習問題可以被描述為一個馬爾可夫決策過程。馬爾可夫決策過程又可以被定義為一個的五元組,其中S表示的是一個狀態空間,A表示的是一個動作空間,表示的是狀態轉移概率,r表示的是獎勵函數, 表示的是折扣因子。強學學習的目標是去學習一個參數策略分布 使得價值函數最大化

其中 表示的是初始狀態。強學學習包括評估動作值函數

以上公式描述了在狀態 執行 后服從策略 的數學期望。由定義可知值函數和動作值函數滿足如下關系:

為了便于表示,作者主要關注的是離散動作空間的馬爾可夫過程,但是所有的算法和結果都可以直接應用于連續的設定。

03 論文方法

深度強化學習策略的對抗攻擊和防御是建立在是魯棒優化PGD的框架之上的

其中 表示的是, 表示的是對抗擾動序列集合 ,并且對于所有的  ,滿足以上公式提供了一個深度強化學習對抗攻擊和防御的統一框架。

一方面內部最小化優化去尋找對抗擾動序列 使得當前策略 做出錯誤的決策。另一方面外部最大化的目的是找到策略分布參數 使得在擾動策略下期望回報最大。經過以上對抗攻擊和防御博弈,會使得訓練過程中的策略參數 能夠更加抵御對抗攻擊。

目標函數內部最小化的目的是生成對抗擾動 ,但是對于強化學習算法來說學習得到最優對抗擾動是非常耗時耗力的,而且由于訓練環境對攻擊者來說是一個黑盒的,所以在該論文中,作者考慮一個實際的設定,即攻擊者在不同的狀態下去注入擾動。不想有監督學習攻擊場景中,攻擊者只需要欺騙分類器模型使得它分類出錯產生錯誤的標簽;在強化學習的攻擊場景中,動作值函數攻擊者提供了額外的信息,即小的行為值會導致一個小的期望回報。相應的,作者在深度強化學習中定義了最優對抗擾動如下所示

定義1: 一個在狀態s上最優的對抗擾動 能夠最小化狀態的期望回報

需要注意的是優化求解以上公式的是非常棘手的,它需要確保攻擊者能夠欺騙智能體使得其選擇最差的決策行為,然而對于攻擊者來說智能體的動作值函數是不可知的,所以無法保證對抗擾動是最優的。以下的定理能夠說明如果策略是最優的,最優對抗擾動能夠用不通過訪問動作值函數的方式被生成

定理1: 當控制策略是最優的,動作值函數和策略滿足以下關系

其中 表示的是策略熵, 是一個狀態依賴常量,并且當 變化到0的時候, 也會隨之變為0,進而則有以下公式

證明: 當隨機策略  達到最優的時候,值函數  也達到了最優,這也就是說,在每個狀態s下,找不到任何其它的行為分布使得值函數  增大。相應的,給定最優的動作值函數,可以通過求解約束優化問題獲得最優策略

其中第二和第三行表示 是一個概率分布,最后一行表示策略 是一個隨機策略,根據KKT條件則可以將以上優化問題轉化為如下形式:

其中。假定  對于所有的行為  是正定的,則有:

當 ,則必有 ,進而則有對于任意的 ,則有從而會得到動作值函數和策略的softmax的關系

其中,進而有

將以上的第一個等式帶入到第二中,則有

其中

以上公式中  表示的是一個softmax形式的概率分布,并且它的熵等于 。當 等于0的時候, 也變為0.在這種情況下, 是要大于0的,則此時

定理1展示了如果策略是最優的情況下,最優擾動可以通過最大化擾動策略和原始策略的交叉熵來獲得。為了討論的簡便,作者將定理1的攻擊稱之為策略攻擊,而且作者使用PGD算法框架去計算最優的策略攻擊,具體的算法流程圖如下算法1所示。

作者提出的防御對抗擾動的魯棒優化算法的流程圖如下算法2所示,該算法被稱之為策略攻擊對抗訓練。在訓練階段,擾動策略 被用作去和環境交互,與此同時擾動策略的動作值函數被估計去幫助策略訓練。

具體的細節為,首先在訓練階段作者使用策略攻擊去生成擾動,即使值函數沒有保證被減小。在訓練的早期階段,策略也許跟動作值函數不相關,隨著訓練的進行,它們會慢慢滿足softmax 的關系。

另一方面作者需要精確評估動作值函數很難處理,因為軌跡是通過運行受干擾的策略收集的,而使用這些數據估計未受干擾策略的作用值函數可能非常不準確。

使用PPO的優化擾動策略的目標函數為

其中,并且 是擾動策略平均函數的一個估計。在實際中,是由方法GAE估計得來的。具體的算法流程圖如下圖所示。

 04 實驗結果

如下右側的三個子圖顯示了不同攻擊擾動的結果。可以發現經過逆向訓練的策略和標準策略都能抵抗隨機擾動。相反,對抗攻擊會降低不同策略的性能。結果取決于測試環境和防御算法,進一步可以發現三種對抗性攻擊算法之間的性能差距很小。

相比之下,在相對困難的設置環境中,論文作者提出的策略攻擊算法干擾的策略產生的回報要低得多。總體而言,論文中提出的策略攻擊算法在大多數情況下產生的回報最低,這表明它確實是所有經過測試的對抗攻擊算法中效率最高的。

如下圖所示顯示了不同防御算法以及標準PPO的學習曲線。需要注意的是性能曲線僅表示用于與環境交互的策略的預期回報。在所有的訓練算法中,論文中提出的ATPA具有最低的訓練方差,因此比其他算法更穩定。另外還能注意到,ATPA的進度比標準PPO慢得多,尤其是在早期訓練階段。這導致了這樣一個事實,即在早期的訓練階段,受不利因素干擾會使得策略訓練非常不穩定。

表總結了使用不同算法在不同擾動下的策略預期回報。可以發現經過ATPA訓練的策略能夠抵抗各種對抗干擾。相比之下,盡管StageWise和DataAugment在某種程度上學會了處理對抗攻擊,但它們在所有情況下都不如ATPA有效。

為了進行更廣泛的比較,作者還評估了這些防御算法對最有效的策略攻擊算法產生的不同程度的對抗干擾的魯棒性。如下圖所示,ATPA再次在所有情況下獲得最高分數。此外,ATPA的評估方差遠小于StageWise和DataAugment,表明ATPA具有更強的生成能力。

為了達到類似的性能,ATPA需要比標準PPO算法更多的訓練數據。作者通過研究擾動策略的穩定性來深入研究這個問題。作者計算了通過在訓練過程中間和結束時使用不同隨機初始點的PGD執行策略攻擊而獲得的擾動策略的KL散度值。如下圖所示,在沒有對抗訓練的情況下,即使標準PPO已經收斂,也會不斷觀察到較大的KL 散度值,這表明策略對于使用不同初始點執行PGD所產生的擾動非常不穩定。

下圖顯示了具有不同初始點的擾動策略的KL散度圖,可以發現圖中的每個像素表示兩個擾動策略的KL散度值,這兩個擾動策略通過最大化ATPA算法的核心公式給出。需要注意的是由于KL散度是一個非對稱度量,因此這些映射也是不對稱的。

? ?

責任編輯:張燕妮 來源: 我愛計算機視覺
相關推薦

2025-03-07 09:24:00

2023-12-03 22:08:41

深度學習人工智能

2021-09-17 15:54:41

深度學習機器學習人工智能

2022-03-25 10:35:20

機器學習深度學習強化學習

2024-01-26 08:31:49

2013-10-12 13:40:09

2020-05-12 07:00:00

深度學習強化學習人工智能

2022-07-01 12:25:34

AI機器學習系統

2023-01-04 10:02:53

強化學習自動駕駛

2022-12-01 08:00:00

2017-08-22 15:56:49

神經網絡強化學習DQN

2022-09-04 14:38:00

世界模型建模IRIS

2024-11-29 16:33:24

2020-08-10 06:36:21

強化學習代碼深度學習

2023-03-09 08:00:00

強化學習機器學習圍棋

2023-03-23 16:30:53

PyTorchDDPG算法

2021-09-26 13:50:52

AI 數據強化學習

2025-05-28 02:25:00

2025-01-03 11:46:31

2020-11-12 19:31:41

強化學習人工智能機器學習
點贊
收藏

51CTO技術棧公眾號

玖玖玖电影综合影院| 免费一级在线观看播放网址| 亚洲 高清 成人 动漫| 在线视频 91| 国内成人在线| 国产一区av在线| 少妇欧美激情一区二区三区| 中文字幕资源网在线观看免费| 欧美极品aⅴ影院| 国产91社区| 中文字幕码精品视频网站| 伊人色**天天综合婷婷| 日韩电影中文 亚洲精品乱码| 手机在线看福利| 美女网站视频在线| 国产精品网站一区| 国产精品一区二| 国产精品露脸视频| 亚洲精一区二区三区| 日韩中文字幕视频在线| 先锋资源av在线| а天堂中文最新一区二区三区| 天天色图综合网| 欧美精品一区二区性色a+v| 亚洲欧美丝袜中文综合| 国产成人自拍高清视频在线免费播放| 国产成人精品一区| 日产精品久久久久久久| 自产国语精品视频| 在线免费观看羞羞视频一区二区| www.555国产精品免费| 亚洲免费资源| 欧美在线一二三四区| 欧美日韩激情视频在线观看| 在线h片观看| 国产精品看片你懂得| 欧美亚洲一级二级| 国产91在线视频| 天天色天天干天天色| 成人日韩在线观看| 色综合久久综合网97色综合| 精品人妻少妇一区二区| 在线视频观看国产| 亚洲欧洲av一区二区三区久久| 欧美一区二区三区精美影视 | 免费看黄色aaaaaa 片| 亚洲一区二区三区在线免费| 欧美一区二区三区四区五区| 日本黄色的视频| 久久久久久久性潮| 欧美日韩亚洲另类| 日韩一级免费片| 欧美jizz18| 欧美日韩aaa| 日韩成人精品视频在线观看| 日本电影久久久| 欧美日本免费一区二区三区| 鲁一鲁一鲁一鲁一av| 国内欧美日韩| 欧美日本在线看| 天堂av.com| 亚洲精品一区国产| 亚洲精品国产综合区久久久久久久| 久久免费精品国产| 久久人人爽人人爽人人片av不| 亚洲国产精品久久久久| 亚洲欧美日本一区| 国产成人av| 日韩在线播放av| 91日韩中文字幕| 亚洲欧洲日本mm| 欧美一区二区三区…… | 日韩欧美国产电影| 五月天激情小说| 国产探花在线精品| 最近2019中文免费高清视频观看www99 | 奇门遁甲1982国语版免费观看高清 | 中文在线播放一区二区| 欧美高清在线播放| 国产精品久久综合av爱欲tv| 黄色片视频免费观看| 女人丝袜激情亚洲| 色妞在线综合亚洲欧美| 九九热最新地址| 在线国产欧美| 国产精品久久久久999| 国产乱淫a∨片免费观看| 成人自拍视频在线观看| 蜜桃久久精品乱码一区二区| www.亚洲资源| 亚洲激情在线播放| 国产免费一区二区三区视频| 欧美国产日韩电影| 精品国内二区三区| 精品无码人妻一区二区免费蜜桃| 999精品一区| 性欧美在线看片a免费观看| 日韩欧美国产另类| 国产精品456| 日韩成人av电影在线| 免费人成在线观看播放视频| 婷婷久久综合九色综合绿巨人| 99草草国产熟女视频在线| 欧美中文高清| 国产亚洲一区精品| 国产第一页第二页| 免费av成人在线| 国产伦精品一区二区三区在线 | 天天操天天摸天天爽| 亚洲福利合集| 日日骚av一区| 中文字幕精品无码一区二区| 国产精品一区三区| 亚洲精品国产精品国自产| jizzjizz中国精品麻豆| 欧美美女一区二区三区| 无码一区二区三区在线| 国产精品黄色| 成人精品aaaa网站| 黄色小视频在线免费观看| 亚洲国产日韩av| 一本之道在线视频| 成人羞羞网站入口免费| 2019中文在线观看| 好吊色一区二区| 亚洲欧美日韩国产综合| 一本色道久久亚洲综合精品蜜桃| 全国精品免费看| 欧美黑人狂野猛交老妇| 国产一区二区在线视频聊天| 国产日韩成人精品| 欧美日韩在线不卡视频| 欧美一区二区三区红桃小说| 欧美激情亚洲综合一区| 国产成人麻豆精品午夜在线| 国产精品初高中害羞小美女文| 妞干网在线免费视频| 欧美网色网址| 欧美一级淫片videoshd| 天天综合网天天综合| 亚洲国产裸拍裸体视频在线观看乱了| 一级片免费在线观看视频| 久久久综合色| 国产自产女人91一区在线观看| 成人午夜影视| 欧美日韩亚州综合| 国产精品一区二区亚洲| 蜜桃传媒麻豆第一区在线观看| 日韩视频在线播放| 丁香久久综合| 一区二区三区国产视频| 中文字幕免费高清在线观看| 国产精品传媒视频| 污视频在线观看免费网站| 欧美日韩亚洲三区| 国产精品日韩一区二区| 麻豆免费在线| 日韩久久午夜影院| 午夜精品免费观看| 国产精品丝袜久久久久久app| 污片在线免费看| 99九九热只有国产精品| 亚洲最大成人免费视频| 色呦呦呦在线观看| 亚洲黄色av女优在线观看| 久久国产黄色片| 日本一区二区免费在线| 中文字幕 欧美日韩| 欧美日韩国产一区精品一区| 国产美女在线精品免费观看| 最近在线中文字幕| 中文字幕av一区二区| av中文字幕免费| 亚洲成av人片一区二区三区| japanese中文字幕| 国产在线精品一区二区夜色| 日韩欧美精品免费| 精品在线99| 91亚洲午夜在线| 欧美激情网站| 日韩亚洲精品视频| 少妇人妻一区二区| 欧美在线一二三| 久久久久久久9999| 国产区在线观看成人精品 | 欧美成人中文字幕| 天堂91在线| 欧美久久久久中文字幕| 日韩精品久久久久久久| 中文字幕免费不卡在线| 真实乱偷全部视频| 天堂蜜桃一区二区三区| 免费观看亚洲视频| 亚洲美女15p| 亚洲已满18点击进入在线看片| 中文av在线全新| 蜜臀久久99精品久久久无需会员 | 亚洲欧美另类中文字幕| 九一国产在线观看| 综合色中文字幕| 青青草成人免费视频| 久久99国产精品免费网站| 福利视频一二区| 91嫩草亚洲精品| 久久99精品久久久久久秒播放器| 台湾天天综合人成在线| 97碰在线观看| 污污的网站在线看| 中文字幕亚洲国产| 天天操天天舔天天干| 欧美日韩成人一区| 波多野结衣家庭主妇| 亚洲不卡在线观看| 99鲁鲁精品一区二区三区| 久久亚区不卡日本| 亚洲少妇中文字幕| 精品一区二区三区久久久| 99热成人精品热久久66| 在线观看视频免费一区二区三区| 亚洲电影一二三区| 中文字幕伦av一区二区邻居| 国产二区一区| 久久丁香四色| 91精品国产综合久久男男| 欧美电影网站| 91av在线播放| heyzo一区| 欧美激情亚洲精品| www.久久久久.com| 久久人人爽亚洲精品天堂| 国产大片在线免费观看| 精品视频在线观看日韩| 男人天堂综合网| 精品少妇一区二区| 99久久久久成人国产免费| 欧美日本精品一区二区三区| 涩涩视频在线观看| 欧洲激情一区二区| 欧美超碰在线观看| 91黄色在线观看| 337p粉嫩色噜噜噜大肥臀| 欧美天天综合色影久久精品| 日韩精品人妻中文字幕| 日本成人小视频| 日韩欧美一卡二卡| 国产欧美第一页| 欧美精品乱码久久久久久按摩| 亚洲永久精品一区| 欧美日韩亚洲高清一区二区| 7777久久亚洲中文字幕| 欧美日韩黄视频| 亚洲一区二区色| 91精品国产综合久久香蕉麻豆| 97人妻精品一区二区三区软件| 欧美精品免费视频| 亚洲国产精彩视频| 日韩av在线最新| 九色视频成人自拍| 在线亚洲男人天堂| 国内精品久久久久久野外| 久久影院资源网| 精品一性一色一乱农村| 国语自产精品视频在免费| 国产精品电影| 国产精品国产福利国产秒拍| 91国内外精品自在线播放| 91精品国产综合久久久久久蜜臀 | 99在线精品免费视频九九视| 欧美精品99久久| 久久亚洲风情| 欧美国产日韩另类 | 男女全黄做爰文章| 一区二区三区精品在线观看| 中日韩黄色大片| 欧美少妇一区二区| 亚洲av无码专区在线| 亚洲精品短视频| 免费看a在线观看| 久久久久久久久久亚洲| 日韩电影av| 亚洲最大激情中文字幕| 日日狠狠久久偷偷综合色| 亚洲一区二区在线看| 欧美日韩国内| 香蕉视频禁止18| 国产精品99久久久久| v8888av| 亚洲日韩欧美一区二区在线| 日韩毛片在线播放| 欧美日韩午夜精品| 色呦呦免费观看| 搡老女人一区二区三区视频tv| 国产在线xxx| 国产精品久久久久久亚洲调教| 99re6热只有精品免费观看| 日韩精品最新在线观看| 黄色av日韩| 污视频网址在线观看| 91女人视频在线观看| 男的操女的网站| 日本精品一区二区三区高清| 性中国xxx极品hd| 中文字幕一区二区三区电影| 国产美女高潮在线观看| 91欧美日韩一区| 国产精品探花在线观看| 国产一区二区四区| 精品一区二区久久久| 日本黄色特级片| 亚洲一区二区三区国产| 一级片视频播放| 亚洲美女久久久| a毛片不卡免费看片| 91亚洲va在线va天堂va国| 精品久久综合| 日本精品免费在线观看| 成人精品小蝌蚪| 欧美精品久久久久久久久46p| 91福利视频网站| 午夜在线观看视频18| 欧美国产第二页| 国产欧美88| 日本黄色播放器| 蜜臀久久99精品久久久久久9| 久久国产精品无码一级毛片| 亚洲主播在线播放| 国产www视频| 乱亲女秽乱长久久久| 免费一级欧美在线观看视频| 欧洲一区二区日韩在线视频观看免费| 亚洲精品影视| 日韩Av无码精品| 亚洲成人自拍网| 国产综合无码一区二区色蜜蜜| 久久精品99久久久久久久久| 日韩伦理一区二区| 一区不卡字幕| 久久se这里有精品| 我想看黄色大片| 欧美亚洲动漫精品| 97超碰人人在线| 国产剧情日韩欧美| 91久久夜色精品国产按摩| 奇米视频7777| 亚洲欧洲www| 亚洲爆乳无码一区二区三区| 欧美高跟鞋交xxxxxhd| 91精品导航| 欧美亚洲日本一区二区三区| 9l国产精品久久久久麻豆| 日本三级视频在线| 亚洲国产精品热久久| 综合日韩av| 水蜜桃一区二区| 精品一区精品二区高清| 一区二区成人免费视频| 日韩欧美国产一二三区| 97人人爽人人澡人人精品| 久久久久久久有限公司| 久久尤物视频| 日韩精品久久久久久久的张开腿让| 欧美日韩亚州综合| 午夜dj在线观看高清视频完整版| 国产91免费视频| 久久久久久9| 欧美一级特黄高清视频| 日韩欧美成人一区| 日本а中文在线天堂| 深夜福利成人| 国产成人亚洲综合a∨猫咪| 国产成人精品亚洲男人的天堂| 亚洲另类激情图| 欧美爱爱视频| 欧美中日韩在线| 久久视频一区二区| 国产精品毛片一区视频播| 久久久久久久成人| 国产一区二区三区四区| 天堂网成人在线| 欧美日韩一区二区免费在线观看 | 一片黄亚洲嫩模| 午夜激情小视频| 国产综合久久久久久| 日韩视频中文| 中文字幕美女视频| 亚洲精品美女在线| 欧美综合影院| 91专区在线观看| 亚洲欧洲成人精品av97| 午夜视频免费看| 成人精品在线视频| 午夜一区不卡| 翔田千里88av中文字幕| 日韩精品999| 国产高清精品二区| 日本少妇高潮喷水视频| 亚洲人妖av一区二区| 男男激情在线| 国产欧美一区二区三区另类精品| 日本欧美韩国一区三区|