精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

強化學習應用在自動駕駛中:一種通過人指導并基于優先經驗的方法

人工智能 無人駕駛
強化學習(RL)需要定義和計算來解決優化和控制問題,這可能會損害其發展前景。將人的指導引入強化學習是提高學習性能的一種很有前途的方法,本文建立了一個基于人指導的強化學習框架。

[[428302]]

 arXiv在2021年9月26日上傳的論文“Prioritized Experience-based Reinforcement Learning with Human Guidance: Methodology and Application to Autonomous Driving“,作者來自新加坡NTU(南洋理工)。

強化學習(RL)需要定義和計算來解決優化和控制問題,這可能會損害其發展前景。將人的指導引入強化學習是提高學習性能的一種很有前途的方法,本文建立了一個基于人指導的強化學習框架。

所提出的是一種在強化學習過程中適應人指導的 優先經驗重放(prioritized experience replay,PER) 機制,提高RL算法的效率和性能。為減輕人的繁重工作量,基于增量在線學習(incremental online learning)方法建立一個行為模型來模仿人。

作者設計了兩個具有挑戰性的自動駕駛任務來評估所提出的算法:一個是T-路口無保護左轉,另一個是高速堵車。

最近強化學習引入深度神經網絡提出了一些流行方法,如rainbow deep Q-learning, proximal policy optimization (PPO) 和 soft actor-critic (SAC), 能夠處理高維環境表征和泛化等。

不過問題是環境和智體的交互比較低效率。為此引入人的指導,有3個途徑:1)人的專家反饋,給行為打分(behavior score);2)人的干預,一般是reward shaping方法;3)人的演示,上下文中監督學習。

如圖是本文方法的RL算法框架:

提出的基于人指導優先經驗回放(PER)機制中,TDQA表示提出的優先計算方案,即Time Difference Q-advantage,數字1-4表示數據的流向順序,動作信號的虛線表示該框架允許間歇性的人在環(human-in-the-loop )的指導。

強化學習基于離散MDP來定義交互過程,這里采用不帶策略的AC(actor- critic)架構。策略函數(即 actor )最大化價值函數Q,Q來自累計的未來reward,基于一個Bellman價值函數(即 critic )。

這個Bellman 價值函數只對最優策略進行評估,而不管執行交互的策略。 因此,RL 將策略評估過程和策略行為解耦,這使智體以一種不帶策略的方式更新狀態。

作者用神經網絡作為函數逼近來制定actor和 critic,然后可以通過損失函數實現目標。

傳統上,緩沖區存儲的經驗服從均勻分布,用均勻隨機抽樣從緩沖區獲取批量經驗,用于 RL 訓練。在有限經驗重放機制中,經驗受制于非均勻分布,實際優先級取決于TD誤差(temporal difference error)。

較大的 TD誤差表明,經驗值得在更高程度上學習。 因此,基于 TD誤差的優先經驗回放(PER)機制可以提高 RL 的訓練效率。

在強化學習的訓練中,采用了兩種人指導的行為方式:干預和演示。

干預 :人的參與者識別 RL 交互場景,并根據先驗知識和推理能力確定是否應該進行指導。 如果人參與者決定進行干預,可以操縱設備從 RL 智體(部分或全部)獲得控制權。 干預通常發生在 RL 智體做災難性操作或陷入局部最優陷阱。 因此,RL 可以學會避免干預出現的不利情況。

演示 :當干預事件發生時,人的參與者會執行行動,產生相應的獎勵信號和下一步狀態。 生成的轉換組(transition tuple)可以看作是一段演示數據,因為是由人策略而不是 RL 行為策略造成的。 RL 算法可以從演示中學習人的專家行為。

在 RL 智體與環境的標準交互中,RL 的行為策略會輸出探索環境的動作。一旦動作被發送到環境,交互的轉換組將被記錄并存儲到經驗重放緩存(buffer)。 特別注意的是,來自人的策略和 RL 策略的操作存儲在同一個緩沖區中。

由于先驗知識和推理能力,人的演示通常比 RL 行為策略的大多數探索更重要。 因此,需要一種更有效的方法來加權緩存的專家演示。 文中采用一種 基于優點的度量( advantage-based measure  ,而不是傳統的優先經驗重放(PER) TD 誤差,以建立優先專家演示重放機制。

除了TD 誤差度量外,該優點度量(因為基于Q計算,故稱為 QA ,即 Q-advantage )也評估應該在多大程度去檢索特定的專家演示轉換組。通過 RL 訓練過程,RL 智體的能力發生變化,一個專家演示轉換組的優先級也隨之變化,這就產生了動態優先機制。整個機制稱為 TDQA ,把兩個度量組合成一個對人的指導測度。

優先機制引入了對價值函數期望估計的偏差,因為它改變了緩存中的經驗分布。 有偏的價值網絡對強化學習漸近性影響不大,但在某些情況下可能會影響成熟策略的穩定性和魯棒性。 作為可選操作,可以通過引入重要性采樣(importance-sampling )權重到價值網絡的損失函數,來退火偏差。

下面討論人的參與者在 RL 訓練環的行為:人的參與者可以干預該過程獲得控制權,并用專家行動替代 RL 智體行動;由于持續重復訓練情節和未成熟的 RL 策略,人的參與者在訓練過程中不斷進行演示顯得很乏味,因此間歇性干預(intermittent intervention)成為更可行的解決方案。 這種情況下,人參與者只會干預那些關鍵場景(災難行為或陷入局部最優)拯救 RL 智體并延長訓練時間。

這里采用reward shaping方法,可防止 RL 陷入那些人為干預的狀態。 然而,它僅在一個人為干預事件的第一時間觸發懲罰。 這背后的原理是,一旦人的參與者獲得控制權,其專家演示會慣性地持續一段時間,這里只有最初的場景被確認為關鍵場景。

下面把上述組件集成在一起,即優先人在環( Prioritized Human-In-the-Loop,即PHIL ) RL。具體來說,通過基于人指導的actor- critic框架,配備優先專家演示重放和基于干預的reward shaping 機制來獲得整體的人在環 (human-in-the-loop)RL 配置。 基于不帶策略 RL 算法,即雙延遲深度確定性策略梯度(twin delayed deep deterministic policy gradient, TD3 ),來實例化這個 PHIL 算法。 上述組件適用于各種 不帶策略的 actor-critic RL 算法。

最后,整個PHIL-TD3算法總結如下所示:

結合前面的PHIL-RL,需要一個人的策略模型。該模型通過模仿實際人參與者的行為策略,來減輕人在環 RL 過程的工作量。

雖然人參與者進行 PHIL-RL 對提高性能最有幫助,但過度參與會使人疲勞。 作者訓練了一個回歸模型,與 RL 運行同時模仿人類策略,這個策略模型在必要時可以替代人。

分析一下RL 訓練過程的人行為:人類干預間歇性地施加到環中,人演示逐漸補充到訓練集(緩存)中;考慮到這一點,利用在線-和基于增量-的模仿學習算法(即Data Aggregation,DAgger)訓練人策略模型,該算法不受離線大規模演示數據的收集影響。

注意:如果使用這個人策略模型與 PHIL 合作,模型的激活條件將根據特定環境手動定義。

下面討論如何應用在自動駕駛場景:選擇端到端問題的兩個應用,即T-路口無保護左轉和高速堵車。

如圖是自動駕駛任務的環境配置: a 在 CARLA 建立的 T -路口設計的無保護左轉場景; b 左轉場景鳥瞰圖,紅色虛線表示左轉軌跡; c 設計的在 CARLA 建立的高速公路擁堵場景; d 擁堵場景的鳥瞰圖,其中紅色虛線表示跟車軌跡。

T-路口無保護左轉 :小路的自車試圖左轉并匯入主干道,路口沒有交通信號引導車輛;假設自車的橫向路徑由其他技術規劃,而縱向控制分配給 RL 智體;周圍車輛以 [4, 6] m/s 范圍隨機的不同速度進行初始化,并由intelligent driver model (IDM) 控制執行車道保持行為;所有周圍的駕駛員都具有侵略性,這意味著他們不會讓路給自車;所有車輛的控制間隔設為 0.1 秒。

高速擁堵 :自車陷入嚴重擁堵并被其他車輛緊緊包圍; 因此它試圖縮小與領先車的差距,并以目標速度進行跟車;假設縱向控制由 IDM 完成,目標速度為 6m/s,而橫向控制分配給 RL 智體;周圍車輛初始化速度范圍為 [4, 6] m/s,并由 IDM 控制以執行跟車行為;所有車輛的控制間隔設置為 0.1 秒;擁擠的周圍車輛覆蓋了車道標記,而自車道沒有特定的前車,在這種情況下可能導致傳統的橫向規劃方法無效。

下面定義RL的狀態

RL的動作對兩個場景是不同的:

T-路口左轉

高速擁堵

獎勵(reward)對兩個場景也是不同的:

T-路口左轉

高速

價值和策略函數的近似采用Deep CNN,如圖所示:a)策略函數;b)價值函數

輔助函數:主要做車輛控制;當RL操縱方向盤時,縱向控制由IDM實現;當 RL 操縱踏板縫隙時,橫向運動目標是通過比例積分 (PI) 控制器跟蹤規劃的航路點。

實驗比較的基準算法是:

  • IA-TD3:Intervention Aided Reinforcement Learning (IARL)
  • HI-TD3:Human Intervention Reinforcement Learning (HIRL)
  • RD2-TD3:Recurrent Replay Distributed Demonstration-based DQN (R2D3)
  • PER-TD3:vanilla Prioritized experience replay (PER)

RL訓練和推理的實驗工作流如圖(a-b)所示:

訓練 硬件包括駕駛模擬器和高性能工作站。駕駛模擬器用于收集人駕駛數據以訓練人的策略模型,工作站專門處理 RL 訓練。 采用高保真自動駕駛仿真平臺 CARLA來實現駕駛場景并生成RL-環境交互信息。

測試 硬件是機器人車輛。訓練后的RL策略在車輛的計算平臺上實現,通過無線網絡與CARLA服務器進行通信。車載 RL 策略從 CARLA 接收狀態信息并將其控制命令發回,遠程操作完成自動駕駛任務。機器人車輛旨在測試 RL 策略在當前車載計算和通信情況下是否有效。

部分實驗結果比較如下:

作者提出了一種算法 PHIL-TD3,旨在提高人在環 (human-in-the-loop )RL 的算法能力。 另外,引入了人的行為建模機制來減輕人參與者的工作量。 PHIL-TD3 解決兩個具有挑戰性的自動駕駛任務,即無保護T-路口左轉和高速擁堵。

 

責任編輯:張燕妮 來源: 知乎
相關推薦

2023-01-04 10:02:53

強化學習自動駕駛

2023-08-05 13:08:54

2021-10-15 15:29:59

自動駕駛數據人工智能

2023-06-13 10:00:21

自動駕駛技術

2017-07-30 15:16:31

深度強化學習遷移交叉路口

2024-04-10 14:10:33

自動駕駛強化學習

2024-03-22 09:21:07

自動駕駛訓練

2025-01-26 11:00:00

2021-10-18 10:32:32

自動駕駛數據人工智能

2023-11-20 09:53:13

自動駕駛系統

2017-07-21 10:42:27

自動駕駛應用機器學習

2025-03-24 09:50:00

大模型自動駕駛AI

2024-03-08 09:29:42

車道檢測AI

2009-12-25 15:11:08

FTTH應用

2021-10-09 09:44:50

自動駕駛數據人工智能

2022-02-07 22:52:07

自動駕駛安全技術

2023-03-23 18:42:45

AI強化學習

2021-12-16 10:45:22

自動駕駛數據人工智能

2022-06-21 14:53:39

自動駕駛物聯網傳感器
點贊
收藏

51CTO技術棧公眾號

日韩国产小视频| 91中文在线观看| 麻豆精品免费视频| 国产精品黄色片| 亚洲精品乱码久久久久久日本蜜臀| 成人综合av网| 自拍偷拍校园春色| 欧美成人日韩| 国产一区二区三区在线视频| 国产九九九视频| 影视一区二区三区| 亚洲午夜精品在线| 日韩福利视频| 六月婷婷综合网| 九九久久精品视频| 亲子乱一区二区三区电影| 中文字幕在线2021| 国模精品一区| 日韩精品一区二区视频| 99中文字幕在线| 国产v综合v| 亚洲一区二区三区四区在线免费观看 | 亚洲一二三在线| 无码人妻丰满熟妇啪啪网站| 99热播精品免费| 欧美日韩性视频在线| 国产一二三四区在线观看| 成人高清免费在线播放| 不卡的av在线播放| 亚洲综合中文字幕在线| 中文字幕日韩经典| 视频一区国产视频| 韩国19禁主播vip福利视频| 内射一区二区三区| 久久亚洲国产| 最近的2019中文字幕免费一页| 成人免费无码大片a毛片| 57pao国产一区二区| 欧美一区二区三区白人| 天堂av8在线| 亚洲a∨精品一区二区三区导航| 天天亚洲美女在线视频| 久久99久久久久久| 国产蜜臀在线| 亚洲综合图片区| 狠狠精品干练久久久无码中文字幕 | 国产成人免费在线| 97超碰最新| 超碰在线观看av| 国产成人一级电影| 国产精品一区二区性色av| 亚洲精品毛片一区二区三区| 日韩和的一区二区| 国产成人精品综合| 欧美成人一区二区三区四区| 老司机午夜精品视频在线观看| 2019中文字幕免费视频| 西西44rtwww国产精品| 国产手机视频一区二区 | 国产一级做a爱片久久毛片a| 伊人成人网在线看| 97精品伊人久久久大香线蕉| 六月丁香在线视频| 美女久久网站| 国产拍精品一二三| 99产精品成人啪免费网站| 国产精品一区二区果冻传媒| 懂色一区二区三区av片| 人妻无码中文字幕| 久久噜噜亚洲综合| 亚洲午夜精品久久久中文影院av | 亚洲欧洲综合另类| 91成人综合网| 亚洲国产福利| 欧美在线一二三四区| 加勒比av中文字幕| 66精品视频在线观看| 亚洲精品在线看| 九九热久久免费视频| 自由日本语亚洲人高潮| 性欧美xxxx视频在线观看| 久久午夜鲁丝片| 韩国理伦片一区二区三区在线播放| 91精品国产99久久久久久红楼| 国产91免费看| 国产人妖乱国产精品人妖| 爱爱爱视频网站| 98色花堂精品视频在线观看| 91成人在线精品| 亚洲精品一二三四| 蜜乳av综合| 久久久精品影院| 可以在线观看av的网站| 裸体一区二区三区| 精品国产91亚洲一区二区三区www| 国产特黄在线| 亚洲一区二区三区四区五区中文| 少妇性l交大片| 亚洲国产高清在线观看| 亚洲人成电影在线观看天堂色| 黄色a级片在线观看| 亚洲综合国产| 亚洲一区二区自拍| 国产视频网址在线| 亚洲一区二区三区四区的| 国产精品拍拍拍| 国产主播性色av福利精品一区| 在线播放国产精品| 日韩欧美中文字幕一区二区| 美女精品自拍一二三四| 精品视频高清无人区区二区三区| 免费大片黄在线观看视频网站| 福利视频导航一区| 一级全黄裸体片| 99久久久久| 国产精品v日韩精品| 色偷偷在线观看| 亚洲精选一二三| 一级黄色录像在线观看| 要久久电视剧全集免费| 久久久视频精品| 国产夫妻在线观看| 国产精品高潮呻吟久久| 国产又黄又猛视频| 欧美人妖在线观看| 久久久久久久一| av无码精品一区二区三区宅噜噜| 国产精品久线在线观看| 超碰av在线免费观看| 色先锋久久影院av| 国模叶桐国产精品一区| 国产xxxx在线观看| 亚洲视频一二三区| 潘金莲激情呻吟欲求不满视频| 精品久久综合| 国产91亚洲精品| 精华区一区二区三区| 欧美性69xxxx肥| 捆绑凌虐一区二区三区| 亚洲人体大胆视频| 国产伦精品一区二区三区免费视频| а√中文在线8| 91麻豆精品国产91久久久 | 国产在线视频福利| 色综合天天性综合| 丰满少妇高潮一区二区| 可以免费看不卡的av网站| 欧美日韩成人一区二区三区| 一区一区三区| 国产亚洲欧美日韩精品| 中文字幕第一页在线播放| 日本一区二区三区免费乱视频| 日日摸天天爽天天爽视频| 欧美精品久久久久久 | 一区二区三区亚洲变态调教大结局| 久久人人爽人人爽爽久久| 国产一区二区三区中文字幕| 亚洲视频精选在线| 99国产精品免费视频| 欧美视频在线观看| 国产不卡一区二区在线观看| av资源中文在线天堂| 日韩精品欧美国产精品忘忧草| 日本a级c片免费看三区| 中文字幕av一区二区三区高| 欧美精品久久久久久久久25p| 欧美电影三区| 97久久人人超碰caoprom欧美| 成年网站在线视频网站| 日韩精品丝袜在线| 在线观看免费视频一区| 亚洲精品视频在线观看网站| 精品国产一区在线| 日韩综合一区二区| 中文字幕の友人北条麻妃| 精品网站aaa| 国产精品吊钟奶在线| 日韩欧美小视频| 亚洲国产一区二区三区在线观看| 国产视频1区2区| 自拍偷拍国产精品| 国产呦小j女精品视频| 精品一区二区三区的国产在线播放| 日韩精品福利片午夜免费观看| 欧美美女在线直播| 国产欧美一区二区白浆黑人| 久久大胆人体| 亚洲欧美一区二区三区四区| 国产99对白在线播放| 狠狠色香婷婷久久亚洲精品| 少妇高潮惨叫久久久久| 成人黄色大片在线观看| 亚洲老女人av| 日韩视频在线一区二区三区| 亚洲一区二区精品在线| 国产精品巨作av| 国产在线视频2019最新视频| 国产高清中文字幕在线| 久久亚洲精品成人| 久草福利在线视频| 欧美大肚乱孕交hd孕妇| 亚洲精品国产欧美在线观看| 亚洲国产精品一区二区www在线| 永久免费av无码网站性色av| 国产成人精品一区二| 欧美三级理论片| 日韩视频一区| 人妻无码一区二区三区四区| av在线不卡顿| 精品视频在线观看| 欧洲大片精品免费永久看nba| 国产成人精品一区二区在线| 国产一二在线播放| 欧美成人精品在线| 91高清在线视频| 亚洲精选一区二区| 三级网站免费观看| 日韩一区二区三区视频在线观看| 天天爱天天做天天爽| 精品久久久久久久久久| 久久亚洲AV无码| 亚洲欧美激情一区二区| 亚洲毛片亚洲毛片亚洲毛片| 久久精品免视看| 激情综合丁香五月| 成人午夜视频福利| 午夜免费视频网站| 国产真实精品久久二三区| 天天色综合天天色| 日韩精品一级中文字幕精品视频免费观看 | 免费在线观看成人| 粗暴91大变态调教| 国产精品普通话对白| 久操网在线观看| 韩国av一区| 国产精品视频网站在线观看| 亚洲成人最新网站| 最新中文字幕久久| 婷婷亚洲最大| 欧美日韩一区二区三区电影| 欧美gayvideo| 视频一区二区视频| 亚州av乱码久久精品蜜桃| 椎名由奈jux491在线播放| 婷婷亚洲最大| 粉嫩av一区二区三区天美传媒| 欧美激情第二页| 少妇大叫太大太粗太爽了a片小说| 亚洲中无吗在线| 国产 欧美 日本| 国产精品激情| 精品久久一二三| 久久久久国产精品一区二区| 欧美伦理片在线看| 麻豆精品视频在线观看免费| 天堂av8在线| 国产ts人妖一区二区| 插我舔内射18免费视频| 91网址在线看| 2019男人天堂| 国产精品传媒在线| 欧美日韩免费一区二区| 亚洲国产精品视频| 免费黄色网址在线| 欧美日韩一区二区三区高清| 国产亲伦免费视频播放| 精品久久一区二区三区| 天堂在线资源库| 一区二区三区动漫| 黄色动漫在线观看| 久久久久久久久久久成人| 亚洲国产福利| 91免费综合在线| 欧洲亚洲成人| 天堂√在线观看一区二区| 亚洲女同中文字幕| 毛片在线播放视频| 日本aⅴ免费视频一区二区三区| 午夜精品中文字幕| 成人国产精品免费网站| 91在线无精精品白丝| 中文字幕制服丝袜一区二区三区| 欧美黄色一区二区三区| 精品国产1区2区| 在线观看免费中文字幕| 亚洲激情在线观看| 91.xxx.高清在线| 欧美激情精品久久久久久蜜臀| 少妇淫片在线影院| 91欧美激情另类亚洲| 亚洲传媒在线| 黄色一级大片免费| 欧美专区18| 日本中文字幕有码| 欧美极品美女视频| 精品成人免费视频| 欧美老女人在线| 亚洲色欧美另类| 欧美成人精品一区| 成人精品一区二区三区电影| 成人免费看片网站| 日韩精品免费一区二区在线观看 | 爱福利在线视频| 国产精品亚洲第一区| 日韩高清成人在线| 97在线免费视频观看| 日本欧美一区二区三区| 伊人网综合视频| 洋洋av久久久久久久一区| 国产情侣免费视频| 亚洲男人的天堂在线| 色操视频在线| 91久久精品视频| 久久免费av| 国内自拍视频一区| 99国产精品99久久久久久| 四虎免费在线视频| 欧美日韩国产一二三| 久久久久国产精品嫩草影院| 国内自拍欧美激情| 136国产福利精品导航网址应用| 中文字幕欧美日韩一区二区三区| 视频一区国产视频| www.色天使| 天涯成人国产亚洲精品一区av| 亚洲a视频在线观看| 久热爱精品视频线路一| 国产成人免费精品| 日本视频精品一区| 久久av一区二区三区| 日韩www视频| 亚洲成av人片在线观看无码| 亚洲乱码在线观看| 亚洲小少妇裸体bbw| 欧美激情亚洲国产| 欧美中文高清| 欧美少妇在线观看| 国产精品乡下勾搭老头1| 一区二区三区影视| 91精品国产高清一区二区三区| 国产理论在线观看| 91九色国产社区在线观看| 国产精品久久久久久久久妇女| www.精品在线| 国产精品国模大尺度视频| 中文字幕一区二区三区人妻四季 | 日韩精品一区二| aaa大片在线观看| 91丨九色丨国产在线| 99国产**精品****| 国产5g成人5g天天爽| 亚洲免费观看高清| 99久久一区二区| 欧美另类极品videosbestfree| 欧美电影院免费观看| 日本中文字幕一级片| 国产成+人+日韩+欧美+亚洲| 久久久久久久久99| 亚洲精品aⅴ中文字幕乱码| 亚洲涩涩在线| 婷婷四房综合激情五月| 久久国产成人午夜av影院| 国产一区二区视频在线观看免费| 日韩欧美精品在线视频| 99色在线观看| 日本一区二区三区视频在线观看| 蜜臀精品久久久久久蜜臀| 国产黄色小视频网站| 欧美成人a在线| 女海盗2成人h版中文字幕| 日韩欧美亚洲日产国| 国产又粗又猛又爽又黄91精品| 久久成人在线观看| 亚洲欧美日韩爽爽影院| 黄色日韩网站| 中文字幕无码精品亚洲资源网久久| 伦xxxx在线| 4438全国亚洲精品在线观看视频| 国产一区二区精品久| 成人不卡免费视频| 亚洲亚洲人成综合网络| 欧美zzoo| 亚洲综合中文字幕68页| 国产亚洲精品bv在线观看| 男女男精品视频网站| 精品国产电影一区二区| 国产成人免费9x9x人网站视频| 麻豆传媒网站在线观看| 国产亚洲精品福利| 精品国自产拍在线观看| 日韩女优在线播放| 午夜精品亚洲| 精品人伦一区二区三电影| 欧美一级搡bbbb搡bbbb| 北岛玲heyzo一区二区| 免费极品av一视觉盛宴| 国产欧美日韩在线看| 欧美 日韩 国产 成人 在线 91| 国产精品成人v| 国产模特精品视频久久久久|