精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

從Transformer到擴散模型,一文了解基于序列建模的強化學習方法

人工智能 新聞
本文將簡單談談基于序列建模的強化學習方法。

大規模生成模型在近兩年為自然語言處理甚至計算機視覺帶來的巨大的突破。最近這股風潮也影響到了強化學習,尤其是離線強化學習(offline RL),諸如 Decision Transformer (DT)[1], Trajectory Transformer(TT)[2], Gato[3], Diffuser[4]這樣的方法,將強化學習的數據(包括狀態,動作,獎勵和 return-to-go)當成了一串去結構化的序列數據,并將建模這些序列數據作為學習的核心任務。這些模型都可以用監督或自監督學習的方法來訓練,避免了傳統強化學習中比較不穩定的梯度信號。即便使用復雜的策略提升 (policy improvement) 和估值 (value estimation) 方法,它們在離線強化學習中都展現了非常好的表現。

本篇將簡單談談這些基于序列建模的強化學習方法,下篇筆者將介紹我們新提出的,Trajectory Autoencoding Planner(TAP),一種用 Vector Quantised Variational AutoEncoder (VQ-VAE)進行序列建模并進行高效的隱動作空間(latent action space)內規劃的方法。

Transformer 與強化學習

Transformer 架構 [5] 于 2017 年提出之后慢慢引發了自然語言處理的革命,后續的 BERT 和 GPT-3 逐漸將自監督 + Transformer 這個組合不斷推向新的高度,在自然語言處理領域不斷涌現出少樣本 (few-shot) 學習等性質的同時,也開始向諸如計算機視覺的領域不斷擴散[6][7]。

然而對于強化學習來說,這個進程似乎在 2021 年之前都不是特別明顯。在 2018 年,多頭注意力機制也被引入強化學習 [8],這類工作基本都是應用在類似半符號化(sub-symbolic) 的領域嘗試解決強化學習泛化的問題。之后這類嘗試就一直處于一種不溫不火的狀態。根據筆者個人的體驗,實際上 Transformer 在強化學習上也并沒有展現出穩定的壓倒性的優勢,而且還很難訓練。在 20 年我們的一個用 Relational GCN 做強化學習的工作中 [9],我們其實也在背后試過 Transformer,但是基本比傳統結構(類似 CNN)差得多,很難穩定訓練得到一個能用的 policy。為什么 Transformer 和傳統在線強化學習(online RL)的相性比較差還是個開放問題,比如 Melo[10] 解釋說是因為傳統的 Transformer 的參數初始化不適合強化學習,在此我就不多做討論了。

2021 年年中,Decision Transformer (DT)和 Trajectory Transformer(TT)的發表掀起了 Transformer 在 RL 上應用的新大潮。這兩個工作的思路其實很直接:如果 Transformer 和在線強化學習的算法不是很搭,那要不干脆把強化學習當成一個自監督學習的任務?趁著離線強化學習這個概念也很火熱,這兩個工作都將自己的主要目標任務鎖定為建模離線數據集(offline dataset),然后再將這個序列模型用作控制和決策。

對于強化學習來說,所謂序列就是由狀態(state) s ,動作(action)圖片 ,獎勵(reward) r 和價值(value) v 構成的軌跡(trajectory) 圖片。其中價值目前一般是被用 return-to-go 來替代,可以被看成是一種蒙特卡洛估計(Monte Carlo estimation)。離線數據集就由這一條條軌跡構成。軌跡的產生和環境的動力學模型(dynamics)以及行為策略(behaviour policy)圖片有關。而所謂序列建模,就是要建模產生產生這個序列的概率分布(distribution),或者嚴格上說是其中的一些條件概率。

圖片

Decision Transformer

DT 的做法是建模一個從過往數據和價值到動作的映射 (return-conditioned policy),也就是建模了一個動作的條件概率的數學期望圖片 。這種思路很類似于 Upside Down RL[11],不過很有可能背后的直接動機是模仿 GPT2/3 那種根據提示詞(prompt) 完成下游任務的做法。這種做法的一個問題是要決定什么是最好的目標價值圖片沒有一個比較系統化的方法。然而 DT 的作者們發現哪怕將目標價值設為整個數據集中的最高 return,最后 DT 的表現也可以很不錯。

圖片

Decision Transformer, Figure 1

對于有強化學習背景的人來說,DT 這樣的方法能取得很強的表現是非常反直覺的。如果說 DQN,策略梯度(Policy Gradient)這類方法還可以只把神經網絡當成一個能做插值泛化的擬合函數,強化學習中的策略提升、估值仍然是構造策略的核心的話。DT 就完全可以說是以神經網絡為核心的了,背后它如何把一個可能不切實際的高目標價值聯系到一個合適的動作的整個過程都完全是黑箱。DT 的成功可以說從強化學習的角度來看有些沒有道理,不過我覺得這也正是這種實證研究的魅力所在。筆者認為神經網絡,或者說 Transformer 的泛化能力可能超乎整個 RL 社群之前的預期。

DT 在所有序列建模方法中也是非常簡單的,幾乎所有強化學習的核心問題都在 Transformer 內部被解決了。這種簡單性是它目前最受青睞的原因之一。不過它黑盒的性質也導致我們在算法設計層面上失去了很多抓手,傳統的強化學習中的一些成果很難被融入其中。而這些成果的有效性已經在一些超大規模的實驗(如 AlphaGo, AlphaStar, VPT)中被反復證實了。

Trajectory Transformer

TT 的做法則更類似傳統的基于模型的強化學習 (model-based RL) 的規劃(planning)方法。在建模方面,它將整個序列中的元素都離散化,然后用了 GPT-2 那樣的離散的自回歸(auto-regressive)方式來建模整個離線數據集。這使得它能夠建模任意給定除去 return-to-go 的序列的后續 圖片。因為建模了后續序列的分布,TT 其實就成為了一個序列生成模型。通過在生成的序列中尋找擁有更好的估值(value estimation)的序列,TT 就可以輸出一個“最優規劃”。至于尋找最優序列的方法,TT 用了一種自然語言常用的方法:beam search 的一種變種。基本上就是永遠保留已經展開的序列中最優的一部分序列圖片,然后在它們的基礎上尋找下一步的最優序列集 圖片

從強化學習的角度來說,TT 沒有 DT 那么離經叛道。它的有趣之處在于(和 DT 一樣)完全拋棄了原本強化學習中馬爾可夫決策過程(Markov Decision Process)的因果圖結構。之前的基于模型的方法比如,PETS, world model, dramerv2 等,都會遵循馬爾可夫過程(或者隱式馬爾可夫)中策略函數、轉移函數、獎勵函數等的定義,也就是狀態分布的條件是上一步的狀態,而動作、獎勵、價值都由當前的狀態決定。整個強化學習社區一般相信這樣能提高樣本效率,不過這樣的圖結構其實也可能是一種制約。自然語言領域從 RNN 到 Transformer 以及計算機視覺領域 CNN 到 Transformer 的轉變其實都體現了:隨著數據增加,讓網絡自己學習圖結構更有利于獲得表現更好的模型。

圖片

DreamerV2, Figure 3由于 TT 基本上把所有序列預測的任務都交給了 Transformer,Transformer 就能更加靈活地從數據中學習出更好的圖結構。如下圖,TT 建模出的行為策略根據不同的任務和數據集展現出不同的圖結構。圖左對應了傳統的馬爾可夫策略,圖右對應了一種動作滑動平均的策略。

圖片

Trajectory Transformer, Figure 4

Transformer 強大的序列建模能力帶來了更高的長序列建模精度,下圖展示了 TT 在 100 步以上的預測仍然保持了高精度,而遵循馬爾可夫性質的單步預測模型很快因為預測誤差疊加的問題崩潰了。

圖片

Trajectory Transformer, Figure 2TT 雖然在具體建模和預測方面和傳統方法有所不同,它提供的預測能力還是給未來融入強化學習的其它成果留出了很好的抓手。然而 TT 在預測速度上有一個重要問題:因為需要建模整個序列的分布,它將序列中所有的元素按照維度進行離散化,這也就是說一個 100 維的狀態就需要占用序列中的 100 個位置,這使得被建模的序列的實際長度很容易變得特別長。而對于 Transformer,它關于序列長度 N 的運算復雜度是 圖片,這使得從 TT 中采樣一個對未來的預測變得非常昂貴。哪怕 100 維以下的任務 TT 也需要數秒甚至數十秒來進行一步決策,這樣的模型很難被投入實時的機器人控制或者在線學習之中。

Gato

Gato 是 Deepmind 發表的“通才模型”,其實就是一個跨模態多任務生成模型。用同一個 Transformer 它可以完成從自然語言問答,圖片描述,玩電子游戲到機器人控制等各類工作。在針對連續控制(continous control)的建模方面 Gato 的做法基本上和 TT 類似。只不過 Gato 嚴格意義并不是在做強化學習,它只是建模了專家策略產生的序列數據,然后在行動時它只需要采樣下一個動作,其實是對專家策略的一種模仿。

圖片?

Gato Blog

其它序列生成模型:擴散模型

最近在圖片生成領域擴散模型(Diffusion Model)可以說是大紅大紫,DALLE-2 和 Stable Diffusion 都是基于它進行圖片生成的。Diffuser 就將這個方法也運用到了離線強化學習當中,其思路和 TT 類似,先建模序列的條件分布,然后根據當前狀態采樣未來可能的序列。

Diffuser 相比 TT 又擁有了更強的靈活性:它可以在設定起點和終點的情形下讓模型填充出中間的路徑,這樣就能實現目標驅動(而非最大化獎勵函數)的控制。它還可以將多個目標和先驗的達成目標的條件混合起來幫助模型完成任務。

圖片

Diffuser Figure 1Diffuser 相對于傳統的強化學習模型也是比較顛覆的,它生成的計劃不是在時間軸上逐步展開,而是從整個序列意義上的模糊變得逐漸精確。擴散模型本身的進一步研究也是計算機視覺中的一個火熱的話題,在其模型本身上很可能未來幾年也會有突破。

不過擴散模型本身目前相比于其它生成模型有一個特別的缺陷,那就是它的生成速度相比于其它生成模型會更慢。很多相關領域的專家認為這一點可能在未來幾年內會被緩解。不過數秒的生成時間目前對于強化學習需要實時控制的情景來說是很難接受的。Diffuser 提出了能夠提升生成速度的方法:從上一步的計劃開始增加少量噪音來重新生成下一步的計劃,不過這樣做會一定程度上降低模型的表現。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2022-06-08 08:11:56

威脅建模網絡安全網絡攻擊

2024-04-12 08:59:02

強化學習系統人工智能擴散模型

2022-05-25 10:28:35

模型AI

2017-07-25 16:04:31

概念應用強化學習

2024-03-06 16:08:13

人工智能擴散模型生成模型

2024-05-21 09:45:40

機器學習人工智能XAI

2023-09-17 23:09:24

Transforme深度學習

2022-07-03 08:25:09

OSITCP/IP

2017-08-07 10:08:29

深度學習分類體系信息檢索

2023-08-05 13:08:54

2021-10-18 10:32:32

自動駕駛數據人工智能

2017-09-21 21:34:12

計算語言學隱馬爾可夫模型機器學習

2025-04-10 11:47:41

2025-04-18 12:25:34

2020-11-04 10:28:48

機器人人工智能系統

2020-08-27 07:34:50

Zookeeper數據結構

2022-11-02 14:02:02

強化學習訓練

2025-03-05 10:21:04

DeepSeekLVLM

2024-02-01 11:57:31

this指針代碼C++

2022-07-11 11:14:47

強化學習AI基于模型
點贊
收藏

51CTO技術棧公眾號

欧美一区二区三区在线观看视频| 中文字幕在线播放av| a级片免费观看| 综合伊思人在钱三区| 国产酒店精品激情| 亚洲欧美综合另类中字| www.九色.com| hs视频在线观看| 国产精品入口| 日韩精品免费在线观看| 国产天堂视频在线观看| 国产裸体永久免费无遮挡| 精品国产99| 色综合 综合色| 91久久国产综合久久蜜月精品| 91社区视频在线观看| 欧美黑人疯狂性受xxxxx野外| 成人av先锋影音| 久久久久久这里只有精品| 老女人性生活视频| 色yeye免费人成网站在线观看| 国产电影一区二区在线观看| 色噜噜狠狠成人中文综合| 黄色国产精品一区二区三区| 日本少妇bbwbbw精品| 97精品久久| 亚洲电影激情视频网站| 国产美女99p| 美国黄色特级片| 成人爽a毛片| 91精品麻豆日日躁夜夜躁| 日本免费在线视频观看| 国产视频aaa| 视频一区欧美日韩| 日韩在线视频网站| 伊人五月天婷婷| 日本高清在线观看视频| 国产欧美日本一区视频| 国产精品免费一区二区三区都可以| 波多野在线播放| 3d欧美精品动漫xxxx无尽| 久久久精品蜜桃| 成人h视频在线观看播放| 四虎精品免费视频| y111111国产精品久久久| 欧美日韩国产精选| 男人的天堂视频在线| 国产综合在线播放| 狂野欧美一区| 欧美一区二区色| 又嫩又硬又黄又爽的视频| 国产精品亚洲欧美一级在线| 亚洲综合久久久久| 欧美一区三区二区在线观看| 中文字幕欧美色图| 日产欧产美韩系列久久99| 久热精品在线视频| 成人免费看aa片| 国产高清精品二区| 欧美精品日韩精品| 久久久国内精品| 毛片在线播放网站| 国产精品66部| 国产成人精品网站| 欧美片一区二区| 黑丝美女一区二区| 欧美精品一区二区三区蜜臀| 污片在线免费看| 1区2区3区在线| 国产精品电影一区二区| 精品在线观看一区二区| 日韩一级片免费看| 韩国av一区二区三区在线观看| 韩国精品久久久999| 懂色av粉嫩av浪潮av| 欧美三级三级| 日韩欧美在线网站| 欧美大片在线播放| 国产在线1区| 久久久综合九色合综国产精品| 亚洲在线视频观看| 中文字幕精品一区二| 久久国产精品一区二区| 2019av中文字幕| 麻豆一区产品精品蜜桃的特点| 亚洲性感美女99在线| 久久久精品一区二区三区| 熟女俱乐部一区二区视频在线| 日本在线一区二区三区| 欧美手机在线视频| 国产乱子夫妻xx黑人xyx真爽| 在线三级电影| 亚洲色图欧美偷拍| 亚洲国产精品一区在线观看不卡| 亚洲人视频在线观看| 国产91丝袜在线观看| 国产日韩一区在线| 国产一卡二卡三卡| 久久一区中文字幕| 91久久国产精品| 一本大道伊人av久久综合| 久久美女性网| 成人国产在线视频| 天堂网在线播放| 不卡欧美aaaaa| 日韩中文字幕一区| 成年人视频在线免费观看| 久久亚洲一级片| 国产成年人在线观看| 日韩激情电影免费看| 激情亚洲一区二区三区四区 | 国产91在线视频观看| 三级网站视频在在线播放| 五月激情六月综合| 五月天开心婷婷| 成人精品在线| 亚洲人成在线观| 久久中文字幕在线观看| 影音先锋一区| 成人网在线免费看| 国产大学生校花援交在线播放| 国产无遮挡一区二区三区毛片日本| 精品一卡二卡三卡四卡日本乱码| 免费a级人成a大片在线观看| 中文字幕制服丝袜成人av| 鲁一鲁一鲁一鲁一色| 成人香蕉视频| 欧美日韩一级大片网址| 色婷婷一区二区三区av免费看| 亚洲高清影院| 日韩天堂在线观看| 91大神福利视频| 欧美精品网站| 26uuu久久噜噜噜噜| 国产视频手机在线| 中文字幕一区二区三区乱码在线 | 欧美不卡福利| caoporn国产精品免费视频| 欧美日韩国产在线播放| 国产熟人av一二三区| av成人免费看| 日韩欧美国产综合一区| 免费黄色激情视频| 韩日精品视频| 国产精品草莓在线免费观看| 中文字幕在线网址| 久久精品免费在线观看| 久久久免费视频网站| 日韩美女国产精品| 日韩在线视频网站| 国产一区二区在线播放视频| 高潮精品一区videoshd| 欧美精品在欧美一区二区| 日韩视频在线直播| 欧美国产激情18| jizz国产在线观看| 国产乱色国产精品免费视频| 亚洲精品一区二区三区蜜桃久 | 91在线高清视频| 中文字幕有码在线视频| 日韩视频在线观看一区二区| 欧美三根一起进三p| 国产精品资源| 人禽交欧美网站免费| 日本一区二区三区视频在线| 日韩欧美一二区| 久草网在线观看| 成人精品国产一区二区4080| www.射射射| 2019中文亚洲字幕| 亚洲人成毛片在线播放| 日韩精品在线一区二区三区| 欧美国产日韩a欧美在线观看| 福利在线一区二区| 久久久久久毛片免费看| 久久影视电视剧免费网站| 国产手机视频在线| 午夜欧美视频在线观看| 在线观看国产福利| 国产精品v亚洲精品v日韩精品 | 国产精品扒开腿做| 国产素人视频在线观看| 亚洲第一精品久久忘忧草社区| 三级黄色片在线观看| 国产一本一道久久香蕉| 亚洲国产精品视频一区| 麻豆国产一区二区三区四区| 在线观看国产欧美| 五月婷婷亚洲综合| 成人网男人的天堂| 日本a级片在线播放| 日韩成人一级| 成人做爰www免费看视频网站| 97天天综合网| 综合国产在线观看| 亚洲av人无码激艳猛片服务器| 91在线观看下载| 999在线观看视频| 成人在线免费观看91| 成人av免费在线看| 青春草免费在线视频| 欧美大胆一级视频| 波多野结衣一二区| 亚洲一区二区五区| 国产精品久久久久久亚洲av| 欧美午夜在线视频| 日韩中文一区二区三区| 国产亚洲精品美女久久| 91精品国产91久久久久久吃药 | 午夜精品福利电影| 黄色免费在线观看网站| 亚洲视频在线看| 欧美 日韩 国产 成人 在线| 欧美乱妇23p| www.com亚洲| 亚洲国产欧美一区二区三区丁香婷| 影音先锋男人在线| 91婷婷韩国欧美一区二区| 久久久999免费视频| 91国语精品自产拍| 69174成人网| 四虎地址8848精品| 国产精品看片资源| 不卡av影片| 欧美性受xxxx黑人猛交| 丁香高清在线观看完整电影视频| 亚洲国产精品字幕| 亚洲精品男人的天堂| 日本一区二区三区国色天香 | 97婷婷大伊香蕉精品视频| 国产激情在线| 亚洲电影免费观看高清| 国产欧美一级片| 在线电影欧美成精品| 天堂免费在线视频| 91高清视频在线| 秋霞精品一区二区三区| 国产精品白丝在线| 懂色av蜜臀av粉嫩av永久| 国产精品青草综合久久久久99| 天堂在线一区二区三区| 日本不卡一区二区| 亚洲成色www.777999| 这里只有精品在线| 精品日产一区2区三区黄免费 | 欧美一个色资源| 国产麻豆91视频| 在线综合亚洲欧美在线视频| 夜夜嗨av禁果av粉嫩avhd| 欧美色精品天天在线观看视频| 伊人久久中文字幕| 欧美色图天堂网| 国产精品乱码一区二区| 亚洲成人精品一区| 久久久久久久久久免费视频| 欧美国产丝袜视频| 日本黄色激情视频| ...xxx性欧美| 精品少妇人妻一区二区黑料社区| 不卡电影一区二区三区| 欧美精品欧美极品欧美激情| 另类小说欧美激情| 成人av一级片| 丝袜诱惑制服诱惑色一区在线观看| 最近免费中文字幕中文高清百度| 久久一区二区三区喷水| 精品在线观看一区二区| 最新国产精品视频| 午夜精品美女久久久久av福利| av不卡一区二区| 九九九九精品九九九九| 国产一区 二区| 成人欧美一区二区三区黑人免费| 国产一区二区主播在线| 国产精品嫩草影院久久久| 台湾天天综合人成在线| 99在线观看| 亚洲v天堂v手机在线| 成人免费视频观看视频| 全国精品免费看| 成人免费视频网站| 久久不卡国产精品一区二区| 亚洲一区影院| 精品国产乱码久久久| 在线免费观看成人| 成人av二区| 青青在线视频免费观看| 亚洲伊人网站| 99热自拍偷拍| 久久国产精品露脸对白| 久久国产劲爆∧v内射| 国产成人久久精品77777最新版本| 日批在线观看视频| 成人毛片视频在线观看| 69视频在线观看免费| 91美女片黄在线| 成年人二级毛片| 一本色道久久综合亚洲91| 99久久久无码国产精品免费| 日韩精品免费一线在线观看| 免费的黄网站在线观看| 日本亚洲欧美成人| 欧美最新精品| 成人在线免费网站| 国产精品久久久久无码av| 国产极品粉嫩福利姬萌白酱| 韩国精品久久久| 成年人免费观看视频网站| 亚洲综合色噜噜狠狠| 一区二区三区免费观看视频| 亚洲精品电影在线| 手机在线免费观看av| 国产精品视频xxxx| 免费成人网www| 999在线观看视频| 国产盗摄精品一区二区三区在线| 五月天精品在线| 欧美午夜影院在线视频| 国语对白做受69按摩| 亚洲第一区第二区| 羞羞视频在线观看免费| 成人免费视频a| 成人激情视频| 欧美成人精品欧美一级乱| 99re成人精品视频| 国产亚洲精品久久777777| 这里是久久伊人| 精品视频在线一区二区| 国产精品一久久香蕉国产线看观看| 青青伊人久久| 亚洲成人一区二区三区| 美女黄网久久| 亚洲第一色av| 中文字幕一区二区三| 中国精品一区二区| 中文国产成人精品久久一| 欧美magnet| 欧美亚洲免费高清在线观看 | 精品少妇在线视频| 国产黄色精品视频| 欧美色图一区二区| 日韩久久精品一区| 俄罗斯一级**毛片在线播放 | 动漫av一区二区三区| 欧美精品电影在线| 国产三级精品三级在线观看国产| h无码动漫在线观看| 成人av资源站| 日韩人妻无码一区二区三区99| 亚洲黄色av女优在线观看| www.综合| 国产日本欧美在线观看| 日韩在线欧美| 国产伦精品一区二区三区四区视频_| 国产suv一区二区三区88区| 欧美久久久久久久久久久久| 精品国产乱码久久久久久浪潮 | 香蕉国产精品| 精品人妻一区二区三区免费| 91亚洲男人天堂| 精品人妻无码一区二区性色| 亚洲人精选亚洲人成在线| 日本另类视频| 99re8这里只有精品| 久久激情中文| a资源在线观看| 欧美一区二区三区日韩| 国产又色又爽又黄刺激在线视频| 激情小说网站亚洲综合网| 蜜桃av综合| sm捆绑调教视频| 亚洲а∨天堂久久精品喷水| 午夜不卡影院| 国产精品久久精品国产| 一区二区久久| 在线xxxxx| 色偷偷一区二区三区| 色开心亚洲综合| 国产精品高潮视频| 亚洲欧美在线专区| www.日本高清| 欧美日韩亚洲综合在线| 美足av综合网| 色就是色欧美| 国产99一区视频免费| 精品久久久久久久久久久久久久久久 | 国产亚洲视频一区| 午夜亚洲福利老司机| av大片在线看| 日韩av电影手机在线| 91综合在线| 黄色性生活一级片| 亚洲va欧美va人人爽午夜| 国产永久免费高清在线观看| 51视频国产精品一区二区| 日韩大片在线播放| 中文在线观看免费视频| 欧美精三区欧美精三区| 欧亚av在线| 欧美日韩dvd|