精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

清北聯合出品!一篇Survey整明白「Transformer+強化學習」的來龍去脈

人工智能 新聞
Transformer與強化學習結合的綜述!

Transformer模型自發布后,很快就成了自然語言處理和計算機視覺領域在有監督學習設置下的主流神經架構。

雖然Transformer的熱潮已經開始席卷強化學習領域,但由于RL本身的特性,例如需要進行獨特的特征、架構設計等,當前Transformer與強化學習的結合并不順利,其發展路線也缺乏相關論文進行貫穿性地總結。

最近來自清華大學、北京大學、騰訊的研究人員聯手發表了一篇關于Transformer與強化學習結合的調研論文,系統性地回顧了在強化學習中使用Transformer的動機和發展歷程。

圖片

論文鏈接:https://arxiv.org/pdf/2301.03044.pdf

文章中對現有的相關工作成果進行分類,并對每個子領域進行深入討論,最后還總結了該研究方向的未來前景。

Transformer配RL

強化學習(RL)為序列決策(sequential decision-making)提供了一個數學化的形式,可以讓模型自動獲得智能行為。

RL為基于學習的控制提供了一個通用框架,隨著深度神經網絡的引入,深度強化學習(DRL)的通用性在近年來也取得了巨大的進展,但樣本效率問題阻礙了DRL在現實世界中的廣泛應用。

為了解決這個問題,一個有效的機制是在DRL框架中引入inductive bias,其中比較重要的是函數近似器架構的選擇(the choice of function approximator architectures),例如DRL智能體的神經網絡的參數化。

然而,與監督學習(SL)中的架構設計相比,在DRL中選擇架構設計的問題仍然沒有得到充分的探討,大多數現有的關于RL架構的工作是由(半)監督學習社區的成功所激發的。

例如,處理DRL中基于圖像的高維輸入的常見做法是引入卷積神經網絡(CNN);處理部分可觀察性的另一種常見做法是引入遞歸神經網絡(RNN)。

近年來,Transformer架構在廣泛的SL任務中徹底改變了學習范式,并表現出比CNN和RNN更優越的性能,比如Transformer架構能夠對較長的依賴關系進行建模,并具有出色的可擴展性。

受SL成功啟發,行業內對在強化學習中應用Transformer的興趣激增,最早可以追溯到2018年的一篇論文,其中自注意機制被用于結構化狀態表示的關系推理。

之后,許多研究人員開始試圖將自注意力應用于表示學習,以提取實體之間的關系,從而可以更好地進行策略學習。

圖片

除了狀態表示學習外,先前的工作還用Transformer來捕捉多步驟的時間依賴性,以處理部分可觀察性問題。

最近,離線RL由于其利用離線大規模數據集的能力而受到關注,相關研究結果也表明,Transformer架構可以直接作為序列決策的模型,并可推廣到多個任務和領域。

這篇調研論文的目的是介紹Transformers in Reinforcement Learning領域(TransformRL)。

圖片

盡管Transformer已經被認為是目前大多數SL研究的基礎模型,但它在RL社區的探索仍然較少。事實上,與SL領域相比,在RL中使用Transformer作為函數近似器需要解決一些不同的問題:

1. RL智能體的訓練數據通常是當前策略的函數,這在Transformer學習的過程中會引起不平穩性(non-stationarity)。

2. 現有的RL算法通常對訓練過程中的設計選擇高度敏感,包括網絡架構和容量等。

3. 基于Transformer的架構經常受到高計算和內存成本的影響,也就是說訓練和推理起來既慢又貴。

比如在一些游戲中的人工智能案例中,樣本生成的效率在很大程度上影響了訓練性能,取決于RL策略網絡和價值網絡的計算成本。

TransformRL的未來

論文中簡要回顧了Transformers for RL的進展情況,其優勢主要包括:

1. Transformers可以作為RL中的一個powerful模塊,比如作為一個表示模塊或世界模型;

2. Transformer可以作為一個序列決策器;

3. Transformer可以提升跨任務和領域的泛化性能。

鑒于Transformer在更廣泛的人工智能社區都表現出強大的性能,研究人員認為將Transformer和RL結合起來是一個有前途的研究方向,下面是一些關于該方向的未來前景和開放性問題。

結合強化學習和(自)監督學習

追溯TransformRL的發展,可以發現其訓練方法同時涵蓋了RL和(自)監督學習。

當作為一個在傳統RL框架下訓練的表示模塊時,Transformer架構的優化通常是不穩定的。當使用Transformer通過序列建模來解決決策問題時,(自)監督學習范式可以消除deadly triad problem。

在(自)監督學習的框架下,策略的性能深受離線數據質量的約束,利用(exploitation)和探索(exploration)之間的明確權衡不復存在,因此在Transformer學習中結合RL和(自)監督學習時,可能會學到更好的策略。

一些工作已經嘗試了監督預訓練和RL參與的微調方案,但在相對固定的策略下,探索會受到限制,這也是有待解決的瓶頸問題之一。

另外,沿著這條路線,用于性能評估的任務也相對簡單,Transfomer是否可以將這種(自)監督學習擴展到更大的數據集、更復雜的環境和現實世界的應用也值得進一步探索。

此外,研究人員希望未來的工作能夠提供更多的理論和經驗見解,以確定在哪些條件下這種(自)監督學習有望表現良好。

圖片

通過Transformer連接在線和離線學習

踏入離線RL是TransformRL的一個里程碑,但實際上,利用Transformer來捕捉決策序列中的依賴關系并抽象出策略,主要是與所使用的相當多的離線數據的支持分不開的。

然而,對于一些決策任務來說,在實際應用中擺脫在線框架是不可行的。

一方面,在某些任務中獲得專家數據并不那么容易;另一方面,有些環境是開放式的(如Minecraft),這意味著策略必須不斷調整,以處理在線互動過程中未見的任務。

因此,研究人員認為把在線學習和離線學習連接在一起是必要的。

Decision Transformer之后的大多數研究進展都集中在離線學習框架上,一些工作試圖采用離線預訓練和在線微調的范式。然而,在線微調中的分布轉變仍然存在于離線RL算法中,研究人員期望通過對Decision Transformer進行一些特殊設計來解決這個問題。

此外,如何從頭開始訓練一個在線Decision Transformer是一個有趣的開放性問題。

為Decision-making問題量身定做的Transformer結構

目前Decision Transformer系列方法中的Transformer結構主要是vanilla Transformer,它最初是為文本序列設計的,可能具有一些不適合決策問題的性質。

例如,對軌跡序列采用vanilla的自注意力機制是否合適?決策序列中的不同元素或同一元素的不同部分是否需要在位置embedding中加以區分?

此外,由于在不同的Decision Transformer算法中,將軌跡表示為序列的變體有很多,如何從中選擇,仍缺乏系統的研究。

例如,在行業中部署此類算法時,如何選擇穩健的hindsight信息?

并且vanilla Transformer也是一個計算成本巨大的結構,這使得它在訓練和推理階段都很昂貴,而且內存占用率很高,也限制了它捕獲依賴關系的長度。

為了緩解這些問題,NLP中的一些工作改進了Transformer的結構,但類似的結構是否可以用于決策問題也值得探討。

用Transformer實現更多的通用智能體

論文中對通用智能體(generalist agents)Transformers的回顧已經顯示了Transformers作為一種通用策略的潛力。

事實上,Transformer的設計允許使用類似處理blocks的方式來處理多種模態(如圖像、視頻、文本和語音),并展示了對超大容量網絡和巨大數據集的出色可擴展性。

最近的工作也在訓練能夠執行多模態和跨領域任務的智能體上取得了重大進展。

不過,鑒于這些智能體是在大規模的數據集上進行訓練的,目前還不能確定它們是否只是記住了數據集,以及它們是否能進行有效的泛化。

因此,如何學習到一個能夠在沒有強假設(strong assumption)的情況下對未見過的任務進行泛化的智能體仍然是一個值得研究的問題。

此外,研究人員也很好奇,Transformer是否足夠強大到可以用來學習一個可用于不同任務和場景的通用世界模型。

RL for Transformers

雖然文章中已經討論了RL如何從Transformer模型中受益,但反過來說,用RL來提升Transformer訓練仍然是一個有趣的開放性問題,還沒有被很好地探索過。

可以看到,最近來自人類反饋的強化學習(RLHF)可以學習到一個獎勵模型,并使用RL算法對Transformer進行微調,以使語言模型與人類意圖相一致。

在未來,研究人員認為RL可以成為一個有用的工具,進一步完善Transformer在其他領域的表現。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-09-21 10:29:01

AI模型

2022-11-02 14:02:02

強化學習訓練

2020-07-10 08:03:35

DNS網絡ARPAne

2022-11-14 10:22:12

訓練強化學習

2023-02-10 13:19:50

2023-02-01 13:07:05

AI

2021-10-31 14:14:33

內存接口協議

2024-08-02 14:50:00

數據AI

2024-08-07 09:02:51

2021-09-10 16:31:56

人工智能機器學習技術

2024-12-09 08:45:00

模型AI

2023-04-06 08:37:24

2022-08-26 14:44:32

強化學習AI

2023-03-09 08:00:00

強化學習機器學習圍棋

2020-08-10 06:36:21

強化學習代碼深度學習

2023-02-10 09:43:51

架構開發

2022-07-27 07:45:53

二叉樹鏡像函數

2023-12-11 18:23:21

2024-03-27 18:22:58

Hadoop部件生態

2023-08-14 08:46:54

AI論文
點贊
收藏

51CTO技術棧公眾號

国产免费观看久久| 久久精品久久久| 精品久久香蕉国产线看观看gif| 99re国产| 三级一区二区三区| 巨大荫蒂视频欧美大片| 成人精品亚洲人成在线| 国产91色在线| 九九视频免费观看| 国产精品最新| 欧美成人一区二区三区| 蜜臀av午夜一区二区三区| 日本a在线播放| 91伊人久久大香线蕉| 国产精品一区专区欧美日韩| 国产精品不卡av| 91中文字幕精品永久在线| 亚洲精品成人久久| 999在线精品视频| 香蕉久久免费电影| 亚洲丰满少妇videoshd| 亚洲一区二区在| 日本一区高清| 成人福利在线看| 亚洲一区免费网站| 中文字幕一区二区人妻| 国产欧美不卡| 欧美高清无遮挡| 久草手机视频在线观看| 国产91一区| 亚洲国产精品久久91精品| 欧美国产日韩在线视频| 欧美香蕉视频| 午夜精品久久一牛影视| a级片一区二区| 九七久久人人| 国产精品久久看| 青娱乐一区二区| 视频国产一区二区三区| 成人99免费视频| 国产精品theporn88| 国产精品久久久久久久久久久久久久久久| 久久不射中文字幕| 91精品国产沙发| 久久亚洲精品大全| 欧美三级午夜理伦三级中文幕| 日韩日本欧美亚洲| 香蕉久久久久久久| 日韩一区二区在线| 中文字幕在线国产精品| 亚洲第一综合网| 国产成人精品999在线观看| 日韩av在线一区| 特大黑人巨人吊xxxx| 欧美亚洲大陆| 日韩禁在线播放| 中文在线观看免费视频| 国产精品22p| 欧美大片在线观看一区| 无码人妻精品一区二区三| 成人精品毛片| 亚洲国产欧美一区二区三区同亚洲| 深夜视频在线观看| 国产精品一区二区三区美女| 亚洲大尺度美女在线| av无码一区二区三区| 欧美三级自拍| 亚洲小视频在线观看| 九一在线免费观看| 国产韩日影视精品| 免费av一区二区| 国产成年人免费视频| 亚洲神马久久| 国产精品欧美风情| 国产欧美第一页| 盗摄精品av一区二区三区| 国产精品亚洲综合| 美州a亚洲一视本频v色道| 国产精品欧美久久久久一区二区| 桥本有菜av在线| 黑人玩欧美人三根一起进| 欧美日韩精品在线播放| 久久精品影视大全| 高清一区二区三区av| 欧美精品一区二区三区高清aⅴ| 精品人妻一区二区免费视频| 懂色av一区二区| 亚洲天堂男人天堂| 欧美日韩在线国产| 香蕉久久久久久久av网站| 国产精品成av人在线视午夜片| 亚洲天堂自拍偷拍| 成人免费毛片高清视频| 欧美日韩综合网| 在线视频观看国产| 色哟哟一区二区| 国产在线视频三区| 亚洲成aⅴ人片久久青草影院| 中文在线资源观看视频网站免费不卡| 中文字幕亚洲欧美日韩| 免费在线亚洲| 91精品视频在线看| 日本免费不卡| 亚洲激情综合网| 欧美牲交a欧美牲交aⅴ免费下载| 永久免费观看精品视频| 亚洲国产另类久久精品 | 精品无码av在线| 久久亚洲美女| 91在线短视频| freemovies性欧美| 亚洲va国产天堂va久久en| 亚洲视频一二三四| 日韩欧美四区| 色综合久久88| 影音先锋黄色网址| 久久久久久久一区| 阿v天堂2018| 国产精品成人**免费视频| 亚洲精品网站在线播放gif| 欧美在线视频第一页| 日日摸夜夜添夜夜添国产精品| 97人人模人人爽人人少妇| 成人动漫在线免费观看| 精品福利樱桃av导航| www.色.com| 99精品综合| 日韩女在线观看| 五月婷婷综合久久| 一区二区三区在线观看网站| 五月天视频在线观看| 欧美裸体在线版观看完整版| 欧美亚洲日本黄色| 天堂av手机版| 亚洲一区日韩精品中文字幕| 久久久久久久久久毛片| 97久久视频| 国产免费一区视频观看免费 | 久久99久久99精品中文字幕| 一级全黄少妇性色生活片| 欧美国产一区视频在线观看| 日韩亚洲在线视频| 一本久久青青| 日本欧美黄网站| 亚洲欧美综合在线观看| 亚洲国产日韩a在线播放性色| 日本黄色www| 一区二区影院| av日韩免费电影| 免费男女羞羞的视频网站在线观看| 91精品午夜视频| 成年人午夜剧场| 国产一区二区三区日韩 | 伊人福利在线| 精品少妇一区二区三区在线播放| 久草视频在线资源| 国产69精品一区二区亚洲孕妇 | jizz18女人高潮| 青青草视频一区| 曰韩不卡视频| 精品一区二区三区中文字幕在线| 欧美精品一区二区免费| 国产小视频一区| 粉嫩老牛aⅴ一区二区三区| 久久久久久久久免费看无码| 久久久精品日韩| 视频一区视频二区视频三区视频四区国产 | 国产乱淫a∨片免费视频| 亚洲欧美日韩在线播放| 日本成人在线免费观看| 国产精品jizz在线观看美国| 国内精品一区二区| 欧美中文字幕精在线不卡| 一区二区三区精品99久久| 一本色道久久综合熟妇| 一区二区三区四区不卡视频 | 亚洲国产成人在线| 亚洲精品mv在线观看| 怡红院精品视频在线观看极品| 精品欧美日韩| 成人在线网站| 久久国产精品久久久| 日本激情一区二区| 在线视频一区二区三区| 日本黄色免费片| 成人激情校园春色| 九热视频在线观看| 好吊一区二区三区| 狠狠干一区二区| 精品自拍视频| 98视频在线噜噜噜国产| 成年人在线看| 日韩欧美www| 亚洲大尺度在线观看| 亚洲乱码日产精品bd| 不卡一区二区在线观看| 精品一二三四区| 欧美爱爱视频免费看| 99久久夜色精品国产亚洲1000部| 国产精品视频免费观看| 成人在线不卡| 91a在线视频| 亚洲图区一区| 一个人看的www久久| 欧美在线 | 亚洲| 欧美丰满美乳xxx高潮www| 亚洲精品午夜国产va久久成人| 中文字幕一区在线| a级片在线观看| 成人黄色小视频在线观看| 自拍偷拍21p| 亚洲精品一级| 特级西西444| 日本一区二区在线看| 久久亚洲午夜电影| 99re6热只有精品免费观看| 91精品久久久久久久久久久久久| 亚洲一二三四| 久久久久久久一区二区| 国产原厂视频在线观看| 国产一区二区三区在线看| 欧美综合视频在线| 日韩视频永久免费| 国产又粗又猛又爽又黄91| 91精品1区2区| 国产一级一级国产| 婷婷综合另类小说色区| 久久国产在线观看| 一区二区三区国产精品| 91精品国产闺蜜国产在线闺蜜| 欧美国产精品v| 无码国产69精品久久久久同性| 成人免费视频caoporn| 国产ts在线观看| 国产毛片精品国产一区二区三区| 午夜激情av在线| 免费成人小视频| 欧美第一页浮力影院| 三级欧美在线一区| 农村妇女精品一二区| 久久三级福利| 日本在线视频www| 2022成人影院| 中文字幕在线观看日本| 亚洲成人资源网| 麻豆亚洲av成人无码久久精品| 1000精品久久久久久久久| 成人欧美一区二区三区黑人一 | 亚洲在线观看| 国产毛片视频网站| 99热免费精品在线观看| 日韩av在线第一页| 亚洲专区一区| av免费在线播放网站| 日韩中文字幕区一区有砖一区| 美女网站免费观看视频| 美国毛片一区二区| 五月激情婷婷在线| 国产一区二区三区黄视频| 国内av免费观看| 成人国产精品免费观看视频| 一级特级黄色片| 国产亚洲一区二区三区在线观看 | 57pao成人国产永久免费| 少妇淫片在线影院| 国产精品极品在线| 亚洲精品aa| 国产精品久久久对白| 国产精品欧美大片| 欧美日韩一区二区三| 日韩成人精品一区| 丁香色欲久久久久久综合网| 韩国欧美一区| 日本免费观看网站| 国产乱对白刺激视频不卡| 午夜男人的天堂| 久久精品一级爱片| 日韩成人毛片视频| 欧美午夜性色大片在线观看| 一级片在线观看视频| 精品国产乱码久久久久久蜜臀| 天堂成人在线| www.欧美三级电影.com| 丰满诱人av在线播放| 国产精品国产三级国产专播精品人 | 亚洲一区观看| 欧美一级xxxx| 97se亚洲国产综合在线| 岛国片在线免费观看| 亚洲成人av电影在线| 欧美激情一区二区三区免费观看| 日韩欧美国产高清| 精品999视频| 米奇精品一区二区三区在线观看| 手机在线理论片| 亚洲xxx自由成熟| 欧美男gay| 久久亚洲国产成人精品无码区 | 亚洲在线观看网站| 91蝌蚪porny| 久久久久亚洲av无码专区体验| 日韩欧美国产网站| 性一交一乱一精一晶| 一区三区二区视频| 蜜桃视频在线网站| 亚洲一区精品电影| 久久视频在线| 日本免费一级视频| 成人爱爱电影网址| 男人操女人的视频网站| 91成人在线精品| 手机看片福利在线| 九色精品美女在线| 欧美天堂一区二区| 欧美日韩电影一区二区三区| 激情综合亚洲| 超碰91在线播放| 中文字幕亚洲电影| 中文字幕在线网站| 亚洲桃花岛网站| 桃色av一区二区| 国产一区在线免费| 亚洲天堂成人| 自拍视频第一页| 亚洲欧洲综合另类| 一级做a爱片久久毛片| 一本色道久久88综合日韩精品| 成人美女大片| 精品国产一区二区三区免费| 亚洲视频高清| 韩国三级视频在线观看| 亚洲精品菠萝久久久久久久| 国产美女免费视频| 精品激情国产视频| 亚洲一区二区av| 中文字幕一区二区三区最新| 奇米888四色在线精品| 亚洲天堂岛国片| 欧洲亚洲精品在线| 不卡在线视频| 国产精品一区二区久久国产| 波多野结衣在线观看一区二区| 手机看片福利盒子久久| 国产日韩精品一区二区三区在线| 台湾佬中文在线| 国产一区二区三区18| 亚洲四虎影院| 亚洲一区二三| 久久99国产精品久久99| 国产尤物在线播放| 欧美一区二区精品在线| 3d玉蒲团在线观看| 成人自拍偷拍| 国产精品嫩草99av在线| 91网站免费视频| 欧美日韩国产高清一区二区三区| 欧美r级在线| 亚洲xxxx做受欧美| 在线亚洲国产精品网站| 精品欧美一区二区久久久| 欧美在线999| 黄色在线视频网站| 国产精品久久精品视| 久久久久国产一区二区| 美国黄色特级片| 日韩欧美一区二区视频| 蜜桃av在线| 日本一区免费在线观看| 久久99精品久久久久久| 久草视频在线资源站| 日韩国产欧美精品一区二区三区| 成人自拍av| 小泽玛利亚av在线| 99久久精品国产一区二区三区| 不卡av电影在线| 不用播放器成人网| 女仆av观看一区| 色婷婷综合网站| 亚洲国产欧美一区二区三区丁香婷| 亚洲色图欧美视频| 成人xvideos免费视频| 极品少妇一区二区三区| 成年人免费观看视频网站 | 国产v综合v亚洲欧美久久| 国产精品99一区二区三区| 动漫美女无遮挡免费| 91久久精品一区二区二区| 在线免费观看的av| 久久久久久久久久久黄色| 日韩手机在线观看| 中日韩美女免费视频网址在线观看 | 美女爽到呻吟久久久久| 中文字幕av播放| 国产午夜精品久久久 | 好看的日韩精品视频在线| 久久av资源网| 日日摸天天添天天添破| 欧美成人精品在线播放| 欧美日韩中文一区二区| 欧美熟妇精品一区二区蜜桃视频 |