精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

強(qiáng)化學(xué)習(xí)中的Transformer發(fā)展到哪一步了?清華、北大等聯(lián)合發(fā)布TransformRL綜述

人工智能 新聞
受監(jiān)督學(xué)習(xí)的啟發(fā),人們對(duì)把 Transformer 用于強(qiáng)化學(xué)習(xí)產(chǎn)生了濃厚的興趣。

強(qiáng)化學(xué)習(xí)(RL)為順序決策提供了一種數(shù)學(xué)形式,深度強(qiáng)化學(xué)習(xí)(DRL)近年來也取得巨大進(jìn)展。然而,樣本效率問題阻礙了在現(xiàn)實(shí)世界中廣泛應(yīng)用深度強(qiáng)化學(xué)習(xí)方法。為了解決這個(gè)問題,一種有效的機(jī)制是在 DRL 框架中引入歸納偏置。

在深度強(qiáng)化學(xué)習(xí)中,函數(shù)逼近器是非常重要的。然而,與監(jiān)督學(xué)習(xí)(SL)中的架構(gòu)設(shè)計(jì)相比,DRL 中的架構(gòu)設(shè)計(jì)問題仍然很少被研究。大多數(shù)關(guān)于 RL 架構(gòu)的現(xiàn)有工作都是由監(jiān)督學(xué)習(xí) / 半監(jiān)督學(xué)習(xí)社區(qū)推動(dòng)的。例如,在 DRL 中處理基于高維圖像的輸入,常見的做法是引入卷積神經(jīng)網(wǎng)絡(luò)(CNN)[LeCun et al., 1998; Mnih et al., 2015];處理部分可觀測性(partial observability)圖像的常見做法則是引入遞歸神經(jīng)網(wǎng)絡(luò)(RNN) [Hochreiter and Schmidhuber, 1997; Hausknecht and Stone, 2015]。

近年來,Transformer 架構(gòu) [Vaswani et al., 2017] 展現(xiàn)出優(yōu)于 CNN 和 RNN 的性能,成為越來越多 SL 任務(wù)中的學(xué)習(xí)范式 [Devlin et al., 2018; Dosovitskiy et al., 2020; Dong et al., 2018]。Transformer 架構(gòu)支持對(duì)長程(long-range)依賴關(guān)系進(jìn)行建模,并具有優(yōu)異的可擴(kuò)展性 [Khan et al., 2022]。受 SL 成功的啟發(fā),人們對(duì)將 Transformer 應(yīng)用于強(qiáng)化學(xué)習(xí)產(chǎn)生了濃厚的興趣,希望將 Transformer 的優(yōu)勢(shì)應(yīng)用于 RL 領(lǐng)域。

Transformer 在 RL 中的使用可以追溯到 Zambaldi 等人 2018 年的一項(xiàng)研究,其中自注意力(self-attention)機(jī)制被用于結(jié)構(gòu)化狀態(tài)表征的關(guān)系推理。隨后,許多研究人員尋求將自注意力應(yīng)用于表征學(xué)習(xí),以提取實(shí)體之間的關(guān)系,從而更好地進(jìn)行策略學(xué)習(xí) [Vinyals et al., 2019; Baker et al., 2019]。

除了利用 Transformer 進(jìn)行表征學(xué)習(xí),之前的工作還使用 Transformer 捕獲多時(shí)序依賴,以處理部分可觀測性問題 [Parisotto et al., 2020; Parisotto and Salakhutdinov, 2021]。離線 RL [Levine et al., 2020] 因其使用離線大規(guī)模數(shù)據(jù)集的能力而受到關(guān)注。受離線 RL 的啟發(fā),最近的研究表明,Transformer 結(jié)構(gòu)可以直接作為順序決策的模型 [Chen et al., 2021; Janner et al., 2021] ,并推廣到多個(gè)任務(wù)和領(lǐng)域 [Lee et al., 2022; Carroll et al., 2022]。

實(shí)際上,在強(qiáng)化學(xué)習(xí)中使用 Transformer 做函數(shù)逼近器面臨一些特殊的挑戰(zhàn),包括:

  • 強(qiáng)化學(xué)習(xí)智能體(agent)的訓(xùn)練數(shù)據(jù)通常是當(dāng)前策略的函數(shù),這在學(xué)習(xí) Transformer 的時(shí)候會(huì)導(dǎo)致不平穩(wěn)性(non-stationarity);
  • 現(xiàn)有的 RL 算法通常對(duì)訓(xùn)練過程中的設(shè)計(jì)選擇高度敏感,包括模型架構(gòu)和模型容量 [Henderson et al., 2018];
  • 基于 Transformer 的架構(gòu)經(jīng)常受制于高性能計(jì)算和內(nèi)存成本,這使得 RL 學(xué)習(xí)過程中的訓(xùn)練和推理都很昂貴。

例如,在用于視頻游戲的 AI 中,樣本生成的效率(在很大程度上影響訓(xùn)練性能)取決于 RL 策略網(wǎng)絡(luò)和估值網(wǎng)絡(luò)(value network)的計(jì)算成本 [Ye et al., 2020a; Berner et al., 2019]。

為了更好地推動(dòng)強(qiáng)化學(xué)習(xí)領(lǐng)域發(fā)展,來自清華大學(xué)、北京大學(xué)、智源人工智能研究院和騰訊公司的研究者聯(lián)合發(fā)表了一篇關(guān)于強(qiáng)化學(xué)習(xí)中 Transformer(即 TransformRL)的綜述論文,歸納總結(jié)了當(dāng)前的已有方法和面臨的挑戰(zhàn),并討論了未來的發(fā)展方向,作者認(rèn)為 TransformRL 將在激發(fā)強(qiáng)化學(xué)習(xí)潛力方面發(fā)揮重要作用。

圖片

論文地址:https://arxiv.org/pdf/2301.03044.pdf

圖片

論文的總體結(jié)構(gòu)如下:

  • 第 2 章介紹了 RL 和 Transformer 的背景知識(shí),然后簡要介紹了這兩者是如何結(jié)合在一起的;
  • 第 3 章描述了 RL 中網(wǎng)絡(luò)架構(gòu)的演變,以及長期以來 RL 中阻礙廣泛探索 Transformer 架構(gòu)的挑戰(zhàn);
  • 第 4 章論文作者對(duì) RL 中的 Transformer 進(jìn)行了分類,并討論了目前具有代表性的方法;
  • 第 5 章總結(jié)并指出了未來潛在的研究方向。

核心內(nèi)容從論文第 3 章開始,下面我們來看一下論文的主要內(nèi)容。

RL 中的網(wǎng)絡(luò)架構(gòu)

在介紹 TransformRL 的分類方法之前,論文回顧了 RL 中網(wǎng)絡(luò)架構(gòu)設(shè)計(jì)的早期進(jìn)展,并總結(jié)了其存在的挑戰(zhàn)。作者認(rèn)為 Transformer 是一種先進(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu),將有助于深度強(qiáng)化學(xué)習(xí)(DRL)的發(fā)展。

函數(shù)逼近器的架構(gòu)

自 Deep Q-Network [Mnih et al., 2015] 的開創(chuàng)性工作以來,人們?yōu)?DRL 智能體的網(wǎng)絡(luò)架構(gòu)做了許多努力。強(qiáng)化學(xué)習(xí)中網(wǎng)絡(luò)架構(gòu)的改進(jìn)主要分為兩類。 

一類是設(shè)計(jì)新的結(jié)構(gòu),結(jié)合 RL 歸納偏置來降低訓(xùn)練策略或價(jià)值函數(shù)的難度。例如 [Wang et al. 2016] 提出決斗(dueling)網(wǎng)絡(luò)架構(gòu),其中一個(gè)網(wǎng)絡(luò)用于狀態(tài)價(jià)值函數(shù),另一個(gè)用于狀態(tài)相關(guān)的行動(dòng)優(yōu)勢(shì)函數(shù)(action advantage function),這種架構(gòu)設(shè)計(jì)結(jié)合了歸納偏置。

另一類是研究常用的神經(jīng)網(wǎng)絡(luò)技術(shù)(如正則化、殘差連接(skip connection)、批歸一化)是否可以應(yīng)用于 RL。例如,[Ota et al. 2020] 發(fā)現(xiàn)在使用在線特征提取器增強(qiáng)狀態(tài)表征的同時(shí)增加輸入維度,會(huì)有助于提高 DRL 算法的性能和樣本效率。[Sinha et al. 2020] 為 DRL 智能體提出了一種深度密集架構(gòu),使用殘差連接進(jìn)行有效學(xué)習(xí),并使用歸納偏置來緩解數(shù)據(jù)處理不平等問題。[Ota et al. 2021] 使用 DenseNet [Huang et al., 2017] 和解耦表征學(xué)習(xí)來改善大型網(wǎng)絡(luò)的信息流和梯度。最近,由于 Transformer 的優(yōu)越性能,研究人員嘗試將 Transformer 架構(gòu)應(yīng)用于策略優(yōu)化算法,但發(fā)現(xiàn)普通的 Transformer 設(shè)計(jì)無法在 RL 任務(wù)中達(dá)到理想的性能 [Parisotto et al., 2020]。

面臨的挑戰(zhàn)

雖然過去幾年基于 Transformer 的架構(gòu)在 SL 領(lǐng)域取得了諸多進(jìn)展,但將 Transformer 應(yīng)用于 RL 并不簡單。實(shí)際上,這存在多個(gè)特有的挑戰(zhàn)。

從 RL 的角度看,許多研究指出現(xiàn)有的 RL 算法對(duì)深度神經(jīng)網(wǎng)絡(luò)的架構(gòu)非常敏感 [Henderson et al., 2018; Engstrom et al., 2019; Andrychowicz et al., 2020]。首先,RL 中數(shù)據(jù)收集和策略優(yōu)化之間的范式交替導(dǎo)致訓(xùn)練的不平穩(wěn)。其次,RL 算法通常對(duì)訓(xùn)練過程中的設(shè)計(jì)選擇高度敏感。[Emmons et al. 2021] 證明仔細(xì)選擇模型架構(gòu)和正則化對(duì)于 DRL 智能體的性能至關(guān)重要。

從 Transformer 的角度看,基于 Transformer 的架構(gòu)存在內(nèi)存占用大、延遲高的問題,這阻礙了它們的高效部署和推理。最近,許多研究圍繞原始 Transformer 架構(gòu)對(duì)計(jì)算和內(nèi)存效率進(jìn)行改進(jìn),但其中大部分工作都集中在 SL 領(lǐng)域。 

在 RL 領(lǐng)域,Parisotto 和 Salakhutdinov 提出把基于大容量 Transformer 的學(xué)習(xí)器模型轉(zhuǎn)變?yōu)樾∪萘康?actor 模型,以避免 Transformer 的高推理延遲。然而,這種方法在內(nèi)存和計(jì)算方面仍然很昂貴。目前,RL 社區(qū)還未充分探索高效或輕量級(jí)的 Transformer。

強(qiáng)化學(xué)習(xí)中的 Transformer

盡管 Transformer 已成為大多數(shù)監(jiān)督學(xué)習(xí)研究的基礎(chǔ)模型,但由于前述挑戰(zhàn),它在 RL 社區(qū)長期未得到廣泛應(yīng)用。實(shí)際上,TransformRL 的大多數(shù)早期嘗試都將 Transformer 用于狀態(tài)表征學(xué)習(xí)或提供記憶信息(memory information),同時(shí)仍然將標(biāo)準(zhǔn) RL 算法用于智能體學(xué)習(xí),例如時(shí)序差分學(xué)習(xí)和策略優(yōu)化。

因此,盡管引入 Transformer 作為函數(shù)逼近器,這些方法仍然受到傳統(tǒng) RL 框架的挑戰(zhàn)。直到最近,離線 RL 使得從大規(guī)模離線數(shù)據(jù)中學(xué)習(xí)最優(yōu)策略成為可能。受離線 RL 的啟發(fā),最近的工作進(jìn)一步將 RL 問題視作固定經(jīng)驗(yàn)的條件序列建模問題。這樣做有助于繞過傳統(tǒng) RL 中的 bootstrapping error 挑戰(zhàn),從而使 Transformer 架構(gòu)釋放其強(qiáng)大的順序建模能力。

論文回顧了 TransformRL 的進(jìn)展,并按分類展示現(xiàn)有方法。作者將現(xiàn)有方法分為四類:表征學(xué)習(xí)、模型學(xué)習(xí)、順序決策和通用智能體。圖 2 顯示相關(guān)分類的概覽。

圖片

用于表征學(xué)習(xí)的 Transformer

考慮到 RL 任務(wù)的順序性,使用 Transformer 編碼器模塊是合理的。事實(shí)上,RL 任務(wù)中的各種序列都需要處理,例如局部 per-timestep 序列(多實(shí)體序列 [Vinyals et al., 2019; Baker et al., 2019]、多智能體序列 [Wen et al., 2022])、時(shí)序序列([Parisotto et al., 2020; Banino et al., 2021])等。

局部 per-timestep 序列的編碼器

這種方法早期顯著的成功體現(xiàn)在使用 Transformer 處理智能體觀察到的可變數(shù)量實(shí)體的復(fù)雜信息。[Zambaldi et al. 2018a] 首先提出用多頭點(diǎn)積注意力捕獲結(jié)構(gòu)化觀察的關(guān)系推理,隨后 AlphaStar [Vinyals et al., 2019] 實(shí)現(xiàn)了在具有挑戰(zhàn)性的多智能體環(huán)境(星際爭霸 II)中處理多實(shí)體觀察。在這種稱為實(shí)體 Transformer 的機(jī)制中,觀察結(jié)果以如下形式編碼:

圖片

其中 e_i 代表智能體對(duì)實(shí)體 i 的觀察,要么直接從整個(gè)觀察中切片,要么由實(shí)體 tokenizer 給出。

一些后續(xù)工作豐富了實(shí)體 Transformer 機(jī)制。[Hu et al. 2020] 提出了一種兼容的解耦策略,以明確地將行動(dòng)與各種實(shí)體相關(guān)聯(lián),并利用注意力機(jī)制進(jìn)行策略解釋。為了實(shí)現(xiàn)具有挑戰(zhàn)性的 one-shot 視覺模仿,Dasari 和 Gupta [2021] 使用 Transformer 來學(xué)習(xí)專注于特定任務(wù)元素的表征。

類似于分散在觀察中的實(shí)體,一些研究利用 Transformer 來處理其他局部的 per-timestep 序列。Tang 和 Ha [2021] 利用 Transformer 的注意力機(jī)制來處理感知序列并構(gòu)建一個(gè)置換不變性輸入策略。在不兼容的多任務(wù) RL 中,[Kurin et al., 2020] 提出使用 Transformer 來提取形態(tài)域知識(shí) 。

時(shí)序編碼器

同時(shí),用 Transformer 處理時(shí)序序列也是合理的。時(shí)序編碼器被用作存儲(chǔ)架構(gòu),

圖片

其中 o_t 表示智能體在時(shí)間 t 的觀察,Emb_0:t 表示從初始觀察到當(dāng)前觀察的歷史觀察的嵌入。

在早期的工作中,[Mishra et al. 2018] 無法使用 vanilla Transformer 處理時(shí)序序列,并且發(fā)現(xiàn)它在某些特定任務(wù)中甚至比隨機(jī)策略表現(xiàn)更差。Gated Transformer-XL (GTrXL) [Parisotto et al., 2020] 是第一個(gè)使用 Transformer 作為存儲(chǔ)架構(gòu)來處理軌跡的有效方案。GTrXL 通過 Identity Map Reordering 修改 Transformer-XL 架構(gòu) [Dai et al., 2019],以提供從時(shí)序輸入到 Transformer 輸出的「skip」路徑,這可能有助于形成從一開始就穩(wěn)定的訓(xùn)練過程。[Loynd et al. 2020] 提出了一種用于長期依賴的記憶向量快捷機(jī)制,[Irie et al. 2021] 將線性 Transformer 與快速加權(quán)編程器(Fast Weight Programmer)相結(jié)合以獲得更好的性能。[Melo 2022] 提出使用自注意力機(jī)制來模擬基于存儲(chǔ)的元 RL 的存儲(chǔ)恢復(fù)。

雖然隨著存儲(chǔ)的增長和參數(shù)規(guī)模的擴(kuò)大,Transformer 的性能優(yōu)于 LSTM/RNN,但它在 RL 上的數(shù)據(jù)效率不佳。后續(xù)工作利用一些輔助自監(jiān)督任務(wù)來促進(jìn)學(xué)習(xí) [Banino et al., 2021] 或使用預(yù)訓(xùn)練的 Transformer 架構(gòu)作為時(shí)序編碼器 [Li et al., 2022; Fan et al.,2022]。

用于模型學(xué)習(xí)的 Transformer

除了使用 Transformer 作為序列嵌入的編碼器,Transformer 架構(gòu)還在基于模型的算法中作為環(huán)境模型的 backbone。與以單步觀察和行動(dòng)為條件的預(yù)測不同,Transformer 使環(huán)境模型能夠預(yù)測以一定長度的歷史信息為條件的變換(transition)。

實(shí)際上,Dreamer 及其后續(xù)算法的成功 [Hafner et al., 2020, 2021; Seo et al., 2022] 已經(jīng)在一些部分可觀察的環(huán)境或需要記憶機(jī)制的任務(wù)中證明了基于歷史信息的世界模型的優(yōu)點(diǎn)。以歷史信息為條件的世界模型由一個(gè)捕獲抽象信息的觀察編碼器和一個(gè)學(xué)習(xí)潛在空間中變換的變換模型組成。

已有研究使用 Transformer 架構(gòu)而不是 RNN 來構(gòu)建基于歷史的世界模型。[Chen et al. 2022] 用基于 Transformer 的模型 TSSM(Transformer State-Space Model)替換 Dreamer 中基于 RNN 的循環(huán)狀態(tài)空間模型(RSSM)。IRIS(Imagination with autoRegression over an Inner Speech)[Micheli et al., 2022] 通過對(duì) rollout 經(jīng)驗(yàn)的自回歸學(xué)習(xí)來學(xué)習(xí)基于 Transformer 的世界模型,而沒有像 Dreamer 那樣的 KL 平衡,并在 Atari [Bellemare et al., 2013] 上取得了很好的結(jié)果。

此外,還有研究嘗試用基于 Transformer 的世界模型做規(guī)劃。[Ozair et al. 2021] 驗(yàn)證了使用 Transformer 變換模型進(jìn)行規(guī)劃來完成隨機(jī)任務(wù)的有效性。[Sun et al. 2022] 提出了一種以目標(biāo)為條件的 Transformer 變換模型,該模型在程序任務(wù)的視覺基礎(chǔ)規(guī)劃中是很有效的。

RNN 和 Transformer 都適合學(xué)習(xí)基于歷史信息的世界模型。然而,[Micheli et al. 2022] 發(fā)現(xiàn)與 Dreamer 相比,Transformer 架構(gòu)是數(shù)據(jù)效率更高的世界模型。TSSM 的實(shí)驗(yàn)結(jié)果表明,Transformer 架構(gòu)在需要長期記憶的任務(wù)中表現(xiàn)出眾。

用于順序決策的 Transformer

除了融入到傳統(tǒng) RL 算法中作為高性能架構(gòu)以外,Transformer 還可以直接用作順序決策模型。這是因?yàn)榭梢园?RL 看作一個(gè)條件序列建模問題:生成可以產(chǎn)生高回報(bào)的行動(dòng)序列。

圖片

鑒于 Transformer 在序列預(yù)測方面的優(yōu)異準(zhǔn)確性,Bootstrapped Transformer (BooT) [Wang et al., 2022] 提出通過 bootstrap Transformer 來生成數(shù)據(jù),同時(shí)優(yōu)化數(shù)據(jù)以進(jìn)行順序決策。Bootstrapping Transformer 用于數(shù)據(jù)增強(qiáng)可以擴(kuò)大離線數(shù)據(jù)集的數(shù)量和覆蓋范圍,從而提升性能。具體地說,BooT 比較了不同的數(shù)據(jù)生成方案和 bootstraping 方案,以分析 BooT 如何助力策略學(xué)習(xí)。結(jié)果表明,它可以生成與底層 MDP 一致的數(shù)據(jù),而無需額外的約束。

用于通用智能體的 Transformer

Decision Transformer 已經(jīng)在離線數(shù)據(jù)的各種任務(wù)中發(fā)揮巨大作用,有研究者開始考慮 Transformer 是否可以像 CV 和 NLP 領(lǐng)域那樣讓通用智能體解決多個(gè)不同任務(wù)或問題。

泛化到多個(gè)任務(wù)

一些研究者借鑒了 CV 和 NLP 中對(duì)大規(guī)模數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練的思想,并嘗試從大規(guī)模多任務(wù)數(shù)據(jù)集中抽象出通用策略。Multi-Game Decision Transformer (MGDT) [Lee et al., 2022] 是 DT 的一個(gè)變體,該模型在由專家和非專家數(shù)據(jù)組成的多樣化數(shù)據(jù)集上學(xué)習(xí) DT,并使用一組參數(shù)在多個(gè) Atari 游戲上實(shí)現(xiàn)接近人類的水平。為了在非專家級(jí)數(shù)據(jù)集上獲得專家級(jí)的表現(xiàn),MGDT 設(shè)計(jì)了專家行動(dòng)推理機(jī)制,從 return-to-go 的先驗(yàn)分布計(jì)算專家級(jí)的 return-to-go 后驗(yàn)分布并根據(jù)貝葉斯公式預(yù)設(shè)專家級(jí) return-to-go 的概率。

同樣,Switch Trajectory Transformer (SwitchTT) [Lin et al., 2022] 是 TT 的多任務(wù)擴(kuò)展,利用稀疏激活模型,將 FFN 層替換為混合專家層,以實(shí)現(xiàn)高效的多任務(wù)離線學(xué)習(xí)。此外,SwitchTT 還采用分布式 trajectory 值估計(jì)器對(duì)值估計(jì)的不確定性進(jìn)行建模。依靠這兩個(gè)增強(qiáng)功能,SwitchTT 在性能和訓(xùn)練速度方面都比 TT 提升了很多。MGDT 和 SwitchTT 利用從多個(gè)任務(wù)和各種性能級(jí)策略中收集的經(jīng)驗(yàn)來學(xué)習(xí)通用策略。然而,構(gòu)建大規(guī)模的多任務(wù)數(shù)據(jù)集并非易事。 

與 CV 和 NLP 中的大規(guī)模數(shù)據(jù)集通常使用來自互聯(lián)網(wǎng)的海量數(shù)據(jù)和簡單的人工標(biāo)記不同,RL 中的順序決策數(shù)據(jù)總是缺少行動(dòng)信息,并且不易標(biāo)記。因此,[Baker et al. 2022] 提出了一種半監(jiān)督方案,利用沒有行動(dòng)信息的大規(guī)模在線數(shù)據(jù),學(xué)習(xí)基于 Transformer 的逆向動(dòng)態(tài)模型(IDM)。該模型利用對(duì)過去和未來的觀察來預(yù)測行動(dòng)信息,能夠標(biāo)記大量在線視頻數(shù)據(jù)。IDM 是在包含手動(dòng)標(biāo)記行動(dòng)的小型數(shù)據(jù)集上學(xué)習(xí)的,并且足夠準(zhǔn)確。

NLP 的許多已有工作證明了 prompt 在適應(yīng)新任務(wù)方面的有效性,一些工作利用基于 DT 方法的 prompt 技術(shù)來實(shí)現(xiàn)快速適應(yīng)。Prompt-based Decision Transformer (Prompt-DT) [Xu et al., 2022] 從少樣本(few-shot)演示數(shù)據(jù)集中采樣一系列變換作為 prompt,并將少樣本策略泛化到離線元 RL 任務(wù)上。[Reed et al. 2022] 進(jìn)一步利用基于 prompt 的架構(gòu),通過在涵蓋自然語言、圖像、時(shí)間決策和多模態(tài)數(shù)據(jù)的超大規(guī)模數(shù)據(jù)集上進(jìn)行自回歸序列建模來學(xué)習(xí)通用智能體(Gato)。Gato 能夠執(zhí)行來自不同領(lǐng)域的一系列任務(wù),包括文本生成和決策。

 [Laskin et al. 2022] 提出了算法蒸餾 (AD),以在單任務(wù) RL 算法學(xué)習(xí)過程的 across-episode 序列上訓(xùn)練 Transformer。因此,即使在新任務(wù)中,Transformer 也可以學(xué)會(huì)在自回歸生成過程中逐步改進(jìn)其策略。

泛化到更廣泛領(lǐng)域

除了泛化到多個(gè)任務(wù),Transformer 還是一個(gè)強(qiáng)大的「通用」模型,可以用于與順序決策相關(guān)的一系列領(lǐng)域。受 NLP 中掩碼語言建模(masked language modeling)[Devlin et al., 2018] 技術(shù)的啟發(fā),[Carroll et al. 2022] 提出了 Uni [MASK],它將各種常用研究領(lǐng)域統(tǒng)一為 mask 推理問題,包括行為克隆、離線 RL、GCRL、過去 / 未來推理和動(dòng)態(tài)預(yù)測。Uni [MASK] 比較了不同的 mask 方案,包括任務(wù)特定 mask、隨機(jī) mask 和微調(diào)變體。結(jié)果表明,用隨機(jī) mask 訓(xùn)練的單個(gè) Transformer 可以解決任意推理任務(wù)。

此外,[Reid et al. 2022] 發(fā)現(xiàn),使用在語言數(shù)據(jù)集或包含語言模態(tài)的多模態(tài)數(shù)據(jù)集上預(yù)訓(xùn)練的 Transformer 對(duì) DT 進(jìn)行微調(diào)是有益的。這表明,即使是來自非 RL 領(lǐng)域的知識(shí)也可以通過 transformer 進(jìn)行 RL 訓(xùn)練。

感興趣的讀者可以閱讀論文原文,了解更多研究細(xì)節(jié)。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-09-10 15:10:00

智能強(qiáng)化學(xué)習(xí)框架

2018-09-12 15:25:33

2025-05-08 09:10:30

2024-11-13 15:00:00

模型數(shù)據(jù)

2025-03-19 09:10:00

2023-04-27 09:41:47

2024-10-08 15:20:00

AI安全

2025-04-01 09:00:00

模型訓(xùn)練開源

2023-01-16 14:55:00

強(qiáng)化學(xué)習(xí)

2025-09-01 14:16:40

AI開源模型

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2025-11-07 08:51:41

2024-10-12 17:14:12

2022-06-29 14:49:43

計(jì)算機(jī)視覺智能

2022-08-26 14:44:32

強(qiáng)化學(xué)習(xí)AI

2024-01-01 22:14:04

2018-11-14 10:28:38

AI數(shù)據(jù)科技

2020-02-21 15:33:44

人工智能機(jī)器學(xué)習(xí)技術(shù)

2025-07-01 09:07:00

2025-10-11 04:00:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

欧美大片在线看免费观看| 美女色狠狠久久| 热久久久久久久| 久久久97精品| 日韩精品一区二区三区高清免费| 成人免费视频| 精品制服美女丁香| 91国内产香蕉| 人妻互换一区二区激情偷拍| 日本成人精品| 色噜噜狠狠色综合欧洲selulu| 精品国产一二| 中文字幕在线一| 久久久久电影| 国产视频久久久久久久| jizz欧美性11| www.久久ai| 久久精品人人做人人综合| 国产综合在线观看视频| 岛国毛片在线观看| 欧美色网址大全| 亚洲成年人影院在线| 男人天堂网视频| 黄色小网站在线观看| 成人自拍视频在线观看| 国产精品白丝jk喷水视频一区 | 少妇淫片在线影院| 亚洲日本在线观看| 久久久7777| 国内老熟妇对白xxxxhd| 奇米影视在线99精品| 18性欧美xxxⅹ性满足| 久久影院一区二区| 亚洲字幕久久| 中文字幕精品久久久久| 四虎永久免费在线观看| 欧美三级午夜理伦三级在线观看| 日韩西西人体444www| 欧美成人黄色网址| 亚洲成人一区在线观看| 日韩欧美一区二区三区久久| 天天综合中文字幕| 蜜芽在线免费观看| 中文字幕色av一区二区三区| 亚洲精品一区二区三| 色资源在线观看| 99久久精品免费精品国产| 成人中心免费视频| 亚洲大尺度在线观看| 亚洲美女色禁图| 成年人精品视频| 裸体武打性艳史| 综合久久一区| 欧美激情亚洲国产| 国产精品九九九九九九| 综合精品久久| 久久久精品网站| 国产黄在线免费观看| 日韩精品1区| 日韩中文字幕精品视频| 99热这里只有精品4| 国产精品成人一区二区不卡| 久久精品91久久久久久再现| 天堂а√在线中文在线鲁大师| 欧美jizz| 久久99热精品这里久久精品| 国产第一页在线播放| 综合av在线| 66m—66摸成人免费视频| 国产微拍精品一区| 日韩和欧美一区二区三区| 国产精品网红直播| av免费在线观看不卡| 成人综合在线观看| 日本不卡在线播放| 成年人在线观看| 亚洲男人天堂一区| 欧美视频免费看欧美视频| 一本大道色婷婷在线| 欧美午夜精品理论片a级按摩| 精品999在线| 亚洲老司机网| 日韩精品资源二区在线| 中文字幕在线观看视频www| 风间由美一区二区av101| 亚洲精品一区二区三区婷婷月| 亚洲v国产v欧美v久久久久久| 欧美一站二站| 九九热视频这里只有精品| 国产色无码精品视频国产| 国产精品99免费看| 欧美精品久久久久a| 在线观看 亚洲| 九九**精品视频免费播放| 国产欧美一区二区三区另类精品| 精品欧美不卡一区二区在线观看 | 欧美精品国产一区| 久久久久久亚洲精品中文字幕| 亚洲免费黄色网址| 国产呦精品一区二区三区网站| 极品尤物一区二区三区| 老司机精品视频在线观看6| 天天操天天综合网| 女同激情久久av久久| 久久香蕉精品香蕉| 久久精品成人动漫| 在线观看污污网站| 国产suv一区二区三区88区| 日韩wuma| 久久不射影院| 在线电影院国产精品| 最近中文字幕无免费| 国产精品麻豆久久| 国产成人高潮免费观看精品| 黑人精品一区二区| 国产免费成人在线视频| h无码动漫在线观看| 国产第一亚洲| 国产丝袜一区二区三区| 久久久久久久蜜桃| 精品一二三四区| 欧美亚洲免费在线| 碰碰在线视频| 亚洲国产天堂久久国产91| 国产日韩欧美在线观看视频| 9久re热视频在线精品| 国产女同一区二区| 成人精品一区二区三区免费| 亚洲成av人片一区二区| 欧美大尺度做爰床戏| 国产一区二区在线| 91成人免费观看网站| 亚洲AV无码精品国产| 成人欧美一区二区三区白人| 日本在线一二三区| 精品视频亚洲| 奇米4444一区二区三区 | 国产午夜性春猛交ⅹxxx| 福利电影一区二区| 一级性生活视频| 久久久久毛片| 日韩中文字幕av| 毛片在线免费视频| 91热门视频在线观看| 欧美在线观看成人| 欧美三级午夜理伦三级在线观看| 国模精品视频一区二区| 欧美自拍第一页| 亚洲第一主播视频| 玖草视频在线观看| 噜噜噜躁狠狠躁狠狠精品视频 | 久久人体视频| 国产精品中文字幕在线| 国产福利电影在线| 欧美日韩精品欧美日韩精品一综合| 成人精品999| 人禽交欧美网站| 亚洲欧美日韩在线综合| 在线播放成人| 欧美日韩电影在线观看| 深夜福利视频网站| 亚洲va国产天堂va久久en| 欧美极品jizzhd欧美仙踪林| 一区二区国产在线观看| 日本高清久久一区二区三区| 两个人看的在线视频www| 日韩精品在线视频观看| 在线观看 亚洲| 中文字幕视频一区二区三区久| 日本r级电影在线观看| 亚洲人成人一区二区三区| 久久久久久久久久久一区 | 在线视频一区二区三| 亚洲国产日韩一区无码精品久久久| 日本美女一区二区| 日本一本草久p| 国产一区二区在线视频你懂的| 久99久在线视频| 一级黄色免费片| 成人sese在线| 精品久久久噜噜噜噜久久图片 | 无人区在线高清完整免费版 一区二| 一区二区欧美久久| 精品人妻无码一区二区色欲产成人 | 精品欧美一区二区久久久| 免费观看一级特黄欧美大片| 国产一区一区三区| 日韩精品免费一区二区三区竹菊 | 日韩毛片一区| 欧美国产日本在线| 国产精品秘入口| 欧美变态口味重另类| 中文字幕在线播| 亚洲欧美日韩一区二区三区在线观看| 人妻体内射精一区二区三区| 日韩激情一区二区| 欧美中文字幕在线观看视频| 性欧美lx╳lx╳| 亚洲va男人天堂| 蜜桃视频www网站在线观看| 少妇高潮久久久久久潘金莲| 精品久久久久成人码免费动漫| 亚洲九九爱视频| xxxx黄色片| 国产精品99久久久久| 97视频久久久| 欧美激情视频一区二区三区免费| 青娱乐国产91| 看亚洲a级一级毛片| 91精品国产高清久久久久久91 | 欧美激情亚洲视频| 五月天婷婷在线视频| 日韩国产欧美区| 成 人 黄 色 片 在线播放| 91福利精品视频| 欧美日韩一级在线观看| 久久午夜羞羞影院免费观看| 免费国偷自产拍精品视频| 久久综合九色| 国产素人在线观看| 欧美fxxxxxx另类| 伊人久久大香线蕉综合75| 噜噜噜天天躁狠狠躁夜夜精品| 亚洲aaa激情| 在线成人免费| 成人国产在线视频| 亚洲四虎影院| 97精品国产97久久久久久春色| 伊人福利在线| www.久久撸.com| 男人的天堂在线视频免费观看| 精品视频在线播放免| 亚洲欧美另类一区| 日韩免费看网站| 超碰在线播放97| 欧美大片免费久久精品三p | 精品在线亚洲视频| 天天爽夜夜爽一区二区三区| 久久人人超碰| 日韩视频免费在线播放| 一本久道久久久| 成人在线观看你懂的| 欧美激情 亚洲a∨综合| 免费成人进口网站| 欧美精品首页| 欧妇女乱妇女乱视频| 欧美午夜在线视频| 国产 日韩 亚洲 欧美| 影音先锋久久| 黄色一级视频片| 在线综合亚洲| 免费国产成人看片在线| 欧美日一区二区三区在线观看国产免| 国产午夜精品视频一区二区三区| 欧美淫片网站| 久艹视频在线免费观看| 亚洲少妇一区| 无码人妻精品一区二区三区在线 | 欧美日韩成人在线视频| av电影免费在线看| 国产91精品久久久| 电影一区二区| 亚洲a区在线视频| 第四色在线一区二区| 精品一区二区国产| 欧美一区二区三区高清视频| 黄瓜视频免费观看在线观看www| 性xxxx欧美老肥妇牲乱| 亚洲高潮无码久久| 亚洲激情一区| 一区二区xxx| 狠狠色丁香久久婷婷综合_中| 人妻巨大乳一二三区| 粉嫩嫩av羞羞动漫久久久| 人妻激情偷乱频一区二区三区| 99久久久国产精品| 中文字幕伦理片| 中文字幕不卡在线观看| 国产精品无码无卡无需播放器| 亚洲日本在线视频观看| 日本午夜视频在线观看| 欧美日韩黄视频| 日本高清视频免费看| 亚洲色图狂野欧美| 影音先锋男人在线资源| 欧美一级视频免费在线观看| 性欧美video另类hd尤物| 国产一区国产精品| 欧美大黑bbbbbbbbb在线| 福利视频一区二区三区四区| 日一区二区三区| 国产3p在线播放| 美女高潮久久久| 爱豆国产剧免费观看大全剧苏畅| 成人福利视频网站| 久久噜噜色综合一区二区| 五月天国产精品| 在线免费看av片| 欧美乱妇23p| 成人无码一区二区三区| 色天天综合狠狠色| 蜜桃麻豆影像在线观看| 亚洲一区二区三区sesese| 国产麻豆一区二区三区精品视频| 超级碰在线观看| 可以看av的网站久久看| 国产清纯白嫩初高中在线观看性色| 久久日一线二线三线suv| 免费成人深夜天涯网站| 一区二区三区日本| 五月天婷婷导航| 亚洲精品久久久久国产| h片在线免费| 国产精品久久久久久久午夜| 欧美18xxxx| 日韩在线第一区| 久久精品中文| 菠萝菠萝蜜网站| 亚洲自拍偷拍图区| a天堂在线视频| 三级精品视频久久久久| 国产精品高颜值在线观看| 91久久久亚洲精品| 欧美丝袜一区| 爆乳熟妇一区二区三区霸乳| 91亚洲国产成人精品一区二区三| 黄色免费一级视频| 欧洲av在线精品| 精品乱码一区二区三四区视频 | 亚洲成人精品综合在线| 日韩高清国产一区在线观看| 国产视频一区免费看| 国产调教打屁股xxxx网站| 中文字幕免费一区| 国产精品成人久久久| 日韩av在线网址| av在线加勒比| 91久久国产自产拍夜夜嗨| 欧美日韩激情| 国产精品一区二区小说| 中文字幕巨乱亚洲| 中文字幕二区三区| 自拍亚洲一区欧美另类| 国产精品蜜月aⅴ在线| 永久域名在线精品| 日韩制服丝袜av| 纪美影视在线观看电视版使用方法| 色猫猫国产区一区二在线视频| 四虎在线观看| 久久久久久久国产精品视频| aiss精品大尺度系列| 国产自产在线视频| 91在线porny国产在线看| 日本网站免费观看| 日韩激情片免费| 电影亚洲精品噜噜在线观看| 日本一区二区在线视频| 青青草国产精品亚洲专区无| 亚洲天堂视频一区| 欧美性三三影院| 成人免费网站在线观看视频| 亚洲伊人成综合成人网| 在线一区免费| 精品1卡二卡三卡四卡老狼| 精品国产福利在线| 成人精品一区二区| 91久久国产自产拍夜夜嗨| 亚洲一本视频| 国产精品无码一区二区三区| 亚洲黄色在线视频| 无码国产精品一区二区免费16| 国产69精品99久久久久久宅男| 欧美日韩一本| 污污网站免费观看| 亚洲日本va在线观看| 韩国av免费在线观看| 欧美激情中文网| 亚洲成人高清| 91成人在线观看喷潮教学| 久久精品欧美一区二区三区麻豆 | 欧美一卡二卡在线| 亚洲图区一区| 日本午夜精品一区二区三区| 精品一区二区三区在线视频| 黄色一级视频在线观看| 日韩福利在线播放| 国产aⅴ精品一区二区四区| r级无码视频在线观看| 国产欧美精品区一区二区三区| 国产按摩一区二区三区| 欧美在线一级va免费观看| 欧美日韩一区二区综合| 国产女人18毛片水真多18 | 欧美一区二区三区黄片| 国产精品视频色| 日韩视频一区| 欧美久久久久久久久久久久| 亚洲片av在线| 欧美aaaaaaaa牛牛影院| 在线观看视频你懂得|