精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

再掀強化學習變革!DeepMind提出「算法蒸餾」:可探索的預訓練強化學習Transformer

人工智能 新聞
該怎么把預訓練Transformer范式用到強化學習里?

在當下的序列建模任務上,Transformer可謂是最強大的神經網絡架構,并且經過預訓練的Transformer模型可以將prompt作為條件或上下文學習(in-context learning)適應不同的下游任務。

大型預訓練Transformer模型的泛化能力已經在多個領域得到驗證,如文本補全、語言理解、圖像生成等等。

圖片

從去年開始,已經有相關工作證明,通過將離線強化學習(offline RL)視為一個序列預測問題,那么模型就可以從離線數據中學習策略

但目前的方法要么是從不包含學習的數據中學習策略(如通過蒸餾固定的專家策略),要么是從包含學習的數據(如智能體的重放緩沖區)中學習,但由于其context太小,以至于無法捕捉到策略提升。

圖片

DeepMind的研究人員通過觀察發現,原則上強化學習算法訓練中學習的順序性(sequential nature)可以將強化學習過程本身建模為一個「因果序列預測問題」

具體來說,如果一個Transformer的上下文足夠長到可以包含由于學習更新而產生的策略改進,那它應該不僅能夠表示一個固定的策略,而且能夠通過關注之前episodes的狀態、行動和獎勵表示為一個策略提升算子(policy improvement operator)。

這也提供了一種技術上的可行性,即任何RL算法都可以通過模仿學習蒸餾成一個足夠強大的序列模型,并將其轉化為一個in-context RL算法。

基于此,DeepMind提出了算法蒸餾(Algorithm Distillation, AD) ,通過建立因果序列模型將強化學習算法提取到神經網絡中。

圖片

論文鏈接:?https://arxiv.org/pdf/2210.14215.pdf?

算法蒸餾將學習強化學習視為一個跨episode的序列預測問題,通過源RL算法生成一個學習歷史數據集,然后根據學習歷史作為上下文,通過自回歸預測行為來訓練因果Transformer。

與蒸餾后學習(post-learning)或專家序列的序列策略預測結構不同,AD能夠在不更新其網絡參數的情況下完全在上下文中改進其策略。

  • Transfomer收集自己的數據,并在新任務上最大化獎勵;
  • 無需prompting或微調;
  • 在權重凍結的情況下,Transformer可探索、利用和最大化上下文的返回(return)!諸如Gato類的專家蒸餾(Expert Distillation)方法無法探索,也無法最大化返回。

實驗結果證明了AD可以在稀疏獎勵、組合任務結構和基于像素觀察的各種環境中進行強化學習,并且AD學習的數據效率(data-efficient)比生成源數據的RL算法更高。

AD也是第一個通過對具有模仿損失(imitation loss)的離線數據進行序列建模來展示in-context強化學習的方法。

算法蒸餾

2021年,有研究人員首先發現Transformer可以通過模仿學習從離線RL數據中學習單任務策略,隨后又被擴展為可以在同域和跨域設置中提取多任務策略。

這些工作為提取通用的多任務策略提出了一個很有前景的范式:首先收集大量不同的環境互動數據集,然后通過序列建模從數據中提取一個策略。

把通過模仿學習從離線RL數據中學習策略的方法也稱之為離線策略蒸餾,或者簡稱為策略蒸餾(Policy Distillation, PD)

盡管PD的思路非常簡單,并且十分易于擴展,但PD有一個重大的缺陷:生成的策略并沒有從與環境的額外互動中得到提升。

例如,MultiGame Decision Transformer(MGDT)學習了一個可以玩大量Atari游戲的返回條件策略,而Gato通過上下文推斷任務,學習了一個在不同環境中解決任務的策略,但這兩種方法都不能通過試錯來改進其策略。

MGDT通過微調模型的權重使變壓器適應新的任務,而Gato則需要專家的示范提示才能適應新的任務。

簡而言之,Policy Distillation方法學習政策而非強化學習算法。

研究人員假設Policy Distillation不能通過試錯來改進的原因是,它在沒有顯示學習進展的數據上進行訓練。

算法蒸餾(AD)通過優化一個RL算法的學習歷史上的因果序列預測損失來學習內涵式策略改進算子的方法。

圖片

AD包括兩個組成部分

1、通過保存一個RL算法在許多單獨任務上的訓練歷史,生成一個大型的多任務數據集;

2、將Transformer使用前面的學習歷史作為其背景對行動進行因果建模。

由于策略在源RL算法的整個訓練過程中不斷改進,AD必須得學習如何改進算子,才能準確模擬訓練歷史中任何給定點的行動。

最重要的是,Transformer的上下文大小必須足夠大(即跨周期),以捕捉訓練數據的改進。

圖片

在實驗部分,為了探索AD在in-context RL能力上的優勢,研究人員把重點放在預訓練后不能通過zero-shot 泛化解決的環境上,即要求每個環境支持多種任務,且模型無法輕易地從觀察中推斷出任務的解決方案。同時episodes需要足夠短以便可以訓練跨episode的因果Transformer。

圖片

在四個環境Adversarial Bandit、Dark Room、Dark Key-to-Door、DMLab Watermaze的實驗結果中可以看到,通過模仿基于梯度的RL算法,使用具有足夠大上下文的因果Transformer,AD可以完全在上下文中強化學習新任務。

圖片

AD能夠進行in-context中的探索、時間上的信用分配和泛化,AD學習的算法比產生Transformer訓練的源數據的算法更有數據效率。

PPT講解

為了方便論文理解,論文的一作Michael Laskin在推特上發表了一份ppt講解。

圖片

算法蒸餾的實驗表明,Transformer可以通過試錯自主改善模型,并且不用更新權重,無需提示、也無需微調。單個Transformer可以收集自己的數據,并在新任務上將獎勵最大化。

盡管目前已經有很多成功的模型展示了Transformer如何在上下文中學習,但Transformer還沒有被證明可以在上下文中強化學習。

為了適應新的任務,開發者要么需要手動指定一個提示,要么需要調整模型。

如果Transformer可以適應強化學習,做到開箱即用豈不美哉?

但Decision Transformers或者Gato只能從離線數據中學習策略,無法通過反復實驗自動改進。

圖片

使用算法蒸餾(AD)的預訓練方法生成的Transformer可以在上下文中強化學習。

圖片

首先訓練一個強化學習算法的多個副本來解決不同的任務和保存學習歷史。

圖片

一旦收集完學習歷史的數據集,就可以訓練一個Transformer來預測之前的學習歷史的行動。

由于策略在歷史上有所改進,因此準確地預測行動將會迫使Transformer對策略提升進行建模。

圖片

整個過程就是這么簡單,Transformer只是通過模仿動作來訓練,沒有像常見的強化學習模型所用的Q值,沒有長的操作-動作-獎勵序列,也沒有像 DTs 那樣的返回條件。

在上下文中,強化學習沒有額外開銷,然后通過觀察 AD 是否能最大化新任務的獎勵來評估模型。

Transformer探索、利用、并最大化返回在上下文時,它的權重是凍結的!

另一方面,專家蒸餾(最類似于Gato)不能探索,也不能最大化回報。

圖片

AD 可以提取任何 RL 算法,研究人員嘗試了 UCB、DQNA2C,一個有趣的發現是,在上下文 RL 算法學習中,AD更有數據效率。

圖片

用戶還可以輸入prompt和次優的demo,模型會自動進行策略提升,直到獲得最優解!

而專家蒸餾ED只能維持次優的demo表現。

圖片

只有當Transformer的上下文足夠長,跨越多個episode時,上下文RL才會出現。

AD需要一個足夠長的歷史,以進行有效的模型改進和identify任務。

圖片

通過實驗,研究人員得出以下結論:

  • Transformer可以在上下文中進行 RL
  • 帶 AD 的上下文 RL 算法比基于梯度的源 RL 算法更有效
  • AD提升了次優策略
  • in-context強化學習產生于長上下文的模仿學習
責任編輯:張燕妮 來源: 新智元
相關推薦

2022-10-08 09:53:17

AI算法

2021-09-10 16:31:56

人工智能機器學習技術

2025-05-28 02:25:00

2024-12-09 08:45:00

模型AI

2020-08-10 06:36:21

強化學習代碼深度學習

2023-03-09 08:00:00

強化學習機器學習圍棋

2023-06-25 11:30:47

可視化

2022-10-28 15:08:30

DeepMind數據

2025-10-11 09:23:28

RLPT強化學習預訓練數據

2025-06-11 14:45:57

強化學習訓練模型

2023-11-07 07:13:31

推薦系統多任務學習

2025-06-30 09:08:00

2020-11-12 19:31:41

強化學習人工智能機器學習

2021-09-17 15:54:41

深度學習機器學習人工智能

2022-11-03 14:13:52

強化學習方法

2024-10-12 17:14:12

2017-03-28 10:15:07

2023-09-21 10:29:01

AI模型

2025-06-23 09:09:00

2020-02-21 15:33:44

人工智能機器學習技術
點贊
收藏

51CTO技術棧公眾號

亚洲国产一二三| 99在线精品视频在线观看| 91久久精品国产91性色tv| 欧美伦理一区二区| 国产主播第一页| 区一区二视频| 日韩一级欧美一级| 久久手机在线视频| 青青草在线免费观看| 日韩电影免费一区| 色偷偷av一区二区三区| a级大片免费看| av免费不卡| 国产日产精品1区| 国产欧美在线观看| 国产又黄又爽又无遮挡| 日韩高清影视在线观看| 亚洲一区二区三区视频在线播放| 精品无码久久久久国产| 亚洲成人av网址| 午夜日韩av| 日韩精品极品在线观看| 三级在线视频观看| 欧美亚洲系列| 欧美精彩视频一区二区三区| 97超级在线观看免费高清完整版电视剧| 日本熟女一区二区| 精品国产一区一区二区三亚瑟| 欧美久久久影院| 俄罗斯av网站| 国产在线更新| 久久综合久久综合久久| 成人两性免费视频| 中国一级免费毛片| 国产精品久久久久9999赢消| 亚洲国产精品久久久久秋霞不卡| 日韩视频免费在线播放| 性欧美ⅴideo另类hd| 久久精品夜色噜噜亚洲a∨| 亚洲一区二区三区毛片| 香蕉污视频在线观看| 国产在线成人| www国产91| 久久久久久国产精品无码| 国产一区二区三区| 色香蕉久久蜜桃| 800av在线免费观看| 欧美三级理伦电影| 久久久久久久电影| www.成人三级视频| 一级黄色大片免费观看| 亚洲欧美日韩视频二区| 欧美第一页在线| 91狠狠综合久久久| 欧美在线观看视频一区| 亚洲经典中文字幕| 国产精品一区二区在线免费观看| av日韩一区| 欧美在线免费观看视频| 免费一级特黄特色毛片久久看| 国产网友自拍视频导航网站在线观看| 成人免费看的视频| 成人国产在线视频| 中国黄色一级视频| 视频一区中文字幕国产| 69av在线视频| 天堂网av手机版| 中文一区在线| 欧美伊久线香蕉线新在线| 欧美毛片在线观看| 欧美在线影院| 欧美美女15p| 欧美精品一级片| 黄色精品一区| 海角国产乱辈乱精品视频| 黄色一级视频免费| 欧美日本一区| 久久久久久伊人| 日韩男人的天堂| 欧美freesex交免费视频| 操91在线视频| 丰满少妇被猛烈进入一区二区| 我不卡神马影院| 麻豆国产精品va在线观看不卡| 很污很黄的网站| 99久久夜色精品国产亚洲1000部| 在线观看国产精品91| 91激情视频在线观看| 精品毛片免费观看| 久久国产一区二区三区| 毛片aaaaaa| 日韩欧美视频| 日韩中文字幕精品视频| 国产十六处破外女视频| 在线国产精品一区| 国产91对白在线播放| 人人草在线观看| 青娱乐精品视频| 国产在线一区二区三区| 国产日韩免费视频| 懂色一区二区三区免费观看| 精品免费二区三区三区高中清不卡| 天堂在线免费av| 国产欧美一区二区三区在线看蜜臀 | 欧美成人免费观看| 日本一级淫片色费放| 日韩不卡一二三区| 动漫3d精品一区二区三区| 国产三区四区在线观看| 亚洲一区二区精品视频| 亚洲 中文字幕 日韩 无码| 中文字幕一区图| 在线播放日韩精品| 国产精品视频久久久久久久| 韩国成人精品a∨在线观看| 免费成人在线观看av| 色女人在线视频| 欧美日韩视频一区二区| 蜜桃精品一区二区| 亚洲小说区图片区| 成人乱人伦精品视频在线观看| 欧美日韩激情视频一区二区三区| 亚洲最新视频在线观看| 天天干天天色天天干| 成人黄色av| 日本高清视频精品| 婷婷av一区二区三区| 亚洲综合丁香婷婷六月香| 天天综合网久久| gogogo高清在线观看一区二区| 国产91精品久久久久| 国产综合视频在线| 伊人开心综合网| 亚洲热在线视频| 911精品美国片911久久久| 国产精品入口尤物| 久青青在线观看视频国产| 午夜精品福利在线| 久久久久亚洲av无码专区首jn| 亚洲最新色图| 亚洲va国产va天堂va久久| 二区在线播放| 欧美一区二区三区的| 五月天激情丁香| 韩国视频一区二区| 午夜探花在线观看| 亚洲成人高清| 久久久精品欧美| av免费在线不卡| 亚洲综合免费观看高清在线观看| 午夜性福利视频| 欧美精品九九| 国产精品免费一区二区三区| 波多野结衣在线播放| 亚洲国产精品电影在线观看| 国产微拍精品一区| 久久婷婷成人综合色| www黄色在线| 日韩理论电影大全| 91精品国产自产在线| 顶级网黄在线播放| 亚洲大尺度美女在线| 中日韩精品视频在线观看| 91麻豆国产精品久久| 国语对白做受xxxxx在线中国| re久久精品视频| 91精品久久久久久久久久另类| 国产秀色在线www免费观看| 精品美女在线观看| 中文字幕超碰在线| 国产日本一区二区| 日本中文字幕二区| 午夜亚洲福利| 另类小说综合网| 成人亚洲综合| 九九久久国产精品| 日韩午夜影院| 欧美美女bb生活片| 国产一级在线免费观看| 久久亚洲综合色| 8x8x成人免费视频| 亚洲国产免费看| 亚洲 国产 日韩 综合一区| 国产视频一区二区在线播放| 97精品一区二区三区| 啊v视频在线| 日韩视频免费观看高清完整版| 国产三级av片| 国产精品灌醉下药二区| 中文字幕在线永久| 另类综合日韩欧美亚洲| 欧美无砖专区免费| 不卡中文字幕| 精品乱子伦一区二区三区| 色综合.com| 97超级碰碰碰| 香蕉视频国产在线观看| 亚洲成avwww人| 夜夜骚av一区二区三区| 亚洲成a人v欧美综合天堂下载| 国产精品www爽爽爽| 成人综合在线观看| 亚洲精品20p| 香蕉久久a毛片| 黄色一级片国产| 亚欧日韩另类中文欧美| 亚洲综合自拍一区| 国产一区一一区高清不卡| 欧美激情影音先锋| 麻豆影视国产在线观看| 亚洲欧洲视频在线| 丰满人妻一区二区三区无码av| 在线观看三级视频欧美| 影音先锋亚洲天堂| 亚洲精品久久7777| 日韩av片在线免费观看| 久久久亚洲欧洲日产国码αv| 古装做爰无遮挡三级聊斋艳谭| 日韩av午夜在线观看| 野外做受又硬又粗又大视频√| 91久久夜色精品国产按摩| 免费国产一区| 久久视频在线观看| 国产精品久久久久久久久久直播| 亚洲一区二区av| 国产精品久久久久久久7电影| 僵尸再翻生在线观看| 不卡伊人av在线播放| 欧美一级二级三级区| 中文字幕在线精品| 二区在线视频| 亚洲视频在线观看网站| 色视频免费在线观看| 亚洲电影免费观看高清| 亚洲第一页综合| 欧美一区午夜视频在线观看| 91久久久久国产一区二区| 欧美色偷偷大香| 中文字幕天堂在线| 日本道色综合久久| 国产精品免费无遮挡无码永久视频| 欧美日韩国产一区二区三区| 国产成人无码精品久久久久| 亚洲香蕉伊在人在线观| 久久久久久久久久久网 | 日韩av在线天堂| 亚洲综合丝袜美腿| 国产小视频在线观看免费| 一区二区三区四区不卡视频 | 成年人在线看| 中文字幕欧美日韩va免费视频| 香蕉视频网站在线观看| 久久网福利资源网站| 黄av在线播放| 欧美精品免费在线观看| 黄色小说在线播放| 韩国v欧美v日本v亚洲| 91精品论坛| 国产精品欧美日韩一区二区| 成人免费91| 国产一区二区精品免费| 亚洲理论电影| 亚洲精品一区二区三区樱花 | 国产精品久久免费看| 国产小视频你懂的| 亚洲综合av网| 成人毛片在线播放| 欧美在线视频你懂得| 国产精品无码久久av| 欧美成人r级一区二区三区| 亚洲 小说区 图片区 都市| 亚洲少妇激情视频| 免费在线午夜视频| 欧美激情高清视频| 综合久久2023| 成人久久久久久久| 六月丁香久久丫| 亚洲欧洲在线一区| 欧美日韩国产高清| 精品视频一区二区在线| 精品一区二区三区在线观看国产| 丰满人妻一区二区三区大胸| 久久综合色天天久久综合图片| 亚洲 欧美 国产 另类| 亚洲无线码一区二区三区| 国产熟妇一区二区三区四区| 91精品国产综合久久久蜜臀图片 | 9l视频自拍蝌蚪9l视频成人| 欧美日韩免费高清| 66国产精品| 无码精品国产一区二区三区免费| 精品一区二区精品| 久久久久麻豆v国产精华液好用吗 在线观看国产免费视频 | 狠狠色狠色综合曰曰| 一二三四区视频| 精品视频在线导航| 91亚洲天堂| 国产精品扒开腿做| 成人精品动漫一区二区三区| 亚洲国产一区二区三区在线| 亚洲小说欧美另类婷婷| 伊人网在线综合| 99re在线精品| 福利所第一导航| 日本韩国一区二区三区| 国产 日韩 欧美 精品| 日韩在线视频二区| 国偷自产一区二区免费视频 | 亚洲av成人无码久久精品老人| 精品国产欧美成人夜夜嗨| 色在线中文字幕| 国产精品三区www17con| 66久久国产| 亚洲成人天堂网| 久久久精品国产免大香伊| 久草国产在线视频| 欧美疯狂性受xxxxx喷水图片| 欧美色18zzzzxxxxx| 97热精品视频官网| 日韩影片在线观看| 中文字幕在线亚洲三区| 奇米色一区二区三区四区| 欧美性xxxx图片| 亚洲va欧美va人人爽| www.好吊色| 欧美精品一区二区免费| 四虎国产精品永久在线国在线| 日韩精品久久久| 亚洲一区图片| 亚洲综合自拍网| 亚洲国产精品久久艾草纯爱| 精品人妻无码一区二区色欲产成人| 最近2019年中文视频免费在线观看| 欧美大片免费| 日本亚洲自拍| 日日夜夜精品免费视频| 国产精品亚洲无码| 欧美视频精品一区| 四虎影视精品成人| 91精品国产乱码久久久久久久久 | 国产精品一区二区三区99| 九九这里只有精品视频| 欧美日本一区二区在线观看| 日本在线免费播放| 国产在线视频不卡| 亚洲国产精品综合久久久 | 欧美经典一区| 久久久久福利视频| 国产伦精品一区二区三区免费迷 | 亚洲福利视频网| 97蜜桃久久| 欧美美乳视频网站在线观看| 欧美一级久久| 欧美人妻一区二区三区| 欧美日韩一级片网站| 免费av在线网址| 91精品国产综合久久久久久丝袜| 欧美成人一品| 国产十八熟妇av成人一区| 福利一区福利二区微拍刺激| 欧美大片aaa| 国产男人精品视频| 中文字幕免费一区二区| 特级特黄刘亦菲aaa级| 香蕉久久一区二区不卡无毒影院 | 久久久精品美女| 99re8这里有精品热视频免费| 日韩精品xxxx| 国产精品色呦呦| 亚洲av无码乱码国产精品| 91精品国产91久久久久| 第一社区sis001原创亚洲| 国产欧美一区二| 亚洲高清在线精品| 欧美视频综合| 成人午夜在线观看| 尤物网精品视频| 一级二级黄色片| 亚洲成人国产精品| 最新日韩一区| 日韩欧美猛交xxxxx无码| 26uuu欧美日本| 国产又色又爽又黄又免费| 国内精品久久久久| 欧美三级三级| 美女黄色一级视频| 欧美日韩一区久久| 丁香花在线电影小说观看| 日韩国产美国| 东方欧美亚洲色图在线| 中文字幕 国产精品| 久久久久久国产精品三级玉女聊斋| 女厕嘘嘘一区二区在线播放 | 中文字幕久久网| 97久久精品视频| 天天综合精品| 亚洲国产天堂av| 亚洲国产欧美一区二区三区同亚洲 | 91精品电影| 久久成人激情视频|