精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

DeepMind新作:無需權重更新、提示和微調,transformer在試錯中自主改進

人工智能 新聞
DeepMind 表示,他們提出的算法蒸餾(AD)是首個通過對具有模仿損失的離線數據進行順序建模以展示上下文強化學習的方法。

目前,Transformers 已經成為序列建模的強大神經網絡架構。預訓練 transformer 的一個顯著特性是它們有能力通過提示 conditioning 或上下文學習來適應下游任務。經過大型離線數據集上的預訓練之后,大規模 transformers 已被證明可以高效地泛化到文本補全、語言理解和圖像生成方面的下游任務。

最近的工作表明,transformers 還可以通過將離線強化學習(RL)視作順序預測問題,進而從離線數據中學習策略。Chen et al. (2021)的工作表明,transformers 可以通過模仿學習從離線 RL 數據中學習單任務策略,隨后的工作表明 transformers 可以在同領域和跨領域設置中提取多任務策略。這些工作都展示了提取通用多任務策略的范式,即首先收集大規模和多樣化的環境交互數據集,然后通過順序建模從數據中提取策略。這類通過模仿學習從離線 RL 數據中學習策略的方法被稱為離線策略蒸餾(Offline Policy Distillation)或策略蒸餾(Policy Distillation, PD)。

PD 具有簡單性和可擴展性,但它的一大缺點是生成的策略不會在與環境的額外交互中逐步改進。舉例而言,谷歌的通才智能體 Multi-Game Decision Transformers 學習了一個可以玩很多 Atari 游戲的返回條件式(return-conditioned)策略,而 DeepMind 的通才智能體 Gato 通過上下文任務推理來學習一個解決多樣化環境中任務的策略。遺憾的是,這兩個智能體都不能通過試錯來提升上下文中的策略。因此 PD 方法學習的是策略而不是強化學習算法。

在近日 DeepMind 的一篇論文中,研究者假設 PD 沒能通過試錯得到改進的原因是它訓練用的數據無法顯示學習進度。當前方法要么從不含學習的數據中學習策略(例如通過蒸餾固定專家策略),要么從包含學習的數據中學習策略(例如 RL 智能體的重放緩沖區),但后者的上下文大小(太小)無法捕獲策略改進。

圖片

論文地址:https://arxiv.org/pdf/2210.14215.pdf

研究者的主要觀察結果是,RL 算法訓練中學習的順序性在原則上可以將強化學習本身建模為一個因果序列預測問題。具體地,如果一個 transformer 的上下文足夠長,包含了由學習更新帶來的策略改進,那么它不僅應該可以表示一個固定策略,而且能夠通過關注之前 episodes 的狀態、動作和獎勵來表示一個策略改進算子。這樣開啟了一種可能性,即任何 RL 算法都可以通過模仿學習蒸餾成足夠強大的序列模型如 transformer,并將這些模型轉換為上下文 RL 算法。

研究者提出了算法蒸餾(Algorithm Distillation, AD),這是一種通過優化 RL 算法學習歷史中因果序列預測損失來學習上下文策略改進算子的方法。如下圖 1 所示,AD 由兩部分組成。首先通過保存 RL 算法在大量單獨任務上的訓練歷史來生成大型多任務數據集,然后 transformer 模型通過將前面的學習歷史用作其上下文來對動作進行因果建模。由于策略在源 RL 算法的訓練過程中持續改進,因此 AD 不得不學習改進算子以便準確地建模訓練歷史中任何給定點的動作。至關重要的一點是,transformer 上下文必須足夠大(即 across-episodic)才能捕獲訓練數據的改進。

圖片

研究者表示,通過使用足夠大上下文的因果 transformer 來模仿基于梯度的 RL 算法,AD 完全可以在上下文中強化新任務學習。研究者在很多需要探索的部分可觀察環境中評估了 AD,包括來自 DMLab 的基于像素的 Watermaze,結果表明 AD 能夠進行上下文探索、時序信度分配和泛化。此外,AD 學習到的算法比生成 transformer 訓練源數據的算法更加高效。

最后值得關注的是,AD 是首個通過對具有模仿損失的離線數據進行順序建模以展示上下文強化學習的方法。

圖片

方法

在生命周期內,強化學習智能體需要在執行復雜的動作方面表現良好。對智能體而言,不管它所處的環境、內部結構和執行情況如何,都可以被視為是在過去經驗的基礎上完成的。可用如下形式表示:

圖片

研究者同時將「長期歷史條件, long history-conditioned」策略看作一種算法,得出:

圖片

其中?(A)表示動作空間 A 上的概率分布空間。公式 (3) 表明,該算法可以在環境中展開,以生成觀察、獎勵和動作序列。為了簡單起見,該研究將算法用 P 表示,將環境(即任務)用圖片的學習歷史都是由算法圖片表示,這樣對于任何給定任務圖片生成的。可以得到

圖片

研究者用大寫拉丁字母表示隨機變量,例如 O、A、R 及其對應的小寫形式 o,α,r。通過將算法視為長期歷史條件策略,他們假設任何生成學習歷史的算法都可以通過對動作執行行為克隆來轉換成神經網絡。接下來,該研究提出了一種方法,該方法提供了智能體在生命周期內學習具有行為克隆的序列模型,以將長期歷史映射到動作分布。

實際執行

在實踐中,該研究將算法蒸餾過程 ( algorithm distillation ,AD)實現為一個兩步過程。首先,通過在許多不同的任務上運行單獨的基于梯度的 RL 算法來收集學習歷史數據集。接下來,訓練具有多情節上下文的序列模型來預測歷史中的動作。具體算法如下所示:

圖片

實驗

實驗要求所使用的環境都支持許多任務,而這些任務不能從觀察中輕易的進行推斷,并且情節(episodes)足夠短,可以有效地訓練跨情節因果 transformers。這項工作的主要目的是調查相對于先前工作,AD 強化在多大程度上是在上下文中學習的。實驗將 AD、 ED( Expert Distillation)  、RL^2 等進行了比較。

評估 AD、ED、 RL^2 結果如圖 3 所示。該研究發現 AD 和 RL^2 都可以在上下文中學習從訓練分布中采樣的任務,而 ED 則不能,盡管 ED 在分布內評估時確實比隨機猜測做得更好。

圖片

圍繞下圖 4,研究者回答了一系列問題。AD 是否表現出上下文強化學習?結果表明 AD 上下文強化學習在所有環境中都能學習,相比之下,ED 在大多數情況下都無法在上下文中探索和學習。 

AD 能從基于像素的觀察中學習嗎?結果表明 AD 通過上下文 RL 最大化了情景回歸,而 ED 則不能學習。

AD 是否可以學習一種比生成源數據的算法更有效的 RL 算法?結果表明 AD 的數據效率明顯高于源算法(A3C 和 DQN)。

圖片

是否可以通過演示來加速 AD?為了回答這個問題,該研究保留測試集數據中沿源算法歷史的不同點采樣策略,然后,使用此策略數據預先填充 AD 和 ED 的上下文,并在 Dark Room 的環境中運行這兩種方法,將結果繪制在圖 5 中。雖然 ED 保持了輸入策略的性能,AD 在上下文中改進每個策略,直到它接近最優。重要的是,輸入策略越優化,AD 改進它的速度就越快,直到達到最優。

圖片

更多細節,請參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-10-14 13:51:33

AI模型數據

2024-12-18 08:00:00

2023-09-20 08:52:57

Google模型

2025-10-15 08:53:08

2025-10-11 18:05:23

AI智能體模型

2022-04-11 09:20:00

模型訓練

2017-04-24 08:35:09

深度學習神經網絡合成梯度

2024-06-19 12:50:39

2024-04-10 10:28:47

2010-03-11 16:29:28

Visual Stud

2025-05-22 01:00:00

2025-01-16 08:30:00

LLMAI訓練

2025-06-23 09:09:00

2022-07-22 07:18:53

代碼DeepMind

2021-07-14 10:17:00

數字化業務主管技術主管

2010-06-21 13:52:20

AODV路由協議

2024-09-23 08:30:00

AI模型

2025-02-24 14:15:00

模型訓練AI

2021-03-16 14:35:16

架構AI技術

2011-05-25 10:32:19

SQLite
點贊
收藏

51CTO技術棧公眾號

午夜激情在线视频| 91香蕉视频网| 中文在线中文资源| 久久久91精品国产一区二区精品 | 国产偷人妻精品一区| 美女福利一区二区| 1000精品久久久久久久久| 成人xxxxx色| www.欧美色| 中文字幕日韩欧美精品高清在线| 欧美tk—视频vk| 妺妺窝人体色www在线小说| 自拍视频在线播放| 成人黄色国产精品网站大全在线免费观看| 国产91精品久久久久久| 男人的午夜天堂| 欧美一区二区三区红桃小说| 欧美精品自拍偷拍| 日本福利视频网站| 国产福利在线观看| 成人av在线观| 91精品国产综合久久香蕉922| 国产三级av片| 欧美一区亚洲| 最近中文字幕2019免费| 精品久久久久一区二区| 日韩一级特黄| 色菇凉天天综合网| 搞av.com| 视频在线这里都是精品| 国产精品短视频| 蜜桃久久精品乱码一区二区 | 91porn在线视频| 国产一区国产二区国产三区| 精品久久国产97色综合| 午夜大片在线观看| 97精品国产综合久久久动漫日韩 | 欧美黄网在线观看| 久久久久久国产精品免费无遮挡| 久久先锋影音av| 国产日韩一区二区| 亚洲第一页视频| 国产在线精品免费| 国产热re99久久6国产精品| 久久久久久久久黄色| 午夜久久影院| 欧美精品亚州精品| 91麻豆免费视频网站| 欧美好骚综合网| 最近2019年好看中文字幕视频| 欧美成人午夜精品免费| 美国十次av导航亚洲入口| 欧美xingq一区二区| 在线成人精品视频| 日本精品在线播放| 日韩精品一区二区三区蜜臀| 亚洲三级在线视频| 亚州一区二区| 欧美mv日韩mv| 精品熟女一区二区三区| 国产成人精品亚洲线观看| 精品国精品国产| 日本一区二区在线观看视频| 超碰成人97| 亚洲高清久久久久久| 波多野结衣视频播放| 色哟哟精品丝袜一区二区| 精品视频一区在线视频| 欧美做受xxxxxⅹ性视频| 精品国产精品| 在线视频一区二区| 999精品视频在线观看播放| 亚洲成av人片乱码色午夜| 欧美成人精品影院| 亚洲国产精一区二区三区性色| 亚洲国产91| 4p变态网欧美系列| 国产精品xxxxxx| 久久99国产精品免费网站| 91视频最新| 熟妇人妻系列aⅴ无码专区友真希| 95精品视频在线| 快播亚洲色图| 日日夜夜精品一区| 亚洲一区二区三区四区五区黄 | 久久亚洲视频| 成人美女av在线直播| 性猛交富婆╳xxx乱大交天津| 99在线精品免费| 香蕉久久夜色| 蜜臀av在线| 欧美性猛交xxxx乱大交极品| 国产又大又黄又猛| 亚洲精品aⅴ| 亚洲色图欧美制服丝袜另类第一页| 1024在线看片| 亚洲激情在线| 国产精品色悠悠| 亚洲国产欧美另类| 欧美激情一二三区| 久草视频这里只有精品| 日本另类视频| 日韩精品一区二区三区三区免费| 黄免费在线观看| 欧美日韩国产高清| 国产精品美女久久| 人妻精品一区二区三区| 国产精品久久久久影院| 浮妇高潮喷白浆视频| 9999精品视频| 亚洲无av在线中文字幕| 久久久久久久伊人| 久久国产欧美日韩精品| 久久久一本精品99久久精品66| 日本激情在线观看| 福利精品视频在线| 无码人妻丰满熟妇啪啪网站| 大胆日韩av| 欧美洲成人男女午夜视频| 国产又大又长又粗| 国产拍揄自揄精品视频麻豆| 欧美大肚乱孕交hd孕妇| 性金发美女69hd大尺寸| 草莓视频18免费观看| 国产成人自拍网| 亚洲欧洲三级| 丁香六月综合| 亚洲经典中文字幕| 欧美激情精品久久| 久久成人精品无人区| 日韩久久精品一区二区三区| 91超碰在线播放| 日韩欧美中文字幕公布| 最新日韩免费视频| 三级不卡在线观看| 欧美连裤袜在线视频| 黑森林国产精品av| 亚洲国产美女久久久久| 国产精品50页| 成人中文字幕合集| 亚洲一区 在线播放| **日韩最新| 深夜福利国产精品| 中文在线观看av| 国产片一区二区三区| 毛葺葺老太做受视频| 国产精品一线天粉嫩av| 欧美主播福利视频| 天堂中文在线资源| 激情亚洲一区二区三区四区| 中文字幕无人区二| 影音先锋久久| 精品乱子伦一区二区三区| 97天天综合网| 亚洲国产欧美一区| www.日本精品| 久久久久国产免费免费| 日本精品一区二区三区四区| 日韩丝袜视频| 国产成人97精品免费看片| 免费一级毛片在线观看| 色成年激情久久综合| 国产精品一区二区入口九绯色| 一本色道久久| 欧美另类一区| 91精品店在线| 久久国产精品影片| 国精品人妻无码一区二区三区喝尿| 亚洲午夜久久久久久久久电影院| 超碰caoprom| 香蕉精品999视频一区二区 | 夜色77av精品影院| 国产精品白丝jk喷水视频一区| av片在线免费观看| 欧美一区二区三区视频免费| 精品无码久久久久久久久| 不卡av在线免费观看| 成年人黄色片视频| 欧美3p视频| 国产99视频精品免费视频36| 欧美aa在线观看| 这里只有精品视频| 亚洲va欧美va| 色婷婷av一区| 欧美激情图片小说| 91香蕉视频mp4| 日本特黄a级片| 国一区二区在线观看| 欧美高清性xxxxhd| 国产精品久久久久久久久久久久久久久 | 亚洲精品永久视频| 亚洲国产精品一区制服丝袜| 日本亚洲导航| 日韩欧美中文字幕在线视频 | 国产精一区二区三区| 日本阿v视频在线观看| 猛男gaygay欧美视频| 92福利视频午夜1000合集在线观看 | 久久久三级国产网站| 中文字幕视频三区| 中文亚洲字幕| 制服诱惑一区| 日韩深夜福利| av激情久久| 激情久久一区二区| 1769国内精品视频在线播放| 巨大荫蒂视频欧美另类大| 精品一区二区亚洲| 超碰在线人人干| 欧美午夜影院一区| 欧美三级一区二区三区| 亚洲欧美怡红院| 欧美性xxxx图片| 福利一区二区在线观看| 性猛交ⅹ×××乱大交| 国产精品一级| 成人午夜免费在线视频| 欧美自拍偷拍| 久久久com| 日韩一区二区三区精品| 国产精品夜色7777狼人| 深夜成人在线| 国模gogo一区二区大胆私拍| 黄色在线视频网站| 伊人久久大香线蕉av一区二区| 日韩一级片免费观看| 日韩一区国产二区欧美三区| 伊人久久国产精品| 色老汉一区二区三区| 日韩av免费网址| 亚洲综合一二区| 国产高潮国产高潮久久久91| 国产欧美久久久精品影院| 麻豆精品国产传媒av| 国产成人精品网址| 手机在线观看日韩av| 久久99国产精品久久99| 熟妇人妻无乱码中文字幕真矢织江| 亚洲美女少妇无套啪啪呻吟| 成年在线观看视频| 亚洲一级淫片| 中文字幕av导航| 日韩精品第一区| 色噜噜狠狠色综合网| 精品国产中文字幕第一页| 麻豆精品传媒视频| 亚洲高清极品| 欧美日产一区二区三区在线观看| 欧美成人专区| 久久久福利视频| 色婷婷久久久| 日韩欧美亚洲在线| 成人亚洲一区二区| 亚洲日本理论电影| 国产精品久久久久无码av| 一本一道久久久a久久久精品91| 日韩精品免费一区二区三区| 亚洲乱码国产乱码精品天美传媒| 欧美色女视频| 一区二区三区欧美成人| 久久精品国内一区二区三区水蜜桃 | 香蕉视频国产在线| 日韩av影视综合网| 久久这里精品| 中文字幕日韩精品在线观看| 一级日本在线| 欧美成人精品激情在线观看| 日本中文字幕中出在线| 97在线免费观看| 亚洲综合在线电影| 成人黄色av网| silk一区二区三区精品视频| 国产一区二区中文字幕免费看 | 亚洲成人a**址| 91久久高清国语自产拍| 激情视频小说图片| 99精品欧美| 黄色国产小视频| 国产在线精品不卡| 性欧美18—19sex性高清| 久久众筹精品私拍模特| 国产福利在线导航| 亚洲午夜精品一区二区三区他趣| 日韩黄色在线播放| 欧美美女bb生活片| 好吊视频一二三区| 国产一区二区黑人欧美xxxx| 国产在线激情视频| 91国自产精品中文字幕亚洲| 成人精品高清在线视频| 97碰碰视频| 欧美精美视频| 男同互操gay射视频在线看| 伊人天天综合| 免费成年人高清视频| 成人午夜免费电影| 四季av中文字幕| 亚洲一区二区三区四区在线免费观看| 9i看片成人免费看片| 欧美日本免费一区二区三区| 国精产品乱码一区一区三区四区| 在线亚洲午夜片av大片| 超碰在线网站| 国产在线播放不卡| 天堂日韩电影| 中国黄色录像片| 日韩高清在线不卡| 久久久久久久久久影视| 中国av一区二区三区| 日本一区二区欧美| 日韩一区二区三区免费观看| 久久久久久久久亚洲精品| 久国内精品在线| 成人国产精品| 乱一区二区三区在线播放| 亚洲欧美综合国产精品一区| 动漫av免费观看| 99久久精品国产导航| 欧美成人aaa片一区国产精品| 欧美午夜精品一区二区蜜桃| 五月激情六月婷婷| 九九精品视频在线| 永久免费观看精品视频| 日韩电影大全在线观看| 一本一本久久| 亚洲一区和二区| 亚洲精品自拍动漫在线| 中文字幕av久久爽| 亚洲少妇中文在线| 蜜桃麻豆影像在线观看| 不卡视频一区二区三区| 91久久国产| 五月花丁香婷婷| 国产精品久久久久久久浪潮网站| 免费视频久久久| 亚洲美女性视频| 国产极品在线观看| 国产一级二级三级精品| 国产一区视频在线观看免费| 超碰人人cao| 亚洲激情自拍偷拍| 99国产精品久久久久久久成人| 色一区av在线| 黄色成人在线观看网站| 亚洲国产一区二区三区在线播| 视频在线观看一区| 亚洲av无码一区二区三区人 | 精品国产一区三区| 成人99免费视频| 日韩精品――中文字幕| 亚洲第一精品电影| wwwwxxxx在线观看| 翡翠波斯猫1977年美国| 欧美日一区二区在线观看 | 26uuu精品一区二区三区四区在线| 国产无遮挡又黄又爽| 日韩av在线网| 性欧美1819sex性高清| 欧美日韩亚洲在线| 日本午夜一本久久久综合| 四虎国产成人精品免费一女五男| 欧美午夜不卡在线观看免费| av网站在线播放| 91视频免费在线| 欧美三级小说| 蜜桃精品成人影片| 一本色道久久综合狠狠躁的推荐 | 国产日韩av一区二区| 中文字幕免费观看视频| 久久精品一区中文字幕| 欧美日本三级| 国产视频一视频二| 国产午夜亚洲精品理论片色戒| 久久久999久久久| 久久久极品av| 国产极品模特精品一二| 欧美精品色婷婷五月综合| 国产精品女同一区二区三区| av老司机久久| 91超碰中文字幕久久精品| 欧美日韩国产在线观看网站| 911av视频| 午夜精品爽啪视频| av亚洲在线| 国产一级精品aaaaa看| 蜜桃在线一区二区三区| 免费毛片在线播放免费| 亚洲网址你懂得| 另类视频一区二区三区| 欧美韩国日本在线| 18涩涩午夜精品.www| 五月激情丁香婷婷| 91欧美视频网站| 另类av一区二区| 精品国产乱码久久久久久鸭王1| 亚洲精品在线视频| 精品国产鲁一鲁****| 日韩av在线综合| 亚洲一区二区三区视频在线播放 | 国产美女主播在线播放|