精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

強化學習也能預訓練?效果可提升20倍,華人新作引爆RL新范式!

人工智能 新聞
大模型的預訓練-微調(diào)范式,正在悄然改寫強化學習!伯克利團隊提出新方法InFOM,不依賴獎勵信號,也能在多個任務中實現(xiàn)超強遷移,還能做到「讀心術(shù)」級別的推理。這到底怎么做到的?

大規(guī)模預訓練已經(jīng)從根本上改變了機器學習研究的方式:基礎模型只需訓練一次。

之后即便缺乏數(shù)據(jù)或算力,基礎模型也能在具體任務上直接適配與微調(diào)。

從計算機視覺到自然語言處理等多個領域,這種「預訓練-微調(diào)」的模式已經(jīng)取得了巨大成功。

但在「強化學習」(Reinforcement Learning,RL)中,這種模式的效果仍未被完全驗證。

本質(zhì)上,強化學習更難,是因為這涉及對時間與意圖的推理——

(1)必須能夠推斷當前動作在長期內(nèi)的影響;

(2)必須識別出多個用戶在執(zhí)行不同任務時收集的觀察數(shù)據(jù)。

目前,能處理「時間信息」的主流RL算法有兩類:

一類基于「世界模型」(world models),另一類基于「占據(jù)模型」(occupancy models)。

由于誤差累積的問題,世界模型在長時間推理方面的能力仍然有限。

在預測未來事件方面,占據(jù)模型表現(xiàn)優(yōu)異,但通常難以訓練,且忽略了用戶意圖。

近年,「生成式AI」(GenAI)讓復雜分布建模變得可行。

它還能處理多種輸入類型,如「流匹配」(flow matching)。

這為構(gòu)建依賴于意圖的占據(jù)模型提供了新工具:

流匹配(flow matching)+ 占據(jù)模型(Occupancy Models)= 意向條件流占用模型(Intention-Conditioned Flow Occupancy Models,InFOM)

傳統(tǒng)方法只預測「下一步觀測」。而InFOM不僅可預測多個未來步驟,還能適應用戶不同的「意圖」。

圖片

具體而言,研究人員構(gòu)建的模型將「意圖」編碼為潛在變量,并通過「流匹配」(flow matching)來預測未來狀態(tài)的訪問概率。

圖片

圖1:InFOM是用于強化學習預訓練與微調(diào)的潛變量模型。(左)數(shù)據(jù)集由執(zhí)行不同任務的用戶采集而來。(中)通過最大化數(shù)據(jù)似然的證據(jù)下界(ELBO)對意圖進行編碼,(右)進而實現(xiàn)基于流匹配的意圖感知未來狀態(tài)預測。

模型最大化數(shù)據(jù)似然進行訓練,能高效適應特定任務。

圖片

論文地址:https://arxiv.org/abs/2506.08902

博客地址:https://chongyi-zheng.github.io/infom/

由于普通流匹配方法無法拼接多個狀態(tài)轉(zhuǎn)換,研究者引入基于SARSA的時序差分流匹配損失進行改進。

圖片

論文鏈接:https://arxiv.org/abs/2503.09817

借助InFOM,可以在下游任務中估算出多個帶有意圖條件的Q函數(shù),然后通過隱式廣義策略改進(implicit GPI)方法提取最終策略。

在強化學習中的預訓練與微調(diào)任務中,InFOM表現(xiàn)出色。

面對獎勵稀疏或半稀疏的復雜任務時,傳統(tǒng)方法難以學到有效策略,而InFOM能通過構(gòu)建具備表達能力的生成模型,配合implicit GPI,更有效地利用高獎勵狀態(tài)。

圖片

與無監(jiān)督技能發(fā)現(xiàn)或后繼特征學習等方式相比,InFOM提供了一種更簡單、更高效的意圖推理方式,性能更優(yōu)。

值得一提的是,排名第一的華人作者Chongyi Zheng和排名第4的作者Benjamin Eysenbach,是一對師徒。

此外,強化學習大牛、加州大學伯克利分校EECS系Sergey Levine也參與了這項研究。

圖片

圖片

方法介紹

針對無獎勵預訓練數(shù)據(jù)集D中的連續(xù)狀態(tài)-動作對(s,a,s′,a′),通過編碼器pe(z∣s′,a′)推斷潛在意圖z∈Z,并利用占據(jù)度量模型qd(sf∣s,a,z)預測未來狀態(tài)sf的占據(jù)分布。

基于流匹配(flow matching)方法,通過最大化數(shù)據(jù)似然的證據(jù)下界(ELBO)來聯(lián)合優(yōu)化編碼器與解碼器:

圖片

其中先驗分布p(z)=N(0,I)為標準高斯分布。

為實現(xiàn)軌跡級未來狀態(tài)預測(動態(tài)規(guī)劃),采用SARSA變體的時序差分流損失來學習流占據(jù)模型的向量場vd:[0,1]×S×S×A×Z→S:

圖片

InFOM允許估計一組基于意圖的Q函數(shù)用于下游任務。

然后,利用隱式廣義策略改進(implicit GPI)過程來提取一個策略。

圖片

具體預訓練和微調(diào)算法如下:

圖片

圖片

結(jié)果介紹

為了測試InFOM,能否從無標簽數(shù)據(jù)集中捕獲基于用戶意圖的可操作信息,能否在微調(diào)后訓練出高效的策略來解決下游任務,在36個基于狀態(tài)的任務和4個基于圖像的任務中,比較了InFOM和八個基線方法的性能。

研究者在ExORL和OGBench基準測試中評估了該方法,詳見圖3所示結(jié)果。

實驗結(jié)果表明,InFOM在八個領域中的六個領域表現(xiàn)與基線方法相當或更好。

在ExORL基準測試中,在兩個較容易的領域(獵豹和四足機器人)上,所有方法表現(xiàn)相似。

但在jaco任務上,InFOM獲得了20倍的改進。

在OGBench中更具挑戰(zhàn)性的基于狀態(tài)的操作任務上,基線方法與InFOM的表現(xiàn)有顯著差異;新算法在最佳基線方法上取得了36%更高的成功率。

此外,InFOM還能夠在直接使用RGB圖像作為輸入時,超越最強基線31%。

這是由于任務中存在半稀疏獎勵函數(shù),傳統(tǒng)基線方法往往難以應對具有挑戰(zhàn)性的任務。

InFOM通過更強的生成模型和隱式策略優(yōu)化,更高效地利用高獎勵狀態(tài)。

圖片

圖3:在ExORL和OGBench任務上的評估結(jié)果。

與基于無監(jiān)督技能發(fā)現(xiàn)(unsupervised skill discovery) 或繼任特征學習(successor feature learning)的意圖編碼機制相比,InFOM提供了一種簡單且高效的方式來推斷用戶的意圖。

圖4的結(jié)果表明,在4項任務中的3項上,InFOM能以更簡單的方法超越先前的意圖編碼方法。

HILP和FB均基于演員-評論家框架,通過完全無監(jiān)督的強化學習目標來捕獲意圖;相比之下,新方法僅需在相鄰狀態(tài)轉(zhuǎn)移上訓練基于隱變量模型的意圖編碼器,無需依賴復雜的離線強化學習流程。

圖片

圖4:與現(xiàn)有意圖編碼機制的對比

下面視頻展示了一些具體的例子。

  • 來自ExORL基準測試的四個領域:獵豹(cheetah)、步態(tài)(walker)、四足機器人(quadruped)、Jaco,包括16個基于狀態(tài)的任務。
  • 來自OGBench基準測試的四個領域:單個立方體(cube single)、雙立方體(cube double)、場景(scene)、謎題4x4(puzzle 4x4),包括20個基于狀態(tài)的任務和4個基于圖像的任務,用于評估我們的算法。

作者介紹

圖片

圖片

Chongyi Zheng是普林斯頓大學計算機科學系的博士生。

他的研究興趣是通過概率推理方法,開發(fā)具備長時序推理能力的強化學習(RL)算法。

此前,他在卡耐基梅隆大學攻讀碩士學位。

2020年,他本科畢業(yè)于西南大學;之后,在清華大學工作過。

責任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-10-11 04:00:00

2025-06-30 02:25:00

2020-04-15 16:44:38

谷歌強化學習算法

2022-11-02 14:02:02

強化學習訓練

2025-06-11 14:45:57

強化學習訓練模型

2025-06-13 09:29:51

2025-03-24 10:15:00

2025-10-14 08:59:00

2025-10-08 10:26:04

2025-05-26 09:16:00

2025-06-09 09:32:35

2025-06-05 08:40:00

2025-11-07 08:51:41

2025-10-23 09:05:50

2025-06-27 15:44:35

蘋果AI模型

2025-05-12 08:24:01

2024-10-06 12:32:42

2021-12-06 17:38:51

強化學習工具人工智能

2021-11-16 15:26:23

強化學習火箭人工智能
點贊
收藏

51CTO技術(shù)棧公眾號

一本精品一区二区三区| 456成人影院在线观看| 菠萝蜜视频在线观看一区| 91成人性视频| 5566中文字幕| 农村少妇一区二区三区四区五区| 色呦呦国产精品| 日本三日本三级少妇三级66| 天堂91在线| 美女久久久精品| 久久琪琪电影院| 久久久精品成人| 高清精品久久| 欧美午夜激情小视频| 黄色高清视频网站| 男人av在线| 国产成人av影院| 奇米四色中文综合久久| 欧美成人一区二区三区高清| 蜜臀av免费一区二区三区| 欧美一区永久视频免费观看| 久久精品.com| 三级资源在线| 欧美激情一区二区三区| 国产日韩一区二区三区| 国产精品久久久久久免费播放 | 人妻无码久久一区二区三区免费 | 欧美激情视频三区| 三级影片在线观看| 成人国产精品一级毛片视频| 亚洲精品成人久久久| 三级黄色片播放| 成人福利片在线| 色噜噜狠狠一区二区三区果冻| 美女黄色免费看| www在线免费观看视频| 亚洲国产成人私人影院tom| 精品一区二区三区自拍图片区| 精品国产亚洲一区二区麻豆| 久久99国产精品免费| 国产精品成人一区二区三区吃奶 | 欧美色图12p| 国产无套粉嫩白浆内谢的出处| 国产精品论坛| 亚洲成人一区二区在线观看| 久久av高潮av| 日本成人不卡| 一区二区三区中文免费| 国产高清精品软男同| 尤物在线视频| 亚洲欧洲三级电影| 亚洲欧洲日韩综合二区| 在线中文资源天堂| 中文无字幕一区二区三区| 日韩精品不卡| av网站在线免费播放| 久久女同性恋中文字幕| 免费在线观看91| 你懂的在线看| 国产欧美视频一区二区三区| 亚洲精品乱码视频| 日本a在线播放| 亚洲天堂成人网| 成人污网站在线观看| 天堂av最新在线| 亚洲成va人在线观看| 99热自拍偷拍| 丝袜老师在线| 91高清视频免费看| 日韩高清第一页| 精品午夜av| 亚洲精品白浆高清久久久久久| 好吊日免费视频| 日韩久久精品| 欧美另类极品videosbestfree| 久草视频在线资源站| 亚洲精选国产| 国产欧美一区二区三区久久人妖| 国产精品毛片一区二区在线看舒淇 | 久久久国产精品视频| 欧美成人综合色| 亚洲欧美清纯在线制服| 国产欧美精品一区二区三区-老狼| 亚洲中文字幕一区二区| 丁香啪啪综合成人亚洲小说| 九九九久久久| 五月婷婷在线视频| 亚洲精品成人在线| 黄色片久久久久| 日韩亚洲国产免费| 亚洲电影天堂av| 男人的天堂官网| 国产一区二区中文| 国产精品扒开腿做爽爽爽男男| 国产精品国产三级国产普通话对白| 成人午夜激情片| 亚洲欧洲精品在线| 国产污视频在线播放| 欧美日本在线看| japanese在线观看| 91麻豆国产自产在线观看亚洲| 欧美美女18p| 中文字幕 国产| jlzzjlzz国产精品久久| 亚洲自拍的二区三区| 草草在线视频| 日韩一区二区三区高清免费看看| 国产精品无码毛片| 欧美激情1区2区| 国产精品入口免费视频一| 免费国产黄色片| 亚洲色图视频网| 日韩av片网站| 任我爽精品视频在线播放| 美女精品久久久| 成人黄色激情视频| 91看片淫黄大片一级| 日本阿v视频在线观看| 成人黄色毛片| 亚洲人成77777在线观看网| 免费中文字幕在线观看| 国内精品免费**视频| 色播五月综合| 欧美人体一区二区三区| 亚洲国产天堂久久综合网| 一区二区视频免费看| 老色鬼精品视频在线观看播放| 欧美不卡在线一区二区三区| 日韩123区| 欧美一二区视频| 欧美xxxooo| 老司机午夜精品99久久| 亚洲不卡1区| 涩涩av在线| 日韩成人在线网站| 日本熟妇成熟毛茸茸| 国产成人精品免费在线| ijzzijzzij亚洲大全| 伊人久久综合网另类网站| 色妞欧美日韩在线| 在线观看国产精品入口男同| 亚洲国产精品成人久久综合一区| 国产精品wwwww| 久久99视频| 青青草一区二区| 国产资源在线观看| 色菇凉天天综合网| 亚洲女优在线观看| 日韩高清中文字幕一区| 日韩中文一区二区三区| 欧美色片在线观看| 日韩中文字幕在线| 国产同性人妖ts口直男| 亚洲黄色在线视频| 国产欧美视频一区| 国产欧美精品| 欧美一区亚洲二区| 91伊人久久| 久久九九亚洲综合| 国产激情久久久久久熟女老人av| 亚洲欧美激情视频在线观看一区二区三区| 亚洲免费黄色录像| 欧美福利一区| 精品亚洲第一| 色8久久影院午夜场| 尤物九九久久国产精品的特点| 国产一级精品毛片| 亚洲男人天堂av网| 人妻激情偷乱频一区二区三区| 亚洲美女网站| 手机看片福利永久国产日韩| 精品乱码一区二区三区四区| 欧美成年人视频网站欧美| 免费国产黄色片| 91久久精品国产91性色tv| 黄色一级片一级片| 国产白丝精品91爽爽久久| av7777777| 久久一区二区三区电影| 成人欧美一区二区| 户外露出一区二区三区| 久久国产精品久久国产精品| 天天色综合久久| 欧美性猛交xxxx乱大交退制版| 视频这里只有精品| 91麻豆文化传媒在线观看| 午夜剧场高清版免费观看| 国产精品啊啊啊| 日韩欧美亚洲精品| 99re8这里有精品热视频免费| 日韩av电影在线播放| 日韩欧美一起| 永久555www成人免费| 亚洲成a人片在线| 在线看日本不卡| 精品无码久久久久久久久| 国产日韩欧美一区二区三区乱码| 日本少妇激三级做爰在线| 国产日韩欧美一区在线| 成年人黄色在线观看| 九九久久成人| www.av一区视频| 成人在线不卡| 91sa在线看| 日本动漫理论片在线观看网站| 亚洲亚裔videos黑人hd| 蜜桃视频在线观看www| 欧美精品久久99久久在免费线| 六月丁香激情综合| 亚洲成人综合视频| 精品国产欧美日韩不卡在线观看| 久久精品视频免费观看| 黑森林av导航| 国产一区久久久| 粉色视频免费看| 可以看av的网站久久看| 日韩视频在线视频| 伊人色**天天综合婷婷| 亚洲一区精彩视频| 精品国产aⅴ| 欧美在线日韩精品| 欧美亚洲大陆| 国产精品有限公司| 日韩视频1区| 51国偷自产一区二区三区的来源| 懂色aⅴ精品一区二区三区| 欧美在线欧美在线| 国产资源在线观看入口av| 欧美精品18videos性欧美| 欧美13一16娇小xxxx| 视频直播国产精品| 触手亚洲一区二区三区| 亚洲欧美制服第一页| 亚洲色图21p| 日韩精品一区二区三区第95| 天天干,夜夜爽| 亚洲国产天堂久久国产91| 男人天堂综合网| 精品国产制服丝袜高跟| 亚洲av无码一区二区三区性色| 51午夜精品国产| 国产乱淫av片免费| 7777精品伊人久久久大香线蕉经典版下载| 国产精品午夜一区二区| 欧美艳星brazzers| 中文人妻熟女乱又乱精品| 欧美在线你懂得| 中文字幕资源网| 欧美精品高清视频| 国产男男gay体育生网站| 91精品国产一区二区三区香蕉| 91麻豆国产视频| 91麻豆精品国产自产在线观看一区| 一区二区三区免费观看视频| 777久久久精品| 精品人妻aV中文字幕乱码色欲| 欧美一区二区三区在线视频| www.日本在线观看| 亚洲精品电影网站| 蜜桃免费在线| 中国人与牲禽动交精品| 免费观看在线黄色网| 色综合男人天堂| 狠狠操一区二区三区| 国产成人精品日本亚洲专区61| 巨胸喷奶水www久久久免费动漫| 国产精品美女主播| 国产精一区二区| 韩国一区二区三区美女美女秀 | 伊人久久久久久久久久久| 69久久夜色| 色综合久久中文字幕综合网小说| av在线加勒比| 国产精品成人久久久久| 看亚洲a级一级毛片| 久久精品第九区免费观看 | 国产一区二区三区在线免费| 一区二区三区导航| 亚洲 欧美 日韩系列| 国产精品一区二区三区乱码| 51调教丨国产调教视频| 国产精品久久毛片a| 久久久精品人妻一区二区三区四| 欧美性xxxxxxx| 97在线视频人妻无码| 亚洲精品www| 日韩免费啪啪| 91超碰caoporn97人人| 伊人久久大香伊蕉在人线观看热v 伊人久久大香线蕉综合影院首页 伊人久久大香 | 亚洲美女www午夜| 麻豆视频在线观看免费| 91高清在线免费观看| 欧美天堂一区| 久久精品日产第一区二区三区乱码| 日韩中文字幕高清在线观看| 国产二区视频在线| 精品一区二区三区免费毛片爱| 7788色淫网站小说| 亚洲天堂2016| 日韩精品成人免费观看视频| 日韩亚洲欧美在线观看| 高清日韩av电影| 午夜精品一区二区三区视频免费看| 巨胸喷奶水www久久久免费动漫| 国产在线一区二区三区欧美| 91亚洲成人| 激情综合网婷婷| 成人精品亚洲人成在线| 特级西西人体高清大胆| 欧美日韩国产色| 精品国产无码一区二区三区| 少妇高潮久久77777| 成人免费看视频网站| 国产成人成网站在线播放青青| 欧美三级三级| 国产免费成人在线| 成人免费看的视频| 国产成人无码aa精品一区| 欧美日韩国产一级片| 男人天堂网在线观看| 69影院欧美专区视频| 91精品国产自产在线丝袜啪| 波多野结衣三级在线| 久久激情五月婷婷| 日本污视频网站| 91久久精品一区二区二区| 日韩在线免费播放| 97婷婷大伊香蕉精品视频| 中文一区二区三区四区| 4444在线观看| 国产一区二区三区免费看| 成人免费视频入口| 欧美视频在线播放| www日韩tube| 国产精品美女在线| 成人免费在线播放| 免费涩涩18网站入口| 国产拍揄自揄精品视频麻豆| 激情视频网站在线观看| 亚洲人成电影在线观看天堂色| 美女av在线免费看| 九九99久久| 久久精品男女| 欧美 日韩 国产 成人 在线观看| 狠狠躁夜夜躁人人爽超碰91| 欧美日韩影视| 国产精品电影一区| 成人写真视频| 色网站在线视频| 亚洲色图欧美偷拍| www.香蕉视频| 久久免费视频观看| 精品在线播放| 男人添女人下面免费视频| 18欧美乱大交hd1984| 国产女人18毛片18精品| 欧美美女操人视频| 欧美三级自拍| 91香蕉视频污版| 亚洲欧洲精品天堂一级| 国产jzjzjz丝袜老师水多| 久久久免费精品| 亚洲美女久久| 国内国产精品天干天干| 亚洲免费观看高清完整版在线观看熊 | 欧美一区二区三区四区夜夜大片 | 国产理论电影在线观看| 国产自产女人91一区在线观看| 一区二区电影在线观看| 久草视频福利在线| 在线观看日韩毛片| 黄色网页在线看| 国内精品二区| 免费精品视频在线| 九九视频免费观看| 亚洲精品午夜精品| 日韩一级特黄| 欧美黑人经典片免费观看| 久久久久久久久久久久久夜| 91国产精品一区| 性日韩欧美在线视频| 欧美精品一区二区久久| 初高中福利视频网站| 色综合网色综合| av在线影院| 欧美国产二区| 国产精品一卡二| 欧美精品一二三四区| 操日韩av在线电影| 日韩高清成人在线| 一区二区久久精品| 欧美视频中文在线看| 八戒八戒神马在线电影| 欧美在线播放一区| 国产成人av电影在线播放| 亚洲中文无码av在线| 久久久噜噜噜久久中文字免| 成人女性视频| 人人妻人人澡人人爽人人精品| 欧美一区二区三区免费大片 |