精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

NeurIPS Spotlight | 基于信息論,決策模型有了全新預訓練范式統一框架

人工智能
強化學習(RL)作為一種經典的時序決策模型的訓練方法,勢必成為決策大模型訓練及微調的核心技術之一。而由于任務和數據的復雜性,我們希望模型在訓練時能擺脫傳統強化學習與環境在線交互的方式,實現在海量歷史數據中進行離線、多任務的高效學習。

現如今,以 GPT 為代表的大語言模型正深刻影響人們的生產與生活,但在處理很多專業性和復雜程度較高的問題時仍然面臨挑戰。在諸如藥物發現、自動駕駛等復雜場景中,AI 的自主決策能力是解決問題的關鍵,而如何進行決策大模型的高效訓練目前仍然是開放性的難題。

強化學習(RL)作為一種經典的時序決策模型的訓練方法,勢必成為決策大模型訓練及微調的核心技術之一。而由于任務和數據的復雜性,我們希望模型在訓練時能擺脫傳統強化學習與環境在線交互的方式,實現在海量歷史數據中進行離線、多任務的高效學習,這一新范式被稱為「離線元強化學習 」(Offline Meta-RL)。

近期,圍繞離線元強化學習,來自之江實驗室、香港中文大學、同濟大學等單位的研究團隊提出了全新算法 UNICORN。該方法基于信息論,首次系統性地提出了一套關于強化學習中任務表示學習(task representation learning)的理論框架 UNICORN(UNIfied Information Theoretic Framework of Context-Based Offline Meta-ReiNforcement Learning),將現有主流方法利用一個基于任務表征的通用互信息優化目標進行了統一,并憑借理論創新和全面的實驗驗證,成為離線及元強化學習領域的重要里程碑,被人工智能三大頂級會議 NeurIPS 2024 接收為 Spotlight 文章(中稿率 2.08%)。

圖片

  • 論文標題:Towards an Information Theoretic Framework of Context-Based Offline Meta-Reinforcement Learning
  • 論文鏈接:https://openreview.net/pdf?id=QFUsZvw9mx
  • 項目地址:https://github.com/betray12138/UNICORN

問題背景

在經典強化學習中,智能體(agent)通過與外部環境實時交互來收集反饋,在不斷試錯(trial-and-error)中積累經驗進行學習。然而在諸如自動駕駛、疾病治療等現實場景中,試錯帶來的風險往往是無法承受的,從而使人們開始關注如何擺脫與環境的在線交互,僅從歷史數據中進行學習,這一新范式被稱為「離線強化學習」(offline RL)。

另一方面,復雜多變的真實場景使得智能體處理多任務能力的必要性與日俱增,這種使智能體像人類一樣同時學習多種技能并進行舉一反三的范式被稱作「元強化學習」(meta-RL)。

離線強化學習和元強化學習作為強化學習的兩個分支,有著各自獨特的優勢。前者由于擺脫了與環境的在線交互,可以重復利用歷史數據進行訓練,具有高安全性、高樣本效率的特點;而后者聚焦多任務及遷移學習,在泛化能力方面表現突出,兩者優勢互補。

于是在 2021 年前后,人們開始嘗試結合兩種范式來訓練更加強大的智能體,其中主流的一類方法被稱為「基于語境的離線元強化學習」(Context-Based Offline Meta-RL,COMRL),其核心思想是將當前任務的表征作為額外的狀態信息,訓練一個適用于任意任務 / 環境的通用策略(universal policy):

圖片

在該框架下,如何學習魯棒、有效的任務表征 Z 成為核心問題,而其中最重要的挑戰是語境偏移(context shift)。由于智能體的訓練數據是離線也就是固定分布的,但在測試時面臨的任務語境未知且多變,導致訓練和測試集間可能在狀態 - 動作(state-action)維度或者任務維度上存在巨大分布偏移,這對于模型的魯棒性、泛化性提出了極高要求。

針對上述問題,現有主流方法例如 FOCAL[1]、CORRO[2]和 CSRO[3]陸續提出了多種優化目標,利用度量學習(metric learning)、對比學習(contrastive learning)等思想進行任務表征學習:

  • FOCAL

圖片

  • CORRO

圖片

  • CSRO

圖片

然而,現有方法主要聚焦于對損失函數的經驗性改進,缺乏針對任務表示學習尤其是語境偏移的系統性理論支持和設計指導。

基于信息論的統一理論框架 UNICORN

UNICORN 的核心創新在于借助信息論,從數學定義、因果關系分解、中心定理三個層面依次遞進,首次系統性地定義和解構了 COMRL 中的任務表示學習這一問題,并通過嚴格理論證明將現有方法的優化目標進行了統一,由此提出并驗證了兩種新的算法實現,以啟迪未來更多新方法的設計。

1. 任務表示學習的數學定義

由于在 COMRL 中,數據覆蓋多個任務,假設這些任務采樣于一個特定的任務分布,我們將遵從該分布的任務變量定義為隨機變量圖片,與之對應的數據樣本和任務表示變量分別定義為圖片圖片,則三者構成如下馬爾可夫鏈:

圖片 

任務表示學習的數學定義:COMRL 中的任務表示學習意在找到一個數據圖片相對于任務變量圖片的充分統計量(sufficient statistics)圖片 。

2. 因果關系分解

在 COMRL 中,原則上,任務變量 與進行采樣的行為策略(behavior policy)應該相互獨立。我們發現如果將數據樣本圖片看作包含狀態、動作、獎勵的四元組 (s, a, s’, r),則其中前兩項(s, a)的分布主要與行為策略相關,而在給定 s、a 的情況下,s’、r 的分布完全由任務本身的獎勵函數及狀態轉移函數所決定?;诖耍覀兛梢詫ι鲜鲴R爾可夫鏈進行如下拆解:

圖片

該分解反映了由 s’, r 構成的 X_t 包含了與任務變量圖片、圖片的絕大部分因果關系,而由 s, a 構成的 X_b 由于與行為策略高度相關,含有大量虛假相關性(spurious correlation)。同時在數學上,我們發現該因果關系分解正好可以對應如下的互信息分解:

圖片

基于上述分析,我們將右邊第一項命名為主因果關系(primary causality),第二項稱為次因果關系(lesser causality)。

3. 中心定理

本文從數學上嚴格證明了如下不等式(中心定理):

圖片


該中心定理引申出 2 個重要結論,為未來 COMRL 領域的新方法設計指明了道路:

  • 主因果關系作為不等式下界,雖不包含虛假相關性,但缺失部分因果相關性;而主因果關系與次因果關系之和作為上界,在囊括全部因果相關性的同時引入了虛假相關性。因此,理論上,一個有且僅包含全部因果相關性的「最優優化目標」應該介于兩者之間,而 I (Z; M) 剛好滿足這一要求?;谏鲜鲇^察,我們提出 I (Z; M) 應該作為任務表示學習優化目標的金標準(ground truth),其天然具有對于語境偏移的魯棒性。
  • 現有主流方法本質都是在優化 I (Z; M) 的一個近似,例如 FOCAL、CORRO、CSRO 分別優化的是其上界、下界和兩者的線性插值。因此,找到更好的 I (Z; M) 近似方法將成為 COMRL 領域未來發展的關鍵方向。

基于上述洞察,為了展示 UNICORN 框架的指導意義,通過對 I (Z; M) 的近似,我們提出了兩種新的算法實現:

  • 有監督 UNICORN:將 I (Z; M) 的求解近似為離散化的分類問題

圖片


  • 自監督 UNICORN:將 I (Z; M) 的求解近似為數據重建(生成式)+ 度量學習(對比式)

圖片


實驗結果:UNICORN 的廣泛適用性和魯棒性

為了證明 UNICORN 理論框架的普適性,我們在多種機器人連續控制任務的相關設定下對新提出的兩種方法進行了廣泛的實驗驗證:

1. Behavior IID/OOD (訓練集與測試集的行為策略采樣于相同分布 / 不同分布)

圖片

結論:UNICORN 算法在同分布測試集上性能媲美 SoTA,在分布外測試集上性能顯著優于現有其他方法。

2. 不同質量的數據集表現

圖片 

結論:UNICORN 算法(尤其無監督版本)在不同質量的數據集上的性能均達到 SoTA。

3. 不同模型架構的可遷移性(應用于 Decision Transformer(DT)的測試結果)

圖片

結論:UNICORN 算法在 MLP/Decision Transformer 架構上相比現有方法均呈現明顯優勢,可以作為即插即用的模塊廣泛應用于其他 RL 算法中。

4. 對于分布外任務的泛化性

圖左為分布外任務的構造方式:以 Ant-Dir 為例,訓練任務的目標方向采樣自第二、三象限,測試任務分布于第一、四象限,兩者完全不重疊。圖右為測試結果:自監督 UNICORN 為唯一取得正向小樣本遷移(positive few-shot transfer)的算法。

結論:利用無監督 UNICORN 中的自編碼器進行 domain randomization 和 model-based RL,可以將智能體的能力外推至分布外的任務,這一點是現有其他方法都無法做到的。

UNICORN 的未來展望:為拓展決策大模型的能力邊界提供理論基礎

UNICORN 為離線元強化學習提供了統一理論基礎和算法設計準則,對于決策大模型的大規模離線、多任務預訓練及微調,從而進一步拓展決策大模型的能力邊界具有指導意義。該技術有助于解決藥物設計、精準醫療、具身智能等前沿領域面臨的 AI 模型的泛化性、多目標優化、樣本利用率等挑戰,同時,團隊也在探索將 UNICORN 框架進一步推廣到在線強化學習等更多場景中。

參考文獻:

[1]. Lanqing Li, Rui Yang, and Dijun Luo. Focal: Efficient fully-offline meta-reinforcement learning via distance metric learning and behavior regularization. ICLR 2021.

[2]. Haoqi Yuan and Zongqing Lu. Robust task representations for offline meta-reinforcement learning via contrastive learning. ICML 2022.

[3].Yunkai Gao, et al. Context shift reduction for offline meta-reinforcement learning. NeurIPS 2023.

責任編輯:姜華 來源: 機器之心
相關推薦

2025-11-11 08:45:00

2024-11-15 15:20:00

模型數據

2025-06-13 09:29:51

2025-10-14 13:55:57

AI模型訓練

2024-12-16 07:10:00

OpenAIAI人工智能

2024-12-05 13:00:00

2024-12-16 08:20:00

AI工具

2023-06-12 07:50:45

2023-06-27 13:54:57

機器學習模型

2023-10-25 09:50:07

自動駕駛訓練

2024-01-03 18:53:13

語言模型LLM

2023-05-19 07:25:34

2023-02-01 09:46:29

2024-03-25 12:30:18

AI訓練開源

2023-10-20 09:43:56

模型訓練

2022-05-16 11:06:54

SOTA谷歌預訓練

2025-09-23 03:00:00

2022-11-28 14:00:24

人工智能

2025-07-04 09:53:57

2022-04-12 14:36:58

達摩院訓練模型
點贊
收藏

51CTO技術棧公眾號

国产激情无码一区二区三区| 超碰影院在线观看| 精品国产九九九| 亚洲国产高清视频| 一区二区三区视频在线| 91性高潮久久久久久久| 欧美男男tv网站在线播放| 欧美韩国一区二区| 国产精品久久久久久久久久直播| 黄色免费av网站| 香蕉视频官网在线观看日本一区二区| 欧美成人精品1314www| 日韩有码免费视频| 欧美人与性动交α欧美精品济南到| av不卡免费电影| 国产综合久久久久久| 午夜毛片在线观看| 夜间精品视频| 亚洲欧美精品suv| 女同性αv亚洲女同志| 亚洲精品在线影院| 午夜精品国产更新| 久久最新免费视频| 国产精品久久久久一区二区国产| 国产+成+人+亚洲欧洲自线| 国产精品av在线播放| 国产真人真事毛片| 国产精品国产一区| 在线日韩日本国产亚洲| 国产福利在线观看视频| 香蕉免费一区二区三区在线观看| 欧美最新大片在线看| 成人一对一视频| 国产精品偷拍| 亚洲乱码一区二区三区在线观看| 日韩三级电影| 国产在线观看黄| 91麻豆免费看| 九色91视频| 黄色av小说在线观看| 国产盗摄视频一区二区三区| 国产日韩精品视频| 中文字幕 人妻熟女| 视频一区中文字幕国产| 欧美一级片在线播放| 久久免费黄色网址| 欧美特黄一区| 色综合久久88| 国产在线观看免费视频今夜| 伊人青青综合网| 久久国产精品电影| 男人的天堂久久久| 牛牛国产精品| 欧美第一淫aaasss性| 三级影片在线看| 欧美福利专区| 欧美激情欧美激情| 日韩免费一二三区| 黄色工厂这里只有精品| 欧美激情精品久久久久久黑人| 亚洲AV成人无码精电影在线| 久久中文字幕av一区二区不卡| 在线不卡国产精品| 五月天免费网站| 99久久婷婷国产综合精品电影√| 久久九九国产精品怡红院 | 欧美人与性动交α欧美精品| 国产欧美日韩电影| 精品裸体舞一区二区三区| 亚洲综合中文网| 国产成人福利av| 亚洲精品影视在线观看| 久久久久亚洲av无码a片| 欧美日韩性在线观看| 最新中文字幕亚洲| 九九视频在线观看| 一本色道久久综合亚洲精品不卡| 热久久99这里有精品| 日韩国产亚洲欧美| 国产乱码精品一区二区三区忘忧草 | 国产激情一区二区三区桃花岛亚洲| 97操在线视频| 美女欧美视频在线观看免费 | 91精品国产91久久久久久久久 | 国产麻豆9l精品三级站| 好吊妞www.84com只有这里才有精品 | 黑人巨大精品| 欧美三级韩国三级日本三斤| 四川一级毛毛片| 性人久久久久| 久久在精品线影院精品国产| 亚洲激情视频一区| 奇米影视一区二区三区| 999国内精品视频在线| 韩日视频在线| 亚洲精品v日韩精品| 免费观看日韩毛片| av在线亚洲一区| 亚洲精选中文字幕| 精品国产乱码久久久久久鸭王1| 99国产精品视频免费观看一公开 | 亚洲第一成肉网| 秋霞蜜臀av久久电影网免费| 色偷偷88888欧美精品久久久| 国产极品国产极品| 人禽交欧美网站| 精品高清视频| av免费在线网站| 在线免费观看日韩欧美| 91精品人妻一区二区三区四区| 国产精品午夜一区二区三区| 欧美激情高清视频| 一起草av在线| 久久久久久久综合| 91黄色在线看| 日韩国产在线不卡视频| 中文综合在线观看| 欧美h在线观看| 国产91精品在线观看| 亚洲自拍偷拍二区| 国产免费不卡| 日韩国产欧美精品在线| 久久综合激情网| 九色综合狠狠综合久久| 欧美一区2区三区4区公司二百| 新版中文在线官网| 在线播放中文一区| 国产福利在线导航| 日本亚洲视频在线| 日本在线观看不卡| 巨茎人妖videos另类| 日韩av影院在线观看| 久久久久无码国产精品| 国产精品自在欧美一区| 亚洲午夜久久久影院伊人| 精品国产欧美日韩一区二区三区| 亚洲高清不卡av| xxxx 国产| 成人午夜免费电影| 阿v天堂2018| 91欧美日韩在线| 欧美精品久久久久久久久| jizz中国女人| 一区二区三区欧美亚洲| 性生活一级大片| 欧美精品大片| 高清av免费一区中文字幕| 最近中文字幕免费mv2018在线| 欧美一区午夜视频在线观看| 91麻豆精品成人一区二区| 久久99九九99精品| 警花观音坐莲激情销魂小说| 日韩精品成人| 97国产精品视频| 亚洲欧美综合在线观看| 色8久久人人97超碰香蕉987| 亚洲人成人无码网www国产 | 亚洲在线久久| 超碰97人人在线| 国产社区精品视频| 亚洲天堂免费在线| 一级aaaa毛片| 一区二区三区四区在线播放| 人妻av一区二区| 久久久久久穴| 中文字幕日韩精品久久| 日韩高清在线观看一区二区| 国内精品久久久久影院优| 亚洲欧美日韩动漫| 欧美日韩小视频| 欧美日韩国产精品综合| 9色porny自拍视频一区二区| 日本熟妇人妻xxxxx| 成人区精品一区二区婷婷| 国产欧美精品久久久| 污污片在线免费视频| 亚洲国产欧美精品| 在线观看中文字幕2021| 亚洲伊人色欲综合网| 成年人网站免费在线观看 | 国产香蕉精品视频| 久久aⅴ乱码一区二区三区| 中文字幕不卡每日更新1区2区| 日韩免费高清视频网站| 日本三级久久久| 成人av福利| 国产视频一区在线| 国产精品久久久午夜夜伦鲁鲁 | 中文字幕免费高清在线观看| 亚洲精品中文在线影院| 中文字幕一区二区三区人妻电影| 久久国产夜色精品鲁鲁99| 亚洲色欲久久久综合网东京热| 国产免费久久| 国产福利一区二区三区在线观看| 69av成人| 美日韩丰满少妇在线观看| 三级av在线| 日韩一区二区电影| 在线观看国产区| 五月综合激情日本mⅴ| 精品一区二区在线观看视频| 91丝袜呻吟高潮美腿白嫩在线观看| 日本中文字幕影院| 麻豆精品91| 性高湖久久久久久久久aaaaa| 日韩精品诱惑一区?区三区| 激情五月综合色婷婷一区二区| **国产精品| 国产精品久久久久久久一区探花| 爱情岛亚洲播放路线| 色婷婷综合成人av| 国产特黄在线| 国产视频丨精品|在线观看| 亚洲欧美另类综合| 91精品视频网| 一区二区视频在线免费观看| 日韩欧美综合在线视频| 国产一级视频在线观看| 亚洲欧美在线视频观看| 男人天堂av电影| 97精品电影院| 永久免费未满蜜桃| 国产aⅴ精品一区二区三区色成熟| 色播五月综合网| 日韩中文字幕av电影| 欧美aⅴ在线观看| 野花国产精品入口| 日韩精品在线观看av| 中文字幕一区二区三三| 亚洲精品不卡| 免费成人av| 欧美影视一区二区| 亚欧洲精品视频在线观看| 国产私拍一区| 美女av一区| 精品国产_亚洲人成在线| 极品国产人妖chinesets亚洲人妖| 97久久天天综合色天天综合色hd | 亚洲美女视频网| 天天操天天干天天| 日韩国产高清视频在线| 青青草超碰在线| 国产午夜精品视频| av影片免费在线观看| 中文字幕九色91在线| 淫片在线观看| 久久影视免费观看| √天堂8在线网| 高清视频欧美一级| 亚洲妇女成熟| 国产精品99一区| 999精品嫩草久久久久久99| 成人午夜黄色影院| 视频在线观看免费影院欧美meiju| 99一区二区| 色橹橹欧美在线观看视频高清| 久久久久免费网| 精品国产一区二区三区| 一区二区三区免费看| 一本一道久久a久久精品蜜桃| 国产精品视频一二三四区| 国产精品av久久久久久麻豆网| 亚洲国产精品无码观看久久| 香蕉久久久久久久av网站| 亚洲精品一二三四五区| 久久99蜜桃精品| www.啪啪.com| 国产日产精品一区| 91日韩中文字幕| 婷婷开心激情综合| 艳妇乳肉豪妇荡乳av无码福利| 欧美精品亚洲一区二区在线播放| 精品久久无码中文字幕| 亚洲精品久久久一区二区三区| 国产日韩精品在线看| 久久五月天色综合| 高潮在线视频| 国产精品久久久久久久久久新婚 | 亚洲第一区在线观看| 免费黄色在线视频网站| 久久精品国产亚洲一区二区| 97人人在线视频| 国产伦精品免费视频| 国产精品2023| 亚洲天堂电影网| 亚洲福利国产| 天天干天天操天天玩| 成人午夜视频在线| 人人艹在线视频| 欧美日韩另类在线| 国产麻豆免费视频| 亚洲人成电影网站色| 深夜国产在线播放| 国产国语刺激对白av不卡| **爰片久久毛片| 亚洲三区视频| 亚洲免费婷婷| 人妻巨大乳一二三区| 国产色产综合色产在线视频 | 一本久道久久综合狠狠爱| 潘金莲激情呻吟欲求不满视频| 成人av电影在线| 国产真实乱在线更新| 91国偷自产一区二区使用方法| 亚洲va天堂va欧美ⅴa在线| 伊人一区二区三区久久精品| www.色在线| 亚洲自拍偷拍网址| 久久国产精品成人免费观看的软件| 免费看国产曰批40分钟| 国产精品一区二区免费不卡| 国产成人免费观看网站| 欧美日韩免费区域视频在线观看| jlzzjlzzjlzz亚洲人| www.日韩.com| 91亚洲精品| 日本高清久久一区二区三区| 亚洲裸体俱乐部裸体舞表演av| 6080国产精品| 国产精品久久久久四虎| 免费一级a毛片| 亚洲人免费视频| 日韩伦理精品| 久久久99国产精品免费| 99精品视频免费观看| 久久久久亚洲AV成人网人人小说| 亚洲欧美偷拍三级| 91精品国产乱码久久久久| 在线视频国产日韩| 久久xxx视频| 先锋影音一区二区三区| 日韩成人av影视| 一级在线观看视频| 91黄色在线观看| 国产高清在线| 国产精品欧美日韩久久| 欧美限制电影| 中文字幕22页| 亚洲四区在线观看| aaaa一级片| 欧美日韩福利视频| 成人台湾亚洲精品一区二区| 91.com在线| 成人av中文字幕| 黄色大片网站在线观看| 亚洲美女av在线| 性欧美gay| 亚洲午夜久久久影院伊人| 国产在线麻豆精品观看| 伊人在线视频观看| 日韩欧美一区二区不卡| 欧美人与禽猛交乱配| 黑人中文字幕一区二区三区| 国产欧美日韩综合一区在线播放 | 青青草久久伊人| 一区二区成人在线视频| 亚洲欧美日韩免费| 国产精品夫妻激情| 国产精品国产三级国产在线观看 | 亚洲日本乱码在线观看| 国产女同91疯狂高潮互磨| 欧美另类xxx| 任你弄精品视频免费观看| 不要播放器的av网站| 国产精品久久久久aaaa樱花| 国产毛片一区二区三区va在线| 欧美激情亚洲自拍| 午夜先锋成人动漫在线| 在线看的黄色网址| 亚洲最大的成人av| 伦理片一区二区三区| 成人做爰www免费看视频网站| 亚洲视频日本| 精品人妻中文无码av在线| 91精品国产欧美一区二区18 | 中文字幕在线观看的网站| 欧美性猛片aaaaaaa做受| 亚洲小说区图片| 欧美精品一区二区视频| 狠狠色丁香婷婷综合| 日韩人妻无码一区二区三区99 | 羞羞视频在线观看不卡| 欧美激情第一页在线观看| 国产在线精品一区二区三区不卡| 国产污视频在线看| 中文在线资源观看视频网站免费不卡| 国产va免费精品观看精品| 欧美成人xxxxx| 亚洲女人****多毛耸耸8| 色视频免费在线观看| 91亚洲精品在线观看| 久久婷婷亚洲| 美国黄色小视频| 在线播放国产一区二区三区| 国产精品流白浆在线观看| mm131国产精品| 欧美性猛交xxxx免费看久久久| 国产福利在线播放麻豆| 欧美日韩高清免费|