精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

用動作分塊突破RL極限,伯克利引入模仿學習,超越離線/在線SOTA

人工智能 新聞
近日,加州大學伯克利分校的研究者提出了一種名為?Q-chunking?的方法,該方法將動作分塊(action chunking)—— 一種在模仿學習中取得成功的技術 —— 引入到基于時序差分(Temporal Difference, TD)的強化學習中。

如今,強化學習(Reinforcement Learning,RL)在多個領域已取得顯著成果。

在實際應用中,具有長時間跨度和稀疏獎勵特征的任務非常常見,而強化學習方法在這類任務中的表現仍難令人滿意。

傳統強化學習方法在此類任務中的探索能力常常不足,因為只有在執行一系列較長的動作序列后才能獲得獎勵,這導致合理時間內找到有效策略變得極其困難。

假如將模仿學習(Imitation Learning, IL)的思路引入強化學習方法,能否改善這一情況呢?

模仿學習通過觀察專家的行為并模仿其策略來學習,通常用于強化學習的早期階段,尤其是在狀態空間和動作空間巨大且難以設計獎勵函數的場景。

近年來,模仿學習不僅在傳統的強化學習中取得了進展,也開始對大語言模型(LLM)產生一定影響。近日,加州大學伯克利分校的研究者提出了一種名為 Q-chunking 的方法,該方法將動作分塊(action chunking)—— 一種在模仿學習中取得成功的技術 —— 引入到基于時序差分(Temporal Difference, TD)的強化學習中。

該方法主要解決兩個核心問題:一是通過時間上連貫的動作序列提升探索效率;二是在避免傳統 n 步回報引入偏差的前提下,實現更快速的值傳播。

image.png

  • 論文標題:Reinforcement Learning with Action Chunking
  • 論文地址:https://www.alphaxiv.org/overview/2507.07969v1
  • 代碼地址:https://github.com/ColinQiyangLi/qc

如下圖 1 左所示,Q-chunking(1)使用動作分塊來實現快速的價值回傳,(2)通過時間連貫的動作進行有效探索。圖 1 右中,本文方法首先在離線數據集上進行 100 萬步的預訓練(灰色部分),然后使用在線數據更新,再進行另外 100 萬步的訓練(白色部分)。

image.png

問題表述與研究動機

Q-chunking 旨在解決標準強化學習方法在復雜操作任務中存在的關鍵局限性。

在傳統強化學習中,智能體在每一個時間步上逐一選擇動作,這常常導致探索策略效率低下,表現為抖動、時間不連貫的動作序列。這一問題在稀疏獎勵環境中尤為嚴重 —— 在此類環境中,智能體必須執行較長的、協調一致的動作序列才能獲得有效反饋。

研究者提出了一個關鍵見解:盡管馬爾可夫決策過程中的最優策略本質上是馬爾可夫性的,但探索過程卻可以從非馬爾可夫性、時間上擴展的動作中顯著受益。這一觀察促使他們將「動作分塊」這一原本主要用于模仿學習的策略引入到時序差分學習中。

該方法特別面向離線到在線的強化學習場景(offline-to-online RL),即智能體先從預先收集的數據集中進行學習,再通過在線交互進行微調。這一設定在機器人應用中尤為重要,因為在線數據采集成本高且可能存在安全風險。

方法概覽

Q-chunking 將標準的 Q-learning 擴展至時間擴展的動作空間,使策略不再僅預測單一步驟的動作,而是預測連續 h 步的動作序列。該方法主要包含兩個核心組成部分:

擴展動作空間學習

傳統方法學習的是針對單步動作的策略 π(a? | s?) 和 Q 函數 Q (s?, a?),而 Q-chunking 學習的是:

* 塊狀策略(Chunked Policy):π_ψ(a?:??? | s?)

* 塊狀 Q 函數(Chunked Q-function):Q_θ(s?, a?:???)

核心創新體現在時間差分損失(TD loss)的構造上。塊狀 Q 函數的更新方式如下:

image.png

該形式實現了無偏的 h 步的值傳播,因為 Q 函數以整個動作序列作為輸入,從而消除了傳統 n 步回報中存在的離策略偏差(off-policy bias)。

行為約束

為了保證時間上的連貫性探索,并有效利用離線數據,Q-chunking 在擴展動作空間中對學習到的策略施加了行為約束,使其保持接近離線數據分布。該約束表達如下:

image.png

其中,D 表示一種距離度量方法,π_β 是來自離線數據集的行為策略。

算法實現

研究者展示了Q-chunking框架的兩種實現方式:

QC(帶有隱式 KL 約束的 Q-chunking)

該分支通過「從 N 個中選擇最優」(best-of-N)的采樣策略,隱式地施加 KL 散度約束。其方法如下:

1. 在離線數據上訓練一個流匹配行為策略 f_ξ(?|s)

2. 對于每個狀態,從該策略中采樣 N 個動作序列(action chunks)

3. 選擇具有最大 Q 值的動作序列:a* = arg max_i Q (s, a_i)

4. 使用該動作序列進行環境交互與 TD 更新

QC-FQL(帶有 2-Wasserstein 距離約束的 Q-chunking)

該實現基于 FQL(Flow Q-learning)框架:

1. 保持一個獨立的噪聲條件策略 μ_ψ(s, z)

2. 訓練該策略以最大化 Q 值,并通過正則項使其靠近行為策略

3. 使用一種蒸餾損失函數,對平方的 2-Wasserstein 距離進行上界估計

4. 引入正則化參數 α 來控制約束強度

實驗設置及結果

關于實驗環境和數據集,研究者首先考慮 6 個稀疏獎勵的機器人操作任務域,任務難度各不相同,包括如下:

來自 OGBench 基準的 5 個任務域:scene-sparse、puzzle-3x3-sparse,以及 cube-double、cube-triple 和 cube-quadruple,每個任務域包含 5 個任務;來自 robomimic 基準中的 3 個任務。

對于 OGBench,研究者使用默認的「play-style」數據集,唯獨在 cube-quadruple 任務中,使用了一個規模為 1 億大小的數據集。

關于基線方法比較,研究者主要使用了以加速「價值回傳」為目標的已有方法,以及此前表現最好的「離線到在線」強化學習方法,包括 BFN(best-of-N)、FQL、BFN-n / FQL-n 以及 LPD、RLPD-AC。

下圖 3 中展示了 Q-chunking 與基線方法在 5 個 OGBench 任務域上的整體性能表現,下圖 4 中展示了在 3 個 robomimic 任務上的單獨性能表現。其中在離線階段(圖中為灰色),QC 表現出具有競爭力的性能,通常可以比肩甚至有時超越了以往最優方法。而在在線階段(圖中為白色),QC 表現出極高的樣本效率,尤其是在 2 個最難的 OGBench 任務域(cube-triple 和 quadruple)中,其性能遠超以往所有方法(特別是 cube-quadruple 任務)。

image.png

image.png

下圖 5 為消融實驗,比較了 QC 與其變體 QC-FQL、以及 2 種 n 步回報的基線方法(BFN-n 和 FQL-n)。這些 n 步回報基線方法沒有利用時間擴展的 critic 或 policy,因此其性能顯著低于 QC 和 QC-FQL。實際上,它們的表現甚至常常不如 1 步回報的基線方法 BFN 和 FQL,這進一步突顯了在時間擴展動作空間中進行學習的重要性。

image.png

接下來探討的問題是:為什么動作分塊有助于探索?研究者在前文提出了一個假設:動作分塊策略能夠生成在時間上更連貫的動作,從而帶來更好的狀態覆蓋和探索效果。

為了進行實證,他們首先可視化了訓練早期 QC 與 BFN 的末端執行器運動軌跡,具體如下圖 7 所示。可以看到,BFN 的軌跡中存在大量停頓(在圖像中心區域形成了一個大而密集的簇),特別是在末端執行器下壓準備抓取方塊時。而 QC 的軌跡中則明顯停頓較少(形成的簇更少且更淺),并且其在末端執行器空間中的狀態覆蓋更加多樣化。

為了對動作的時間連貫性進行定量評估,研究者在訓練過程中每 5 個時間步記錄一次 3D 末端執行器位置,并計算相鄰兩次位置差向量的平均 L2 范數。如果存在較多停頓或抖動動作,該平均范數會變得較小,因此可以作為衡量動作時間連貫性的有效指標。

正如圖 7(右)所示,在整個訓練過程中,QC 的動作時間連貫性明顯高于 BFN。這一發現表明,QC 能夠提高動作的時間連貫性,從而解釋了其更高的樣本效率。

image.png

更多細節內容請參考原論文。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2018-10-09 14:00:41

SQL深度學習神經網絡

2025-05-06 15:31:55

智能模型AI

2025-07-07 13:50:56

AI編程算法

2025-01-22 15:21:00

2024-03-26 15:43:00

訓練數據機器人

2024-01-29 13:03:00

框架3DHM視頻

2024-08-19 14:05:00

2025-07-02 08:40:00

智能體AI模型

2021-11-29 16:12:38

AI數據強化學習

2023-08-15 14:18:19

智能研究

2022-03-28 13:25:42

AI扶貧機器之心

2023-06-21 13:20:14

系統模型

2025-08-19 02:00:00

AI講師教育

2025-02-17 09:33:00

AI算法模型

2024-09-25 09:37:16

2024-11-29 09:18:01

2017-04-25 10:44:02

網利寶

2023-09-25 12:42:00

AI數據

2025-09-02 10:14:35

2021-01-04 09:18:36

機器人人工智能系統
點贊
收藏

51CTO技術棧公眾號

国产精品美乳一区二区免费| 日韩亚洲欧美中文三级| 麻豆精品蜜桃一区二区三区| 成年免费在线观看| 欧美美女啪啪| 色八戒一区二区三区| 视频一区视频二区视频三区高| 日韩国产亚洲欧美| 国产伦精品一区二区三区千人斩 | 人人干在线视频| 国产一区二区三区香蕉| 久久久久五月天| 欧美性xxxx图片| 欧美精品资源| 亚洲精品视频免费观看| 精品一区二区日本| 中文字幕av久久爽| 欧美精选一区| 亚洲午夜女主播在线直播| 亚洲一区二区三区观看| 国产污视频在线播放| 国产欧美va欧美不卡在线| 成人在线视频网| 久久久精品国产sm调教网站| 亚洲v天堂v手机在线| 欧美日韩一卡二卡| 久久国产精品网| 欧美天天影院| 99re视频这里只有精品| 91精品久久久久久综合乱菊| 国产精品xxxx喷水欧美| 亚洲成人精品| 亚洲天堂av网| 一级欧美一级日韩片| 福利一区二区三区视频在线观看| 亚洲成av人片在www色猫咪| 色噜噜色狠狠狠狠狠综合色一| 99热这里只有精品99| 久久久精品五月天| 欧美激情啊啊啊| 精品伦精品一区二区三区视频密桃| 久久男人av| 欧美一区二区福利在线| 国产wwwxx| 国产一二三在线| 亚洲欧美日韩一区| 亚洲精品国产精品国自产| 欧美在线一卡| 99视频精品全部免费在线| 99re在线观看| www.激情五月| 国产一区二区影院| 2014国产精品| 国产一区二区三区中文字幕 | 国产亚洲制服色| 国产一区二区三区黄| 一级黄色片在线观看| 欧美96一区二区免费视频| 清纯唯美亚洲综合| 九九精品视频免费| 四季av一区二区三区免费观看| 亚洲欧美日韩图片| 国产精品jizz| 天海翼亚洲一区二区三区| 精品国产网站在线观看| 亚洲精品乱码久久久久久9色| 日韩色性视频| 欧美日韩一本到| av网站在线不卡| 日韩欧美一区二区三区免费观看 | 欧美一二三区在线观看| 黄色三级视频片| 免费电影日韩网站| 色94色欧美sute亚洲线路一久| 黄在线观看网站| 国产精品一区二区av影院萌芽| 精品欧美国产一区二区三区| 3d动漫一区二区三区| 国内精彩免费自拍视频在线观看网址| 亚洲五月六月丁香激情| 蜜臀av色欲a片无码精品一区| 美女网站视频在线| 偷窥少妇高潮呻吟av久久免费| 搞av.com| 中文字幕在线直播| 日韩欧美国产成人| 日本www.色| 欧美成人福利| 日韩一区二区不卡| 亚洲成人福利视频| 久久精品色综合| 亚洲欧美三级伦理| 精品一区二区6| 亚洲第一偷拍| 欧美激情a∨在线视频播放| 精品成人久久久| 日韩中文字幕av电影| 成人国产精品久久久| 国产人妻精品一区二区三| 国产69精品久久777的优势| 国产伦精品一区二区三区照片91| 日本波多野结衣在线| 久久综合九色综合97婷婷女人 | 免费无码国产精品| 精品一区二区免费视频| 国产综合动作在线观看| 1769在线观看| 亚洲国产美女搞黄色| 欧美日韩中文在线视频| 日本免费成人| 日韩av一卡二卡| 中文国语毛片高清视频| 国产精品videossex久久发布| 欧美在线性视频| 一级黄在线观看| av男人天堂一区| 在线免费一区| 忘忧草在线影院两性视频| 欧美日本韩国一区二区三区视频| 男生操女生视频在线观看 | 精品国产乱码一区二区三区四区 | 精品一区免费av| 久久一区二区三区av| 九七电影韩国女主播在线观看| 天涯成人国产亚洲精品一区av| 一起操在线视频| 国产亚洲一卡2卡3卡4卡新区 | 久久午夜福利电影| 欧美黄污视频| 国产精品亚发布| 少妇一区二区三区四区| 成人免费一区二区三区视频| 久久久久久久久久久久久国产精品 | 亚洲ⅴ国产v天堂a无码二区| 欧美精品入口| 国产精品日韩在线播放| 亚洲欧美色视频| 亚洲免费视频成人| 久久久久久久久久久久91| 国产精品三p一区二区| 自拍偷拍亚洲精品| 亚洲欧美精品一区二区三区| 国产福利电影一区二区三区| 神马影院一区二区| 亚洲伊人av| 亚洲二区中文字幕| 久久婷婷综合国产| 黄一区二区三区| 欧美主播一区二区三区美女 久久精品人 | 精品视频一区在线视频| 国产亚洲精品码| 国产剧情一区在线| 中文字幕制服丝袜在线| 成人黄色图片网站| 亚洲天堂网站在线观看视频| 全部毛片永久免费看| 成人av资源在线观看| 欧美日韩激情四射| 亚洲日本va午夜在线电影| 美女少妇精品视频| 国产极品久久久| 亚洲欧美日韩在线不卡| 午夜一级免费视频| 婷婷另类小说| 91久久精品国产91性色| 黄色av电影在线播放| 91超碰这里只有精品国产| www.4hu95.com四虎| 青青草97国产精品免费观看无弹窗版| 欧美亚洲免费高清在线观看 | 国产免费叼嘿网站免费| 国产精品久久久久永久免费观看| 久久久久久久久久久久91| 欧美特黄一级大片| 国产日韩在线一区| 1769视频在线播放免费观看| 欧美日韩国产综合一区二区| 最新日韩免费视频| 精品在线一区二区| 天天爱天天做天天操| 亚洲视频一起| 久久久激情视频| 久久综合电影一区| 在线黄色av网站| 亚洲日本青草视频在线怡红院| 一区二区三区四区毛片| 亚洲一区二区三区| 国产在线日韩在线| 国精产品一区| 亚洲精品一区二区在线观看| 欧美三级一区二区三区| 久久久久久亚洲综合| 蜜臀av免费观看| 亚洲欧美文学| 欧美日韩免费观看一区| gogo亚洲高清大胆美女人体 | av小片在线| 欧美一级日韩免费不卡| 国产精品白浆一区二小说| 26uuu精品一区二区三区四区在线| 国产伦精品一区二区三区四区视频_ | 妓院一钑片免看黄大片| 国产精品久久久久久久| 国产一区免费观看| 97精品国产综合久久久动漫日韩| 国产一区二区三区在线看 | 在线精品观看国产| 国产精品视频一区二区三 | 国产肥白大熟妇bbbb视频| 免费在线观看不卡| www.69av| 精品一区二区三| 成人h视频在线观看| 中文字幕在线观看免费高清 | 亚洲日本在线天堂| 波多野结衣有码| 蜜臀av性久久久久蜜臀aⅴ流畅| 91xxx视频| 精品日韩毛片| 97人人香蕉| 电影在线观看一区二区| 欧美精品videosex性欧美| 欧美成熟毛茸茸| 精品久久久三级丝袜| 18国产免费视频| 性欧美大战久久久久久久久| 欧美色图17p| 成人不卡免费av| 99久久99精品| 日本aⅴ精品一区二区三区| av无码久久久久久不卡网站| 国产精品二区不卡| 午夜精品短视频| 欧美一级一片| 91青青草免费观看| 免费成人毛片| 国产精品国产亚洲伊人久久 | 一级做a爰片久久毛片16| 精品久久久久久国产91| 精品无码久久久久| 亚洲欧美福利一区二区| 国产三级黄色片| 久久蜜桃一区二区| 人妻在线日韩免费视频| 国产成人精品影视| 捷克做爰xxxⅹ性视频| 日韩国产欧美视频| 国产a级一级片| 99热免费精品在线观看| 男人添女荫道口喷水视频| 99久久九九| 色狠狠久久av五月综合| 精品99在线| 欧美日韩亚洲免费| 亚洲+小说+欧美+激情+另类| 蜜桃av噜噜一区二区三| 精品国产18久久久久久洗澡| 国产伦精品一区二区三区高清版 | 99久久精品无码一区二区毛片| 亚洲黑人在线| 91精品久久久久久久久久久久久久| 69堂精品视频在线播放| 国产成人精品在线| 怡红院成人在线| 国产成人精品在线观看| 免费在线成人激情电影| 国产欧美日韩视频| 国产激情在线观看视频| 成人免费在线观看av| 日韩av一区二区三区美女毛片| 亚洲免费福利一区| 欧美在线视频二区| 成人在线免费视频观看| 亚洲一区3d动漫同人无遮挡 | 91在线高清视频| 国产一区二区久久久久| 亚洲一区二区三区久久| 97超碰成人| 久草热久草热线频97精品| 精品亚洲自拍| 欧洲一区二区在线观看| 日韩dvd碟片| 最近免费观看高清韩国日本大全| 国产精品theporn| jizz欧美激情18| 国产成人综合精品三级| 国产精品亚洲无码| 亚洲人一二三区| 日韩综合在线观看| 日韩一级二级三级精品视频| 极品美乳网红视频免费在线观看| 欧美日韩久久精品| 久久人人九九| 羞羞答答成人影院www| 免费看又黄又无码的网站| 久久精品999| 欧美高清性xxxx| 亚洲黄色在线视频| 亚洲婷婷久久综合| 亚洲高清在线观看| 国产三区视频在线观看| 国产精品第10页| 开心激情综合| 超级碰在线观看| 日本在线不卡一区| 香港三级日本三级| 亚洲色图欧美偷拍| 波多野结衣mp4| 亚洲国产高清福利视频| 成人免费视屏| 国产精品男人的天堂| 日韩av影院| 亚洲色欲久久久综合网东京热| 麻豆成人av在线| 国产又大又粗又爽的毛片| 一区二区成人在线视频| ,亚洲人成毛片在线播放| 国产视频精品xxxx| av在线加勒比| 99蜜桃在线观看免费视频网站| 久久美女精品| 超碰在线97免费| 久久综合色天天久久综合图片| 免费一级黄色大片| 欧美一级视频精品观看| 日韩伦理在线观看| 国产精品视频网址| 在线看成人短视频| 久久久久久久中文| 成人av电影免费观看| 免费一级肉体全黄毛片| 婷婷六月综合网| 亚洲乱熟女一区二区| 久久99久久亚洲国产| 欧美久久亚洲| 六月婷婷激情网| 国产精品综合在线视频| 日本高清一二三区| 日韩视频免费直播| 最新av在线播放| 波多野结衣一区二区三区在线观看| 亚洲a在线视频| 成人av毛片在线观看| 亚洲日本va在线观看| 国产成人精品一区二区无码呦| 欧美成人精品h版在线观看| 成人亚洲精品| 伊人网在线免费| 国产精品夜夜嗨| 国产一级二级三级| 亚洲福利在线看| 黄色18在线观看| 日韩精品国内| 蜜桃av一区二区三区| 老熟妇高潮一区二区三区| 日韩视频免费观看高清完整版在线观看| 国产调教视频在线观看| 91手机在线视频| 国产欧美日韩综合一区在线播放 | 93久久精品日日躁夜夜躁欧美| 天天操天天摸天天干| 亚洲欧美日韩中文在线| 九九久久国产| 成年在线观看视频| 91最新地址在线播放| 免费一级a毛片| 久久激情视频久久| 中国极品少妇xxxx| 一区二区三区四区在线免费观看 | 成人免费不卡视频| 日韩av大片在线观看| 亚洲性xxxx| 国产精品色婷婷在线观看| 国产一区二区四区| 国产亚洲欧美激情| 国产又粗又猛又爽又黄的视频一| 久久99热这里只有精品国产| 全国精品免费看| 中日韩av在线播放| 亚洲18女电影在线观看| 岛国大片在线观看| 国产精品视频26uuu| 亚洲无线一线二线三线区别av| 男生裸体视频网站| 欧美日韩成人一区二区| 97人人爽人人澡人人精品| 日韩精品一区二区三区色偷偷| 国产制服丝袜一区| 一区二区三区视频免费看| 中文字幕视频一区二区在线有码| 亚洲精品国产九九九| 成人3d动漫一区二区三区| 亚洲黄色小说网站| 日韩在线无毛| 亚洲aa在线观看| 日韩精品成人一区二区在线| 欧美精品成人久久| 最近日韩中文字幕中文| 欧美黄色网视频| 国产一级二级av|