精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

SS 2025|ConRFT:真實環境下基于強化學習的VLA模型微調方法

人工智能 新聞
本文提出了一種兩階段方法 ConRFT,用于在真實環境下的機器人應用中強化微調 VLA 模型。

本文第一作者為陳宇輝,中科院自動化所直博三年級;通訊作者為李浩然,中科院自動化所副研;研究方向為強化學習、機器人學習、具身智能。

視覺-語言-動作模型在真實世界的機器人操作任務中顯示出巨大的潛力,但是其性能依賴于大量的高質量人類演示數據。

由于人類演示十分稀缺且展現出行為的不一致性,通過監督學習的方式對 VLA 模型在下游任務上進行微調難以實現較高的性能,尤其是面向要求精細控制的任務。

為此,中科院自動化所深度強化學習團隊提出了一種面向 VLA 模型后訓練的強化微調方法 ConRFT(Consistency-based Reinforced Fine-tuning)。其由離線和在線微調兩階段組成,并具有統一的基于一致性策略的訓練目標。這項工作凸顯了使用強化學習進行后訓練以增強視覺-語言-動作模型在真實世界機器人應用中的潛力。

目前,該論文已被機器人領域頂級會議 Robotics: Science and Systems XXI(RSS 2025)接收。

圖片

  • 論文標題:ConRFT: A Reinforced Fine-tuning Method for VLA Models via Consistency Policy
  • 論文地址:https://arxiv.org/abs/2502.05450
  • 項目主頁:https://cccedric.github.io/conrft/
  • 開源代碼:https://github.com/cccedric/conrft

研究背景

視覺-語言-動作模型(Vision-Language-Action, VLA)在訓練通用機器人策略方面取得的最新進展表明機器人數據集上進行大規模預訓練后 [1,2],其擁有在理解和執行各種操作任務方面的卓越能力。

雖然預訓練的通用策略能夠捕捉泛化性的表征,但其仍然難以在真實機器人和任務上做到零樣本泛化 [3],因此使用任務專用的數據進行后訓練微調對于優化模型在下游任務中的性能來說非常重要。

目前廣泛使用的方法是使用人類遙操作收集的數據對 VLA 模型進行監督微調(Supervised Fine-tuning, SFT)。然而,模型的性能嚴重依賴于數據集的質量和數量。由于人類收集數據的次優性和策略不一致性等固有問題,這些數據很難提供最優軌跡 [4],導致微調后的模型效果不佳。

與此同時,大語言模型(Large Language Model, LLM)和視覺-語言模型(Vision-Language Model, VLM)的最新進展凸顯了強化學習在對齊模型策略與人類偏好之間差距 [5] 或改進模型推理 [6] 方面的價值,證明了部署使用任務專用的獎勵函數的強化學習(Reinforcement Learning, RL)來從在線交互中機性能策略更新具有巨大的潛力。

然而,與 LLM/VLM 不同,VLA 模型需要機器人與真實世界進行物理交互,因而將 RL 擴展到 VLA 模型面臨著巨大的挑戰。尤其是在要求精細控制的操作任務上,交互安全性和成本限制要求 RL 算法具有探索的安全保障和很高的樣本效率。

ConRFT:基于強化學習的 VLA 模型微調方法

為了充分利用 RL 技術的優勢,利用在線交互數據高效微調 VLA 模型,我們提出了一種強化微調(Reinforced Fine-tuning, RFT)方法,包含離線和在線兩個階段,并采用統一的訓練目標。

基于我們之前的工作 CPQL [7],本文方法將 SFT 與 Q-learning 相結合,并利用一致性策略微調 VLA 模型。離線微調過程中利用人類收集的專家數據,在模型與真實環境交互之前提取有效的策略和穩定的價值函數。

隨后的在線微調階段通過人在回路(Human-in-the-Loop Learning, HIL)進行干預,并使用獎勵驅動的策略學習,從而解決了在真實環境下進行 RL 的安全要求和樣本效率兩個挑戰。該方法示意圖如下:

圖片

本文方法采用一致性策略(Consistency Policy)作為動作單元(Action Head),對 VLA 模型進行微調,解決了兩個關鍵問題:

1)它有助于利用預收集的數據中經常出現的策略不一致和次優演示問題;

2)與基于擴散模型(Diffusion Model)的動作單元相比,其在計算上保持輕量,可以實現高效推理。

一致性策略是一種基于概率流常微分方程(Probability Flow Ordinary Differential Equation)的策略,它學習從高斯分布中采樣的隨機動作映射到基于當前狀態的專家動作分布,從而生成目標動作用于決策任務。

階段I:離線微調(Cal-ConRFT)

由于預訓練的 VLA 模型通常缺乏對未見過場景的零樣本泛化能力,因此離線階段專注于使用預先收集的小型離線數據集(大約 20-30 次演示)訓練策略,然后再過渡到在線微調階段,從而減少整體在線訓練時間和探索過程帶來的安全風險。

為了能夠有效利用離線數據,離線階段選擇(Cal-QL)[8] 作為價值函數更新方法,以提高 Q 函數對分布外(Out of Distribution, OOD)動作的魯棒性。使用 Cal-QL 進行價值函數更新的訓練目標如下:

圖片

盡管通常情況下,Cal-QL 能夠高效地利用離線數據集,但在只有少量演示(例如 20-30 個)可用時,其依然很難訓練出有效的策略。因為有限的狀態-動作覆蓋會導致 Q 值估計不準,從而使策略難以推廣到未見過的狀態。相比傳統的離線強化學習方法,其數據集通常由多種行為策略收集而成,可以提供廣泛的狀態-動作覆蓋范圍以減少分布偏移。

為了解決這個問題,離線階段加入了 BC(Behavior Cloning)損失。BC 損失直接最小化策略生成的動作與演示中的動作之間的差異,通過鼓勵模型模仿演示中的行為,在離線階段提供額外的監督信號。這有助于 VLA 模型學習更有效的策略,并初始化穩定的 Q 函數。

具體而言,使用一致性策略動作單元的 VLA 模型更新訓練目標如下:

圖片

階段II:在線微調(HIL-ConRFT)

雖然離線階段可以從少量演示數據中提供初始策略,但其性能受限于預先收集的演示數據的范圍和質量。因此,本文方法引入在線階段,即 VLA 模型通過與真實環境交互并進行在線微調。

在階段 II 的強化微調過程中,離線階段的演示緩沖區圖片依然保持用于存儲演示數據,同時還有一個重放緩沖區圖片來存儲在線數據,并使用平均采樣來形成單個批次(Batch)用于模型訓練。

由于 VLA 模型會根據其當前策略不斷收集新的數據,數據分布會自然地隨著策略而演變,這種持續的交互減少了離線階段面臨的分布偏移問題。因此,在線微調階段直接使用標準 Q 損失進行價值函數更新:

圖片

對于 VLA 模型,在線微調階段使用與離線階段結構統一的訓練目標,因此 VLA 模型可以快速適應并實現策略性能提升:

圖片

可以注意到,在線階段仍然保留了 BC 損失。主要有兩個原因:

1)它確保策略與演示數據一致,防止出現可能導致性能崩潰的劇烈偏差;

2)由于強化學習本質上涉及探索,因此它在高維狀態-動作空間中可能變得不穩定,而 BC 損失可以防止策略與離線基線方法偏差過大,從而降低低效或不安全行為的風險。這在真實機器人的訓練中和要求精細控制的操作任務中非常重要,尤其是在不安全動作可能導致物體損壞或其他危險的物理環境中。

此外,在線階段通過人在回路學習將人工干預融入學習過程。具體而言,其允許人類操作員及時干預并從 VLA 模型接管機器人的控制權,從而在探索過程中提供糾正措施。

當機器人出現破壞性行為(例如碰撞障礙物、施加過大的力量或破壞環境)時,人工干預至關重要。這些人工糾正措施會被添加到演示緩沖區圖片中,以提供高層次的指導,引導策略探索朝著更安全、高效的方向演變。

除了確保安全的探索之外,人工干預還可以加速策略收斂。因為當策略導致機器人陷入不可恢復狀態或不良狀態(如機械臂將被操作物體扔出桌面或與桌面撞擊),或者機器人陷入局部最優解(如果沒有外部幫助,則需要花費大量時間和步驟才能克服)時,人類操作員可以介入糾正機器人的行為,并引導其朝著更安全、有效的方向演變。

實驗結果與分析

為了評估本文方法在真實環境中強化微調 VLA 模型的有效性,我們在八個不同的操作任務上進行了實驗,并選擇 Franka Emika 機械臂作為實驗平臺,如下圖所示。

圖片

這些任務旨在反映各種操作任務挑戰,包括物體放置任務(例如將面包放入烤面包機)、要求精確控制的任務(例如將輪子對準并插入椅子底座)以及柔性物體處理的任務(例如懸掛中國結)。

在八個真實環境任務上的實驗測試證明了 ConRFT 性能超越最先進(SOTA)方法的能力。VLA 模型在本文提出的框架下經過 45-90 分鐘的在線微調后,平均任務成功率達到 96.3%,展現了極高的策略性能和樣本效率。

此外,它的性能優于基于人類收集數據或強化學習策略數據訓練的 SFT 方法,平均成功率提高了 144%,且平均軌跡長度縮短了 1.9 倍,這些結果凸顯了使用獎勵驅動的強化微調方法在提升 VLA 模型在下游任務上性能的巨大潛力。

策略測試

通過獎勵驅動的強化微調,VLA 模型表現出對外部人為干擾的極強魯棒性,確保更可靠地完成任務。包含外部人為干擾的策略效果可以參考 Pick Banana 和 Hang Chinese Knot 任務。

Pick Banana(含外部人為干擾)

Put Spoon

Open Drawer

Pick Bread

Open Toaster

Put Bread

Insert Wheel

Hang Chinese Knot(含外部人為干擾)

在精細操作任務上的展示

為了進一步展示本文方法在 VLA 模型微調方面的能力,我們進行了穿針任務實驗。經過 40 分鐘的在線微調,微調后的 VLA 模型取得了 70% 的成功率。

總結與展望

本文提出了一種兩階段方法 ConRFT,用于在真實環境下的機器人應用中強化微調 VLA 模型。

首先,利用少量演示進行離線微調(Cal-ConRFT),并通過一個統一的訓練目標初始化一個可靠的策略和價值函數,該目標將 Q 損失和 BC 損失整合到一個基于一致性策略的框架中。然后,在線微調階段(HIL-ConRFT)利用任務專用的獎勵和人工干預對 VLA 模型進行微調。

在八個不同的真實環境操作任務上實驗結果表明,本文方法在成功率、平均軌跡長度和樣本效率方面均優于 SOTA 方法??偠灾?,這項工作展示了一種利用強化學習進行安全且高效的 VLA 模型微調的方法。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-06-23 09:09:00

2025-11-07 08:51:41

2023-01-04 10:02:53

強化學習自動駕駛

2023-07-20 15:18:42

2025-03-05 10:21:04

DeepSeekLVLM

2025-05-26 17:16:51

2022-08-26 14:44:32

強化學習AI

2024-01-26 08:31:49

2023-08-05 13:08:54

2025-06-03 06:12:03

2023-08-28 06:52:29

2024-12-18 07:20:00

2024-04-12 08:59:02

強化學習系統人工智能擴散模型

2025-02-17 10:40:20

2023-04-06 16:29:18

模型AI

2022-09-04 14:38:00

世界模型建模IRIS

2017-08-17 09:15:23

強化學習KerasOpenAI

2017-07-14 16:24:48

TensorFlow框架開發

2020-08-10 06:36:21

強化學習代碼深度學習

2023-03-09 08:00:00

強化學習機器學習圍棋
點贊
收藏

51CTO技術棧公眾號

成年女人免费视频| 亚洲 欧洲 日韩| 手机在线看片1024| 日韩中字在线| 日韩欧美国产一二三区| 成年人网站国产| 每日更新av在线播放| 青青草成人在线观看| 欧美精品日韩三级| 日韩人妻无码一区二区三区| 四虎国产精品免费久久| 亚洲午夜久久久久久久久久久| 麻豆av一区二区三区| 92久久精品一区二区| 国产精品国码视频| 在线观看日韩专区| www国产视频| 亚洲欧美久久精品| 福利视频一区二区| 四虎4hu永久免费入口| 日本亚洲欧美| 国产91精品在线观看| 国产精品96久久久久久| 久久久国产成人| 久久亚洲国产| 国产丝袜一区视频在线观看 | 欧美日韩免费不卡视频一区二区三区| 日本天堂免费a| 在线看av的网址| www.激情成人| 国产超碰91| 国产喷水吹潮视频www| 日韩电影免费在线看| 777精品视频| 国产无套内射又大又猛又粗又爽 | 99在线免费视频观看| 日本中文字幕伦在线观看| 99久久99久久精品国产片果冻 | 欧美激情欧美狂野欧美精品| 日本免费www| 久久不见久久见免费视频7| 精品国免费一区二区三区| 色呦色呦色精品| 国产精品诱惑| 欧洲中文字幕精品| 国产一区视频免费观看| 老色鬼在线视频| 亚洲一区国产视频| 99久久久精品视频| 欧美大片黄色| 亚洲精品菠萝久久久久久久| 亚洲日本精品一区| 在线免费看黄网站| 国产精品二三区| 香蕉久久夜色| 香蕉视频在线看| 性欧美18—19sex性高清| 91精品尤物| 精品成人a区在线观看| 91人人澡人人爽| 99re8这里有精品热视频8在线| 日韩欧美成人一区二区| jjzz黄色片| 久久精品色综合| 亚洲欧美日韩精品久久亚洲区 | 天天操狠狠操夜夜操| 久久不卡日韩美女| 欧美丰满少妇xxxbbb| 激情在线观看视频| 一区二区三区视频播放| 欧美精品一区二区久久婷婷| 国产伦精品一区二区三区精品| 国产精东传媒成人av电影| 亚洲精品国精品久久99热| 人妻丰满熟妇av无码久久洗澡| 久久视频在线观看| 国产一区二区激情| 日本高清不卡免费| 激情欧美丁香| 国产91色在线|| 92久久精品一区二区| 国产91精品欧美| 就去色蜜桃综合| 黄av在线免费观看| 五月婷婷色综合| 中文字幕在线导航| 深夜福利一区二区三区| 亚洲国产成人精品久久| 人妻aⅴ无码一区二区三区| 亚洲成av人片乱码色午夜| 久久久久久久网站| 国产午夜麻豆影院在线观看| 九九久久精品视频| 精品不卡在线| 日本精品在线| 午夜在线成人av| 五月婷婷六月丁香激情| 成人av激情人伦小说| 亚洲一区二区国产| 久久免费精彩视频| 免费高清成人在线| 国产一区精品在线| 麻豆传媒视频在线| 日韩欧美a级成人黄色| 思思久久精品视频| 亚洲精品无吗| 欧美精品性视频| 波多野结衣小视频| 成人污视频在线观看| 亚洲国产一区二区三区在线| 国产一线二线在线观看| 欧美日韩亚洲国产综合| 西西大胆午夜视频| 欧美在线观看天堂一区二区三区| 日本午夜精品理论片a级appf发布| 国产又大又粗又长| 久久精品一区二区三区不卡牛牛 | 日韩一区二区三区视频| 少妇精品无码一区二区免费视频| 欧美日韩福利| 国产精品稀缺呦系列在线| 无码h黄肉3d动漫在线观看| 亚洲欧美激情视频在线观看一区二区三区| 夫妻免费无码v看片| 色妞ww精品视频7777| 丝袜一区二区三区| 国产亚洲欧美在线精品| a级精品国产片在线观看| 最新视频 - x88av| 欧美天堂一区| 在线视频欧美日韩| 亚洲第一网站在线观看| 99精品久久免费看蜜臀剧情介绍| 青青在线视频免费观看| 国产 日韩 欧美| www日韩中文字幕在线看| 日日夜夜操视频| 91在线一区二区三区| 精品少妇人欧美激情在线观看| 国产精品777777在线播放| 正在播放亚洲1区| 中文字幕精品无码亚| 国产色婷婷亚洲99精品小说| 日韩久久一级片| 亚欧洲精品视频在线观看| 7m精品福利视频导航| 韩国av电影在线观看| 亚洲综合在线观看视频| 人妻精油按摩bd高清中文字幕| 亚洲成人99| 亚洲free性xxxx护士hd| 2024最新电影免费在线观看| 91精品视频网| 欧美片一区二区| 国产不卡视频一区二区三区| 青青视频免费在线观看| 日韩成人精品| 国内成人精品视频| 天天操天天干天天| 色综合一个色综合亚洲| xxxx日本黄色| 黄色资源网久久资源365| 尤物国产精品| 亚洲福利合集| 97视频在线观看播放| 日本电影一区二区在线观看| 一本大道综合伊人精品热热 | 日韩美女在线看| 国产主播福利在线| 欧美日韩国产一区二区三区地区| 91大神福利视频| 国产经典欧美精品| 无罩大乳的熟妇正在播放| 国产3p露脸普通话对白| 久久久久黄色| 久久天天躁夜夜躁狠狠躁2022| 国产伦理吴梦梦伦理| 一区二区三区日韩精品| 国产精品无码在线| 日韩av成人高清| 中文字幕一区二区三区四区五区人| 精品久久国产一区| 97人人爽人人喊人人模波多| 免费国产在线观看| 欧美精品777| 日韩欧美中文字幕一区二区| 国产丝袜欧美中文另类| 亚洲综合伊人久久| 亚洲尤物在线| 一区二区三区四区欧美| 成人在线视频你懂的| 国产成人久久久| 亚洲综合伊人久久大杳蕉| 日韩电影中文字幕在线| 一本到在线视频| 午夜成人免费视频| 小嫩苞一区二区三区| 成人免费视频视频在线观看免费 | 国产传媒在线播放| 日韩高清a**址| 国产精品-色哟哟| 日韩欧美在线播放| 国产高清在线免费观看| 久久久久久久电影| 免费黄色在线播放| 免费黄网站欧美| 日韩av三级在线| 亚洲精品中文字幕乱码| 欧美一区二区三区四区在线观看地址 | 99久久久精品免费观看国产| 成人女同在线观看| 精品一区精品二区| 亚洲国产精品一| 试看120秒一区二区三区| 亚洲第一网站免费视频| 91成品人影院| 91国模大尺度私拍在线视频| 久久久国产成人| 18成人在线观看| 婷婷色一区二区三区| 不卡在线视频中文字幕| 天天av天天操| 免费成人av在线| 日本xxxxxxx免费视频| 狠狠色狠狠色综合日日tαg| 这里只有精品66| 成人看的羞羞网站| 欧美日韩精品免费观看视一区二区| 亚洲一区二区三区中文字幕在线观看 | 天天久久综合| 欧美大陆一区二区| 国产精品99久久免费观看| 91亚洲一区精品| 在线观看欧美| 国产日韩中文在线| 色猫猫成人app| 国产精品成人播放| 成人性教育av免费网址| 51精品国产黑色丝袜高跟鞋| 国产后进白嫩翘臀在线观看视频 | av在线免费网址| 精品久久久999| 97电影在线观看| 色999日韩欧美国产| 国产在线免费观看| 亚洲偷欧美偷国内偷| 日本韩国精品一区二区| 亚洲欧美色图片| 国产玉足榨精视频在线观看| 亚洲精品日韩在线| 国内在线精品| 在线成人一区二区| 欧美成人精品一区二区男人看| 这里只有精品在线播放| 色的视频在线免费看| 日韩中文字幕免费| 国产网友自拍视频导航网站在线观看| 最新国产精品亚洲| 成人午夜在线影视| 欧美精品18videos性欧| 天堂中文在线播放| 青青草原成人在线视频| 美女网站视频一区| 国产日韩欧美日韩| 警花av一区二区三区| 亚洲最大的网站| 精品三级av| 欧美亚洲丝袜| 91亚洲国产高清| 日韩一级特黄毛片| 国产亚洲福利| 亚洲一区在线不卡| 国产最新精品免费| 精品国产乱码久久久久夜深人妻| av色综合久久天堂av综合| 国产中年熟女高潮大集合| 欧美韩国一区二区| av成人免费网站| 污片在线观看一区二区| 久久久久久久久久成人| 欧美日韩夫妻久久| 蜜臀av免费在线观看| 亚洲美女视频网站| 国产区在线观看| 国语对白做受69| 丁香婷婷久久| 成人高清在线观看| 国产精品羞羞答答在线观看| 99久久久无码国产精品性色戒| 亚洲国产高清一区| 亚洲污视频在线观看| 国产成都精品91一区二区三| 国产精品高清无码在线观看| 亚洲日本欧美天堂| 中文字幕黄色片| 欧美成人艳星乳罩| www.亚洲.com| 久久久久久亚洲| 色综合视频一区二区三区日韩| 国产精品日韩一区二区| 波多野结衣一区| 国产免费黄色小视频| 久久精品99久久久| 草草地址线路①屁屁影院成人| 亚洲欧洲三级电影| 成人公开免费视频| 日韩视频在线永久播放| 成人在线观看一区| 国模视频一区二区三区| 精品一区二区三区中文字幕在线 | 中文字幕亚洲日本| 国产农村妇女精品| 99热国产在线观看| 欧美一区二区视频观看视频| 国产一级片在线| 7m精品福利视频导航| 视频欧美一区| 在线视频不卡国产| 日韩在线播放一区二区| 尤物网站在线观看| 亚洲精品国产a久久久久久 | 另类人妖一区二区av| 性久久久久久久久久久| 亚洲免费在线电影| 夜夜躁很很躁日日躁麻豆| 亚洲欧美另类在线观看| 91超碰在线播放| 不卡视频一区二区三区| 91成人网在线观看| 超碰在线公开97| 国产女人18水真多18精品一级做| 免费看日韩毛片| 精品国产伦一区二区三区观看体验| 久操免费在线| 国产日韩精品电影| 日韩精品电影| 乌克兰美女av| 国产精品的网站| 中文字幕人妻互换av久久| 国产亚洲免费的视频看| 美女写真久久影院| 欧洲在线视频一区| 狂野欧美性猛交xxxx巴西| 在线 丝袜 欧美 日韩 制服| 婷婷成人综合网| 日色在线视频| 热久久这里只有| 精品中文一区| 国产男女激情视频| 日本一区免费视频| 在线亚洲欧美日韩| 久久韩剧网电视剧| 美女精品久久| 美女av免费观看| 成人精品高清在线| 五月婷婷亚洲综合| 亚洲欧美另类自拍| 一区在线影院| 樱花www成人免费视频| 狠狠色丁香婷婷综合| www.色小姐com| 亚洲成人精品视频| 中文在线中文资源| 亚洲精品一区国产精品| 久久国产视频网| 免费麻豆国产一区二区三区四区| 欧美一区二区视频在线观看| 久久电影网站| 欧美日韩亚洲免费| 麻豆精品视频在线观看免费| 91高清免费看| 亚洲国产91色在线| 亚洲欧美韩国| 一区二区三区免费看| 国产高清成人在线| aaa人片在线| www.日韩.com| 久久99精品国产自在现线| 黄色一级一级片| 亚洲女同ⅹxx女同tv| 日本黄色免费视频| 国产精品国产亚洲伊人久久| 亚洲不卡av不卡一区二区| 国产毛片毛片毛片毛片毛片毛片| 色婷婷亚洲精品| 超鹏97在线| 免费国产一区二区| 国产做a爰片久久毛片| 欧美另类一区二区| 久久精品小视频| 天堂成人娱乐在线视频免费播放网站 | 日本大片在线观看| 国产精品免费视频xxxx| 午夜精品毛片| 日韩片在线观看| 91麻豆精品国产91久久久| 性xxxxfreexxxxx欧美丶| 在线观看一区二区三区三州| 成人爱爱电影网址| 一卡二卡三卡在线观看|