精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

缺數據也能拿SOTA?清華&上海AI Lab破解機器人RL兩大瓶頸

人工智能 新聞
研究團隊提出了SimpleVLA-RL。基于veRL框架,他們實現了針對VLA模型的交互式軌跡采樣與并行仿真渲染機制。

視覺-語言-動作模型是實現機器人在復雜環境中靈活操作的關鍵因素。

然而,現有訓練范式存在一些核心瓶頸,比如數據采集成本高、泛化能力不足等。

為此,研究團隊提出了SimpleVLA-RL。基于veRL框架,他們實現了針對VLA模型的交互式軌跡采樣與并行仿真渲染機制。

SimpleVLA-RL通過 “交互式軌跡采樣+結果獎勵+探索增強” 的設計,解決了VLA模型訓練的三大核心瓶頸:

  • 降低對大規模演示數據的依賴,提升數據效率;
  • 增強模型在分布偏移場景下的泛化能力;
  • 實現高效的Sim-to-Real遷移,提升真實世界任務性能。

實驗結果表明,該框架在LIBERO與RoboTwin等標準基準測試中均實現了SoTA的性能。更為關鍵的是,即便在有限數據的條件下,SimpleVLA-RL依然能夠訓練出表現優異的模型并具備極高的泛化能力。

在 “單軌跡 SFT”(每個任務僅1條演示數據)場景下,應用SimpleVLA-RL后,OpenVLA-OFT的LIBERO平均成功率從48.9%提升至96.9%,長時序任務LIBERO-Long從17.3%提升至91.7%。

此外,模型在訓練過程中還展現出自主探索能力,并涌現出新的操作策略,例如通過“推動”替代“抓取”的Pushcut現象。這些結果表明,SimpleVLA-RL為VLA模型的高效訓練與泛化能力提升開辟了新的研究路徑。

SimpleVLA-RL:端到端在線訓練方案

VLA模型作為機器人操控領域的重要研究范式,旨在融合視覺感知、語言理解與動作生成,從而在復雜物理環境中實現靈活的任務執行。

現階段的主流訓練流程通常遵循 “大規模預訓練+有監督微調” 的范式。然而,該方法在實際應用中面臨兩大核心瓶頸:

數據稀缺性

SFT依賴于大規模的高質量機器人操作軌跡,而此類數據的采集過程需要精心構建實驗場景、涵蓋多樣化的交互對象,并依賴專業操作人員完成。由此導致采集成本高昂、規模受限,從根本上制約了其可擴展性。

泛化能力不足

SFT的學習過程高度依賴于任務與場景特定的數據分布,因而在面對分布外任務(out-of-distribution tasks)、全新環境或未見過的對象時,模型性能會顯著下降,尤其在長時序依賴與組合型任務中尤為明顯。

與此同時,大規模推理模型(如DeepSeek-R1)的最新進展表明強化學習在僅依賴結果獎勵的情況下,也能顯著提升模型的逐步推理能力。

這引出了一個自然的問題:RL能否同樣有效地增強 VLA 模型在長時序任務中逐步規劃動作的能力?然而將RL直接應用于VLA訓練又面臨一些獨特挑戰:

1、傳統機器人RL往往依賴人工設計的過程獎勵,該方式難以擴展至復雜的開放環境;

2、VLA的訓練需要與物理或高保真模擬環境進行多輪交互,訓練效率低,成本遠高于基于文本的LLM推理優化。

基于上述問題,研究團隊出了SimpleVLA-RL,它是在veRL(LLM強化學習框架)上擴展的一套端到端在線訓練方案,專門針對VLA模型的特點做了優化。

整體設計主要包含四部分:

首先是交互式軌跡采樣。與LLM僅依賴文本token采樣不同,VLA必須在閉環中不斷更新視覺觀測和機器人狀態。

因此,SimpleVLA-RL讓模型直接輸出動作token的概率分布,用隨機采樣生成多樣軌跡。整個過程中,機器人執行動作后環境返回新狀態,再繼續生成,直到任務完成。

其次是結果獎勵建模。研究人員不再使用復雜的過程獎勵(如距離目標遠近),而是采取極簡的二元結果:

任務成功記為1,失敗記為0,并將這個獎勵均勻分攤到整個軌跡的動作token上。

這樣一來,不僅避免了過程獎勵在不同任務間的不可遷移性,也省去了針對任務調參的麻煩,更好地聚焦了訓練目標。

第三是探索增強。VLA模型很容易因為訓練數據過于單一而收斂到狹窄解法,從而導致rollout的軌跡高度同質化進而影響GRPO的優勢估計。

為了解決這個問題,SimpleVLA-RL在三個地方做了調整:

  • 動態采樣,只保留“部分成功、部分失敗”的軌跡組,確保優勢估計有效,避免梯度消失;
  • 擴大GRPO的裁剪區間,從[0.8, 1.2]放寬到[0.8, 1.28],讓低概率但可能有價值的動作更容易被保留;
  • rollout階段提高采樣溫度,從1.0提升到1.6,以此鼓勵更多樣化的探索。

最后是訓練目標?;谏鲜龅囊幌盗懈倪M,團隊進一步對GRPO做了簡化:移除了KL散度正則項,不再依賴參考模型,從而減少內存消耗,也讓新行為的探索不受束縛。

研究團隊的主要貢獻可以總結為如下幾點:

構建VLA專屬高效RL框架:基于veRL擴展,加入VLA交互式軌跡采樣、多環境并行渲染及 “訓練-推理-渲染” 一體化設計,解決VLA與環境交互慢、成本高的問題,支持規?;柧?。

最優性能:團隊引入了探索增強策略,使性能穩定提升10–15%。在LIBERO與RoboTwin 1.0 & 2.0等基準上,SimpleVLA-RL超越多個現有SoTA模型。

數據效率與泛化能力:僅需單個演示軌跡,RL即可將LIBERO-Long的成功率從17.1%提升至91.7%,并在空間、物體與任務泛化上顯著優于SFT。

真實世界可部署性:仿真環境中訓練的策略能夠有效遷移至真實機器人,實現強大的仿真到現實(sim-to-real)性能提升,無需額外的真實機器人數據。

發現 “Pushcut” 新現象:RL訓練使模型自主探索出人類演示之外的新策略。

基準測試性能:刷新SOTA

SimpleVLA-RL基于OpenVLA-OFT(autoregressive VLA模型)實現,在三大基準測試(LIBERO、RoboTwin1.0、RoboTwin2.0)及真實世界任務中驗證,核心結果如下:

LIBERO(單臂操控基準)

在Spatial、Object、Goal、Long四個任務集上,SimpleVLA-RL將OpenVLA-OFT 的平均成功率從91.0%提升至99.1%,其中長時序任務LIBERO-Long提升12.0個百分點(86.5%→98.5%),超越π?(85.2%)、UniVLA(92.0%)等SOTA模型。

RoboTwin1.0(雙臂操控基準)

四個任務平均成功率從39.8%提升至70.4%,其中 “Blocks Stack” 任務提升33.1個百分點(7.1%→40.2%)。

RoboTwin2.0(高多樣性雙臂基準)

覆蓋短/中/長/超長時序12個任務,平均成功率從38.3%提升至68.8%,超越π?(49.2%)和RDT(33.3%)。即使是需多輪交互的超長時序任務(如 “Put Bottles Dustbin”),也提升18.7個百分點。

在LIBERO的 “9個已見任務訓練+1個未見任務測試” 實驗中,SimpleVLA-RL與SF 表現出顯著差異:

SFT:在已見任務成功率達90%以上時,未見任務出現 “災難性遺忘”,部分任務成功率降至0%(如LIBERO-Goal的3個未見任務);

SimpleVLA-RL:所有未見任務成功率均提升,其中LIBERO-Object的 “Unseen Task 2” 提升36.5個百分點,LIBERO-Spatial 的 “Unseen Task 1” 從43.3%提升至71.8%,證明RL能學習通用技能而非過擬合特定數據。

僅使用仿真數據訓練(無真實數據),在AgileX Piper機械臂上測試4個真實任務:

OpenVLA-OFT 的平均成功率僅17.5%,“Pick Bottle” 任務完全失敗。

SimpleVLA-RL將平均成功率提升至38.5%,“Stack Bowls” 提升32個百分點(38.0%→70.0%),“Pick Bottle” 實現14%成功率,證明RL能增強仿真模型的真實環境適配性。

在RoboTwin 2.0的 “Move Can Pot” 與 “Place A2B Right” 兩個任務中,SFT模型僅能復現演示數據中顯式呈現的“抓取–移動–放置”操作序列。

相比之下,經過SimpleVLA-RL訓練的模型能夠自主探索并發現更高效的替代策略,例如直接通過“推”的方式將罐子移至目標位置。研究團隊將這種現象定義為 “Pushcut”,其特征是能夠突破人類演示模式限制,利用獎勵信號探索并采納演示外的路徑。

他們認為其本質在于結果獎勵并不約束具體動作模式,而是允許模型在滿足任務目標的前提下,自主選擇最優或更簡潔的行為路徑。

“Pushcut” 現象證明RL能讓VLA模型超越人類演示的局限并探索更優策略,為未來自主、自適應VLA模型的研發提供了新范式。

論文鏈接:https://arxiv.org/pdf/2509.09674

Github鏈接:https://github.com/PRIME-RL/SimpleVLA-RL

責任編輯:張燕妮 來源: 量子位
相關推薦

2020-08-13 10:00:56

AI 數據人工智能

2025-10-20 08:45:00

2025-02-17 09:33:00

AI算法模型

2025-02-28 08:30:00

2021-11-30 15:19:19

機器人人工智能技術

2023-11-29 07:17:51

微信機器人AI

2025-07-21 08:47:00

AI框架模型

2022-09-14 12:59:27

人工智能運動課程足球比賽

2024-07-22 15:34:21

2022-01-10 22:06:41

機器人AI人工智能

2024-07-16 13:15:23

2025-03-13 10:28:07

2025-09-15 08:53:00

AI模型推理

2021-10-31 15:51:30

機器人人工智能監控

2022-07-28 11:26:41

人工智能機器人

2018-08-14 17:41:54

人工智能機器人語音識別

2023-08-06 12:50:19

機器人AI

2024-01-05 13:27:00

AI訓練

2024-01-05 19:44:48

谷歌機器人憲法AI

2016-06-02 11:45:34

點贊
收藏

51CTO技術棧公眾號

日韩精品一区二区三区不卡| 久久久久久久久久久久久久久久av | 精品69视频一区二区三区Q| 亚洲国产精品va在线看黑人动漫 | 97人人做人人爽香蕉精品| 国产精品毛片a∨一区二区三区| 99国产超薄肉色丝袜交足的后果| 日韩黄色在线播放| 66久久国产| 精品无码久久久久久国产| 另类小说色综合| 成人免费一区二区三区牛牛| 国产精品无人区| 好吊妞www.84com只有这里才有精品 | 制服丝袜av成人在线看| 久久久久久久久久久视频| 欧美激情二区| 久久久久久99精品| 成人免费视频网站| 一卡二卡在线视频| 亚洲欧美日韩国产一区二区| 欧美成人sm免费视频| 中文字幕 亚洲一区| 女厕盗摄一区二区三区| 亚洲色图第一区| 天堂资源在线亚洲视频| 婷婷五月综合久久中文字幕| 国产精品99久久久久| 国产精品久久久久久婷婷天堂| 中文字幕第28页| 亚洲天堂免费| 色yeye香蕉凹凸一区二区av| 精品人妻无码一区二区三区| 国产乱论精品| 日韩精品专区在线| 污污的视频免费观看| 国产美女久久| 欧美在线不卡视频| 久久久久久久激情| 性爽视频在线| 懂色aⅴ精品一区二区三区蜜月| 欧美中文字幕在线观看视频 | 国产精品国产自产拍高清av| 欧美日韩在线高清| 午夜国产在线视频| 本田岬高潮一区二区三区| 91超碰在线免费观看| 91美女精品网站| 久久精品久久久精品美女| 国产精品久久久久高潮| 久久这里只有精品9| 日韩激情av在线| 国产精品成人品| 性无码专区无码| 亚洲影院免费| 国产成人精品999| 欧美精品韩国精品| 久久激情婷婷| 国产激情久久久| 这里只有久久精品视频| 免费人成黄页网站在线一区二区| 国产精品视频自拍| 国产又黄又大又爽| 国产伦精品一区二区三区免费 | 欧美日韩黑人| 在线播放精品一区二区三区| 成人精品视频久久久久| 伦av综合一区| 青草国产精品久久久久久| 国产精品一区二区三区成人| 6—12呦国产精品| 精品一区二区三区视频在线观看 | 一区二区三区免费观看视频| 久久精品国产精品青草| 亚洲一区久久久| 黄色成人一级片| 91美女视频网站| 神马影院我不卡| 黄色成人影院| 亚洲va国产天堂va久久en| 国产精品网站免费| 日韩免费小视频| 欧美疯狂做受xxxx富婆| 麻豆传媒在线看| 欧美一区 二区| 亚洲午夜久久久影院| 国产小视频你懂的| 亚洲第一黄色| 国产精品福利无圣光在线一区| 中文字字幕在线中文乱码| 国产精品一区免费在线观看| 麻豆视频成人| 黄色免费在线看| 欧美性生活大片免费观看网址| 国产三级国产精品国产专区50| 日韩中文字幕| 亚洲日韩欧美视频| 精品少妇爆乳无码av无码专区| 中文精品视频| 成人免费网站在线观看| 欧美日韩影视 | 日本视频www| 日本aⅴ精品一区二区三区| av在线亚洲男人的天堂| 成人免费高清在线播放| 亚洲成人自拍网| 亚洲色图久久久| 国产日韩三级| 久久久精品视频成人| 人妻 日韩精品 中文字幕| 久久99久国产精品黄毛片色诱| 精品日本一区二区| a免费在线观看| 91官网在线观看| 黄色国产在线视频| 国产精品毛片久久| 国产精品久久久久高潮| 日本一卡二卡四卡精品| 亚洲永久免费av| 91精品999| 国内亚洲精品| 91av视频导航| 欧美一级淫片免费视频魅影视频| 一区视频在线播放| 亚洲福利精品视频| 九九综合在线| 3344国产精品免费看| 亚洲第一精品网站| 亚洲精品视频在线看| 91高清国产视频| 青青草原综合久久大伊人精品 | 久久精品国亚洲| 丰满人妻一区二区三区四区| 91麻豆免费观看| 成人午夜精品久久久久久久蜜臀| 精品视频成人| 久久精品国产亚洲| 国产精品怡红院| 亚洲私人黄色宅男| 国产探花一区二区三区| 婷婷精品进入| 成人激情视频网| 黄色免费在线看| 欧美一区二区在线免费播放| 在线观看天堂av| 狠狠色丁香婷婷综合| 精品久久免费观看| 高清一区二区| 欧美成人精品在线| 亚洲av无码片一区二区三区| 一区二区不卡在线播放| 99免费观看视频| 亚洲三级免费| 欧美1o一11sex性hdhd| 婷婷综合六月| 中文字幕亚洲精品| 99视频国产精品免费观看a| 亚洲男同1069视频| www.啪啪.com| 香蕉亚洲视频| 亚洲国产精品久久久久久女王| 国语自产精品视频在线看抢先版结局| 中文字幕一区电影| 国产精品永久久久久久久久久| 亚洲精品视频自拍| www.88av| 日韩中文欧美在线| 中文字幕在线观看一区二区三区| 日本在线视频一区二区三区| 国内偷自视频区视频综合| 日本啊v在线| 欧美日韩久久不卡| 美女毛片在线观看| 2023国产精品| 国产精品视频中文字幕| 欧美激情第8页| 久草一区二区| 日韩久久99| 韩国三级日本三级少妇99| 成全电影播放在线观看国语| 欧美精品免费视频| 日本三级理论片| 欧美国产禁国产网站cc| 自拍一级黄色片| 欧美综合国产| 中文字幕av久久| 亚洲黄页在线观看| 91色视频在线导航| 三妻四妾完整版在线观看电视剧 | 精品中文字幕一区二区| 霍思燕三级露全乳照| 日韩电影免费在线观看| 国产精品福利视频| www.26天天久久天堂| 欧美国产日韩精品| 最新国产在线观看| 亚洲黄色片网站| 国产精品无码天天爽视频| 天天影视涩香欲综合网| 一级性生活免费视频| 97精品久久久久中文字幕| 亚洲久久中文字幕| 高清在线观看av| 日韩视频一区| 一区二区三区四区在线视频| 在线精品视频一区| 国产精品免费一区| 亚洲区欧洲区| 在线观看日韩欧美| 亚洲人成色777777老人头| 91精品麻豆日日躁夜夜躁| 国产超碰人人爽人人做人人爱| 亚洲欧美成人一区二区三区| 亚洲一区视频在线播放| av中文一区二区三区| www.51色.com| 蜜臀精品一区二区三区在线观看| 黄色一级片播放| 欧美色123| 2021国产视频| 久久精品国产大片免费观看| 欧美一区二区在线视频观看| 中文字幕亚洲在线观看| 5g国产欧美日韩视频| 久久久久久久性潮| 国产精品美女久久久久久免费| 亚洲校园激情春色| 97在线视频国产| 精灵使的剑舞无删减版在线观看| 久久精品91久久香蕉加勒比| 福利视频在线播放| 亚洲欧美另类在线观看| 深夜福利在线视频| 亚洲国产日韩欧美综合久久| 六月丁香色婷婷| 精品少妇一区二区三区视频免付费 | 亚洲欧美强伦一区二区| 欧美一级午夜免费电影| 国产精品久久久久久久免费看| 欧美揉bbbbb揉bbbbb| 国产亚洲久一区二区| 欧美影院精品一区| 欧美另类高清videos的特点| 欧洲亚洲精品在线| 性色av一区二区三区四区| 91黄色小视频| 中文字幕乱码人妻无码久久| 欧美三级在线播放| 在线观看毛片视频| 在线不卡的av| 国产成人三级在线播放| 日韩亚洲欧美成人一区| 国产成人手机在线| 日韩成人av网| 精品亚洲综合| 一区二区亚洲精品国产| jizz在线观看中文| 俺去了亚洲欧美日韩| 国产福利在线播放麻豆| 久久不射热爱视频精品| 男插女视频久久久| 91福利视频网| 国产精品字幕| 亚洲永久免费观看| 嗯用力啊快一点好舒服小柔久久| 久草精品电影| 色777狠狠狠综合伊人| 日本精品免费视频| 黄色成人精品网站| 成人免费视频久久| 国内不卡的二区三区中文字幕| 亚洲成人激情小说| 91亚洲国产成人精品一区二三| 巨胸大乳www视频免费观看| 国产精品色婷婷久久58| 青娱乐91视频| 91精品办公室少妇高潮对白| 国产精品视频第一页| 精品免费国产二区三区| 欧美日本韩国一区二区| www.精品av.com| 女海盗2成人h版中文字幕| 国产精品久久久久国产a级| 无码国模国产在线观看| 蜜桃麻豆91| 亚洲一区二区三区无吗| 九色在线视频观看| 国产呦精品一区二区三区网站| 日本黄色免费观看| 国产精品国产三级国产普通话99 | 粉嫩高清一区二区三区精品视频| 一个色免费成人影院| 伊人网在线免费| 鲁大师成人一区二区三区 | 91视频在线视频| 日韩三级中文字幕| 国产一级免费在线观看| 欧美黑人国产人伦爽爽爽| 成人精品一区二区三区电影| 国产日韩精品久久| 一区二区三区四区在线观看国产日韩| 成年人视频观看| 国产美女精品人人做人人爽| 成人无码av片在线观看| 午夜一区二区三区视频| 999久久久久| 在线视频欧美日韩| 麻豆免费版在线观看| 亚洲在线观看视频| 日韩欧美大片| 男女av免费观看| 成人app下载| 九九免费精品视频| 欧美挠脚心视频网站| 色av男人的天堂免费在线| 久久777国产线看观看精品| 国精品产品一区| 欧美日韩亚洲一区二区三区在线观看 | 亚洲欧美制服另类日韩| 欧美xxxx做受欧美88bbw| 国产一区红桃视频| 欧美在线电影| 国产精品动漫网站| 26uuu成人网一区二区三区| 久久精品国产亚洲av高清色欲| 91精品国产色综合久久不卡蜜臀| 国产高清视频在线播放| 欧美中文在线视频| 欧美天堂社区| 国产黄页在线观看| av网站一区二区三区| 九九精品在线观看视频| 日韩一区二区电影在线| 国产三区在线观看| 96pao国产成视频永久免费| 99久久99热这里只有精品| 91人人澡人人爽人人精品| 欧美激情一区二区三区在线| 免费观看日批视频| 永久免费看mv网站入口亚洲| 户外露出一区二区三区| 欧美精品一区二区三区久久| 噜噜噜91成人网| 免费黄在线观看| 欧美日韩一区国产| 黄在线免费观看| 亚洲一区二区久久久久久久| 在线国产一区| 亚洲欧美日韩色| 亚洲成人av中文| 熟妇人妻一区二区三区四区| 欧美一级视频免费在线观看| 一本久久青青| 亚洲这里只有精品| 亚洲欧美另类综合偷拍| 午夜精品久久久久久久爽 | 亚洲人体一区| 国产麻豆日韩欧美久久| 国产在线视频二区| 亚洲另类xxxx| 日韩一区中文| 人妻激情另类乱人伦人妻| 成人污视频在线观看| 国产九色在线播放九色| 在线视频欧美日韩| 精品午夜视频| 欧美深夜福利视频| 欧美激情综合五月色丁香| av免费在线不卡| 97av在线播放| 日韩理论片av| 人妻 丝袜美腿 中文字幕| 一本大道av伊人久久综合| 欧美videos极品另类| y111111国产精品久久婷婷| 欧美亚洲免费| 天天做夜夜爱爱爱| 亚洲国产成人av在线| 国产综合av| 免费观看国产视频在线| 26uuu另类欧美亚洲曰本| 国产又爽又黄免费软件| 91av视频导航| 66视频精品| 久久久久久九九九九九| 欧美精品久久一区二区三区| 国产网站在线| 亚洲第一精品区| 91亚洲精品一区二区乱码| 国产又粗又猛又爽又黄视频| 午夜精品一区二区三区在线| 欧美残忍xxxx极端| 动漫精品一区二区三区| 欧美一二区视频| av成人免费看| 日本中文字幕网址| 亚洲欧美另类图片小说| 国产鲁鲁视频在线观看免费| 高清视频一区二区三区| 男男视频亚洲欧美|