精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

RL 將如何提高具身大模型 VLA 泛化性?清華大學團隊NeurIPS 2025文章分析 RL 與 SFT 泛化性差異

人工智能 新聞
來自清華大學的研究團隊在 NeurIPS 2025 發表文章,首次系統性地揭示了強化學習(RL)在提升 VLA 泛化能力上的獨特優勢,并帶來了一套全面的評測基準和高效訓練方法。

在具身智能領域,視覺 - 語言 - 動作(VLA)大模型正展現出巨大潛力,但仍面臨一個關鍵挑戰:當前主流的有監督微調(SFT)訓練方式,往往讓模型在遇到新環境或任務時容易出錯,難以真正做到類人般的泛化。但在大語言模型(LLM/VLM)領域,強化學習(RL)已被證明能顯著提升模型的泛化能力。RL 究竟能為 VLA 帶來哪些獨特的泛化優勢?與 SFT 相比,它們的優劣勢分別體現在哪里?

來自清華大學的研究團隊在 NeurIPS 2025 發表文章,首次系統性地揭示了強化學習(RL)在提升 VLA 泛化能力上的獨特優勢,并帶來了一套全面的評測基準和高效訓練方法。通訊作者是清華大學教授汪玉和博士后于超。

  • 論文標題:What Can RL Bring to VLA Generalization? An Empirical Study
  • 項目網站和代碼:https://rlvla.github.io/
  • 論文地址:https://arxiv.org/abs/2505.19789

為了解決 VLA 模型泛化能力有限的問題,研究團隊構建了一個涵蓋多種視覺、語義和執行挑戰的全新評測基準,并系統性地對比了強化學習(RL)和傳統有監督微調(SFT)在提升模型泛化性上的表現。通過大量實驗發現:采用 PPO 等強化學習算法微調 VLA,不僅顯著提升了模型在語義理解和任務執行上的魯棒性,還能在視覺變化場景下保持與 SFT 相當的表現。同時提出了一套簡單高效的 PPO 訓練方案,使得強化學習在 VLA 領域的應用更加實用和高效。

具身基礎模型:開源 OpenVLA 大模型

研究團隊采用了目前 SoTA 之一的開源 OpenVLA 模型為基礎進行研究。OpenVLA 從 Llama2-7b 微調而來,在每一個時間步,接收一張 RGB 圖像和一條指令(即歷史長度 H=1),并輸出一系列離散的動作 token 控制機械臂行動。

問題 1:何種 RL 方法更好?

研究團隊測試了三種在大語言模型領域廣受認可的強化學習算法,包括 RLHF 中常用的 PPO(近端策略優化)和 DPO(直接偏好優化),以及在數學等推理任務中展現出色的 GRPO(組相對策略優化)。

實驗結果令人意外:在機器人控制這一多步決策任務中,經典的 PPO 算法展現出了顯著優勢,而專為語言模型設計的 DPO 和 GRPO 卻難以高效學習。研究團隊分析認為,這源于機器人任務的部分可觀測馬爾可夫決策過程(POMDP)特性 —— 每個動作都會改變環境狀態,這種非平穩性可能破壞了 GRPO 的優勢估計穩定性。而 DPO 面臨的挑戰則在于稀疏獎勵結構難以區分軌跡質量,以及離線數據與在線執行之間存在顯著的分布偏移。

問題 2:如何實現高效的 PPO 訓練?

為了讓 PPO 在 VLA 模型上高效運行,研究團隊提出了三個關鍵創新。

1. 共享 Actor-Critic 架構設計:讓 Actor 和 Critic 共享同一個主干網絡,僅在最后添加一個輕量級的 MLP 作為價值頭。這一設計將顯存占用減少了 45%,訓練速度提升 35%,還保持了相當的性能表現。

2. VLA 模型預熱策略:使用 140 條高質量軌跡對模型進行預熱,此步驟讓后續的強化學習收斂速度提升 50%,大幅減少了所需的環境交互次數。

3. 最小化 PPO 訓練輪次:傳統 PPO 通常會對每批數據進行多輪梯度更新,但研究發現在 VLA 場景下,將 PPO 訓練輪次(epoch)設為 1 就已足夠 —— 更多的更新輪次不僅無法提升性能,反而會增加訓練時間。通過這一優化,整個訓練過程在單張 A100 GPU 上僅需 42 小時即可收斂。

問題 3:SFT 和 RL 的對比

為了公平比較,研究團隊首先探究了 SFT 的數據規模上限。研究團隊使用動作規劃器(Motion Planner)采集了不同規模的 SFT 數據集,實驗顯示,當演示軌跡數量達到 16,000 條(約 126 萬個狀態 - 動作對)時,無論是訓練分布內、還是分布外新物體 / 桌面的 SFT 性能都趨于飽和。

然而對于 RL,雖然收斂時訓練分布內任務性能與 SFT 相當,但是在分布外任務上卻取得了 42.6% 的性能提升,這展現出 RL 具有更強的泛化性。

為了深入剖析泛化性差異,研究團隊基于 ManiSkill 仿真器構建了一個全面的評測基準,從視覺(如動態紋理、新桌面)、語義(如未見物體、指令變體)和執行(如物體位置變化、機器人初始姿態)三個維度系統地對泛化能力進行拆解。

實驗結果清晰地展現了 RL 的優勢:RL 在語義理解任務上表現出明顯優勢,特別是在處理未見物體的抓取任務時;在執行魯棒性方面更是大幅領先,無論是物體位置變化、機器人初始姿態偏移,還是任務執行中途的物體移位,RL 都展現出了顯著更強的適應能力;而在視覺泛化上,兩種方法表現相當。

通過對具體案例的可視化分析,研究團隊發現了更深層的差異。在強噪聲干擾下,SFT 策略會在抓取物體后反復掉落,而 RL 策略能夠穩定完成任務。面對未見物體時,SFT 容易陷入重復嘗試抓取已持有物體的死循環,RL 則能正確判斷并完成放置。最引人注目的是執行軌跡分布的差異:RL 探索了更廣闊的工作空間和更豐富的末端執行器姿態,而 SFT 的軌跡則緊密聚集在演示數據的運動規劃路徑周圍。這種更廣泛的覆蓋或許解釋了 RL 在執行任務上具有的優越泛化能力。

這項研究不僅為 VLA 模型的訓練提供了新的方向,更重要的是證明了強化學習在構建真正通用的具身智能體中的核心價值。隨著機器人應用場景日益復雜多變,這種能夠通過試錯學習、自主適應新環境的能力將變得愈發重要。

團隊致力于研究強化學習在 VLA 中的運用,開源了首個面向具身智能的 “渲訓推一體化” 大規模強化學習框架 RLinf(https://github.com/RLinf/RLinf),更多大規模的實驗結果參見網站。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-06-06 04:10:00

LLM人工標注RL

2025-09-09 09:13:00

AI模型數據

2024-07-19 10:39:38

2025-11-20 08:47:53

2025-02-10 09:35:00

2024-12-30 10:20:00

模型數據訓練

2025-10-21 09:04:00

2025-09-16 10:09:00

2025-10-10 02:15:00

2025-01-10 09:30:00

2025-10-29 16:11:39

AI模型工具

2025-10-13 08:58:00

2025-04-23 12:09:25

RL大模型進化

2025-07-28 09:12:00

2009-07-31 14:50:16

電纜回波損耗

2025-09-15 08:53:00

AI模型推理

2025-11-18 10:00:56

2024-12-27 12:00:48

2025-07-25 10:19:44

2024-11-01 20:25:28

點贊
收藏

51CTO技術棧公眾號

www香蕉视频| 免费中文字幕视频| 国产精品99久久免费| 尤物在线观看一区| 蜜桃91精品入口| 国产孕妇孕交大片孕| 99视频一区| 色阁综合伊人av| 亚洲欧美日韩偷拍| 黄色日韩网站| 欧美日韩国产精品一区| 日本一区二区免费高清视频| 亚洲 美腿 欧美 偷拍| 久草精品在线观看| 91福利视频在线观看| 亚洲一区电影在线观看| 欧美综合精品| 欧美一二三四在线| 成年网站在线播放| 国产在线天堂www网在线观看| 国产精品沙发午睡系列990531| 国产美女在线精品免费观看| 国产又粗又黄视频| 久久狠狠婷婷| 午夜精品视频在线| 农村妇女精品一区二区| 欧美色网址大全| 精品视频久久久| 久久久久国产免费| 蜜桃精品一区二区三区| 欧美色爱综合网| 国产网站免费在线观看| 日本欧美电影在线观看| 18涩涩午夜精品.www| 日韩av不卡播放| 亚洲欧洲视频在线观看| 不卡av免费在线观看| 91传媒视频在线观看| 亚洲综合免费视频| 人禽交欧美网站| 国产mv免费观看入口亚洲| 国产成人无码精品久在线观看| 国产精品mm| 欧美日韩国产91| 九九热国产在线| 欧美一区二区三区另类| 日韩在线中文字幕| 91导航在线观看| 精品久久久久久久久久久aⅴ| 亚洲另类激情图| 最新版天堂资源在线| 伊色综合久久之综合久久| 欧美一区二区福利在线| 色婷婷一区二区三区在线观看| 伊人久久大香| 欧美一区二区三区影视| 亚洲综合在线一区二区| 久久久噜噜噜www成人网| 日韩美女网站| 一区在线中文字幕| 国产三级中文字幕| 人妖欧美1区| 午夜私人影院久久久久| 国产二级片在线观看| 性xxxxfreexxxxx欧美丶| 欧美视频在线免费| 久久久国产欧美| 日韩毛片免费看| 欧美一区二区在线不卡| 欧美久久久久久久久久久| 香港久久久电影| 亚洲变态欧美另类捆绑| 欧美精品黑人猛交高潮| 国产精品嫩草影院在线看| 亚洲欧美综合另类中字| 国产传媒免费在线观看| 激情视频一区二区三区| 欧美一级黑人aaaaaaa做受| 伊人久久中文字幕| 国产原创一区二区| 国产精品日韩欧美一区二区| 欧美zozo| 亚洲免费观看高清在线观看| 国产一区二区三区小说| 国产日韩电影| 欧美精品日韩一区| 亚洲视频 中文字幕| 欧美偷拍综合| 久久久久久久999精品视频| 特黄视频免费看| 六月婷婷色综合| 国产乱码精品一区二区三区日韩精品| 欧洲成人av| 日韩毛片一二三区| 97国产在线播放| 亚洲欧洲二区| 日韩福利视频在线观看| 91ts人妖另类精品系列| 一本久久知道综合久久| 成人写真视频福利网| 午夜成人免费影院| 中文一区二区在线观看| 婷婷五月综合缴情在线视频| 亚洲日本免费电影| 亚洲图片欧美午夜| 成人免费看片98| 理论电影国产精品| 老牛影视免费一区二区| 成人影院在线观看| 欧美性色黄大片| 亚洲一区二区在线免费| 91久久夜色精品国产按摩| 26uuu另类亚洲欧美日本一| 国产女18毛片多18精品| 国产区在线观看成人精品| 久久久久久人妻一区二区三区| 日本免费成人| 国产亚洲人成a一在线v站| 欧美bbbbbbbbbbbb精品| 国产福利91精品一区| 亚洲春色综合另类校园电影| 欧美7777| 日韩第一页在线| 精品无码久久久久久久久| 韩日欧美一区二区三区| 日韩在线第一区| 日韩在线影院| 国产视频精品在线| 日韩黄色a级片| 国产黄色精品网站| 精品一区二区成人免费视频| 国产亚洲精彩久久| 中文字幕国产日韩| 最近中文字幕免费观看| 国产婷婷色一区二区三区四区| 免费看国产曰批40分钟| 北条麻妃在线一区二区免费播放| 久久久精品电影| 97精品人妻一区二区三区香蕉 | 日韩av无码一区二区三区不卡| 天天操综合网| 国产欧美在线观看| 春暖花开成人亚洲区| 在线精品观看国产| 女人黄色一级片| 日本v片在线高清不卡在线观看| 免费国产在线精品一区二区三区| yellow字幕网在线| 亚洲激情国产精品| 精品成人av一区二区在线播放| 成人aa视频在线观看| 高清欧美精品xxxxx| 黄色美女久久久| 欧美亚洲成人精品| 邻家有女韩剧在线观看国语| 91久久香蕉国产日韩欧美9色| 东方伊人免费在线观看| 久88久久88久久久| 成人免费a级片| 欧美黑人巨大videos精品| 97在线观看免费| 黄色小视频在线观看| 精品视频在线看| 91高清免费看| 成人黄色在线视频| 成年人观看网站| 成人影视亚洲图片在线| 95av在线视频| 国产无遮挡裸体视频在线观看| 日韩精品在线观| 在线观看亚洲一区二区| 亚洲黄色片在线观看| 国产又粗又长又爽| 美女视频黄 久久| av在线com| 亚洲福利网站| 国产欧美欧洲在线观看| 日本高清成人vr专区| 亚洲精品久久久久久久久久久 | 欧美一区二区不卡视频| 日韩免费视频网站| 中文在线资源观看网站视频免费不卡| 永久av免费在线观看| 99伊人成综合| 亚洲欧洲国产精品久久| 成人自拍在线| 国产成人一区二区三区小说| 91网址在线观看| 亚洲欧美精品一区| 精品国产一区二区三区久久狼5月 精品国产一区二区三区久久久狼 精品国产一区二区三区久久久 | 国产专区在线播放| 欧美日韩一级片网站| 九九免费精品视频| 欧美国产日本视频| 免费在线观看日韩av| 丝袜脚交一区二区| 黄色三级中文字幕| 欧美手机在线| 激情欧美一区二区三区中文字幕| 国产电影一区二区三区爱妃记| 欧美大片免费观看在线观看网站推荐| 天堂av在线7| 欧美成人综合网站| 中文有码在线播放| 天天综合色天天综合色h| 天堂网中文在线观看| 99免费精品在线观看| 6080国产精品| 日韩 欧美一区二区三区| 日b视频免费观看| 99久久久久国产精品| 免费h精品视频在线播放| 最新精品在线| 成人国内精品久久久久一区| 欧美男体视频| 久久免费观看视频| av网址在线| 精品国产拍在线观看| av片在线看| 亚洲欧洲在线看| 天天干天天爱天天操| 欧美大胆人体bbbb| 国产手机精品视频| 欧美老肥妇做.爰bbww| 国产精品免费无遮挡无码永久视频| 亚洲午夜成aⅴ人片| 99自拍视频在线| 国产精品天天看| 日韩在线免费观看av| 91原创在线视频| a级片在线观看视频| 国产精品综合一区二区三区| 一区二区三区欧美精品| 免费美女久久99| 欧美国产日韩在线播放| 久久aⅴ国产紧身牛仔裤| 国产中文字幕视频在线观看| 亚洲区国产区| 精品久久久久久久久久中文字幕| 激情欧美国产欧美| 日韩黄色短视频| 一区免费视频| 天堂…中文在线最新版在线| 亚洲国产二区| 欧美 日韩 国产一区| 国产亚洲网站| 国产极品美女高潮无套久久久| 鲁大师影院一区二区三区| 国产精品视频一区二区三区四区五区| 99亚洲伊人久久精品影院红桃| 1024av视频| 久久精品午夜| 爱情岛论坛亚洲首页入口章节| 麻豆一区二区99久久久久| 一级片视频免费观看| 精品亚洲免费视频| wwwww在线观看| 波多野洁衣一区| 成人免费看aa片| 国产日韩欧美高清在线| 成人信息集中地| 亚洲精品你懂的| 国产一区二区三区在线视频观看| 亚洲精品久久久蜜桃| 一区二区三区免费高清视频| 岛国av一区二区三区| 无码日韩精品一区二区| 欧美二区三区的天堂| 国产黄色片av| 日韩经典中文字幕| 97在线观看免费观看高清 | 欧美13videosex性极品| 日韩av日韩在线观看| 欧美91在线|欧美| www.成人三级视频| 岳的好大精品一区二区三区| 亚洲欧洲日本国产| 欧美激情在线| 农村妇女精品一二区| 韩国午夜理伦三级不卡影院| 男女性杂交内射妇女bbwxz| 久久蜜桃av一区二区天堂| 日韩在线一卡二卡| 亚洲一级不卡视频| 最近国语视频在线观看免费播放| 日韩一级片在线播放| 日本福利片在线| 久久人人爽人人爽人人片亚洲| 九色porny丨入口在线| 国产美女久久久| 欧美影院天天5g天天爽| 免费观看中文字幕| 亚洲欧美日韩在线观看a三区| 粉色视频免费看| 99精品欧美一区二区三区综合在线| 成年人视频软件| 婷婷一区二区三区| 国产精品国产三级国产普通话对白| 亚洲国产精品久久久久| 青青影院在线观看| 欧日韩不卡在线视频| 日韩欧美中文在线观看| 天堂精品视频| 99视频在线精品国自产拍免费观看| 亚欧激情乱码久久久久久久久| 99精品欧美一区二区蜜桃免费| 老司机深夜福利网站| 日韩欧美黄色动漫| 国产农村妇女毛片精品| 中文字幕av一区| 三上悠亚亚洲一区| 国产精品久久久久久免费观看| 68国产成人综合久久精品| 黄色一级免费大片| 99国产精品久久久| 久久久国产成人| 91麻豆精品国产| 2021av在线| 国产精品91久久久久久| 人妖一区二区三区| 真实国产乱子伦对白视频| 国内精品写真在线观看| 毛片aaaaaa| 色欧美乱欧美15图片| 亚洲区小说区图片区| 97精品一区二区三区| 盗摄系列偷拍视频精品tp| 国产免费xxx| 国内精品写真在线观看| 国产尤物在线播放| 欧美日本在线看| av在线收看| 国产精品福利网站| 欧美色女视频| 特级丰满少妇一级| 国产精品少妇自拍| 在线观看免费中文字幕| 日韩在线播放视频| 日韩毛片免费看| 日本精品免费视频| 国产一区二区三区免费观看| 久久国产精品国语对白| 88在线观看91蜜桃国自产| 日韩欧美小视频| 亚洲free性xxxx护士白浆| 在线电影一区二区| 原创真实夫妻啪啪av| 亚洲综合一二三区| 高清国产mv在线观看| 高清视频欧美一级| 少妇一区二区三区| 久久久久免费精品| 国产精品美女久久久久久久久 | 中文字幕欧美日韩在线| 日本欧美一区| 亚洲一二区在线| 国产一区二区三区精品欧美日韩一区二区三区 | 欧美一区二区三区少妇| 日本欧美一二三区| 精品亚洲成人| 在线免费观看av网| 午夜亚洲国产au精品一区二区| 三级国产在线观看| 国产精品久久综合av爱欲tv| 久久精品欧美一区| 色诱av手机版| 日韩欧美成人区| 91精彩在线视频| 99久热re在线精品996热视频| 99在线热播精品免费99热| japanese中文字幕| 欧美顶级少妇做爰| 理论不卡电影大全神| 日韩中文字幕一区| 国产成人欧美日韩在线电影| 日韩久久精品视频| 中文字幕亚洲精品| 白嫩白嫩国产精品| 国产视频在线视频| 亚洲在线观看免费视频| 三区在线视频| 亚洲最大的成人网| 老鸭窝毛片一区二区三区| 中日韩一级黄色片| 亚洲精品久久久久国产| 亚洲精品成人一区| 鲁一鲁一鲁一鲁一色| 国产精品女上位| 人妻91麻豆一区二区三区| 国产精品入口夜色视频大尺度| 欧美激情亚洲| 国产精品理论在线| 精品国产污网站| 欧美成人毛片| 欧美国产亚洲一区| 亚洲美女精品一区| 第三区美女视频在线| 国产一区免费| 国产一区二区在线看| 国产情侣小视频|