精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

NeurIPS 2025 | CMU、清華、UTAustin開源ReinFlow,用在線RL微調機器人流匹配策略

人工智能 新聞
來自卡內基梅隆大學、清華大學和德克薩斯大學奧斯汀分校的研究團隊提出了一個用于微調流匹配策略的在線強化學習框架 ReinFlow, 該工作已被 NeurIPS 2025 接收,并開源了詳細的復現教程,包括代碼、訓練權重、和訓練結果。

作者簡介:本文第一作者為卡耐基梅隆大學機器人所研究生 Tonghe Zhang,主要研究方向為機器人操作大模型和全身控制算法。合作者為德克薩斯大學奧斯汀分校博士生 Sichang Su, 研究方向為強化學習和通用機器人策略。指導教師是清華大學和北京中關村學院的 Chao Yu 教授以及清華大學 Yu Wang 教授。

今年,流匹配無疑是機器人學習領域的大熱門:作為擴散模型的一種優雅的變體,流匹配憑借簡單、好用的特點,成為了機器人底層操作策略的主流手段,并被廣泛應用于先進的 VLA 模型之中 —— 無論是 Physical Intelligence 的 ,LeRobot 的 SmolVLA, 英偉達的 GR00T 和近期清華大學發布的 RDT2。

想要進一步增強開源 VLA 模型的能力,除了增加數據多樣性,強化學習也是一種高度有效的方法。來自卡內基梅隆大學、清華大學和德克薩斯大學奧斯汀分校的研究團隊提出了一個用于微調流匹配策略的在線強化學習框架 ReinFlow, 該工作已被 NeurIPS 2025 接收,并開源了詳細的復現教程,包括代碼、訓練權重、和訓練結果。

  • 論文標題:ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning
  • 論文鏈接:https://arxiv.org/abs/2505.22094
  • 項目主頁:https://reinflow.github.io
  • 開源資源(代碼、模型、數據、W&B 訓練記錄)https://github.com/ReinFlow/ReinFlow

ReinFlow 的算法特點

  • 理論基礎:基于策略梯度理論推導,將確定性流轉換為離散時間馬爾可夫過程,直接優化整條流匹配鏈;
  • 訓練高效:相比 DPPO 節省 60% 以上訓練時間,支持少步甚至單步推理;
  • 實驗驗證:在多個基準任務上相較預訓練模型取得了顯著性能提升;
  • 復現友好:提供完整訓練教程、數據集、檢查點、WandB 指標,支持許多 legged locomotion 和 manipulation benchmark, 以及在 SimplerEnv 中使用規模化并行仿真微調模型。

ReinFlow 核心原理

ReinFlow 是一個針對常微分方程策略的通用策略梯度算法。想要進行策略梯度優化,首先要設法獲取動作的邊緣概率分布 。對于流匹配模型而言,這與推理時動作生成的機理相關。流匹配策略每一步推理時進行了如下步驟:

流匹配模型推理公式:

  1. 第一步動作來自高斯噪聲;
  2. 對速度積分得到中間動作;
  3. 最后一步動作與環境交互。

如果使用流匹配的理論公式,我們可以計算流策略的最終動作的似然函數。但是由于流匹配動作通過積分來定義,這個方法計算相當復雜,而且存在估計噪聲,并不適合于強化學習。那么有沒有辦法可以簡單獲得流匹配策略推理時候的似然函數呢?其實可以, 但是要做一些小改動……

流匹配模型的推理是一個馬爾科夫過程。如果我們貯存所有的中間動作,雖然難以獲得最終動作的最終動作的邊緣分布,但是可以用鏈式法則獲得擴散鏈條的聯合概率分布:

但是由于使用常微分方程進行積分,預訓練流匹配模型的每步轉移概率都是狄拉克函數, 據此仍然無法導出數值穩定的計算公式。因此,在 ReinFlow 中,我們向流策略的確定性路徑中注入少量可學習的噪聲,將其轉移過程改回一個隨機的擴散過程:

其中,第一項是預訓練得到的速度,對應隨機微分方程的漂移項;第二項是端到端訓練的噪聲注入網絡,對應微分方程的擴散項。這樣,由于相鄰擴散步的轉移概率都是高斯分布,流匹配的聯合概率便可以被嚴格計算出來:

好消息是,我們的研究表明利用聯合概率也可以進行策略梯度優化。根據如下定理,我們可以使用多種經典的策略梯度方法對流匹配策略進行強化學習。

雖然引入噪聲改變了流匹配模型的軌跡,但是我們把噪聲控制到較小范圍內,以減少與預訓練策略的偏離,防止微調時性能大幅受損。但同時,我們也為噪聲設置強度下限,以鼓勵適當的探索。另外,ReinFlow 雖然引入了額外的噪聲網絡,但是其參數量遠小于預訓練的速度場,并且與之共用視覺特征:這樣可以減少微調時帶來的額外開銷。

任務評測

ReinFlow 是一個通用的框架。原理上,ReinFlow 可以適用于所有常微分方程定義的策略,比如 Rectified Flow 和 Shortcut Models,甚至支持極少步數下,如 1,2,4 步時的推理。而且,更新公式可以適用于幾乎所有強化學習梯度算法,比如 PPO。

足式運動控制

在 D4RL 足式運動控制任務中,ReinFlow 微調后的 Rectified Flow 策略取得了平均 135.36% 的凈性能增長。與當前的擴散 RL 微調方法 DPPO 相比,ReinFlow 在保持類似性能的同時,可以極大減少擴散步驟,從而節省了微調所用的 82.63% 的墻鐘時間。

長程操作任務

在接收稀疏獎勵和高維輸入的操作任務中(Franka Kitchen、Robomimic) ,ReinFlow 微調的 Shortcut Model 策略在 4 步甚至 1 步去噪的情況下,比預訓練模型平均凈增了 40.34% 的成功率。其性能與使用 DPPO 微調的 DDIM 策略相當,但訓練時間平均節省 23.20%。

VLA + 大規模并行強化學習

除了標準基準,研究團隊還成功地使用 ReinFlow 利用 ManiSkill3 框架在 SimplerEnv 環境中微調了 模型。 在包含 25 種不同物品和、十余種桌面設置和上百種初始化位姿的高度隨機化場景中,ReinFlow 可以大幅提高  模型的抓取成功率。 

消融實驗

研究團隊進行了詳細的消融研究,研究以下因素對訓練結果的影響:

1. 數據擴展 vs RL 微調:實驗顯示僅靠增加數據或推理步數較快達到性能瓶頸,而 RL 微調能進一步提升性能。

2. 時間采樣策略:ReinFlow 對均勻、Logit-normal 和 Beta 分布等多種時間采樣方式都表現良好的性能。

3. 噪聲條件和大小:同時以狀態和時間為條件生成噪聲,有助于產生更多樣化的動作。噪聲過小訓練會陷入瓶頸,一定閾值后可以探索的新策略。

4. 熵正則化:可以進一步促進探索。

保姆級開源

ReinFlow 的 GitHub 項目已經全面開源,并在積極維護中。歡迎通過郵件或 GitHub 與作者交流。項目包含了:

完整代碼庫

  • 支持 Rectified Flow、Shortcut Models 等多種流模型;
  • 涵蓋 OpenAI Gym(D4RL)、Franka Kitchen、Robomimic 等多個經典 RL 環境;
  • 詳細的安裝指南和使用教程。

模型 Checkpoints

  • 提供所有實驗的預訓練模型;
  • 包含行為克隆和 RL 微調后的權重;
  • 支持一鍵加載和評估。

WandB 指標

  • 公開所有實驗的訓練曲線(損失、獎勵、學習率等);
  • 可直接訪問:https://wandb.ai/reinflow/projects;
  • 便于社區下載基線和本方法測試結果,進行公平驗證和對比。

詳盡文檔

  • 完整復現實驗的步驟:https://github.com/ReinFlow/ReinFlow/blob/release/docs/ReproduceExps.md
  • 復現論文圖表的指南:https://github.com/ReinFlow/ReinFlow/blob/release/docs/ReproduceFigs.md
  • 關鍵超參數說明:https://github.com/ReinFlow/ReinFlow/blob/release/docs/Implement.md
  • 添加自定義數據集 / 環境:https://github.com/ReinFlow/ReinFlow/blob/release/docs/Custom.md
  • 常見問題解答:https://github.com/ReinFlow/ReinFlow/blob/release/docs/KnownIssues.md

未來展望

ReinFlow 將在未來公布更多結果,包括:

  • 發布更多大型視覺語言模型微調結果;
  • 支持用在線 RL 微調 Mean Flow;
  • 研究如何使用該方法進行 sim2real 和真機強化學習微調。
責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-11-07 08:51:41

2025-05-07 13:48:48

AIGC生成機器人

2020-04-13 08:00:00

機器人開源自動化工具

2021-02-19 11:09:45

機器人機器人流程自動化RPA

2023-11-01 17:41:59

RPA機器人

2025-10-13 09:08:00

2025-03-13 11:07:30

2023-10-04 10:55:42

機器狗AI

2025-09-26 10:59:55

AI模型數據

2022-02-21 14:46:36

機器人RPA

2020-07-24 14:54:17

人工智能機器學習技術

2025-03-19 09:15:00

AI算法模型

2025-05-28 11:46:18

開源模型數據

2024-12-19 14:44:22

2025-10-09 13:19:47

2020-04-29 11:28:54

智能自動化機器人流程自動化AI

2020-04-29 11:19:13

機器人流程自動化RPA

2025-11-20 08:44:32

2025-02-10 09:35:00

2025-11-11 08:45:00

點贊
收藏

51CTO技術棧公眾號

伊人久久大香线蕉综合网站| 五月婷婷六月激情| 99久久激情| 欧美一区二区视频观看视频| www.好吊操| 岛国在线视频| 国产精品亚洲一区二区三区在线| 国外视频精品毛片| 欧洲女同同性吃奶| 久久一级大片| 一本色道久久加勒比精品| 在线视频欧美一区| 天堂在线一二区| 极品少妇xxxx精品少妇| 68精品久久久久久欧美| 久久福利免费视频| 亚洲人成网站77777在线观看| 欧美日韩免费不卡视频一区二区三区 | jizz国产免费| 成人精品影视| 亚洲精品99久久久久| 亚洲一区二区福利视频| 都市激情亚洲一区| 亚洲一区二区中文在线| 中文字幕色一区二区| 日韩电影在线观看完整版| 国产伦精一区二区三区| 国产精品三级在线| 亚洲免费黄色网址| 亚洲国产一区二区精品专区| 久久精品亚洲国产| 日本一二三不卡视频| 日韩高清电影免费| 精品国产乱码久久久久久老虎| 五月天激情视频在线观看| 成人免费直播| 精品久久久久久久久久国产 | 国产在线高清视频| 国产欧美日韩在线| 欧美日韩大片一区二区三区| 亚洲精品18在线观看| 精品一区二区三区在线观看国产 | 伊人久久大香| 欧美日韩一二三区| 国产野外作爱视频播放| 欧美大片高清| 日韩欧美一区视频| 日本成年人网址| 男人久久天堂| 精品久久久一区| 黄色av网址在线播放| √天堂8资源中文在线| 亚洲国产精品久久久久婷婷884 | 国产一级特黄a大片99| 亚洲经典一区二区三区| 成人丝袜视频网| 国产精品12| 全国男人的天堂网| 成人三级伦理片| 国产精品我不卡| 免费看日韩av| av成人免费在线观看| 国产精品白丝jk白祙| 黄色一级大片在线免费看国产| 丁香婷婷深情五月亚洲| 高清视频在线观看一区| 日本激情一区二区| 91麻豆视频网站| 日韩av电影在线观看| av在线收看| 亚洲欧美日韩一区二区 | 亚洲免费婷婷| 国产91久久婷婷一区二区| 无码人妻一区二区三区线 | 26uuu国产| 一区二区在线免费播放| 亚洲精品国产精品久久清纯直播| 久久精品老司机| 日韩欧美字幕| 欧美日韩成人免费| 国产成人在线播放视频| 日韩精品乱码av一区二区| 91精品国产综合久久香蕉的用户体验 | 国产精品久久久毛片| 欧美freesex黑人又粗又大| 欧美日韩一区二区免费在线观看| 国产福利视频在线播放| 国产精品原创视频| 日韩精品中文字幕在线不卡尤物| 亚洲精品女人久久久| 国产探花一区在线观看| 久久精品免费电影| 亚洲视频免费播放| 免费视频最近日韩| 国产精品二区在线| 国产在线日本| 一区二区欧美国产| 无码日韩人妻精品久久蜜桃| 警花av一区二区三区| 亚洲精品videossex少妇| 99国产精品免费| 精品不卡视频| 国产日本欧美在线观看| 亚洲欧美一区二区三| 中文字幕一区二区三| 精品这里只有精品| 成人动漫视频在线观看| 日韩精品视频在线免费观看| 一区二区三区影视| 六月天综合网| 97人人模人人爽人人少妇| 国产中文字幕在线视频| 亚洲一线二线三线视频| 高清av免费看| 日韩精品导航| 超碰日本道色综合久久综合| 日本黄色一级视频| 成人小视频在线观看| 在线观看亚洲视频啊啊啊啊| 亚洲精品一区| 亚洲第一页在线| 日本爱爱小视频| 久久亚洲国产精品一区二区| 痴汉一区二区三区| 好吊日视频在线观看| 欧美视频一区在线| 90岁老太婆乱淫| 日韩一级免费| 国产精品露出视频| 四虎av在线| 欧美高清视频一二三区 | 久久精品色综合| 欧美国产日韩二区| 国产精品区在线观看| 国产精品麻豆久久久| 免费av网址在线| 久久国产精品色av免费看| 欧美精品久久久久久久久| 精品国产99久久久久久宅男i| 国产精品伦理在线| 91蝌蚪视频在线观看| 九一国产精品| 日本一区二区在线免费播放| 日韩av高清在线| 午夜精品在线看| 中文字幕乱码一区| 亚洲国产片色| 国精产品99永久一区一区| 日本动漫理论片在线观看网站| 91精品在线一区二区| 久久青青草原| 国产中文字幕乱人伦在线观看| 性欧美1819sex性高清| 日韩禁在线播放| 黄色片网站在线免费观看| 不卡一区中文字幕| 免费看国产一级片| 希岛爱理av免费一区二区| 欧美一级视频一区二区| 神马久久精品| 91成人免费网站| 国产午夜精品久久久久久久久| 毛片基地黄久久久久久天堂| 久久av秘一区二区三区| 欧美a在线观看| 欧美激情奇米色| 午夜影院免费体验区| 一本久久a久久免费精品不卡| 国产精久久一区二区三区| 日本成人在线不卡视频| 一区二区成人国产精品| 国产一区二区av在线| 午夜精品在线观看| 成人亚洲性情网站www在线观看| 欧美日韩一级黄| 激情五月婷婷小说| 99r精品视频| 在线观看免费成人av| 久久久国产精品| 国产日韩在线一区二区三区| 欧美色999| 久久久www成人免费精品| 成人免费公开视频| 日本道免费精品一区二区三区| 国产日产在线观看| 成人国产一区二区三区精品| 欧美黄色一级片视频| 99国产精品免费视频观看| 国产精品一区二区三区免费观看| 色豆豆成人网| 欧美精品日韩www.p站| 头脑特工队2在线播放| 欧美视频一区二区| 国产对白videos麻豆高潮| 欧美激情在线一区二区| www.四虎精品| 日韩av一级电影| 黄色录像特级片| 欧美女优在线视频| 97自拍视频| 成人精品三级| 久久人91精品久久久久久不卡| 番号在线播放| 亚洲精品wwwww| 99久久99久久久精品棕色圆| 色婷婷久久久久swag精品| 99精品久久久久| 国产日本欧美一区二区| 亚洲一区和二区| 国产精品私人影院| 一区二区在线免费观看视频| 久久国产精品99国产| 好吊色这里只有精品| 亚洲人成网站77777在线观看| 91在线观看免费网站| 黑人巨大精品| 日本女人黄色片| 欧美日韩久久精品| 国产在线精品一区二区三区》| 日韩黄色在线| 日韩免费av片在线观看| 操她视频在线观看| 国产成人午夜99999| 国产超碰在线播放| 国产日韩欧美一区二区三区在线观看| 中文字幕一区二区三区有限公司 | 国产剧情在线观看| 欧美草草影院在线视频| 97在线公开视频| 在线观看亚洲一区| 女人十八岁毛片| 亚洲第一精品在线| 精品自拍偷拍视频| 1000精品久久久久久久久| 久久中文字幕精品| 久久老女人爱爱| 性久久久久久久久久| 成人视屏免费看| 亚洲精品第二页| 成人激情黄色小说| 日本一区二区免费视频| 国产成人av影院| 中文字幕制服丝袜| 国产不卡视频在线播放| 又大又长粗又爽又黄少妇视频| 国产成人午夜精品5599| 亚洲精品激情视频| 成人美女在线视频| 小毛片在线观看| 99精品视频一区二区三区| 少妇被狂c下部羞羞漫画| 大美女一区二区三区| 黄色激情在线观看| 99视频精品在线| www.色多多| 国产日韩欧美精品综合| 中文字幕在线观看免费高清| 久久久久一区二区三区四区| 国产精品美女高潮无套| 国产精品福利影院| 欧美日韩午夜视频| 一区二区三区四区高清精品免费观看 | 大香伊人久久精品一区二区| 国产一区二区在线观看免费播放| 全球av集中精品导航福利| 欧美久久久久久久| 日本不卡电影| 4444亚洲人成无码网在线观看| 亚洲国产裸拍裸体视频在线观看乱了中文| 三上悠亚久久精品| 久久久人人人| 亚洲欧美自拍另类日韩| 国产美女精品一区二区三区| youjizz.com国产| 久久精品一区二区三区四区| 日韩精品一区二区三区在线视频| 亚洲精品国产精品乱码不99| 成人午夜淫片100集| 欧美视频一二三区| 好吊色在线观看| 亚洲丝袜一区在线| 18加网站在线| 欧美亚洲成人网| 日本午夜免费一区二区| 国产传媒一区| 日韩dvd碟片| 97超碰国产精品| 日韩中文字幕亚洲一区二区va在线| 精品综合久久久久| 成人免费福利片| 国产又粗又黄又猛| 一区二区日韩av| 99re热视频| 精品国产三级电影在线观看| shkd中文字幕久久在线观看| 欧美激情2020午夜免费观看| 欧美日韩免费观看视频| 超碰97人人人人人蜜桃| 成人av动漫在线观看| 国产成人永久免费视频| 日韩不卡一二三区| 制服丝袜在线第一页| 中文字幕亚洲区| 丁香六月婷婷综合| 日韩欧美国产综合一区| 国产美女视频一区二区三区| 欧美黑人性视频| 欧美97人人模人人爽人人喊视频| 黄色99视频| 欧美日本二区| 向日葵污视频在线观看| 久久这里只有精品首页| 麻豆国产尤物av尤物在线观看| 欧美日韩在线不卡| 先锋av资源站| 欧美黑人极品猛少妇色xxxxx| yy6080久久伦理一区二区| 精品国产一区二区三区免费 | 久久伊人精品一区二区三区| 国产精品久久久久av电视剧| 国产综合欧美在线看| 国产精品久久| 亚洲第一成肉网| 国产精品成人网| 免费在线不卡av| 日韩精品久久久久久久玫瑰园| 欧美伦理免费在线| 亚洲一区久久久| 天天射成人网| 欧美美女性视频| 国产精品美女久久久久aⅴ国产馆 国产精品美女久久久久av爽李琼 国产精品美女久久久久高潮 | 久久久久欧美| 亚洲人成高清| 亚洲精品第二页| 午夜视频一区二区三区| 午夜精品一二三区| 欧美老少配视频| 日韩高清一区| ijzzijzzij亚洲大全| 狠狠色丁香九九婷婷综合五月| ass极品国模人体欣赏| 欧美三级日本三级少妇99| yjizz视频网站在线播放| 国产精品久久久久77777| 欧美猛男男男激情videos| 日韩在线第三页| 国产日产欧美精品一区二区三区| www.色国产| 伊人伊成久久人综合网小说| 91看片一区| 亚洲一区二区三区加勒比| 久久福利视频一区二区| 欧美一区二区三区爽爽爽| 91精品国产免费| 色呦呦网站在线观看| 国产一区二区中文字幕免费看| 一区二区毛片| 五月天综合视频| 欧美久久一区二区| 91国内在线| 久草一区二区| 日韩在线一二三区| www.99re6| 精品久久久久久无| 国产无遮挡裸体视频在线观看| 欧美深深色噜噜狠狠yyy| 蜜桃视频一区二区三区在线观看| 久久国产高清视频| 欧美mv日韩mv国产网站| 蜜桃麻豆影像在线观看| 欧美精品123| 久久国产精品99精品国产| 欧美成人三级在线观看| 亚洲高清色综合| 亚洲精品粉嫩美女一区| 中文字幕中文字幕在线中一区高清 | 97精品国产91久久久久久| 国产一区二区三区日韩精品 | 精品一区二区三区四区| 色天使综合视频| 免费看黄色a级片| 91色porny| 97精品人妻一区二区三区| 久久久在线视频| 国产欧美日韩精品一区二区三区| xxx国产在线观看| 亚洲国产视频a| 1024视频在线| 国产精品国产精品| 免费日本视频一区| 久久久久久国产精品免费播放| 亚洲欧美一区二区三区情侣bbw| 亚洲精品三区| 欧美日韩成人免费视频| 国产精品电影一区二区三区| 香蕉视频免费看| 91精品久久久久久久久久久久久久| 亚洲黄色高清| 欧美手机在线观看| 亚洲精品有码在线|