NeurIPS 2025 | CMU、清華、UTAustin開源ReinFlow,用在線RL微調機器人流匹配策略
作者簡介:本文第一作者為卡耐基梅隆大學機器人所研究生 Tonghe Zhang,主要研究方向為機器人操作大模型和全身控制算法。合作者為德克薩斯大學奧斯汀分校博士生 Sichang Su, 研究方向為強化學習和通用機器人策略。指導教師是清華大學和北京中關村學院的 Chao Yu 教授以及清華大學 Yu Wang 教授。
今年,流匹配無疑是機器人學習領域的大熱門:作為擴散模型的一種優雅的變體,流匹配憑借簡單、好用的特點,成為了機器人底層操作策略的主流手段,并被廣泛應用于先進的 VLA 模型之中 —— 無論是 Physical Intelligence 的
,LeRobot 的 SmolVLA, 英偉達的 GR00T 和近期清華大學發布的 RDT2。
想要進一步增強開源 VLA 模型的能力,除了增加數據多樣性,強化學習也是一種高度有效的方法。來自卡內基梅隆大學、清華大學和德克薩斯大學奧斯汀分校的研究團隊提出了一個用于微調流匹配策略的在線強化學習框架 ReinFlow, 該工作已被 NeurIPS 2025 接收,并開源了詳細的復現教程,包括代碼、訓練權重、和訓練結果。

- 論文標題:ReinFlow: Fine-tuning Flow Matching Policy with Online Reinforcement Learning
- 論文鏈接:https://arxiv.org/abs/2505.22094
- 項目主頁:https://reinflow.github.io
- 開源資源(代碼、模型、數據、W&B 訓練記錄)https://github.com/ReinFlow/ReinFlow
ReinFlow 的算法特點
- 理論基礎:基于策略梯度理論推導,將確定性流轉換為離散時間馬爾可夫過程,直接優化整條流匹配鏈;
- 訓練高效:相比 DPPO 節省 60% 以上訓練時間,支持少步甚至單步推理;
- 實驗驗證:在多個基準任務上相較預訓練模型取得了顯著性能提升;
- 復現友好:提供完整訓練教程、數據集、檢查點、WandB 指標,支持許多 legged locomotion 和 manipulation benchmark, 以及在 SimplerEnv 中使用規模化并行仿真微調
模型。
ReinFlow 核心原理
ReinFlow 是一個針對常微分方程策略的通用策略梯度算法。想要進行策略梯度優化,首先要設法獲取動作的邊緣概率分布
。對于流匹配模型而言,這與推理時動作生成的機理相關。流匹配策略每一步推理時進行了如下步驟:
流匹配模型推理公式:
- 第一步動作
來自高斯噪聲;
對速度積分得到中間動作;- 最后一步動作
與環境交互。
如果使用流匹配的理論公式,我們可以計算流策略的最終動作的似然函數。但是由于流匹配動作通過積分來定義,這個方法計算相當復雜,而且存在估計噪聲,并不適合于強化學習。那么有沒有辦法可以簡單獲得流匹配策略推理時候的似然函數呢?其實可以, 但是要做一些小改動……
流匹配模型的推理是一個馬爾科夫過程。如果我們貯存所有的中間動作,雖然難以獲得最終動作的最終動作的邊緣分布,但是可以用鏈式法則獲得擴散鏈條的聯合概率分布:

但是由于使用常微分方程進行積分,預訓練流匹配模型的每步轉移概率都是狄拉克函數, 據此仍然無法導出數值穩定的計算公式。因此,在 ReinFlow 中,我們向流策略的確定性路徑中注入少量可學習的噪聲,將其轉移過程改回一個隨機的擴散過程:

其中,第一項是預訓練得到的速度,對應隨機微分方程的漂移項;第二項是端到端訓練的噪聲注入網絡,對應微分方程的擴散項。這樣,由于相鄰擴散步的轉移概率都是高斯分布,流匹配的聯合概率便可以被嚴格計算出來:

好消息是,我們的研究表明利用聯合概率也可以進行策略梯度優化。根據如下定理,我們可以使用多種經典的策略梯度方法對流匹配策略進行強化學習。

雖然引入噪聲改變了流匹配模型的軌跡,但是我們把噪聲控制到較小范圍內,以減少與預訓練策略的偏離,防止微調時性能大幅受損。但同時,我們也為噪聲設置強度下限,以鼓勵適當的探索。另外,ReinFlow 雖然引入了額外的噪聲網絡,但是其參數量遠小于預訓練的速度場,并且與之共用視覺特征:這樣可以減少微調時帶來的額外開銷。
任務評測
ReinFlow 是一個通用的框架。原理上,ReinFlow 可以適用于所有常微分方程定義的策略,比如 Rectified Flow 和 Shortcut Models,甚至支持極少步數下,如 1,2,4 步時的推理。而且,更新公式可以適用于幾乎所有強化學習梯度算法,比如 PPO。
足式運動控制
在 D4RL 足式運動控制任務中,ReinFlow 微調后的 Rectified Flow 策略取得了平均 135.36% 的凈性能增長。與當前的擴散 RL 微調方法 DPPO 相比,ReinFlow 在保持類似性能的同時,可以極大減少擴散步驟,從而節省了微調所用的 82.63% 的墻鐘時間。

長程操作任務
在接收稀疏獎勵和高維輸入的操作任務中(Franka Kitchen、Robomimic) ,ReinFlow 微調的 Shortcut Model 策略在 4 步甚至 1 步去噪的情況下,比預訓練模型平均凈增了 40.34% 的成功率。其性能與使用 DPPO 微調的 DDIM 策略相當,但訓練時間平均節省 23.20%。


VLA + 大規模并行強化學習
除了標準基準,研究團隊還成功地使用 ReinFlow 利用 ManiSkill3 框架在 SimplerEnv 環境中微調了
模型。 在包含 25 種不同物品和、十余種桌面設置和上百種初始化位姿的高度隨機化場景中,ReinFlow 可以大幅提高
模型的抓取成功率。

消融實驗
研究團隊進行了詳細的消融研究,研究以下因素對訓練結果的影響:
1. 數據擴展 vs RL 微調:實驗顯示僅靠增加數據或推理步數較快達到性能瓶頸,而 RL 微調能進一步提升性能。
2. 時間采樣策略:ReinFlow 對均勻、Logit-normal 和 Beta 分布等多種時間采樣方式都表現良好的性能。
3. 噪聲條件和大小:同時以狀態和時間為條件生成噪聲,有助于產生更多樣化的動作。噪聲過小訓練會陷入瓶頸,一定閾值后可以探索的新策略。
4. 熵正則化:可以進一步促進探索。


保姆級開源
ReinFlow 的 GitHub 項目已經全面開源,并在積極維護中。歡迎通過郵件或 GitHub 與作者交流。項目包含了:
完整代碼庫
- 支持 Rectified Flow、Shortcut Models 等多種流模型;
- 涵蓋 OpenAI Gym(D4RL)、Franka Kitchen、Robomimic 等多個經典 RL 環境;
- 詳細的安裝指南和使用教程。
模型 Checkpoints
- 提供所有實驗的預訓練模型;
- 包含行為克隆和 RL 微調后的權重;
- 支持一鍵加載和評估。
WandB 指標
- 公開所有實驗的訓練曲線(損失、獎勵、學習率等);
- 可直接訪問:https://wandb.ai/reinflow/projects;
- 便于社區下載基線和本方法測試結果,進行公平驗證和對比。
詳盡文檔
- 完整復現實驗的步驟:https://github.com/ReinFlow/ReinFlow/blob/release/docs/ReproduceExps.md
- 復現論文圖表的指南:https://github.com/ReinFlow/ReinFlow/blob/release/docs/ReproduceFigs.md
- 關鍵超參數說明:https://github.com/ReinFlow/ReinFlow/blob/release/docs/Implement.md
- 添加自定義數據集 / 環境:https://github.com/ReinFlow/ReinFlow/blob/release/docs/Custom.md
- 常見問題解答:https://github.com/ReinFlow/ReinFlow/blob/release/docs/KnownIssues.md
未來展望
ReinFlow 將在未來公布更多結果,包括:
- 發布更多大型視覺語言模型微調結果;
- 支持用在線 RL 微調 Mean Flow;
- 研究如何使用該方法進行 sim2real 和真機強化學習微調。

































