NeurIPS 2025 Spotlight | 只需一條演示,DexFlyWheel框架讓機器人學會「自我造數據」
當我們談論機器人靈巧操作時,數據稀缺始終是懸浮在頭頂的達摩克利斯之劍。
在大模型、自動駕駛領域紛紛依靠海量數據 “涌現” 出強大能力的今天,機器人靈巧操作依然困在數據瓶頸。
近期,北京大學、哈爾濱工業大學聯合 PsiBot 靈初智能提出首個自我增強的靈巧操作數據生成框架 ——DexFlyWheel。該框架僅需單條演示即可啟動任務,自動生成多樣化的靈巧操作數據,旨在緩解靈巧手領域長期存在的數據稀缺問題。目前已被 NeurIPS 2025 接受為 Spotlight(入選率約 3.2%)。

- 論文題目:DexFlyWheel: A Scalable and Self-improving Data Generation Framework for Dexterous Manipulation
- 論文鏈接:https://arxiv.org/abs/2509.23829
- 項目主頁:https://DexFlyWheel.github.io
研究背景:
為什么靈巧手數據生成如此困難?
在具身智能快速發展的今天,覆蓋多樣化場景和任務的機器人數據集不斷出現。但是面向五指靈巧手的操作數據集仍然缺乏。這背后有幾個關鍵原因:
1. 傳統方法失效。 二指夾爪的生成方案在靈巧手上基本無法推廣。啟發式規劃難以應對高維動作優化,LLM 雖然能提供語義引導,卻難以生成精細的五指控制軌跡。
2. 高成本的人工示教。基于遙操作設備可以有效收集靈巧手數據,但是需大量人力、時間與資源。可擴展性低,難以形成多樣化、規模化的數據集。
3. 純強化學習效率低。完全依靠強化學習雖然可以訓練出成功的策略并迭代成功軌跡,但往往出現手部動作不自然、機械臂抖動等問題,再加上探索效率低,難以高效產生高質量軌跡。
4. 僅限于抓取任務。目前已有一些靈巧手數據集被提出,但大多僅針對抓取任務進行特定設計,任務類型單一,難以遷移至其他精細操作場景,限制了靈巧手技能的泛化與發展。
5. 軌跡回放方法數據多樣性有限。基于軌跡回放與編輯的方法是目前最常用的靈巧手數據生成方法,但它只能在預定義場景下做空間變換,無法探索新策略。導致了數據多樣性低,難以支撐靈巧操作策略的泛化。
總體來看,無論是依賴人類示教、軌跡回放,還是單純依靠強化學習,現有方法在成本、生成效率和數據多樣性方面都存在明顯局限,很難同時兼顧。
面對這一挑戰,團隊在實驗中發現了一個有趣現象:
在靈巧手操作不同物體時,軌跡通常只需做細微調整。物體差別越小,調整越細微。
這啟發團隊提出一個新思路:成功的演示數據不應是數據生成的 “終點”,而可以成為更多場景下數據生成的 “起點”。 換句話說,一條高質量軌跡完全可以被利用,衍生出大量新的訓練數據。
更高層次地,智能系統往往遵循 “能力 — 數據 — 能力” 的迭代提升規律,從而推動自我演進。
這讓團隊進一步思考:靈巧手數據生成是否也可以形成類似的自我提升循環,讓系統持續擴展、生成多樣化的數據?
這就是 DexFlyWheel 背后的初衷:不再依賴大規模數據投入,而是為靈巧手構建一個只需少量軌跡啟動,即可持續進化和自我提升的高效數據生成系統。
DexFlyWheel 技術解析:自我提升的靈巧手數據生成飛輪
團隊提出了一種兼具成本、高效性與可擴展性的方案,叫做 DexFlyWheel。它有兩個核心思路:
1. 利用模仿學習 + 殘差強化學習,重新定義演示的作用
團隊基于關鍵發現 —— 操作不同物體時軌跡往往只需細微調整,設計了 “模仿學習 + 殘差強化學習” 方法來將演示遷移到新場景。一方面,模仿學習保證軌跡保持人類演示的自然性;另一方面,殘差強化學習對軌跡進行精細微調,使其適應新環境。最終,通過組合策略,能夠高效生成多樣化且類人的軌跡數據。

2. 構建數據與模型的閉環飛輪
DexFlyWheel 構建了數據與模型的自我提升循環,讓模型在循環中自我提升,實現數據和策略性能的協同增長。

通過這兩者的結合,DexFlyWheel 實現了高效且可擴展的數據生成,不僅顯著提升了數據的多樣性與規模,還將對原始演示的依賴降至每任務僅需 1 條,極大降低了成本。
DexFlyWheel 框架如下圖,分為兩個階段:
1. 預熱階段:通過 VR 采集 1 條種子演示,經數據增強得到初始數據集。
2. 自我提升的數據飛輪階段:
- 基礎策略訓練:利用擴散策略從數據中學習人類先驗,保持行為的類人性。
- 殘差策略訓練:用殘差強化學習對策略進行微調,增強其泛化到新場景的能力。
- 軌跡生成:基于組合策略,在仿真中的多樣化場景下不斷生成新的成功軌跡。
- 數據增強:對軌跡進行多維度增強,產出更豐富的數據集,用于下一輪迭代。
DexFlyWheel 就這樣把一條演示 “放大”,讓數據和策略在循環中不斷自我提升。隨著迭代推進,數據多樣性快速增長,形成 “越用越強、越轉越快” 的飛輪效應。

實驗結果:
DexFlyWheel 生成效率更高、數據更多樣,策略更強泛化
實驗任務
- 四個靈巧手任務:單手抓取、單手傾倒、雙手提起、雙手交接。
- 每個任務僅需一條演示啟動 DexFlyWheel。

主要實驗指標與結果
1. 數據多樣性顯著提升
- 數據規模:從 1 條演示擴展至 500 條生成軌跡。
- 數據多樣性:場景數量提升 214 倍,物體種類從 1 個擴展到平均 20 個。

2. 策略泛化能力顯著提升
在包含物體、環境、空間布局三重變化的挑戰性測試集上,成功率從初始的 16.5% 提升至 81.9%。

3. 全面超越基線方法
- 數據生成成功率:在多樣且有挑戰性的場景下,DexFlyWheel 數據生成成功率達到 89.8%,明顯高于基于軌跡回放的基線方法 (63.0%)。
- 數據生成效率:生成 500 條多樣化軌跡僅需 2.4 小時,相比人類演示和基于軌跡回放的基線方法,分別加快 1.83 倍 和 5.21 倍。
- 訓練策略性能:在多樣且具有挑戰性的測試集上,策略成功率達到 81.9%,超過基線 DexMicmicGen (31.4%) 和人類示教 (9.4%)。
- 綜合表現:在數據生成成功率、生成效率以及策略性能上,均顯著優于基于人類示教和軌跡編輯的方法。


Demo 展示:輕松操控多樣物體,
從容完成高難任務,絲滑展現類人操作
1. 對比 baselines:我們的方法可以操作不同形狀的物體,并且適應高難度任務雙手交接,同時動作更加類人。

2. 仿真數據多樣性:DexFlyWheel 數據不卷規模卷數據質量,通過 1 條演示啟動生成了多樣化場景下的數據,幫助提升靈巧策略泛化性。

3. 真機遷移:DexFlyWheel 進一步通過數字孿生技術將訓練策略部署至真實雙靈巧手機器人系統。在 “雙手提起” 與 “雙手交接” 任務中,分別取得 78.3% 與 63.3% 的成功率,驗證了仿真數據生成在現實機器人部署可行性。

結語:數據飛輪——推動靈巧手走向現實與泛化
DexFlyWheel 針對靈巧手領域長期存在的數據稀缺問題,提供了一種自我提升的數據生成范式:
用模仿學習與殘差強化學習構建了一個自我提升的數據飛輪。背后的思想是:解決數據難題的關鍵,并不在于一味收集更多數據,而在于讓數據與系統相互迭代,讓數據能夠自己 “長大”。
與現有方法相比,DexFlyWheel 顯著降低了數據收集成本,大幅提升了生成效率,并極大豐富了靈巧手數據的多樣性。這一進展讓靈巧手離現實應用與通用機器人更近了一步。
局限與展望
當然,DexFlyWheel 還不是完美的,未來工作正進一步完善這兩方面:
- 獎勵自動化:如何高效引入基于 LLM 的獎勵設計系統,減少對人工設計獎勵的依賴。
- 結合觸覺模態:當前缺乏觸覺感知,限制了在高精度任務中的表現;未來將引入觸覺感知,進一步突破任務難度上限。
團隊相信,靈巧手是未來通用機器人的必備執行末端,而持續生成高質量靈巧手數據的能力,則是推動靈巧手真正走向現實和泛化的重要一步。


































