只演示一次,機器人就會干活了?北大&BeingBeyond聯合團隊用“分層小腦+仿真分身”讓G1零樣本上崗
近日,來自北京大學與BeingBeyond的研究團隊提出DemoHLM框架,為人形機器人移動操作(loco-manipulation)領域提供一種新思路——僅需1次仿真環境中的人類演示,即可自動生成海量訓練數據,實現真實人形機器人在多任務場景下的泛化操作,有效解決了傳統方法依賴硬編碼、真實數據成本高、跨場景泛化差的核心痛點。

核心挑戰:人形機器人移動操作的“三重困境”
移動操作是人形機器人融入人類環境的核心能力(如搬箱子、開門、遞物等),但長期受限于三大難題:
- 數據效率低:傳統方法需采集大量真實機器人遙操作數據,成本極高且難以規?;?;
- 任務泛化差:依賴任務特定的硬編碼設計(如預定義子任務、專屬獎勵函數),換任務需重新開發;
- Sim-to-Real遷移難:基于仿真訓練的策略常因物理引擎差異、傳感器噪聲,無法在真實機器人上穩定運行。
現有方案要么局限于仿真場景,要么需消耗數百小時真實遙操作數據,難以滿足家庭、工業等復雜場景的實用需求。

DemoHLM:分層架構與數據生成革新,破解三重困境
DemoHLM的核心創新在于“分層控制+單演示數據生成”雙引擎,既保證了全身運動的穩定性,又實現了極低數據成本下的泛化學習。
分層控制架構:兼顧靈活性與穩定性
DemoHLM采用“低層全身控制器+高層操作策略”的分層設計,解耦“運動控制”與“任務決策”:
- 低層全身控制器(RL訓練):負責將高層指令(如軀干速度、上半身關節目標)轉化為關節力矩,同時保證機器人全方位移動性與平衡能力。基于AMO框架優化,運行頻率50Hz,可穩定處理高接觸場景(如抓取、推物時的力交互);
- 高層操作策略(模仿學習):通過視覺閉環反饋(RGBD相機感知物體6D位姿),向低層發送任務導向的指令,實現復雜操作決策。支持ACT、Diffusion Policy等多種行為克?。˙C)算法,運行頻率10Hz,側重長時域規劃。
此外,團隊為機器人設計了2DoF主動頸部+RGBD相機(Intel RealSense D435),通過比例控制器實現“視覺追蹤穩定”,模仿人類操作時的視線調節能力,避免物體遮擋導致的感知失效。
單演示數據生成:從“1次演示”到“千條軌跡”
DemoHLM最關鍵的突破是無需真實數據,僅用1次仿真遙操作演示即可生成海量多樣化訓練數據,核心流程分三步:
- 演示采集:通過Apple Vision Pro捕捉人類動作,映射到仿真中的Unitree G1機器人,記錄1條成功操作軌跡(含關節位姿、末端執行器位姿、物體位姿);
- 軌跡轉換與分段:將演示軌跡拆解為“移動(Locomotion)、預操作(Pre-manipulation)、操作(Manipulation)”三階段,并且通過坐標系轉換實現泛化——
預操作階段:采用“物體中心坐標系”,確保機器人在不同物體初始位姿下,末端執行器能精準對齊目標;
操作階段:切換為“本體感知坐標系”,解決抓取/搬運時末端與物體相對靜止的軌跡生成難題;
- 批量合成:在仿真中隨機初始化機器人與物體位姿,自動調整各階段指令并replay,生成數百至數千條成功軌跡,形成訓練數據集。
這一過程完全自動化,規避了傳統模仿學習“數據采集地獄”,同時通過隨機化初始條件,天然提升了策略的泛化能力。
實驗驗證:從仿真到真實的穩定表現
團隊在仿真環境(IsaacGym)與真實Unitree G1機器人上,針對10項移動操作任務(如搬箱子、開門、倒水、遞物等)開展全面驗證,核心結果如下:

仿真:數據量與性能正相關,算法兼容性強
- 數據效率顯著:隨著合成數據量從100條增至5000條,所有任務成功率均大幅提升——例如“PushCube”成功率從52.4%升至89.3%,“OpenCabinet”從18.9%升至67.3%,且邊際收益逐漸收斂,證明數據生成 pipeline 的高效性;
- 算法適配靈活:在ACT、MLP、Diffusion Policy三種BC算法上均表現優異,其中ACT與Diffusion Policy性能接近(如“LiftBox”成功率均超96%),而簡單MLP因缺乏時序建模能力性能稍弱,驗證了框架對不同學習算法的兼容性。

Real-World:Sim-to-Real遷移穩定,多任務落地
在改裝后的Unitree G1(加裝3D打印夾爪、2DoF頸部和單目RGBD相機)上,DemoHLM實現零樣本遷移,10項任務中:
- 全成功率任務:LiftBox(搬箱子)、PressCube(按立方體)均實現5/5成功,操作流程與仿真高度一致;
- 高穩定任務:PushCube(推方塊)4/5成功、Handover(遞物)4/5成功,僅因地面摩擦差異導致個別失?。?/span>
- 復雜任務突破:GraspCube(抓方塊)、OpenCabinet(開門)等需精準力控制的任務,成功率超60%,在同類仿真訓練方法中位于前列。

關鍵原因在于:高層策略通過視覺閉環實時調整指令,抵消了仿真與真實的物理差異(如關節跟蹤誤差),確保操作行為的一致性。
行業價值與未來方向
DemoHLM的突破為人形機器人實用化提供了關鍵技術支撐:
- 降低落地成本:單演示+仿真數據生成,將訓練成本從“數百小時真實遙操作”降至“小時級仿真演示”,大幅降低行業應用門檻;
- 提升泛化能力:無需任務特定設計,1套框架適配多場景(家庭搬運、工業輔助、服務交互),加速機器人從“實驗室”到“真實環境”的落地;
- 推動技術融合:分層架構可兼容觸覺傳感器、多相機感知等升級,為未來更復雜場景(如遮擋環境、柔性物體操作)打下基礎。
團隊也指出當前局限:依賴仿真數據可能存在長期的Sim-to-Real偏差,單RGB-D相機在復雜遮擋場景性能受限,且暫不支持未建模物體的操作。未來將探索“仿真+真實數據混合訓練”“多模態感知融合”等方向,進一步提升魯棒性。
總結
DemoHLM以“單仿真演示驅動泛化移動操作”為核心,通過分層控制架構與高效數據生成 pipeline,破解了人形機器人訓練成本高、泛化差、遷移難的三大痛點。
其在Unitree G1上的真實落地驗證,證明了該框架的實用價值,為下一代人形機器人在家庭、工業、服務場景的規模化應用提供了重要技術路徑。
論文連接:https://arxiv.org/pdf/2510.11258
項目主頁:https://beingbeyond.github.io/DemoHLM/





























