突破具身智能“專家困境”!北大新方法讓宇樹G1靠單一框架掌握跳舞和側手翻
人形機器人對跳舞這件事,如今是越來越擅長了。
比如跳一支查爾斯頓舞,一分四十秒的絲滑搖擺,穩定得像踩著節拍器:

不過,它們能否像人類一樣自如切換跳舞、體操、日常操作等不同的動作模式?
北京大學與BeingBeyond團隊聯合研發的BumbleBee系統給出了最新答案:通過創新的“分治-精煉-融合”三級架構,該系統首次實現人形機器人在多樣化動作中的穩定控制。
破解“專家困境”與“現實鴻溝”
傳統人形機器人控制策略長期面臨兩大核心挑戰:
- 專家困境:單一任務優化導致系統復雜度增長,難以覆蓋多場景需求。
- 現實鴻溝:仿真環境訓練的策略在真實物理世界中表現斷崖式下降,動作執行精度與穩定性無法保障。
BumbleBee系統通過“分治-精煉-融合”三級架構,首次在單一控制框架內實現從專家策略優化到通用全身控制的跨越,為通用具身智能控制提供了全新解決方案。

運動-語義聯合驅動的動作分類:構建動作理解的“雙通道”
系統通過多模態特征構建與聯合隱空間對齊,實現動作在運動學與語義層面的雙重表征:
- 運動學特征提取:基于SMPL格式的人類運動序列,通過前向運動學轉換為世界坐標系中的3D關節坐標(如頭部、骨盆、手腳等關鍵點),并補充腳部速度、根節點位移等動態物理量;最后通過Transformer編碼。
- 語義特征編碼:利用BERT模型對動作文本描述(如“托馬斯回旋:水平旋轉360度,雙手支撐地面”)進行編碼處理,并通過Transformer映射至與運動特征同維度的隱空間。
- 聯合潛在空間對齊:通過對比學習將運動特征與語義特征在同一隱空間對齊,確保具有相似語義或者運動特征的動作在隱空間中靠近,形成運動-語義聯合表征。
- K-means聚類:在隱空間中對運動數據進行分類,形成結構化數據集。相較于傳統手工分類,該方法自動捕捉動作的運動學特征與語義的關聯,使聚類結果在運動學與語義上的一致性得到提升。

仿真到現實的差異建模:彌合“現實鴻溝”
- 專家策略訓練:在每個動作簇內訓練專家運動跟蹤策略,并通過增量動作模型(Delta Action)補償仿真與現實的物理差異(如電機延遲、地面摩擦力變化)。
- 多專家融合的通用策略:通過DAgger算法將多個專家策略的知識蒸餾到一個通用策略中,實現跨動作類型的無縫切換。在MuJoCo仿真環境中,通用策略的成功率達66.84%,顯著優于各類基線方法;真實機器人實驗中,幾分鐘的連續舞蹈動作成功率100%。
實驗驗證:數據驅動的性能突破
仿真環境:超越基線的全面優勢
研究人員在IsaacGym和MuJoCo仿真環境進行了全面評估,使用任務成功率(SR)、關節角誤差(MPJPE)、關鍵點誤差(MPKPE)等指標對比現有方法:
在更接近真實的MuJoCo環境中,BumbleBee的成功率達到66.84%,顯著優于其他基線(最高僅50.19%)。

真實機器人:穩定與靈活的雙重驗證
在Unitree G1平臺上,系統表現出以下特性:
- 動作穩定性:輕而易舉地完成各類長程舞蹈任務。

- 高難度動作控制:可以進行托馬斯回旋、側手翻等動作。

接下來,研究團隊計劃在以下方向持續突破:
- 多模態感知融合:整合視覺-慣性里程計與觸覺反饋,提升動態環境適應性。
- 自然語言指令驅動:通過自然語言指令直接生成動作序列(如“跳一段歡快的舞蹈”)。
項目主頁:https://beingbeyond.github.io/BumbleBee/
論文鏈接:https://arxiv.org/abs/2506.12779v2






























