宇樹機器人強化學(xué)習(xí)代碼全面開源，還有訓(xùn)練到仿真和實操手把手教學(xué)

作者：量子位 2024-12-17 13:00:00

一開始，宇樹開源的是英偉達Issac Gym平臺上的訓(xùn)練代碼，這次新增了對MuJoCo模擬仿真的支持。

9.9萬元起，還能夠大規(guī)模量產(chǎn)的國產(chǎn)人形機器人，表現(xiàn)得實在是太6了：

而且還走上了開源路線，就在剛剛，宇樹機器人開源的強化學(xué)習(xí)代碼又更新了！

更新之后不再是只能訓(xùn)練——不僅能夠仿真運行，還能部署到實體機器，整個過程所有代碼全部開放。

一開始，宇樹開源的是英偉達Issac Gym平臺上的訓(xùn)練代碼，這次新增了對MuJoCo模擬仿真的支持。

而且還能遷移到實體機器人上運行，目前支持宇樹的H1、H1-2和G1三款機器人。

這下從訓(xùn)練到模擬再到真機運行，整個RL套件的開源體系終于完整了。

看到這個消息，有網(wǎng)友激動地表示，訓(xùn)練機器人靈魂的方法終于公開了！

全過程代碼公開，還有詳細教程

宇樹給這個項目取名叫RL GYM，可能和一開始專門提供基于Issac Gym的訓(xùn)練代碼有關(guān)。

現(xiàn)在RL GYM又支持了MuJoCo，可以在預(yù)訓(xùn)練的基礎(chǔ)上進行仿真模擬了。

訓(xùn)練階段的Issac Gym需要CUDA，也就是需要N卡，仿真階段的MuJoCo則支持各種GPU，甚至CPU和TPU也能運行。

從環(huán)境的安裝配置，到訓(xùn)練和模擬，以及最后的真機遷移，不僅有代碼，還有非常詳細的手把手教程。

以最新款的G1為例，在Issac Gym里訓(xùn)練完之后的效果是這樣的：

放到MuJoCo里模擬，就有了開頭看到在這段DEMO：

最后遷移到G1真機，就能看到訓(xùn)練的效果了（并且真機遷移的部分還有中文教程）：

H1和H1-2也與此類似，另外通過RL GYM還可以在Issac Gym里訓(xùn)練機器狗Go2：

在宇樹的整個開源體系當(dāng)中，RL GYM只是其中一環(huán)，在宇樹所有的GitHub倉庫中星標(biāo)數(shù)排第三。

排第一的是針對開源機器人系統(tǒng)R(obot)OS推出的模擬包，包含了宇樹系列機器人的質(zhì)量、慣量、力矩等參數(shù)。

星標(biāo)數(shù)第二的則是使用蘋果Vision Pro對G1進行遙操作控制的倉庫，可以用于數(shù)據(jù)采集。

采集到的數(shù)據(jù)是JSON形式，而訓(xùn)練通過LeRobot實現(xiàn)，因此宇樹還提供了將JSON格式數(shù)據(jù)轉(zhuǎn)為LeRobot所需格式的教程。

其中包含遙操作控制的代碼教程，以及硬件配置圖、物料清單和安裝說明：

除了GitHub上發(fā)布的這些工具，宇樹還在HuggingFace上公開了訓(xùn)練數(shù)據(jù)集，與數(shù)據(jù)采集工具同期發(fā)布。

數(shù)據(jù)集包含五種操作，使用配備有三指靈巧手的宇樹G1人形機器人收集，每張圖分辨率為640x480，每個手臂和靈巧手的狀態(tài)和動作維度為7。

比如，利用這套數(shù)據(jù)集可以讓機器人學(xué)習(xí)擰瓶蓋倒水：

將三色積木疊放到一起：

此外還包括將攝像頭放入相應(yīng)包裝盒、收集物品并存儲、雙臂抓取紅色木塊并將其放入一個黑色長方形容器中這些操作。

最后，宇樹開源的也不只是和機器人相關(guān)的項目。

上個月宇樹發(fā)布了售價419美元的激光雷達，在產(chǎn)品上線的同時就將其采用的Point-LIO算法進行了開源。

項目倉庫：https://github.com/unitreerobotics/unitree_rl_gym

責(zé)任編輯：張燕妮來源：量子位