亞馬遜“盲眼”機器人30秒跑酷首秀驚艷!華人學者領銜
你見過這樣的“盲眼”機器人demo嗎?
它在完全看不見的情況下——沒有攝像頭、雷達或任何感知單元——主動搬起9斤重的椅子,爬上1米高的桌子,然后翻跟頭跳下。

不光耍酷,干起活來,搬箱子也不在話下。

還能一個猛子跳上桌子。

手腳并用爬坡也照樣OK。

這些絲滑小連招來自亞馬遜機器人團隊FAR(Frontier AI for Robotics)發(fā)布的首個人形機器人(足式)研究成果——OmniRetarget!

OmniRetarget使強化學習策略能夠在復雜環(huán)境中學習長時程的“移-操一體”(loco-manipulation)技能,并實現(xiàn)從仿真到人形機器人的零樣本遷移。

網友表示:又能跑酷、還能干活,這不比特斯拉的擎天柱強10倍?

接下來,讓我們一起看看他們是怎么做到的吧!
基于交互網格的動作重定向方法
總的來說,OmniRetarget是一個開源的數據生成引擎,它將人類演示轉化為多樣化、高質量的運動學參考,用于人形機器人的全身控制。

與通常忽略人-物體/環(huán)境之間豐富的交互關系的動作重定向方法不同,OmniRetarget通過一個交互網格(interaction mesh)來建模機器人、物體和地形之間的空間和接觸關系,從而保留了必要的交互并生成運動學可行的變體。
此外,保留任務相關的交互使得數據能夠進行高效的數據增強,進而從單個演示推廣到不同的機器人本體、地形和物體配置,以減少不同變體的數據收集成本。
在與其他動作重定向方法的對比中,OmniRetarget在所有關鍵方面:硬約束、物體交互、地形交互、數據增強表現(xiàn)出了全面的方法優(yōu)勢。

接下來就讓我們具體來看。

首先,OmniRetarget通過基于交互網格(interaction-mesh)的約束優(yōu)化,將人類示范動作映射到機器人上。

在研究中,交互網格被定義為一個體積結構,用于保持身體部位、物體與環(huán)境之間的空間關系。
交互網格的頂點由關鍵的機器人或人類關節(jié)以及從物體和環(huán)境中采樣的點組成。
通過收縮或拉伸該網格,研究可以在保持相對空間結構和接觸關系的前提下,將人類動作映射到機器人上。
在交互網格的構建過程中,研究人員對用戶定義的關鍵關節(jié)位置以及隨機采樣的物體和環(huán)境點應用德勞內四面體化(Delaunay tetrahedralization)。
(注:為了更精確地保持接觸關系,物體和環(huán)境表面的采樣密度高于身體關節(jié)的采樣密度。)
研究通過最小化源動作(人類示范關鍵點及對象/環(huán)境采樣點)與目標動作(機器人對應關鍵點及相同對象/環(huán)境點)之間的拉普拉斯形變能(Laplacian deformation energy),讓機器人動作盡量保持與人類示范一致的空間和接觸關系。
拉普拉斯坐標衡量每個關鍵點與其鄰居點之間的相對關系,從而在重定向動作時保留局部空間結構和接觸關系。
在每個時間幀,算法通過求解約束非凸優(yōu)化問題來獲得機器人配置,包括浮動底座的姿態(tài)和平移以及所有關節(jié)角度,同時滿足碰撞避免、關節(jié)和速度限制,以及防止支撐腳滑動等硬約束。
優(yōu)化則使用順序二次規(guī)劃風格的迭代方法,每幀以上一幀的最優(yōu)解作為初值,以保證時間上的連續(xù)性和平滑性。
由此,基于交互網格的方法可適配不同機器人形態(tài)和多種交互類型,只需調整交互網格中的關鍵點對應關系和碰撞模型。

其次,每一次空間和形狀的增強都被視為一個新的優(yōu)化問題,從而生成多樣化的軌跡。

具體來說,OmniRetarget通過參數化地改變物體配置、形狀或地形特征,將單個人類演示轉化為豐富多樣的數據集。
對于每個新場景,研究都會使用固定的源動作集和增強后的目標動作集重新求解優(yōu)化問題:通過最小化交互網格的形變,可以得到一組新的、運動學上有效的機器人動作,同時保留原始交互中的基本空間結構和接觸關系。
在機器人-物體的交互中,研究通過增強物體的空間位置和形狀來生成多樣化的交互(位姿和平移進行增強,并在局部坐標系中構建交互網格)。
為避免整個機器人隨物體發(fā)生簡單剛體變換,研究還在優(yōu)化中加入約束,將下半身固定到標稱軌跡,同時允許上半身探索新的協(xié)調方式,從而生成真正多樣化的交互動作。
在機器人-地形的交互中,研究通過改變平臺的高度和深度,并引入額外約束來生成多樣化的地形場景。
最后,在建立了高質量運動學參考的方法之后,研究使用強化學習來彌補動力學差異,即訓練一個低層策略,將這些軌跡轉化為物理可實現(xiàn)的動作,實現(xiàn)從仿真到硬件的零次遷移。
得益于干凈且保留交互的參考數據,OmniRetarget僅需最小化獎勵即可高保真跟蹤,無需繁瑣調參。
訓練時,機器人無法直接感知明確的場景和物體信息,僅依賴本體感知和參考軌跡作為復雜任務的先驗知識:
- 參考動作: 參考關節(jié)位置/速度,參考骨盆位置/方向誤差
- 本體感受 : 骨盆線速度/角速度,關節(jié)位置/速度
- 先前動作: 上一時間步的策略動作
在獎勵方面,研究使用五類獎勵(身體跟蹤、物體跟蹤、動作速率、軟關節(jié)限制、自碰撞)來保證動作質量,同時結合物體參數和機器人狀態(tài)的領域隨機化提升泛化能力。
此外,相似動作會分組訓練以加快策略收斂,不同的任務(如搬箱和平臺攀爬)則采用不同策略設置。

實驗結論
在實驗方面,研究團隊首先展示了OmniRetarget能實現(xiàn)的復雜行為的廣度,包括自然的物體操作和地形交互。
然后提供了針對最先進基線的定量基準測試,評估了在運動學質量指標和下游策略性能方面的表現(xiàn)。
正如我們開頭所展示的,搭載OmniRetarget的宇樹G1實現(xiàn)了一個類似波士頓動力的跑酷動作。
這個持續(xù) 30 秒、復雜的多階段任務突顯了OmniRetarget生成精確且通用參考動作的能力。
在可擴展性上,OmniRetarget在完整增強數據集上訓練和評估成功率為79.1%,與僅使用標稱動作的82.2%相近,說明運動學增強在不顯著降低性能的情況下實質性擴大了動作覆蓋范圍。
最后,研究團隊將OmniRetarget與PHC、GMR和VideoMimic等開源重定向基線進行了比較。
(注:實驗使用OMOMO、內部MoCap和LAFAN1數據集進行評估)

實驗結果顯示,在運動學質量上,OmniRetarget在穿透、腳部打滑和接觸保留指標上整體優(yōu)于所有基線,即使偶爾輕微穿透也能被 RL 修復。
下游強化學習策略評估表明,高質量重定向動作直接提升策略成功率,OmniRetarget在所有任務中均領先基線 10% 以上,且表現(xiàn)更穩(wěn)定。
One more thing
值得一提的是,OmniRetarget背后的Amazon FAR (Frontier AI & Robotics)成立僅七個多月,由華人學者領銜。

FAR的前身是著名機器人技術公司Covariant,創(chuàng)始人均為出自UCBerkeley的Pieter Abbeel、Peter Chen、Rocky Duan 和Tianhao Zhang。
(注:Pieter Abbeel是Rocky Duan和Tianhao Zhang的導師)
其中,Pieter Abbeel可謂是機器人領域的大佬,他是伯克利機器人學習實驗室(Berkeley Robot Learning Lab)主任以及伯克利人工智能研究實驗室(Berkeley AI Research, BAIR)的聯(lián)合主任。

早在去年8月,亞馬遜就與Covariant達成協(xié)議,獲得該公司技術的“非排他性”許可,聘用Covariant四分之一的員工,同時Covariant的創(chuàng)始人Pieter Abbeel、Peter Chen、和Rocky Duan也將加入亞馬遜。
目前,由Rocky Duan擔任Amazon FAR研究負責人。
而OmniRetarget這次令人驚艷的亮相,正是Amazon FAR 在人形機器人(足式)領域的首次嘗試。
不得不說,亞馬遜(Amazon)的機器人,真的有點驚艷(Amazing)。
已經開始期待他們之后的工作了!

























