波士頓動力Atlas人形機器人再現逆天進化:通用AI機器人真的要來了
不是標題黨,波士頓動力是真的很強,他們剛剛發布了一個視頻,直接硬控我了,這是我目前看到過最震撼的人形機器人,看視頻。

波士頓動力已經證明,可以訓練出多任務、語言驅動的策略模型,來控制自家的 Atlas人形機器人完成那些既需要移動又需要靈巧全身操作的長期任務。這種數據驅動的方法是通用的,幾乎可以應用于任何能通過遙控操作演示的任務。
波士頓動力野心還是很大的,從一開始就想著構建通用人形機器人,波士頓動力認為未來的通用人形機器人,需要掌握一長串復雜的技能。它們不僅要能靈巧地操作形態各異的物體(比如硬的/軟的、重的/輕的、剛性的/鉸接的、大的/小的),還需要協調整個身體來調整姿態、改造環境、躲避障礙,并在應對突發狀況時保持平衡。要讓機器人掌握這些能力,并最終實現人形機器人的規模化應用,構建通用人工智能機器人是那條最可行的路。
這次波士頓動力為自家的Atlas人形機器人訓練了一個全新的大型行為模型Large Behavior Models (LBMs)。

LBMs是一種端到端的、由語言指令驅動的策略模型,它能讓 Atlas 完成需要長遠規劃的復雜操作任務。
策略模型能夠充分利用人形機器人的獨特優勢,包括:邁步行走、精準落腳、彎腰下蹲、轉移重心、避免自我碰撞等等。研究發現,所有這些能力對于解決真實世界里的移動操作任務都至關重要。
構建策略模型的過程,主要包含四個基本步驟:
1. 通過遙控操作在真實機器人和仿真環境中,收集具身行為數據。
2. 處理、標注和篩選這些數據,使其能輕松地融入機器學習流程。
3. 使用所有任務收集到的全部數據,來訓練一個統一的神經網絡策略模型。
4. 使用一套專門的測試任務來評估這個策略模型的表現。

第四步的評估結果,將指導后續的決策——比如還需要收集哪些額外數據,或者應該調整哪種網絡架構或推理策略,才能進一步提升性能。

這個策略模型,能將圖像、本體感覺(proprioception)和語言提示等輸入信息,轉化為控制整個 Atlas 機器人以 30Hz 頻率活動的動作指令。研究人員采用了一種結合了流匹配損失(flow matching loss)的擴散型 Transformer(diffusion transformer)架構來訓練模型。
在整個實踐過程中,遵循了三大核心原則:
最大化任務覆蓋范圍: 理論上,人形機器人能處理的任務范圍極其廣泛。但要收集超越原地操作范疇的高質量、高響應度的動態數據,是極具挑戰的。為此,研究人員打造了一套頂尖的遙操作系統,它巧妙地結合了 Atlas 自身強大的模型預測控制器(Model Predictive Controller, MPC)和一套定制的 VR 交互界面,能夠完成從指尖級別的精細操作到全身參與的移動和抓取等各種任務。
訓練通用策略模型: 業界已有越來越多的證據表明,在一個龐大且多樣化的任務數據集上訓練出的通用策略模型,其泛化能力和恢復能力遠超那些只為解決一兩個特定任務而訓練的專家模型。采用多任務、語言指令驅動的策略模型,讓它能勝任多種任務,并且適配多種機器人形態。整合來自完整 Atlas 機器人、僅有上半身的 Atlas 操作測試臺以及豐田技術研究院的拉面機器人項目的數據。構建通用策略模型不僅簡化了部署流程,還能讓不同任務和機器人形態之間共享模型的改進成果,離解鎖涌現能力更近一步。
構建支持快速迭代和嚴謹科學研究的基礎設施: 能夠快速驗證設計方案至關重要,而能夠滿懷信心地衡量一個策略模型比另一個是好是壞,則是取得穩步進展的關鍵。通過將仿真、硬件測試和生產級別的機器學習基礎設施相結合,研究人員得以高效地探索數據和策略模型的設計空間,并持續提升機器人在真實世界中的表現。
長遠規劃、端到端的操作能力
維修站這個任務,完美展示了機器人如何協調運動與操作。它需要機器人完成踏步、開闊步站姿、下蹲等協調的移動,以及抓取零件、二次抓握、操控、放置和滑動等一系列靈巧的操作。整個任務包含三個子任務:
1. 從推車上抓取 Spot 機器人的腿部零件,將它們折疊好,然后放到架子上。

2. 從推車上抓取面板,然后拉開底層架子上的一個箱子,并將面板放進去。

3. 當推車被清空后,轉身面對身后的藍色箱子,將里面所有剩余的 Spot 零件,一把一把地抓取出來,并放入旁邊的藍色翻斗車中。

視頻一鏡到底,端到端,展示了由一個單一的、由語言驅動的策略模型來執行這完整的一系列任務。操作員只需向模型發送高級語言指令,就能觸發每一個子任務。
這正是策略模型的一大亮點:能夠智能應對意外情況,比如零件掉到地上,或是箱蓋突然合上了。最初版本的模型并不具備這些能力。但后來,研究人員向系統演示了機器人如何從這些干擾中恢復,然后用這些新數據重新訓練網絡。很快就部署了全新的、能夠靈活反應的策略模型,整個過程無需任何算法或工程上的修改。這背后是強大的學習能力:策略模型能僅憑傳感器的輸入,有效地評估世界當前的狀態,并完全基于訓練中學到的經驗做出相應的反應。如此一來,為 Atlas 編寫新的操作行為,不再需要高深的學位和多年的經驗積累。

更多令人驚嘆的操作能力
這次波士頓動力研究了數十個任務,它們既是基準測試,也一次次地拓展了我們對機器人操作能力的認知邊界。在 Atlas MTS 平臺上,用同一個語言驅動的策略模型,完成了從簡單的抓取-放置到更復雜的任務,比如打繩結、翻轉吧臺凳、展開并鋪平桌布,以及搬運一個重達 22 磅(約 10 公斤)的汽車輪胎。像繩索、布料和輪胎這類物體,由于其易變形的幾何特性和復雜的操作順序,用傳統的機器人編程技術來處理會極其困難。但對于大型行為模型(LBMs)來說,無論是堆疊剛性積木還是折疊 T 恤,訓練過程都是一樣的:只要你能演示一遍,機器人就能學會。

學習之后:自適應調整性能
策略模型還有一個顯著的特點是,可以在模型推理時,隨時加快執行速度,而無需重新訓練。具體來說,由于模型會預測一連串未來動作以及這些動作應該發生的時間點,就可以通過調整這個時間軸來控制執行速度。在下面的視頻中,對比了模型以 1 倍速(即數據采集時的原始速度)、2 倍速和 3 倍速執行任務的效果。總的來說,研究發現,無論是在 MTS 平臺上還是在完整的 Atlas 機器人上,將策略模型的執行速度提升 1.5 到 2 倍,都不會顯著影響其性能。雖然任務本身的物理特性有時會限制這種推理時的加速,但這確實表明,在某些情況下,甚至可以超越人類遙操作的速度極限。

方法
平臺
Atlas 機器人擁有 50 個自由度(Degrees of Freedom, DoF),這為它提供了廣闊的運動范圍和高度的靈活性;而 Atlas MTS 則擁有 29 個自由度,專注于純粹的操作任務研究。每個夾爪都有 7 個自由度,能夠運用多種抓握策略(如強力抓握、捏式抓握等)。依靠安裝在頭部的一對 HDR 立體攝像頭,為遙操作提供環境感知,同時也為策略模型提供視覺輸入。
遙控操作:為模型訓練收集高質量數據
要讓機器人以流暢、動態且靈巧的方式運動,一套頂級的遙操作系統至關重要,為此研究投入了大量精力。該系統構建于波士頓動力成熟的 MPC 系統之上,該系統曾被用于從跑酷、跳舞到各種實用與非實用的操作任務中。這套控制系統能夠在精確操作的同時保持平衡、避免自我碰撞,不斷挑戰 Atlas 硬件的極限。
遙操作裝置利用 VR 頭顯,讓操作員完全沉浸在機器人的工作空間中,并能獲取與策略模型完全相同的信息。通過 Atlas 頭部的攝像頭,立體視覺畫面被重新投影到用戶的視角,增強了空間感知能力。定制的 VR 軟件為遙操作員提供了一個信息豐富的界面,通過增強現實、控制器觸覺反饋和抬頭顯示元素,實時展示機器人狀態、控制目標、傳感器讀數和系統狀態。這使得操作員能夠充分利用機器人的硬件和能力,讓自己的身體和感官與機器人同步。

最初版本的 VR 遙操作應用,操作員只需站著不動,通過頭顯、基站、控制器和一個胸部追蹤器來控制 Atlas。這個系統采用了一對一的映射關系(例如,你的手移動 1 厘米,機器人的手也移動 1 厘米),帶來了非常直觀的控制體驗,尤其適合雙手協作任務。即使是這個版本,操作員也已經能完成各種任務,比如蹲下撿起地上的物體,或者站直去夠高處架子上的東西。然而,這個系統的一個局限是無法讓操作員動態地重新定位機器人的腳或讓它邁步,這極大地限制了能執行的任務類型。
為了支持移動操作,研究人員為雙腳增加了兩個額外的追蹤器,實現了腳部的一對一追蹤,并擴展了遙操作控制邏輯,使得 Atlas 的站姿模式、支撐區域和行走意圖都能與操作員保持一致。除了支持移動,這套裝置還讓我們能充分利用 Atlas 的整個工作空間。例如,當打開地上的藍色手提箱并從中取物時,操作員必須能讓機器人以寬闊的站姿和彎曲的膝蓋來夠到箱內的物體,同時避免與箱子發生碰撞。
神經網絡策略模型,使用了與遙操作員完全相同的機器人控制接口。可以輕松復用之前為無移動任務開發的模型架構,只需簡單地擴展動作的表示方式即可。
策略模型本體
策略模型建立在大型行為模型(Large Behavior Models)研究之上,該研究擴展了類似 Diffusion Policy 的架構。采用了一個擁有 4.5 億參數的、基于擴散型 Transformer 的架構,并結合了流匹配(flow-matching)目標進行訓練。該模型不僅接收本體感覺信息和圖像,還能接受指定機器人目標的語言提示。圖像數據以 30 Hz 的頻率輸入,網絡會利用一段歷史觀測數據來預測一個包含 48 個動作的動作塊(action-chunk),這對應著 1.6 秒的動作序列。在實際運行時(1 倍速下),每次策略模型推理后會執行其中的 24 個動作(即 0.8 秒的動作)。
Atlas 的觀測空間包括來自其頭部攝像頭拍攝的圖像和本體感覺信息。其動作空間則包括左右夾爪的關節位置、頸部偏航、軀干姿態、左右手姿態以及左右腳的姿態。
Atlas MTS 在機械和軟件層面都與 Atlas 的上半身完全相同。它的觀測和動作空間也與 Atlas 一致,只是省略了軀干和下半身的部分。這種跨 Atlas 和 Atlas MTS 的共享硬件與軟件設計,有助于訓練能夠同時在兩個平臺上運行的多機器人形態策略模型,能匯集來自兩種機器人的數據。
這些策略模型所用的數據,由團隊持續不斷地收集和迭代而來。高質量的演示數據是獲得成功模型的關鍵。研究高度依賴質量保證工具,它能幫助審查、篩選收集到的數據并提供反饋。
仿真
仿真是快速迭代的關鍵工具。它能迅速迭代遙操作系統、編寫單元測試和集成測試以確保系統穩定,并進行那些在真實硬件上會更慢、更昂貴且難以重復的信息化訓練和評估。由于仿真技術棧是硬件和機器人端軟件的忠實復現,研究得以在仿真和硬件平臺之間共享數據管道、可視化工具、訓練代碼、VR 軟件和接口。

除了使用仿真來評估策略模型和架構選擇,研究還把仿真作為一個重要的聯合訓練數據來源,用于部署在硬件上的多任務、多機器人形態的策略模型。

































