機(jī)器人“會(huì)用手”了!銀河通用首破手掌任意朝向旋轉(zhuǎn)難題,擰螺絲、砸釘子樣樣精通
做靈巧手如果不會(huì)用工具,跟咸魚(夾爪)有什么區(qū)別?
別急,能擰螺絲、掄錘子,玩“轉(zhuǎn)”各類工具的靈巧手,這就來了。

上面這位擰螺絲的“老師傅”,出自銀河通用最新推出的靈巧手神經(jīng)動(dòng)力學(xué)模型DexNDM。
在DexNDM的加持下,靈巧手實(shí)現(xiàn)了從能動(dòng)到能用的飛躍,通過分布有偏的真實(shí)數(shù)據(jù)訓(xùn)練,無需成功示例,即可精準(zhǔn)彌合Sim2Real鴻溝,首次讓通用靈巧手能夠?qū)Χ囝愇矬w實(shí)現(xiàn)穩(wěn)定、多姿態(tài)、多軸向的旋轉(zhuǎn)操作。
- 跨物體精準(zhǔn)操控:從微小零件到大書本、長(zhǎng)棍、復(fù)雜幾何體,首次實(shí)現(xiàn)跨類別、跨尺寸、跨姿態(tài)的穩(wěn)定旋轉(zhuǎn)。
- 任意姿態(tài)多軸旋轉(zhuǎn):無論手掌朝上、朝下或側(cè)向,均能沿任意軸向進(jìn)行穩(wěn)定、持續(xù)的旋轉(zhuǎn)。
- 高靈巧高魯棒遙操作:可自如地抓、轉(zhuǎn)、擰各類工具,勝任擰螺絲、家具組裝等長(zhǎng)程、復(fù)雜操作任務(wù)。
- 彌合Sim2Real的鴻溝:無需成功操作數(shù)據(jù),僅憑分布有偏的真實(shí)數(shù)據(jù)即可完成高精度學(xué)習(xí),克服靈巧操作Sim2Real的差距,實(shí)現(xiàn)了“從0到1”的突破。
圖片
這下,離流水線和廚房里的靈巧機(jī)器人,真不遠(yuǎn)了!
手內(nèi)操作的通用策略
如上所述,DexNDM的核心突破在于首次在真實(shí)世界中突破了手掌任意朝向的物體旋轉(zhuǎn)限制,實(shí)現(xiàn)了跨物體、跨姿態(tài)的穩(wěn)定手內(nèi)旋轉(zhuǎn)(In-Hand Rotation)與工具操作(Tool Use)。
具體來說,DexNDM能在極具挑戰(zhàn)的手腕姿態(tài)下(如手掌朝下或側(cè)向),實(shí)現(xiàn)長(zhǎng)物體沿長(zhǎng)邊的連續(xù)旋轉(zhuǎn),以及小物體在多種轉(zhuǎn)軸下的穩(wěn)定旋轉(zhuǎn)。
圖片
在操作對(duì)象上,DexNDM能處理從小型到細(xì)長(zhǎng)、從簡(jiǎn)單幾何到復(fù)雜結(jié)構(gòu)的多種物體。
圖片
那么,這是怎么做到的呢?

這里的關(guān)鍵在于DexNDM的關(guān)節(jié)級(jí)神經(jīng)動(dòng)力學(xué)模型( JOINT-WISE NEURAL DYNAMICS MODEL)。
不同于以往整手建模的方式,DexNDM將復(fù)雜的手–物交互拆解到關(guān)節(jié)級(jí),讓每個(gè)關(guān)節(jié)獨(dú)立預(yù)測(cè)自身的下一狀態(tài),完成整手的運(yùn)動(dòng)預(yù)測(cè)。
這種分解不僅顯著提升了數(shù)據(jù)利用效率,還能增強(qiáng)模型在不同物體、姿態(tài)下的泛化能力。
為了學(xué)習(xí)到具有良好泛化性的動(dòng)力學(xué)模型,團(tuán)隊(duì)開發(fā)了一套全自動(dòng)數(shù)據(jù)收集策略。
圖片
在任務(wù)無關(guān)的隨機(jī)擾動(dòng)下,機(jī)器人能自主生成豐富的接觸數(shù)據(jù),不用人工重置,也不會(huì)頻繁“翻車”。
這樣,模型可以在廉價(jià)、可擴(kuò)展的數(shù)據(jù)上學(xué)習(xí)到足夠豐富的交互動(dòng)力學(xué)。
基于此,研究者進(jìn)一步訓(xùn)練了一個(gè)殘差策略網(wǎng)絡(luò),用于彌合仿真到現(xiàn)實(shí)的差距,使仿真中學(xué)到的基礎(chǔ)策略能夠順利遷移到真實(shí)世界。
在策略學(xué)習(xí)上,DexNDM采用了“從專家到通才(expert-to-generalist)”的訓(xùn)練流程:
先針對(duì)不同長(zhǎng)寬比與幾何復(fù)雜度的物體訓(xùn)練多個(gè)專家策略,再將它們?nèi)诤咸釤挒橐粋€(gè)統(tǒng)一的通用策略,從而實(shí)現(xiàn)跨任務(wù)、跨形態(tài)的穩(wěn)定操作。
仿真與真實(shí)環(huán)境的測(cè)試表明,DexNDM的操作靈活性、魯棒性與泛化能力都得到了顯著提升:
不僅首次在手掌朝下的姿態(tài)下,實(shí)現(xiàn)了10–16cm長(zhǎng)物體沿長(zhǎng)軸的空中完整旋轉(zhuǎn),還能夠穩(wěn)定泛化到更多、更具挑戰(zhàn)性的物體類型。
圖片
此外,研究還將這套通用旋轉(zhuǎn)策略作為底層技能接入遙操作系統(tǒng)。
操作者只需通過VR控制器給出臂端位姿或旋轉(zhuǎn)軸等高層指令,DexNDM即可自主完成手指層面的精細(xì)控制。
這種方式克服了傳統(tǒng)遙操作在精細(xì)操作中的根本難題——人手與機(jī)械手在自由度、傳感和動(dòng)力學(xué)上的不匹配。
借助DexNDM,機(jī)器人不僅能“抓得穩(wěn)、放得準(zhǔn)”,還能完成復(fù)雜的、涉及旋轉(zhuǎn)的手—物—物交互,實(shí)現(xiàn)工具使用與長(zhǎng)程裝配等對(duì)系統(tǒng)魯棒性要求極高的任務(wù),真正邁向“能轉(zhuǎn)能用”的靈巧操作。
從簡(jiǎn)單抓取到精細(xì)操作
值得一提的是,DexNDM解決的是機(jī)器人研究中最具挑戰(zhàn)性的手內(nèi)操作中的關(guān)鍵問題——手內(nèi)旋轉(zhuǎn)(in-hand rotation)。
這一突破之所以意義重大,是因?yàn)樗苯油苿?dòng)了機(jī)器人從簡(jiǎn)單能力向精細(xì)操作能力的跨越。
整體來看,機(jī)器人的能力大致可分為運(yùn)動(dòng)能力與操作能力兩類。
運(yùn)動(dòng)能力,是我們熟悉的“跑”“跳”“翻”——以及保持全身穩(wěn)定的whole-body control。
如今,機(jī)器人不再需要被繩子吊著防摔,甚至在人為干擾下仍能穩(wěn)住身形,各種翻跟頭、跳舞的demo展示也是層出不窮。
而站穩(wěn)之后,想讓機(jī)器人真正具備生產(chǎn)力,關(guān)鍵還在于——操作(manipulation)。
圖片
所謂操作,就是機(jī)器人真正“動(dòng)手干活”的能力,它包括:
- 抓取:改變物體相對(duì)于機(jī)器人本體的位置,如拿起/放下物體。
- 環(huán)境輔助操作:借助外界完成任務(wù),如桌子,平臺(tái)等。
- 柔性物體操作:處理衣物、繩索、液體等。
- 手內(nèi)操作:在不借助外部環(huán)境或支撐的情況下,僅通過機(jī)械手的手指運(yùn)動(dòng)和調(diào)整抓取姿勢(shì)來改變物體在手掌中的位置和姿態(tài),如DexNDM對(duì)應(yīng)的手內(nèi)旋轉(zhuǎn)。
- 工具操作:涉及與環(huán)境或另一個(gè)物體持續(xù)、強(qiáng)烈的物理接觸,通常用于完成特定的精細(xì)任務(wù)。
雖然目前大部分的末端執(zhí)行器都能很好地完成抓取任務(wù),但簡(jiǎn)單抓取的應(yīng)用范圍十分有限,主要集中在上下料、分揀等場(chǎng)景,遠(yuǎn)未觸及真正的工業(yè)級(jí)生產(chǎn)力。
因此,靈巧操作必須從“能抓能放”邁向“能轉(zhuǎn)能用”,以實(shí)現(xiàn)更復(fù)雜、更精細(xì)的動(dòng)作。
然而,這恰恰是機(jī)器人研究中最難啃的骨頭。
機(jī)器人先驅(qū)Rodney Brooks曾說:
靈巧操作是通用機(jī)器人部署中最艱難的前沿。
原因很簡(jiǎn)單,靈巧手雖帶來了比夾爪更高的自由度,但也帶來了成倍的控制難度。
馬斯克也曾感嘆:
人類的手極其精密復(fù)雜……它可以揮棒、穿針、彈琴,也能拆車裝車。若要造出真正通用的人形機(jī)器人,必須先解決手的問題。
圖片
可以說,想實(shí)現(xiàn)真正通用的靈巧操作,就必須攻克靈巧手的精細(xì)操作。
其中,手內(nèi)旋轉(zhuǎn)和工具使用能力正成為學(xué)界研究的焦點(diǎn),代表了靈巧操作向更高維度發(fā)展的趨勢(shì)。
前者讓機(jī)器人能靈活調(diào)整抓取姿態(tài),使操作更順手,后者則讓機(jī)器人真正能“干活”,擰螺絲、砸釘子、切割、組裝。
但這兩項(xiàng)能力,也正是難度的巔峰。它們涉及復(fù)雜且快速變化的手–物接觸和手–物–物交互,是靈巧操作皇冠上的明珠。
而DexNDM的突破,就在于此。它同時(shí)攻克了“旋轉(zhuǎn)”和“使用”這兩大難題:既能實(shí)現(xiàn)高精度的手內(nèi)旋轉(zhuǎn),也能靈活處理多種工具的操作任務(wù)。
更重要的是,只有當(dāng)機(jī)器人能可靠地完成這類操作,語言、視覺等高層智能規(guī)劃,才能真正落地為具體的動(dòng)作與執(zhí)行。
這正是通用機(jī)器人與具身智能落地的關(guān)鍵瓶頸。
不過,要做到這一點(diǎn),并不容易。
通用的手內(nèi)旋轉(zhuǎn)策略
直觀地看,在擰螺絲這樣的場(chǎng)景中,靈巧手無法像手掌朝上時(shí)那樣依賴重力來穩(wěn)定物體。
為了不讓螺絲刀滑落,模型必須精確控制更多的自由度,實(shí)現(xiàn)對(duì)姿態(tài)、力和接觸的協(xié)調(diào)控制。
過去的手內(nèi)操作方法大多只能處理特定物體或固定姿態(tài),依賴昂貴或定制化硬件,難以推廣到更通用的場(chǎng)景。
其根源在于靈巧手本身的高自由度(人手有21個(gè)自由度,加上手腕就有27個(gè)自由度)與復(fù)雜耦合:關(guān)節(jié)彼此影響,手與物體之間的接觸不斷變化,建模極其困難。
再加上執(zhí)行過程中存在自遮擋、傳感不完全等問題,模型往往無法準(zhǔn)確捕捉這些微妙的動(dòng)力學(xué)細(xì)節(jié)。
更棘手的是,仿真與現(xiàn)實(shí)之間的動(dòng)力學(xué)差距依舊巨大。許多策略在仿真環(huán)境下表現(xiàn)完美,一旦進(jìn)入現(xiàn)實(shí)就“翻車”。而想依靠真實(shí)數(shù)據(jù)修正,又要承擔(dān)高昂的采集成本和失敗風(fēng)險(xiǎn)。
例如,CMU與Meta在《Science Robotics》封面論文 “NeuralFeels with Neural Fields” 中引入視覺-觸覺融合模型,以彌補(bǔ)純視覺感知的不足,但依然難以跨越Sim-to-Real的鴻溝。
圖片
ICRA 2023的BACH (Belt-Augmented Compliant Hand) 則通過皮帶增強(qiáng)的柔性機(jī)械手實(shí)現(xiàn)了手腕向下的旋轉(zhuǎn)操作,但這種特殊結(jié)構(gòu)難以遷移,也帶來了額外的硬件成本。
圖片
類似地,DexCtrl在旋轉(zhuǎn)軸通用性上取得進(jìn)展,卻仍受限于物體復(fù)雜度。
圖片
而DexGen雖能執(zhí)行擰螺絲任務(wù),卻缺乏對(duì)目標(biāo)物體運(yùn)動(dòng)的精確控制。
圖片
在這些方法中,我們可以窺見,當(dāng)前的手內(nèi)操作方法往往局限于特定場(chǎng)景(如固定手腕朝向)、只能處理有限集合的常規(guī)物體,或依賴昂貴、定制化硬件。即便在單一維度(如旋轉(zhuǎn)軸)上實(shí)現(xiàn)了通用性,仍難以在多維操作中保持穩(wěn)定表現(xiàn)。
在這樣的背景下,DexNDM實(shí)現(xiàn)了實(shí)質(zhì)性飛躍——首次構(gòu)建了能夠跨物體類別、跨姿態(tài)任務(wù)的通用手內(nèi)操作策略。
它不僅為遙操作系統(tǒng)的數(shù)據(jù)生成與策略遷移提供了堅(jiān)實(shí)基礎(chǔ),也為靈巧操作的工業(yè)化落地奠定了條件:樣本效率更高、泛化性更強(qiáng)、能力可復(fù)用,為具身智能研究提供了新的底層基礎(chǔ)設(shè)施。
同時(shí),遙操應(yīng)用也可進(jìn)一步擴(kuò)展至廣泛的任務(wù)類型,協(xié)助獲取各類任務(wù)所需的操作數(shù)據(jù)。
生產(chǎn)力即產(chǎn)品
DexNDM的意義不僅在于一個(gè)新的模型,更在于它推動(dòng)了靈巧操作這一“皇冠上的明珠”從學(xué)術(shù)研究走向了可復(fù)用的生產(chǎn)力基礎(chǔ)設(shè)施。
從最初的搬箱、上下料,到如今能擰螺絲、砸釘子、裝配家具、使用工具,靈巧操作正逐步從機(jī)械重復(fù)勞動(dòng)者,進(jìn)化為真正具備操作智慧的“生產(chǎn)力單元”。
借助這一底層能力,機(jī)器人不再局限于演示性的“抓取放置”,而能在工業(yè)裝配、家具組裝、工具使用等多場(chǎng)景中實(shí)現(xiàn)可擴(kuò)展部署,持續(xù)提升實(shí)際生產(chǎn)力。
在典型的裝配任務(wù)中,這一“能干活的機(jī)器人”的雛形已初現(xiàn)端倪:
第一步,靈巧手使用螺絲刀,將電路板核心部件固定。
它能在手內(nèi)微調(diào)螺絲刀的姿態(tài),使其在最順手的角度下施力;對(duì)準(zhǔn)M2微小螺絲孔后,精準(zhǔn)施壓旋入,既不打滑也不損板。
第二步,安裝音量旋鈕。
五指協(xié)同穩(wěn)握木質(zhì)旋鈕,調(diào)整內(nèi)螺紋與軸心對(duì)位后,完成大角度旋轉(zhuǎn)——就像擰緊瓶蓋那樣流暢。
第三步,安裝裝飾性部件。
靈巧手先夾持鉚釘定位,再旋轉(zhuǎn)調(diào)整小錘的握姿,輕敲入位,力量精準(zhǔn)、節(jié)奏分明。
這三步展示了從手內(nèi)旋轉(zhuǎn)到多指協(xié)調(diào)、從靜態(tài)操作到動(dòng)態(tài)敲擊的全鏈路靈巧控制,也標(biāo)志著靈巧操作正在從“抓取”走向“使用工具”,從“重復(fù)動(dòng)作”邁向“任務(wù)理解”,成為真正的生產(chǎn)力。
正如銀河通用機(jī)器人創(chuàng)始人、CTO王鶴所說:
如果大模型提倡的是智能即產(chǎn)品,那么具身智能提倡的就是生產(chǎn)力即產(chǎn)品。
最后,讓我們回到開頭的問題:靈巧手和夾爪的區(qū)別是什么?
——生產(chǎn)力。
論文鏈接:https://arxiv.org/abs/2510.08556
項(xiàng)目網(wǎng)站:https://meowuu7.github.io/DexNDM/






























