IROS 2025 | 機器人衣物折疊新范式，NUS邵林團隊用MetaFold解耦軌跡與動作

2025-09-03 09:09:00

本研究成功地提出并驗證了一個名為 MetaFold 的、用于機器人多類別衣物折疊的語言引導框架。

本文的共同第一作者為新加坡國立大學博士生陳浩楠，南京大學研究助理 / 本科生李駿驍和北京大學博士吳睿海。合作者為劉益偉、侯懿文、徐志軒、郭京翔、高崇凱、衛振宇、許申思、黃嘉祺。通訊作者為新加坡國立大學計算機學院助理教授邵林，研究方向為機器人和人工智能。

機器人對可形變物體的操作（Deformable Object Manipulation, DOM），是衡量通用機器人智能水平的關鍵指標之一。與剛體操作不同，衣物、繩索、食物等物體的形態不固定，其狀態空間維度極高，且物理交互過程呈現出復雜的非線性動力學特性，為感知、規劃和控制帶來了巨大挑戰。

傳統的服裝折疊方法往往依賴于預定義的關鍵點或演示數據 [1, 2]，這嚴重限制了它們在不同服裝類別間的泛化能力。現有研究大多采用基于規則的啟發式方法或依賴人工演示的學習方式，這些方法在面對多樣化的服裝類型和用戶指令時表現出明顯的局限性。

近年來，隨著基礎模型在計算機視覺和自然語言處理領域的巨大成功，研究者們開始探索將這些先進技術應用于機器人操作任務 [3]。視覺和語言引導的機器人操作已成為當前研究的熱點，它能夠讓機器人理解自然語言指令并執行相應的操作任務。然而，在可變形物體操作，特別是服裝折疊任務中，如何有效結合視覺和語言指導與物理操作仍然是一個亟待解決的問題。

在此背景下，MetaFold 旨在填補現有研究的空白：創建一個既能理解人類語言的豐富內涵和場景的視覺信息，又能精準、泛化地操作多類別衣物的、具有良好解釋性的機器人框架。

目前，該論文已被機器人領域頂級會議 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS 2025) 接收。

論文標題：MetaFold: Language-Guided Multi-Category Garment Folding Framework via Trajectory Generation and Foundation Model
論文鏈接：https://arxiv.org/abs/2503.08372
項目主頁：https://meta-fold.github.io/

MetaFold：基于軌跡生成和動作預測的分層架構

MetaFold 采用了一種創新的分層架構設計，將復雜的服裝折疊任務分解為兩個相對獨立的子問題：任務規劃（task planning）和動作預測（action prediction）。這種分離式設計受到人類神經系統結構的啟發 —— 大腦負責高級任務理解和物體識別，而脊髓和外周神經系統管理手部運動和抓取動作。

該框架的核心思想是通過語言引導的點云軌跡生成來處理任務規劃，同時使用低級基礎模型來進行動作預測。這種模塊化設計不僅簡化了訓練過程，還顯著提高了模型在不同服裝類別間的泛化能力。

Fig. 1 MetaFold 框架

數據集生成與標注

由于當前衣物折疊數據稀缺，研究團隊首先構建了一個包含 1210 個服裝和 3376 條軌跡的大規模數據集。該數據集基于 ClothesNet [4] 提供的服裝模型，使用 DiffClothAI [5] 可微分仿真器生成高質量的點云軌跡數據。

對于不同種類的衣物，研究團隊首先使用啟發式的方法生成折疊軌跡，并記錄每時刻的衣物網格。從連續幀的衣物網格中，可以提取出衣物的點云軌跡。研究團隊對這些衣物的折疊軌跡進行篩選，將失敗的折疊軌跡去除，構建了一個成功折疊的衣物折疊數據集。

數據集涵蓋了四種主要的折疊類型：（1）無袖折疊（包括連衣裙、裙子和無袖上衣）（2）短袖折疊（3）長袖折疊（4）褲子折疊。每個軌跡都配有相應的自然語言描述，用于指導折疊過程。

數據集已經在 huggingface 上開源：

開源地址：https://huggingface.co/datasets/chenhn02/MetaFold

軌跡生成模型

軌跡生成模型的核心是一個基于注意力機制的跨模態融合模型。它首先通過獨立的編碼器分別提取點云的幾何特征和語言指令的語義特征，然后利用交叉注意力機制來深度融合這兩種模態的信息，從而理解指令在特定幾何形態上的具體意圖。

該模型的輸出并非直接的機器人動作，而是衣物形態在未來的一系列幾何快照。這種以點云軌跡作為中間表征的設計是 MetaFold 的關鍵創新之一，其優勢在于：

解耦與抽象：它將「任務目標」的幾何定義從「如何實現該目標」的物理動作中剝離出來，顯著降低了學習的復雜性。
提升泛化性：無論是 T 恤還是連衣裙，「對折」這一動作在幾何形態上的變化具有共性。學習這種視覺 / 語言 - 幾何的映射，比學習視覺 / 語言 - 具體動作的映射更具泛化潛力。
可解釋性：生成的可視化點云軌跡為人類提供了一個直觀的窗口，以理解和驗證機器人的「任務規劃」是否符合預期。

軌跡生成模型基于條件變分自編碼器（CVAE）構建，其編碼器和解碼器均采用 Transformer 編碼器架構。該模型接收點云觀察和語言描述，生成點云軌跡。模型使用 PointNet++ 提取點云空間信息，得到點云特征。同時，LLaMA 模型處理語言描述的語義信息，經過降維后得到語言特征。

底層操作策略

ManiFoundation [6] 模型將操作任務形式化為接觸合成問題。接收兩個連續點云狀態，模型將輸出從上一個點云狀態轉移到下一個點云狀態所需要的動作。這個動作將以接觸合成的形式表示，即若干個接觸點和對應的運動方向。

為減輕隨機種子對預測結果的影響，系統采用模型集成方法，使用 160 個不同隨機種子生成多個預測結果。當兩個預測結果之間的距離小于閾值時，將它們歸為同一組，最終選擇排名最高的組內平均位置最近的點及其對應力作為輸出。

系統實施閉環反饋控制策略，在機器人執行動作后重新獲取服裝狀態，將當前點云輸入軌跡生成模型產生后續軌跡。這種設計使框架能夠適應環境擾動和變化，確保操作的魯棒性和精確性。

實驗結果與深度分析

數據集與評估指標

實驗在 Isaac Sim 仿真環境中進行，相比傳統的 PyFleX 仿真環境，該環境能夠提供更準確的服裝內力仿真和更低的網格穿透發生率。為了能同時衡量多種衣物的折疊效果，研究團隊采用三個關鍵評估指標：

矩形度（Rectangularity）：折疊后服裝面積與其邊界矩形的比值，評估折疊質量。
面積比（Area Ratio）：折疊后與初始服裝面積的比值，指示折疊緊密程度。
成功率（Success Rate）：矩形度超過閾值且面積比低于閾值的樣本比例。

性能對比分析

MetaFold 在多項指標上顯著優于現有方法。

在矩形度上，MetaFold 保持 0.80-0.87 的高水平。
在面積比指標上，MetaFold 實現 0.24-0.45，優于基線方法。
在成功率指標上，MetaFold 達到 79%-97%，顯著超過 UniGarmentManip [9] 的 42%-91% 和 GPT-Fabric [3] 的 3%-63%

在未見過的 CLOTH3D [7] 數據集上，MetaFold 仍然達到 79%-97% 的成功率，證明了其強大的跨數據集泛化能力。

在語言指導的實驗中，MetaFold 與基線比較了已見指令與未見指令的泛化能力。結果表明，MetaFold 在處理不同類型語言指令方面表現出色。除此之外，系統能夠處理復雜的用戶指令，如指定折疊順序（「先左后右」）等，即使這些順序在訓練數據中未出現過，模型仍能正確理解和執行。

真實環境驗證

研究團隊使用 uFactory xArm6 機器人配備 xArm Gripper 和俯視 RealSense D435 相機進行真實環境實驗。通過 SAM2 [8] 分割 RGB 圖像生成服裝掩碼，結合深度數據提取真實服裝點云。相比于 RGB 圖片，點云模態有更小的模擬與實際差距 (sim-to-real gap)，使其能夠直接遷移到真實環境，而無需另外訓練。

真實環境實驗證實了 MetaFold 從仿真到現實的有效遷移能力，成功完成了多種服裝的折疊任務，驗證了框架的實用性和魯棒性。

結論和展望

本研究成功地提出并驗證了一個名為 MetaFold 的、用于機器人多類別衣物折疊的語言引導框架。其核心貢獻在于：

提出了一種創新的解耦架構，將任務規劃與動作生成分離，有效提升了系統的性能、泛化性和可解釋性。
引入點云軌跡作為中間表征，為連接高級語義與底層控制提供了一種高效的橋梁。
構建并開源了大規模多類別服裝折疊點云軌跡數據集，為后續研究提供了寶貴資源。

責任編輯：張燕妮來源：機器之心

AI 機器人訓練