單圖6D姿態估計新突破!OnePoseViaGen: 一個視頻即可6D位姿估計,助力6D姿態估計邁向真實機器人應用
本研究針對單幅圖像的6D物體姿態估計任務,提出了一種無需已知物體姿態的快速準確估計流程。首先利用單視圖3D生成技術構建高保真紋理網格,通過由粗到精的對齊模塊解決尺度模糊問題,結合2D-3D特征與深度信息實現初始姿態估計。為解決數據稀缺問題,引入文本引導的生成式增強技術生成多樣化3D模型,并通過Blender渲染合成大規模領域隨機化訓練數據,顯著提升模型泛化能力。實驗表明,該方法在多個基準測試中取得最優性能,并在新自然數據集和真實機器人抓取任務中驗證了魯棒性。



相關鏈接
- 源碼:??https://github.com/GZWSAMA/OnePoseviaGen??
- 項目:https://gzwsama.github.io/OnePoseviaGen.github.io/
- 試用:https://huggingface.co/spaces/ZhengGeng/OnePoseviaGen
- 論文:coming soon...

論文介紹
從單幅參考圖像估計任意物體的 6D 姿態是機器人技術領域一項關鍵而又極具挑戰性的任務,尤其考慮到現實世界實例的長尾分布。雖然基于類別和模型的方法已經取得了顯著進展,但它們在單次訓練設置下推廣到未見過的物體方面仍然有限。在本研究中,我們提出了一種新穎的流程,用于快速準確地進行單次 6D 姿態和尺度估計。利用單視圖 3D 生成領域的最新進展,我們首先構建高保真紋理網格,而無需已知物體姿態。為了解決尺度模糊性,我們引入了一個由粗到精的對齊模塊,該模塊通過將 2D-3D 特征與深度信息進行匹配來估計物體大小和初始姿態。然后,我們使用文本引導的生成式增強技術生成一組多樣化的可信 3D 模型,并使用 Blender 進行渲染,從而合成大規模、領域隨機化的訓練數據,用于姿態估計。這些合成數據彌補了領域間的差距,并支持對姿態估計器進行魯棒的微調。我們的方法在多個 6D 姿態基準測試中取得了最佳結果,并在新收集的自然數據集上進一步驗證了其有效性。最后將系統與靈巧手集成,展示了其在現實世界機器人抓取任務中的穩健性。

概述

圖 2 展示了OnePoseviaGen 概覽。給定一個包含感興趣對象的錨點 RGB-D 圖像 I A ,主要挑戰是在沒有預先存在的 3D 模型的情況下估計其 6D 姿態,這是新物體的常見限制。為了解決這個問題,如圖 2 左上角所示,首先利用單視圖 3D 生成的最新進展來創建具有標準化方向和比例的紋理 3D 模型。然而,這個生成的模型存在于一個標準化的空間中,缺乏真實世界的比例。為了恢復物體在錨圖像幀中的真實大小和位置,引入了一個粗到細的對齊模塊。該模塊將標準化的生成模型與 I A中的部分物體觀測值對齊,同時估計物體的度量比例和初始 6D 姿態。一旦建立了錨視圖中的度量尺度模型,就可以使用對齊的模型和穩健的姿態估計框架(包括用于處理潛在物體對稱性的姿態選擇模塊)有效地估計后續查詢 RGB-D 圖像 I Q中物體的姿態。然后根據兩個視圖中的絕對姿態計算最終的相對變換 T A→Q。此外,認識到合成生成的模型和真實世界圖像之間的領域差距,如圖 2 下部所示,提出了一種文本引導的生成增強策略以創建一組多樣化的可信 3D 模型。然后使用這些多樣化的模型來合成大規模、領域隨機化的訓練數據集,從而實現姿態估計組件的穩健微調并彌合模擬到真實的差距,如我們的實驗結果所示。
實驗


- 公共數據集。在三個具有挑戰性的公共數據集上評估了我們的方法:YCBInEOAT(機器人交互)、Toyota-Light(TOYL)(具有挑戰性的照明)和LINEMOD Occlusion(LM-O)(雜亂、遮擋、無紋理的物體)。
- 真實世界評估。在真實世界環境中進行了兩項實驗:(1)通過我們的領域隨機化流程生成合成訓練數據,并在經過校準的真實數據集上進行測試,對不常見物體進行 6D 姿態估計;(2)機器人操作任務,使用配備 XHAND1 靈巧手的 ROKAE 機械臂和兩個 AgileX PiPER 建立抓取設置,并根據基線測量成功率。
本文轉載自??AIGC Studio??,作者:AIGC Studio

















