X-IL：系統化探索模仿學習策略的設計空間

發布于 2025-2-27 11:18

瀏覽

0收藏

摘要

模仿學習（Imitation Learning, IL）作為一種通過模仿示范來教授智能體復雜行為的范式，已經在機器人學習領域展現出巨大潛力。然而，隨著機器學習技術的快速發展，設計現代模仿學習策略需要在特征編碼、架構、策略表示等方面做出眾多決策，這些選擇構成了一個龐大且尚未被充分探索的設計空間。本文詳細分析了X-IL框架，這是一個開源的模塊化框架，旨在系統地探索模仿學習策略的設計空間。通過對X-IL的架構設計、核心組件以及在LIBERO和RoboCasa基準測試上的實驗結果進行深入分析，本文揭示了不同設計選擇對模仿學習性能的影響，并為未來研究提供了有價值的見解。

1. 引言

模仿學習（IL）已經成為一種強大的范式，可以通過模仿示范來教授智能體復雜行為，無需顯式的獎勵工程設計（Argall等，2009）。然而，各個領域新型機器學習技術的快速發展使得評估這些技術對模仿學習的潛在影響變得具有挑戰性。為了解決這個問題，研究者們提出了X-IL，這是一個創新框架，旨在將最近開發的技術整合到模仿學習流程中并進行探索。

X-IL框架將模仿學習過程分解為四個關鍵模塊：(1)觀察表示，(2)骨干網絡，(3)架構，以及(4)策略表示。每個模塊都是可互換的，使得研究者能夠系統地探索模仿學習策略的設計空間。這種模塊化設計促進了快速原型設計、基準測試和部署。

X-IL：系統化探索模仿學習策略的設計空間-AI.x社區

圖1：X-IL框架概述。 X-IL支持多模態輸入（語言、RGB和點云）以及兩種架構：僅解碼器和編碼器-解碼器。在每種架構中，骨干網絡作為核心計算單元，支持Transformer、Mamba和xLSTM。對于策略表示，X-IL支持行為克隆（BC）、基于擴散和基于流的策略，為模仿學習提供多樣化的學習范式。值得注意的是，每個組件——輸入模態、架構、骨干網絡和策略——都可以輕松交換，以高效探索各種模型配置。

2. 相關工作

2.1 多模態模仿學習

早期的模仿學習方法主要依賴于狀態（Schaal，1996；Ho & Ermon，2016）或圖像（Pomerleau，1988；Lynch等，2020）來描述環境和定義目標。然而，在現實場景中獲取準確的狀態信息并不簡單，基于狀態的表示難以捕捉非結構化環境的復雜性。雖然圖像為行為學習提供了豐富的表示（Mandlekar等，2021），但在模仿學習中使用圖像作為目標條件受到其在目標表示上的模糊性和目標指定困難的限制。

為了解決這些問題，研究者們探索了自然語言作為替代目標表示，提供了更直觀和易于訪問的方式來指定任務。最近的研究（Shridhar等，2022；Reuss等，2024b）探討了語言目標與圖像觀察的集成，使策略學習更加靈活。另一條研究路線通過微調視覺-語言模型（VLMs）來獲得視覺-語言動作模型（VLAs）（Kim等，2024；Li等，2023，2024）。

然而，僅基于圖像的表示缺乏關鍵的三維結構信息，這對于許多任務至關重要。因此，最近出現了將更豐富的三維場景表示（如點云）納入其中以增強策略性能的趨勢（Ke等，2024；Ze等，2024a）。

2.2 基于序列模型的模仿學習

近年來，序列模型被越來越多地應用于學習人類行為，因為人類決策本質上是非馬爾可夫的，需要結合歷史觀察（Mandlekar等，2021）。早期工作利用基于RNN的結構，但這些模型在處理長觀察序列時存在梯度消失問題，并且由于順序處理的性質而導致訓練效率低下。

為了解決這些限制，基于Transformer的架構被廣泛采用（Shafiullah等，2022a；Reuss等，2023），提供了更好的可擴展性和序列建模能力。最近，狀態空間模型（SSM）（Gu & Dao，2024；Jia等，2024）作為Transformer的有前景的替代方案出現，在小數據集上表現出顯著的效率和學習一致表示的能力。此外，改進的基于RNN的架構，如xLSTM（Beck等，2024），在自然語言處理中顯示出與Transformer和SSM相媲美的潛力，但它們在模仿學習中的應用仍然很少被探索。

2.3 模塊化模仿學習庫

雖然許多開源庫提供了特定算法的模仿學習方法實現（Chi等，2023；Lee等，2024；Jia等，2024），但只有少數提供跨多種算法和架構的模塊化設計。Robomimic（Mandlekar等，2021）實現了具有MLP、RNN和基于Transformer的策略的行為克隆（BC），而Imitation（Gleave等，2022）提供了幾種模仿學習和逆強化學習方法的模塊化實現。然而，這些庫不包括最近基于擴散的模仿學習方法。

為了填補這一空白，最近的工作CleanDiffuser（Dong等，2024）引入了決策制定中擴散模型的模塊化實現，支持MLP、UNet、ResNet和Transformer等策略架構。然而，其評估僅限于具有低維狀態輸入和2D圖像輸入的任務。相比之下，X-IL通過支持多模態輸入（包括2D圖像、點云和語言條件目標）擴展了模塊化。此外，X-IL整合了最先進的序列模型，如Mamba和xLSTM，擴大了其在更復雜環境和多樣化IL架構中的適用性。

3. X-IL框架

X-IL是一個基于以下設計原則的模塊化開源模仿學習框架：

模塊化：X-IL系統地將模仿學習流程分解為不同的模塊，這些模塊具有不同的可輕松互換的組件。這種模塊化設計使得不同方法的靈活集成和評估成為可能，促進了對模仿學習策略設計空間的系統探索。

易用性原則：該框架易于使用，支持流行工具如Hydra（Yadan，2019）進行配置管理和Weights & Biases（Wandb）（Biewald，2020）進行日志記錄和可視化，簡化了實驗過程。

整合新技術：X-IL整合了最新進展，如用于序列建模的Mamba（Gu & Dao，2024）和xLSTM（Beck等，2024），以及用于策略學習的擴散和流匹配，提高了模仿學習策略的效率和泛化能力。

為了實現靈活的實驗，X-IL將模仿學習流程分解為四個關鍵模塊：1）觀察表示，2）骨干網絡，3）架構，以及4）策略表示。以下是對每個模塊及其組件的詳細描述：

3.1 觀察表示

X-IL框架考慮三種主要類型的表示：RGB輸入、點云和語言。

RGB輸入：視覺模仿學習在最近的研究中受到了廣泛關注（Chi等，2023）。從多個攝像機視角捕獲的RGB圖像為物體識別和場景理解提供了重要的紋理和語義信息。先前的工作表明，ResNet是操作任務的強大編碼器，使其成為廣泛采用的選擇（Shafiullah等，2022b；Wan等，2024）。為了有效利用RGB數據，X-IL支持各種特征提取器，包括ResNet、FiLM-ResNet（Turkoglu等，2022）和CLIP（Radford等，2021），其模塊化代碼庫允許輕松集成額外的圖像編碼器。

點云：點云提供由RGB-D相機或LiDAR傳感器獲取的3D空間結構，為操作任務提供幾何信息。與RGB圖像不同，點云本身就編碼了物體位置和形狀，使其成為需要細粒度空間推理的任務的理想選擇。先前的工作強調了保留幾何特征對有效表示學習的重要性（Wan等，2024；Ze等，2024c）。在X-IL中，采用最遠點采樣（FPS）（Qi等，2017）對點進行下采樣，這有助于保留3D空間的幾何結構。X-IL支持兩種編碼器：具有最大池化的輕量級MLP（Ze等，2024c）以提高計算效率，以及具有類別標記的基于注意力的編碼器以增強特征提取。

語言：語言引導的模仿學習（Stepputtis等，2020；Lynch & Sermanet，2021）越來越受到關注，因為它提供了描述任務、物體屬性和機器人動作的高級抽象方式。與視覺和幾何輸入不同，語言提供了增強跨多樣化任務的泛化和適應性的上下文。為了處理語言，X-IL集成了預訓練的語言模型CLIP（Radford等，2021）將文本信息轉換為密集嵌入。然后，這些嵌入與視覺和點云特征融合，為策略學習提供更豐富的多模態表示。

3.2 骨干網絡：X-Block

X-IL：系統化探索模仿學習策略的設計空間-AI.x社區

圖2：X-Block網絡細節。 X-Layer是核心部分，用于處理序列標記；AdaLn條件用于注入上下文信息。

骨干架構的選擇對于學習有效的模仿學習策略至關重要，因為它決定了不同輸入模態如何被處理以及如何捕獲序列依賴關系。X-IL定義骨干網絡為負責建模序列信息的核心組件，并提供三種骨干選項：

Transformer（Vaswani等，2017）：一種廣泛使用的基于注意力的模型，由于其處理人類演示中非馬爾可夫行為的能力，在模仿學習中表現出強大的性能。大多數模仿學習模型，包括視覺-語言動作模型（VLAs），都使用Transformer作為骨干網絡。

Mamba（Gu & Dao，2024）：一種結構化狀態空間模型（SSM），顯著提高了SSM的效率，同時在性能上與Transformer相媲美。與Transformer不同，Mamba保持線性計算復雜度。Mamba模仿學習（MaIL）（Jia等，2024）表明，基于Mamba的策略在小數據集上優于基于Transformer的策略。

xLSTM（Beck等，2024）：LSTM的一種變體，旨在增強長期依賴建模，同時保持計算效率。與標準LSTM不同，xLSTM結合了架構改進，以減輕梯度消失問題。雖然遞歸模型通常缺乏自注意力的表達能力，但xLSTM在效率和性能之間提供了平衡，使其成為計算約束是關注點的模仿學習任務的潛在替代方案。

受DiT-Block（Peebles & Xie，2023）結構的啟發，X-IL框架引入了X-Block。X-Block的核心組件是X-Layer，負責處理時間信息。此外，AdaLN條件（Peebles & Xie，2023）被納入其中——不僅用于條件化擴散模型中的時間嵌入，還用于集成表示特征。研究發現，使用表示作為條件信號可以增強性能，進一步提高策略學習的有效性。

3.3 架構

X-IL支持兩種架構：僅解碼器和編碼器-解碼器。先前的工作如ACT（Zhao等，2023）和MDT（Reuss等，2024c）采用編碼器-解碼器設計，而PearceTransformer（Pearce等，2023）和MoDE（Reuss等，2024a）則遵循僅解碼器方法。這些架構在圖1中有所展示。

僅解碼器模型：在X-IL中，僅解碼器架構通過堆疊多個X-Block實現，其中觀察和動作在解碼器內聯合處理。模型僅輸出動作標記，然后用于訓練策略表示。

編碼器-解碼器模型：X-IL中的編碼器-解碼器架構遵循兩階段方法：編碼器首先將多模態輸入編碼為潛在表示，然后解碼器基于這種結構化嵌入生成動作。先前的工作主要利用交叉注意力將編碼器的輸出與解碼器的輸入連接起來。然而，Mamba和xLSTM缺乏以這種方式處理可變長度序列的內置機制。相反，研究發現AdaLN條件提供了構建編碼器-解碼器架構的高效靈活替代方案，使編碼的表示能夠有效集成到解碼過程中。

3.4 策略表示

除了樸素的行為克隆方法外，X-IL框架還提供各種最先進的策略表示，可以大致分為基于擴散和基于流的模型。

行為克隆（Behavior Cloning）：行為克隆（BC）假設策略表示為高斯分布，并最大化給定真實分布中預測動作的似然。

基于擴散的策略：去噪擴散概率模型（DDPM）（Ho等，2020）捕獲評分函數場并迭代優化動作。BESO（Reuss等，2023）基于連續時間擴散框架，允許不同的擴散步驟和多樣化的采樣技術。X-IL框架同時支持DDPM風格和連續時間BESO風格的策略。

基于流的策略：通過流匹配（Lipman等，2022）訓練的連續時間標準化流最近受到了廣泛關注，也適合作為策略表示。這些方法通常被稱為整流流（RF）（Liu等，2022），在X-IL框架中得到了完全支持。

4. 實驗

為了探索模仿學習的設計空間，研究者們在兩個機器人學習基準測試上進行了廣泛的實驗：LIBERO和RoboCasa。這項研究系統地檢驗了各種骨干網絡、架構和策略設計，用于基于視覺和點云的模仿學習。

4.1 模擬基準

LIBERO（Liu等，2023）：研究者們使用RGB輸入在LIBERO基準上評估了具有各種模型架構和策略頭的模塊化框架。LIBERO包括四個不同的任務套件：LIBERO-Spatial、LIBERO-Object、LIBERO-Goal和LIBERO-Long，這些任務套件專門設計用于評估機器人學習和操作能力的不同方面。

為了徹底比較每種架構的性能，研究者們使用10個軌跡（可用示范的20%）和50個軌跡（完整數據集）進行了評估。所有模型在LIBERO任務套件中訓練了100個周期，并使用最后的檢查點進行評估。按照官方LIBERO基準設置，為每個子任務模擬了50次展開，每個任務套件總共500次模擬。研究者們報告了每個任務套件在3個種子上的平均成功率。

RoboCasa（Nasiriany等，2024）：這是一個大規模模擬框架，提供各種日常場景任務。除了大量任務外，RoboCasa還提供了廣泛的任務內變化。如圖3所示，這些變化包括場景、物體以及機器人和物體的初始位置，而LIBERO不提供這種多樣性。這種高水平的多樣性要求模型具有強大的泛化能力，使該基準非常具有挑戰性。

X-IL：系統化探索模仿學習策略的設計空間-AI.x社區

圖3：LIBERO和RoboCasa示例。 雖然LIBERO在同一任務中表現出最小的變化，例如LIBERO-Spatial，但RoboCasa在不同方面提供了多樣性。圖中展示了CoffeeServeMug任務。

研究者們評估了RoboCasa中的5個任務，每個任務有50個人類演示。這5個任務包含不同的行為：CloseSingleDoor、OpenDrawer、TurnOnStove、CoffeePressButton和CoffeeServeMug。對于訓練，每個模型訓練了200個周期，并為每個任務展開了50個回合。研究者們報告了3個種子上的成功率。

4.2 X-IL中的實驗設置

為了確保公平比較，研究者們匹配了Transformer、Mamba和xLSTM的模型大小。對于擴散策略和流匹配策略，在主要實驗中將采樣步驟數設置為4。在LIBERO基準中，所有模型都使用ResNet-18進行圖像處理，而在RoboCasa基準中，則使用FiLM-ResNet18進行圖像編碼，使用基于注意力的編碼器進行點云輸入。

4.3 基線

研究者們還報告了以下基線的性能：

BC-Transformer：在RoboCasa（Nasiriany等，2024）中使用。它使用CLIP模型和帶有FilM層的ResNet-18分別編碼目標指令和基于圖像的觀察。
Diffusion Policy（Chi等，2023）：一種視覺運動策略，使用條件去噪擴散過程在學習的梯度場上迭代優化動作分布。
Octo（Octo Model Team等，2024）：一個開源的視覺-語言-動作（VLA）模型，在大規模數據集上訓練。它使用基于transformer的擴散策略，支持語言和目標圖像作為任務輸入。
OpenVLA（Kim等，2024）：一個基于更大模型Llama 2 7B的視覺-語言-動作模型。
MDT（Reuss等，2024c）：一個基于擴散的框架，能夠從包括圖像和語言在內的多模態目標規范中學習多樣化行為。
MaIL（Jia等，2024）：使用MAMBA替代模仿學習中基于transformer的骨干網絡。它表明，特別是在小數據集的情況下，基于Mamba的策略優于基于transformer的策略。
ATM（Wen等，2024）：任意點軌跡建模（ATM）是一個從視頻示范中學習的框架。ATM使用圖像和語言指令作為輸入，預測視頻幀中任意點的軌跡。
EnerVerse（Huang等，2025）：一個為機器人操作任務設計的未來空間生成框架。
3D Diffusion Policy（DP3）（Ze等，2024b）：DP3從單視圖點云中提取點級特征。機器人動作基于這些特征和當前機器人狀態生成。

4.4 視覺輸入評估

LIBERO：主要結果如表1所示。為了評估框架在LIBERO上的性能，研究者們測試了使用僅解碼器架構的BC、BESO和RF策略，跨Transformer、Mamba和xLSTM骨干網絡。結果表明，X-IL實現了最先進的性能，超過了公開可用的模型。具體來說，xLSTM在20%和100%數據設置中都表現出巨大潛力，分別達到74.5%和92.3%的平均成功率。

RoboCasa：主要結果如表2所示。與LIBERO相比，RoboCasa由于其動態變化的背景場景和跨示范和評估的物體變化，提供了更具挑戰性的基準。研究者們在RoboCasa中測試了X-BESO在五個任務上的表現，觀察到他們的方法優于原始論文中報告的結果。具體來說，使用基于xLSTM的模型，他們實現了53.6%的更高平均成功率，相比BC-Transformer的40.0%，證明了該方法在處理復雜和動態環境中的有效性。此外，他們觀察到Mamba和xLSTM優于基于Transformer的骨干網絡，這與他們從LIBERO得出的發現一致。這一結果進一步突顯了在模仿學習中利用新序列模型的潛力，表明除Transformer之外的替代架構可以在復雜機器人任務中提供改進的效率和性能。

4.5 點云輸入評估

研究者們在RoboCasa上評估了使用點云輸入的X-BESO，并取得了優于3D擴散策略的結果。從結果中得出的一個有趣觀察是，基于點云的輸入不一定優于基于RGB的輸入。

分析表明，這是由于RoboCasa場景的復雜性，其中點云從多樣化的來源捕獲，導致在采樣過程中顯著的信息損失——特別是在涉及小物體的任務中。在這種情況下，只有稀疏的點集保留下來，限制了點云表示的有效性。這突顯了以物體為中心的方法的潛在好處，這些方法專注于保留關鍵的任務相關細節。

此外，研究者們評估了結合點云和RGB輸入的性能。首先從點云中提取緊湊表示，然后與RGB特征連接。實驗結果表明，結合兩種模態顯著提高了性能，特別是基于xLSTM的模型，達到了60.9%的成功率——相比僅使用RGB的53.6%和僅使用點云的32.8%。這突顯了探索更有效的多模態融合策略以充分利用每種模態優勢的重要性。

4.6 不同架構的比較

研究者們在四個任務上進行了實驗——來自LIBERO的Spatial（20%）和Long（20%），以及來自RoboCasa的TurnOnStove和CoffeeServeMug——以比較僅解碼器和編碼器-解碼器架構的性能。圖4中呈現的結果表明，AdaLN條件的編碼器-解碼器架構在大多數任務上實現了卓越的性能，突顯了其有效性。此外，通過分別處理觀察和動作，這種設計為編碼器和解碼器選擇不同層提供了更多靈活性，使其更適合擴展到更大的模型。

X-IL：系統化探索模仿學習策略的設計空間-AI.x社區

圖4：不同架構的比較。 Dec指僅解碼器模型，而EncDec指編碼器-解碼器模型。

4.7 不同推理步驟下擴散模型的比較

研究者們在RoboCasa的具有挑戰性的TurnOnStove任務上評估了具有DDPM、BESO和RF的僅解碼器xLSTM，比較了在1、4、8、12和16個推理步驟下的性能和推理速度（圖5）。DDPM在單步驟時表現不佳，而BESO和RF表現良好，并隨著步驟增加而改進。它們的推理時間相似，由于動作維度較低，流匹配的速度優勢不太明顯。

X-IL：系統化探索模仿學習策略的設計空間-AI.x社區

圖5：DDPM、BESO和RF的不同推理步驟比較。 左：成功率；右：推理時間。

4.8 不同編碼器的比較

研究者們在RoboCasa數據集上使用Dec-xLSTM BESO評估了不同的圖像編碼器，比較了FiLM-ResNet18、FiLM-ResNet34和CLIP（凍結）以評估它們對性能的影響。他們還比較了最大池化和基于注意力的點云編碼器。結果如圖6所示。

X-IL：系統化探索模仿學習策略的設計空間-AI.x社區

**圖6：不同圖像編碼器和點云編碼

對于圖像編碼器，FiLM-ResNet34的性能優于FiLM-ResNet18，這表明更大的編碼器可以提取更豐富的特征。然而，凍結的CLIP編碼器表現不如微調的ResNet，這可能是由于CLIP在預訓練期間沒有接觸到機器人操作場景，導致其特征提取能力在這種特定領域受限。

對于點云編碼器，基于注意力的編碼器在所有任務上都優于最大池化編碼器，證明了注意力機制在捕獲點云中空間關系方面的有效性。這一結果強調了為不同輸入模態選擇適當編碼器的重要性，以最大化模型性能。

5. 討論與分析

5.1 新型序列模型在模仿學習中的潛力

實驗結果清楚地表明，Mamba和xLSTM等新型序列模型在模仿學習任務中展現出巨大潛力。特別是，基于xLSTM的模型在LIBERO和RoboCasa基準測試中均優于基于Transformer的模型。這一發現具有重要意義，因為它挑戰了Transformer在序列建模任務中的主導地位，并為模仿學習中的架構選擇提供了新的視角。

xLSTM的成功可以歸因于其有效處理長期依賴關系的能力，同時保持計算效率。與標準LSTM不同，xLSTM通過架構改進減輕了梯度消失問題，使其能夠捕獲復雜的時間模式，這對于理解和復制人類演示中的行為至關重要。

同樣，Mamba在小數據集上表現出色，這與先前研究（Jia等，2024）的發現一致。Mamba的線性計算復雜度使其成為資源受限環境中的有吸引力的選擇，而不會顯著犧牲性能。

這些結果強調了探索Transformer之外的序列模型的價值，并表明模仿學習社區應該考慮更廣泛的架構選擇，以適應不同的任務需求和計算約束。

5.2 多模態融合的重要性

研究結果強調了多模態融合在提高模仿學習性能方面的關鍵作用。通過結合RGB和點云輸入，研究者們觀察到顯著的性能提升，特別是在復雜的RoboCasa任務中。這種多模態方法允許模型利用每種模態的互補優勢——RGB提供豐富的紋理和語義信息，而點云提供精確的3D幾何結構。

然而，有效的多模態融合仍然是一個挑戰。簡單的特征連接可能不足以充分利用不同模態之間的關系。未來的研究應探索更復雜的融合策略，如交叉注意力機制或多模態Transformer，以更好地整合不同模態的信息。

此外，語言條件在提供任務上下文和目標規范方面的作用不容忽視。結合語言、視覺和幾何信息的模型可能能夠更好地理解和執行復雜任務，特別是在需要精確物體操作的場景中。

5.3 編碼器-解碼器架構的優勢

實驗表明，基于AdaLN條件的編碼器-解碼器架構在多種任務上優于僅解碼器架構。這種設計通過分離觀察編碼和動作生成過程，為每個階段提供了更大的靈活性和專業化。

編碼器-解碼器架構的一個關鍵優勢是其可擴展性。通過允許編碼器和解碼器具有不同的層數和結構，這種設計可以更容易地適應更大的模型和更復雜的任務。此外，編碼器可以專注于提取觀察中的關鍵特征，而解碼器可以專注于生成準確的動作序列。

然而，這種架構的復雜性增加了計算開銷和訓練難度。在資源受限的環境中，僅解碼器模型可能是更實用的選擇，特別是對于相對簡單的任務。

5.4 策略表示的選擇

X-IL框架支持多種策略表示，包括行為克隆（BC）、基于擴散的策略（DDPM和BESO）以及基于流的策略（RF）。實驗結果表明，BESO和RF在單步推理中表現良好，并隨著推理步驟的增加而進一步改善，而DDPM在單步推理中表現較差。

這一發現具有重要的實際意義，因為在實時機器人控制中，推理速度通常是一個關鍵考慮因素。能夠在較少步驟下有效執行的策略（如BESO和RF）可能更適合實際部署，特別是在需要快速響應的應用中。

此外，不同策略表示的性能可能取決于任務的具體要求和約束。例如，需要高精度的任務可能受益于多步推理，而對速度敏感的應用可能更適合優化的單步方法。因此，X-IL框架的模塊化設計允許研究者根據具體需求選擇最合適的策略表示。

5.5 編碼器選擇的影響

實驗結果表明，編碼器選擇對模型性能有顯著影響。對于圖像輸入，更大的骨干網絡（如ResNet34）通常提供更好的性能，但代價是增加了計算復雜性。預訓練模型（如CLIP）雖然在通用視覺任務中表現出色，但在特定的機器人操作場景中可能需要微調才能達到最佳性能。

對于點云輸入，基于注意力的編碼器優于簡單的最大池化方法，這表明注意力機制在捕獲點云中的空間關系方面非常有效。這一發現強調了為不同輸入模態選擇適當編碼器的重要性。

未來的研究可能會探索更先進的編碼器架構，如Swin Transformer（Liu等，2021）或ConvNeXt（Liu等，2022）用于圖像處理，以及PointNeXt（Qian等，2022）或Point Transformer（Zhao等，2021）用于點云處理，以進一步提高特征提取能力。

6. 結論與未來展望

本文詳細分析了X-IL框架，這是一個用于系統探索模仿學習策略設計空間的開源模塊化框架。通過對X-IL的架構設計、核心組件以及在LIBERO和RoboCasa基準測試上的實驗結果進行深入分析，本文揭示了不同設計選擇對模仿學習性能的影響。

主要發現包括：

新型序列模型的潛力：Mamba和xLSTM等新型序列模型在模仿學習任務中表現出色，在某些情況下甚至優于傳統的Transformer架構。這表明模仿學習社區應該考慮更廣泛的架構選擇。
多模態融合的重要性：結合RGB和點云等多種輸入模態可以顯著提高模型性能，特別是在復雜的機器人操作任務中。
編碼器-解碼器架構的優勢：基于AdaLN條件的編碼器-解碼器架構在多種任務上優于僅解碼器架構，提供了更大的靈活性和可擴展性。
策略表示的選擇：BESO和RF等策略表示在單步推理中表現良好，并隨著推理步驟的增加而進一步改善，這對實時機器人控制具有重要意義。
編碼器選擇的影響：編碼器選擇對模型性能有顯著影響，強調了為不同輸入模態選擇適當編碼器的重要性。

這些發現為未來的模仿學習研究提供了有價值的見解和方向。X-IL框架的模塊化設計使研究者能夠系統地探索不同組件和配置，促進了更有效和高性能的模仿學習策略的開發。

未來的研究方向可能包括：

更復雜的多模態融合策略：探索超越簡單特征連接的融合方法，如交叉注意力機制或多模態Transformer。
更高效的點云處理技術：開發能夠更好地保留小物體和細節的點云采樣和編碼方法。
自適應策略表示：設計能夠根據任務需求和計算約束自動調整推理步驟的策略表示。
更大規模的預訓練和遷移學習：探索在大規模數據集上預訓練模型，然后遷移到特定的機器人操作任務。
實時性能優化：開發能夠在保持高性能的同時滿足實時控制要求的優化技術。

X-IL框架為這些未來研究提供了堅實的基礎，促進了模仿學習領域的進一步發展和創新。

githhub:https://github.com/ALRhub/X_IL

paper: https://arxiv.org/abs/2502.12330

本文轉載自 ??頓數AI??，作者：可可

標簽

X-IL

系統化

學習策略

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂

X-IL：系統化探索模仿學習策略的設計空間

摘要

1. 引言

2. 相關工作

2.1 多模態模仿學習

2.2 基于序列模型的模仿學習

2.3 模塊化模仿學習庫

3. X-IL框架

3.1 觀察表示

3.2 骨干網絡：X-Block

3.3 架構

3.4 策略表示

4. 實驗

4.1 模擬基準

4.2 X-IL中的實驗設置

4.3 基線

4.4 視覺輸入評估

4.5 點云輸入評估

4.6 不同架構的比較

4.7 不同推理步驟下擴散模型的比較

4.8 不同編碼器的比較

5. 討論與分析

5.1 新型序列模型在模仿學習中的潛力

5.2 多模態融合的重要性

5.3 編碼器-解碼器架構的優勢

5.4 策略表示的選擇

5.5 編碼器選擇的影響

6. 結論與未來展望

目錄