清華姚班團隊，開源具身智能視覺語言動作（VLA）模型工具箱，打造行業通用技術底座

2025-10-29 16:11:39

人工智能新聞

Dexbotic是基于PyTorch的視覺語言動作（Vision-Language-Action，VLA）模型工具箱。

一群來自清華姚班、前曠視科技的核心人物，決定為具身智能領域建立一套通用準則，叫Dexbotic。

Dexbotic是基于PyTorch的視覺語言動作（Vision-Language-Action，VLA）模型工具箱。目的是為具身智能領域的專業人士提供一站式VLA研究服務，由一家叫原力靈機（Dexmal）的具身智能公司開發。

Dexbotic由大牛開發，并開源

原力靈機專注于具身智能（Embodied Intelligence）技術研發，2024年11月成立。剛成立，就宣布完成2億元天使輪融資，投資方包括君聯資本、九坤創投和啟明創投。

原力靈機的核心團隊出身于知名人工智能公司曠視科技，兼具頂尖學術背景以及超過10年的AI原生產品落地經驗。

創始人兼CEO唐文斌是曠視科技聯合創始人兼CTO，清華大學"姚班"出身，首屆"Yao Award"金牌得主。

近年隨著視覺-語言-動作（VLA）模型的發展，具身智能領域發展迅速。VLA模型能夠將視覺感知、語言理解和動作執行整合到一個統一的框架中，使機器人能夠理解自然語言指令并執行相應的物理任務。

根據《2025人形機器人與具身智能產業研究報告》數據，2025年，全球具身智能市場規模預計達195.25億元，2030年預計達2326.3億元，復合年增長率達64.18%。

然而，在行業繁榮的背后，是研發路徑中的重重困境。搞具身智能的全球研究者們，說著不同的語言。

有人用PyTorch，有人用TensorFlow。有人基于這個視覺模型，有人基于那個語言模型。每個人都在自己的角落里，用自己的一套工具和方法論，從零開始搭建基礎設施。硬件接口、通信協議、數據格式五花八門，沒有統一的規范。

整個領域形成了一個個碎片化的開發生態。這帶來了幾大困難。

一個研究團隊發布了一個看起來很厲害的新算法，另一個團隊想要復現對比一下，麻煩就來了。他們得先花大量時間和精力去搭建一套和發布者一模一樣的實驗環境，處理截然不同的數據格式。這個過程極其繁瑣，耗費巨大的人力、算力和時間。很多時候，僅僅是環境配置的微小差異，就可能導致結果天差地別。

在現有模式下，你很難說清一個算法表現不好，究竟是算法本身的問題，還是因為你沒有把它調整到最優狀態。這嚴重影響了對技術路線的客觀判斷和有效迭代。

同時，很多視覺-語言-動作（VLA）模型，也就是控制機器人干活的核心大腦，還在使用一些過時或者不同時期的視覺-語言模型（VLM）作為基礎。這導致VLM領域在語義理解、多模態對齊方面的最新技術突破，無法順暢地傳導到VLA模型上，限制了機器人在開放世界里的泛化和推理能力。

當具身智能要從仿真環境走向現實世界時，問題變得更加復雜。研究者需要在主流的仿真器和真實的機器人上同步測試，這對現有的研發模式提出了更大的挑戰。

整個行業，都在為這種重復造輪子的內耗付出高昂的代價。創新，在很多時候，被淹沒在了繁瑣的環境配置與算法復現工作中。

正是洞察到以上行業瓶頸，原力靈機Dexbotic團隊研發并開源了Dexbotic。

一套代碼庫，一個通用底座

Dexbotic是一個基于PyTorch的開源視覺-語言-動作（VLA）模型工具箱。它的核心理念，是想通過代碼庫+預訓練模型的雙引擎，為具身智能研究打造一個通用底座。

這個底座的目標：把開發者從繁瑣的環境配置和算法復現中解放出來，讓他們能真正專注于模型調優和算法創新本身。

為了實現這個目標，Dexbotic設計了一個三層閉環的研發架構。

第一層是數據層。它定義了一種名為Dexdata的統一數據格式。不管你的數據來自哪個機器人、哪個傳感器，只要轉換成這個格式，就能無縫接入Dexbotic的處理流程。這就像一個萬能數據適配器，不僅統一了標準，還優化了存儲效率，為后續的模型訓練提取出標準的圖像、文本和狀態信息。

第二層是模型層。這一層的核心是DexboticVLM基礎模型。它像一個高度標準化的汽車底盤，上面可以搭載各種不同風格的車身，也就是多樣化的VLA策略。無論是直接用于離散動作的訓練，還是作為現有策略（比如Pi0、OpenVLA-OFT）的基座，都可以。目前，它已經集成了Pi0、OpenVLA-OFT、CogACT、MemoryVLA、MUVLA等多種主流策略，并且支持用戶很方便地自定義新模型。

第三層是實驗層。這是Dexbotic的精髓所在。它基于模型層的實現，創造了一套實驗腳本機制。用戶想跑一個新實驗，不再需要重寫大量代碼，往往只需要修改幾行配置，就能快速啟動。這種分層配置+工廠注冊+入口分發的軟件架構，在保證系統穩定性的前提下，賦予了框架極高的靈活性。

比如，用戶想跑一個實驗，只需在終端輸入一行命令：python xxx_exp.py -task train。這里的task可以切換成train（訓練）或inference（推理）。這種設計，比傳統的基于YAML文件進行配置的方式（例如LeRobot工具箱），更貼近開發者的編程習慣，讓參數調試、實驗復現和版本管理變得異常直觀高效。

Dexbotic想做的，就是把具身智能研發過程中那些最耗時、最繁瑣、最重復性的工作，全部標準化、自動化。它提供統一的框架、強大的預訓練模型、靈活的實驗流程、以及對云端和本地訓練環境的全面支持。

它甚至還開源了硬件。為了加速技術在真實世界的落地，原力靈機發布了首款開源硬件產品——Dexbotic Open Source - W1 (DOS-W1)。從技術文檔、BOM清單、設計圖紙到組裝方案和相關代碼，全部公開。這個硬件大量采用快拆結構和可替換模塊，讓改造和維護變得非常方便。

從軟件到硬件，從代碼到部署，Dexbotic試圖覆蓋從仿真驗證到真實機器人無縫落地的完整流程，打通研發測試的最后一公里。

強大的預訓練模型是核心優勢

統一的框架是Dexbotic的骨架，高性能的預訓練模型則是它強健的肌肉。

為了滿足不同用戶對各種機械臂的需求，Dexbotic提供了兩類預訓練模型：一類是用于通用VLA策略的預訓練離散模型，另一類是用于特定VLA策略的預訓練連續模型。后者又進一步分為單臂和雙臂任務的版本。

離散預訓練模型，名為Dexbotic-Base。它在一個龐大且多樣的數據集上進行了預訓練，這個數據集里不僅包含了Open-X Embodiment數據集的子集，還有來自多個主流模擬器（如RLBench、LIBERO和ManiSkill2）的數據，甚至還包括了一些真實機器人（如UR5）的數據。

它的訓練方式很巧妙。在訓練過程中，機器人真實、連續的動作，被量化切分成了256個區間，然后模型被訓練來預測這些離散的標記。這個經過預訓練的Dexbotic-Base模型，可以直接作為任何基于VLM的操作和導航策略的微調起點。用戶可以用它來學習離散動作，也可以在它的基礎上添加一個動作專家（Action Expert）模塊，來處理連續動作。

連續預訓練模型，以CogACT策略為例，我們來看看Dexbotic是怎么做的。它首先用前面提到的Dexbotic-Base模型來初始化VLM部分，然后隨機初始化一個DiT（擴散變換器）頭部，接著用真實的連續動作數據來監督整個模型的訓練。

用于訓練的數據來源，除了Open-X等公開數據集，還包括了原力靈機自己收集的私有數據集。這份私有數據集，是團隊使用八種不同的單臂真實機器人、在52個操作任務中收集的。這八種機器人包括UR5、Franka、Unitree Z1、Realman GEN72等等，它們的形態、自由度（DoF）各不相同。在一個模型里消化掉這么多形態迥異的機器人數據，本身就是對基礎設施能力的巨大挑戰，但也正因如此，訓練出的模型才具有更強的泛化能力。這個模型被稱為Dexbotic-CogACT。

混合臂連續模型，則更進一步。原始的CogACT策略并不支持多視角輸入和雙臂協同。Dexbotic對它進行了改造。為了支持雙臂任務，他們將模型的噪聲標記從7個增加到16個，前半部分代表左臂動作，后半部分代表右臂動作。

訓練時，它在單臂連續模型的基礎上，繼續用混合臂的機器人數據進行訓練。這些數據除了前面提到的單臂數據，還引入了Robomind、AgiBot World等雙臂數據集，以及團隊自己用ALOHA雙臂機器人收集的私有數據。一個聰明的做法是，當輸入單臂數據時，就只用這部分數據來監督前半部分的標記，后半部分的損失在訓練中被忽略。這樣就高效地利用了所有可得數據。為了支持多視角輸入，來自不同攝像頭的圖像共享同一個視覺編碼器，提取出的視覺標記被連接起來，作為語言模型的輸入。

這一系列精心設計的預訓練模型，為開發者提供了一個極高的起點和可靠的性能基準，有效降低了從零開始的訓練成本。

用Dexbotic訓練的模型更強了

Dexbotic在多個主流的模擬基準測試中，驗證了這些預訓練模型的有效性。

首先是SimplerEnv，一個旨在縮小模擬與現實差距的基準。結果顯示，使用了Dexbotic預訓練模型，DB-CogACT比官方的CogACT成功率高出18.2%。DB-OFT與官方OpenVLA-OFT相比，成功率更是提升了驚人的46.2%。在一個本身就是領域內最先進的策略MemoryVLA上，使用Dexbotic預訓練模型后，成功率也提升了超過12%。

然后是ManiSkill2，一個專注于拾取和放置任務的基準。原始的OpenVLA-OFT表現不佳，平均成功率只有21%。而DB-OFT直接將這個數字提升到了63%，絕對性能提高了42個百分點。即使是面對原始CogACT這樣強大的基線，DB-CogACT也進一步將平均成功率提升了18個百分點。

在針對長視野任務的CALVIN基準上，DB-CogACT在所有指標上都優于官方CogACT，平均任務完成長度從3.25提升到了4.06。

在新引入的雙臂任務基準RoboTwin 2.0上，DB-CogACT也以58.5%的成功率，超過了CogACT 14.75個百分點，證明了預訓練模型在雙臂場景下的有效性。

即便是在性能已經接近飽和的LIBERO基準上，使用Dexbotic預訓練模型后，CogACT和MemoryVLA等策略依然能獲得一些性能提升。

這些巨大的性能提升，證明了通過Dexbotic提供的預訓練模型具有強大的表示能力。

在真實世界中，Dexbotic同樣表現出色。團隊發布了一個任務庫，展示了在UR5e、ALOHA、ARX5和Franka等不同機器人上完成的各種日常任務。

在擺盤子和搜索綠色盒子任務中，成功率分別達到了100%和80%。當然，對于像撕碎廢紙和將薯條倒入盤子這類精細操作任務，對現有的VLA策略仍然構成挑戰。

為了解決真實世界評估勞動強度大的問題，團隊還開發了一個名為DOS-Twins的Real2Sim2Real模擬器。它能為公開的真實世界數據集，重建一個高度逼真的模擬環境。

這種逼真體現在三個維度的一致性上：視覺一致性，通過3D高斯濺射（3DGS）技術生成照片級的渲染畫面；運動一致性，通過校準讓模擬機器人的動力學和運動學特性與真實硬件匹配；交互一致性，通過高精度3D掃描，確保模擬中夾爪與物體的交互在毫米級別上與現實一致。

意味著可以在模擬環境中進行大量、快速、低成本的評估，而其結果又能高度對應真實世界的表現。

從開發到評測的生態閉環

Dexbotic工具箱，只是原力靈機布局的第一步。

他們與全球最大的AI開源平臺之一Hugging Face合作，推出了RoboChallenge項目。這是全球首個大規模、多場景、基于真實機器人的具身智能評測平臺。

唐文斌解釋說，目前很多機器人研究都發生在仿真環境中，但仿真到現實之間存在巨大的鴻溝。有些方法在仿真里表現完美，一到真實世界就徹底失敗。因此，建立一個基于真實環境的統一、開放、可復現的基準系統至關重要。

RoboChallenge就是對仿真測試的現實世界補充。

他們開發了一種名為Remote Robots的機制。用戶的模型可以留在自己的本地服務器上，不需要上傳，只需通過HTTP API就可以遠程訪問和控制RoboChallenge平臺上的真實機器人進行測試。測試結果會顯示在一個公開的排行榜上。

Dexbotic與RoboChallenge形成了深度的協同效應。

一個研究者，可以使用Dexbotic工具箱高效地開發和訓練自己的模型，然后在RoboChallenge這個全球性的真實機器人測試平臺上，進行公平、透明的性能驗證。

這從基礎設施層面，構建了一個從開發-訓練-評測的完整技術閉環。

這種協同，將從根本上改變具身智能領域的游戲規則。

它為創業團隊和中小廠商提供了可媲美大廠的研發起點，讓創新重心從重復造輪子回歸到算法突破和場景深化。

它也為企業和投資機構提供了跨模型可比的評估體系，為技術選型和投資決策提供了客觀透明的依據。

責任編輯：張燕妮來源： AIGC開放社區

AI 模型工具