具身智能迎來ImageNet時刻:RoboChallenge開放首個大規模真機基準測試集


近日,RoboChallenge 重磅推出!這是全球首個大規模、多任務的在真實物理環境中由真實機器人執行操作任務的基準測試。
通過科學的評估體系構建一個開放、公正、可復現的「真實考場」,克服真實環境下的性能驗證、標準化測試條件、公開可訪問測試平臺等關鍵挑戰,RoboChallenge 可為視覺-語言-動作模型(VLAs)在機器人的實際應用提供更加可靠和可比較的評估標準,推動具身智能從「實驗室智能」走向「現實世界智能」。據知,RoboChallenge 由 Dexmal 原力靈機聯合 Hugging Face 共同發起。

- 官網:https://robochallenge.ai
- 論文:https://robochallenge.ai/robochallenge_techreport.pdf
- GitHub:https://github.com/RoboChallenge/RoboChallengeInference
- Hugging Face:https://huggingface.co/RoboChallengeAI
全球首個大規模多任務的真機基準測試平臺
機器人正逐步融入現實世界,但目前仍缺乏統一、開放且可復現的基準測試方法,難以衡量技術進展或公平比較不同方法的優劣。改變這一現狀需要構建一個大規模多任務的具身智能真機測試集,使得研發人員在統一環境中驗證對比機器人算法,實現從基礎任務到復雜現實應用場景的全面覆蓋。

在此背景下,RoboChallenge 應運而生。這一開放式機器人基準測試平臺通過集成多款主流機器人(UR5、Franka Panda、Aloha、ARX-5)實現遠程評測,為研究社區提供大規模、標準化、可復現的測試環境,推動具身智能算法在公平、可靠的基準下持續進步。
- 系統架構設計:集成經過工業驗證的機器人硬件,每臺均配備 2–3 臺 RGB-D 相機,并部署統一軟件棧實現機器人與視覺系統的高可靠性聯動;所有系統均通過數月真實任務測試,確保長時間穩定運行。
- 基準任務設計:采用端到端任務成功率與過程評分相結合的評估機制;測試集所有任務均提供約 1000 條演示數據,并已完成基線模型的任務級微調。
- 開放與可擴展:面向社區開放,支持用戶基于公開演示數據微調自有策略并參與評測;發布任務中間數據與評測結果,推動建立透明、公平的算法評估標準。
機器人選型
為精準評估 VLA 算法核心能力,RoboChallenge 首期采用配備夾爪的機械臂作為標準化平臺,未來會支持更多執行器類型。在感知方面,傳感方案同步輸出多視角 RGB 與對齊深度信息,以利于二維識別與三維推理需求,將來計劃集成力控或觸覺傳感器。
機器人選型堅持高可靠性與學術通用性原則,最終在第一個測試集中集成 UR5、Franka Panda、COBOT Magic Aloha 及 ARX-5 四類主流機型,確保系統具備 7×24 小時持續運行能力,為社區提供穩定可復現的基準評測服務。
遠程機器人測試

RoboChallenge 通過創新的「遠程機器人」方法,為學術界和產業界提供高精度、易用、免費的在線機器人測試服務。該平臺最大的特點之一是以云端化服務突破機器人測試的硬件資源限制,實現「沒有機器人,一樣做實驗」的效果,為具身智能研究提供高效、可靠的算法驗證環境。
- 無容器化服務架構:系統采用標準化 API 接口,用戶無需提交 Docker 鏡像或模型文件即可直接調用;所有觀測數據(RGB 圖像、深度信息、本體感知)均提供毫秒級時間戳,支持復雜的時間對齊策略與多模型集成。
- 雙向異步控制機制:通過 http API 實現動作指令的異步提交與圖像獲取的分離處理;系統支持自定義數據塊長度與動作持續時間,并提供實時隊列狀態反饋,確保控制指令的精準同步,用戶無需暴露本地接口即可完成全流程測試。
- 智能作業調度系統:給用戶提供任務調度狀態接口,使其可以提前預估運行時,支持模型預加載與多任務并行管理,大幅提升測試效率。
基準測試方法
為建立嚴謹可靠的機器人算法(尤其是 VLAs)評估體系,RoboChallenge 在設計基準測試方法時重點關注人為因素控制、視覺一致性保證、模型魯棒性驗證以及不同評估目標的協議設計。
為此,RoboChallenge 創新性地提出「視覺輸入匹配」(visual inputs reproduction)方法:從演示數據中抽取參考圖像,并實時疊加于測試畫面。測試人員通過調整物體位置使實時場景與參考圖像完全吻合,確保每次測試的初始狀態一致。該方法不僅降低了測試人員的技術門檻,其穩定性甚至優于依賴經驗人員的傳統模式,為大規模評測提供了可擴展的解決方案。
最大規模真機測試集,小舞臺上的大考驗
Table30 是 RoboChallenge 的首套桌面操作基準測試集,包含 30 個精心設計的日常情境任務,相比之下,行業內真機競賽或評測的任務數量一般僅為 3-5 個;這些任務由位置固定的雙手或單臂機器人執行;通過科學的任務設計與評估體系,Table30 為機器人算法發展提供可靠衡量標準,系統地評估算法在多維度場景下的泛化能力。

- 多維任務設計:Table30 從四個關鍵維度構建評估體系:VLA 解決方案難點、機器人類型、任務場景環境和目標物體屬性。測試數據表明,即使最先進的基礎模型也難以實現全面高分,印證該基準可作為通用機器人算法的「試金石」。
- 多能力任務測試:這些任務測試了模型的多種能力,包括:精準定位抓取點、理解物體間空間關系、多視角協同運用、雙臂交替協作操作、雜亂環境中重復執行技能、記憶多步驟任務階段。
- 創新性評分機制:Table30 突破傳統二值化評估局限,采用進度評分系統:對復雜任務認可分步進展,對簡單任務優化完成效率;這一設計能更精準反映算法性能的代差。當算法實現突破性進展,評分體系將給予增量認可。

通過對主流開源 VLA 模型算法進行測試,結果顯示最新發布的 Pi0.5 相較其他模型取得顯著優勢,但也無法在所有任務上都取得較高的成功率。由此可見:RoboChallenge 基準測試可以作為邁向通用機器人技術的必要性檢驗。
模型提交
RoboChallenge 參與者提交模型至測試平臺的標準流程包含四個核心環節。
- 參與者首先從 Hugging Face 平臺下載結構清晰的任務示范數據集,包含分開放置的視頻文件與 JSON 格式狀態數據,并可利用工具腳本轉換為 LeRobot 格式。
- 隨后選擇訓練模式:通用型模式需使用提示詞區分任務并進行多任務聯合訓練;微調型模式則無特定限制。基于同一基礎模型的多個提交可共享顯示名稱,在排名時合并為單一算法條目。
- 提交前需對接平臺 API:通過提供框架代碼,演示觀察 - 推理 - 停止的完整交互邏輯,支持評估前的模型預熱與動作隊列穩定控制,并配套模擬測試以供驗證。提交評估時需注明密鑰、任務集及模型名稱,多任務提交將視作通用模型處理。
- 評估請求進入人工調度隊列,因場景布置需數小時至數日完成。結果發布后,參與者可通過 rerun.io 查看器分析 RRD 格式的機器日志與視頻。平臺默認公開所有結果以促進交流,若對評分存疑可申請重新計算。
構建協同創新社區
RoboChallenge 堅持全面開放原則,向全球研究者免費提供評測服務,并公開所有任務演示數據及測試中間結果,確保研究的可復現性與透明度。后續,RoboChallenge 將通過舉辦挑戰賽、研討會及數據共享,積極推動社區共建,鼓勵研究者參與任務設計與優化,共同推進具身智能核心問題的解決。此外,平臺還提供多維度細分排行榜,支持算法性能的深度分析。
邁向通用機器智能
RoboChallenge 不僅是大規模真實評測的基礎設施,更是推動具身智能建立科學導向、加速落地實用化的重要引擎;未來,RoboChallenge 會持續引入移動機器人、靈巧操作裝置等更多硬件平臺,拓展跨場景任務測試能力;評測維度將從視覺-動作協調延伸至多模態感知、人機協作等方向,并計劃推出動態環境適應、長期規劃等更具挑戰性的基準測試,助力具身智能在真實物理環境中創造價值。


































