開源對機器人的價值,遠超大模型時代的想象丨唐文斌深度對談抱抱臉創始人
“很多模型在模擬器里完美運行,但一到現實就徹底失靈。”
在最新一次線上對談中,Dexmal聯合創始人唐文斌與Hugging Face聯合創始人Thomas Wolf指出了當前機器人研究的最大痛點。

唐文斌是曠視科技聯合創始人兼CTO,原力靈機(Dexmal)CEO、清華大學“姚班”出身、首屆“Yao Award”金牌得主。
針對當前痛點,他和團隊聯合Hugging Face推出了RoboChallenge.ai——一個開放、統一、可復現的真實世界機器人評測平臺。

RoboChallenge.ai首次讓全球研究者在物理環境中遠程測試模型,通過獨創的Remote Robot,模型可留在本地,用戶僅通過API就可以控制真實機器人。
在這場對談中,唐文斌和Thomas探討了:
- 開源作為AI領域的真正驅動力為何能延伸至機器人?
- 如何搭建一個“真實世界+可復現+公平公開”的機器人評測平臺?
- 在未來三到五年內——具身智能的研究尺度將如何演進?
接下來,我們一起來看。
Q:Hugging Face怎么看開源在“物理智能”(Physical AI)或“具身智能”的作用?
Thomas Wolf:首先,我們要記住,AI領域幾乎所有的重大突破都基于開源。
比如transformer架構本身,就是Google開源的。正因為開源,我們才能發現它的潛力,也正因為如此,OpenAI才能進一步發展它。
最近transformer架構的很多演化——包括RoPE位置編碼(旋轉位置編碼)——也是開源社區共同創造的成果。
這是全球協作的產物,包括來自中國、美國、歐洲的團隊。我認為,這正是推動重大進步的方式。
我也期待機器人領域會出現同樣的情況——通過保持一個活躍的開源社區,我們能讓更多團隊理解當前的技術前沿,共同頭腦風暴新的發展方向。
第二點是,開源在我們探索新的領域時尤為關鍵。
現在AI領域有很多新的研究方向。舉個例子,“交互式世界模型”(interactive world models)——它們像一部可以互動的電影,你不僅能看,還能與之互動。
通常人們在進入一個全新的方向時,會先拿一個開源的預訓練模型,比如一個視頻模型,然后在此基礎上改進。
如果你無法訪問這些開源模型,就沒辦法去做類似的事——你沒法拿到Sora,然后去改造成適配你機器人的模型,對吧?
所以這就是為什么開源至關重要。
在機器人領域也是同樣的道理。
現在新興的VLA(視覺-語言-動作)模型,幾乎都是從開源模型出發,經過修改、調整后適配到機器人上。
因此,我認為開源是我們探索這些新能力的關鍵基礎。第三點,我認為開源對機器人領域的重要性,甚至會超過它在大語言模型(LLM)中的作用。
原因主要有幾點。在機器人領域,如果你希望別人使用你的機器人或者你的模型,他們首先得買到這臺機器人。
這其實是一個限制——因為只有買了機器人,才能使用你的模型。而在LLM領域,你只需要上網就能使用模型。
但這件事同時也帶來一個好處:如果模型是開源的,那么它就可以被應用到很多不同的機器人上。
這樣,不同類型機器人的開發者都有可能使用一個共同的大腦(common brain)來驅動各自的機器人。
我覺得這是一個在LLM時代所沒有的全新局面,也將會非常有趣。而這之所以可能,正是因為開源——如果我們想讓一個模型在各種機器人上都能運行,那么把它開源是最合理的選擇。
第四點。對于機器人來說,讓模型本地運行在機器人內部其實非常有價值——這背后有很多原因。
比如安全性:如果機器人突然斷網,或者藍牙、Wi-Fi連接中斷,我們仍然希望機器人能安全地完成當前任務,而不是在關鍵動作中突然“卡死”或者“失控”。
而最自然的方式,就是讓模型本地化——直接嵌入機器人內部運行。目前幾乎所有這類嵌入式模型(local model)都是開源模型。
所以我認為,開源在這里非常自然地與硬件開發相輔相成,它是推動機器人領域演化的關鍵動力之一。
Q:Open LLM Leaderboard是LLM的經典基準測試,開放和透明的基準測試在具身智能領域中會帶來怎樣的影響?
Thomas Wolf(Thomas Wolf):我們自己也很驚訝,Open LLM Leaderboard對整個領域的重要性遠遠超出了預期。我們運行了這個榜單好幾年。后來決定讓它“退役”,主要有兩個原因:
一是評測指標趨于飽和。
二是更重要的——整個世界的注意力從“大語言模型”轉向了“智能體(agent)。
那時我們覺得,僅僅用單輪問答、知識問答的方式來評測LLM已經有點奇怪了。因為我們希望LLM能做的事情,越來越像一個“在交互世界中行動的智能體”。
而這正好讓LLM開始越來越接近機器人——畢竟機器人同樣是在一個會反應的世界中行動的系統。
所以當我們在大約一年前正式關閉榜單時,很多人都感到非常惋惜。
很多研究者聯系到我們,說這個榜單是整個生態的重要基石。
我認為原因在于:在“模型競賽”的環境下,各個實驗室都在競爭,他們往往會想辦法“推”指標向有利于自己的方向發展。
比如,他們會讓模型在最有利的設定下進行評測,這當然可以理解,但有時在與其他模型對比時,就可能沒有做到完全公平。
而有一個獨立的平臺來客觀評估所有模型、以標準化、可復現的方式運行測試,這就非常重要。我們當時提供的評測腳本,用戶可以直接在本地運行、復現結果——這極大增強了可信度。
同時,這種獨立的評估還能幫助社區“過濾掉噪音”,不被營銷視頻或夸張演示所誤導。
我認為這一點是當前機器人領域所缺乏的。
首先,在機器人領域進行真正的評測非常困難。
再加上大家都傾向于“挑視頻”,展示機器人在最完美狀態下的表現。
所以,我認為我們非常需要某種獨立評測機制——或者至少一個團隊,來認真解決這個問題:我們能否建立一種可靠的機器人評估體系,從而真正了解當下最優秀的視覺-語言-動作(VLA)模型,以及最有效的技術方案是什么?
我覺得這其實是我們在另一個項目Lerobot中所做工作的延續。我們的目標是建立一個統一的代碼倉庫,讓各種新的訓練方法都能在幾乎相同的條件下進行橫向比較。
理論上,你只需要改動一行命令參數,就可以從一種訓練方法(比如ACT)切換到另一種(比如Diffusion Policy)。
但這只是問題的一部分——即便我們有了能統一運行多種策略的軟件框架,我們仍然要在特定環境中執行它們。而這恰恰是困難所在。
這也是Dexmal團隊現在正在努力解決的問題。
唐文斌:是的,我完全同意你的看法。
目前,很多機器人研究仍然主要發生在仿真環境中。但我們都知道,“仿真到現實(sim-to-real)”之間存在很大的鴻溝——有些方法在仿真環境里表現完美,但一旦放到真實世界中就徹底失敗。
所以我認為,建立一個基于真實環境的評估體系非常重要。
而現在,在這個領域中,我們其實還沒有一個統一、開放且可復現的基準系統,來公平比較不同的方法、策略和模型。
既然我們沒有這樣的體系,那我們就在想:我們能做些什么?能否自己建立這樣的平臺?
這正是我們啟動RobotChallenge.ai的原因。我們非常高興能邀請Hugging Face參與這個項目——希望我們能一起打造一個統一、開放且可復現的機器人基準評測平臺。
Q:請你介紹一下RobotChallenge
唐文斌:其實我剛才已經提到,我們為什么要創建這個平臺。
機器人正在從工廠走向家庭,逐步進入人類的日常生活。在這個領域的研究也非常火熱,比如VLA。
但目前仍然沒有統一的方式來衡量整個領域的進展,也沒有辦法在真實物理機器人上比較不同模型的表現。
今天的大多數基準仍然基于仿真環境,而由于“仿真到現實”的差距,我們其實并不知道哪個模型更好,也不知道它們在現實中的表現如何。
所以我們問自己:如果我們能建立一種開放、標準化、基于真實機器人的評估方式,那會怎樣?
這正是我們創建RobotChallenge.ai平臺的初衷——它是對仿真測試的現實世界補充,通過它,我們可以彌合仿真與現實之間的鴻溝。
我們提供共享數據和標準化評估。研究者可以遠程提交模型,并在真實機器人上進行實驗。他們可以身處世界任何地方,通過我們的系統遠程測試真實機器人,而我們會提供排行榜(leaderboard)來展示結果。
當然,這個平臺的建設并不容易,背后有許多繁瑣的工作。
首先,要在真實環境中實現可復現、公平的測試非常困難。比如,機器人本身的配置、實驗環境的布置——這些變量都必須嚴格控制。
其次,如何讓用戶訪問機器人并提交模型也是難題。我們的機器人部署在本地服務器上,而用戶的模型通常在他們自己的系統中,模型部署也不容易。
為此,我們開發了一種機制,叫做Remote Robots。通過這種方式,用戶無需上傳模型到我們這邊。模型可以留在用戶端,而用戶可以通過HTTP API訪問我們的攝像頭、機器人并進行遠程測試,這就是我們現在正在做的事情。
第三,定義基準(benchmark)本身也很難。我們目前以Table 30作為起點——這不是最終方案,但它是一個堅實的第一步,難度適中,可以用來評估模型并為所有參與者提供參考信息。
當然,我們也會與專家委員會和研究社區緊密合作,在未來共同定義出一個真正的黃金基準。
總之,這其中有很多細節、很多繁瑣的工作。我們已經發布了一篇技術報告,可以在我們的網站或者arXiv上下載。
總的來說,Robot Challenge是一個基準評測平臺,它的目標是讓具身智能(Embodied Intelligence)研究變得更加開放、公平、且可訪問。
Thomas Wolf:你們正在解決一些非常困難的問題,比如如何遠程控制機器人、如何在不在現場的情況下進行公平評估。我覺得你們的解決方案非常務實而優雅,真的令人興奮。
嗯,我覺得這個問題總體上還是在討論,如何讓整個社區參與到機器人研究的共建中來。
機器人學這里的確有一些特殊的挑戰——比如,代碼可以放在 GitHub 上,大家都能圍繞同一個代碼庫協作,但機器人是實體的,必須在某個具體地點。
那我們該如何讓人們感覺到自己是在一個“共同的機器人社區”中建造東西?我很好奇,你怎么看待這里的社區生態?
Q:你最期待看到哪些群體加入 Robot Challenge?是學術界?還是公司?或者是一些業余開發者?
是的,我認為我們第一個基準測試主要針對通用策略(general policy),也就是基礎模型(base model)。
目前在做最強基礎模型的,主要還是學術界和公司。對于愛好者,我們可能之后會設計一些小型挑戰,面向個人開發者。但就現在而言,基礎模型的評測更多是針對學術機構和初創公司。
事實上,目前已經有不少開源模型,比如ACT、Pi-Zero、Pi0、Pi0.5等。
我們可以通過志愿者測試這些模型,因為它們是公開可下載的。
在我們的基準測試中,我們為這30個任務發布了一部分微調數據——每個任務大約提供1000個episodes。
開發者可以下載這些數據集,對模型進行微調,然后測試其在任務上的表現。
所以我認為,最先參與的用戶群體主要會是學術界和初創公司。
Thomas Wolf:另一個巨大挑戰就是數據——如何讓人們能夠獲取到足夠的數據。你們開放提供每個任務1000個episodes的舉措非常好,因為數據確實是機器人學的一大瓶頸。
我們不像互聯網那樣有海量數據來訓練機器人。多數情況下,研究者需要自己構建數據集。
我認為,未來社區可以在這方面發揮關鍵作用。如果一些大型、活躍的數據標注團隊決定開放部分數據,我們就有可能建立一個超大型的共享機器人訓練數據集。
在Hugging Face,我們也在往這個方向邁出小步,比如先推動數據格式的標準化,使得數據整合更容易。這往往與更好的評估體系是相輔相成的。這兩個趨勢對于通用機器人技術的發展非常重要。
在我們的平臺上,我們也看到社區提供的數據集數量正呈指數級增長。所以我對未來非常樂觀,相信我們會有越來越多開源數據集來訓練和微調機器人模型。
唐文斌:那Thomas,你怎么看社區精神對機器人和具身智能(embodied intelligence)研究的推動作用?
Thomas Wolf:我覺得其實現在每個人都可以參與。比如你可以買一些廉價的機器人——有些是我們自己推出的,比如so100或Richie Mini,今年晚些時候就會發貨。
你可以用它們采集數據、分享數據,從而增加數據的多樣性。
因為關鍵問題不僅僅是數據量,還有數據的多樣性。如果我們能在全球不同的地方采集數據,就更容易訓練出更魯棒的策略。
我們希望未來的機器人無論是在歐洲、中國還是美國的家庭中,都能找到自己的路徑。
社區還能在算法層面作出貢獻,比如探索如何微調策略、如何設計訓練架構、如何混合不同數據、如何制定合適的訓練計劃——這些都有很大的研究空間。
此外,機器人模型目前其實還比較小,很多必須運行在嵌入式系統上,這也意味著人們在家中或小規模環境中也能比較容易地進行訓練。
這是另一個讓社區更容易參與機器人研究的理由。
Q:Robot Challenge.AI的下一步是什么?
Thomas Wolf:我覺得我們應該嘗試很多方向。畢竟這是第一次在真實世界里進行開放式機器人挑戰,我很期待看到它的發展。
我希望開發者們能積極參與、提交他們的模型,讓這個平臺充滿活力。
從更廣的視角來看,我認為評測方式也應該多樣化——包括仿真測試,因為那仍然是更容易的方式。
就像大語言模型(LLM)的發展一樣,未來我們也會看到多種評測體系的共存——某些會成為最重要的,比如LLM早期的MMLU,后來的SWE-bench。
但目前我會鼓勵大家:來提交你的模型,一起試試這個新的基準,看看它是否真的正確。
我對這個項目非常有信心。它設計得很用心,也與現有的評測不同,雖然這是第一次嘗試,但我相信未來我們會持續優化。
但這是邁向“真實世界基準”的非常重要的第一步,我對這個方向非常興奮。
唐文斌:Robot Challenge目前遵循的是完全開放的策略。
我們提供免費的評測服務,任何人都可以提交模型,我們負責評測并進行排名。
這個第一個基準并不是“黃金基準”,只是第一步——讓我們能基于真實機器人對模型進行比較,從而積累經驗,再定義下一個更好的基準。
我們可以評估的維度很多,比如多任務(multi-domain)、長時任務(long-horizon)、交互任務(interactive tasks)等。
我們希望提供一個可復現、開放、統一的平臺,讓大家能公平比較。這就是我們的目標,我相信這對社區來說是一件好事。
Thomas Wolf:三到五年后,具身智能研究會發展到機器人能執行越來越長的任務——從現在的幾分鐘,到未來的幾小時甚至更久。那時的基準測試也會隨之演化。
我可以想象,三年后我們可能會看到這樣的場景:機器人被要求連續執行一整天的復雜任務,而這就成了新的基準。想到這里我就很興奮。
唐文斌:比如多模態感知、動態環境適應、長時序任務等等,未來都可以測試。這就是技術發展的方向。
One more thing
Dexmal(原力靈機)于去年年底注冊,并于今年3月5日正式成立。
成立僅20天,這家AI初創公司就宣布完成2億元天使輪融資,投資方包括君聯資本、九坤創投和啟明創投。
Dexmal由曠視科技三位聯合創始人之一唐文斌擔任聯合創始人兼CEO,核心團隊成員范浩強、周而進、汪天才同樣出自曠視科技,可謂“黃金陣容”再度聚首。
盡管成立時間短暫,但團隊成員均擁有超過十年的AI原生產品與落地經驗,具備從算法到商業化的完整能力鏈。
唐文斌介紹,過去十年他們在圖像識別技術及自動移動機器人領域積累了豐富經驗,已在倉儲場景交付超過一萬輛AMR(自主移動機器人)/AGV(自動導引車)。
如今,他們希望將大模型和AI技術引入機器人領域,專注于“具身智能”(Embodied AI),開啟新的技術探索。
隨著這支團隊將目光從視覺轉向具身智能新賽道,他們能否再次引領行業風口,值得期待。
官網:https://robochallenge.ai
GitHub:https://github.com/RoboChallenge/RoboChallengeInference
Hugging Face:https://huggingface.co/RoboChallengeAI






















