王興興:中國機器人發展增速或達100%!大模型發展比想象中慢,處于ChatGPT發布前1~3年,模型和數據缺一不可
編輯 | 云昭
出品 | 51CTO技術棧(微信號:blog51cto)
臨近年底,具身智能領域發展究竟怎么樣了?
在第八屆虹橋國際經濟論壇“人形機器人創新發展合作”分論壇上,宇樹科技創始人王興興發表了主題演講,分享了他對當前機器人產業與具身智能未來的思考。
他透露道,我國的機器人產業增速十分迅猛,我國的出口工業機器人的數據增長達到了54.9%,并預計智能機器人領域的增速應該達到了100%。
此外,王興興還給出了自己對于具身智能“ChatGPT時刻”的定義:
真正的具身智能在“ChatGPT時刻”是在陌生的生活場景中,如果給機器人發送語音或文字,機器人大概能實現80%左右的任務。
不過,在談及技術進展方面,王興興坦承:目前機器人大模型的整體進展不及預期,“比想象中慢了點”,但強化學習的運控能力明顯提升。機器人大模型還處于ChatGPT發布前的1-3年。
下面是更詳細的整理,各位enjoy:
1.行業現狀:智能機器人增速或達 100%
王興興透露,我國機器人產業正以驚人的速度增長——僅出口工業機器人的數據,就同比增長 54.9%。他判斷:“如果工業機器人都能有這樣的增速,那智能機器人領域的平均增長,至少能達到 100%。”
在他看來,今年是整個智能機器人產業“非常非常火熱”的一年,這背后離不開政策的持續加碼與產業鏈的加速完善。
2.技術進展:全身運控明顯提升,但大模型“略慢”
談到技術層面的突破,王興興直言,機器人大模型的整體進展“比想象中慢了點”,但強化學習的全身運動控制能力卻在今年迎來飛躍。
“像我們做深度強化學習的全身運控,今年相對去年進步非常明顯,全球有目共睹。但具身大模型、端到端能干活的那部分,比我預期稍微慢了一點,但總體還是非常快。”
他形容,當前機器人大模型的狀態,大約相當于 “ChatGPT 發布前的 1-3 年”——方向已經明確,但距離臨界點還差一點火候。
3.模型與數據:不能偏科,必須并進
針對外界普遍關注的“模型和數據哪個更關鍵”這一問題,王興興認為,二者缺一不可。
“簡單的模型結構已經嘗試了很多,但泛化能力還不夠;數據質量和規模也需要進一步提升。這兩部分是相輔相成的,不能只一股腦采數據,也不能只把模型做大。真正難的是:怎么創新模型結構、怎么采高質量數據、怎么評估數據好壞——這些都是當前行業的難點。”
4.具身智能的“ChatGPT 時刻”:能完成 80% 現實任務
對于何時迎來具身智能的“ChatGPT 時刻”,王興興給出了一個非常清晰的定義:
“真正的具身智能,是在陌生生活場景中,如果你發一個語音或文字指令,機器人能完成大約 80% 的任務。這個場景里,機器人是沒被專門訓練過的。能達到這個程度,就基本可以稱為‘ChatGPT 時刻’,這是非常重要的目標。”
他補充說,希望未來一到兩年內能看到這一突破,但也坦言:“說實話,現在做 AI 仍然有概率成分和運氣成分。誰先實現這個目標,誰就會成為全球最領先的具身智能團隊。”
5.技術取向:更看好“基于視頻生成的世界模型”
在具身智能領域,當前主流的兩條技術路徑是 VLA(視覺-語言-動作)模型 與 世界模型。對此,王興興有自己的判斷:
“VLA+RL 模型架構清晰,可以用仿真或真實環境訓練,是目前的主流,但泛化能力還不夠。我個人更喜歡 基于視頻生成的世界模型——雖然算力需求極大,中小公司跑不太動,但大公司有資源支撐,成功的概率更高。”
6.ChatGPT前夜,拼的是算法和速度
可以從王興興的發言看出,目前具身智能雖然仍處在“ChatGPT 前夜”,但方向已經清晰:
強化學習在運動層面的突破,為機器人“行動自由”打下基礎;
而大模型、數據和世界模型的結合,將決定機器人能否真正“理解世界”。
正如王興興所說,這場賽跑既拼算法,也拼時間,更拼哪家能率先跑到那個“80%”。
本文轉載自??51CTO技術棧??,作者:云昭

















