讓機(jī)器人在“想象”中學(xué)習(xí)世界的模型來(lái)了!PI聯(lián)創(chuàng)課題組&清華陳建宇團(tuán)隊(duì)聯(lián)合出品
這兩天,Physical Intelligence(PI)聯(lián)合創(chuàng)始人Chelsea Finn在??上,對(duì)斯坦福課題組一項(xiàng)最新世界模型工作kuakua連續(xù)點(diǎn)贊。
生成看起來(lái)不錯(cuò)的視頻很容易,難的是構(gòu)建一個(gè)真正對(duì)機(jī)器人有用的通用模型——它需要緊密跟隨動(dòng)作,還要足夠準(zhǔn)確以避免頻繁幻覺(jué)。


這項(xiàng)研究,正是她在斯坦福帶領(lǐng)的課題組與清華大學(xué)陳建宇團(tuán)隊(duì)聯(lián)合提出的可控生成世界模型Ctrl-World。
這是一個(gè)能讓機(jī)器人在“想象空間”中完成任務(wù)預(yù)演、策略評(píng)估與自我迭代的突破性方案。
核心數(shù)據(jù)顯示,該模型使用零真機(jī)數(shù)據(jù),大幅提升策略在某些在下游任務(wù)的指令跟隨能力,成功率從38.7%提升至83.4%,平均改進(jìn)幅度達(dá)44.7%。
其相關(guān)論文《CTRL-WORLD:A CONTROLLABLE GENERATIVE WORLD MODEL FOR ROBOT MANIPULATION》已發(fā)布于arXiv平臺(tái)。


注:Ctrl-World專(zhuān)為通用機(jī)器人策略的策略在環(huán)軌跡推演而設(shè)計(jì)。它生成聯(lián)合多視角預(yù)測(cè)(包括腕部視角),通過(guò)幀級(jí)條件控制實(shí)現(xiàn)細(xì)粒度動(dòng)作控制,并通過(guò)姿態(tài)條件記憶檢索維持連貫的長(zhǎng)時(shí)程動(dòng)態(tài)。這些組件實(shí)現(xiàn)了:(1)在想象中進(jìn)行精準(zhǔn)的策略評(píng)估,并與真實(shí)世界軌跡推演對(duì)齊(2)通過(guò)合成軌跡實(shí)現(xiàn)針對(duì)性的策略改進(jìn)。
研究背景:機(jī)器人訓(xùn)練的“真實(shí)世界困境”與世界模型的破局價(jià)值
當(dāng)前,視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型雖在多種操作任務(wù)與場(chǎng)景中展現(xiàn)出卓越性能,但在開(kāi)放世界場(chǎng)景中仍面臨兩大核心難題,這也是團(tuán)隊(duì)研發(fā)CTRL-WORLD的核心動(dòng)因:
難題一,策略評(píng)估成本高,真實(shí)測(cè)試燒錢(qián)又低效。
驗(yàn)證機(jī)器人策略性能需在不同場(chǎng)景、任務(wù)中反復(fù)試錯(cuò)。
以“抓取物體”任務(wù)為例,研究者需準(zhǔn)備大小、材質(zhì)、形狀各異的物體,搭配不同光照、桌面紋理的環(huán)境,讓機(jī)器人重復(fù)成百上千次操作。
不僅如此,測(cè)試中還可能出現(xiàn)機(jī)械臂碰撞(故障率約5%-8%)、物體損壞(損耗成本單輪測(cè)試超千元)等問(wèn)題,單策略評(píng)估周期常達(dá)數(shù)天。更關(guān)鍵的是,抽樣測(cè)試無(wú)法覆蓋所有潛在場(chǎng)景,難以全面暴露策略缺陷。
難題二,策略迭代同樣難,真實(shí)場(chǎng)景數(shù)據(jù)永遠(yuǎn)不夠用。
即便在含95k軌跡、564個(gè)場(chǎng)景的DROID數(shù)據(jù)集上訓(xùn)練的主流模型π?.?,面對(duì)“抓取左上角物體”“折疊帶花紋毛巾”等陌生指令或“手套、訂書(shū)機(jī)”等未見(jiàn)過(guò)的物體時(shí),成功率僅38.7%。
傳統(tǒng)改進(jìn)方式依賴(lài)人類(lèi)專(zhuān)家標(biāo)注新數(shù)據(jù),但標(biāo)注速度遠(yuǎn)趕不上場(chǎng)景更新速度——標(biāo)注100條高質(zhì)量折疊毛巾軌跡需資深工程師20小時(shí),成本超萬(wàn)元,且無(wú)法覆蓋所有異形物體與指令變體。
開(kāi)放世界尚存在棘手問(wèn)題,另一邊,傳統(tǒng)世界模型目前也還面臨三大痛點(diǎn)——
為解決真實(shí)世界依賴(lài),學(xué)界曾嘗試用世界模型(即虛擬模擬器)讓機(jī)器人在想象中訓(xùn)練。
但研究團(tuán)隊(duì)在論文《CTRL-WORLD:A CONTROLLABLE GENERATIVE WORLD MODEL FOR ROBOT MANIPULATION》中指出,現(xiàn)有世界模型多數(shù)方法聚焦于被動(dòng)視頻預(yù)測(cè)場(chǎng)景,無(wú)法與先進(jìn)通用策略進(jìn)行主動(dòng)交互。
具體來(lái)說(shuō),存在三大關(guān)鍵局限,阻礙其支持策略在環(huán)(policy-in-the-loop)推演:
- 單視角導(dǎo)致幻覺(jué)多數(shù)模型僅模擬單一第三人稱(chēng)視角,導(dǎo)致“部分可觀測(cè)性問(wèn)題”——例如機(jī)械臂抓取物體時(shí),模型看不到腕部與物體的接觸狀態(tài),可能出現(xiàn)“物體無(wú)物理接觸卻瞬移到夾爪中”的幻覺(jué);
- 動(dòng)作控制不精細(xì)傳統(tǒng)模型多依賴(lài)文本或初始圖像條件,無(wú)法綁定高頻、細(xì)微的動(dòng)作信號(hào),例如機(jī)械臂“Z軸移動(dòng)6厘米”與“Z軸移動(dòng)4厘米”的差異無(wú)法被準(zhǔn)確反映,導(dǎo)致虛擬預(yù)演與真實(shí)動(dòng)作脫節(jié);
- 長(zhǎng)時(shí)一致性差隨著預(yù)測(cè)時(shí)間延長(zhǎng),微小誤差會(huì)不斷累積,導(dǎo)致“時(shí)序漂移”——論文實(shí)驗(yàn)顯示,傳統(tǒng)模型在10秒預(yù)演后,物體位置與真實(shí)物理規(guī)律的偏差,失去參考價(jià)值。
為此,清華大學(xué)陳建宇與斯坦福大學(xué)Chelsea Finn兩大團(tuán)隊(duì)聯(lián)合提出CTRL-WORLD,旨在構(gòu)建一個(gè)“能精準(zhǔn)模擬、可長(zhǎng)期穩(wěn)定、與真實(shí)對(duì)齊”的機(jī)器人虛擬訓(xùn)練空間,讓機(jī)器人通過(guò)“想象”訓(xùn)練。
三大創(chuàng)新技術(shù),讓CTRL-WORLD突破傳統(tǒng)世界模型局限
Ctrl-World通過(guò)三項(xiàng)針對(duì)性設(shè)計(jì),解決了傳統(tǒng)世界模型的痛點(diǎn),實(shí)現(xiàn)“高保真、可控制、長(zhǎng)連貫”的虛擬預(yù)演。
論文強(qiáng)調(diào),這三大創(chuàng)新共同將“被動(dòng)視頻生成模型”轉(zhuǎn)化為“可與VLA策略閉環(huán)交互的模擬器”。

Ctrl-World基于預(yù)訓(xùn)練視頻擴(kuò)散模型初始化,并通過(guò)以下方式適配為一個(gè)可控且時(shí)間一致的世界模型:
- 多視角輸入與聯(lián)合預(yù)測(cè)
- 幀級(jí)動(dòng)作條件控制
- 姿態(tài)條件記憶檢索
第一,多視角聯(lián)合預(yù)測(cè):解決“視野盲區(qū)”,降低幻覺(jué)率
一般來(lái)說(shuō),以往模型靠單視圖預(yù)測(cè),存在部分觀測(cè)問(wèn)題與幻覺(jué)。
而Ctrl-World結(jié)合第三人稱(chēng)與腕部視圖聯(lián)合預(yù)測(cè),生成的未來(lái)軌跡精準(zhǔn)且貼合真實(shí)情況。

傳統(tǒng)世界模型僅模擬單一第三方視角,本質(zhì)是“信息不全”。
而CTRL-WORLD創(chuàng)新性地聯(lián)合生成第三方全局視角+腕部第一視角:
- 第三方視角提供環(huán)境全局信息(如物體在桌面的整體布局),腕部視角捕捉接觸細(xì)節(jié)(如機(jī)械爪與毛巾的摩擦、與抽屜的碰撞位置);
- 模型通過(guò)空間Transformer將多視角圖像token拼接(單幀含3個(gè)192×320圖像,編碼為24×40latent特征),實(shí)現(xiàn)跨視角空間關(guān)系對(duì)齊。

論文實(shí)驗(yàn)驗(yàn)證了這一設(shè)計(jì)的價(jià)值:
在涉及機(jī)械臂與物體接觸的精細(xì)操作任務(wù)中(如抓取小型物體),腕部視角可精準(zhǔn)捕捉夾爪與物體的接觸狀態(tài)(如捏合力度、接觸位置),顯著減少“無(wú)物理接觸卻完成抓取的幻覺(jué)”。
定量數(shù)據(jù)顯示,該設(shè)計(jì)使物體交互幻覺(jué)率降低;在多視角評(píng)估中,Ctrl-World的峰值信噪比(PSNR)達(dá)23.56,遠(yuǎn)超傳統(tǒng)單視角模型WPE(20.33)和IRASim(21.36),結(jié)構(gòu)相似性(SSIM)0.828也顯著高于基線(xiàn)(WPE0.772、IRASim0.774),證明虛擬畫(huà)面與真實(shí)場(chǎng)景的高度契合。
第二,幀級(jí)動(dòng)作控制:綁定動(dòng)作與視覺(jué)因果,實(shí)現(xiàn)厘米級(jí)精準(zhǔn)操控
要讓虛擬預(yù)演“可控”,必須建立“動(dòng)作-視覺(jué)”的強(qiáng)因果關(guān)系。
Ctrl-World的解決方案是“幀級(jí)動(dòng)作綁定”:
- 將機(jī)器人輸出的動(dòng)作序列(如關(guān)節(jié)速度)轉(zhuǎn)化為笛卡爾空間中的機(jī)械臂姿態(tài)參數(shù);
- 通過(guò)幀級(jí)交叉注意力模塊,讓每一幀的視覺(jué)預(yù)測(cè)都與對(duì)應(yīng)的姿態(tài)參數(shù)嚴(yán)格對(duì)齊——就像“分鏡腳本”對(duì)應(yīng)每一幕劇情,確保“動(dòng)作A必然導(dǎo)致視覺(jué)結(jié)果B”。

注:上圖展示的是Ctrl-World的可控性及其消融實(shí)驗(yàn)。不同的動(dòng)作序列可以在Ctrl-World中以厘米級(jí)的精度產(chǎn)生不同的展開(kāi)結(jié)果。移除記憶會(huì)導(dǎo)致預(yù)測(cè)模糊(藍(lán)色),而移除幀級(jí)姿勢(shì)條件會(huì)降低控制精度(紫色)。注意力可視化(左側(cè))在預(yù)測(cè)(t=4)秒幀時(shí),對(duì)具有相同姿勢(shì)的(t=0)秒幀顯示出強(qiáng)烈的注意力,說(shuō)明了記憶檢索的有效性。為了清晰起見(jiàn),每個(gè)動(dòng)作塊都用自然語(yǔ)言表達(dá)(例如,“Z軸-6厘米”)。由于空間限制,僅可視化了中間幀的腕部視角。

論文中給出了直觀案例:
當(dāng)機(jī)械臂執(zhí)行不同的空間位移或姿態(tài)調(diào)整動(dòng)作時(shí)(如沿特定軸的厘米級(jí)移動(dòng)、夾爪開(kāi)合),Ctrl-World能生成與動(dòng)作嚴(yán)格對(duì)應(yīng)的預(yù)演軌跡,即使是細(xì)微的動(dòng)作差異(如幾厘米的位移變化),也能被準(zhǔn)確區(qū)分和模擬。
定量ablation實(shí)驗(yàn)顯示,若移除“幀級(jí)動(dòng)作條件”,模型的PSNR會(huì)從23.56降至21.20,LPIPS(感知相似度,數(shù)值越低越好)從0.091升至0.109,證明該設(shè)計(jì)是精準(zhǔn)控制的核心。
第三,姿態(tài)條件記憶檢索:給長(zhǎng)時(shí)模擬“裝穩(wěn)定器”,20秒長(zhǎng)時(shí)預(yù)演不漂移
長(zhǎng)時(shí)預(yù)演的“時(shí)序漂移”,本質(zhì)是模型“忘記歷史狀態(tài)”。
Ctrl-World引入“姿態(tài)條件記憶檢索機(jī)制”,通過(guò)兩個(gè)關(guān)鍵步驟解決:
- 稀疏記憶采樣:從歷史軌跡中以固定步長(zhǎng)(如1-2秒)采樣k幀(論文中k=7),避免上下文過(guò)長(zhǎng)導(dǎo)致的計(jì)算負(fù)擔(dān);
- 姿態(tài)錨定檢索:將采樣幀的機(jī)械臂姿態(tài)信息嵌入視覺(jué)token,在預(yù)測(cè)新幀時(shí),模型會(huì)自動(dòng)檢索“與當(dāng)前姿態(tài)相似的歷史幀”,以歷史狀態(tài)校準(zhǔn)當(dāng)前預(yù)測(cè),避免漂移。

注:上圖展示的是Ctrl-World的一致性。由于腕部攝像頭的視野在單一軌跡中會(huì)發(fā)生顯著變化,利用多視角信息和記憶檢索對(duì)于生成一致的腕部視角預(yù)測(cè)至關(guān)重要。綠色框中突出顯示的預(yù)測(cè)是從其他攝像頭視角推斷出來(lái)的,而紅色框中的預(yù)測(cè)則是從記憶中檢索得到的。


論文實(shí)驗(yàn)顯示,該機(jī)制能讓Ctrl-World穩(wěn)定生成20秒以上的連貫軌跡,時(shí)序一致性指標(biāo)FVD(視頻幀距離,數(shù)值越低越好)僅97.4,遠(yuǎn)低于WPE(156.4)和IRASim(138.1)。
ablation實(shí)驗(yàn)證明,若移除記憶模塊,模型的FVD會(huì)從97.4升至105.5,PSNR從23.56降至23.06,驗(yàn)證了記憶機(jī)制對(duì)長(zhǎng)時(shí)一致性的關(guān)鍵作用。
實(shí)驗(yàn)驗(yàn)證:從“虛擬評(píng)估”到“策略提升”的全流程實(shí)效
團(tuán)隊(duì)在DROID機(jī)器人平臺(tái)(含Panda機(jī)械臂、1個(gè)腕部相機(jī)+2個(gè)第三方相機(jī))上開(kāi)展三輪實(shí)驗(yàn)測(cè)試,從生成質(zhì)量、評(píng)估準(zhǔn)確性、策略?xún)?yōu)化三個(gè)維度全面驗(yàn)證CTRL-WORLD的性能:
生成質(zhì)量:多指標(biāo)碾壓傳統(tǒng)模型
在10秒長(zhǎng)軌跡生成測(cè)試中(256個(gè)隨機(jī)剪輯,15步/秒動(dòng)作輸入),CTRL-WORLD在核心指標(biāo)上全面領(lǐng)先基線(xiàn)模型(WPE、IRASim):
- PSNR:23.56(WPE為20.33,IRASim為21.36),虛擬畫(huà)面與真實(shí)場(chǎng)景的像素相似度提升15%-16%;
- SSIM:0.828(WPE為0.772,IRASim為0.774),物體形狀、位置關(guān)系的結(jié)構(gòu)一致性顯著增強(qiáng);
- LPIPS:0.091(WPE為0.131,IRASim為0.117),從人類(lèi)視覺(jué)感知看,虛擬與真實(shí)畫(huà)面幾乎難以區(qū)分;
- FVD:97.4(WPE為156.4,IRASim為138.1),時(shí)序連貫性提升29%-38%。
更關(guān)鍵的是,面對(duì)訓(xùn)練中未見(jiàn)過(guò)的相機(jī)布局(如新增頂部視角),CTRL-WORLD能零樣本適配,生成連貫多視角軌跡,證明其場(chǎng)景泛化能力。

策略評(píng)估:虛擬打分與真實(shí)表現(xiàn)高度對(duì)齊
論文結(jié)果顯示:
虛擬預(yù)演的“指令跟隨率”與真實(shí)世界的相關(guān)系數(shù)達(dá)0.87(擬合公式y(tǒng)=0.87x-0.04)。
虛擬“任務(wù)成功率”與真實(shí)世界的相關(guān)系數(shù)達(dá)0.81(y=0.81x-0.11)。

這意味著,研究者無(wú)需啟動(dòng)真實(shí)機(jī)器人,僅通過(guò)Ctrl-World的虛擬預(yù)演,就能準(zhǔn)確判斷策略的真實(shí)性能,將策略評(píng)估周期從“周級(jí)”縮短至“小時(shí)級(jí)”。
策略?xún)?yōu)化:400條虛擬軌跡實(shí)現(xiàn)44.7%性能飛躍
Ctrl-World的終極價(jià)值在于用虛擬數(shù)據(jù)改進(jìn)真實(shí)策略。

團(tuán)隊(duì)以π?.?為基礎(chǔ)策略,按以下步驟進(jìn)行優(yōu)化(對(duì)應(yīng)論文Algorithm1):
- 虛擬探索:在Ctrl-World中,通過(guò)“指令重述”(如將“放手套進(jìn)盒子”改為“拿起布料放入盒子”)和“初始狀態(tài)隨機(jī)重置”,生成400條陌生任務(wù)的預(yù)演軌跡;
- 篩選高質(zhì)量數(shù)據(jù):由人類(lèi)標(biāo)注員篩選出25-50條“成功軌跡”(如準(zhǔn)確折疊指定方向的毛巾、抓取異形物體);
- 監(jiān)督微調(diào):用這些虛擬成功軌跡微調(diào)π?.?策略。
論文給出的細(xì)分任務(wù)改進(jìn)數(shù)據(jù)極具說(shuō)服力:
- 空間理解任務(wù):識(shí)別“左上角物體”、“右下角物體”等指令的成功率,從平均28.75%升至87.5%;
- 形狀理解任務(wù):區(qū)分“大/小紅塊”、“大/小綠塊”的成功率,從43.74%升至91.25%;
- 毛巾折疊(指定方向):按“左右折疊”、“右左折疊”等指令執(zhí)行的成功率,從57.5%升至80%;
- 新物體任務(wù):抓取“手套”、“訂書(shū)機(jī)”等未見(jiàn)過(guò)物體的成功率,從25%升至75%。
綜合所有陌生場(chǎng)景,π?.?的任務(wù)成功率從38.7%飆升至83.4%,平均提升44.7%——更關(guān)鍵的是,整個(gè)過(guò)程未消耗任何真實(shí)物理資源,成本僅為傳統(tǒng)專(zhuān)家數(shù)據(jù)方法的1/20。
研究與未來(lái):讓“想象”更貼近真實(shí)物理規(guī)律
盡管成果顯著,團(tuán)隊(duì)也坦言CTRL-WORLD仍有改進(jìn)空間:
首先,復(fù)雜物理場(chǎng)景適配不足。
在“液體傾倒”“高速碰撞”等任務(wù)中,虛擬模擬與真實(shí)物理規(guī)律的偏差,主要因模型對(duì)重力、摩擦力的建模精度不足。
其次,初始觀測(cè)敏感性高。
若第一幀畫(huà)面模糊(如光照過(guò)暗),后續(xù)推演誤差會(huì)快速累積。
未來(lái),團(tuán)隊(duì)計(jì)劃從兩方面突破——
一方面將視頻生成與強(qiáng)化學(xué)習(xí)結(jié)合,讓機(jī)器人在虛擬世界自主探索最優(yōu)策略;
另一方面擴(kuò)大訓(xùn)練數(shù)據(jù)集(當(dāng)前基于DROID),加入“廚房油污環(huán)境”、“戶(hù)外光照變化”等復(fù)雜場(chǎng)景數(shù)據(jù),提升模型對(duì)極端環(huán)境的適配能力。
總的來(lái)說(shuō),此前機(jī)器人學(xué)習(xí)依賴(lài)“真實(shí)交互-數(shù)據(jù)收集-模型訓(xùn)練”的循環(huán),本質(zhì)是用物理資源換性能;而CTRL-WORLD構(gòu)建了“虛擬預(yù)演-評(píng)估-優(yōu)化-真實(shí)部署”的新閉環(huán),讓機(jī)器人能通過(guò)“想象”高效迭代。
該成果的價(jià)值不僅限于實(shí)驗(yàn)室。
對(duì)工業(yè)場(chǎng)景而言,它可降低機(jī)械臂調(diào)試成本(單條生產(chǎn)線(xiàn)調(diào)試周期從1周縮至1天)。
對(duì)家庭服務(wù)機(jī)器人而言,它能快速適配“操作異形水杯”“整理不規(guī)則衣物”等個(gè)性化任務(wù)。
隨著視頻擴(kuò)散模型對(duì)物理規(guī)律建模的進(jìn)一步精準(zhǔn),未來(lái)的CTRL-WORLD有望成為機(jī)器人“通用訓(xùn)練平臺(tái)”,推動(dòng)人形機(jī)器人更快走向開(kāi)放世界。
論文地址:https://arxiv.org/pdf/2510.10125
GitHub鏈接:https://github.com/Robert-gyj/Ctrl-World



































