Nvidia的具身推理模型還缺什么?
物理人工智能系統(tǒng)需要感知、理解并在物理世界中執(zhí)行復(fù)雜動作,Nvidia Cosmos-Reason1 【文獻1】就是為此而設(shè)計。
一、Cosmos-Reason1
Cosmos-Reason1模型系列宣稱可以通過長鏈思維推理過程理解物理世界,并以自然語言生成相應(yīng)的具身決策。
該模型將物理AI推理的核心能力,鎖定在物理常識和具身推理:
1. 采用分層本體論來捕捉關(guān)于空間、時間和物理學(xué)的基礎(chǔ)知識。分層本體將物理常識劃分為空間、時間和基礎(chǔ)物理三大類16個子類;
2. 基于二維本體論實現(xiàn)跨物理實體的泛化。二維本體映射了人、機械臂、人形機器人等多種具身智能體的推理過程和能力。

通過物理AI監(jiān)督微調(diào)SFT和物理AI強化學(xué)習(xí)RL兩階段,完成數(shù)據(jù)構(gòu)建與模型訓(xùn)練。同時推出基于物理常識具身推理的評估基準,開源了代碼與預(yù)訓(xùn)練模型。
Cosmos-Reason1 通過多模態(tài)信息融合和預(yù)先編碼的物理時空知識,具備了一定的空間關(guān)系和時間序列推理能力,可以用自然語言規(guī)劃和解釋具身任務(wù)。
二、融合的模型架構(gòu)
Cosmos-Reason1 模型基礎(chǔ)架構(gòu)為純解碼器Transformer,結(jié)合視覺編碼器ViT處理視頻幀序列,能同時接受文本和視覺輸入,一段文本提示和一段低幀率視頻。

視覺內(nèi)容由 ViT 編碼為語義特征,文本提示與視覺特征一起輸入Transformer網(wǎng)絡(luò),通過長思維鏈CoT推理逐步生成輸出答案。

模型核心本質(zhì)上是狀態(tài)空間模型Mamba與Transformer的融合架構(gòu),通過物理AI SFT,將預(yù)先訓(xùn)練的視覺語言模型適配為物理 AI 推理模型,并通過物理 AI 為重點任務(wù)的強化學(xué)習(xí)對模型進行后訓(xùn)練 。

強化學(xué)習(xí)算法選用GRPO,簡單高效,避免了訓(xùn)練和維護單獨的批評者模型。GRPO 是簡化的策略優(yōu)化方法。
三、狀態(tài)空間模型
Transformer 的后浪來了筆者探討過Mamba這一“輸入依賴的結(jié)構(gòu)化狀態(tài)空間模型”SSM:
狀態(tài)空間模型簡單,卻具備強大的刻畫能力,可解決:時變性 time-varying,非線性 nonlinear,通用性 general,即使人腦也能用這個形式建模。
圖片
Mamba 非常注重強化建模中非線性部分的處理,"重復(fù)這個塊,用標準歸一化和殘差連接交織,形成Mamba 架構(gòu)";同時"離散化與連續(xù)時間系統(tǒng)有著深度的連接,可賦予額外屬性,如解不變性與自動確保模型適當歸一化"。
不僅"SSM的離散化"處理本身保障適當歸一化,還在架構(gòu)上與標準歸一化與殘差連接交織,確保了非線性處理能力,參數(shù)和步長都是如此,因而優(yōu)于Transformer特別是仍具有煉金術(shù)特征的skip connection部分。
物理具身模型感知、理解以及復(fù)雜行動都是在物理時空中發(fā)生的,因而需要構(gòu)建可以對時間、空間建模和推理的世界模型,狀態(tài)空間模型是其最核心的時間維度建模方式。
四、時空世界模型
在解讀OpenAI Sora文生視頻技術(shù)原理中,筆者詳細闡釋了如下的時空世界模型構(gòu)建框架:
某個時刻 t ,所有非時間維度張成的狀態(tài)子空間中,對事物的表征和刻畫,可以從細顆粒度到粗顆粒度,逐級重整化提取潛變量分布;從而獲取該時刻事物狀態(tài)的不同顆粒度的信息,形成客觀認知,原理可以參考筆者梳理的大模型的數(shù)理認知框架。
狀態(tài)空間隨時間的變化,即動態(tài)性,從時間的維度研究整個狀態(tài)空間的變遷,對應(yīng)著狀態(tài)空間的時間序列,即狀態(tài)空間的動力學(xué),或者外在驅(qū)動“力”或因素導(dǎo)致的狀態(tài)的“流動”,狀態(tài)空間t時刻與 t-n時刻之間的關(guān)系,注意力機制捕獲到的是其時間依賴規(guī)律。

狀態(tài)空間整體動態(tài)性由不同顆粒度的潛變量對象(時空碎片patch)的動力學(xué)共同構(gòu)成。因而,只要模型需要,研究對象可以是潛變量空間中任意顆粒度的碎片patch或其組合。
物理世界中,事物狀態(tài)的動態(tài)演化受數(shù)理規(guī)律的支配,觀測采集這些變化的表征,從中發(fā)掘背后隱藏的普適規(guī)律是現(xiàn)代自然科學(xué)的基本范式,也是一個從概率表征到因果表征的范式,正如蘋果砸中牛頓事件。
物理具身模型,對狀態(tài)空間時間序列的學(xué)習(xí)過程,是時間維度上的重整化提取信息的過程,從細時間尺度,到粗時間尺度,可以逐層獲取到碎片們patches的動力學(xué)概率表征。
五、時空推理
構(gòu)建時空世界模型這一過程,有機會促成從概率表征到因果表征的范式演變,畢竟因果其實是概率的特例。
基于時空世界模型,而不是某一時刻t的世界模型的切片或投影,這樣的推理才可能真正變得可靠。?通往世界模型之路Sora、Genie、Emo、LTX Studio筆者梳理過:
通過碎片化時空模型,海量學(xué)習(xí)事物及其運作模式的概率表征,將學(xué)到的時空模型,概念化、可選可配可生成,可作為構(gòu)建時空世界模型的共識范式。
LeCun建議的 V-JEPA 實現(xiàn)路徑,就是讓大家用一致的架構(gòu)去學(xué)習(xí)各個領(lǐng)域的局部世界模型,最后拼成整體的世界模型。
圖片
不過,世界的復(fù)雜性和動態(tài)性,決定了無窮無盡的模型需要構(gòu)建,因而這可能是個無法完成的任務(wù),除非找到了?世界演化的核心方式。
推本溯源,物質(zhì)本質(zhì)上是減速變重的能量。在筆者看來,所謂“物理世界”,是由物質(zhì)、能量及其相互作用構(gòu)成的系統(tǒng),在相對論框架下表現(xiàn)為四維時空的動態(tài)結(jié)構(gòu),并在物理規(guī)律約束下演化。
Cosmos-Reason1提出的,分層本體論可提供縱向的層級結(jié)構(gòu),解決跨層級的依賴與涌現(xiàn);而二維本體論,則可以提供橫向的雙重視角,解決同一層級內(nèi)的多模態(tài)存在。
豐富范疇作為形式化工具,可通過賦予態(tài)射集額外結(jié)構(gòu),統(tǒng)一編碼橫向與縱向的復(fù)雜的結(jié)構(gòu)化依賴關(guān)系,因而自然可以納入到筆者建議的大模型的數(shù)理認知框架。
圖片
六、人類具身智能
神經(jīng)科學(xué)研究表明,感官層面,人類在感知空間與時間時,依賴多通道的感官信息和運動反饋,實現(xiàn)高度整合的認知:
視覺、聽覺、觸覺、前庭覺和本體覺等協(xié)同工作:視覺提供環(huán)境的空間布局,前庭覺和本體覺反饋運動信息,兩者共同支持運動路徑積分和定向?qū)Ш健?/p>
多模態(tài)感知與持續(xù)運動使人體能夠?qū)崟r更新對空間的理解,并形成對時序的預(yù)測能力。感官信息融合可提高空間位置與速度的估計精度。
運動經(jīng)驗則進一步強化空間認知:主動移動的大腦不斷更新自身在環(huán)境中的位置與方向,從而構(gòu)建動態(tài)地圖和運動模型。

神經(jīng)結(jié)構(gòu)層面,海馬體被認為是構(gòu)建“時空認知地圖”的核心部位。海馬體中的“地點細胞”對特定環(huán)境位置敏感,“時間細胞”則在序列事件中隨時間點觸發(fā)。
這些細胞共同編碼空間和時間信息,使海馬體能夠?qū)⒉煌录臅r空關(guān)系學(xué)習(xí)并存儲,形成一個覆蓋環(huán)境與經(jīng)歷的“記憶空間”。
紋狀體基底節(jié)在動作序列和時序決策中發(fā)揮重要作用:通過強化學(xué)習(xí)機制選擇和調(diào)整行為,參與毫秒到秒級時長區(qū)間的時間估計;而小腦則在精細運動協(xié)調(diào)和內(nèi)部定時中占主導(dǎo)地位,其神經(jīng)活動通常在動作前啟動,以預(yù)測和調(diào)節(jié)時序。
七、具身認知閉環(huán)
對比可見,人類具身智能整合視覺、聽覺、觸覺、前庭和本體感受等多種感覺通道;Cosmos-Reason1 則僅利用視覺(視頻幀)和文本提示。
人類通過自主運動產(chǎn)生連續(xù)反饋,實時更新內(nèi)部模型;而 Cosmos-Reason1 并不具備自主運動或觸覺輸出,其“行動”僅限于在文本中生成下一步建議,無法與物理環(huán)境交互并獲得即時反饋。
人類感知-運動閉環(huán)允許實時校正感知偏差,而 Cosmos-Reason1 的推理建立在靜態(tài)視頻信息上,缺少動態(tài)反饋機制。
人腦采用并行神經(jīng)網(wǎng)絡(luò)方式,直覺式結(jié)合經(jīng)驗與預(yù)測;Cosmos-Reason1 則通過 Transformer 的逐步注意力計算與長鏈思維顯式推理,依賴預(yù)訓(xùn)練知識和輸入提示逐步?jīng)Q策。

在時空感知上,人類往往快速、無意識地完成感知—決策循環(huán);Cosmos-Reason1 則需要顯式鏈式推理,輸出解釋性答復(fù)。
或許相似之處在于二者都需要將感知信息映射為環(huán)境模型并指導(dǎo)行動規(guī)劃,但 Cosmos-Reason1 側(cè)重“物理常識”的顯性編碼,而人類則更依賴長時記憶和多感官融合。
人類大腦能夠自然感知時間流逝并預(yù)測未來事件,部分由海馬體(時間細胞)與其他腦區(qū)共同完成。Cosmos-Reason1 雖然在訓(xùn)練中編碼了時間本體知識,但其“時序”理解限于視頻幀中顯式觀察到的動作序列,缺乏持續(xù)的內(nèi)在時間感。
也就是說,人類可以在沒有外界視覺信息的情況下通過經(jīng)驗估計時間,而Cosmos-Reason1主要通過視頻片段中的時間線索和物理規(guī)則來推理順序關(guān)系,這是相當局限和脆弱的時空關(guān)系。
可以看到,目前的具身智能,“感官”相對單一,其敏感度與內(nèi)在協(xié)調(diào)性與人類還不可同日而語。且不談高度精密協(xié)同的感官系統(tǒng),僅傳感器本身都還是關(guān)鍵瓶頸。
現(xiàn)在的具身機器人也還沒有類似“海馬體”提供的宏觀的時空映射和記憶,沒有基底節(jié)與小腦可以通過學(xué)習(xí)、預(yù)測和校準實現(xiàn)對時間間隔與運動模式的精細控制。

豐富的感官與復(fù)雜精密的神經(jīng)結(jié)構(gòu)協(xié)作,才使得具身智能體能夠在復(fù)雜環(huán)境中精準感知時空并做出相應(yīng)行動。缺少這些,揠苗助長跑馬拉松,大家知道發(fā)生了什么。
八、具身智能的星辰大海
前路漫漫、任重道遠,然而具身智能已然成為人工智能行業(yè)共同的星辰大海。
前有谷歌 DeepMind Gato ,一個多模態(tài)、多任務(wù)的序列模型,可處理圖像、傳感器狀態(tài)和文本等的輸入,并輸出文本或連續(xù)動作。
Gato 可在多種“具身”環(huán)境中感知和行動,但其對時空關(guān)系的理解主要依賴大規(guī)模數(shù)據(jù)中的模式,對未見過的物理常識泛化推理能力有限。

繼而有 Tesla Optimus,一個現(xiàn)實中的雙足人形機器人,配備了攝像頭、傳感器和自主運動執(zhí)行器。估計采用了與特斯拉自動駕駛類似的視覺神經(jīng)網(wǎng)絡(luò)和強化學(xué)習(xí)。
Optimus 的時空感知能力與自主導(dǎo)航相關(guān)聯(lián),能夠基于視覺和慣性信息在真實環(huán)境中行走和操控物體;但在高級時空推理和物理理解方面,仍處于基礎(chǔ)任務(wù)演示階段,尚不具備復(fù)雜規(guī)劃能力。

還有波士頓動力的 Atlas 機器人,以高超的運動控制著稱,其核心是基于強化學(xué)習(xí)和控制理論訓(xùn)練的動力學(xué)模型。
也有嘗試將LLM用于指導(dǎo) Atlas 的高層決策,利用自然語言指令生成運動計劃,使得 Atlas 能夠在語義層面“理解”任務(wù),但仍需依賴底層的物理控制算法執(zhí)行動作。
綜上可見,Nvidia此次推出的Cosmos-Reason1 在構(gòu)建物理世界的時空模型方面專注于“知識驅(qū)動的推理”,輸入依賴預(yù)錄視頻和文本提示,缺乏真實世界交互和多模態(tài)反饋,難以像人類或高級機器人那樣在連續(xù)的物理環(huán)境中自主學(xué)習(xí)和修正時空模型。
其他具身系統(tǒng)實現(xiàn)了運動與感知融合,可在實時環(huán)境中建圖、導(dǎo)航,或通過強化學(xué)習(xí)獲得運動技能。但其依賴的數(shù)據(jù)或算法并非為深層次的時空推理設(shè)計,對物理世界的理解依賴任務(wù)特定的訓(xùn)練。

筆者判斷,未來提升具身時空感知的關(guān)鍵,在于將大模型的推理能力與真實感官--動作回路有效結(jié)合,以實現(xiàn)在物理世界中,實時多感官交互的高效協(xié)同,做精準的時空推理。
文獻1,Cosmos-Reason1: From Physical Common Sense To Embodied Reasoning,https://arxiv.org/abs/2503.15558,代碼 https://github.com/nvidia-cosmos/cosmos-reason1?
本文轉(zhuǎn)載自?????????清熙?????,作者:王慶法

















