具身智能迎來“視覺革命”,阿里達摩院RynnEC實現像素級交互理解,機器人從此“眼明心亮”!

論文鏈接:https://arxiv.org/pdf/2508.14160
Git 鏈接:https://github.com/alibaba-damo-academy/RynnEC

亮點直擊
- RynnEC,一個旨在增強機器人對物理世界理解能力的具身認知型多模態大語言模型。
- 提出了一條數據生成流程,將自我中心的 RGB 視頻轉換為具身認知問答數據集。
- 構建了一個細粒度的具身認知基準數據集RynnEC-Bench,涵蓋了22 項物體與空間認知任務。
- 大量實驗證明,在具身場景中的認知能力方面,RynnEC 顯著優于通用型 MLLM(如 GPT-4o 等)和任務專用型 MLLM,展現出良好的可擴展應用潛力。
如下圖 1 所示,RynnEC 是一個大型視頻理解模型,其視覺編碼器和基礎參數來源于 VideoLLaMA3。

本文還觀察到 RynnEC 在多任務訓練中表現出顯著優勢,并在更具挑戰性的具身認知任務中展現出初步的“能力涌現”跡象。RynnEC 在幫助機器人執行大規模、長時程任務方面有巨大潛力。
總結速覽
解決的問題
- 多模態大語言模型在具身智能中的應用受限:
- 當前主流 MLLM 多基于互聯網圖像訓練,缺乏與真實物理世界匹配的視覺認知能力;
- 缺乏適用于機器人在現實環境中執行任務的空間與物體理解能力。
- 現有方法的局限性:
- 缺乏靈活的視覺交互方式(如遮罩、點選等);
- 對物體的屬性、數量、結構等理解不夠細致;
- 缺乏對視頻中連續空間信息的建模能力;
- 缺乏大規模、高質量的自我中心具身認知數據。
提出的方案
- 設計統一的多模態視頻大語言模型 RynnEC:
- 構建于 VideoLLaMA3 基礎之上;
- 引入區域編碼器(Region Encoder)與 mask 解碼器(Mask Decoder),支持區域級視頻交互;
- 支持細粒度的物體和空間認知任務。
- 提出具身認知能力的雙維度劃分:
- 物體認知:理解物體屬性、數量、位置及其與環境的關系;
- 空間認知:包括世界中心視角與自我中心視角下的空間推理與尺度感知。
- 構建數據生成流程:
- 從自我中心 RGB 視頻出發,經過實例分割,生成物體認知與空間認知問答數據;
- 構建大規模具身認知數據集。
- 發布評估基準 RynnEC-Bench:
- 覆蓋 22 項任務,系統評估模型在具身認知方面的綜合能力。
應用的技術
- 模型結構:
- 基于視頻理解的多模態大語言模型;
- 區域編碼器 + mask 解碼器,實現區域級視覺交互;
- 支持端到端的物體定位與空間推理。
- 數據生成與處理:
- 自我中心視頻實例分割;
- 自動生成問答式具身認知訓練數據;
- 多任務數據整合與標注質量控制。
- 評估體系:
- 構建 RynnEC-Bench 基準集,涵蓋多種具身認知任務;
- 與通用型和任務專用型 MLLM 進行對比實驗。
達到的效果
- 性能領先:
- 在物體屬性理解、物體分割和空間推理任務中達到當前最先進(SOTA)水平;
- 顯著優于 GPT-4o 等通用 MLLM 和任務專用模型。
- 模型緊湊、交互靈活:
- 架構緊湊,支持區域級視頻交互;
- 實現細粒度的實例級理解與定位。
- 數據覆蓋廣泛,任務豐富:
- 使用來自 200+ 個家庭的 20,000+ 條視頻;
- 構建包含 22 項任務的高質量基準數據集。
- 具備良好的擴展性與泛化能力:
- 在多任務訓練中表現出“能力涌現”;
- 為機器人執行復雜、長時程任務提供強大認知核心支持。
方法
RynnEC 是一個穩健的視頻具身認知模型,具備處理和輸出多種視頻物體提議的能力,使其能夠靈活應對關于物體與空間的具身問題。由于該領域研究相對匱乏,本文從四個方面全面介紹了 RynnEC 的構建過程:數據生成、評估框架構建、模型架構以及訓練過程。
具身認知數據生成
本文的具身認知數據集構建(見下圖2)始于自我中心視頻的采集與實例分割。一條分支采用人類參與的流式生成方法,構建多樣的物體認知問答對。另一條分支則利用單目稠密3D重建方法和多樣化的問題模板,生成空間認知任務的問答對。

視頻采集與實例分割
本文采集的自我中心視頻覆蓋了200多個家庭,每個家庭大約采集100段視頻。為確保視頻質量,本文要求分辨率至少為1080p,幀率不低于30fps,并使用穩定器以保證拍攝穩定性。為了實現不同視頻軌跡之間的多樣性,每個家庭被劃分為多個區域,拍攝軌跡被分為單區域、雙區域和三區域類型。跨區域拍攝通過改變穿越區域的順序提升了多樣性。此外,本文在不同軌跡下隨機變化光照條件和攝像頭高度。本文要求每段視頻包含垂直與水平旋轉,并至少包含兩個物體的特寫鏡頭,以模擬機器人任務執行中的可變視野。最終,本文共采集了20,832段室內移動的自我中心視頻。為控制視頻長度,這些視頻每40秒進行一次切分。

由于Grounding DINO 1.5的性能限制,新檢測到的物體實例可能在前面的幀中已經出現但被漏檢。因此,SAM2對關鍵幀中每個新物體進行向前4秒的實例反向跟蹤,從而實現完整生命周期的實例追蹤。最終,本文從所有自我中心視頻中共獲得了114萬個視頻實例遮罩。
物體問答生成
在本工作中,生成了三類與物體相關的任務:物體描述、物體理解問答以及指代視頻物體分割。對于每個實例,本文首先將包含該實例的所有幀按時間順序平均劃分為八組。在每組幀中,基于兩個因素選擇一個實例關鍵幀:實例在幀中的尺寸,以及實例中心與幀中心之間的距離。因此,每個實例對應八個實例關鍵幀,具備良好的可見性和多樣的視角。其中一半幀中通過遮罩裁剪出該實例,另一半則使用紅色邊框和背景變暗技術突出顯示該實例。最終的一組物體提示圖像展示于上圖2中的藍色框中。
由于SAM2在自我中心視頻中的物體跟蹤一致性有限,當一個實例在視頻中間歇性出現時,可能會被分配多個ID。本文采用物體類別過濾方法,將每類物體在每段視頻中限制為最多兩個實例,從而最小化重復實例的數量。每個家庭中存在多個視頻片段,導致某些顯著物體重復出現,形成明顯的長尾分布。對頻繁出現的物體類別進行下采樣,以防止物體分布極端化。經過上述過濾后,保留實例的提示圖像集被輸入至 Qwen2.5-VL,通過多種提示詞生成物體描述與物體理解問答。值得注意的是,在物體理解問答中,計數類問題具有特殊性,需要專門設計的提示詞。
隨后,基于每個實例的描述和問答,Qwen3 生成兩類指代表達:簡單指代表達和情境指代表達。簡單指代表達通過空間位置與類別等特征組合來識別物體。情境指代表達則建立一個任務場景,要求模型在該上下文中推理出用戶所需的實例。每類問答在輸出后都經過人工篩選以確保數據質量。
空間問答生成
與物體問答不同,空間問答需要更精確的全球場景上下文的三維信息。因此,本文采用 MASt3R-SLAM 從RGB視頻中重建三維點云,并獲取相機外參。隨后,通過將2D像素點投影至3D坐標,視頻中每個實例的分割結果可以映射到點云上。

RynnEC-Bench
由于本工作首次提出了全面的細粒度具身視頻任務集,目前尚缺乏用于評估多模態大模型(MLLM)在該領域整體能力的穩健評估框架。為此,本文提出了 RynnEC-Bench,從物體認知與空間認知兩個維度,在開放世界場景中評估細粒度具身理解模型的能力。下圖 3 展示了 RynnEC-Bench 中的能力分類體系。

能力分類體系
物體認知被劃分為兩個任務:物體屬性認知與指代物體分割。在具身任務執行過程中,機器人常常需要清晰理解關鍵物體的功能、位置、數量、表面細節、與周圍環境的關系等。因此,物體屬性識別任務在這些方面構建了全面且細致的問題。
在機器人操作與導航過程中,識別操作實例與目標實例是關鍵步驟。在視頻中進行精確的實例分割是指示這些關鍵物體位置的最佳方式。具體而言,指代物體分割任務被劃分為直接指代問題與情境指代問題。直接指代問題僅包含對實例的描述組合,而情境指代問題則設定在特定場景中,要求多模態大模型進行推理以識別目標物體。
空間認知要求多模態大模型(MLLM)從第一人稱視頻中推導出三維空間意識。本文將其劃分為自我中心空間認知和世界中心空間認知。自我中心空間認知保持對代理體與環境之間空間關系的感知,并支持空間推理與心理模擬;在時間范圍上,本文考慮過去、現在和未來三種情況。世界中心空間認知則關注對物理世界三維布局與尺度的理解,本文進一步從尺寸、距離和位置關系三個方面進行評估。
數據平衡
RynnEC-Bench 中的視頻采集自十個與訓練集不重疊的住宅。在評估物體認知時,本文觀察到不同住宅之間的物體類別分布存在顯著差異,使得評估結果對選取的住宅高度敏感。為減輕這種偏差并更好地反映真實部署情況,本文引入了基于物理世界的評估協議。本文首先定義了一個包含 個粗粒度類別和 個細粒度類別的室內物體分類體系。隨后,使用 GPT-4o 對來自 個住宅的 張室內圖像進行解析,估計經驗物體類別頻率分布;由于數據規模龐大,這一分布可作為真實室內物體頻率的近似值。最后,本文進行按頻率比例的采樣,使 RynnEC-Bench 中的物體類別分布盡可能貼近經驗分布,從而實現更加客觀和現實的評估。具體而言,對于答案為 或 的計數類問題,本文減少了 ,以實現更平衡的難度分布。RynnEC-Bench 中的所有問答對均經過嚴格的人類篩選,以確保高質量。
評估框架



RynnEC 架構
RynnEC 由三個核心組件組成:用于基礎多模態理解的視覺-語言基礎模型、用于細粒度以物體為中心的表示學習的區域感知編碼器、用于視頻分割任務的自適應 mask 解碼器。值得注意的是,后兩個模塊被設計為即插即用組件,具有獨立的參數空間,從而保證架構的靈活性和模塊化擴展性。
視覺-語言基礎模型
本文使用 VideoLLaMA3-Image 作為 RynnEC 的視覺-語言基礎模型,該模型包含三個主要模塊:視覺編碼器、投影器和大語言模型(LLM)。視覺編碼器采用 VL3-SigLIP-NaViT,它利用任意分辨率視覺標記策略,能夠靈活地編碼不同分辨率的圖像。作為 LLM,本文使用 Qwen2.5-1.5B-Instruct 和 Qwen2.5-7B-Instruct,以實現性能與計算成本之間的可擴展權衡。
區域編碼器
第一人稱視頻常包含混亂場景,其中存在大量相似物體,僅依靠語言線索難以區分。為了解決這一問題,本文引入了專用的物體編碼器,用于特定物體的表示學習。這有助于在訓練過程中實現更精確的跨模態對齊,并在推理階段實現直觀、細粒度的人機交互。本文采用簡單而高效的 MaskPooling 進行物體標記化,隨后使用一個兩層投影器將物體特征對齊到 LLM 的嵌入空間。在訓練過程中,利用跨多幀的視頻物體 mask 以獲得準確表示。在推理階段,該編碼器具有靈活性,既支持單幀也支持多幀的物體 mask 。
Mask 解碼器
準確的物體定位對于第一人稱視頻理解至關重要。為在不損害模型預訓練性能的前提下引入強大的視覺定位能力,本文使用 LoRA 對 LLM 進行微調。本文的 mask 解碼器基于 SAM2 架構,該架構在純視覺分割任務中展現出良好的泛化能力和先驗知識。對于給定的視頻和指令,本文采用一個特殊的 [SEG] 標記作為觸發器,用于生成對應視覺區域的 mask 。為支持該過程,本文引入了一個額外的線性層,用于將 [SEG] 標記對齊到 SAM2 的特征空間。
訓練與推理
如下圖 4 所示,RynnEC 的訓練采用一個漸進式的四階段流程:1) mask 對齊,2)物體理解,3)空間理解,4)指代分割。前三個階段旨在逐步增強細粒度、以物體為中心的理解能力,而最后一個階段則專注于賦予模型精確的物體級分割能力。該基于課程的訓練方法確保了視覺、空間與定位知識的逐步整合,避免過擬合于單一任務。各階段使用的數據集在下表 1 中進行了總結。

各階段的訓練細節如下:
1)Mask 對齊 該初始階段的目標是鼓勵模型關注區域特定的標記,而不僅僅依賴全局視覺特征。本文在一個大規模的物體級圖文描述數據集上微調區域編碼器和 LLM,其中每條描述都明確對應一個特定的物體 mask 。該對齊訓練使模型學會將以物體為中心的嵌入與相應的語言描述關聯起來,為后續階段的局部推理奠定基礎。
2)物體理解 在此階段,重點轉向豐富模型的第一人稱物體知識,包括顏色、形狀、材質、大小和功能屬性等。區域編碼器與 LLM 聯合微調,以更有效地將這些物體級信息整合進跨模態嵌入空間。該階段是空間理解的基礎。
3)空間理解 在前一階段的基礎上,此階段賦予模型空間推理能力,使其能夠理解并推理場景中物體的相對位置和排列結構。本文使用大量生成的空間問答數據、前一階段的數據以及通用 VQA 數據,以保持模型的指令遵循能力。
4)指代分割 在最后階段,本文在 LLM 之后集成 mask 解碼器模塊,使模型具備細粒度的指代分割能力。通過 LoRA 微調 LLM,以最小化對其預訓練推理能力的干擾。訓練數據不僅包含分割特定的數據集,還包括前幾個階段的樣本,以緩解災難性遺忘問題。該多任務混合策略確保在提升分割性能的同時,不犧牲模型的物體與空間理解能力。
實驗
實現細節
訓練

評估
本文在 RynnEC-Bench 上對五類 MLLM 進行了全面評估,涵蓋通用模型以及針對區域級理解和分割任務微調的模型。對于不支持直接輸入區域信息的模型,本文統一使用邊界框在視頻中高亮目標物體。多個物體使用不同顏色的邊框進行區分,并在問題提示中進行引用。
本文觀察到,通用型 MLLM 無法在視頻中定位物體,因此僅對具備此能力并經過微調的專業模型在 RynnEC-Bench 的分割子集上進行評估。
為確保評估協議一致,視頻以 1 fps 的速率采樣,最多采樣 30 幀。如果初始采樣超過 30 幀,則保留包含目標的幀,其余幀從視頻中剩余部分進行均勻采樣。
具身認知評估
主要結果
下表 2 展示了本文提出的 RynnEC 模型以及五類相關 MLLM 在 RynnEC-Bench 上的評估結果。盡管 RynnEC 模型僅包含7 B 參數,但它展現出強大的具身認知能力,性能甚至超過了最先進的閉源模型 Gemini-2.5 Pro,領先10.7分。同時,RynnEC 在各類任務中表現出均衡且優越的性能。


物體認知
下圖 5 (a) 從多個維度展示了 RynnEC 在物體屬性認知方面的綜合評估。由于大多數物體屬性認知能力包含在通用視頻理解技能中,Gemini-2.5-Pro 在多個能力項上表現優越。然而,考慮到具身 MLLM 的邊緣部署需求,這些大規模模型的推理速度成為瓶頸。RynnEC 僅使用 7B 參數,即可在大多數類別中實現與 Gemini-2.5-Pro 相當的物體屬性認知能力。尤其是在表面細節、物體狀態和物體形狀等屬性上,RynnEC-2B 甚至超過了所有其他 MLLM。


空間認知
下圖 5 (b) 通過更細粒度的任務展示了 RynnEC 的空間認知能力。由于空間能力在以往工作中尚未被正式定義或系統性探索,不同的 MLLM 通常僅在特定技能上表現突出。總體而言,空間想象(Spatial Imagery)、運動想象(Movement Imagery)和軌跡回顧(Trajectory Review)等空間認知能力在以往 MLLM 中普遍缺失。相比之下,RynnEC 擁有更全面的空間能力,可幫助具身智能體在復雜環境中建立空間意識。
泛化能力與可擴展性
為了研究 RynnEC 的泛化能力,本文在 VSI-Bench 上進行了實驗,該基準是一個純文本的空間智能評估基準。如下圖 6 所示,RynnEC-7B 在幾乎所有能力維度上持續超越 VideoLLaMA3-7B。值得注意的是,RynnEC 的訓練采用了以 mask 為中心的空間感知范式,而 VSI-Bench 中的所有任務均涉及純文本的空間推理。這表明空間感知能力不必受限于表征模態,空間推理能力可以在不同模態之間有效遷移。進一步觀察發現,RynnEC 在路線規劃任務上表現出顯著的性能提升,盡管該任務并未包含在訓練中。這表明具身智能體的導航性能目前受限于基礎的空間感知能力,例如對方向、距離和空間關系的理解。只有具備強大的基礎空間認知能力,具身大模型才能在高層次的規劃與決策任務中獲得優異表現。與其他相似規模的具身 MLLM 相比,RynnEC-7B 還在 VSI-Bench 上取得了領先的45.8分。

某些任務,如物體分割與運動想象,仍然對 RynnEC 構成顯著挑戰。本文假設這些任務表現不佳主要源于訓練數據不足。為驗證這一點,本文對不同任務類別的數據可擴展性進行了實證分析。隨著數據量從20%逐步增加至100% ,模型在所有任務上的表現都穩步提升。這一觀察結果促使本文進一步擴展數據集,以增強 RynnEC 的空間推理能力。然而值得注意的是,隨著數據量的增長,邊際收益逐漸減少,表明規模擴展的回報遞減。如何提升數據多樣性以維持這種擴展趨勢,仍是未來研究中亟待解決的關鍵挑戰。
具身應用
近期,一些研究嘗試將 MLLM 作為“智能大腦”用于輔助機器人完成規劃任務、感知環境與做出決策。然而,當前的 MLLM 缺乏關鍵能力,如空間感知、細粒度感知與實例定位,這使得相關應用僅限于簡單任務。如下圖 7 所示,RynnEC 展示了在復雜環境中輔助機器人完成長時序任務的潛力。

從兩個由搭載 RynnEC 的機器人執行的實時任務中,本文觀察到 RynnEC 在任務執行中發揮了以下作用:(1) 細粒度的物體定位與理解,使機器人能夠更快速地識別目標物體并評估其狀態;(2) 目標方向與距離的感知,提升了導航效率與精度;(3) 空間尺度估計,使機器人能夠執行更精細的操作;(4) 計數能力,有助于完成需要數學推理的任務。
需要強調的是,RynnEC 在具身任務中的作用遠不止于這些示例。本文希望有更多研究者將 RynnEC 模型集成到各類機器人系統中,從而推動具身智能在現實世界中實現更有價值的應用。
結論與未來工作
RynnEC,這是一種用于具身認知的視頻多模態大語言模型(Video MLLM)。通過區域編碼器與 mask 解碼器的架構設計,RynnEC 實現了靈活、細粒度的視覺交互。同時,RynnEC 在緊湊模型規模下展現出穩健的物體與空間認知能力。為了解決現有場景數據的局限性,本文采用了一種僅依賴 RGB 視頻的數據生成流程。此外,為了彌補細粒度具身認知基準的缺失,本文提出了 RynnEC-Bench,涵蓋了 22 類物體與空間認知能力。在訓練過程中,RynnEC 通過四階段能力注入流程逐步整合多樣技能。重要的是,本文主張基于視頻的細粒度視覺理解是實現物理世界中可泛化認知的關鍵。RynnEC 將使機器人能夠完成更精確的認知任務,從而推動具身智能的實際發展。
將 RynnEC 視為通用具身智能模型發展的基礎性一步。展望未來,本文計劃從兩個主要方向進一步推進 RynnEC:
- 增強推理能力:穩健的視覺推理對于解決任何復雜的具身任務至關重要。一個重要的研究方向是如何有效整合 RynnEC 的多種能力以執行聯合推理,從而實現更高層次的具身問題求解。
- 統一的感知與規劃框架:近期研究已開始探索訓練統一的具身智能模型,將感知與規劃結合在一起。然而,這些方法在支持細粒度、基于視頻的視覺交互方面仍存在限制。未來本文希望賦予 RynnEC 更靈活的規劃能力,并將其與 VLA 模型集成,構建一個閉環的具身系統。
本文轉自AI生成未來 ,作者:AI生成未來

















