謝賽寧×李飛飛×LeCun首次聯手!寒武紀-S「空間超感知」AI震撼登場
在構建超級智能前,需要什么?
這是目前AI領域最前沿,最有哲學意味的問題。這個問題的答案甚至決定了未來人類資源的投入走向。
最近,Yann LeCun、李飛飛和謝賽寧聯手發了一篇論文——「Cambrian-S:邁向視頻中的空間超感知」。

論文:https://arxiv.org/abs/2511.04670
代碼:https://github.com/cambrian-mllm/cambrian-s
模型:https://huggingface.co/collections/nyu-visionx/cambrian-s-models
數據:https://huggingface.co/datasets/nyu-visionx/VSI-590K
基準:https://huggingface.co/collections/nyu-visionx/vsi-super
非常罕見,三位大佬共同署名,而且三人中兩位(LeCun和李飛飛)都是明確的世界模型布道者,而LeCun更是一位LLM批評者。
他在更多場合還廣泛批評目前的基于LLM的AI底層技術,這個技術無法實現AGI??上攵?,這篇論文的含金量!

真正意義上的超感官智能,不僅需要具備看見的能力,更要能通過構建內部世界模型,主動地預判、篩選并組織其所接收的感官信息

謝賽寧說關于對這個問題的思考,甚至讓他們重構了此前基礎的研究。
去年,他們就構建了Cambrian-1,這是針對圖像多模態模型的一次開放性探索。
擴展閱讀:LeCun謝賽寧首發全新視覺多模態模型,等效1000張A100干翻GPT-4V
但之后團隊并沒有直接擴大規模去構建Cambrian-2或3,而是停下來反思:
- 真正的多模態智能意味著什么?
- 大語言模型范式對于感官建模而言,真的合理嗎?
- 以及,為什么人類的感知如此毫不費力、如此直觀,卻又如此強大?
一些根本性的東西缺失了。
簡單說就是,這三位巨頭認為LLM目前雖然能力很強,但依然無法像人類一樣感知這個世界,既然無法感知,代表LLM是有缺陷的。
謝賽寧在博客中表示,在構建出「超感知」之前,不可能真正構建出「超級智能」。
那么,什么是超感知 (supersensing)?

在團隊看來,「超感知」并非指更高級的傳感器或更好的攝像頭。
它關乎一個數字生命如何真正地體驗世界——吸收源源不斷的輸入流,并從中學習。
超感知是智能的一部分,正如眼睛是大腦觸及外部世界的那一部分。解決編程和數學問題時不需要感知能力。
但身處現實世界中的AI智能體,則需要感官建模!
謝賽寧還引用了卡帕西所說,感官建?;蛟S就是AI智能體所需要的一切。

視頻空間超感知
如何讓AI能夠真正地感知人類的世界?

為了更具體地闡述,團隊認為以下的分類法能夠清晰地描繪出一條演進路徑——從團隊當前擁有的技術,到團隊下一步真正需要構建的目標。
- 0. (純語言理解)不具備感官能力;推理僅限于文本和符號。當前的多模態大語言模型雖已超越此階段,但仍殘留著其偏見的痕跡。
- 1. 語義感知將像素解析為物體、屬性和關系。這對應于多模態大語言模型目前強大的「看圖說話」能力。
- 2. 流式事件認知處理實時的、無限制的數據流,同時主動地解讀并響應持續發生的事件。這與當前將多模T態大語言模型打造為實時助手的努力方向一致。
- 3. 隱式3D空間認知將視頻理解為三維世界的投影。智能體必須知道「什么東西」在「哪里」,它們之間「如何關聯」,以及空間布局「如何隨時間變化」。當今的多模態模型在這一方面的能力仍然極其有限。
- 4. 預測性世界建模大腦通過基于先驗期望來預測潛在的世界狀態,從而進行「無意識推斷」。當前的多模態系統缺乏一個能夠預測未來狀態、保持長期記憶或進行推理和規劃的內部模型。
要研究這一切,視頻是最佳的媒介——它是人類每天體驗世界的方式,是人類生活經驗的直接投影。
如何判斷模型達到超感知能力
首要問題(始終)是基準測試。
謝賽寧說他也很鐘愛多模態大語言模型,但若缺乏開放和批判性的審視,團隊可能會在錯誤的方向上進行優化。
許多視頻基準測試甚至不需要真正的感知能力;正如團隊所展示的,僅僅依靠單幀圖像或字幕就能獲得高分。
謝賽寧也提到了現在的玩法是:
科技公司構建強大的語言模型 → 基準測試獎勵的是模型的文本記憶能力 → 模型通過擴大LLM的規模獲得更高分數 → 其他公司紛紛效仿
這個循環不斷持續,直到團隊意識到,召喚出的「幽靈」在感知能力上,仍然落后于一只貓,或一只松鼠。
莫拉維克悖論再次應驗:對人類而言毫不費力的感知能力,對模型來說卻難如登天。

這不僅僅是一個科學問題。
真正的價值來自于那些能夠在現實世界中感知和行動的模型:
從工廠到農場,再到醫院……從機器人到那些人們期望能作為個人助理佩戴的AI眼鏡。
僅靠大語言模型是無法實現這一切的。
超級智能,始于超感知。

超感知的關鍵一環是視覺空間智能
謝賽寧團隊之前有一個VSI-Bench基準用于測試空間推理,但其中的視頻太短,任務也過于簡單。
所以,團隊打造了一個看似更簡單、實則更難的版本:VSI-Super。
其中有兩個任務。
· 任務1:VS
長時程空間記憶。團隊使用擴散模型編輯視頻,插入一些不合上下文但視覺上融合的物體(而不是隨機的「大海撈針」式物體)。

· 任務2:VSC
持續計數。在變化的視角和場景下進行持續計數……模型只需數出它們所看到的東西。

一個測試考察對物體順序的記憶力,另一個則考察計數能力。
任務簡單,可流式處理——還能有比這更容易的嗎?
然而,頂尖的大語言模型卻紛紛敗下陣來。
而且,這不僅僅是長上下文(long context)的問題。
為什么?
謝賽寧解釋道(其實還是驗證了莫拉維克悖論):
- 視頻可以任意長。這對于對人類來說,這很簡單。人類的感官能處理「無限的Token」。這雖然是一個有損的過程,但人們能記住幾天甚至幾周的經歷。模型卻做不到。
- 它們(LLM)缺乏真正的空間認知和泛化能力。人類可以一直數下去,而模型不行。
以頂尖的Gemini 2.5模型為例,它只能數到幾十個。
即使視頻更長、物體更多,它也會停止計數。 這充分暴露了其訓練數據的分布特點。

當然,你可能會問——這難道不只是一個數據或規模化的問題嗎?
就像Scaling Law一樣,繼續增加數據量和增大訓練量,不就可以解決嗎?
謝賽寧表示,部分是因為規模這個原因。
但這也是他們構建全新的Cambrian-S視頻多模態大語言模型(MLLM)系列的原因。
團隊想要挑戰當前范式(LLM)的極限。
謝賽寧、李飛飛和LeCun,他們認為數據和規?;瘜τ诔兄陵P重要(但僅有這些還不夠)。
核心問題在于:目前缺乏真正用于訓練空間認知的有效數據。
所以團隊構建了一個名為VSI-590K的數據集。

它包含59萬個訓練樣本,來源包括:帶有3D標注的室內環境第一人稱探索視頻、來自模擬器的視頻,以及使用VGGT等視覺工具進行偽標注的YouTube視頻。
團隊探索了多種后訓練方案、數據混合策略以及一系列工程細節,訓練了從5億到70億參數不等的模型。
結果顯示出強大的空間推理能力——性能比團隊的基座MLLM提升高達 30%。即使是最小的模型也表現得相當出色。

已經將數據和模型全部開源。
相信它們將在許多任務中發揮作用。但要明確一點——這仍然無法解決 VSI-Super 基準測試的挑戰。
而且他們越來越堅信:沿用大語言模型的老路來構建多模態模型,并非通往超感知的終極之道。(其實就是LeCun在多個場合下所說的LLM并不會通向AGI。)
全新原型,全新范式
展望未來,團隊正在開發一種全新原型——團隊稱之為「預測性感知」。
在這篇論文中引用了大量來自認知科學和發展心理學的研究成果。
越是深入研讀,就越為人類和動物的感知能力而驚嘆。
人類的視覺系統擁有極高的帶寬,卻又有著驚人的效率。
每只眼睛的600萬個視錐細胞可以傳輸約1.6 Gbit/s的數據,然而大腦僅用約10 bits/s的信息來指導行為。
大部分感官數據都被過濾和壓縮,整個過程都在自動運行——你甚至毫無察覺。
人類的大腦是如何做到這一點的?
一個主流理論認為:
你的大腦在后臺運行一個「預測性世界模型」來進行感知,它不斷地預測未來,并將其與實際發生的情況進行比對。
- 如果預測誤差很小 → 說明一切盡在預料之中,可以忽略。
- 如果預測誤差很大 → 這就是「驚異」,大腦會集中注意力,并更新記憶。
目前的大語言模型中,沒有任何與之相當的機制。
為驗證這一想法,團隊在Cambrian-S模型之上,訓練了一個潛在幀預測 (Latent Frame Prediction, LFP) 模塊。(過去人類模仿鳥類、蝙蝠發明了飛機和超聲波,這次AI要模仿人類了)
團隊在推理過程中估算「驚異度」,并將其應用于兩個方面:
- 由「驚異度」驅動的記憶管理 —— 壓縮或跳過無意外的幀,將計算資源集中在有意外的幀上。
- 由「驚異度」驅動的事件切分 —— 利用「驚異度」的峰值來檢測事件邊界或場景變化。
通過利用這個內部預測模型提供的信號,已經在空間認知任務上看到了喜人的性能提升。
這目前只是一個簡化的預測性世界模型原型——但僅憑這一機制,小模型就在VSI-Super評測基準上超越了Gemini。

謝賽寧說雖然這篇論文很長,但保證——其中有很多團隊認為非常有趣的細節。
如果你也在研究視頻多模態模型,那么這篇論文很值得一讀。
我不敢說團隊的方法就是正確的道路——但我確信,當前的范式是遠遠不夠的,而開放科學、開放研究,才是唯一的出路。
值得一提的是,團隊還同步發布了由相關的兩個相關項目:
一項關于多模態基準設計的研究——如何對基準進行壓力測試,并有效消除語言偏見。

一份經驗總結,關于團隊如何構建模擬器來收集空間感知視頻(Cambrian-S 使用的正是這些數據)。

作者介紹

共同一作Shusheng Yang是紐約大學計算機科學專業的博士生,指導老師是謝賽寧教授。
此前,他在華中科技大學獲得計算機課學士學位和計算機視覺與深度學習碩士學位。

共同一作Jihan Yang,是紐約大學庫朗研究所的一名博士后副研究員,師從謝賽寧教授。
此前,他在香港大學獲得博士學位,在中山大學獲得學士學位。
他的研究興趣主要集中在機器學習和計算機視覺領域,重點探索多模態大語言模型在推理、智能體、長視頻理解、空間智能和統一模型方面的研究,以及它們在現實世界中的應用與落地。

核心作者黃品志是紐約大學本科生,師從謝賽寧教授。
































