李飛飛萬字長(zhǎng)文爆了!定義AI下一個(gè)十年
AI的下一個(gè)前沿,是「空間智能」。
它是一項(xiàng)能讓「看見」升華為「推理」,讓「感知」蛻變?yōu)椤感袆?dòng)」,讓「想象」落地為「創(chuàng)造」的技術(shù)。
但「空間只能」究竟是什么?為何如此重要?該如何構(gòu)建它?又該如何應(yīng)用它?
今天,李飛飛撰萬字長(zhǎng)文分享了自己關(guān)于構(gòu)建和使用「世界模型」以解鎖空間智能的思考。

新文章中,她為真正具備空間智能的「世界模型」所需達(dá)成的目標(biāo)勾勒了一個(gè)框架。
具體來說,構(gòu)建這樣的AI必須具備三大核心能力:
讓AI擁有故事講述家的想象力去創(chuàng)造,
擁有急救人員般的敏捷性去導(dǎo)航,
并擁有科學(xué)家的嚴(yán)謹(jǐn)去推理空間。

李飛飛與LeCun共腦的一點(diǎn)是,「世界模型」是解鎖空間智能的核心。
它必須能生成遵循物理定律、在空間上保持一致的世界,能處理從圖像到動(dòng)作的多模態(tài)輸入,并能預(yù)測(cè)這些世界將如何演變或與之互動(dòng)。
空間智能的應(yīng)用疆域,正沿著一條清晰路徑演進(jìn)。
當(dāng)下,它正賦能創(chuàng)意,World LabsMarble項(xiàng)目已經(jīng)將這些能力交到了創(chuàng)作者和故事講述者的手中。
下一步,它將駕馭物理世界,機(jī)器人實(shí)現(xiàn)感知與行動(dòng)之間的閉環(huán)。

而最具變革性的科學(xué)應(yīng)用,雖然需要更長(zhǎng)時(shí)間,但有望對(duì)人類福祉產(chǎn)生深遠(yuǎn)影響。
哲學(xué)家維特根斯坦曾寫道:「我語言的極限,意味著我世界的極限。」
李飛飛表示,「我不是哲學(xué)家,但我深知,至少對(duì)AI而言,世界遠(yuǎn)不止于文字」。
空間智能代表了超越語言的前沿——它是一種將想象、感知與行動(dòng)融會(huì)貫通的能力,為機(jī)器真正提升人類生活開啟了無限可能,從醫(yī)療健康到創(chuàng)意揮灑,從科學(xué)探索到日常輔助。
眾多網(wǎng)友點(diǎn)評(píng),這是李飛飛一篇非常重要的文章,空間智能必讀之作!





上下滑動(dòng)查看
以下是全文翻譯,一起來拜讀下。
從語言到世界:空間智能是AI的下一個(gè)前沿
1950年,當(dāng)計(jì)算還只是自動(dòng)化算術(shù)和簡(jiǎn)單邏輯的代名詞時(shí),阿蘭· 圖靈提出了一個(gè)至今仍振聾發(fā)聵的問題:機(jī)器能否思考?能洞見他所預(yù)見的一切,需要非凡的想象力:智能有朝一日或可后天構(gòu)建,而非與生俱來。
這一洞見,后來開啟了一場(chǎng)名為「人工智能」(AI)的不懈科學(xué)探索。
在我投身AI領(lǐng)域的第二十五個(gè)年頭,圖靈的遠(yuǎn)見卓識(shí)依然激勵(lì)著我。但我們離這個(gè)目標(biāo)還有多近?答案并非一言以蔽之。

如今,以大語言模型(LLM)為代表的頂尖AI技術(shù)已開始改變我們獲取和運(yùn)用抽象知識(shí)的方式。
然而,它們?nèi)允呛诎抵械奈淖执髱煟荒苎陨妻q卻缺乏經(jīng)驗(yàn),知識(shí)淵博卻脫離現(xiàn)實(shí)的根基。
空間智能將改變我們創(chuàng)造以及與真實(shí)和虛擬世界互動(dòng)的方式——為故事敘述、創(chuàng)意、機(jī)器人技術(shù)、科學(xué)發(fā)現(xiàn)等領(lǐng)域帶來革命性的變革。這,就是AI的下一個(gè)前沿。
對(duì)視覺與空間智能的追求,是我踏入該領(lǐng)域以來始終指引我前行的「北極星」。
正因如此,我花費(fèi)數(shù)年時(shí)間構(gòu)建了ImageNet——首個(gè)大規(guī)模視覺學(xué)習(xí)與基準(zhǔn)測(cè)試數(shù)據(jù)集,它與神經(jīng)網(wǎng)絡(luò)算法、圖形處理器(GPU)等現(xiàn)代計(jì)算設(shè)備一道,成為催生現(xiàn)代AI的三大關(guān)鍵基石之一。

正因如此,我在斯坦福大學(xué)的學(xué)術(shù)實(shí)驗(yàn)室在過去十年里,始終致力于將計(jì)算機(jī)視覺與機(jī)器人學(xué)習(xí)相結(jié)合。
也正因如此,一年多前,我與聯(lián)合創(chuàng)始人Justin Johnson、Christoph Lassner、Ben Mildenhall及我本人共同創(chuàng)立了World Labs:旨在首次將這一可能性淋漓盡致地變?yōu)楝F(xiàn)實(shí)。

World Labs創(chuàng)始人團(tuán)隊(duì),左起依次為Ben Mildenhall、Justin Johnson、Christoph Lassner和李飛飛
在本文中,我將闡釋何為空間智能、其重要性何在,以及我們?nèi)绾螛?gòu)建能夠解鎖它的「世界模型」——其深遠(yuǎn)影響將重塑創(chuàng)意、具身智能與人類的進(jìn)步。
空間智能:人類認(rèn)知的基石
人工智能的發(fā)展從未如此激動(dòng)人心。像大語言模型這樣的生成式AI已經(jīng)從實(shí)驗(yàn)室走向日常生活,成為數(shù)十億人創(chuàng)意、生產(chǎn)力和溝通的工具。
它們展現(xiàn)了曾被認(rèn)為遙不可及的能力,能輕松生成連貫的文本、浩如煙海的代碼、逼真的圖像,乃至短視頻片段。AI是否會(huì)改變世界已不再是疑問。
無論以何種合理的標(biāo)準(zhǔn)衡量,它都已然做到了。
然而,仍有太多領(lǐng)域是我們力所不及的。自主機(jī)器人的愿景雖引人入勝,卻仍停留在理論層面,遠(yuǎn)未成為未來學(xué)家們長(zhǎng)期許諾的日常必需品。
在疾病治療、新材料發(fā)現(xiàn)和粒子物理學(xué)等領(lǐng)域?qū)崿F(xiàn)研究進(jìn)程大飛躍的夢(mèng)想,在很大程度上仍未實(shí)現(xiàn)。
而AI真正理解并賦能人類創(chuàng)作者的承諾——無論是幫助學(xué)生理解分子化學(xué)的復(fù)雜概念,協(xié)助建筑師構(gòu)想空間,支持電影制作人構(gòu)建世界,還是為任何尋求完全沉浸式虛擬體驗(yàn)的人提供支持——也依然遙不可及。
要理解為何這些能力仍難以實(shí)現(xiàn),我們需要審視空間智能的演化歷程,以及它如何塑造我們對(duì)世界的認(rèn)知。

視覺長(zhǎng)久以來都是人類智能的基石,但其力量源于某種更為根本的能力。遠(yuǎn)在動(dòng)物學(xué)會(huì)筑巢、哺育后代、用語言交流或建立文明之前,感知這一簡(jiǎn)單的行為就已悄然點(diǎn)燃了通往智能的進(jìn)化火花。
這種從外部世界(無論是一縷微光還是一絲觸感)收集信息的看似孤立的能力,在感知與生存之間架起了一座橋梁,并隨著代代繁衍而愈發(fā)堅(jiān)固和精巧。層層疊疊的神經(jīng)元從這座橋梁上生長(zhǎng)出來,形成了能夠解讀世界并協(xié)調(diào)生物體與環(huán)境互動(dòng)的神經(jīng)系統(tǒng)。
因此,許多科學(xué)家推斷,感知與行動(dòng)的循環(huán)成為驅(qū)動(dòng)智能進(jìn)化的核心動(dòng)力,也是自然界創(chuàng)造出我們?nèi)祟悺@一集感知、學(xué)習(xí)、思考與行動(dòng)于一體的終極造物——的根基。
空間智能在定義我們?nèi)绾闻c物理世界互動(dòng)方面扮演著至關(guān)重要的角色。
每一天,我們都依賴它來完成最平凡的舉動(dòng):通過想象保險(xiǎn)杠與路緣之間不斷縮小的間隙來停放汽車,接住拋過房間的一串鑰匙,在擁擠的人行道上穿行而避免碰撞,或是在睡眼惺忪中不看一眼便將咖啡倒入杯中。
在更極端的情況下,消防員在濃煙彌漫、搖搖欲墜的建筑中穿行,對(duì)結(jié)構(gòu)的穩(wěn)定性和自身的生存在瞬間做出判斷,并通過手勢(shì)、肢體語言和一種無可替代的職業(yè)直覺進(jìn)行交流。
而嬰幼兒則在學(xué)會(huì)說話前的整段歲月里,通過與環(huán)境的嬉戲互動(dòng)來認(rèn)知世界。所有這一切都發(fā)生得如此直觀、自然——這是機(jī)器尚未能企及的自如與嫻熟。
空間智能同樣是我們想象力與創(chuàng)造力的基石。故事講述者在腦海中創(chuàng)造出異常豐富的世界,并利用從古老的洞穴壁畫到現(xiàn)代電影,再到沉浸式視頻游戲等多種視覺媒介,將這些世界呈現(xiàn)給他人。
無論是孩童在沙灘上堆砌沙堡,還是在電腦上玩《我的世界》,基于空間的想象力構(gòu)成了真實(shí)或虛擬世界中互動(dòng)體驗(yàn)的基礎(chǔ)。在眾多行業(yè)應(yīng)用中,對(duì)物體、場(chǎng)景和動(dòng)態(tài)交互環(huán)境的模擬,為從工業(yè)設(shè)計(jì)到數(shù)字孿生,再到機(jī)器人訓(xùn)練等無數(shù)關(guān)鍵商業(yè)用例提供了動(dòng)力。

歷史上充滿了由空間智能扮演核心角色的、定義文明進(jìn)程的時(shí)刻。
在古希臘,埃拉托色尼將光影轉(zhuǎn)化為幾何學(xué)——在太陽直射賽伊尼城的同一時(shí)刻,于亞歷山大港測(cè)得7度的夾角——從而計(jì)算出地球的周長(zhǎng)。
哈格里夫斯的「珍妮紡紗機(jī)」憑借一個(gè)空間洞見徹底改變了紡織業(yè):將多個(gè)紡錘并排置于同一框架內(nèi),使得一名工人能同時(shí)紡織多根紗線,生產(chǎn)效率提升了八倍。
沃森和克里克通過親手搭建3D分子模型發(fā)現(xiàn)了DNA的結(jié)構(gòu),他們不斷擺弄金屬板和金屬絲,直至堿基對(duì)的空間排列「咔噠」一聲完美契合。
在每一個(gè)案例中,當(dāng)科學(xué)家和發(fā)明家需要操控物體、構(gòu)想結(jié)構(gòu)、推理物理空間時(shí),空間智能都推動(dòng)了文明的進(jìn)步——而這些,都非文字所能單獨(dú)承載。
空間智能是我們認(rèn)知賴以構(gòu)建的基石。無論我們是被動(dòng)觀察還是主動(dòng)創(chuàng)造,它都在發(fā)揮作用。它驅(qū)動(dòng)著我們的推理與規(guī)劃,即便是面對(duì)最抽象的議題。
它對(duì)于我們互動(dòng)的方式——無論是口頭還是肢體,與同伴還是與環(huán)境本身——都至關(guān)重要。
雖然我們大多數(shù)人并非每天都能像埃拉托色尼那樣揭示新的宇宙真理,但我們?nèi)粘5乃伎挤绞脚c他并無二致——通過感官感知復(fù)雜的世界,再利用一種對(duì)物理、空間運(yùn)作方式的直觀理解來賦予其意義。
不幸的是,今天的AI還不能這樣思考。
過去幾年確實(shí)取得了巨大進(jìn)步。多模態(tài)大語言模型(MLLM)除了文本數(shù)據(jù)外,還用大量的多媒體數(shù)據(jù)進(jìn)行訓(xùn)練,引入了一些基本的空間意識(shí),今天的AI可以分析圖片、回答關(guān)于圖片的問題,并生成超逼真的圖像和短視頻。
通過傳感器和觸覺技術(shù)的突破,我們最先進(jìn)的機(jī)器人可以在高度受限的環(huán)境中開始操縱物體和工具。
然而,坦率的真相是,AI的空間能力仍遠(yuǎn)未達(dá)到人類水平,其局限性很快便會(huì)暴露無遺。
在估算距離、方向和尺寸,或通過從新角度生成圖像來進(jìn)行物體的「心理旋轉(zhuǎn)」等任務(wù)上,最先進(jìn)的MLLM模型的表現(xiàn)鮮有超過隨機(jī)猜測(cè)的。它們無法走出迷宮、識(shí)別捷徑或預(yù)測(cè)基本的物理現(xiàn)象。AI生成的視頻——盡管初露鋒芒,且的確酷炫——通常在幾秒鐘后便會(huì)失去連貫性。

雖然當(dāng)前最先進(jìn)的AI在閱讀、寫作、研究和數(shù)據(jù)模式識(shí)別方面表現(xiàn)出色,但這些模型在表征或與物理世界互動(dòng)時(shí),卻存在根本性的局限。
我們對(duì)世界的看法是整體性的——不僅僅是眼前所見,還包括萬物在空間上的相互關(guān)聯(lián)、其意義以及其重要性。通過想象、推理、創(chuàng)造和互動(dòng)——而不僅是描述——來理解這一切,正是空間智能的力量所在。
若無此能力,AI便與它試圖理解的物理現(xiàn)實(shí)脫節(jié)。它將無法有效地駕駛我們的汽車,引導(dǎo)家中的機(jī)器人或醫(yī)院的護(hù)理機(jī)器人,也無法為學(xué)習(xí)和娛樂開啟全新的沉浸式互動(dòng)體驗(yàn),更無法加速材料科學(xué)和醫(yī)學(xué)領(lǐng)域的探索發(fā)現(xiàn)。
哲學(xué)家維特根斯坦曾寫道:「我語言的極限,意味著我世界的極限。」我不是哲學(xué)家,但我深知,至少對(duì)AI而言,世界遠(yuǎn)不止于文字。
空間智能代表了超越語言的前沿——它是一種將想象、感知與行動(dòng)融會(huì)貫通的能力,為機(jī)器真正提升人類生活開啟了無限可能,從醫(yī)療健康到創(chuàng)意揮灑,從科學(xué)探索到日常輔助。
AI的下一個(gè)十年:構(gòu)建真正具備空間智能的機(jī)器
那么,我們?cè)撊绾螛?gòu)建具備空間智能的AI?
如何才能打造出能夠像埃拉托色尼一樣洞察深遠(yuǎn)、像工業(yè)設(shè)計(jì)師一樣精雕細(xì)琢、像故事講述家一樣天馬行空,并像急救人員一樣敏捷自如地與環(huán)境互動(dòng)的模型?
構(gòu)建具備空間智能的AI需要比大語言模型更為宏大的構(gòu)想:世界模型。
這是一種新型的生成模型,其理解、推理、生成以及與語義、物理、幾何和動(dòng)態(tài)上都極為復(fù)雜的虛擬或真實(shí)世界進(jìn)行互動(dòng)的能力,遠(yuǎn)非今日的LLM所能企及。
不過,這一領(lǐng)域尚處萌芽階段,當(dāng)前方法涵蓋了從抽象推理模型到視頻生成系統(tǒng)的各種探索。
World Labs正是基于這一信念于2024年初創(chuàng)立的:基礎(chǔ)方法尚在建立之中,而這將成為未來十年的決定性挑戰(zhàn)。
在這個(gè)新興領(lǐng)域,最重要的是確立指導(dǎo)發(fā)展的基本原則。對(duì)于空間智能,我通過三大核心能力來定義世界模型:
1. 生成式:世界模型能生成在感知、幾何和物理層面保持一致的世界
能解鎖空間理解與推理能力的世界模型,也必須能生成屬于自己的模擬世界。
它們必須能夠生成無窮無盡、千變?nèi)f化的模擬世界,這些世界遵循語義或感知指令,同時(shí)在幾何、物理和動(dòng)態(tài)層面保持一致性——無論其表征的是真實(shí)空間還是虛擬空間。
研究界正在積極探索,這些世界固有的幾何結(jié)構(gòu)應(yīng)該被隱式表征還是顯式表征。
此外,我相信,除了強(qiáng)大的潛在表征,一個(gè)通用的世界模型的輸出還必須能為眾多不同的用例生成一個(gè)顯式的、可觀察的世界狀態(tài)。
尤其重要的是,它對(duì)當(dāng)前狀態(tài)的理解必須與其過去——即導(dǎo)致當(dāng)前狀態(tài)的先前世界狀態(tài)——連貫地聯(lián)系在一起。
2. 多模態(tài):世界模型在設(shè)計(jì)上是多模態(tài)的
正如動(dòng)物與人類一樣,世界模型應(yīng)該能夠處理多種形式的輸入——在生成式AI領(lǐng)域,這被稱為「提示詞」。
在給定部分信息——無論是圖像、視頻、深度圖、文本指令、手勢(shì)還是動(dòng)作——的情況下,世界模型應(yīng)能預(yù)測(cè)或生成盡可能完整的世界狀態(tài)。
這要求它既能以真實(shí)視覺的保真度處理視覺輸入,又能同樣自如地解讀語義指令。
這使得智能體和人類都能通過多樣化的輸入與模型與世界進(jìn)行交流,并反過來接收多樣化的輸出。
3. 互動(dòng)性:世界模型能根據(jù)輸入的動(dòng)作輸出下一個(gè)狀態(tài)
最后,如果動(dòng)作和/或目標(biāo)是給予世界模型的提示詞的一部分,那么其輸出必須包含世界的下一個(gè)狀態(tài),無論是隱式還是顯式表征。
當(dāng)僅給定一個(gè)動(dòng)作(無論是否包含目標(biāo)狀態(tài))作為輸入時(shí),世界模型產(chǎn)生的輸出必須與世界先前的狀態(tài)、任何預(yù)設(shè)的目標(biāo)狀態(tài)、其語義含義、物理定律以及動(dòng)態(tài)行為保持一致。
隨著具備空間智能的世界模型在推理和生成能力上變得日益強(qiáng)大和穩(wěn)健,可以想見,在給定目標(biāo)的情況下,世界模型本身將不僅能預(yù)測(cè)世界的下一個(gè)狀態(tài),甚至還能基于新狀態(tài)預(yù)測(cè)出下一步的動(dòng)作。
這項(xiàng)挑戰(zhàn)的廣度與深度,超越了AI以往所面對(duì)的任何課題。
語言是人類認(rèn)知中純粹的生成現(xiàn)象,而世界則遵循著遠(yuǎn)為復(fù)雜的規(guī)則。
例如,在地球上,引力支配運(yùn)動(dòng),原子結(jié)構(gòu)決定光如何產(chǎn)生色彩與亮度,無數(shù)物理定律約束著每一次互動(dòng)。即便是最天馬行空的創(chuàng)意世界,也由遵循其自身物理定律和動(dòng)態(tài)行為的空間物體與智能體構(gòu)成。
要將這一切——語義、幾何、動(dòng)態(tài)與物理——持續(xù)一致地調(diào)和起來,需要全新的方法論。表征一個(gè)世界的維度,遠(yuǎn)比像語言這樣的一維、順序信號(hào)復(fù)雜得多。
要實(shí)現(xiàn)能提供如人類般通用能力的世界模型,需要克服若干嚴(yán)峻的技術(shù)壁純。在World Labs,我們的研究團(tuán)隊(duì)正致力于朝此目標(biāo)取得根本性的進(jìn)展。
以下是我們當(dāng)前研究課題的一些示例。
· 一種新的、通用的訓(xùn)練任務(wù)函數(shù):
定義一個(gè)像LLM中「預(yù)測(cè)下一個(gè)token」一樣簡(jiǎn)潔而優(yōu)雅的通用任務(wù)函數(shù),長(zhǎng)久以來都是世界模型研究的核心目標(biāo)。由于其輸入和輸出空間的復(fù)雜性,這種函數(shù)的構(gòu)建本質(zhì)上更加困難。
盡管仍有待探索,但這個(gè)目標(biāo)函數(shù)及相應(yīng)的表征必須能反映幾何與物理定律,尊重世界模型作為想象與現(xiàn)實(shí)之根基表征的本質(zhì)。
· 大規(guī)模訓(xùn)練數(shù)據(jù):
訓(xùn)練世界模型需要比文本整理復(fù)雜得多的數(shù)據(jù)。好消息是:海量的數(shù)據(jù)源業(yè)已存在。
互聯(lián)網(wǎng)規(guī)模的圖像和視頻集是豐富且易于獲取的訓(xùn)練材料——挑戰(zhàn)在于開發(fā)能夠從這些二維圖像或視頻幀信號(hào)(即RGB)中提取更深層次空間信息的算法。
過去十年的研究已證明了語言模型中數(shù)據(jù)量與模型大小之間的「規(guī)模定律」的力量;世界模型的關(guān)鍵突破在于構(gòu)建能夠以相當(dāng)規(guī)模利用現(xiàn)有視覺數(shù)據(jù)的架構(gòu)。
此外,我絕不會(huì)低估高質(zhì)量合成數(shù)據(jù)以及深度、觸覺信息等額外模態(tài)的力量。它們?cè)谟?xùn)練過程的關(guān)鍵階段對(duì)互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)形成了重要補(bǔ)充。
但前路漫漫,這有賴于更好的傳感器系統(tǒng)、更穩(wěn)健的信號(hào)提取算法以及遠(yuǎn)為強(qiáng)大的神經(jīng)模擬方法。
· 新的模型架構(gòu)與表征學(xué)習(xí):
世界模型的研究將不可避免地推動(dòng)模型架構(gòu)與學(xué)習(xí)算法的進(jìn)步,尤其是在當(dāng)前MLLM和視頻擴(kuò)散范式之外。
這兩種范式通常將數(shù)據(jù)「Token化」為一維或二維序列,這使得一些簡(jiǎn)單的空間任務(wù)變得異常困難——例如,計(jì)算一個(gè)短視頻中不重復(fù)的椅子數(shù)量,或者記住一個(gè)小時(shí)前房間的樣貌。
替代性架構(gòu)或可助一臂之力,例如具備三維或四維感知能力的Token化、上下文和記憶方法。
例如,在World Labs,我們近期關(guān)于一個(gè)名為RTFM的實(shí)時(shí)生成性幀基模型的工作就展示了這種轉(zhuǎn)變,它使用基于空間的幀作為一種空間記憶形式,以實(shí)現(xiàn)高效的實(shí)時(shí)生成,同時(shí)在生成的世界中保持持久性。

顯然,在我們能夠通過世界建模完全解鎖空間智能之前,仍面臨著艱巨的挑戰(zhàn)。這項(xiàng)研究不僅是一次理論演練,它是一類新型創(chuàng)意與生產(chǎn)力工具的核心引擎。而World Labs內(nèi)部的進(jìn)展令人鼓舞。
我們最近向少數(shù)用戶展示了Marble的一瞥——這是首個(gè)能夠通過多模態(tài)輸入提示,來生成并維持一致三維環(huán)境的世界模型,供用戶和故事講述者在其創(chuàng)意工作流中進(jìn)行探索、互動(dòng)和進(jìn)一步構(gòu)建。我們正努力使其盡快向公眾開放!
Marble只是我們創(chuàng)造真正具備空間智能的世界模型的第一步。隨著進(jìn)展加速,研究人員、工程師、用戶和商界領(lǐng)袖都開始認(rèn)識(shí)到其非凡的潛力。
下一代世界模型將使機(jī)器能夠在全新層面上實(shí)現(xiàn)空間智能——這一成就將解鎖當(dāng)今AI系統(tǒng)中仍然普遍缺失的核心能力。
用世界模型為人類構(gòu)建一個(gè)更美好的世界
是什么在激勵(lì)A(yù)I的發(fā)展?這一點(diǎn)至關(guān)重要。
作為協(xié)助開啟現(xiàn)代AI時(shí)代的科學(xué)家之一,我的動(dòng)機(jī)始終明確:AI必須增強(qiáng)人類的能力,而非取而代之。
多年來,我一直致力于使AI的開發(fā)、部署和治理與人類的需求相契合。
如今,關(guān)于技術(shù)烏托邦和末日論的極端敘事甚囂塵上,但我始終持有一種更務(wù)實(shí)的觀點(diǎn):AI由人開發(fā),為人所用,由人治理。
它必須始終尊重人的能動(dòng)性與尊嚴(yán)。它的魔力在于擴(kuò)展我們的能力,讓我們更有創(chuàng)造力、聯(lián)系更緊密、效率更高、生活更充實(shí)。
空間智能正是這一愿景的體現(xiàn)——AI賦能人類的創(chuàng)作者、照護(hù)者、科學(xué)家和夢(mèng)想家,去實(shí)現(xiàn)曾經(jīng)的不可能。這一信念,是我將空間智能作為AI下一個(gè)偉大前沿并為之奮斗的動(dòng)力。
空間智能的應(yīng)用橫跨不同的時(shí)間尺度。創(chuàng)意工具正不斷涌現(xiàn)——World Labs的Marble項(xiàng)目已經(jīng)將這些能力交到了創(chuàng)作者和故事講述者的手中。
隨著我們不斷完善感知與行動(dòng)之間的閉環(huán),機(jī)器人技術(shù)將是雄心勃勃的中期目標(biāo)。而最具變革性的科學(xué)應(yīng)用雖然需要更長(zhǎng)時(shí)間,但有望對(duì)人類的福祉產(chǎn)生深遠(yuǎn)影響。
在所有這些時(shí)間尺度上,有幾個(gè)領(lǐng)域因其重塑人類能力的潛力而格外突出。這需要巨大的集體努力,遠(yuǎn)非一個(gè)團(tuán)隊(duì)或一家公司所能實(shí)現(xiàn)。
具體來說,它需要整個(gè)AI生態(tài)系統(tǒng)的參與——研究人員、創(chuàng)新者、企業(yè)家、公司,乃至政策制定者——共同為實(shí)現(xiàn)一個(gè)共享的愿景而努力。
但這個(gè)愿景值得我們?nèi)プ非蟆R韵率沁@個(gè)未來所蘊(yùn)含的圖景:
創(chuàng)造力:為故事敘述和沉浸式體驗(yàn)注入超凡動(dòng)力
「創(chuàng)造力是智力在享受樂趣。」這是我個(gè)人英雄阿爾伯特· 愛因斯坦我最喜歡的名言之一。
早在書面語言出現(xiàn)之前,人類就已開始講述故事——將其描繪于洞穴巖壁,代代相傳,在共同的敘事之上建立起整個(gè)文化。
故事是我們理解世界、跨越時(shí)空建立聯(lián)系、探索人性意義的方式,最重要的是,在生活中找到意義,在內(nèi)心發(fā)現(xiàn)愛。
今天,空間智能有潛力改變我們創(chuàng)造和體驗(yàn)敘事的方式,既尊重其根本的重要性,又將其影響力從娛樂延伸至教育,從設(shè)計(jì)延伸至建筑。
World Labs的Marble平臺(tái)將把前所未有的空間能力和編輯可控性交到電影制作人、游戲設(shè)計(jì)師、建筑師和各類故事講述者的手中,讓他們能夠快速創(chuàng)造和迭代完全可探索的三維世界,而無需傳統(tǒng)三維設(shè)計(jì)軟件的沉重負(fù)擔(dān)。

創(chuàng)造行為本身依然如故,充滿人性的活力;AI工具只是放大和加速了創(chuàng)作者所能達(dá)成的成就。這包括:
新維度的敘事體驗(yàn):電影制作人和游戲設(shè)計(jì)師正使用Marble憑空創(chuàng)造出整個(gè)世界,不受預(yù)算或地理位置的限制,探索在傳統(tǒng)制作流程中難以企及的各種場(chǎng)景和視角。
隨著不同形式的媒體與娛樂之間的界限日益模糊,我們正在接近一種全新的互動(dòng)體驗(yàn),它融合了藝術(shù)、模擬與游戲——個(gè)性化的世界,其中任何人,而不僅是工作室,都可以創(chuàng)造并沉浸在自己的故事中。
隨著將概念和故事板轉(zhuǎn)化為完整體驗(yàn)的更新、更快捷的方式的出現(xiàn),敘事將不再局限于單一媒介,創(chuàng)作者可以自由地在無數(shù)的界面和平臺(tái)上構(gòu)建具有共同主線的大千世界。
通過設(shè)計(jì)的空間敘事:幾乎每一個(gè)制造的物體或建造的空間,在其實(shí)體化之前都必須在虛擬三維環(huán)境中進(jìn)行設(shè)計(jì)。
這個(gè)過程在時(shí)間和金錢上都高度迭代且成本高昂。有了具備空間智能的模型,建筑師可以快速構(gòu)想結(jié)構(gòu),而無需投入數(shù)月時(shí)間進(jìn)行設(shè)計(jì),他們可以在尚未存在的空間中漫步——這本質(zhì)上是在講述我們未來可能如何生活、工作和聚集的故事。
工業(yè)設(shè)計(jì)師和時(shí)裝設(shè)計(jì)師可以瞬間將想象轉(zhuǎn)化為形態(tài),探索物體如何與人體和空間互動(dòng)。
新的沉浸式和互動(dòng)體驗(yàn):體驗(yàn)本身是我們作為一個(gè)物種創(chuàng)造意義的最深層方式之一。
在整個(gè)人類歷史中,只有一個(gè)單一的三維世界:我們共同生活的物理世界。僅在近幾十年,通過游戲和早期的虛擬現(xiàn)實(shí)(VR),我們才開始一窺分享我們自己創(chuàng)造的替代世界是何種滋味。
現(xiàn)在,空間智能與新的設(shè)備形態(tài)(如VR和擴(kuò)展現(xiàn)實(shí)(XR)頭顯及沉浸式顯示器)相結(jié)合,以前所未有的方式提升了這些體驗(yàn)。
我們正在接近一個(gè)未來,屆時(shí),步入一個(gè)完全實(shí)現(xiàn)的多維世界將像翻開一本書一樣自然。
空間智能讓世界構(gòu)建不再是擁有專業(yè)制作團(tuán)隊(duì)的工作室的專利,而是個(gè)人創(chuàng)作者、教育工作者以及任何有愿景希望分享的人都能觸及的能力。
機(jī)器人技術(shù):具身智能在行動(dòng)
從昆蟲到人類,動(dòng)物都依賴空間智能來理解、導(dǎo)航并與它們的世界互動(dòng)。機(jī)器人也不例外。
自誕生之日起,具備空間意識(shí)的機(jī)器就一直是該領(lǐng)域的夢(mèng)想,這其中也包括我與我在斯坦福研究實(shí)驗(yàn)室的學(xué)生及合作者們的工作。
這也是為何我如此興奮,期待能用World Labs正在構(gòu)建的這類模型將這一夢(mèng)想變?yōu)楝F(xiàn)實(shí)。
通過世界模型規(guī)模化機(jī)器人學(xué)習(xí):機(jī)器人學(xué)習(xí)的進(jìn)展取決于一個(gè)可擴(kuò)展的、可行的訓(xùn)練數(shù)據(jù)解決方案。
考慮到機(jī)器人必須學(xué)習(xí)去理解、推理、規(guī)劃和互動(dòng)的狀態(tài)空間極其龐大,許多人推測(cè),需要結(jié)合互聯(lián)網(wǎng)數(shù)據(jù)、合成模擬以及對(duì)真實(shí)世界人類演示的捕捉,才能真正創(chuàng)造出具備泛化能力的機(jī)器人。
但與語言模型不同,當(dāng)今的機(jī)器人研究缺乏訓(xùn)練數(shù)據(jù)。世界模型將在此扮演決定性角色。
隨著它們?cè)诟兄U娑群陀?jì)算效率上的提升,世界模型的輸出可以迅速彌合模擬與現(xiàn)實(shí)之間的鴻溝。這反過來將有助于在無數(shù)的狀態(tài)、互動(dòng)和環(huán)境模擬中訓(xùn)練機(jī)器人。
伴侶與協(xié)作者:機(jī)器人作為人類的協(xié)作者——無論是在實(shí)驗(yàn)室工作臺(tái)上協(xié)助科學(xué)家,還是在家中幫助獨(dú)居老人——都可以在急需更多勞動(dòng)力和生產(chǎn)力的領(lǐng)域擴(kuò)展我們的勞動(dòng)力。
但這需要具備感知、推理、規(guī)劃和行動(dòng)的空間智能,同時(shí)——這是最重要的——與人類的目標(biāo)和行為保持共情式的對(duì)齊。
例如,一個(gè)實(shí)驗(yàn)室機(jī)器人可以處理儀器,讓科學(xué)家能專注于需要精細(xì)操作或推理的任務(wù);而一個(gè)家庭助理則可以幫助一位老年人做飯,而不會(huì)削弱他們的樂趣或自主性。
能夠預(yù)測(cè)下一個(gè)狀態(tài),甚至可能預(yù)測(cè)出符合這種期望的下一步動(dòng)作的、真正具備空間智能的世界模型,對(duì)于實(shí)現(xiàn)這一目標(biāo)至關(guān)重要。
擴(kuò)展具身形式:人形機(jī)器人在我們?yōu)樽约簶?gòu)建的世界中扮演著一定角色。
但創(chuàng)新的全部益處將來自更多樣化的設(shè)計(jì):輸送藥物的納米機(jī)器人、在狹小空間中穿行的軟體機(jī)器人,以及為深海或外太空打造的機(jī)器。

無論其形態(tài)如何,未來的空間智能模型都必須整合這些機(jī)器人所處的環(huán)境以及它們自身的具身感知與運(yùn)動(dòng)。但開發(fā)這些機(jī)器人的一個(gè)關(guān)鍵挑戰(zhàn)是,在這些五花八門的具身形態(tài)上缺乏訓(xùn)練數(shù)據(jù)。
世界模型將在模擬數(shù)據(jù)、訓(xùn)練環(huán)境和基準(zhǔn)測(cè)試任務(wù)等方面為這些努力發(fā)揮關(guān)鍵作用。
更長(zhǎng)遠(yuǎn)的圖景:科學(xué)、醫(yī)療與教育
除了創(chuàng)意和機(jī)器人應(yīng)用,空間智能的深遠(yuǎn)影響還將延伸至那些能以拯救生命、加速發(fā)現(xiàn)的方式增強(qiáng)人類能力的領(lǐng)域。
我下面重點(diǎn)介紹三個(gè)可能帶來深刻變革的應(yīng)用領(lǐng)域,當(dāng)然,空間智能的用例在更多行業(yè)中同樣是廣闊無垠的。
在科學(xué)研究中,具備空間智能的系統(tǒng)可以模擬實(shí)驗(yàn)、并行測(cè)試假設(shè),并探索人類無法觸及的環(huán)境——從深邃的海洋到遙遠(yuǎn)的行星。
這項(xiàng)技術(shù)可以改變氣候科學(xué)和材料研究等領(lǐng)域的計(jì)算建模。通過將多維模擬與真實(shí)世界的數(shù)據(jù)收集相結(jié)合,這些工具可以降低計(jì)算門檻,擴(kuò)展每個(gè)實(shí)驗(yàn)室所能觀察和理解的范圍。
在醫(yī)療健康領(lǐng)域,空間智能將重塑從實(shí)驗(yàn)室到病床邊的每一個(gè)環(huán)節(jié)。在斯坦福,我的學(xué)生和合作者多年來一直與醫(yī)院、養(yǎng)老院以及居家患者合作。
這段經(jīng)歷讓我堅(jiān)信空間智能在此處的變革潛力。AI可以通過在多維空間中建模分子相互作用來加速藥物發(fā)現(xiàn),通過幫助放射科醫(yī)生在醫(yī)學(xué)影像中識(shí)別模式來提升診斷水平,并能實(shí)現(xiàn)環(huán)境監(jiān)測(cè)系統(tǒng),在不取代治愈所必需的人類情感聯(lián)結(jié)的前提下,為患者和照護(hù)者提供支持。
更不用說機(jī)器人在眾多不同場(chǎng)景下幫助我們的醫(yī)護(hù)人員和患者的巨大潛力。
在教育領(lǐng)域,空間智能可以實(shí)現(xiàn)沉浸式學(xué)習(xí),使抽象或復(fù)雜的概念變得觸手可及,并創(chuàng)造出對(duì)我們大腦和身體學(xué)習(xí)方式至關(guān)重要的迭代式體驗(yàn)。
在AI時(shí)代,更快、更有效的學(xué)習(xí)和技能再培訓(xùn)對(duì)于學(xué)齡兒童和成年人都尤為重要。學(xué)生可以在多維空間中探索細(xì)胞的運(yùn)作機(jī)制或親歷歷史事件。教師可以利用互動(dòng)環(huán)境獲得個(gè)性化教學(xué)的工具。
從外科醫(yī)生到工程師的專業(yè)人士,都可以在逼真的模擬中安全地練習(xí)復(fù)雜技能。
在所有這些領(lǐng)域,可能性是無限的,但目標(biāo)始終如一:AI增強(qiáng)人類的專業(yè)知識(shí),加速人類的發(fā)現(xiàn),并放大人類的關(guān)懷——而不是取代作為人類核心的判斷力、創(chuàng)造力和同理心。
結(jié)論
過去十年見證了AI成為一種全球現(xiàn)象,以及技術(shù)、經(jīng)濟(jì)乃至地緣政治的轉(zhuǎn)折點(diǎn)。
但作為一名研究者、教育者,如今又是一名創(chuàng)業(yè)者,最能激勵(lì)我的,仍然是圖靈75年前提出的那個(gè)問題背后的精神。
我依然懷有他那份好奇與驚嘆。正是這種感覺,每天都激勵(lì)著我迎接空間智能的挑戰(zhàn)。
歷史上第一次,我們有望構(gòu)建出與物理世界如此協(xié)調(diào)的機(jī)器,以至于在我們面臨的最嚴(yán)峻挑戰(zhàn)中,可以將它們視為真正的伙伴。
無論是加速我們對(duì)實(shí)驗(yàn)室中疾病的理解,徹底改變我們講述故事的方式,還是在我們因疾病、受傷或年老而最脆弱的時(shí)刻給予支持,我們都正處在一項(xiàng)新技術(shù)的風(fēng)口浪尖,這項(xiàng)技術(shù)將提升我們最珍視的生活的方方面面。這
是一個(gè)更深刻、更豐富、更強(qiáng)大的生活愿景。
在大自然于遠(yuǎn)古動(dòng)物身上釋放出第一縷空間智能的近五億年后,我們有幸成為可能很快就能賦予機(jī)器同樣能力的這一代技術(shù)專家中的一員——并有幸利用這些能力為世界各地的人們謀福祉。
我們關(guān)于真正智能機(jī)器的夢(mèng)想,沒有空間智能是不完整的。
這項(xiàng)探索,就是指引我的北極星。我邀請(qǐng)你與我同行。
參考資料:
https://x.com/drfeifei/status/1987891210699379091
https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence



























