李飛飛站隊LeCun,AGI全是炒作!80分鐘重磅爆料出爐
二十年前,李飛飛主導創(chuàng)建的ImageNet,像一束火種,徹底點燃了深度學習的革命。
如今,AI熱潮席卷全球,她堅信「世界模型」才是未來十年AI的下一個前沿。
就在今天,李飛飛在Lenny Rachitsky的新一期播客中,回顧了AI從寒冬如何走到了今天這一步。
圖片
有趣的是,她揭秘了鮮為人知的AI發(fā)展的秘辛——
大概在九到十年前,自稱AI公司的無異于「商業(yè)自殺」,因為沒有人相信AI真正能用。
誰能想到,現(xiàn)如今每家公司都在爭相自稱是「AI公司」。
全程1小時20分鐘訪談中,李飛飛還談了自己對AI未來影響人類的看法,以及當前技術能走多遠,為何對「世界模型」如此著迷,以及「世界模型」究竟是什么....
在這場深度訪談中,李飛飛搭建了一座通往未來的階梯,讓我們得以一窺AI的下一個十年。
· 人工智能沒有任何是「人為」的,無論AI現(xiàn)在/將來做什么,都取決于人類自身。
· 大數(shù)據(jù)+神經網絡+GPU構成了現(xiàn)代AI的「黃金三件套」。
· 不僅僅是機器人,人類也是具身智能體,可以從空間智能+世界模型中收益。
· 機器人困境,在于數(shù)據(jù)。它更像自動駕駛汽車,而不是大語言模型。
· 每個人都在AI未來中扮演重要的角色。
ImageNet出世,引爆AI革命
要洞見未來,必先理解過去。
在21世紀初,AI領域正處于漫長的「寒冬」。當時,AI更通常的叫法是「機器學習」。
機器學習的開端,是計算機編程和統(tǒng)計學習的結合。
這場「聯(lián)姻」讓科學家們意識到,僅僅依靠純規(guī)則的程序,是無法讓計算機具備強大的認知能力。
2000年,正在加州理工學院攻讀博士學位的李飛飛,正式進入了AI這一領域,成為機器學習最早一代的研究者。
那時,她在加州理工上的第一門課,就叫「神經網絡」。對此,她表示,「當時還真的是挺痛苦的」。
圖片
那會兒還正是所謂「AI寒冬」的中間階段:公眾幾乎不關注這塊兒,資金投入少,不過學界里倒是有各種各樣的想法在流動。
這里有兩件事,讓我的個人科研之路和現(xiàn)代AI的誕生走得特別近。
第一件事,就是「視角選擇」,即從「視覺智能」來理解AI。
因為,人類本質上是高度依賴視覺的動物。我們很大一部的智能,其實是建立在視覺、感知、空間理解之上的,而不只是語言本身。
這正是李飛飛博士期間,與學生們鎖定的「北極星」問題——物體識別。
另外一件事就是她發(fā)現(xiàn)了一大痛點:早年AI研究過于聚焦模型本身,但這些模型根本沒有足夠的數(shù)據(jù)來訓練。
李飛飛突然意識到,人類學習和生物進化,本質上都是一個「大數(shù)據(jù)學習」的過程。
· 人類是靠大量的經驗在學習;
· 動物也是在不斷「體驗世界」的過程中進化出來的。
于是,她和學生提出了一個大膽的猜想——要讓AI真正「活」起來,一個被嚴重忽視、卻極其關鍵的要素,就是「大數(shù)據(jù)」。
于是,2006-2007年,李飛飛和學生們開始了一項在當時看來近乎瘋狂的「蠻力」工程——ImageNet。
圖片
他們從互聯(lián)網上搜集了1500萬張圖像,打上橫跨22000個類別的精準標簽。
之后,ImageNet數(shù)據(jù)集開源,并啟動了年度挑戰(zhàn)賽。
2012年,被業(yè)界公認為深度學習,也就是現(xiàn)代AI起步的關鍵時刻。
這一年,來自多倫多大學一組研究者,在Geoffrey Hinton帶領下參加了ImageNet挑戰(zhàn)賽。
令世界震驚的是,他們僅用2塊英偉達GPU+ImageNet數(shù)據(jù),訓練出首個在大規(guī)模視覺任務上表現(xiàn)出色的神經網絡——AlexNet。
它沒有徹底解決問題,但向「物體識別」邁出了一大步。
圖片
「大數(shù)據(jù)+神經網絡+GPU」這三樣技術,構成了現(xiàn)代AI的「黃金三件套」。
李飛飛稱,那時候「AI」和「機器學習」這兩個詞是交替用的。
大概在2015年中到2016年中,硅谷大廠刻意避談「AI」一詞,他們并不確定,AI會不會是一個負面色彩的詞。
一年后,再看到AI拐點之后,很多公司開始把自己定位成「AI公司」。
主持人問道,「我們離AGI大概還有多遠?現(xiàn)有的技術路線能否抵達」?
李飛飛認為,在AI和AGI之間并沒有清晰的科學界限,AGI更像是一個營銷用語,而非嚴謹?shù)目茖W術語。
對于AGI并沒有統(tǒng)一定義,實現(xiàn)超級智能?還是賺足夠的錢養(yǎng)活自己?
當初,李飛飛之所以進入這一領域,便是被一個問題打動:機器能不能像人一樣去思考、去做事?
對于她來說,這才是AI的「北極星」目標。不論別人怎么稱呼,她自己對「AI」這個名字已經很滿意。
圖片
AI新前沿:世界模型
在創(chuàng)辦World Labs之前,李飛飛不止一次,公開宣稱空間智能、世界模型的理念。
幾天前的一篇萬字長文,她直言,AI未來十年下一個前沿就是「空間智能」。

李飛飛表示,「人類智能的核心,除了語言,還有空間智能」。
2020年底,GPT-2發(fā)布時,公眾還未反應過來LLM有多么強大。
但在斯坦福,李飛飛和Percy Liang、Chris Batting等頂尖NLP研究者認為——這項技術會改變一切。
他們甚至成立了全球首個專門研究「基礎模型」的研究中心,并發(fā)表了學術界第一篇系統(tǒng)性探討基礎性的論文。
因「視覺智能」出身,李飛飛當時就在想,除了語言,AI領域的發(fā)展還有很大的空間。
因為人類做成很多事,靠的并不只是語言,而是大量依賴的是自己的空間智能和對世界運作方式的理解。
她舉了一個生動的「救火」例子,從側面印證了,LLM再強也滅不了火、救不了人,設計不了大樓。
與此同時,李飛飛也在做大量的機器人研究。
后來她突然意識到:要把語言之外的那些智能、要把「具身AI」機器人、要把視覺智能全都串在一起,中間那個關鍵的「樞紐」(linchpin)便是「空間智能」。
從2022年起,李飛飛開始基于在機器人和計算機視覺領域的研究,開始將這一概念系統(tǒng)化。
2024年,她做了一場TED演講,主題就是「空間智能」和「世界模型」。

隨后,她又創(chuàng)辦了World Labs,world一詞就寫在了公司名字里,因為她相信「世界模型」和「空間智能」的重要性。
那么什么是世界模型?
用李飛飛的話來說,當你輸入一張圖或一句話,就能生成一個無限探索的3D世界。
它是一個「基礎層」,人們可以在這個基礎之上進行推理、進行交互,也可以用它來創(chuàng)造各種世界。
除了機器人,她還認為,「人類本身也是具身的智能體」,能力可以被AI大幅增強。
人類作為具身智能體,其實同樣可以從世界模型和空間智能模型中獲益匪淺,而不僅僅是機器人。
李飛飛舉例道,僅憑Rosalind Franklin拍攝的2D X射線衍射照片,James Watson和Francis Crick在腦海中構建3D模型,發(fā)現(xiàn)了DNA雙螺旋結構。
也就是說,沒有「空間智能」,就沒有這個發(fā)現(xiàn)。
世界模型Marble開放,制作時間縮短40倍
截至目前,Marble這個平臺,就是李飛飛「世界模型」的集大成者。
在行業(yè)應用中,Marble深入了各個領域,其中包括電影與虛擬制片、游戲與互動內容、機器人模擬與訓練等等。
圖片
入口:https://marble.worldlabs.ai/
電影拍攝中,大量場景是虛擬的,需要先在電腦里搭一個3D世界。然而,傳統(tǒng)的美術團隊手工建模、擺燈光、調攝像機位,耗時又耗錢。
有了Marble,導演用幾句描述,就生成一個可導航的世界。
不僅如此,虛擬攝像機可以自由走位,場景可以反復修改、擴展。
李飛飛提到,藝術家團隊以及導演們稱,「這讓他們的制作時間縮短了40倍」。
在游戲與互動內容領域,開發(fā)者可以把Marble生成的世界導出到游戲引擎里,用作關卡原型、場景底稿,再在上面加邏輯、玩法、角色。
這讓小團隊也有機會做「大片級場景」,而不是被美術資源卡死。
當然,最重要的還是機器人模擬與訓練。機器人要在現(xiàn)實世界工作,訓練數(shù)據(jù)是個超級難題。
機器人是「物理系統(tǒng)」苦澀的教訓還需升級
苦澀的教訓,為何在機器人身上行不通?
圖靈獎得主Richard Sutton曾在Bitter Lesson一文中得出一個結論——
「更簡單的模型+海量數(shù)據(jù)」會打敗「更復雜的模型+少量數(shù)據(jù)」。
對于李飛飛來說,這不是苦澀,而是「甜蜜的教訓」。
這也是我為什么要做ImageNet,因為我一直相信「大數(shù)據(jù)」在里面起著非常關鍵的作用。
她一針見血地指出,機器人的困境,始于數(shù)據(jù)。
一方面,在現(xiàn)實中,機器人數(shù)據(jù)極難搞到。
語言模型的數(shù)據(jù),是現(xiàn)成的文本,輸入也是文本,輸出也是文本。
而機器人則不同,它要輸出的是「動作」,在真實三維世界中運動、抓取、接觸。
而人類大部分訓練數(shù)據(jù),只有視頻,沒有真實動作軌跡。由此,研究者需要通過遠程遙操作、合成、模擬環(huán)境……等來收集數(shù)據(jù)。
另一方面,機器人是一個「物理系統(tǒng)」。它更像自動駕駛汽車,而不是大語言模型。
這意味著,要讓機器人真正工作起來,不僅需要「腦子」(算法和模型),還需要「身體」(硬件本體),還需要合適的應用場景。
回顧自動駕駛汽車發(fā)展的歷史,從2005年DARPA挑戰(zhàn)賽到今天的Waymo,近20年過去了,還未完全搞定「不撞任何東西」的目標。
李飛飛稱,「而自動駕駛汽車,其實還是一種相對簡單的機器人」。
它本質上就是一個在2D路面上跑的金屬盒子,它的目標「不要碰到任何東西」。
但機器人需要在3D世界里跑來跑去,目標恰恰是「要去觸碰各種東西」。
所以,這條路肯定會很長,也會有很多不同的維度、不同的挑戰(zhàn),需要一起被一點一點解決。
她的態(tài)度不是「慘痛教訓不成立」,而是機器人領域研究尚處早期階段,數(shù)據(jù)問題、硬件問題、應用場景問題太多。
「多數(shù)據(jù)+大模型」一定很重要,但我們還遠沒到能「這條路必勝」的階段。
在數(shù)據(jù)方面,研究者通過Marble用提示詞生成各種房間、工廠、廚房、倉庫場景,讓機器人先在虛擬世界練習。
這正好呼應了李飛飛一開始的信念:
智能是大數(shù)據(jù)學來的,關鍵是如何給機器人足夠多、足夠多樣的「世界經驗」。
從研究者到創(chuàng)始人開創(chuàng)「人生新戰(zhàn)場」
在回顧自己一路的選擇,李飛飛總結自己的判斷標準,其實很樸素——
· 從普林斯頓拿到終身教職軌道,仍然決心去斯坦福
· 在學界風生水起,跑去谷歌云當首席科學家
· 回斯坦福之后,又拉起HAI,做跨學科、政策、社會影響
· 在大模型浪潮和世界模型機會出現(xiàn)時,又選擇創(chuàng)業(yè)World Labs
李飛飛的個人經歷,可以為AI行業(yè)里挑機會的年輕人提供一些借鑒。
好奇心和熱情先行
不先問「哪里賺錢最多」,而是先問,「哪里的問題最讓我睡不著覺?」
- 對「失敗可能性」不過度放大
她當然知道創(chuàng)業(yè)有很多風險,但不會讓這些風險壓倒「使命感」。
- 非常看重人和團隊
無論是去 SAIL、谷歌云,還是創(chuàng)立 World Labs,
她關注的都是:我會和誰一起做事?這群人是不是值得一起沖?
除了創(chuàng)業(yè),李飛飛依然在推動另一個「慢而重要」的工程:斯坦福HAI(以人為本人工智能研究院)。
在AI這件事上,每個人都有角色。她說自己走到哪里,都會被問這些問題:
我是音樂家,AI會不會取代我?我是中學老師,AI會不會讓我的工作沒價值?
我是護士,AI會不會讓我失業(yè)?我是農民,我還有什么角色?
而李飛飛回答非常堅定,是的,你在AI的未來里扮演著自己的角色。而且這個角色極其重要。
參考資料:https://x.com/lennysan/status/1990121400578052423?s=20































