DeepMind哈薩比斯:智能體可以在Genie實(shí)時(shí)生成的世界里運(yùn)行
諾貝爾化學(xué)獎(jiǎng)得主、DeepMind創(chuàng)始人哈薩比斯最新訪談來了。
他分享了Genie 3的驚艷表現(xiàn)——智能體可以在Genie實(shí)時(shí)生成的世界里運(yùn)行。
我們的目標(biāo)是打造一個(gè)世界模型,一個(gè)真正理解世界物理規(guī)律的模型。
這也正是Genie 3的方向——不僅能生成虛擬世界,還能讓這些世界真實(shí)運(yùn)轉(zhuǎn)起來。

值得一提的是,此次訪談主持人為谷歌AI Studio產(chǎn)品負(fù)責(zé)人Logan Kilpatrick,同時(shí)也是DeepMind團(tuán)隊(duì)成員。
除此之外,他還聊了DeepMind發(fā)展速度,聊了評測基準(zhǔn),還聊了AGI。
對于AI的發(fā)展速度,哈薩比斯談到DeepMind幾乎每天都在推出新東西,速度之快甚至讓內(nèi)部人員也難以跟上。
他還表示,AGI的關(guān)鍵是讓模型具備思考、規(guī)劃和推理能力,以并行分析和不斷優(yōu)化應(yīng)對數(shù)學(xué)、編程、科學(xué)等復(fù)雜任務(wù)。
但是這些模型參差不齊,在部分任務(wù)上能力很強(qiáng),但在一些簡單問題上又會(huì)犯低級錯(cuò)誤。
看完訪談,有的網(wǎng)友為哈薩比斯歡呼:

有的網(wǎng)友關(guān)注點(diǎn)則跑偏了:

話不多說,量子位為大家翻譯整理了這次訪談,祝各位閱讀愉快~
- 模型迫切需要新的、更難且更廣泛的評測基準(zhǔn)。
- 判斷一個(gè)工具是否應(yīng)整合進(jìn)主模型,關(guān)鍵在于它是否能夠提升模型的整體能力。
- 模型表現(xiàn)參差不齊,主要原因是在推理、規(guī)劃和記憶等關(guān)鍵能力方面仍存在不足。
- AGI需自主轉(zhuǎn)化人類意圖為動(dòng)態(tài)獎(jiǎng)勵(lì)函數(shù),解決多目標(biāo)優(yōu)化難題。……
產(chǎn)品迭代速度、更優(yōu)評測體系與世界模型發(fā)展
DeepMind發(fā)展勢頭
Kilpatrick:我感覺我們發(fā)布了很多成果——DeepThink、IMO金牌、Genie 3——而且反響非常熱烈,我想了解一下你對這種進(jìn)展和勢頭的整體感受。
哈薩比斯:看到這些進(jìn)展真的非常令人振奮。過去幾年里,我們一直在逐步加快發(fā)布和進(jìn)步的速度,我覺得現(xiàn)在你們看到的正是這些努力的成果。
這是整個(gè)行業(yè)非常激動(dòng)人心的時(shí)刻。我可以說,幾乎每天都有新東西發(fā)布。連我們內(nèi)部都很難跟上步伐,整個(gè)領(lǐng)域也是如此。
所以這一切非常令人興奮,我也為我們最近推出的一些成果感到非常自豪和滿意。
DeepThink與智能體系統(tǒng)
Kilpatrick:關(guān)于DeepThink,你怎么看?顯然讓我最興奮的一點(diǎn)是,IMO金牌模型的一個(gè)版本已經(jīng)向Gemini應(yīng)用的訂閱用戶開放了。

人們真的可以親自使用這個(gè)模型,這在過去我們談?wù)揋emini相關(guān)內(nèi)容時(shí)是很少見的。我覺得把技術(shù)研發(fā)出來,再真正交到用戶手中,這種結(jié)合非常美妙。那么,從DeepThink的角度來看,你是怎么考慮這個(gè)問題的?
哈薩比斯:我覺得DeepThink的出現(xiàn),讓人有點(diǎn)回想起我們最初在AlphaGo和AlphaZero等游戲項(xiàng)目上的工作。
實(shí)際上,從DeepMind成立之初,我們的工作歷來都是基于智能體系統(tǒng)的。這里說的智能體系統(tǒng),就是指能夠完成整個(gè)任務(wù)的系統(tǒng)。
早期我們主要關(guān)注的是在游戲中表現(xiàn)出色的智能體,因?yàn)橛螒蛴忻鞔_的目標(biāo)。現(xiàn)在是多模態(tài)模型,非常強(qiáng)大,能夠理解語言和我們周圍的一切,而當(dāng)年,我們主要是游戲模型。
然后,你需要在此基礎(chǔ)上加入思考、規(guī)劃和推理的能力,這顯然是實(shí)現(xiàn)AGI的關(guān)鍵步驟。一旦具備了思考能力,就能進(jìn)行深度甚至極深度的思考,并實(shí)現(xiàn)并行規(guī)劃——同時(shí)進(jìn)行多條思路的分析,再選出最優(yōu)方案做出決策,隨后推進(jìn)到下一步。
雖然這里仍需大量創(chuàng)新,但看到思考能力的快速進(jìn)展令人振奮。尤其是在數(shù)學(xué)、編程、科學(xué)問題以及游戲等領(lǐng)域,必須進(jìn)行有效的處理和規(guī)劃,而不僅僅是輸出模型最初想到的結(jié)果,因?yàn)槟莻€(gè)答案往往不足夠好。你需要反復(fù)完善自己的思路,這正是思考系統(tǒng)的核心所在。
參差不齊的AI
Kilpatrick:我之前沒看過思維游戲,大概是一周半前才看。當(dāng)時(shí)我一邊看一邊記筆記,感覺DeepMind團(tuán)隊(duì)在這方面確實(shí)領(lǐng)先很多,而且有很多有趣的相似點(diǎn),比如你們之前嘗試用強(qiáng)化學(xué)習(xí)去解決問題,跟現(xiàn)在很像。
AlphaFold的數(shù)據(jù)瓶頸就是個(gè)很好的例子,這和我們今天在某些特定領(lǐng)域任務(wù)(比如編碼,或者科學(xué)領(lǐng)域之外的任務(wù))上遇到的人類專家數(shù)據(jù)問題非常相似。你覺得這種感覺是否“似曾相識”?
哈薩比斯:是的,我覺得我們一直都走在正確的道路上,這一點(diǎn)現(xiàn)在已經(jīng)比較清楚了。
我們是最早認(rèn)真使用強(qiáng)化學(xué)習(xí)的人之一。實(shí)際上,這也是我們在2010年做出的最早幾個(gè)重要賭注之一,和深度學(xué)習(xí)同時(shí)期的。
當(dāng)然,還有我們的Atari工作,那是我們的第一個(gè)標(biāo)志性成果——第一個(gè)真正的深度強(qiáng)化學(xué)習(xí)系統(tǒng),能夠僅憑屏幕上的像素玩70年代的Atari游戲,而且表現(xiàn)超過任何人類玩家。
更重要的是,這個(gè)系統(tǒng)開箱即用,具備一定的泛化能力。這其實(shí)向整個(gè)領(lǐng)域證明了,這些新技術(shù)確實(shí)可以被放大應(yīng)用,并且能真正產(chǎn)生用處。
至于思考,如果你像我一樣從小就下棋,你會(huì)發(fā)現(xiàn),你腦子里一直在想的就是如何提升自己的思維過程,你的思維到底是怎么工作的?這當(dāng)然也促使我思考神經(jīng)科學(xué)——大腦是怎么運(yùn)作的,然后把人工智能當(dāng)成一個(gè)神奇的工具,嘗試把思維提煉成一個(gè)數(shù)字化的產(chǎn)物。
我們現(xiàn)有的系統(tǒng)在某些方面表現(xiàn)非常出色,但在其他一些相對簡單的事情上仍然存在不少缺陷。它們確實(shí)令人印象深刻,比如能夠在國際數(shù)學(xué)奧林匹克(IMO)中獲得金牌——如果你從自然語言描述的角度去想,這真是難以置信。
順便說一下,這其實(shí)只是搭載了DeepThink 和一些額外思考能力的Gemini模型,它們并不是專門針對這些測試設(shè)計(jì)的,但表現(xiàn)卻非常非常出色。
另一方面,如果問題以某種特定的方式提出,它們?nèi)匀粫?huì)在高中數(shù)學(xué)、簡單邏輯題或者簡單游戲中犯一些低級錯(cuò)誤。所以這說明它們?nèi)匀蝗鄙倌承〇|西。可以說,這些模型的智能表現(xiàn)參差不齊——在某些方面它們非常強(qiáng),而在其他方面,它們的弱點(diǎn)卻很容易被暴露出來。
Genie 3與世界模型
Kilpatrick:我們能不能先深入聊聊Genie 3?我覺得這里有個(gè)有趣的切入點(diǎn),就是模型在玩游戲方面其實(shí)并不算特別出色,但我看到很多人對Genie 3的反應(yīng)簡直是震驚和敬畏,有些評論甚至非常極端,覺得“我們生活在模擬世界里”,覺得這證明了任何事情都是可能的,因?yàn)镚enie的演示實(shí)在太精彩了。那么這是怎么做到的呢?

這顯然也和用游戲來解決強(qiáng)化學(xué)習(xí)(RL)的問題有關(guān)。如果回頭看、再結(jié)合現(xiàn)在對Genie 3的感受,你覺得它的發(fā)展結(jié)果是否符合你的預(yù)期?我個(gè)人覺得,單純讓模型擅長玩游戲,并不一定會(huì)直接帶來我們今天所看到的“世界模型”這些成果,這點(diǎn)對我來說并不那么顯而易見。
哈薩比斯:關(guān)于Genie,實(shí)際上它融合了多條研究路徑和各種想法。我們一直把棋類游戲作為一個(gè)具有挑戰(zhàn)性的領(lǐng)域,用來推動(dòng)AI算法的改進(jìn)。
同時(shí),我們也大量使用電腦游戲,不僅作為挑戰(zhàn)環(huán)境,還用來生成合成數(shù)據(jù)。事實(shí)上,我們過去一直在用,也仍然在使用大量非常逼真的模擬環(huán)境,尤其是基于3D游戲引擎構(gòu)建的傳統(tǒng)模擬環(huán)境,用來為系統(tǒng)提供更多訓(xùn)練數(shù)據(jù),幫助它們更好地理解物理世界。
我們之所以這么做,是因?yàn)槲覀兿?/span>構(gòu)建所謂的“世界模型”,也就是能夠真正理解物理世界的模型。這個(gè)模型需要理解物理結(jié)構(gòu)、事物的運(yùn)行方式、各種材料和液體,甚至是活體生物的行為,比如動(dòng)物和人類的行為——這些顯然都是我們世界中至關(guān)重要的部分。
我們不僅生活在語言和數(shù)學(xué)的世界里,還有一個(gè)真實(shí)存在的物理世界。因此,如果想要實(shí)現(xiàn)AGI,它必須理解物理世界,才能在其中進(jìn)行操作。
實(shí)際上,機(jī)器人發(fā)展的瓶頸就在于缺乏世界模型。還有像我們的Gemini Live項(xiàng)目Astra,致力于打造一個(gè)通用助手,能夠在你的手機(jī)或眼鏡上幫助你處理日常生活中的各種事務(wù)。顯然,這樣的助手也需要理解你所處的時(shí)空環(huán)境。
所以,想要真正理解世界及其運(yùn)行方式,就必須有一個(gè)世界模型。而證明你擁有良好世界模型的方法之一,就是能夠生成這個(gè)世界。
測試世界模型有效性和深度的方法有很多,其中一個(gè)很好的方式就是讓它反向生成關(guān)于世界的內(nèi)容。比如你打開水龍頭,會(huì)有液體流出;或者面前有一面鏡子,你能看到自己的倒影。所有這些細(xì)節(jié)。
Genie正是朝著這個(gè)方向努力,構(gòu)建世界模型,然后通過它來表達(dá),并且真正能夠生成一個(gè)自洽的世界。
Genie的未來應(yīng)用
Kilpatrick:你覺得大家會(huì)如何使用Genie?它的初衷是用來幫助提升 Gemini 以及我們其他機(jī)器人項(xiàng)目的效果并實(shí)現(xiàn)規(guī)模化,還是說人們也會(huì)直接拿它來玩?你覺得它還有什么其他潛在的用途嗎?
哈薩比斯:Genie在多個(gè)方面都非常令人興奮,其中之一就是我們已經(jīng)開始將它用于自身的訓(xùn)練。
我們有一個(gè)叫Sima的游戲代理,它能開箱即用地接管操作,玩現(xiàn)有的電腦游戲。雖然有時(shí)候表現(xiàn)不錯(cuò),但有時(shí)候也不盡如人意。
不過有趣的是,你可以把這個(gè)Sima智能體放進(jìn)Genie 3里,基本上就是一個(gè)AI在另一個(gè)AI的“大腦”里玩游戲。想想都挺瘋狂的。Sima會(huì)決定采取什么行動(dòng),你可以給它設(shè)定目標(biāo),比如“去房間里找到鑰匙”,它就會(huì)像玩普通電腦游戲一樣發(fā)出指令去完成任務(wù)。
實(shí)際上,另一端是Genie 3實(shí)時(shí)生成世界。也就是說,有一個(gè)AI在生成世界,另一個(gè)AI則在這個(gè)世界里運(yùn)行。這對于創(chuàng)造無限的訓(xùn)練數(shù)據(jù)非常有用,我能想象這對機(jī)器人技術(shù)以及我們通用人工智能系統(tǒng)的訓(xùn)練都會(huì)大有幫助。
當(dāng)然,它在應(yīng)用層面也有巨大的潛力,特別是在未來的互動(dòng)娛樂領(lǐng)域。我有很多想法,你一定不會(huì)驚訝于下一代令人難以置信的游戲會(huì)是什么樣子,甚至可能出現(xiàn)我們以前從未想過的新型娛樂形式,介于電影和游戲之間,開創(chuàng)一種全新的娛樂類別。
當(dāng)你深夜工作,生成這些完整的世界,思考這項(xiàng)技術(shù)是如何運(yùn)作的時(shí)候,你也不得不去思考現(xiàn)實(shí)世界到底是怎樣的?我在整個(gè)職業(yè)生涯中一直在思考這個(gè)問題:現(xiàn)實(shí)的本質(zhì)是什么?
實(shí)際上,正是這個(gè)問題驅(qū)使我一直致力于把人工智能打造成為科學(xué)研究的強(qiáng)大工具。我認(rèn)為,像Video 3、AI Studio以及Genie 3,如果用不同的視角去看,真的能告訴我們一些關(guān)于現(xiàn)實(shí)本質(zhì)的重要信息。
對更好評測基準(zhǔn)的需求與Kaggle Game Arena
Kilpatrick:一方面,我們有這樣一個(gè)令人震撼的系統(tǒng),可以生成完整的世界;但另一方面,你拿出Gemini讓它下棋,它棋藝很差。雖然知道規(guī)則,但其實(shí)下得不好。我覺得我們的模型在下棋方面也差不多有這種情況,有時(shí)候甚至連規(guī)則都沒法完全遵守。
因此,我們還宣布了與Kaggle的合作,推出了Game Arena,讓模型們有一個(gè)可以去玩各種游戲、測試能力的平臺。我很想聽聽你對這件事的看法。

哈薩比斯:這確實(shí)很有意思。這其實(shí)反映了一個(gè)更廣泛的情況:我們的系統(tǒng),包括Gemini,以及競爭對手的系統(tǒng),都在不斷進(jìn)步。
我們的系統(tǒng)能夠做很多令人驚嘆的事情,比如根據(jù)文本提示生成模擬世界,理解視頻內(nèi)容,解決數(shù)學(xué)問題,處理科學(xué)相關(guān)任務(wù)等等。但我想我們直覺上都能感覺到,當(dāng)我們和這些聊天機(jī)器人互動(dòng)時(shí),很容易發(fā)現(xiàn)它們能力的邊界。
在我看來,系統(tǒng)尚未成為真正AGI的一個(gè)重要原因,就是它們?nèi)狈σ恢滦?/span>。
比如以前系統(tǒng)會(huì)數(shù)錯(cuò)草莓的數(shù)量,這個(gè)問題我們現(xiàn)在基本解決了,但仍有一些非常簡單的事情,比如小學(xué)生能輕松做的題目,這些系統(tǒng)卻做不到。那么為什么會(huì)這樣呢?
這是一個(gè)很好的問題,很可能是在推理、規(guī)劃和記憶方面還缺少某些關(guān)鍵能力,除了簡單地?cái)U(kuò)大規(guī)模,我們或許還需要在這些領(lǐng)域?qū)崿F(xiàn)一兩項(xiàng)新的突破。但這也可能是因?yàn)槲覀冃枰晟啤⒏行У脑u測基準(zhǔn)來更準(zhǔn)確地評估系統(tǒng)的能力。
這些系統(tǒng)的優(yōu)勢和不足是什么呢?它們非常通用,包括Gemini在內(nèi),但我們使用的許多評測基準(zhǔn)已經(jīng)逐漸達(dá)到飽和。比如一些標(biāo)準(zhǔn)的數(shù)學(xué)評測,如MATH測試,DeepThink最新成績已經(jīng)達(dá)到99.2%
因此,我們迫切需要新的、更難且更廣泛的評測基準(zhǔn)。我認(rèn)為,這些新的基準(zhǔn)應(yīng)該涵蓋對世界物理和直覺物理的理解,以及其他我們作為人類理所當(dāng)然但系統(tǒng)尚未掌握的能力,比如物理智能。
實(shí)際上,我們目前還沒有很好的這方面評測標(biāo)準(zhǔn)。此外,也需要一些安全性相關(guān)的評測,比如測試系統(tǒng)中不希望出現(xiàn)的特質(zhì),如欺騙等行為。
我認(rèn)為,設(shè)計(jì)真正有意義的評測基準(zhǔn)還有很大的發(fā)展空間,這些基準(zhǔn)能夠考察比現(xiàn)在那些純粹依靠蠻力的學(xué)校考試類型測試更復(fù)雜、更微妙的能力。這也是我對Game Arena感到如此興奮的原因。
當(dāng)然,這也回歸了我們的初心,也是我們?yōu)槭裁磿?huì)提出這個(gè)平臺的原因。而且,當(dāng)初我們選擇以游戲作為起點(diǎn)的許多理由,至今依然適用。
首先,游戲是非常干凈的測試場地。你可以很容易獲得分?jǐn)?shù),評判標(biāo)準(zhǔn)非常客觀,沒有主觀因素,比如人類評分或者A/B測試那樣的干擾。從這個(gè)角度來看,它非常科學(xué)。
其次,游戲的測試難度會(huì)隨著系統(tǒng)能力自動(dòng)調(diào)整。因?yàn)橄到y(tǒng)之間會(huì)通過錦標(biāo)賽相互對戰(zhàn),實(shí)際上觀看這些比賽也非常有趣。正如Game Arena這個(gè)名字所示,最強(qiáng)的模型會(huì)彼此對決。我們希望這能推動(dòng)技術(shù)的快速進(jìn)步。
現(xiàn)在的AI系統(tǒng)普遍不擅長玩游戲,比如象棋,甚至比象棋更簡單的游戲也是如此。為什么會(huì)這樣是一個(gè)有趣的問題。
我相信有了Game Arena這個(gè)評測平臺,它們會(huì)迅速進(jìn)步。而且,隨著系統(tǒng)變得更強(qiáng),測試難度也會(huì)自動(dòng)增加。
這與MATH或者GPQA不同,后者需要不斷設(shè)計(jì)更難的科學(xué)問題,而且誰來設(shè)計(jì)這些問題,或者這些問題是否已經(jīng)在網(wǎng)上泄露,都是個(gè)難題。
每場游戲都是獨(dú)一無二的,因?yàn)樗怯呻p方玩家共同“創(chuàng)造”出來的。這種獨(dú)特性也使得游戲非常適合作為測試手段。
最后一點(diǎn),就像我們早期在游戲領(lǐng)域的工作一樣,隨著系統(tǒng)變得越來越強(qiáng)大,我們可以不斷向Game Arena引入越來越復(fù)雜的游戲。
起初我們選擇了象棋,原因顯而易見——它是測試AI的經(jīng)典項(xiàng)目,也讓我個(gè)人非常有感情。但我們的目標(biāo)是將游戲數(shù)量擴(kuò)展到可能達(dá)到數(shù)千款,然后給出一個(gè)綜合評分。
我們并不只是想要系統(tǒng)能夠在某一款游戲中表現(xiàn)出色,而是希望它們能夠在所有游戲中都達(dá)到較高的水平,這包括電腦游戲和棋盤游戲。
更有趣的是,未來AI系統(tǒng)甚至可能自己發(fā)明新的游戲,然后教給其他AI系統(tǒng)去學(xué)習(xí)。這就像是學(xué)習(xí)一款全新的、以前從未存在過的游戲,這樣就不可能在訓(xùn)練數(shù)據(jù)上產(chǎn)生過擬合。
我有很多關(guān)于這種多智能體環(huán)境的想法,最終Game Arena可能會(huì)支持這些場景。我認(rèn)為它將成為一個(gè)非常重要且持久的評測基準(zhǔn)。
與此同時(shí),我也相信,隨著我們越來越接近AGI,還會(huì)出現(xiàn)許多新的評測基準(zhǔn),確保我們能夠全面覆蓋認(rèn)知能力的各個(gè)方面。
超越游戲的評測
Kilpatrick:你說得很有意思。過去幾年我也一直在思考評測的問題,越來越清楚的是,實(shí)際上生活中的大多數(shù)問題本質(zhì)上都是評測問題,無論是工作表現(xiàn),還是我們?nèi)粘S龅降母鞣N事情,本質(zhì)上都是評測問題。
游戲領(lǐng)域有Game Arena這樣的平臺,能通過實(shí)證的方式來衡量系統(tǒng)表現(xiàn),那里有明確的“真相”和一系列約束條件,這點(diǎn)非常寶貴。但當(dāng)我們把視角擴(kuò)展到游戲之外的領(lǐng)域,就會(huì)發(fā)現(xiàn)難度大大增加。
比如說,如何為人類執(zhí)行的各種復(fù)雜任務(wù)設(shè)計(jì)強(qiáng)化學(xué)習(xí)(RL)環(huán)境?這就涉及“真相”的來源問題——我們?nèi)绾味x和衡量這些任務(wù)的標(biāo)準(zhǔn)?這確實(shí)是一個(gè)難題。
所以我很好奇,在非游戲環(huán)境下,你怎么看待開始捕捉和評估這些復(fù)雜能力的方法?你覺得有哪些可行的路徑?
哈薩比斯:強(qiáng)化學(xué)習(xí)一直面臨的最大挑戰(zhàn)之一就是,在那些更復(fù)雜、更真實(shí)的領(lǐng)域里,如何明確指定獎(jiǎng)勵(lì)函數(shù)或目標(biāo)函數(shù),也就是你要優(yōu)化的具體內(nèi)容。
而在人類世界中,我們其實(shí)并沒有單一的目標(biāo)函數(shù),情況非常復(fù)雜。實(shí)際上,如果我問你每天的目標(biāo)是什么,你很可能會(huì)給出不同的答案。
這說明我們是多目標(biāo)驅(qū)動(dòng)的存在,而且會(huì)根據(jù)各種因素不斷調(diào)整不同目標(biāo)之間的權(quán)重,比如情緒狀態(tài)、所處的物理環(huán)境,甚至你職業(yè)生涯所處的階段,所有這些都會(huì)影響你的決策。
不過,我們?nèi)四X總能以某種方式摸索出大致的“北極星”——也就是那個(gè)指導(dǎo)我們行動(dòng)的核心目標(biāo)。我認(rèn)為,我們的通用系統(tǒng)未來也必須做到這一點(diǎn),它們需要學(xué)會(huì)去理解人類用戶真正想要實(shí)現(xiàn)的目標(biāo),然后把這些目標(biāo)轉(zhuǎn)化成一組可優(yōu)化的獎(jiǎng)勵(lì)函數(shù)。
利用工具提升AI功能
Kilpatrick:歷史上,我們見證了模型規(guī)模的不斷擴(kuò)大、預(yù)訓(xùn)練和后訓(xùn)練數(shù)據(jù)的增長、計(jì)算能力的提升,然后是推理能力的擴(kuò)展。
現(xiàn)在,工具似乎成為了一個(gè)全新的“擴(kuò)展維度”。當(dāng)你賦予模型更強(qiáng)大、多樣化的工具時(shí),它們就能完成更多任務(wù)。
我很好奇,這種新的擴(kuò)展維度如何和我們在游戲及模擬強(qiáng)化學(xué)習(xí)環(huán)境中所做的工作結(jié)合起來。比如,是否存在一種可能,讓模型能夠使用物理模擬器作為它的一個(gè)工具,從而更好地理解和操作物理世界?
哈薩比斯:我認(rèn)為工具使用將成為這些AI系統(tǒng)最重要的能力之一。思考能力之所以在系統(tǒng)中扮演關(guān)鍵角色,很大程度上是因?yàn)槟憧梢栽谒伎歼^程中調(diào)用各種工具。
比如說,你可以調(diào)用搜索引擎,使用數(shù)學(xué)軟件,寫代碼,然后再回過頭來更新你的計(jì)劃和決策。
目前這方面的能力其實(shí)還處于比較初期的階段,但我相信這一旦變得足夠可靠,并且系統(tǒng)能夠穩(wěn)定地使用相當(dāng)復(fù)雜的工具,整個(gè)能力將會(huì)變得非常強(qiáng)大。
有趣的問題是,哪些功能應(yīng)該作為工具保留,哪些又應(yīng)該直接內(nèi)置在主系統(tǒng),也就是“主大腦”里。對于人類來說,這很簡單,因?yàn)槲覀兊纳眢w有限制,凡是不在身體里的東西都算是外部工具,所以“什么是我們的腦子”這個(gè)界限很清楚。
但對于數(shù)字系統(tǒng)來說,這個(gè)界限就變得模糊了。比如,下棋的能力到底應(yīng)該是主模型自帶的,還是直接調(diào)用像Stockfish或AlphaZero這樣的工具?而且,這個(gè)工具也可以是另一個(gè)AI系統(tǒng),不一定是傳統(tǒng)軟件,比如AlphaFold這樣的模型也可以作為工具。
關(guān)鍵問題在于,這種能力是否能提升其他能力。
舉個(gè)例子,數(shù)學(xué)和編程我們會(huì)直接放進(jìn)主模型——比如主Gemini模型——因?yàn)檫@似乎能“全面提升”,也就是說,編程能力好了,數(shù)學(xué)也會(huì)跟著提升,整體的推理能力也會(huì)更強(qiáng)。我猜象棋等能力可能也有類似的效果。
但另一方面,你又不想把過多的專門領(lǐng)域數(shù)據(jù)直接塞進(jìn)通用模型,因?yàn)槟强赡軙?huì)影響模型在其他方面的表現(xiàn)。所以這其實(shí)是一個(gè)非常需要通過實(shí)證研究來判斷的問題。
如果把這項(xiàng)能力加入主模型能促進(jìn)其他能力的發(fā)展,那就應(yīng)該直接整合進(jìn)去;反之,如果會(huì)影響其他通用能力,那么就可以考慮把它作為一個(gè)獨(dú)立的工具來使用。
從模型到系統(tǒng)的轉(zhuǎn)變
Kilpatrick:有意思的是,模型在推理時(shí)實(shí)際上會(huì)調(diào)用各種工具,做很多事情。過去的模型更像是一堆權(quán)重——你輸入一個(gè)token,輸出一個(gè)token。現(xiàn)在感覺模型本身正在演變成一個(gè)完整的系統(tǒng),人們在它之上構(gòu)建應(yīng)用的方式也在發(fā)生變化,模型“開箱即用”地幫你完成了更多工作。
我很好奇,這種從單純的權(quán)重模型向完整系統(tǒng)轉(zhuǎn)變的趨勢,是否與你對整體進(jìn)展的看法相契合?你覺得這種趨勢會(huì)繼續(xù)發(fā)展嗎?
另外,對于正在構(gòu)建產(chǎn)品的人來說,你有沒有什么建議?比如在思考“我應(yīng)該做成一個(gè)工具,還是把功能直接整合進(jìn)模型”時(shí),有沒有什么經(jīng)驗(yàn)或者原則可以參考?
哈薩比斯:模型確實(shí)在快速進(jìn)步。隨著它們獲得了工具使用的能力,加上規(guī)劃和思考能力,系統(tǒng)能做的事情呈指數(shù)級增長。因?yàn)樗鼈兡軌蛞匀碌姆绞浇M合和運(yùn)用各種工具。
你可以考慮的一個(gè)方向是:哪些工具對AI來說最有用?先著手去開發(fā)和提供這些工具。這里面潛力巨大。
不過,即便有了工具使用能力,智能體本身也不一定能成為一個(gè)完整的產(chǎn)品。所以我覺得在這之上,還有很多產(chǎn)品化的工作需要去做。
現(xiàn)在的難點(diǎn),也是我們之前談過的,是在這個(gè)新世界里,產(chǎn)品經(jīng)理或者產(chǎn)品設(shè)計(jì)師需要具備非常有趣且獨(dú)特的技能。
因?yàn)槟阋O(shè)計(jì)的產(chǎn)品可能要一年后才能發(fā)布,你必須非常貼近技術(shù)發(fā)展,準(zhǔn)確預(yù)測一年后技術(shù)會(huì)達(dá)到什么水平,然后圍繞那個(gè)未來狀態(tài)來設(shè)計(jì)產(chǎn)品。
而且,無論你給產(chǎn)品加上多少精致的包裝,都必須允許底層引擎隨時(shí)可以被換成更先進(jìn)的系統(tǒng)。畢竟,這樣的系統(tǒng)大約每三到六個(gè)月,甚至更快就會(huì)更新一次,現(xiàn)在感覺幾乎是每兩周一次更新。所以你必須把這種高速迭代的節(jié)奏考慮進(jìn)設(shè)計(jì)里。
同時(shí),我也覺得,隨著智能體能夠有效調(diào)用這些系統(tǒng)作為工具,整個(gè)網(wǎng)絡(luò)生態(tài)和應(yīng)用的運(yùn)作方式可能都會(huì)發(fā)生變化,未來的產(chǎn)品形態(tài)可能會(huì)因此不同于現(xiàn)在。
Genie 3與全能模型的發(fā)展路線圖
Kilpatrick:Genie 3的進(jìn)展確實(shí)令人難以置信,相信你也一定收到了很多關(guān)于“我怎么用這個(gè)模型?”、“從世界模型和Genie的角度來看,下一步該怎么走?”這樣的問題。

哈薩比斯:我們現(xiàn)在正努力讓系統(tǒng)盡可能高效,好能讓成千上萬的人都能使用。
我們非常希望用戶能夠互相分享他們的創(chuàng)作,也能體驗(yàn)其他人制作的內(nèi)容,甚至有點(diǎn)贊和排序機(jī)制,形成一個(gè)用戶生成內(nèi)容的社區(qū)。
有趣的是,如何保持世界的一致性。比如,有時(shí)你會(huì)“捕捉到瓶中閃電”,用一個(gè)很棒的提示語創(chuàng)建了一個(gè)非常吸引人的世界。我們需要確保下一個(gè)玩家也能重新生成并體驗(yàn)這個(gè)世界,這背后還有很多設(shè)計(jì)和思考。
總體來看,如果你把Genie、VO和Gemini這些模型放在一起想,雖然它們目前還是相對獨(dú)立的模型,但我們開始看到它們逐漸融合,形成一個(gè)“全能模型”(Omni model),能夠做所有事情。
我們認(rèn)為,這才是AGI系統(tǒng)應(yīng)有的樣子——能夠像專用模型那樣高效地完成各種任務(wù),并且將所有能力統(tǒng)一整合到一個(gè)模型中。




































