DeepMind一篇論文終結(jié)十年之爭(zhēng)!GPT-5推理靠世界模型
GPT-5上線后,最讓人震驚的不是它能寫詩(shī)畫畫,而是它展現(xiàn)出的推理能力。
網(wǎng)友驚呼:「感覺(jué)像是在和博士討論問(wèn)題」,媒體更是直言它的邏輯水平已經(jīng)「堪比專家」。
為什么會(huì)出現(xiàn)這種「突然開(kāi)竅」的效果?
最新的一篇研究給出了答案:
通用智能體之所以能推理,不靠死記硬背,而是因?yàn)樗鼈冊(cè)谀X子里悄悄長(zhǎng)出了一張「世界模型」。

論文傳送門:https://arxiv.org/pdf/2506.01622
是模仿還是思考?學(xué)界吵了十年
什么是「世界模型」?簡(jiǎn)單來(lái)說(shuō),它就是AI腦子里的預(yù)測(cè)地圖。
對(duì)于人類來(lái)說(shuō),我們的腦子里天生帶有預(yù)測(cè)的功能:
球在桌子邊滾動(dòng)→它可能會(huì)掉下去
開(kāi)車的時(shí)候,看到紅燈→如果不剎車可能出事故
兩個(gè)人對(duì)話,其中一個(gè)人說(shuō)「我餓了」→下一步很可能是找吃的
那對(duì)于AI來(lái)說(shuō),是怎樣的呢?
在過(guò)去的十幾年里,學(xué)界一直在爭(zhēng)吵——AI到底能不能只靠模仿(無(wú)模型學(xué)習(xí)),也能解決復(fù)雜任務(wù)?
「模仿派」認(rèn)為,只要有足夠多的數(shù)據(jù)+強(qiáng)大的算力,AI就能像條件反射一樣給出正確答案。
在GPT-3.5時(shí)代,大部分AI的回答都像「背題庫(kù)」,有時(shí)候蒙對(duì),有時(shí)候完全錯(cuò)誤。
與之相反的則是「思考派」。他們堅(jiān)持如果沒(méi)有世界模型,AI永遠(yuǎn)只是鸚鵡學(xué)舌。
一旦問(wèn)題需要多步邏輯,比如解數(shù)學(xué)習(xí)題、規(guī)劃一個(gè)流程,純模仿型AI就會(huì)掉鏈子。
圖片
最近,有一研究給這些爭(zhēng)論按下了終止鍵:
只要一個(gè)智能體真的能完成多步、復(fù)雜的目標(biāo)任務(wù),它的策略里必然隱含了世界模型。
在學(xué)術(shù)框架里,「目標(biāo)、策略、世界模型」曾經(jīng)像一個(gè)缺角的三角形。
已知世界模型和目標(biāo),可以推導(dǎo)出最優(yōu)策略;已知策略和世界模型,可以反推出目標(biāo)。
圖1 目標(biāo)g、策略π、世界模型p之間的三角關(guān)系
而現(xiàn)在最后一角也被補(bǔ)齊——只要知道智能體的策略和目標(biāo),就能恢復(fù)出它的世界模型。
這個(gè)推導(dǎo)讓「世界模型不可或缺」的結(jié)論更加穩(wěn)固。
也就是說(shuō),GPT-5之所以能展現(xiàn)出驚人的推理能力,是因?yàn)樵谟?xùn)練過(guò)程中,它體內(nèi)的「世界模型」。
可以說(shuō),沒(méi)有世界模型,就沒(méi)有真正的通用智能。
探究AI腦子里的地圖
僅有理論還不夠,研究團(tuán)隊(duì)決定深入檢查。
既然說(shuō)智能體一定會(huì)「長(zhǎng)出」世界模型,那么我們能否在實(shí)驗(yàn)室里,把這張隱形的「地圖」抓出來(lái)?
給AI搭建的「迷你世界」
為了驗(yàn)證AI體內(nèi)是否真的存在世界模型,研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的實(shí)驗(yàn)。
他們搭建了一個(gè)虛擬世界,里面只有幾個(gè)狀態(tài)(X、Y),它們會(huì)按一定概率互相跳轉(zhuǎn)。
然后研究員將任務(wù)交給智能體,讓它自己摸索。
最后,研究人員嘗試只根據(jù)智能體的行為,反推出它腦子里是不是已經(jīng)學(xué)會(huì)了這些概率。
圖2 智能體-環(huán)境系統(tǒng)示意圖
任務(wù)越復(fù)雜,誤差反而越小
剛開(kāi)始,智能體在簡(jiǎn)單目標(biāo)里亂撞,恢復(fù)出來(lái)的世界模型差錯(cuò)很多,還有一堆錯(cuò)誤。
可當(dāng)任務(wù)變得復(fù)雜(比如要先到X,再轉(zhuǎn)到Y(jié)),情況就完全不同:它會(huì)自動(dòng)搭建出更精細(xì)的「轉(zhuǎn)移概率表」。
隨著任務(wù)深度增加,誤差迅速下降。
圖3 任務(wù)復(fù)雜度vs世界模型誤差曲線
無(wú)論是訓(xùn)練樣本還是任務(wù)深度,結(jié)果都一邊倒——任務(wù)越復(fù)雜,世界模型越準(zhǔn)確。
實(shí)驗(yàn)員還嘗試了更復(fù)雜的目標(biāo)組合:智能體需要在不同狀態(tài)之間來(lái)回跳轉(zhuǎn),才能完成目標(biāo)。
圖4 復(fù)合目標(biāo)實(shí)驗(yàn)示意圖
結(jié)果依舊成立。即使任務(wù)被拆解得更復(fù)雜,它體內(nèi)的世界模型依然能被穩(wěn)定恢復(fù)出來(lái)。
沒(méi)有世界地圖,就沒(méi)有真正的智能
數(shù)學(xué)推理也印證了這一點(diǎn)。
實(shí)驗(yàn)表明,只要一個(gè)智能體在復(fù)雜任務(wù)里不會(huì)頻繁犯低級(jí)錯(cuò)誤,始終能保持有限的「后悔值」,它的策略中就必然已經(jīng)包含了環(huán)境的轉(zhuǎn)移規(guī)律。
也就是說(shuō)——世界模型不是AI的點(diǎn)綴,而是它進(jìn)化的必需品。
智能體越強(qiáng),心里的「小九九」就越多。
這就是為什么GPT-5會(huì)讓人覺(jué)得「突然會(huì)推理了」,其實(shí)是它體內(nèi)越來(lái)越清晰的世界模型。
一張地圖帶來(lái)的希望與隱憂
實(shí)驗(yàn)告訴我們:只要AI能完成復(fù)雜任務(wù),它的腦子里就一定有一個(gè)「世界地圖」。
這也解釋了近來(lái)最熱門的現(xiàn)象——所謂的「涌現(xiàn)能力」。
研究表示,這并不是魔法,而是世界模型在任務(wù)中逐漸清晰的自然結(jié)果。
我們以為GPT-5突然會(huì)推理,其實(shí)是因?yàn)樗w內(nèi)的世界模型在任務(wù)中逐漸清晰,于是能力自然顯現(xiàn)。
這讓人類看到了希望:如果世界模型真的存在,我們或許有機(jī)會(huì)把它抽離出來(lái),借此理解AI的內(nèi)心劇場(chǎng)。
未來(lái),當(dāng)它越來(lái)越強(qiáng)時(shí),這可能成為破解黑箱、提升安全性的關(guān)鍵。
但這也埋下了隱憂的種子。
真實(shí)世界遠(yuǎn)比實(shí)驗(yàn)室復(fù)雜,AI學(xué)到的地圖也許是模糊不完整的,甚至與人類理解不一致。
可能它覺(jué)得安全,而我們覺(jué)得危險(xiǎn)。
對(duì)研究者來(lái)說(shuō),這也是一個(gè)轉(zhuǎn)機(jī)。
既然世界模型必然存在,那么我們或許能在未來(lái)把它抽取出來(lái),用來(lái)解釋和驗(yàn)證AI的行為。
這意味著,破解「黑箱」不再只是愿景,而可能有了真正的理論支撐。
所以,GPT-5帶來(lái)的震驚不只是「它會(huì)推理」,更深層的意義在于:AI已經(jīng)能在腦海里搭建自己的世界地圖。
而這張地圖,既可能是通向智慧的通行證,也可能是未來(lái)不確定性的源頭。
參考資料:https://arxiv.org/abs/2506.01622




































