DeepMind一篇論文終結(jié)十年之爭(zhēng)！GPT-5推理靠世界模型

作者：新智元 2025-10-31 16:04:17

GPT-5的驚艷之處，不只是寫得好，還有超強(qiáng)的推理能力。近期的一個(gè)研究揭示了其中的秘密：通用智能體之所以聰明，不是因?yàn)閰?shù)更大，而是因?yàn)樗鼈冊(cè)谀X子里長(zhǎng)出了一張「世界模型」。而這張隱形的地圖，也正在改變我們對(duì)AI的理解。

GPT-5上線后，最讓人震驚的不是它能寫詩(shī)畫畫，而是它展現(xiàn)出的推理能力。

網(wǎng)友驚呼：「感覺(jué)像是在和博士討論問(wèn)題」，媒體更是直言它的邏輯水平已經(jīng)「堪比專家」。

為什么會(huì)出現(xiàn)這種「突然開(kāi)竅」的效果？

最新的一篇研究給出了答案：

通用智能體之所以能推理，不靠死記硬背，而是因?yàn)樗鼈冊(cè)谀X子里悄悄長(zhǎng)出了一張「世界模型」。

論文傳送門：https://arxiv.org/pdf/2506.01622

是模仿還是思考？學(xué)界吵了十年

什么是「世界模型」？簡(jiǎn)單來(lái)說(shuō)，它就是AI腦子里的預(yù)測(cè)地圖。

對(duì)于人類來(lái)說(shuō)，我們的腦子里天生帶有預(yù)測(cè)的功能：

球在桌子邊滾動(dòng)→它可能會(huì)掉下去

開(kāi)車的時(shí)候，看到紅燈→如果不剎車可能出事故

兩個(gè)人對(duì)話，其中一個(gè)人說(shuō)「我餓了」→下一步很可能是找吃的

那對(duì)于AI來(lái)說(shuō)，是怎樣的呢？

在過(guò)去的十幾年里，學(xué)界一直在爭(zhēng)吵——AI到底能不能只靠模仿（無(wú)模型學(xué)習(xí)），也能解決復(fù)雜任務(wù)？

「模仿派」認(rèn)為，只要有足夠多的數(shù)據(jù)+強(qiáng)大的算力，AI就能像條件反射一樣給出正確答案。

在GPT-3.5時(shí)代，大部分AI的回答都像「背題庫(kù)」，有時(shí)候蒙對(duì)，有時(shí)候完全錯(cuò)誤。

與之相反的則是「思考派」。他們堅(jiān)持如果沒(méi)有世界模型，AI永遠(yuǎn)只是鸚鵡學(xué)舌。

一旦問(wèn)題需要多步邏輯，比如解數(shù)學(xué)習(xí)題、規(guī)劃一個(gè)流程，純模仿型AI就會(huì)掉鏈子。

圖片

最近，有一研究給這些爭(zhēng)論按下了終止鍵：

只要一個(gè)智能體真的能完成多步、復(fù)雜的目標(biāo)任務(wù)，它的策略里必然隱含了世界模型。

在學(xué)術(shù)框架里，「目標(biāo)、策略、世界模型」曾經(jīng)像一個(gè)缺角的三角形。

已知世界模型和目標(biāo)，可以推導(dǎo)出最優(yōu)策略；已知策略和世界模型，可以反推出目標(biāo)。

圖1 目標(biāo)g、策略π、世界模型p之間的三角關(guān)系

而現(xiàn)在最后一角也被補(bǔ)齊——只要知道智能體的策略和目標(biāo)，就能恢復(fù)出它的世界模型。

這個(gè)推導(dǎo)讓「世界模型不可或缺」的結(jié)論更加穩(wěn)固。

也就是說(shuō)，GPT-5之所以能展現(xiàn)出驚人的推理能力，是因?yàn)樵谟?xùn)練過(guò)程中，它體內(nèi)的「世界模型」。

可以說(shuō)，沒(méi)有世界模型，就沒(méi)有真正的通用智能。

探究AI腦子里的地圖

僅有理論還不夠，研究團(tuán)隊(duì)決定深入檢查。

既然說(shuō)智能體一定會(huì)「長(zhǎng)出」世界模型，那么我們能否在實(shí)驗(yàn)室里，把這張隱形的「地圖」抓出來(lái)？

給AI搭建的「迷你世界」

為了驗(yàn)證AI體內(nèi)是否真的存在世界模型，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)巧妙的實(shí)驗(yàn)。

他們搭建了一個(gè)虛擬世界，里面只有幾個(gè)狀態(tài)（X、Y），它們會(huì)按一定概率互相跳轉(zhuǎn)。

然后研究員將任務(wù)交給智能體，讓它自己摸索。

最后，研究人員嘗試只根據(jù)智能體的行為，反推出它腦子里是不是已經(jīng)學(xué)會(huì)了這些概率。

圖2 智能體-環(huán)境系統(tǒng)示意圖

任務(wù)越復(fù)雜，誤差反而越小

剛開(kāi)始，智能體在簡(jiǎn)單目標(biāo)里亂撞，恢復(fù)出來(lái)的世界模型差錯(cuò)很多，還有一堆錯(cuò)誤。

可當(dāng)任務(wù)變得復(fù)雜（比如要先到X，再轉(zhuǎn)到Y(jié)），情況就完全不同：它會(huì)自動(dòng)搭建出更精細(xì)的「轉(zhuǎn)移概率表」。

隨著任務(wù)深度增加，誤差迅速下降。

圖3 任務(wù)復(fù)雜度vs世界模型誤差曲線

無(wú)論是訓(xùn)練樣本還是任務(wù)深度，結(jié)果都一邊倒——任務(wù)越復(fù)雜，世界模型越準(zhǔn)確。

實(shí)驗(yàn)員還嘗試了更復(fù)雜的目標(biāo)組合：智能體需要在不同狀態(tài)之間來(lái)回跳轉(zhuǎn)，才能完成目標(biāo)。

圖4 復(fù)合目標(biāo)實(shí)驗(yàn)示意圖

結(jié)果依舊成立。即使任務(wù)被拆解得更復(fù)雜，它體內(nèi)的世界模型依然能被穩(wěn)定恢復(fù)出來(lái)。

沒(méi)有世界地圖，就沒(méi)有真正的智能

數(shù)學(xué)推理也印證了這一點(diǎn)。

實(shí)驗(yàn)表明，只要一個(gè)智能體在復(fù)雜任務(wù)里不會(huì)頻繁犯低級(jí)錯(cuò)誤，始終能保持有限的「后悔值」，它的策略中就必然已經(jīng)包含了環(huán)境的轉(zhuǎn)移規(guī)律。

也就是說(shuō)——世界模型不是AI的點(diǎn)綴，而是它進(jìn)化的必需品。

智能體越強(qiáng)，心里的「小九九」就越多。

這就是為什么GPT-5會(huì)讓人覺(jué)得「突然會(huì)推理了」，其實(shí)是它體內(nèi)越來(lái)越清晰的世界模型。

一張地圖帶來(lái)的希望與隱憂

實(shí)驗(yàn)告訴我們：只要AI能完成復(fù)雜任務(wù)，它的腦子里就一定有一個(gè)「世界地圖」。

這也解釋了近來(lái)最熱門的現(xiàn)象——所謂的「涌現(xiàn)能力」。

研究表示，這并不是魔法，而是世界模型在任務(wù)中逐漸清晰的自然結(jié)果。

我們以為GPT-5突然會(huì)推理，其實(shí)是因?yàn)樗w內(nèi)的世界模型在任務(wù)中逐漸清晰，于是能力自然顯現(xiàn)。

這讓人類看到了希望：如果世界模型真的存在，我們或許有機(jī)會(huì)把它抽離出來(lái)，借此理解AI的內(nèi)心劇場(chǎng)。

未來(lái)，當(dāng)它越來(lái)越強(qiáng)時(shí)，這可能成為破解黑箱、提升安全性的關(guān)鍵。

但這也埋下了隱憂的種子。

真實(shí)世界遠(yuǎn)比實(shí)驗(yàn)室復(fù)雜，AI學(xué)到的地圖也許是模糊不完整的，甚至與人類理解不一致。

可能它覺(jué)得安全，而我們覺(jué)得危險(xiǎn)。

對(duì)研究者來(lái)說(shuō)，這也是一個(gè)轉(zhuǎn)機(jī)。

既然世界模型必然存在，那么我們或許能在未來(lái)把它抽取出來(lái)，用來(lái)解釋和驗(yàn)證AI的行為。

這意味著，破解「黑箱」不再只是愿景，而可能有了真正的理論支撐。

所以，GPT-5帶來(lái)的震驚不只是「它會(huì)推理」，更深層的意義在于：AI已經(jīng)能在腦海里搭建自己的世界地圖。

而這張地圖，既可能是通向智慧的通行證，也可能是未來(lái)不確定性的源頭。

參考資料：https://arxiv.org/abs/2506.01622

責(zé)任編輯：武曉燕來(lái)源：新智元