GPT-5空間智能大考:簡單任務(wù)稱王,復(fù)雜挑戰(zhàn)平手,所有模型都輸給了人類

大家好,我是肆〇柒。今天我們要探討一篇由 DeepMind 聯(lián)合 Stanford HAI(斯坦福以人為本人工智能研究院)共同發(fā)布的重磅實(shí)證研究報(bào)告。這份報(bào)告首次對(duì)GPT-5的空間智能能力進(jìn)行了系統(tǒng)性、標(biāo)準(zhǔn)化的全面評(píng)估,其結(jié)論可能會(huì)更加清晰我們對(duì)當(dāng)前AI能力邊界的認(rèn)知。
想想,當(dāng)一個(gè)機(jī)器人需要在真實(shí)環(huán)境中導(dǎo)航、抓取物體或理解空間關(guān)系時(shí),它依賴的不僅是視覺識(shí)別能力,更是對(duì)物理世界的空間理解與推理能力。這種被稱為"空間智能"的認(rèn)知能力,是實(shí)現(xiàn)真正人工智能(AGI)的關(guān)鍵卻常被忽視的維度。沒有空間智能,具身智能體(embodied agent)將無法完全在物理世界中操作、適應(yīng)或交互。
假設(shè)這樣一個(gè)場(chǎng)景:GPT-5被問及"如果將這張紙按虛線折疊,會(huì)形成什么形狀?"——這個(gè)對(duì)5歲兒童來說輕而易舉的任務(wù),卻讓號(hào)稱最強(qiáng)大的AI模型頻頻出錯(cuò)。 這不是虛構(gòu),而是最新研究中記錄的真實(shí)案例。隨著GPT-5的發(fā)布,這一問題變得尤為緊迫:號(hào)稱最強(qiáng)大AI模型的GPT-5,是否已經(jīng)攻克了這一基礎(chǔ)性難題?基于此,研究團(tuán)隊(duì)構(gòu)建了涵蓋六項(xiàng)基礎(chǔ)能力的評(píng)估體系,在八個(gè)最新發(fā)布的空間智能基準(zhǔn)上測(cè)試了約31K圖像、4.5K視頻和24K問題,總成本超過十億Token。這一嚴(yán)謹(jǐn)?shù)姆椒ㄕ摓榛卮?GPT-5是否實(shí)現(xiàn)空間智能"這一關(guān)鍵問題提供了堅(jiān)實(shí)證據(jù)。

GPT-5在復(fù)雜問題與基礎(chǔ)空間任務(wù)上的表現(xiàn)對(duì)比
上圖:GPT-5在解決人類認(rèn)為復(fù)雜的問題(左)表現(xiàn)出色,但在人類兒童能輕松理解的基礎(chǔ)空間任務(wù)(右)上失敗。
空間智能——通往 AGI 的"最后一公里"
空間理解與推理構(gòu)成了一種關(guān)鍵卻未被充分探索的智能維度,對(duì)實(shí)現(xiàn)人工通用智能(AGI)至關(guān)重要。正如研究明確指出,空間智能可以說是最未被探索的前沿領(lǐng)域之一。沒有空間智能,具身智能體將無法完全在物理世界中操作、適應(yīng)或交互。
空間智能代表著通往AGI道路上的關(guān)鍵瓶頸。沒有強(qiáng)大的空間理解能力,AI系統(tǒng)將僅限于符號(hào)操作,而無法真正理解物理世界。研究發(fā)現(xiàn)表明,克服這一瓶頸不僅需要擴(kuò)展現(xiàn)有架構(gòu),還需要開發(fā)3D表示和推理的根本性新方法。 這提示我們,空間智能的突破可能需要超越當(dāng)前MLLM范式的創(chuàng)新。
盡管多模態(tài)大語言模型(MLLM)近年來取得了顯著進(jìn)展,但即使是當(dāng)前最先進(jìn)的模型,在人類認(rèn)為簡單的空間任務(wù)上仍頻頻失敗。最新研究表明,空間智能(Spatial Intelligence, SI)是一項(xiàng)根本性不同的技能,與主流基準(zhǔn)測(cè)量的多模態(tài)能力相比具有獨(dú)特挑戰(zhàn)性。
隨著GPT-5的發(fā)布,整個(gè)AI圈自然好奇:它在這一維度上的表現(xiàn)如何?是否已經(jīng)實(shí)現(xiàn)了空間智能?一篇題為《Has GPT-5 Achieved Spatial Intelligence? An Empirical Study》的技術(shù)報(bào)告首次通過系統(tǒng)性、標(biāo)準(zhǔn)化的實(shí)證研究,對(duì)這一問題給出了嚴(yán)謹(jǐn)回答。
方法論:構(gòu)建統(tǒng)一的評(píng)估框架
六維能力模型:空間智能的科學(xué)解構(gòu)
現(xiàn)有空間智能評(píng)估基準(zhǔn)往往關(guān)注不同方面,并采用各異的分類體系。為整合這些分散的研究,該論文提煉出六項(xiàng)基礎(chǔ)能力,構(gòu)建了空間智能的統(tǒng)一評(píng)估框架:

六項(xiàng)空間智能基礎(chǔ)能力
- MM(度量測(cè)量,Metric Measurement):從2D觀察推斷3D維度(如度量深度或長度)。由于缺乏相機(jī)內(nèi)參時(shí)這一推斷本質(zhì)上是模糊的,合理的估計(jì)反映了對(duì)物理尺度和典型物體尺寸的理解。
- MR(心理重構(gòu),Mental Reconstruction):從一個(gè)或多個(gè)受限視角推斷物體的精細(xì)幾何結(jié)構(gòu),要求模型從有限2D觀察中推斷完整3D結(jié)構(gòu)并有時(shí)進(jìn)行虛擬操作。這類技能賦能現(xiàn)實(shí)工程應(yīng)用,包括解釋或生成三視圖。
- PT(視角轉(zhuǎn)換,Perspective Taking):理解并推理不同視角之間的關(guān)系,包括相機(jī)-相機(jī)、物體-物體、區(qū)域-區(qū)域等視角轉(zhuǎn)換。這是具身智能體理解物理世界的基礎(chǔ)能力。
- SR(空間關(guān)系,Spatial Relations):識(shí)別和理解物體之間的空間關(guān)系(如"在...上面"、"在...前面"等)。
- DA(形變與裝配,Deformation and Assembly):理解物體形狀的變形(如折紙)和結(jié)構(gòu)的組裝(如積木搭建)。
- CR(綜合推理,Comprehensive Reasoning):結(jié)合多種空間能力進(jìn)行復(fù)雜推理,如計(jì)算被遮擋物體數(shù)量、理解多步空間變換等。
這一六維框架將此前碎片化的評(píng)估基準(zhǔn)整合為系統(tǒng)性科學(xué)評(píng)估體系,為比較不同模型的空間能力提供了共同語言。圖2直觀展示了六項(xiàng)能力的層次關(guān)系,從基礎(chǔ)的MM(度量測(cè)量)到高級(jí)的CR(綜合推理),構(gòu)成一個(gè)遞進(jìn)的能力金字塔。值得注意的是,MR(心理重構(gòu))和PT(視角轉(zhuǎn)換)作為中間層能力,是連接基礎(chǔ)測(cè)量與高級(jí)推理的關(guān)鍵樞紐。
嚴(yán)謹(jǐn)?shù)脑u(píng)估協(xié)議:避免評(píng)估陷阱
研究評(píng)估了八項(xiàng)最新空間智能基準(zhǔn):VSI-Bench、SITE、MMSI、OmniSpatial、MindCube、STARE、CoreCognition和SpatialViz。這些基準(zhǔn)均在2024-2025年發(fā)布,反映了該領(lǐng)域研究的最新進(jìn)展。

空間智能評(píng)估基準(zhǔn)的關(guān)鍵要素
為確保評(píng)估的可靠性和公平性,研究團(tuán)隊(duì)建立了嚴(yán)格的評(píng)估協(xié)議。包括:
標(biāo)準(zhǔn)化提示(System Prompts):不同基準(zhǔn)采用不同的系統(tǒng)提示,而提示對(duì)模型性能影響顯著。為最大化模型空間推理能力,研究采用OmniSpatial提出的零樣本思維鏈(zero-shot CoT)方法,并遵循SpatialViz指定的答案模板。
Chance-Adjusted Accuracy (CAA)指標(biāo):研究采用CAA消除隨機(jī)猜測(cè)的混淆效應(yīng),確保評(píng)估不受選項(xiàng)數(shù)量影響,使不同基準(zhǔn)間的結(jié)果具有可比性。CAA通過數(shù)學(xué)公式校正結(jié)果,其中是隨機(jī)猜測(cè)的準(zhǔn)確率。
答案匹配方法:采用三步匹配流程:1)初始基于規(guī)則的匹配:提取"<answer></answer>"標(biāo)簽內(nèi)的答案;2)擴(kuò)展基于規(guī)則的匹配:若第一步失敗,使用額外模式如"<answer>"、"Answer:"等;3)LLM輔助提取:對(duì)規(guī)則方法失敗的情況,使用LLM提取答案。
循環(huán)測(cè)試(Circular Testing):為確保評(píng)估的穩(wěn)健性,研究團(tuán)隊(duì)對(duì)所有適用的基準(zhǔn)進(jìn)行了循環(huán)測(cè)試,通過測(cè)量同一圖像在多次旋轉(zhuǎn)下的性能,區(qū)分真正的空間理解與對(duì)答案選項(xiàng)位置的偏見。這一方法揭示了許多模型表面上的空間能力實(shí)際上主要?dú)w因于識(shí)別答案位置模式,而非真正的空間推理。硬循環(huán)評(píng)分作為更嚴(yán)格的任務(wù)能力度量,能有效揭示模型是否真正理解任務(wù),而非依賴選項(xiàng)位置的隨機(jī)猜測(cè)。
MindCube-Tiny的選擇:MindCube包含21K問題,但其三個(gè)子集(among、around、rotation)分布不均,其中'among'子集包含18K問題。因此,研究采用MindCube-Tiny進(jìn)行測(cè)試,包含1,050個(gè)QA對(duì)(among:around:rotatinotallow= 600:250:200)和428個(gè)獨(dú)特圖像。
評(píng)估總計(jì)涉及約31K圖像、4.5K視頻和24K問題,總成本超過十億Token。這種大規(guī)模、標(biāo)準(zhǔn)化的評(píng)估為結(jié)論提供了堅(jiān)實(shí)的統(tǒng)計(jì)基礎(chǔ),避免了小樣本評(píng)估可能帶來的偏差,也克服了不同基準(zhǔn)間評(píng)估方法差異帶來的可比性問題。

GPT-5與其他模型在空間智能基準(zhǔn)測(cè)試上的性能對(duì)比,展示了其在多數(shù)任務(wù)上的領(lǐng)先優(yōu)勢(shì),但在某些任務(wù)上與人類仍有顯著差距。
核心發(fā)現(xiàn):GPT-5 的能力全景與領(lǐng)域共性瓶頸
GPT-5 確立新 SOTA
研究結(jié)果顯示,GPT-5在空間智能方面確立了新的最先進(jìn)水平(state of the art),在絕大多數(shù)基準(zhǔn)上超越了Gemini-2.5-pro和InternVL3等強(qiáng)大基線。它在SITE、MindCube和STARE的大多數(shù)子類別中展現(xiàn)出明顯優(yōu)勢(shì),同時(shí)在其他基準(zhǔn)上保持高度競爭力。
在基礎(chǔ)幾何測(cè)量方面,GPT-5展現(xiàn)出前所未有的能力,甚至在某些MM子任務(wù)上超越了人類。如附錄B.2所示,在VSI-Bench基準(zhǔn)中,GPT-5在"物體尺寸"和"房間尺寸"任務(wù)上的表現(xiàn)已超過人類水平(人類:47.0和45.9分;GPT-5:50.53和63.73分),僅在"絕對(duì)距離"任務(wù)上略遜于人類(人類:94.3分;GPT-5:53.61分)。這一突破表明GPT-5可能通過大規(guī)模訓(xùn)練獲得了強(qiáng)大的幾何先驗(yàn)知識(shí),類似于人類依賴典型物體尺寸的啟發(fā)式假設(shè)。
GPT-5在SR任務(wù)上也表現(xiàn)優(yōu)異,在SITE和CoreCognition基準(zhǔn)的多個(gè)子任務(wù)中達(dá)到或接近人類水平。例如在SITE的"Counting & Existence"和"3D Information Understanding"任務(wù)上,GPT-5分別達(dá)到66.45和73.34分,與人類表現(xiàn)(66和83.3分)相當(dāng)。然而,值得注意的是,SITE是唯一一個(gè)報(bào)告人類表現(xiàn)約為67.5分的基準(zhǔn),而其他基準(zhǔn)的人類表現(xiàn)多在75分以上甚至接近90分,這凸顯了跨基準(zhǔn)比較的復(fù)雜性。
人類性能鴻溝依然顯著
盡管GPT-5在空間智能方面取得了顯著進(jìn)步,但研究明確指出,它仍未實(shí)現(xiàn)真正的空間智能。在多項(xiàng)基礎(chǔ)能力上,GPT-5與人類表現(xiàn)仍有明顯差距:
- 心理重構(gòu)(MR):在8個(gè)基準(zhǔn)中的3個(gè)上表現(xiàn)不佳,特別是在SpatialViz的Mental Rotation和Mental Folding任務(wù)上,GPT-5僅得42.50和28.75分,遠(yuǎn)低于人類的90.00和79.16分
- 視角轉(zhuǎn)換(PT):在8個(gè)基準(zhǔn)中的6個(gè)上存在明顯差距,在MMSI、OmniSpatial、STARE和CoreCognition中,PT任務(wù)與人類表現(xiàn)之間的差距尤為顯著
- 綜合推理(CR):在8個(gè)基準(zhǔn)中的3個(gè)上表現(xiàn)欠佳,特別是在MMSI和SpatialViz中,模型在需要多階段推理的任務(wù)上表現(xiàn)薄弱
- 形變與裝配(DA):在SpatialViz基準(zhǔn)上表現(xiàn)尤其薄弱,Paper Folding任務(wù)僅得28.81分(人類98.6分),差距達(dá)69.79分
特別是在MMSI這一高挑戰(zhàn)性、綜合性基準(zhǔn)上,即使是GPT-5也遠(yuǎn)未達(dá)到人類水平。MMSI要求模型處理7種類型的視角轉(zhuǎn)換(包括相機(jī)-相機(jī)、物體-物體、區(qū)域-區(qū)域等),這種綜合性使其成為真正的"壓力測(cè)試"。在OmniSpatial、STARE、CoreCognition和SpatialViz中,空間智能任務(wù)與人類表現(xiàn)之間的差距明顯大于非空間智能任務(wù)。這表明空間智能任務(wù)對(duì)當(dāng)前多模態(tài)模型構(gòu)成了獨(dú)特挑戰(zhàn)。
任務(wù)難度決定優(yōu)勢(shì)格局:簡單任務(wù)與復(fù)雜任務(wù)的模型表現(xiàn)差異
讓我們來理解一個(gè)非常有意思的發(fā)現(xiàn):AI模型在空間智能任務(wù)上的表現(xiàn)并非一成不變,而是取決于任務(wù)的難度。
想象一下,如果讓AI模型玩不同難度的拼圖游戲:
- 簡單拼圖:只有幾塊大塊,圖案清晰
- 復(fù)雜拼圖:數(shù)百塊小碎片,圖案模糊
研究發(fā)現(xiàn)了一個(gè)關(guān)鍵規(guī)律:在簡單任務(wù)上,商業(yè)閉源模型(如GPT-5)明顯優(yōu)于開源模型;但在真正復(fù)雜的任務(wù)上,所有模型都表現(xiàn)不佳,看上去差距大大縮小。
為什么會(huì)出現(xiàn)這種現(xiàn)象?
這就像讓不同水平的學(xué)生解數(shù)學(xué)題:對(duì)于基礎(chǔ)算術(shù)題(簡單任務(wù)),優(yōu)等生(GPT-5)能輕松得滿分,而普通學(xué)生(開源模型)可能得80分;但對(duì)于高難度的微積分題(復(fù)雜任務(wù)),即使是優(yōu)等生也只能得30分,普通學(xué)生得25分——兩者的差距從20分縮小到了5分
在空間智能領(lǐng)域,這種現(xiàn)象尤為明顯。研究團(tuán)隊(duì)測(cè)試了多種空間任務(wù),發(fā)現(xiàn):在簡單的空間判斷任務(wù)上,GPT-5等商業(yè)模型確實(shí)遙遙領(lǐng)先;但在需要綜合空間能力的高難度任務(wù)上(如理解物體被遮擋的部分、進(jìn)行多步空間變換等),所有模型——無論是否商業(yè)閉源——都表現(xiàn)不佳,且差距很小
一個(gè)典型例子:MindCube旋轉(zhuǎn)任務(wù)
為了更清楚地理解,讓我們看看MindCube的"旋轉(zhuǎn)"任務(wù)是什么。MindCube是一個(gè)評(píng)估空間智能的重要基準(zhǔn)測(cè)試,它包含三個(gè)主要子任務(wù):
- Among(位置關(guān)系):判斷物體是否在其他物體"之間"
- Around(環(huán)繞關(guān)系):判斷物體是否"環(huán)繞"其他物體
- Rotation(旋轉(zhuǎn)判斷):判斷圖像旋轉(zhuǎn)了多少度
在Rotation任務(wù)中,模型看到的是同一個(gè)物體從不同角度拍攝的圖像,需要判斷圖像旋轉(zhuǎn)了90度還是180度。關(guān)鍵點(diǎn)在于:這個(gè)任務(wù)中"相機(jī)位置固定不動(dòng),僅原地旋轉(zhuǎn)",就像你把手機(jī)平放在桌上,然后原地轉(zhuǎn)動(dòng)它拍照,而不是圍繞物體走動(dòng)拍照。
這意味著模型不需要理解空間視角轉(zhuǎn)換,只需判斷圖像旋轉(zhuǎn)了90度還是180度——就像判斷一張照片是正著還是倒著。對(duì)人類來說,這太簡單了!GPT-5在這一任務(wù)上得分高達(dá)93.33分,看起來非常出色。
然而,真正的空間智能挑戰(zhàn)是這樣的:想象你站在房間一角,看到一個(gè)物體;然后你走到房間另一角,再看同一個(gè)物體。這時(shí),物體在圖像中的位置和形狀都發(fā)生了變化,你需要理解這是同一個(gè)物體,只是視角變了。這種需要在腦海中進(jìn)行視角轉(zhuǎn)換的能力,才是真正的空間智能。
所以,這就像只轉(zhuǎn)動(dòng)你的頭而不移動(dòng)位置看同一個(gè)物體,與實(shí)際在空間中移動(dòng)觀察物體有本質(zhì)區(qū)別。
為什么這個(gè)發(fā)現(xiàn)如此重要?
這一發(fā)現(xiàn)對(duì)AI研究社區(qū)具有重大意義:
- 開源社區(qū)的機(jī)遇:在空間智能的最前沿領(lǐng)域,開源模型與閉源模型表現(xiàn)相當(dāng),這意味著開源社區(qū)有平等的機(jī)會(huì)取得突破
- 研究方向的啟示:如果所有頂級(jí)模型在最難任務(wù)上都表現(xiàn)不佳,說明這不是簡單的數(shù)據(jù)或算力問題,而是需要根本性的方法創(chuàng)新
- 避免誤判AI能力:不能因?yàn)槟P驮诤唵稳蝿?wù)上表現(xiàn)好,就認(rèn)為它真正理解了空間概念
也就是說,任務(wù)難度就像一把尺子,能更準(zhǔn)確地衡量模型的真實(shí)空間智能水平。當(dāng)任務(wù)足夠復(fù)雜時(shí),那些看似強(qiáng)大的模型優(yōu)勢(shì)就會(huì)消失,暴露出所有模型共同面臨的基礎(chǔ)性挑戰(zhàn)。
推理深度的雙刃劍效應(yīng)
研究通過消融實(shí)驗(yàn)考察了GPT-5的"thinking mode"對(duì)性能的影響。在SpatialViz-Tiny測(cè)試集上,四種推理模式(Minimal、Low、Medium、High)的結(jié)果顯示:
- Minimal模式:準(zhǔn)確率48.31%,推理token為0
- Low模式:準(zhǔn)確率54.24%,平均推理token 1899
- Medium模式:準(zhǔn)確率56.78%,平均推理token 5860
- High模式:準(zhǔn)確率52.54%,平均推理token 8567(排除超時(shí)/截?cái)鄦栴}后為68.89%)

這一結(jié)果表明,適度的推理能提升性能,證明了鏈?zhǔn)酵评淼挠行浴H欢贖igh模式下,28個(gè)問題(占118個(gè)測(cè)試問題的23.7%)因超過15分鐘時(shí)間限制或達(dá)到token上限而被計(jì)為錯(cuò)誤,導(dǎo)致準(zhǔn)確率下降。這暴露了當(dāng)前架構(gòu)在執(zhí)行長程、復(fù)雜空間推理任務(wù)時(shí)的穩(wěn)定性缺陷,是導(dǎo)致CR任務(wù)表現(xiàn)不佳的重要原因。
這一發(fā)現(xiàn)具有重要啟示:空間推理不僅需要深度思考,還需要在思考深度與執(zhí)行穩(wěn)定性之間取得平衡。當(dāng)前模型在Medium模式下達(dá)到最佳性能,暗示著未來模型設(shè)計(jì)需要優(yōu)化推理過程的穩(wěn)定性和效率,而非簡單增加推理深度。
案例分析:GPT-5 的空間認(rèn)知局限
MR4:心理重構(gòu)的根本缺陷

MR4:GPT-5在心理重構(gòu)任務(wù)中的失敗案例-無法正確推斷3D結(jié)構(gòu)的俯視投影
在"根據(jù)前視圖、側(cè)視圖和俯視圖重建3D結(jié)構(gòu)"的任務(wù)中,GPT-5選擇了A,而正確答案是B。該任務(wù)要求模型理解3D立方體結(jié)構(gòu)的俯視投影,但模型似乎無法正確推斷隱藏面的幾何關(guān)系。
從GPT-5的思維過程可見,它嘗試分析3D結(jié)構(gòu):

然鵝,它錯(cuò)誤地認(rèn)為"Option A correctly shows green above orange",而實(shí)際上在正確答案B中,綠色方塊應(yīng)位于L形結(jié)構(gòu)的頂部角落。
這一錯(cuò)誤表明GPT-5未能正確理解立方體堆疊的空間約束——它無法在心理上模擬3D結(jié)構(gòu)的投影變換,僅能進(jìn)行表面的模式匹配。這種根本性局限揭示了模型缺乏真正的3D心智模型構(gòu)建能力,無法在腦海中進(jìn)行動(dòng)態(tài)的空間操作。
PT6:視角轉(zhuǎn)換的根本局限

PT6:GPT-5在視角轉(zhuǎn)換任務(wù)中的失敗案例-誤判相機(jī)移動(dòng)方向
在這一任務(wù)中,模型需要根據(jù)視頻前后幀判斷相機(jī)運(yùn)動(dòng)方向。
人類能輕松看出相機(jī)向左移動(dòng),但GPT-5判斷為向右。從其思維過程可見:"In the first image, we see more of the label's left side and a small circle '72'. In the second image, the front label ('每益添') faces more towards us. This suggests the camera moved clockwise to the right, revealing more of the bottle's front."

GPT-5錯(cuò)誤地將物體在圖像中的相對(duì)位置變化解讀為相機(jī)向右移動(dòng),而實(shí)際上相機(jī)向左移動(dòng)會(huì)導(dǎo)致右側(cè)物體更突出。這與人類的空間推理能力形成鮮明對(duì)比——人類能直觀理解視角變化與物體空間位置的關(guān)系。
DA7/8:形變與裝配的認(rèn)知斷層

DA7/8:GPT-5在形變與裝配任務(wù)中的失敗案例-折紙與結(jié)構(gòu)組裝
在"將2D形狀折疊成3D立方體"(DA7)和"旋轉(zhuǎn)并組合3D結(jié)構(gòu)"(DA8)任務(wù)中,GPT-5均表現(xiàn)不佳。這些任務(wù)要求模型理解形狀的變形和結(jié)構(gòu)關(guān)系,但模型似乎無法在心理上模擬這一過程。
在DA7任務(wù)中,GPT-5選擇Image 2而非正確的Image 4。從思維過程可見,它嘗試分析折疊過程:"The correct option is the one where the triangle is not mirrored across the pivot edge."

然而,它未能正確理解展開圖中各面的空間對(duì)應(yīng)關(guān)系,特別是忽略了立方體折疊時(shí)相鄰面的約束條件。
在DA8任務(wù)中,GPT-5錯(cuò)誤地認(rèn)為"Which of A, B, C is possible to be built when rotating and combining the two 3D structure in image 1? Answer: B",而正確答案是C。

這表明模型缺乏對(duì)剛體變換和結(jié)構(gòu)約束的深層理解,無法正確模擬3D結(jié)構(gòu)的組合過程。
這些失敗共同揭示了一個(gè)核心問題:當(dāng)前MLLMs的根本局限在于無法構(gòu)建和操作持久的3D心智模型。雖然它們?cè)谀J阶R(shí)別和符號(hào)推理方面表現(xiàn)出色,但缺乏人類空間智能所具有的動(dòng)態(tài)空間模擬能力。 這種能力缺失使它們?cè)谛枰呱砘J(rèn)知的任務(wù)上表現(xiàn)不佳,而這些任務(wù)對(duì)人類來說往往是直覺性的。
CR9:綜合推理的短板

CR9:GPT-5在綜合推理任務(wù)中的失敗案例-無法推斷被遮擋方塊
在計(jì)算部分被遮擋物體數(shù)量的任務(wù)中,GPT-5能識(shí)別可見方塊,但無法推斷被遮擋方塊的存在。人類能通過空間推理推斷出總共8個(gè)方塊,而GPT-5只識(shí)別出9個(gè)可見方塊(實(shí)際應(yīng)為8個(gè),GT標(biāo)注為8)。
從GPT-5的思維過程可見,它能夠描述可見結(jié)構(gòu):"I can see nine cubes in the image..."但它未能進(jìn)一步推理被遮擋部分:"I cannot see any cubes behind the visible ones."

這種局限性表明模型在多階段空間推理、擴(kuò)展記憶和邏輯推導(dǎo)方面存在根本缺陷,特別是在需要構(gòu)建完整3D場(chǎng)景表示的任務(wù)上。 這解釋了為什么GPT-5在CR9任務(wù)中能夠識(shí)別可見方塊,卻無法推斷被遮擋方塊的存在——它缺乏構(gòu)建完整3D場(chǎng)景表示的能力。
值得注意的是,當(dāng)提供視覺模擬(VSim)時(shí),GPT-5在STARE的Cube Net任務(wù)上表現(xiàn)顯著提升(從47.06分提升至88.89分)。這表明適當(dāng)?shù)囊曈X輔助能有效彌補(bǔ)模型的空間推理缺陷,也暗示了未來改進(jìn)方向:結(jié)合更強(qiáng)的視覺表示與空間推理能力。
總結(jié):從評(píng)估到進(jìn)化
研究清晰地展示出GPT-5在空間智能領(lǐng)域的全景:在MM(度量測(cè)量)和SR(空間關(guān)系)任務(wù)上,它已接近甚至超越人類水平;但在MR(心理重構(gòu))、PT(視角轉(zhuǎn)換)、DA(形變與裝配)和CR(綜合推理)這四項(xiàng)核心能力上,與人類表現(xiàn)仍有顯著差距,特別是在MMSI和SpatialViz等高挑戰(zhàn)性基準(zhǔn)上。
尤為關(guān)鍵的是,研究揭示了"任務(wù)難度決定優(yōu)勢(shì)格局"的現(xiàn)象——在最困難的空間任務(wù)上,閉源模型并未展現(xiàn)出決定性優(yōu)勢(shì),這為開源社區(qū)提供了平等的突破機(jī)會(huì)。
表14 GPT-5在SpatialViz基準(zhǔn)上的表現(xiàn)與人類差距
上表:GPT-5在SpatialViz基準(zhǔn)上的表現(xiàn),展示了其在心理重構(gòu)(MR)、形變與裝配(DA)等關(guān)鍵空間能力上與人類的巨大差距,特別是在復(fù)雜任務(wù)如Mental Folding(人類90.00分 vs GPT-5 28.75分)上。
簡而言之,GPT-5在空間智能方面的真實(shí)表現(xiàn)可以總結(jié)為:
- 它在基礎(chǔ)測(cè)量任務(wù)上表現(xiàn)出色,甚至在某些MM任務(wù)上超越人類,表明其已獲得強(qiáng)大的幾何先驗(yàn)知識(shí)
- 但在需要構(gòu)建3D心智模型的核心任務(wù)上,它仍然落后,特別是在心理重構(gòu)、視角轉(zhuǎn)換、形變與裝配和綜合推理方面
- 任務(wù)難度決定了模型優(yōu)勢(shì):在簡單任務(wù)上GPT-5領(lǐng)先明顯,但在最具挑戰(zhàn)性的任務(wù)上,所有模型都面臨相似的局限
- 推理深度需要平衡:過度思考反而導(dǎo)致性能下降,揭示了當(dāng)前架構(gòu)在執(zhí)行長程空間推理時(shí)的穩(wěn)定性缺陷
這一研究揭示了空間智能領(lǐng)域的幾個(gè)關(guān)鍵點(diǎn):
空間智能的根本瓶頸是領(lǐng)域共性難題,而非簡單的資源或數(shù)據(jù)壁壘。研究發(fā)現(xiàn),在復(fù)雜的語音識(shí)別(SI)任務(wù)中,專有模型并沒有顯示出比開源模型顯著的優(yōu)勢(shì)。這一發(fā)現(xiàn)可能重塑空間智能研究的格局。在MMSI、OmniSpatial、STARE和SpatialViz等最具挑戰(zhàn)性的基準(zhǔn)上,所有先進(jìn)模型都面臨相似的局限。
任務(wù)難度決定了模型優(yōu)勢(shì)格局。在低難度任務(wù)上,閉源模型優(yōu)勢(shì)明顯;但在高難度任務(wù)上,所有模型都面臨根本性挑戰(zhàn)。這一發(fā)現(xiàn)提示我們,空間智能可能需要超越當(dāng)前MLLM架構(gòu)的特定能力,如真正的3D心智模型構(gòu)建。
推理深度與穩(wěn)定性需要平衡。GPT-5的消融研究表明,適度的推理能提升性能,但過度推理反而導(dǎo)致穩(wěn)定性下降。這對(duì)未來模型設(shè)計(jì)具有重要啟示:空間推理不僅需要深度思考,還需要優(yōu)化推理過程的效率和可靠性。
基于這些發(fā)現(xiàn),未來:
開發(fā)顯式3D心智模型表示:未來研究應(yīng)致力于在MLLMs中開發(fā)顯式的3D心智模型表示,使模型能夠構(gòu)建和操作物理世界的內(nèi)部表征。這需要突破當(dāng)前架構(gòu)的限制,實(shí)現(xiàn)真正的3D空間表征能力。
設(shè)計(jì)針對(duì)性訓(xùn)練目標(biāo):應(yīng)設(shè)計(jì)專門針對(duì)空間推理能力的訓(xùn)練目標(biāo),而非依賴通用多模態(tài)訓(xùn)練。這可能包括空間關(guān)系預(yù)測(cè)、視角轉(zhuǎn)換任務(wù)和3D結(jié)構(gòu)重建等特定任務(wù)。研究表明,通用訓(xùn)練不足以發(fā)展出強(qiáng)大的空間推理能力。
整合基于物理的模擬:將基于物理的模擬與空間推理相結(jié)合顯示出巨大潛力。研究已證明,當(dāng)提供視覺模擬輸入時(shí),GPT-5在Cube Net任務(wù)上的表現(xiàn)顯著提升(從47.06分提升至88.89分),這為未來研究指明了方向。物理模擬可以作為模型空間推理的"外掛",彌補(bǔ)其內(nèi)在能力的不足。
采納標(biāo)準(zhǔn)化評(píng)估:研究提出的六維能力框架和公平評(píng)估協(xié)議為領(lǐng)域提供了重要基礎(chǔ)。采納這些標(biāo)準(zhǔn)將促進(jìn)可比、可復(fù)現(xiàn)和累積性的研究進(jìn)展,避免"基準(zhǔn)過擬合"問題。未來研究應(yīng)關(guān)注任務(wù)難度的梯度設(shè)計(jì),區(qū)分基礎(chǔ)能力和高級(jí)能力。
這項(xiàng)研究的發(fā)現(xiàn)為不同領(lǐng)域的實(shí)踐者提供了清晰的指引。對(duì)于AI研究者,GPT-5在復(fù)雜空間任務(wù)上的局限表明,單純擴(kuò)大模型規(guī)模已接近瓶頸,未來的關(guān)鍵在于讓模型具備構(gòu)建和操作3D心智模型的能力。對(duì)開源社區(qū)而言,研究發(fā)現(xiàn)頂尖模型在最難任務(wù)上差距不大,這意味著開源項(xiàng)目在空間智能的前沿探索中擁有與閉源模型同等的機(jī)遇,創(chuàng)新和協(xié)作可能成為突破的關(guān)鍵。對(duì)于應(yīng)用開發(fā)者,研究提醒我們,在機(jī)器人或AR/VR等依賴空間理解的場(chǎng)景中,不應(yīng)完全依賴模型的推理能力;引入視覺輔助或簡化任務(wù)流程是當(dāng)前更可靠的解決方案。對(duì)于所有關(guān)注AI進(jìn)展的人,理解AI在基礎(chǔ)空間任務(wù)上的這些根本性局限,有助于我們更客觀地看待其能力,避免被過度宣傳所誤導(dǎo),從而更理性地評(píng)估技術(shù)發(fā)展的現(xiàn)狀與未來。
空間智能作為通往AGI道路上的關(guān)鍵瓶頸。沒有強(qiáng)大的空間理解能力,AI系統(tǒng)將僅限于符號(hào)操作,而無法真正理解物理世界。這項(xiàng)研究最大的價(jià)值,在于清晰揭示了AI空間認(rèn)知的"卡殼點(diǎn)":GPT-5能解復(fù)雜的數(shù)學(xué)題,卻搞不定一張折紙;能寫文章、編代碼,卻數(shù)不清被遮擋的方塊。這種反差表明,AI智能并非單一維度,而是由多個(gè)能力模塊組成的拼圖。當(dāng)前AI在語言和知識(shí)領(lǐng)域已堆砌得很高,但空間認(rèn)知能力仍顯薄弱。
問題的核心在于:當(dāng)前MLLM的根本局限是無法構(gòu)建和操作持久的3D心智模型。雖然它們?cè)谀J阶R(shí)別和符號(hào)推理方面表現(xiàn)出色,但缺乏人類空間智能所具有的動(dòng)態(tài)空間模擬能力。它們更像是"猜"答案而非"想"出答案,沒有能在腦海中反復(fù)操作、推演的"3D小模型"。
然而,這一局限也帶來了希望:當(dāng)任務(wù)難度達(dá)到最高時(shí),閉源與開源模型的差距顯著縮小,所有模型都面臨相似的挑戰(zhàn)。這表明空間智能的突破不在于算力堆砌,而在于創(chuàng)新性的架構(gòu)設(shè)計(jì)。這為研究社區(qū)提供了公平的競技場(chǎng),無論資源多寡,都有機(jī)會(huì)在這一關(guān)鍵領(lǐng)域取得突破。
未來的突破點(diǎn)可能在于三個(gè)方向:開發(fā)顯式的3D心智模型表示、設(shè)計(jì)專門針對(duì)空間推理的訓(xùn)練目標(biāo),以及整合基于物理的模擬。特別是當(dāng)視覺模擬與空間推理結(jié)合時(shí)展現(xiàn)出的巨大潛力(如Cube Net任務(wù)中從47.06分提升至88.89分),提示我們物理模擬可作為彌補(bǔ)模型內(nèi)在能力不足的有效"外掛"。
當(dāng)AI能夠像人類一樣自然地理解并推理物理空間時(shí),它將不再僅僅是信息處理工具,而成為能在現(xiàn)實(shí)世界中自如行動(dòng)的智能伙伴。跨越空間智能這一關(guān)鍵障礙,或許是通往真正AGI的必經(jīng)之路。這項(xiàng)研究不僅評(píng)估了當(dāng)前技術(shù)的邊界,更為未來研究鋪設(shè)了道路——當(dāng)AI能夠真正理解并推理物理世界時(shí),它將開啟人機(jī)協(xié)作的新時(shí)代。





































