GPT-5空間智能評估:SOTA表現與人類水平差距分析
論文(Has GPT-5 Achieved Spatial Intelligence? An Empirical Study)為多模態模型提出了空間智能(SI)的統一視角,并在八個全新的SI基準測試中評估了GPT-5及其他強基線模型。GPT-5在整體表現上領先,但仍未達到人類水平,特別是在心理重構形狀、變換視角以及變形/組裝任務方面存在明顯不足。
圖片
統一的SI框架與公平評估設置:論文將先前工作整合為六項核心SI能力(度量測量、心理重構、空間關系、視角轉換、變形與組裝、綜合推理),并標準化了提示詞、答案提取和評估指標,以減少不同數據集間的評估差異。
圖片
大規?;鶞蕼y試,算力消耗巨大:論文采用了八個最新基準測試(如VSI-Bench、SITE、MMSI、OmniSpatial、MindCube、STARE、CoreCognition、SpatialViz),使用統一協議;結果反映了超過10億token的評估流量。
GPT-5創下最佳記錄,但未達人類級SI水平: GPT-5在綜合得分上位居榜首,在度量測量和空間關系任務上有時能達到人類水準,但在心理重構、視角轉換、變形與組裝以及多階段綜合推理方面仍存在顯著差距。
圖片
思考模式: "在高級模式下,28個問題超過了15分鐘時限或達到token限制,被計為錯誤,準確率為52.54%;排除這些情況后準確率為68.89%。"高級模式可能帶來更好結果,但我理解token限制的問題。
圖片
困難SI任務縮小了閉源與開源模型間的差距: 雖然專有模型平均表現更優,但在最困難的SI類別上其優勢消失;多個開源系統表現相似,在心理重構/視角轉換/變形組裝/綜合推理方面都遠未達到人類能力。非SI部分(如CoreCognition的形式運算)可以接近人類水平。
定性分析揭示失效模式: 案例研究顯示,新視角生成存在提示敏感性,在透視效果和尺寸恒常性方面有盲點,在紙張折疊/組裝任務上持續失敗,以及在計數過程中難以推斷被遮擋物體等問題。
本文轉載自????????????AI帝國????????????,作者:無影寺

















