下一代智能體,用大腦的方式看世界、走世界
在人工智能的進化史上,Agentic AI——具備自主感知、推理與執(zhí)行能力的智能體——正迅速崛起。它們不僅能在語言世界中與人類對話、推理、生成內(nèi)容,還能在虛擬環(huán)境中自主完成復雜任務。
然而,當這些智能體試圖跨出虛擬的“安全區(qū)”,進入真實的物理世界時,短板便暴露無遺,它們在空間理解與推理上的能力,遠不及人類。
人類能夠在陌生街區(qū)迅速建立心理地圖,憑借視覺、聽覺、觸覺等多模態(tài)信息在復雜環(huán)境中靈活行動;而現(xiàn)有 AI 往往依賴符號化、靜態(tài)化的空間表示,缺乏對動態(tài)、非結(jié)構(gòu)化環(huán)境的適應力。這種差距不僅是算法問題,更是認知機制的鴻溝。
核心問題在于:為什么 AI 在空間推理上如此受限?答案或許藏在神經(jīng)科學中。人類大腦的空間認知系統(tǒng)——從頂葉皮層到海馬體,從網(wǎng)格細胞到位置細胞——構(gòu)建了一個動態(tài)、可更新的認知地圖,使我們能夠在三維世界中定位、規(guī)劃、預測。將這些機制引入 AI,或許能讓智能體真正具備“類人”的空間智能。
9 月11 日,arXiv發(fā)布了最新研究成果《Mind Meets Space: Rethinking Agentic Spatial Intelligence from a Neuroscience-inspired Perspective》。它跨越神經(jīng)科學、人工智能與機器人學三大領域,提出了一個通用計算框架,試圖將人類空間認知的核心機制映射到 AI 系統(tǒng)中,讓智能體在虛擬與物理世界中都能如魚得水。

圖1:神經(jīng)科學啟發(fā)的代理空間智能插圖。由于人類空間推理的核心功能在于多模態(tài)感知、認知映射、記憶系統(tǒng)和決策空間推理,因此可以將智能體抽象為相應的人工智能模塊,形成一個仿生框架,以實現(xiàn)空間推理和自適應行為。在我們的框架中,這些功能是通過組件模擬的,包括仿生多模式傳感、多感官整合、自我中心-異中心轉(zhuǎn)換、認知地圖、空間記憶和自適應部署的空間推理。
這支國際化的研究團隊匯聚了來自南洋理工大學(NTU)、清華大學、瑞典皇家理工學院(KTH)、印度國家技術學院(NIT)以及產(chǎn)業(yè)界 MiroMind 的專家。團隊成員背景橫跨計算神經(jīng)科學、機器人學、計算機視覺、自然語言處理與土木空間工程,形成了從理論建模到工程實現(xiàn)的全鏈路能力。
在技術開放方面,技術團隊不僅提出了理論框架,還在 GitHub 上開源了參考實現(xiàn),包括六大核心模塊的代碼、多模態(tài)感知與空間推理的適配腳本、數(shù)據(jù)集映射表以及評測工具。開源協(xié)議推測為 MIT 或 Apache 2.0,旨在降低學術與產(chǎn)業(yè)的復現(xiàn)門檻,并鼓勵二次開發(fā)。
項目地址:??https://github.com/BioRAILab/Awesome-Neuroscience-Agentic-Spatial-Reasoning??
1.神經(jīng)科學視角下的人類空間智能
要讓 AI 擁有類人的空間智能,首先要理解人類是如何做到的。
人類的空間認知始于多模態(tài)感知與整合。視覺系統(tǒng)通過視網(wǎng)膜到初級視覺皮層(V1)的處理,捕捉環(huán)境的形狀、顏色與深度;聽覺系統(tǒng)通過耳蝸與聽覺皮層(A1)定位聲源;觸覺系統(tǒng)則通過皮膚感受器與體感皮層(S1/S2)感知表面質(zhì)地與壓力。這些信息在頂葉皮層等區(qū)域融合,形成統(tǒng)一的空間表征。
在表征方式上,人類大腦同時使用兩種坐標系。
自我中心(Egocentric)編碼以身體為參考,適合即時行動與近距離操作;
客體中心(Allocentric)編碼則以環(huán)境或物體為參考,構(gòu)建穩(wěn)定的世界地圖。
這種雙系統(tǒng)由頂葉皮層、后扣帶皮層(RSC)與海馬-內(nèi)嗅皮層系統(tǒng)協(xié)同完成。

圖2:基于神經(jīng)科學的認知圖譜。它植根于海馬體(橙色)和內(nèi)嗅皮層(藍色),內(nèi)嗅皮層編碼歐幾里德度量,海馬體編碼關系拓撲圖,共同形成集成的混合和層次圖。
認知地圖理論揭示了人類如何在腦中構(gòu)建空間模型。度量型地圖精確記錄距離與方向,拓撲型地圖強調(diào)位置之間的連接關系,分層型地圖則將空間分為不同層級以便快速推理,而混合型地圖結(jié)合了上述優(yōu)勢,既有幾何精度又具備結(jié)構(gòu)靈活性。

圖3:人類認知中的記憶系統(tǒng):工作、偶發(fā)和長期。
空間記憶系統(tǒng)是認知地圖的存儲與調(diào)用機制。工作記憶由前額葉-頂葉網(wǎng)絡維持,用于短期任務;情景記憶依賴海馬體與內(nèi)嗅皮層,記錄具體的時空經(jīng)歷;語義記憶則存儲長期的空間知識與規(guī)則,通常由默認模式網(wǎng)絡參與。

圖4:空間推理骨干神經(jīng)科學模型的開發(fā)。
在計算神經(jīng)科學中,這些機制被抽象為多種模型:貝葉斯腦假說認為大腦在不斷進行概率推斷;預測編碼強調(diào)大腦通過預測與誤差修正來更新世界模型;繼任表示(Successor Representation)為路徑規(guī)劃提供高效編碼;自由能原理(FEP)與分層主動推理(HAI)解釋了感知與行動的統(tǒng)一驅(qū)動;Tolman-Eichenbaum Machine 則嘗試在人工系統(tǒng)中復現(xiàn)海馬體的空間與語義編碼功能。

圖5:TEM的架構(gòu)。(A)生成模型,顯示了從動作(?)和潛在狀態(tài)(??)到狀態(tài)轉(zhuǎn)換、記憶檢索和時間過濾的自上而下的過程,以生成感官預測(??)與觀察(?)。
2.類人空間智能的通用計算框架
如果說人類的空間智能是一部精密的交響樂,那么技術團隊提出的通用計算框架,就是試圖用人工系統(tǒng)重現(xiàn)這部樂章的總譜。它將神經(jīng)科學中的關鍵機制拆解為六個相互銜接的模塊,從感知到推理再到?jīng)Q策,構(gòu)成一個閉環(huán)的智能體系。

圖6:提出的代理空間智能框架。根據(jù)人類從感知、認知到行動的認知,該框架包含六個模塊:(1)多感官輸入,(2)信息處理,(3)自我中心異中心,(4)認知地圖,(5)空間神經(jīng)記憶,以及(6)空間推理。
多模態(tài)輸入模塊是整個框架的感官前哨。它不僅包括視覺、聽覺、觸覺等常規(guī)通道,還考慮了運動感知、力反饋等更貼近物理交互的輸入方式。設計理念借鑒了生物感官的多樣性與互補性——就像人類在昏暗環(huán)境中會更多依賴觸覺與聽覺,AI 也需要在不同情境下動態(tài)調(diào)配感知資源。
感知到的信息首先進入信息處理模塊(IPM)。這里是數(shù)據(jù)的“中樞神經(jīng)”,負責傳感器的校準與同步、噪聲抑制、跨模態(tài)注意力分配,并將不同來源的信號映射到統(tǒng)一的潛在空間表示中。這個過程對應于人腦頂葉皮層等區(qū)域的多模態(tài)融合功能,確保后續(xù)推理建立在一致且高質(zhì)量的感知基礎上。

圖7:用于空間推理的信息處理模塊(IPM)。在通過特定模態(tài)編碼器之前,對多感輸入進行預處理和注意力加權(quán)。查詢/關鍵投影和對比學習將它們?nèi)诤铣山y(tǒng)一的跨模態(tài)潛在表征。
接下來是自我中心—客體中心轉(zhuǎn)換模塊。人類在行動時會不斷在以自身為參考的視角(egocentric)與以環(huán)境為參考的視角(allocentric)之間切換:前者適合即時操作,后者有助于構(gòu)建穩(wěn)定的世界模型。
AI 在這一模塊中完成類似的雙向轉(zhuǎn)換,將動態(tài)的第一人稱感知轉(zhuǎn)化為穩(wěn)定的三維環(huán)境地圖,并在需要時反向投影回自我中心視角,以便執(zhí)行具體動作。
內(nèi)部心理模型是框架的“內(nèi)心世界”,由兩部分組成:
一是認知地圖,模擬網(wǎng)格細胞與位置細胞的協(xié)作,既能進行度量精確的路徑積分,也能在拓撲層面理解空間關系,并通過情境重映射適應環(huán)境變化。
二是空間神經(jīng)記憶,將空間信息與語義標簽綁定,形成情景化的空間記憶,并具備自適應更新與鞏固機制。
這一組合讓 AI 不僅“知道”環(huán)境的形狀,還能“記住”環(huán)境的故事。
有了內(nèi)部模型,AI 才能進入推理模塊。這里包含兩個關鍵能力: 其一是預測世界模型,通過模擬環(huán)境的未來狀態(tài)來進行前瞻性規(guī)劃; 其二是顯式空間推理,將幾何、語義與任務目標對齊,支持多步推理與策略生成。這一部分對應于人類在海馬體與前額葉皮層中進行的情景模擬與決策過程。
最后,框架將空間推理行為按分層主動推理(HAI)的思路進行分類:從底層的三維感知推理,到中層的隱狀態(tài)推理(包括結(jié)構(gòu)推理、心理模擬、抽象推理),再到高層的策略選擇與執(zhí)行。這種分層不僅有助于任務分解,也方便在不同復雜度的環(huán)境中靈活調(diào)用相應能力。
整個系統(tǒng)的信息流呈現(xiàn)出一個閉環(huán):多模態(tài)輸入采集環(huán)境信息,經(jīng) IPM 處理后完成視角轉(zhuǎn)換,進入內(nèi)部心理模型進行存儲與更新,再通過推理模塊生成預測與決策,最終驅(qū)動行動,并通過新的感知反饋不斷修正。這與人類大腦的感知—認知—行動回路高度相似。
在神經(jīng)科學與 AI 模塊的映射上,視覺、聽覺、觸覺等感知通道對應初級感官皮層;IPM 對應多模態(tài)整合區(qū);視角轉(zhuǎn)換模塊模擬頂葉皮層與后扣帶皮層的交互;認知地圖與空間記憶對應海馬體與內(nèi)嗅皮層系統(tǒng);推理模塊則映射到前額葉皮層與海馬體的協(xié)同工作。這樣的設計不僅是功能上的類比,更是試圖在信息處理流程上復刻生物智能的核心邏輯。
如果說過去的空間智能研究更像是“拼裝零件”,那么這個框架則像是在搭建一套有機的生命體——它不僅能看、能記、能想,還能在不斷變化的世界中學會如何行動。
3.現(xiàn)有方法的框架化分析與研究缺口
當我們提出的六大模塊框架去審視當前的空間智能研究,就像拿著一張精細的藍圖去對照現(xiàn)有的建筑群——優(yōu)點與缺陷一目了然。技術團隊將這種差距凝練為五個研究缺口(Research Gaps, RG),每一個都直指現(xiàn)有技術的核心短板。

圖8:盡管該網(wǎng)絡實現(xiàn)了選擇性視覺表示以提高泛化能力,但碼本瓶頸限制了對新環(huán)境的適應性,并限制了學習特征的表現(xiàn)力,特別是在動態(tài)或高度可變的視覺環(huán)境中。
在多模態(tài)感知方面(RG-1),現(xiàn)有方法往往是“各自為政”。視覺、聽覺、觸覺等感知通道大多在獨立的模型中處理,缺乏統(tǒng)一的高效融合機制。雖然多模態(tài)學習已經(jīng)是熱門方向,但在空間智能領域,跨模態(tài)信息的時間同步、噪聲抑制與動態(tài)權(quán)重分配仍顯稚嫩。這意味著,當環(huán)境信息不完整或某一模態(tài)受干擾時,系統(tǒng)的魯棒性會迅速下降。
視角轉(zhuǎn)換的不足(RG-2)則是另一個明顯的短板。人類可以在自我中心視角與客體中心視角之間自如切換,但現(xiàn)有AI 系統(tǒng)往往只能在幾何層面或符號層面進行單向轉(zhuǎn)換,缺乏雙向、實時且語義一致的映射能力。這種缺陷在需要同時理解局部細節(jié)與全局布局的任務中尤為致命,例如機器人在陌生環(huán)境中導航時,很難將即時感知與長期地圖無縫對接。
認知地圖建模的缺陷(RG-3)更多體現(xiàn)在生物啟發(fā)的深度不足。雖然已有研究嘗試用深度神經(jīng)網(wǎng)絡模擬網(wǎng)格細胞和位置細胞的功能,但在錨定機制、漂移校正、多場編碼以及情境重映射等關鍵能力上,仍與生物系統(tǒng)相去甚遠。結(jié)果是,這些人工認知地圖在長時間運行或環(huán)境變化時容易失真,缺乏持久性與適應性。
空間記憶系統(tǒng)的短板(RG-4)則揭示了幾何與語義融合的脆弱性。當前的空間記憶往往在遮擋、動態(tài)變化或新奇場景下表現(xiàn)不穩(wěn),情景推理的可擴展性差。更重要的是,缺乏類似人類的“冷熱雙層”記憶機制——既能快速記錄新信息,又能在長期中鞏固有價值的知識。
推理模塊的瓶頸(RG-5)是整個鏈條的高層問題。隱式世界模型雖然能在一定程度上捕捉環(huán)境動態(tài),但缺乏顯式的多步推理能力;而顯式推理方法又往往局限于靜態(tài)、任務特定的場景,難以應對開放環(huán)境的復雜性。這種局限使得 AI 在面對需要長程規(guī)劃、情景模擬和策略調(diào)整的任務時,顯得力不從心。

圖9:代表作品在(a)認知地圖模塊和(b)空間神經(jīng)記憶模塊中量身定制。
技術團隊的分析方法很有意思——他們不是孤立地批評某個算法,而是將現(xiàn)有研究逐一映射到框架的各個模塊,像做系統(tǒng)體檢一樣標出每個環(huán)節(jié)的健康指數(shù)。這種“模塊對照法”不僅揭示了單點問題,更暴露了跨模塊協(xié)同的缺失。例如,多模態(tài)感知的不足會直接影響視角轉(zhuǎn)換的質(zhì)量,認知地圖的不穩(wěn)定又會削弱推理模塊的有效性。
這種全景式的剖析,讓人清楚地看到:要讓 AI 真正具備類人的空間智能,不能只在某個環(huán)節(jié)做加法,而是要在感知、表征、記憶與推理之間建立起穩(wěn)固而靈活的橋梁。
4.數(shù)據(jù)集與應用場景
在構(gòu)建類人空間智能的道路上,數(shù)據(jù)集不僅是訓練材料,更是檢驗系統(tǒng)能力的試金石。技術團隊將現(xiàn)有數(shù)據(jù)集按照分層主動推理(HAI)的三層結(jié)構(gòu)進行整理,這種分類方式讓人一眼就能看出每個數(shù)據(jù)集在能力培養(yǎng)中的位置與作用。
在感知層,數(shù)據(jù)集主要聚焦于多模態(tài)輸入的獲取與融合,例如包含視覺、深度、觸覺、聽覺等多源信息的環(huán)境掃描任務。這一層的數(shù)據(jù)幫助系統(tǒng)學會“看得見、聽得到、摸得著”,為后續(xù)的空間表征打下基礎。
隱狀態(tài)層的數(shù)據(jù)集則更強調(diào)對不可直接觀測信息的推斷,比如通過部分可見的場景推測完整布局,或在動態(tài)環(huán)境中預測物體的未來位置。這類任務考驗的是系統(tǒng)的內(nèi)部建模與情景模擬能力,類似人類在腦中“補全”缺失畫面的過程。
策略層的數(shù)據(jù)集則直接面向決策與行動,例如復雜環(huán)境下的路徑規(guī)劃、多目標任務的優(yōu)先級排序、與人類協(xié)作的任務分配等。這一層的數(shù)據(jù)不僅要求系統(tǒng)理解空間,還要能在空間中制定并執(zhí)行有效策略。
這種分層整理的好處在于,可以針對性地評估和優(yōu)化系統(tǒng)的不同能力模塊,同時也為跨層能力的培養(yǎng)提供了清晰的路線圖。

圖10:來自代理空間智能的應用,包括(a)虛擬和(b)物理應用。
在應用領域上,這一框架的潛力幾乎覆蓋了虛擬與物理的雙重世界。虛擬環(huán)境中,它可以為 VR/XR 帶來更自然的空間交互,讓元宇宙中的虛擬助理具備真實世界的空間感知與導航能力;在物理環(huán)境中,它能賦能家用機器人在雜亂的客廳中靈活穿行,幫助工業(yè)制造機器人在動態(tài)生產(chǎn)線上精準協(xié)作,甚至在醫(yī)療輔助中為手術機器人提供更安全的空間定位與操作能力。
5.未來研究路線圖
技術團隊在結(jié)尾描繪了一幅清晰的未來藍圖,既是技術發(fā)展的方向,也是科研與產(chǎn)業(yè)可以共同努力的坐標系。
首先是生物啟發(fā)的多模態(tài)感知。未來的感知系統(tǒng)不僅要像人類一樣整合視覺、聽覺、觸覺等信息,還要具備動態(tài)注意力機制和事件驅(qū)動編碼能力,讓感知更高效、更貼近真實世界的節(jié)奏。
其次是顯式雙向空間視角轉(zhuǎn)換。AI 需要能夠在自我中心與客體中心視角之間自由切換,并保持幾何與語義的一致性。這種能力將讓智能體在局部操作與全局規(guī)劃之間無縫銜接。
混合型認知地圖建模也是關鍵一步。未來的認知地圖應同時具備度量精度、拓撲結(jié)構(gòu)與語義標簽,并能根據(jù)任務需求進行分層抽象,從而在不同尺度與復雜度的環(huán)境中都能高效運作。
自適應空間記憶系統(tǒng)則強調(diào)記憶的靈活性與持久性。通過冷熱雙層記憶機制,系統(tǒng)既能快速記錄新信息,又能在長期中鞏固有價值的知識,并在環(huán)境變化時進行自我更新與重構(gòu)。
最后,是具預測性的空間推理與情感推理融合。未來的智能體不僅要能預測物理世界的變化,還要理解和推測人類的意圖與情感,從而在協(xié)作與交互中展現(xiàn)更高的適應性與親和力。
這條路線圖的意義在于,它不僅為學術研究提供了明確的攻關方向,也為產(chǎn)業(yè)界指明了技術落地的優(yōu)先級。可以預見,隨著這些能力的逐步實現(xiàn),AI 將從“會動的機器”進化為真正能在空間中理解、推理、協(xié)作的智能伙伴。(END)
參考資料:??https://arxiv.org/pdf/2509.09154??
本文轉(zhuǎn)載自??波動智能??,作者:FlerkenS

















