讓具身智能體擁有「空間感」!清華、北航聯合提出類腦空間認知框架,導航、推理、做早餐樣樣精通
想象一下這樣的早晨:
你還在被窩里,你的機器人管家已經在廚房里忙碌了起來:它熟練地導航到燕麥罐、可可球、牛奶,逐一抓取并添加到碗中,最后,它將一碗搭配好的營養早餐送到你的面前,整個過程行云流水,無需任何人工干預。



BSC-Nav 在真實環境中執行「制作早餐」的移動操作任務
這并非科幻片中的橋段,而是來自清華大學與北京航空航天大學團隊的最新成果——BSC-Nav 的真實演示。通過模仿生物大腦構建、維護空間記憶的原理,研究團隊讓智能體擁有了前所未有的「空間感」。

- 論文標題:From reactive to cognitive: brain-inspired spatial intelligence for embodied agents
- arxiv 地址:https://arxiv.org/abs/2508.17198
- 項目地址:https://github.com/Heathcliff-saku/BSC-Nav
這項工作發布后,立刻引起了業界的關注。有同行評價道:「BSC-Nav 證明了它學習和適應不同環境的強大能力,這可能引領我們邁向更智能的導航機器人時代。」

BSC-Nav(Brain-inspired Spatial Cognition for Navigation)是首個受生物大腦空間認知機制啟發的統一框架。它不僅賦予了智能體卓越的通用導航能力,還使其能夠完成主動具身問答、復雜移動操作等更高階的空間感知與交互任務。
當前,以多模態大模型(MLLMs)為代表的基座模型幾乎無所不能,我們距離通用人工智能(AGI)還有多遠?一個公認的瓶頸在于:如何讓 AI 走出虛擬世界,在復雜的物理環境中理解、記憶并與世界高效交互——即實現真正的具身智能。
然而,目前大多數由大模型驅動的具身智能體,更像一條「記憶只有七秒的魚」。它們主要依賴即時觀察做出反應,缺乏對環境長期、結構化的記憶。這導致它們在真實、動態的環境中泛化能力差。
為了攻克這一核心難題,BSC-Nav 團隊從認知神經科學中汲取靈感,為具身智能體量身打造了一個結構化的空間記憶系統,并與最前沿的基座模型深度融合,讓 AI 從此告別「路癡」,擁有了強大的空間認知能力。
具身智能體的記憶碎片化挑戰
現有的具身智能導航方法為何難以形成有效的空間記憶?主要存在兩類困境:
- 端到端策略的「記憶固化」:基于強化學習或模仿學習訓練的導航策略,其模型參數在訓練完成后便固定不變。這使得它們高度依賴訓練數據的分布,一旦進入未見的真實環境,便如同刻舟求劍,難以泛化到復雜和動態的環境,更無法在新的探索中積累和更新空間記憶。
- 模塊化策略的「記憶短視」:另一類主流的導航方法采用層次化策略,通常由多模態大模型進行上層規劃(如規劃導航子目標),再由啟發式算法執行動作規劃。然而,這些方法的空間記憶要么是「即時性」的(僅依賴當前觀測),要么是「淺表性」的(如靜態的語義地圖或抽象拓撲圖),不僅表征能力有限,更缺乏有效的更新機制,無法應對真實世界的復雜場景和動態變化。
究其根本,這些挑戰都指向同一個核心問題:如何為智能體植入一個能夠持續構建、動態更新的強大空間記憶系統。這正是 BSC-Nav 驅動多模態大模型在具身環境中,完成從「被動反應」到「主動認知」這一關鍵躍遷的基石。
解鎖 BSC-Nav 的技術核心:三大「記憶組件」復刻人類空間認知
我們之所以能在復雜的環境中穿梭自如,依靠的并非是超強的「大腦算力」,而在于我們與生俱來的一套高效且靈活的空間認知系統。神經科學研究早已表明,生物大腦主要依賴三種相互關聯的空間知識形成穩健的空間認知:
- 地標知識(Landmarks):記住環境中顯著的物體,比如「街角的花店」、「桌面上的星巴克咖啡杯」。
- 路線知識(Route knowledge):記住連接地標的移動軌跡,比如「從花店直走,到紅綠燈右轉」。
- 勘測知識(Survey knowledge):在大腦中形成一張類似地圖的全局認知,使我們能夠規劃捷徑或繞行。
BSC-Nav 框架巧妙地將這一生物學原理進行了計算化實現,其核心是三個協同工作的模塊:

圖:BSC-Nav 從生物空間認知汲取靈感(a),構建結構化空間記憶和檢索機制(b),并與多模態大模型結合進行導航規劃)
- 地標記憶模塊(Landmark Memory Module):該模塊采用開放詞匯檢測器(YOLO-World)識別環境中的顯著物體(如沙發、桌子),并記錄物體的類別標簽、置信度、投影后的空間位置,形成稀疏而高效的「地標」記憶。同時,在每次記錄后都會進行坐標重合檢測與地標合并,確保每個記錄的物體對應環境中的唯一實例。
- 認知地圖模塊(Cognitive Map Module):這個模塊更進一步,通過 DINO-V2 實時編碼觀測圖像的 patch 特征,并投影至統一的體素化網格空間中,每個網格都具有特征緩存池以容納來自不同視角、不同時期觀測的視覺特征。它將智能體的路徑觀測(路線知識)轉化為全局一致的「認知地圖」(勘測知識)。該模塊采取了「意外驅動」(surprise-driven)的策略。這意味著只有當觀察到的新信息與現有記憶產生足夠大的「意外」或偏差時,系統才會更新認知地圖。這種機制極大地提升了記憶效率,避免了對重復信息的冗余存儲
- 工作記憶模塊(Working Memory Module):這一模塊實現了人腦視覺-空間工作記憶的功能,用于檢索、重構與具體任務相關的空間記憶。當接到任務時(比如「去冰箱拿瓶牛奶」),工作記憶模塊會根據指令的復雜程度,決定是從「地標記憶」中快速檢索,還是在「認知地圖」上進行更復雜的規劃。模塊中設計了「聯想增強」(association-enhanced)的檢索策略。對于模糊指令,比如「去那個放著藍色古典茶壺的桌子」,即使從未精確記錄過「藍色古典茶壺」,系統也能通過多模態大模型豐富指令細節,并依賴圖像生成「腦補」出目標的視覺特征,再將其與認知地圖中的視覺信息進行匹配,從而實現精準定位。這賦予了智能體前所未有的推理和與泛化能力。

圖:工作記憶對不同模態、不同復雜度的目標進行空間位置進行精確定位
碾壓式性能提升:多項導航任務刷新紀錄
為了全面驗證 BSC-Nav 的能力,研究團隊在 Habitat 物理仿真環境中,針對四大主流導航任務(目標導航、開放詞匯導航、文本實例導航、圖像實例導航)進行了覆蓋 62 個場景、多達 8195 個導航片段的大規模實驗。
結果顯示,BSC-Nav 的性能實現了「碾壓式」的超越,在各項任務中均超越了以往方法。

圖:BSC-Nav 在物體導航、開放詞匯導航、文本實例導航和圖像實例導航四大基準均實現新的 SOTA
如上圖所示,無論是在導航成功率(SR)還是路徑效率(SPL)上,BSC-Nav 均顯著優于當前領域的頂尖方法。它不僅「找得到」,還「走得快」。例如,在物體導航(OGN)任務中,BSC-Nav 在 HM3D 數據集上的成功率高達 78.5%,比此前的 SOTA 方法 UniGoal 高出整整 24.0%。在更具挑戰性的文本實例導航(TIN)任務中,BSC-Nav 更是將成功率提升了近一倍,展現了其強大的多模態理解與定位能力。
更進一步:輕松拿捏復雜導航指令與燒腦提問
強大的空間記憶與多模態大模型的深度融合,賦予了智能體一個能夠推理并執行復雜任務的「超級大腦」。它不再只是被動執行單點指令,而是能夠理解并拆解長序列任務,甚至能主動探索環境,回答具有空間邏輯的「燒腦」難題。
面對「穿過玻璃門,從沙發和咖啡桌中間走過去,走到冰箱那,然后右轉停在樓梯口」這樣的長指令,多模態大模型能夠智能地將其分解為一系列清晰的子目標(路標點),隨后 BSC-Nav 便能像執行多站點任務一樣,精準地依次抵達。在權威的長指令導航基準 VLN-CE R2R 中,BSC-Nav 的零樣本(zero-shot)表現已非常接近需要大量監督數據訓練的頂尖模型,且導航效率(SPL 53.1%)遠超所有對手!

圖:BSC-Nav 針對復雜指令下的視覺語言導航任務表現出色
更令人印象深刻的是,當被問及「樓上那四幅畫下面是什么?」這類需要主動探索和空間推理的問題時,BSC-Nav 能夠準確解析問題中的關鍵實體「四幅畫」,主動導航至二樓相應位置,通過仔細觀察找到答案,并給出「四幅畫下面是一個散熱器」的精準回答。在主動具身問答(A-EQA)基準上,BSC-Nav 的表現顯著超越了所有基線方法。

圖:BSC-Nav 在主動視覺問答基準上的表現超越現有基線方法
從理解長指令到主動回答空間問題,BSC-Nav 展現了從「感知」到「認知」的質的飛躍。它不僅知道「去哪里」,更理解「為什么去」以及「去了之后做什么」,這正是通往通用人工智能所需要的、真正的認知智能。
走向現實:真機實測,導航、移動操作信手拈來!
仿真中的優異表現,能否遷移到充滿不確定性的真實世界?這是所有具身智能研究者最為關心的問題,BSC-Nav 給出了肯定的答案!
為了研究在真實環境下的性能,研究團隊和松靈機器人團隊專門打造了一臺集感知、導航和操作于一體的移動機器人平臺,并在一個面積約 200 平方米的雙層真實室內環境中,對 BSC-Nav 進行了嚴苛的實地測試。

實驗結果再次證明了 BSC-Nav 的強大泛化性。無論是根據簡單的物體名稱、復雜的文本描述,還是模糊的參考圖片進行導航,機器人都能精準、高效地到達目的地。在 15 個不同目標的 75 次隨機起點測試中,BSC-Nav 實現了高達 80% 以上的導航成功率(任務成功定義為最終停止位置距離目標小于 1 米)。




此外,得益于其強大的空間認知能力,BSC-Nav 能夠無縫銜接復雜的移動操作任務。在演示中,機器人不僅能完成清理桌面、搬運餅干盒等任務,還能執行開篇提到的、包含三次導航和三次操作的「制作早餐」任務。


One More Thing
這項研究最大的啟示是什么?
具身智能的進化,或許并不完全依賴于算力和參數的無限堆砌。
生物億萬年的演化已經向我們展示了足夠強大和高效的智能范式。正如團隊在論文中所寫道的:
「從被動響應到主動認知,BSC-Nav 證明了一件事:讓機器理解空間,記憶是關鍵(From reactive behavior to cognitive spatial intelligence, memory is the key)。」
下一步?團隊計劃將這套類腦記憶框架擴展到更動態的環境和更復雜的認知任務中。
也許在不久的將來,當機器人管家為你做早餐時,它不僅能找到食材,還能記住你昨天說過的「明天我想試試溏心蛋」。
畢竟,是記憶,讓智能成為真正的智能。
團隊介紹

該工作有兩位共同一作,其中一位是來自于北京航空航天大學人工智能研究院的三年級直博生阮受煒,他同時是清華大學 TSAIL 課題組訪問博士生,師從韋星星教授、蘇航教授。研究方向為深度學習魯棒性、多模態大模型與空間智能。此前在 IEEE TPAMI、ICCV、ECCV 發表論文 10 余篇,曾獲國家獎學金、西電特等獎學金榮譽。

另一位是來自于清華大學心理與認知科學系的助理教授王立元,他先前是清華大學 TSAIL 課題組的博士生和博士后。研究興趣包括持續學習、終身學習和類腦智能,研究成果以第一/通訊作者發表在 Nature Machine Intelligence、IEEE TPAMI、NeurIPS、ICLR、CVPR、ICCV 等期刊和會議,曾獲 CAAI 清源學者、WAIC 云帆獎、WAIC 青年優秀論文獎等榮譽。
團隊成員來自于北京航空航天大學和清華大學:阮受煒,王立元(指導老師),康彩新,朱淇惠,劉松銘,韋星星(指導老師,通訊作者),蘇航(指導老師,通訊作者)。































