大語言模型空間推理能力的深度評測:基于基準測試對基數方向推理的再審視
引言:探尋非具身智能的空間認知邊界
隨著大語言模型(Large Language Models, LLMs)技術的飛速發展,其在自然語言處理、代碼生成乃至多模態交互等領域展現出的驚人能力,不斷刷新著我們對人工智能潛力的認知。然而,一個根本性的問題始終縈繞在學術界和產業界:這些在數字世界中誕生的、缺乏物理實體與真實世界交互經驗的“非具身智能”(non-embodied intelligence),是否真正獲得了類似人類的推理能力?
空間推理,作為高級智能的核心組成部分,成為了檢驗這一問題的絕佳試金石。它不僅是人類在物理世界中導航、操作和生存的基礎,更是一種高度抽象的認知能力。近期,一篇題為《再探大語言模型基數方向推理能力評測》(Evaluating the Ability of Large Language Models to Reason about Cardinal Directions, Revisited)的研究,便針對這一前沿課題展開了系統而深入的探索。該研究由利茲大學的 Anthony G Cohn 和艾倫·圖靈研究所的 Robert E Blackwell 共同完成,是對其早期工作的擴展與深化。
這項研究的核心貢獻在于,它沒有停留在對模型進行零散、隨意的測試,而是設計并實施了一個大規模、系統化、可復現的評測框架。通過這個框架,研究者們對多達 28 個當前主流及前沿的 LLM(包括新興的“大型推理模型” Large Reasoning Models, LRMs)進行了嚴格的“壓力測試”。其評測的焦點,被精確地限定在“基數方向”(Cardinal Directions, CDs)推理上——即對東、西、南、北及其組合方向的理解與運用能力。
選擇基數方向作為切入點,其背后有著深刻的考量。基數方向不僅是地圖使用、路線指引等日常導航任務的基石,還在地理學、氣象學、甚至人類文化與歷史中扮演著至關重要的角色。一個智能體若要聲稱理解了我們所處的世界,那么對基數方向的掌握無疑是其必備的基本功。
這篇文章用更有價值的數據和實驗,揭示當前大語言模型在空間推理領域的能力邊界、內在缺陷以及未來可能的發展路徑。用更直白的方式總結,就是目前的大語言模型似乎還并不具備顯示的空間推理能力。
一、研究背景與核心問題:為何聚焦基數方向推理?
在深入探討實驗細節之前,我們必須首先理解該研究的立足點:為何在眾多空間推理任務中,基數方向推理如此關鍵?以及,這項研究試圖回答的核心科學問題是什么?
空間推理:從具身智能到數字智能的挑戰
空間推理能力涵蓋了對位置、方向、距離、拓撲關系等多種空間屬性的感知、表征和操縱。對于人類等“具身智能體”(embodied intelligence)而言,這種能力是通過與物理世界的長期、多模態交互(視覺、觸覺、運動感知等)而習得和內化的。我們知道“向東走”意味著什么,因為我們能感知太陽的升落,能體驗身體朝向的改變。
然而,大語言模型是徹頭徹尾的“數字原住民”。它們的知識來源于海量的文本和代碼語料庫,缺乏任何直接的物理感知。因此,一個核心的科學疑問隨之產生:LLMs 是否能僅僅通過學習語言中的模式,來構建一個有效的、可用于推理的內部空間模型? 換言之,當一個 LLM 讀到“東”這個字時,它所“理解”的,究竟是一個與其連接的其他詞語的統計概率,還是一個真正蘊含了方向、相對位置等空間語義的抽象概念?
該研究正是為了探究這一問題。它繞開了那些需要復雜物理交互的任務,選擇了一個純粹基于邏輯和空間關系的認知任務——基數方向推理,以此作為探針,刺入 LLM 認知能力的深處。
基數方向(CDs)的重要性
研究報告明確指出了基數方向在多個層面上的基礎性地位,這解釋了為何它是一個理想的評測領域:
導航與路徑規劃:無論是解讀地圖、聽從導航指示(“沿主路向北行駛 2 公里”),還是向他人描述路線,對基數方向的精確理解都是成功完成任務的前提。
地理與環境理解:區域間的相對位置(如“某地位于某山脈以西”)直接決定了其氣候、生態和經濟聯系。理解這些宏觀地理格局,離不開對基數方向的掌握。
氣象學應用:天氣預報中頻繁出現的“西北風”、“偏東氣流”等術語,其背后是基于基數方向的氣流運動模型。
文化與歷史語境:從金字塔精確對準四個基本方向的建筑奇跡,到某些土著語言(如 Guugu Yimithirr)中完全依賴絕對基數方向而非相對的“左/右”來進行空間定位,基數方向深深植根于人類文明之中。
因此,對基數方向推理能力的評測,實際上是在考察 LLM 是否能理解并運用這些在人類知識體系中無處不在的基礎空間概念。
大型推理模型(LRMs)的興起
研究特別引入并關注了“大型推理模型”(LRMs)這一新興概念。與傳統 LLM 不同,LRMs 在訓練階段就經過特殊設計,旨在優化其在推理任務上的表現。它們在響應用戶提示時,會顯式地生成“推理代幣”(reasoning tokens),這可以被看作是模型在輸出最終答案前進行的內部“思考”或“草稿”。該研究評測的 LRMs 包括 ??azure-o1-2024-12-17???、??deepseek-reasoner?? 等。將這些新銳模型納入評測,使得研究能夠追蹤技術最前沿的進展,并檢驗這些聲稱具備更強推理能力的模型是否名副其實。
值得注意的是,研究者明確排除了使用“思維鏈”(Chain-of-Thought, CoT)等提示工程策略。他們希望測量的是模型“原始”的、未經外部引導的推理能力,從而獲得一個更純粹、更具可比性的性能基準。
綜上所述,該研究通過聚焦基數方向這一基礎而關鍵的領域,并引入對最新 LRMs 的評測,旨在系統性地回答:當前的大語言模型,在多大程度上真正掌握了空間推理這一核心認知能力?
二、精巧而嚴謹的實驗設計:一個可擴展的評測框架
一項評測研究的價值,很大程度上取決于其實驗設計的科學性與嚴謹性。該研究的突出貢獻之一,便是構建了一個大規模、多維度、可自動生成的基準測試集,從而能夠對 LLM 的能力進行全面而細致的“CT掃描”。
2.1 模板化問題的構建哲學
為了避免手動編寫問題可能帶來的偏差和規模限制,研究者采用了一種基于模板的自動化方法,最終生成了包含 5760 個問題的龐大測試集。這種方法的背后,是一種將復雜推理能力拆解為可控變量的科學思想。
研究者設計了六個核心問題模板(在論文中標記為 T1 至 T6),這些模板模擬了日常生活中可能遇到的簡單空間場景。這些模板的設計極具巧思,涵蓋了不同類型的空間關系:
T1 & T2 (湖泊場景):??你正沿著一個湖的[東]岸向[南]走;湖在哪個方向??? (T1) 以及在此基礎上增加一個“轉身”動作的 T2。這測試了在圍繞一個“內凹”區域(湖泊)移動時,對相對方向的判斷。
T3 (公園場景):??你正沿著一個公園[東]側的中間向[南]走;位于公園中心的演奏臺在哪個方向??? 這與 T1 類似,但場景更換為公園,測試模型是否能理解場景的本質而非表面詞匯。
T4 (道路場景):??你正沿著一條[由東向西]延伸的公路的[南]側向[東]走。公路在哪個方向??? 這是唯一一個涉及線性對象(道路)而非面狀對象(湖、公園)的模板。理論上,這需要一種不同的空間想象方式。
T5 & T6 (島嶼場景):??你正沿著一個島嶼的[東]岸向[南]走;海在哪個方向??? (T5) 以及其“轉身”版本 T6。這個場景與湖泊場景(T1/T2)形成鮮明對比。在湖的東岸,湖水在西邊;而在島的東岸,海水在東邊。這是一個絕佳的測試,用以檢驗模型是真正理解了“岸邊”這一概念的空間含義,還是僅僅記住了“東岸”和“西”之間的某種膚淺關聯。
通過這六個精心設計的模板,研究者構建了一個能夠探測模型對不同空間基元(面狀、線性、內凹、外凸)理解深度的評測基礎。
2.2 多維度變量的引入與控制
在模板的基礎上,研究者引入了多個維度的變量,對每個模板進行“排列組合”,從而將測試集的規模和復雜度提升到了新的高度。每一個變量都像一把手術刀,旨在剖析模型能力的特定方面:
方向(Directions):測試覆蓋了全部 8 個基數和中間基數方向(東、南、西、北、東北、東南、西北、西南)。這種窮舉式的測試確保了評測的完備性,可以揭示模型在處理不同方向時是否存在性能差異。
運動方式(Locomotion Forms):研究引入了 10 種不同的運動方式,包括??cycling??? (騎行),??driving??? (駕駛),??hiking??? (徒步),??unicycling??? (騎獨輪車),??walking?? (行走) 等。這個變量的設計極為巧妙,因為它在邏輯上是完全無關的。無論一個人是在行走、駕駛還是騎獨輪車,湖泊的方向都不會改變。因此,這個變量成為了檢驗模型泛化能力和抗干擾能力的“照妖鏡”。一個真正具備推理能力的模型,其準確率不應隨運動方式的改變而波動。
人稱形式(Person Forms):問題被構造成 6 種不同的人稱,包括第一人稱單數(??I am???)、復數(??We are???),第二人稱(??You are???),以及第三人稱單數(??He is???,??She is???)和復數(??They are??)。與運動方式類似,人稱的變化也不應影響最終答案。這一變量旨在測試模型的回答是否穩定,以及是否存在潛在的偏見。例如,模型在處理“He is”和“She is”時表現是否一致,可以間接反映其訓練數據中可能存在的性別偏見。
通過這三個維度的交叉組合,最終生成了 ??6個模板 × 10種運動方式 × 6種人稱 × 8個方向 × 2種方向變化 = 5760個問題??。這個龐大而結構化的數據集,為后續的深度分析提供了堅實的基礎。

















