精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大語言模型空間推理能力的深度評測:基于基準測試對基數方向推理的再審視

發布于 2025-7-30 20:10
瀏覽
0收藏

引言:探尋非具身智能的空間認知邊界
隨著大語言模型(Large Language Models, LLMs)技術的飛速發展,其在自然語言處理、代碼生成乃至多模態交互等領域展現出的驚人能力,不斷刷新著我們對人工智能潛力的認知。然而,一個根本性的問題始終縈繞在學術界和產業界:這些在數字世界中誕生的、缺乏物理實體與真實世界交互經驗的“非具身智能”(non-embodied intelligence),是否真正獲得了類似人類的推理能力?

空間推理,作為高級智能的核心組成部分,成為了檢驗這一問題的絕佳試金石。它不僅是人類在物理世界中導航、操作和生存的基礎,更是一種高度抽象的認知能力。近期,一篇題為《再探大語言模型基數方向推理能力評測》(Evaluating the Ability of Large Language Models to Reason about Cardinal Directions, Revisited)的研究,便針對這一前沿課題展開了系統而深入的探索。該研究由利茲大學的 Anthony G Cohn 和艾倫·圖靈研究所的 Robert E Blackwell 共同完成,是對其早期工作的擴展與深化。

這項研究的核心貢獻在于,它沒有停留在對模型進行零散、隨意的測試,而是設計并實施了一個大規模、系統化、可復現的評測框架。通過這個框架,研究者們對多達 28 個當前主流及前沿的 LLM(包括新興的“大型推理模型” Large Reasoning Models, LRMs)進行了嚴格的“壓力測試”。其評測的焦點,被精確地限定在“基數方向”(Cardinal Directions, CDs)推理上——即對東、西、南、北及其組合方向的理解與運用能力。

選擇基數方向作為切入點,其背后有著深刻的考量。基數方向不僅是地圖使用、路線指引等日常導航任務的基石,還在地理學、氣象學、甚至人類文化與歷史中扮演著至關重要的角色。一個智能體若要聲稱理解了我們所處的世界,那么對基數方向的掌握無疑是其必備的基本功。

這篇文章用更有價值的數據和實驗,揭示當前大語言模型在空間推理領域的能力邊界、內在缺陷以及未來可能的發展路徑。用更直白的方式總結,就是目前的大語言模型似乎還并不具備顯示的空間推理能力。

一、研究背景與核心問題:為何聚焦基數方向推理?
在深入探討實驗細節之前,我們必須首先理解該研究的立足點:為何在眾多空間推理任務中,基數方向推理如此關鍵?以及,這項研究試圖回答的核心科學問題是什么?

空間推理:從具身智能到數字智能的挑戰
空間推理能力涵蓋了對位置、方向、距離、拓撲關系等多種空間屬性的感知、表征和操縱。對于人類等“具身智能體”(embodied intelligence)而言,這種能力是通過與物理世界的長期、多模態交互(視覺、觸覺、運動感知等)而習得和內化的。我們知道“向東走”意味著什么,因為我們能感知太陽的升落,能體驗身體朝向的改變。

然而,大語言模型是徹頭徹尾的“數字原住民”。它們的知識來源于海量的文本和代碼語料庫,缺乏任何直接的物理感知。因此,一個核心的科學疑問隨之產生:LLMs 是否能僅僅通過學習語言中的模式,來構建一個有效的、可用于推理的內部空間模型? 換言之,當一個 LLM 讀到“東”這個字時,它所“理解”的,究竟是一個與其連接的其他詞語的統計概率,還是一個真正蘊含了方向、相對位置等空間語義的抽象概念?

該研究正是為了探究這一問題。它繞開了那些需要復雜物理交互的任務,選擇了一個純粹基于邏輯和空間關系的認知任務——基數方向推理,以此作為探針,刺入 LLM 認知能力的深處。

基數方向(CDs)的重要性
研究報告明確指出了基數方向在多個層面上的基礎性地位,這解釋了為何它是一個理想的評測領域:

導航與路徑規劃:無論是解讀地圖、聽從導航指示(“沿主路向北行駛 2 公里”),還是向他人描述路線,對基數方向的精確理解都是成功完成任務的前提。
地理與環境理解:區域間的相對位置(如“某地位于某山脈以西”)直接決定了其氣候、生態和經濟聯系。理解這些宏觀地理格局,離不開對基數方向的掌握。
氣象學應用:天氣預報中頻繁出現的“西北風”、“偏東氣流”等術語,其背后是基于基數方向的氣流運動模型。
文化與歷史語境:從金字塔精確對準四個基本方向的建筑奇跡,到某些土著語言(如 Guugu Yimithirr)中完全依賴絕對基數方向而非相對的“左/右”來進行空間定位,基數方向深深植根于人類文明之中。
因此,對基數方向推理能力的評測,實際上是在考察 LLM 是否能理解并運用這些在人類知識體系中無處不在的基礎空間概念。

大型推理模型(LRMs)的興起
研究特別引入并關注了“大型推理模型”(LRMs)這一新興概念。與傳統 LLM 不同,LRMs 在訓練階段就經過特殊設計,旨在優化其在推理任務上的表現。它們在響應用戶提示時,會顯式地生成“推理代幣”(reasoning tokens),這可以被看作是模型在輸出最終答案前進行的內部“思考”或“草稿”。該研究評測的 LRMs 包括 ??azure-o1-2024-12-17???、??deepseek-reasoner?? 等。將這些新銳模型納入評測,使得研究能夠追蹤技術最前沿的進展,并檢驗這些聲稱具備更強推理能力的模型是否名副其實。

值得注意的是,研究者明確排除了使用“思維鏈”(Chain-of-Thought, CoT)等提示工程策略。他們希望測量的是模型“原始”的、未經外部引導的推理能力,從而獲得一個更純粹、更具可比性的性能基準。

綜上所述,該研究通過聚焦基數方向這一基礎而關鍵的領域,并引入對最新 LRMs 的評測,旨在系統性地回答:當前的大語言模型,在多大程度上真正掌握了空間推理這一核心認知能力?

二、精巧而嚴謹的實驗設計:一個可擴展的評測框架
一項評測研究的價值,很大程度上取決于其實驗設計的科學性與嚴謹性。該研究的突出貢獻之一,便是構建了一個大規模、多維度、可自動生成的基準測試集,從而能夠對 LLM 的能力進行全面而細致的“CT掃描”。

2.1 模板化問題的構建哲學
為了避免手動編寫問題可能帶來的偏差和規模限制,研究者采用了一種基于模板的自動化方法,最終生成了包含 5760 個問題的龐大測試集。這種方法的背后,是一種將復雜推理能力拆解為可控變量的科學思想。

研究者設計了六個核心問題模板(在論文中標記為 T1 至 T6),這些模板模擬了日常生活中可能遇到的簡單空間場景。這些模板的設計極具巧思,涵蓋了不同類型的空間關系:

T1 & T2 (湖泊場景):??你正沿著一個湖的[東]岸向[南]走;湖在哪個方向??? (T1) 以及在此基礎上增加一個“轉身”動作的 T2。這測試了在圍繞一個“內凹”區域(湖泊)移動時,對相對方向的判斷。
T3 (公園場景):??你正沿著一個公園[東]側的中間向[南]走;位于公園中心的演奏臺在哪個方向??? 這與 T1 類似,但場景更換為公園,測試模型是否能理解場景的本質而非表面詞匯。
T4 (道路場景):??你正沿著一條[由東向西]延伸的公路的[南]側向[東]走。公路在哪個方向??? 這是唯一一個涉及線性對象(道路)而非面狀對象(湖、公園)的模板。理論上,這需要一種不同的空間想象方式。
T5 & T6 (島嶼場景):??你正沿著一個島嶼的[東]岸向[南]走;海在哪個方向??? (T5) 以及其“轉身”版本 T6。這個場景與湖泊場景(T1/T2)形成鮮明對比。在湖的東岸,湖水在西邊;而在島的東岸,海水在東邊。這是一個絕佳的測試,用以檢驗模型是真正理解了“岸邊”這一概念的空間含義,還是僅僅記住了“東岸”和“西”之間的某種膚淺關聯。
通過這六個精心設計的模板,研究者構建了一個能夠探測模型對不同空間基元(面狀、線性、內凹、外凸)理解深度的評測基礎。

2.2 多維度變量的引入與控制
在模板的基礎上,研究者引入了多個維度的變量,對每個模板進行“排列組合”,從而將測試集的規模和復雜度提升到了新的高度。每一個變量都像一把手術刀,旨在剖析模型能力的特定方面:

方向(Directions):測試覆蓋了全部 8 個基數和中間基數方向(東、南、西、北、東北、東南、西北、西南)。這種窮舉式的測試確保了評測的完備性,可以揭示模型在處理不同方向時是否存在性能差異。
運動方式(Locomotion Forms):研究引入了 10 種不同的運動方式,包括??cycling??? (騎行),??driving??? (駕駛),??hiking??? (徒步),??unicycling??? (騎獨輪車),??walking?? (行走) 等。這個變量的設計極為巧妙,因為它在邏輯上是完全無關的。無論一個人是在行走、駕駛還是騎獨輪車,湖泊的方向都不會改變。因此,這個變量成為了檢驗模型泛化能力和抗干擾能力的“照妖鏡”。一個真正具備推理能力的模型,其準確率不應隨運動方式的改變而波動。
人稱形式(Person Forms):問題被構造成 6 種不同的人稱,包括第一人稱單數(??I am???)、復數(??We are???),第二人稱(??You are???),以及第三人稱單數(??He is???,??She is???)和復數(??They are??)。與運動方式類似,人稱的變化也不應影響最終答案。這一變量旨在測試模型的回答是否穩定,以及是否存在潛在的偏見。例如,模型在處理“He is”和“She is”時表現是否一致,可以間接反映其訓練數據中可能存在的性別偏見。
通過這三個維度的交叉組合,最終生成了 ??6個模板 × 10種運動方式 × 6種人稱 × 8個方向 × 2種方向變化 = 5760個問題??。這個龐大而結構化的數據集,為后續的深度分析提供了堅實的基礎。

標簽
收藏
回復
舉報
回復
相關推薦
亚洲大胆美女视频| 最近中文字幕一区二区三区| 欧美最近摘花xxxx摘花| 中文字幕伦理片| 亚洲成a人片777777久久| 一区二区三区四区乱视频| 欧美二区三区在线| 国产高清第一页| 乱人伦精品视频在线观看| 久久久国产精品x99av| 熟女丰满老熟女熟妇| 国产资源一区| 欧美性色xo影院| 免费看黄色a级片| 国产精品麻豆一区二区三区| 国产在线精品视频| 国产99视频精品免视看7| 麻豆视频在线观看| 久久一区二区三区电影| 精品无人区乱码1区2区3区在线| 在线免费看污网站| 国精产品一区一区三区四川| 午夜日韩在线观看| 91精品国产吴梦梦| 午夜毛片在线| 91美女视频网站| 风间由美一区二区三区| 91精品国产乱码久久久| 久久人人超碰| 26uuu另类亚洲欧美日本一| 青青草激情视频| 欧美激情偷拍自拍| 国产亚洲欧美日韩一区二区| 国产一级二级在线观看| 国产suv精品一区| 日韩午夜在线影院| 久久久久无码精品| 国产精品日韩精品在线播放| 在线观看区一区二| 人妻内射一区二区在线视频| 水蜜桃在线视频| 精品福利一区二区| 青青草视频在线免费播放| 欧美伦理免费在线| 亚洲无人区一区| 激情成人开心网| 欧美人与禽性xxxxx杂性| 亚洲乱码中文字幕| 亚洲精品天堂成人片av在线播放| 18+视频在线观看| 一区二区三区免费| 波多野结衣av一区二区全免费观看| 综合图区亚洲| 亚洲综合色噜噜狠狠| 国产美女在线一区| 男人av在线播放| 欧美性生交大片免费| 哪个网站能看毛片| 影视一区二区三区| 欧美在线啊v一区| 一级黄色特级片| 色8久久久久| 日韩欧美国产一区二区三区| 国产国语老龄妇女a片| 露出调教综合另类| 国产一区二区三区视频在线观看| 国产农村妇女精品一区| 91久久电影| 欧美精品18videosex性欧美| 欧美日韩综合在线观看| 久久视频一区| 成人在线观看视频网站| 国产黄色av网站| 92国产精品观看| 欧美一区二区三区在线播放| 日本视频在线观看| 亚洲综合色网站| 国产情侣av自拍| 国产午夜久久av| 亚洲精品在线观| 无码少妇一区二区| 亚洲精品网址| 欧美一级大片在线免费观看| 中文字幕永久在线| 国产成人免费视频网站高清观看视频 | 亚洲综合小说区| 婷婷av一区二区三区| 国产日本欧洲亚洲| 国产激情片在线观看| 午夜伦理福利在线| 7777精品伊人久久久大香线蕉完整版 | 69久久夜色精品国产69乱青草| 波多野结衣午夜| 国产精品1区2区| 日本一区二区三区www| 天堂av在线电影| 色婷婷av一区二区三区之一色屋| 国产一级免费大片| 综合伊思人在钱三区| 欧美成人免费大片| 精品久久久久久久久久久久久久久久久久| 国内一区二区视频| 日韩欧美在线观看强乱免费| 青青草视频在线免费直播| 欧美午夜精品久久久久久超碰| 年下总裁被打光屁股sp| 欧美电影一区| 欧洲午夜精品久久久| 国产成人精品亚洲精品色欲| 国产欧美日韩综合| 国产日韩欧美精品在线观看| 成人永久在线| 亚洲一级黄色av| 欧美一二三区视频| 国产成人免费视| 26uuu成人| 成人全视频在线观看在线播放高清| 亚洲电影av在线| 国产精品白丝喷水在线观看| 日韩不卡一区二区三区| 免费看污久久久| 国产精品一区hongkong| 91精品国产欧美一区二区18| 黑人と日本人の交わりビデオ| 亚洲欧美春色| 好吊色欧美一区二区三区四区 | 亚洲一级二级在线| 亚洲午夜精品一区| 日韩欧美二区| 国产精品成人免费视频| 久久精品色图| 色综合久久久久综合体| 鲁大师私人影院在线观看| 黑丝一区二区三区| 99porn视频在线| 超碰免费在线播放| 91麻豆精品国产91久久久使用方法 | 欧美熟妇乱码在线一区| 亚洲资源在线观看| 免费在线观看日韩av| 欧美成人首页| 97久久夜色精品国产九色| 成人福利片网站| 欧美一级二级三级蜜桃| 好吊色视频在线观看| 国产美女一区二区| 草草草视频在线观看| 日韩成人18| 欧美精品videosex牲欧美| 亚洲国产精品成人久久蜜臀| 亚洲成av人片在线观看无码| 欧美在线一级片| 视频一区视频二区中文字幕| 奇米影视首页 狠狠色丁香婷婷久久综合 | 亚洲av成人精品日韩在线播放| 婷婷综合另类小说色区| 欧美做受喷浆在线观看| 久久亚洲色图| 亚洲欧美日产图| 精品国产一区二区三区性色av| 欧美成人午夜激情| 色婷婷av一区二区三区之红樱桃| 欧美日韩国产中字| 蜜乳av中文字幕| 激情久久五月天| 无码人妻精品一区二区蜜桃网站| 丁香一区二区| 国产精品久久久久久久久借妻| 97电影在线看视频| 日韩美女在线视频| 国产又爽又黄的视频| 亚洲国产精品激情在线观看| www.午夜av| 亚洲美女视频在线免费观看 | 国产youjizz在线| 欧美日韩不卡在线| 国产乡下妇女做爰| 国产三级欧美三级| 亚洲天堂小视频| 欧美一级专区| 熟女熟妇伦久久影院毛片一区二区| 最新国产精品精品视频| 国产成人精品免费久久久久 | 五月天婷婷在线观看| 欧美中文字幕一区| 国产亚洲精品成人| 中文字幕不卡在线| 日本在线不卡一区二区| 青青青伊人色综合久久| www.夜夜爱| 成人黄色小视频| 国产精品久久精品国产 | 成人三级视频在线观看一区二区| sis001欧美| 欧美大片在线看| 电影av一区| 亚洲精品在线观看视频| 一区二区三区www污污污网站| 无吗不卡中文字幕| 中文字幕电影av| 久久久久久久av麻豆果冻| 手机在线免费毛片| 麻豆国产欧美一区二区三区| 精品久久久久久久久久中文字幕| 国产大片一区| 日韩福利二区| 日本一道高清一区二区三区| 亚洲一区亚洲二区亚洲三区| 91综合国产| 欧美亚洲国产视频| 波多野结衣在线播放| 国产一区二区美女视频| 色在线免费视频| 精品少妇一区二区| 国产深喉视频一区二区| 欧美亚洲一区二区在线| 久久久久久少妇| 亚洲国产综合在线| 国产精品成人免费观看| 国产精品大尺度| 亚洲欧美va天堂人熟伦| 91久色porny| 成年人的黄色片| caoporen国产精品视频| 无码人妻一区二区三区免费n鬼沢| 九色综合国产一区二区三区| 看欧美ab黄色大片视频免费 | 国产精品高潮在线| 免费电影日韩网站| 欧美在线免费观看| 涩涩视频网站在线观看| 97在线视频精品| 96av在线| 午夜精品一区二区三区在线播放| 欧美黄色视屏| 欧美精品激情在线观看| 4438x成人网全国最大| 欧美精品在线第一页| 黄色网页在线播放| 久久夜色精品国产欧美乱| 一本一道波多野毛片中文在线| 中文字幕精品在线视频| av在线电影网| 日韩最新中文字幕电影免费看| 四虎久久免费| 日韩中文字幕视频| 国产激情在线视频| 欧美理论片在线观看| 毛片网站在线看| 亚洲2020天天堂在线观看| 欧美aa一级| 人九九综合九九宗合| 欧美在线va视频| 国产色综合天天综合网| 精品久久亚洲| 国产精品一区二区免费看| 成人爽a毛片| 欧美大香线蕉线伊人久久国产精品 | 国产一区在线看| 亚洲少妇一区二区| av一区二区三区黑人| 久久久久久亚洲中文字幕无码| 日本一区二区三区久久久久久久久不| 少妇的滋味中文字幕bd| 亚洲卡通动漫在线| 国产在线欧美在线| 欧美性猛交xxxx乱大交3| 一级日韩一级欧美| 欧美成人伊人久久综合网| 日韩电影免费| www.欧美三级电影.com| jizz一区二区三区| 国产盗摄xxxx视频xxx69| 91精品网站在线观看| 国产超碰91| 欧美美女一区| 老司机激情视频| 日欧美一区二区| 亚洲精品在线网址| 久久综合丝袜日本网| 亚洲激情图片网| 婷婷夜色潮精品综合在线| 国产精品午夜一区二区| 日韩丝袜美女视频| 国产女主播在线直播| 欧美美女操人视频| 性欧美freehd18| 国产一区福利视频| 久久精品国产www456c0m| 欧美 日韩 亚洲 一区| 九色综合狠狠综合久久| 狠狠人妻久久久久久综合蜜桃| 日韩理论片网站| 成人免费毛片视频| 欧美α欧美αv大片| jizz在线免费观看| 国产91精品高潮白浆喷水| 国产精品毛片aⅴ一区二区三区| 免费成人看片网址| 国产综合网站| 亚洲一区二区三区观看| 久久亚洲一级片| 久久久久久久极品内射| 欧美美女一区二区| 免费人成在线观看网站| 欧美极品少妇xxxxⅹ裸体艺术| 亚洲三级电影| 日韩影片在线播放| 国产精品美女| 国产精品果冻传媒| 亚洲欧美视频在线观看| 中文字幕有码无码人妻av蜜桃| 亚洲国产成人91精品| caopen在线视频| 国产美女精彩久久| 欧美一级精品| 欧美日韩在线免费播放| 97久久久精品综合88久久| 久久精品这里只有精品| 制服.丝袜.亚洲.另类.中文 | 国产成人黄色| 免费看日本毛片| 成人av网站免费观看| 精品欧美一区二区久久久久| 欧美夫妻性生活| 色网站免费在线观看| 国产精品久久av| 国产一区二区观看| 青青视频在线播放| 91小视频免费观看| 在线观看免费国产视频| 日韩成人在线电影网| 多野结衣av一区| 精品在线不卡| 国产亚洲毛片| 久久国产精品影院| 欧美日韩亚洲视频| 免费黄网站在线观看| 欧美综合激情网| 神马电影久久| 免费看污污网站| 中文字幕日韩精品一区| 亚洲综合精品国产一区二区三区| 色系列之999| 亚洲午夜剧场| 日本高清视频免费在线观看| 国产91精品入口| 日韩久久久久久久久| 日韩成人在线免费观看| 大胆人体一区二区| 亚洲国产欧美不卡在线观看 | 96pao国产成视频永久免费| 久久久久免费av| 日本少妇xxxx软件| 精品久久久久久电影| 日韩精品系列| 国产精品人成电影在线观看| 国产精品久久久久久麻豆一区软件 | 一区二区日本| 国产69精品一区二区亚洲孕妇| 国产精品99精品| 亚洲欧美中文日韩在线| 国产精品亚洲成在人线| 少妇久久久久久被弄到高潮| 99精品久久99久久久久| 国产精品无码粉嫩小泬| 久久亚洲精品一区二区| 国产精品2023| 看欧美ab黄色大片视频免费 | 免费cad大片在线观看| 9色porny自拍视频一区二区| 成人毛片一区二区三区| 久久天天躁狠狠躁夜夜av| 精品视频在线你懂得| 国产视频一区二区三区在线播放| ●精品国产综合乱码久久久久| 亚洲乱码在线观看| 国产不卡视频在线| 先锋资源久久| 日韩一级视频在线观看| 欧美日韩精品福利| sm在线播放| 在线免费观看成人网| 99久久免费精品高清特色大片| 国产精品无码粉嫩小泬| 久久久久久免费精品| 欧美色女视频| 亚洲精品第二页| 欧美三级电影网站| 欧美男男tv网站在线播放| 中文字幕久久综合| 91在线观看免费视频| 国产强伦人妻毛片| 日本高清视频一区| 欧美人成网站| 国产wwwwxxxx| 亚洲欧美日韩中文视频| 亚洲va欧美va人人爽成人影院| 爱情岛论坛成人| 午夜精品久久久久久久久久 |