“他正在過馬路” vs “他過了馬路”:一個簡單問題,為何卻讓GPT-4o等頂級AI模型集體“翻車”?
探究大型語言模型的“心智”——一項關于敘事中時間理解的認知評估
在人工智能的前沿探索中,大型語言模型(LLMs)以其驚人的語言生成與交互能力,不斷刷新著公眾與學界的認知。然而,一個根本性的問題始終縈繞在研究者心頭:這些模型展現出的流暢對話與復雜文本處理能力,究竟是源于一種類似人類的、基于概念和邏輯的“真正理解”,還是一種基于海量數據訓練而成的、極其復雜的統計模式匹配?這一問題不僅關乎技術的未來走向,更觸及了我們對“智能”與“認知”本質的理解。
為了撥開這層迷霧,一項明尼蘇達大學研究人員發表于2025年7月的研究論文《How LLMs Comprehend Temporal Meaning in Narratives:A Case Study in Cognitive Evaluation of LLMs》,將目光投向了一個精妙而復雜的語言學領域——“體”(Linguistic Aspect)。“體”是語言中用以表達事件內部時間結構(如事件是正在進行、已經完成還是即將開始)的語法范疇。它在人類的敘事理解中扮演著至關重要的角色,深刻影響著我們如何構建心理情景模型、追蹤因果鏈條以及在記憶中存儲事件信息。由于其含義的微妙性和對語境的高度依賴性,它成為了一個理想的“探針”,用以探測LLM在表層語法之下的深層認知能力。
該研究的核心問題其實就是大語言模型的時間本體感知是否存在?當面對敘事文本時,LLMs能否像人類一樣,準確地理解和運用“體”所傳達的語義和語用信息?它們能否識別出由“體”的差異(例如,“他正在洗碗”與“他洗完了碗”)所引發的因果關系可能性的變化?它們能否處理那些在語法上正確但在語用上“非典型”的表達方式,并從中推斷出更深層次的敘事意圖?
通過一系列借鑒人類認知科學實驗范式設計的精巧測試,并借助一個創新的“專家在環”(Expert-in-the-Loop)探查框架,該研究系統性地評估了包括Gemma、Llama、Qwen及GPT-4o在內的多個前沿LLM。研究的初步結論發人深省:盡管LLMs在處理典型的、高頻的語言結構時表現尚可,但它們在面對非典型、需要深層語用推理的“體”現象時,表現出嚴重的“認知偏差”。它們過度依賴統計上的“典型性”,產生不一致的判斷,并且在進行由“體”引導的因果推理時能力薄弱。這些發現強烈暗示,LLMs處理時間意義的認知機制與人類存在根本性的差異,其敘事理解能力遠未達到真正的魯棒水平。
核心概念與理論背景:語言學中的“體”及其在人類認知中的作用
為了深入理解這項研究的精髓,我們必須首先了解論文其核心的語言學和認知科學背景——即“體”的概念及其在人類敘事理解中所扮演的關鍵角色。
什么是語言學中的“體”(Linguistic Aspect)?
此部分旨在闡明“體”(Aspect)這一核心語言學概念,它是描述事件內部時間輪廓的關鍵工具,與表示事件在時間軸上位置的“時”(Tense)共同構成了語言中的時間系統。
該研究指出,“體”是一個包含兩個核心組成部分的復雜語言現象,它允許說話者以不同的視角來呈現一個給定事件的內在時間結構。第一個組成部分是詞匯體(Lexical Aspect),也稱為“情狀體”,它指的是動詞或動詞短語本身所固有的時間特性,核心在于描述事件是否包含一個自然的終點。研究中以“在公園散步”(walk in the park)和“走到公園去”(walk to the park)為例進行說明,前者沒有明確終點,而后者則包含一個明確的目標和終點。本次研究的實驗材料主要聚焦于“成就類”(Accomplishment)動詞,這類事件的典型特征是包含一個初始狀態、一個過渡過程和一個最終狀態,例如“洗碗”就包含了從“碗是臟的”到“碗是干凈的”完整過程。

第二個組成部分是語法體(Grammatical Aspect),它通過具體的語法形式來表達說話者如何看待事件的展開。在英語中,最主要的兩種語法體分別是完成體(Perfective Aspect),如 "washed"(洗完了),它將事件視為一個完整的、有明確邊界的整體;以及未完成體(Imperfective Aspect),如 "was washing"(正在洗),它聚焦于事件的內部過程,將其呈現為尚未完結的狀態,而不涉及其最終結果。一個關鍵的語言學現象是,具有內在終點的“成就類”事件,與同樣強調終點的“完成體”在語義上是天然的“典型”組合。反之,用“未完成體”來描述一個成就類事件,則構成了一種“非典型”組合,這種非典型性在語用層面往往承載著重要的敘事意圖。
“體”如何影響人類的敘事理解與記憶?
從自然語言發展的角度來看,“體”在人類認知加工過程中的關鍵作用,它遠不止是靜態的語法規則,而是動態地影響著讀者如何構建心智表征、進行推理和形成記憶。
研究明確指出,對于語言熟練者而言,“體”深刻地影響著敘事理解的全過程,塑造著讀者處理信息和構建對故事世界的“情景模型”的方式。它的認知作用首先體現在工作記憶的激活狀態上。當一個事件以“未完成體”呈現時(如“羅伯正在洗碗”),人類讀者傾向于在工作記憶中將該事件保持為“開放”和“激活”的狀態,因為它沒有明確的終點,隨時可能與后續信息發生關聯。相反,以“完成體”呈現的事件(如“羅伯洗完了碗”)則被視為一個已關閉的單元,其激活水平會迅速下降。這種激活狀態的差異直接影響到因果關系的推斷。一個“正在進行”的未完成體事件,更有可能被視為后續意外事件的潛在原因。
此外,在敘事中使用非典型的未完成體本身就構成了一個強烈的語用信號。由于故事通常敘述已完成的事件,偏離常規的表達方式能吸引讀者更多的注意力,暗示該事件的重要性或預示著不尋常的情節。最終,所有這些信息都會被整合到讀者長期的情景模型中。研究引用先前的人類研究指出,以未完成體描述的關鍵事件,即使在故事中過去了數個句子之后,仍然更容易在情景模型中保持“在焦點”的狀態,并可在需要時被重新激活以解釋后續情節,這體現了一種深刻的、跨越句子邊界的遠距離敘事整合能力。
研究設計與方法論——一套嚴謹的“專家在環”探查框架
為了系統性地、可靠地評估LLM在處理“體”這一復雜現象時的能力,該研究設計并實施了一套極為嚴謹的實驗流程。其核心在于精巧的敘事材料設計和創新的“專家在環”探查流水線,這兩者共同確保了研究結論的有效性和魯棒性。
實驗敘事材料的精巧設計
為了精心構建實驗基礎的敘事文本,其結構設計被精確地隔離,同時也能準確的操控“體”這一變量,進而觀察其對LLM“行為”的影響。
研究中使用的16個敘事文本改編自成熟的語言學研究,具有很高的理論依據。每個敘事文本都遵循一個標準化的結構,旨在創造一個可以對因果關系進行模糊解釋的場景。故事以引子(Intro)開始,介紹背景和人物。隨后呈現潛在原因一(Cause 1, C1),這是一個典型的“成就類”事件,也是實驗操縱的關鍵點:在不同版本的敘事中,該事件的動詞會被分別設置為“未完成體”(如 was washing?)或“完成體”(如 washed)。緊接著,故事會引入潛在原因二(Cause 2, C2)作為對照項。為了模擬人類閱讀時的認知負荷并測試信息的遠距離整合能力,敘事中還插入了與核心因果鏈關系不大的填充內容(Filler)。最后,故事以一個突然發生的、可以被C1或C2合理解釋的意外結局(Effect)結尾,例如“突然傳來一聲巨響”。通過這種設計,研究者可以精準地控制變量,并對LLM的反應做出清晰的預測。 (表1)

“專家在環”探查流水線 (Expert-in-the-Loop Probing Pipeline)
本節將詳細介紹該研究為執行LLM行為實驗而開發的核心方法論框架。這個框架的設計理念是,在認知科學領域專家的指導下,通過迭代和系統化的方式進行實驗,以收集匯聚性證據,確保評估結果的可靠性和可解釋性。(圖2)

該流水線包含三個核心階段,旨在最大限度地減少因提示(prompt)的偶然性而導致的實驗偏差。第一階段是提示構建(Prompting),其核心任務是將用于人類研究的實驗指導語忠實地轉化為適合LLM執行的結構化提示。第二階段,也是該框架最具創新性的部分,是提示改寫(Prompt Paraphrasing),它系統性地解決了LLM對提示表述高度敏感的問題。研究者通過兩種方式引入受控的“擾動”:一方面,借鑒FORMATSPREAD協議,通過改變空格、大小寫、順序和標點等生成了10種不同的數據格式;另一方面,對通用指令本身進行句法結構和語義上的同義轉述,創造出3個版本。這兩者組合,為每個實驗任務都生成了總計30種獨特的提示變體,極大地增強了結論的穩健性。最后一個階段是模型選擇與推理執行(Models and Inference),研究團隊選取了Gemma、Llama、Qwen及GPT-4o等七個前沿LLM進行測試,以考察研究發現在不同模型架構和規模上的普適性。
多維度實驗與核心發現:LLM在“體”的理解上步履蹣跚
基于上述嚴謹的研究設計,該工作開展了三個層層遞進的實驗,分別從語義理解、工作記憶模擬和語用因果推理三個維度,對LLM處理“體”的能力進行了深入剖析。所有實驗均在兩種核心條件下進行:C1事件為“完成體”或“未完成體”。
實驗一:語義真值判斷——對非典型組合的理解缺失
該實驗旨在探查LLM是否掌握了“體”最基本的語義內涵,即能否根據語法標記正確判斷一個事件是否達到了其最終狀態。
在實驗設置中,LLM閱讀包含關鍵事件的完整敘事,然后判斷一個描述事件最終狀態的短語(如“莉娜在樓下”)的真值。根據語義學理論,對于完成體“莉娜跑下樓”,推斷“莉娜在樓下”應為“真”;而對于未完成體“莉娜正在跑下樓”,由于事件未完成,推斷“莉娜在樓下”應為“假”,而推斷“莉娜不在樓下”則應為“真”。
核心發現清晰地揭示了LLM在處理非典型組合時的嚴重缺陷。對于典型的“完成體”,LLM的表現與人類數據高度一致,準確率高達88%,與人類持平。然而,對于非典型的“未完成體”,LLM的表現與人類出現了巨大鴻溝。在最能體現理解深度的“未完成體+消極推斷”條件下(即判斷“莉娜正在跑下樓”意味著“莉娜不在樓下”為真),人類的準確率為71%,而LLM的準確率竟低至18%。這一結果有力地表明,LLM嚴重缺乏對未完成體“懸置”事件終點這一核心語義功能的理解。為了排除敘事語境的干擾,研究者在后續實驗中將關鍵事件句剝離出來單獨測試,發現LLM的表現依然糟糕,證實了問題根植于其對“體”本身的處理機制。 (表2, 圖3)


實驗二:詞語補全任務——短暫的注意力,而非持久的記憶激活
該實驗借鑒了認知心理學中廣泛用于測量概念激活程度的“詞語補全”范式,旨在模擬探測LLM的“工作記憶”中,與關鍵事件相關的概念是否因“體”的不同而表現出不同的激活模式。
實驗的精妙之處在于探針(probe)出現的位置。一種是緊隨關鍵事件C1之后,用以測量即時激活效應;另一種則是在故事結尾的意外結局之后,用以測試信息的遠距離整合能力。核心發現呈現出一種“近視”的模式。在緊隨C1之后的情況下,當C1為非典型的未完成體時,LLM補全出目標詞的頻率確實更高,這表明它能夠探測到局部的統計非典型性并給予更多“關注”。然而,在更關鍵的、出現在故事結尾的條件下,這種由“體”引發的激活差異幾乎消失了,總體成功率也大幅下降。這組結果強烈暗示,LLM的反應更像是一種短暫的、基于統計稀有度的淺層注意力分配,而不是像人類那樣,將事件作為一個開放單元在心智中持續激活,以備后續的敘事整合和因果推理之用。 (圖4)

實驗三:開放式因果提問——趨向人類但仍顯不足的因果推理
該實驗直擊核心,通過開放式提問的方式,直接評估LLM是否能夠利用“體”的語用線索來進行最終的因果歸因,這考驗的是其在模擬“情景模型”層面上的推理能力。
在LLM讀完整個故事后,研究者向其提出開放式的因果問題,如:“為什么會有一聲巨響?”。實驗結果呈現出復雜的、與模型規模相關的模式。一方面,所有被測的LLM都表現出與人類相似的基本趨勢:在C1為未完成體時,比C1為完成體時更有可能將原因歸于C1。這表明LLM在某種程度上捕捉到了未完成體與因果關系之間的關聯。但另一方面,LLM做出這種歸因的頻率顯著低于人類,即使是表現最好的GPT-4o和Llama-3.1-70B,也與人類水平有明顯差距。一個非常有趣的發現是,在這個最復雜的任務中,模型的規模效應變得清晰可見,參數量更大的模型表現明顯更接近人類。然而,另一個揭示LLM認知僵化的關鍵點是,當C1為完成體時,人類仍有相當一部分會靈活地將其解釋為原因,而LLM則極少這樣做,這表明其過度依賴僵硬的規則,缺乏人類的解釋靈活性。 (圖5)

綜合討論:LLM處理時間的認知機制——基于分布的模仿,而非基于概念的理解
綜合上述三個實驗的發現,該研究提供了一系列深刻的洞見,揭示了當前LLM在處理敘事時間意義時與人類認知的根本差異。其核心論點是,LLM的行為模式更像是一種基于訓練數據統計分布的復雜模仿,而非基于對“體”所代表的時間概念的真正理解。
聲明性知識與程序性知識的鴻溝
研究人員觀察到一個有趣的現象,并據此提出了一個核心論斷:LLM在關于“體”的知識上,存在著“聲明性知識”(知道是什么)和“程序性知識”(知道如何用)之間的巨大鴻溝。如果直接向LLM提問“請解釋一下完成體和未完成體”,它們能夠生成非常準確、符合學術定義的回答,這表明它們掌握了大量的聲明性知識。然而,正如實驗一所清晰展示的,當需要LLM在實際的語言理解任務中應用這些知識時,它們卻失敗了,尤其是在非典型的情境下,這表明它們嚴重缺乏程序性知識。這種分離與人類學習者的情況形成了鮮明對比,暗示LLM的學習路徑和知識表征方式與人類有著本質的不同,它們可能只是學會了“談論”規則,而沒有真正將規則內化為一種可靈活應用的認知能力。
對非典型性的過度依賴與遠距離整合的失敗
實驗二和實驗三的結果共同指向了LLM處理敘事信息的另一個關鍵缺陷:它們對局部統計特征的敏感性,以及在遠距離信息整合上的失敗。研究推測,LLM對非典型未完成體的即時“關注”,其根本原因可能并非對語用信號的理解,而僅僅是因為這種語言組合在其龐大的訓練數據中統計上是罕見的。這種由統計稀有度引發的關注是短暫和表層的,并不會轉化為一種像人類那樣的、持久的“心智激活狀態”。LLM似乎無法構建一個動態的情景模型,將一個“未完成”的事件作為一個開放的可能性,一路攜帶至故事結尾并用于因果推理,這暴露了它們在遠距離敘事整合能力上的嚴重不足。
模型家族與規模效應的啟示
通過對三大模型家族和不同參數規模的橫向比較,研究也得出了一些關于當前模型架構和發展趨勢的重要結論。研究發現,沒有任何一個模型家族或特定模型在所有與“體”相關的任務上都表現出持續的優勢,這種表現上的不一致性進一步支持了LLM的各項“能力”可能是割裂的、而非源于一個統一認知系統的觀點。一個引人注目的發現是,模型規模的擴大并非萬能藥。在較為基礎的語義理解和模擬工作記憶的任務中,更大規模的模型并沒有表現出明顯的優勢。只有在最高階、最復雜的開放式因果推理任務中,更大模型的表現才清晰地優于小模型。這提出了一個關鍵問題:未來的模型發展,是應該繼續依賴單純的規模擴張,還是需要在模型架構和訓練方法上進行根本性的創新,以構建真正具備認知基礎能力的AI?
研究方法與結果評估
在深入解讀了該研究的理論、方法和發現之后,我們需以審慎和批判的眼光,對其研究質量、結論的可靠性及其潛在的局限性進行一次客觀評估。
研究的優點與貢獻
首先必須肯定,這項研究在多個層面上都展現出了高水平的學術嚴謹性和深刻的洞察力。其最大的優點之一,是其深植于認知科學和語言學的堅實理論基礎,選取了“體”這一極具挑戰性的語言現象作為切入點,使得實驗結果具有很強的解釋力。此外,該研究提出的“專家在環”探查流水線,特別是其系統的“提示改寫”策略,是方法論上的一個重大創新,通過生成并測試大量提示變體,極大地增強了實驗結果的魯棒性,為后續的LLM認知行為研究樹立了一個高標準。最終,該研究通過翔實的數據,得出了深刻且反直覺的認知洞見,有力地挑戰了對LLM已具備“類人理解能力”的樂觀觀點,深化了學界對當前模型核心局限性的理解。
潛在的局限性與待解決的問題
盡管該研究優點突出,但作為一項前沿探索,其本身也存在一些固有的局限性。研究在局限性部分坦誠地指出,整個方法依賴于分析LLM生成的文本(即“自我報告”)來推斷其“內部狀態”,但LLM的輸出是否能真實反映其內部過程,本身就是一個懸而未決的認識論難題。同時,實驗中對“代理任務”(如用詞語補全模擬工作記憶)的依賴也存在解釋邊界,因為LLM的注意力機制與人類的工作記憶在根本上是不同的。或許該研究最重要的“元發現”之一,就是模型在不同任務上表現的不一致性,這本身就揭示了一個深層問題:LLM的“智能”可能是高度碎片化和非系統性的,缺乏人類那樣整合、統一的認知架構。最后,對于LLM為何會對“非典型性”做出反應,其解釋仍存在一定的模糊性,未來的研究需要更精巧的設計來厘清這究竟是純粹的統計異常檢測,還是對語用信號的某種初級模擬。
參考論文:https://arxiv.org/abs/2507.14307v1
本文轉載自?????????上堵吟?????????,作者:一路到底的孟子敬

















