Nature: AI 與人類認知交匯
隨著人工智能、認知科學與神經科學的交匯日益加深,業界越來越關注AI模型與人類大腦在表征維度、學習機制以及組織結構方面的共性與差異。
Nature 的四篇文獻分別從“表征維度”、“多模態語義對齊”、“層次結構收斂”與“無監督生物預訓練”四個方面,共同建構了一個認知框架。
表征維度
“深度神經網絡與人類表征對齊的潛在維度”【文獻1】,探索了深度神經網絡與人類在自然圖像概念空間中的映射差異,發現盡管整體行為表現相似,內部“思考”路徑上兩者存在本質不同。
方法是,首先構建可在 DNN 與人腦間對齊的低維表征框架,之后通過專家評估維度語義或視覺屬性。研究表明,DNN 表征明顯偏向視覺特征,而人類認知則更倚重語義信息。

研究結果揭示了人類與人工智能之間表征對齊面臨的重要挑戰,有助于厘清表征對齊程度的決定因素的異同,有機會深化對人類認知的理解,以構建更安全、更可靠的AI系統。
多模態語義對齊
“多模態大語言模型中自然涌現的類人物體概念表征”【文獻 2】與此相輔相成,研究了大模型能否從語言和多模態數據中形成類人的物體表征。
該研究以 1854 個自然物體為基礎,通過470萬三元組判斷數據構建 66 維嵌入空間,揭示多模態 LLM可自然獲得語義聚類結構,并在語義維度上高度可解釋,與人類心理表征高度重合。
更為驚人的是,模型嵌入與人類大腦多個功能區(比如 EBA、PPA、RSC、FFA 等)展現出神經活動對齊,表明語義表征不僅限于行為層面,更嵌入腦層結構。

這一發現強有力地證明:雖然LLM的物體表征與人類并非完全相同,但二者在反映人類概念知識核心特征方面存在本質相似性。
研究成果既深化了對機器智能的理解,也為開發更具人類特質的認知系統提供了理論依據。
上述兩項視覺與語義對齊研究相互呼應:無監督或自監督訓練增強了模型低維可解釋語義結構,但視覺 DNN 與文本/多模態 LLM 在語義/視覺權重上的差異,也揭示了深度學習系統如何映射不同的認知路徑。
層次結構收斂
Nature: LLM變得越來越像大腦?,筆者引述過去年 Nature上的一項工作:“大語言模型與大腦中情境特征提取層級的趨同性”【文獻 3】,就對 LLM與人類神經處理機制(尤其是語言理解方面) 的相似性做過深入研究。

通過比較多個參數量相近的高性能 LLM各層嵌入與人類語言神經反應的映射能力,發現隨著模型性能提升,不僅大模型對腦活動預測更精準,其提取特征的層次結構也與人腦從聲學、語音到語義的層級處理路徑高度一致。
更進一步的發現是,對話和上下文處理能力不僅提升了 LLM 表征質量,也強化了與大腦語義區的對齊程度,突顯“語境”作為橋梁的重要性。
這一趨勢與視覺領域中“上下文訓練增強語義/風格分離”的結論遙相呼應:無監督和上下文依賴是通向類腦表征體系的關鍵路徑。
無監督生物預訓練
人工智能系統在語義與層次結構上不斷接近人類認知方式。但人腦自身又是如何形成這些表征的呢?
“生物神經網絡中的無監督預訓練”【文獻4】通過同時記錄小鼠初級視覺皮層(V1)和高級視覺區(HVA)中多達90000個神經元的群體活動,對比分析了小鼠在完成多項任務學習時與無獎勵刺激暴露狀態下的神經活動差異。
研究揭示大腦在未接受監督訓練時通過無監督曝光就能大幅重塑神經表征,尤其在HVA 區域,這種自組織機制無需獎勵反饋就能形成對視覺輸入的有效編碼,并在之后的受監督任務中顯著加速學習速度。

這與現在 AI 無監督或自監督預訓練的策略高度相似:預訓練階段構建基礎語義或結構表征,監督學習則用于任務微調。論文提出大腦自身也是這樣進行“Transformer風格”的預訓練:先“看”“聽”“預測”,再“做”“分類”“決策”。
表征認知系統
綜上可以描繪一個統一的表征認知系統:
無監督預訓練作為表征生成底層驅動,視覺 DNN 中的自監督任務幫助抽取低維可解釋特征,LLM 在海量語料中學習語義分布,而腦皮層通過不帶標簽的視覺輸入建立高度結構化表征,后續監督學習提升效率。
層次結構收斂使得模型與人腦的表征組織趨同,不論視覺、語言還是多模態理解,高效模型與人腦都習慣于從低級特征逐步構建到高級抽象,這種路徑在層次結構層面高度一致。
不同模態中通用,無監督為表征候選提供結構廣度,可解釋低維為語義表征打基礎,層次路徑為抽象建模范式提供框架。四篇Nature論文正是這一表征認知系統中不同視角的拼圖。
這與筆者梳理的?大模型的數理認知框架?異曲同工:LLM通過重整化感知,范疇構成內部世界模型,變分推斷做推理。

從認知到行動
四篇文獻共同表明:無監督預訓練和低維、層次結構化的表征是 AI 與人腦趨同的橋梁。
視覺領域的DNN 與人類在表象層面雖有差異,但語義補償與無監督機制讓多模態語言模型距人類表征結構更近。
語言領域的 LLM 在語境建模中展現出和人腦高度一致的分布路徑。而生物神經網絡中自然存在的無監督預訓練機制,更說明了這一學習路線的生物合理性。
然而AI 模型對人類的“模擬”還局限在認知領域,雖有眾多“具身”AI 研究,似乎都還沒有觸及問題的核心。

“人類行為、大腦與深度神經網絡中的運動行為可能性表征”【文獻5】深入研究了“大腦是如何計算并表征運動行為的可能性”之后發現:
人類大腦視覺區域中的激活模式能夠自動地、獨立于其他視覺元素(如表面材質和物體)的表征與運動可能性相關的信息,而常用的AI模型——即基于物體和場景分類訓練的深度神經網絡,并不能很好地表征這類信息。
研究結果表明,場景中的運動行為可能性感知依賴于與其他視覺理解任務不同的專門神經表征機制。
文獻1. 《深度神經網絡與人類表征對齊的潛在維度》https://www.nature.com/articles/s42256-025-01041-7
文獻2. 《多模態大語言模型中自然涌現的類人物體概念表征》https://www.nature.com/articles/s42256-025-01049-z 或 https://arxiv.org/html/2407.01067v3
文獻3. 《大語言模型與大腦中情境特征提取層級的趨同性》https://www.nature.com/articles/s42256-024-00925-4 或 https://arxiv.org/abs/2401.17671
文獻4. 《生物神經網絡中的無監督預訓練》https://www.nature.com/articles/s41586-025-09180-y
文獻5. 《人類行為、大腦與深度神經網絡中的運動動作可供性表征》 https://www.pnas.org/doi/10.1073/pnas.2414005122
本文轉載自??????????????清熙??????????,作者:王慶法

















