《自然》期刊:大腦看世界的方式,竟與語言模型驚人一致
《自然》科學期刊一直站在人工智能與神經科學交匯的前沿,一項來自《Nature Machine Intelligence》的研究正悄然重塑我們對人類視覺系統的理解。8 月 7 日,這篇題為《High-level visual representations in the human brain are aligned with large language models》的論文,提出了一個令人振奮的命題:人類大腦在處理自然視覺場景時,其高級視覺表征竟然與大型語言模型(LLM)對場景字幕的嵌入向量高度一致。這不僅是一次跨模態的對齊嘗試,更是一次對“視覺理解本質”的深度追問。
大腦與語言模型:一場跨模態的共鳴
人類大腦是否將自然場景映射到一個可以被大型語言模型的字幕嵌入近似的高維語義空間?換句話說,我們的大腦是否在“看”時,也在“理解”,而這種理解與語言模型的語義編碼方式不謀而合?
答案是肯定的。研究團隊通過表征相似性分析(RSA)和線性編碼模型發現,MPNet 生成的字幕嵌入與大腦在腹側、外側和頂葉等高級視覺區域的活動模式高度相關。這種對齊不僅在空間上廣泛分布,而且在統計上顯著,說明 LLM 嵌入確實捕捉到了大腦在觀看場景時所激活的語義結構。
更令人驚訝的是,這種嵌入不僅可以預測腦活動,還可以反向解碼。研究者訓練了一個線性模型,將腦活動映射回 LLM 嵌入空間,并通過一個包含 310 萬條字幕的大型字典,成功重構出與被試所觀看圖像相符的自然語言描述。這種“從腦到語言”的路徑,展示了 LLM 嵌入作為語義中介的強大潛力。
對齊的關鍵所在
研究進一步揭示了一個關鍵機制:對齊的成功并非僅僅因為模型捕捉到了物體類別或關鍵詞,而是因為它整合了整句的語境信息。無論是將字幕拆分為名詞、動詞,還是將每個詞單獨嵌入后求平均,都無法達到整句嵌入的對齊效果。這說明大腦在處理視覺信息時,并不是孤立地識別物體,而是在構建一個語義網絡——一個與語言模型處理句子時極為相似的過程。
這種語境整合能力,是 LLM 的核心優勢,也是它與大腦表征產生共鳴的根本原因。
從像素到語義,視覺模型的新范式
研究不僅停留在對齊分析,還將這一發現應用于視覺模型的訓練。團隊構建了一個遞歸卷積神經網絡(RCNN),以 LLM 字幕嵌入為訓練目標,讓模型從像素直接學習到語義空間的表征。結果顯示,這種“語義驅動”的訓練方式,所得到的模型在與腦活動的對齊度上,顯著優于傳統的類別監督、自監督和弱監督模型。
更令人振奮的是,這種模型只用了約 48,000 張圖像進行訓練,卻在多個高級視覺區域的對齊度上全面壓制了使用百萬級圖像訓練的強基線模型。這一結果強烈暗示:與其追求海量數據,不如選擇一個更接近人腦處理方式的訓練目標。
定量、語義、腦對齊
綜合來看,LLM 字幕嵌入不僅是一種語言模型的產物,更是一種可以用于刻畫人腦視覺理解的表征格式。它具備定量性(可操作的向量空間)、語義性(整合上下文信息)和腦對齊性(與高級視覺區活動高度相關),為未來的多模態人工智能系統提供了一個強有力的中介層。
這項研究不僅為神經科學提供了新的分析工具,也為 AI 模型設計提供了新的訓練范式。它讓我們看到,語言模型不僅能“理解語言”,也能“理解視覺”,甚至能“理解大腦”。
這項研究由一個跨國、跨學科的團隊完成,成員來自德國、美國和加拿大的多所頂尖研究機構。共同第一作者 Adrien Doerig 和 Tim C. Kietzmann 分別來自柏林自由大學、奧斯納布呂克大學和伯恩斯坦計算神經科學中心,專注于計算模型與視覺認知。美國明尼蘇達大學的 Emily Allen、Thomas Naselaris、Kendrick Kay 和 Yihan Wu 則負責高分辨率 fMRI 數據的采集與分析。加拿大蒙特利爾大學的 Ian Charest 則在多模態表征與語義整合方面貢獻卓著。
研究所使用的數據集為 Natural Scenes Dataset(NSD),一個包含 73,000 張自然場景圖像和 7T fMRI 數據的大型公開資源。項目代碼與分析工具也已在 GitHub 上開源。
論文鏈接:??https://doi.org/10.1038/s42256-025-01072-0??
數據集主頁:??http://naturalscenesdataset.org??
項目代碼倉庫:??https://github.com/adriendoerig/visuo_llm??
1.數據與方法總覽
這項研究的技術架構堪稱一場跨模態的精密工程。它不僅融合了高分辨率神經影像與語言模型的語義空間,還構建了一條從圖像像素到大腦活動、再到語言描述的閉環路徑。下面,我們來逐步拆解這套系統的核心組成。
數據資源:視覺與語言的雙重注入
研究使用了兩個關鍵數據集。
NSD(Natural Scenes Dataset):這是一個規模龐大的 7T fMRI 數據集,包含來自 8 名受試者的腦活動記錄。每人觀看了約 73,000 張自然場景圖像,每張圖像重復呈現 3 次,任務為連續識別。這為研究者提供了高質量、高重復度的視覺誘發腦響應。
COCO(Common Objects in Context):作為 NSD 圖像的來源,COCO 不僅提供了圖像本身,還附帶了每張圖像的 5 條人工字幕和物體類別標簽。這使得研究可以同時從語言和視覺兩個維度進行監督建模。
文本表征:從詞到句,從嵌入到語境
研究的主力模型是 MPNet(版本為 all-mpnet-base-v2),它是一種句級嵌入模型,專門優化了語義一致性——即不同人對同一場景的描述,其嵌入結果趨于一致。這種特性對于跨被試的腦活動建模至關重要。
為了驗證整句嵌入的優勢,研究還設置了多個控制條件:
- 類別詞串聯(如“dog, tree, car”)
- 名詞/動詞子集(抽取字幕中的詞性)
- 逐詞嵌入平均(模擬無語境的詞向量組合)
- fastText 與 GloVe 等傳統詞嵌入模型
- 多種 Sentence-Transformers 模型(驗證模型普適性)
- 分析框架:從相關性到預測,從編碼到解碼
研究采用了三大分析路徑。
RSA(Representational Similarity Analysis):通過構建模型與腦區的表征相似性矩陣(RDM),在 ROI 和搜索燈范圍內評估嵌入與腦活動的相關性。分析采用獨立圖像子集抽樣,并進行參與者級噪聲上限校正與 FDR 多重比較校正。
線性編碼模型:將 LLM 嵌入作為輸入,預測每個體素的腦活動。使用分數嶺回歸進行參數估計,覆蓋全腦范圍,并在共享圖像上進行測試。
線性解碼模型:反向操作,將腦活動映射回 LLM 嵌入空間,再通過 310 萬條字幕構成的字典進行最近鄰檢索,重構出自然語言描述。
視覺模型訓練:從像素到語義,從網絡到腦
研究者構建了一個遞歸卷積神經網絡(RCNN),基于 vNet 架構,包含十層卷積、側向連接與自頂向下反饋。訓練目標是最小化網絡輸出與 LLM 嵌入之間的余弦距離。
為確保對照嚴謹,研究還訓練了同架構、同數據、同初始化的類別目標 RCNN(預測多熱類別標簽)‘非預訓練的 ResNet50(分別以 LLM 嵌入與類別標簽為目標),13 個強基線模型,包括 ImageNet、ecoset、Places365、Taskonomy、WSL、CLIP、SimCLR 等多種監督與自監督模型
統計評估:穩健性與顯著性并重
所有結果均通過雙側 t 檢驗,并采用 Benjamini–Hochberg FDR 方法進行多重比較校正(P=0.05)。在 ROI 分析中,使用“與其他 7 名參與者平均腦活動的相關性”作為噪聲上限,確保模型性能不被過度夸大。
2.結果與證據鏈
研究的結果部分構建了三條清晰的證據鏈,分別對應于 LLM 嵌入與腦表征的對齊機制、語境整合的關鍵作用,以及視覺模型的訓練優勢。
LLM 嵌入與腦表征對齊
RSA 搜索燈分析顯示,MPNet 嵌入與腹側、外側、頂葉高級視覺區的腦活動顯著相關。
編碼模型成功預測了大范圍體素反應,其性能接近跨被試一致性上限。
通過人物、地點、食物等句子對比,重現了 FFA、OFA、EBA、PPA、OPA 等經典選擇性腦區的調諧模式。
解碼模型從腦活動重建出接近目標的自然語言字幕,驗證了嵌入空間的可逆性。

圖1|LLM嵌入的映射捕獲了對自然場景的視覺反應。

圖2 |基于LLM的大腦活動線性預測和解碼。
超越詞/類的信息整合
類別詞嵌入優于多熱標簽與多數詞向量,但仍顯著不及整句嵌入。
整句嵌入在所有 ROI 中優于名詞/動詞子集(EVC 中名詞例外),形容詞/副詞/介詞貢獻較低。
整句嵌入顯著優于逐詞平均(無論是 LLM、fastText 還是GloVe),表明語境整合是對齊的關鍵。
打亂詞序后嵌入仍與原句高度相關,說明對齊更多由語義而非句法驅動。
多種 Sentence-Transformers 模型與 MPNet 表現相近,驗證了方法的普適性。

圖3| LLM與視覺誘發的大腦活動的匹配源于它們整合場景字幕中包含的復雜信息的能力。
像素到 LLM 的視覺模型
LLM-trained RCNN 的腦對齊度顯著優于其訓練目標(原始嵌入),說明模型保留了字幕未顯式包含的視覺信息。
在嚴格同構對照下(架構、數據、初始化一致),LLM 目標訓練顯著優于類別目標訓練;該結果在 ResNet50 上復現。
LLM-trained RCNN 可線性讀出類別標簽,而類別訓練網絡難以讀出 LLM 嵌入,表明 LLM 表征更具語義覆蓋力。
在腹側與頂葉 ROI 中,LLM-trained RCNN 壓制全部強基線模型;在外側 ROI 幾近全勝,且訓練僅用約 48,000 張圖像。

圖4|LLM訓練的深度遞歸卷積網絡在預測大腦活動方面優于其他模型。
3.語言模型為何能“讀懂”大腦
這項研究之所以令人震撼,不僅因為它揭示了語言模型與人腦視覺表征之間的高度一致性,更因為它觸及了一個深層次的問題:我們的大腦究竟是如何理解世界的?而語言模型,又是如何在沒有視覺經驗的前提下,構建出與人類視覺系統高度契合的語義空間?
答案的關鍵在于“世界統計”與“語境整合”。大型語言模型通過海量文本訓練,學會了捕捉詞與詞之間的關系、句子與場景之間的邏輯,以及人類描述世界的方式。這種語義編碼方式,恰好與大腦在處理視覺場景時的抽象組織方式相契合。我們的大腦并不是孤立地識別物體,而是在構建一個語義網絡——一個與語言模型處理句子時極為相似的過程。
更重要的是,LLM 的嵌入不僅能捕捉類別信息,還能整合物體的共現關系、空間位置、場景語法甚至動作暗示。這種統一的表示能力,使得它不僅是一個語言工具,更是一個潛在的“認知中介”。它可以將神經科學中分散的發現——如物體共現、典型位置、場景類別等——整合到一個可計算、可操作的高維空間中,為視覺神經科學提供了一個前所未有的量化框架。
當然,這種對齊并不意味著視覺表征具備語言的句法結構。研究發現,即使打亂字幕的詞序,嵌入與腦活動的對齊度仍然很高。這說明大腦與 LLM 的對齊更多是基于語義和世界知識,而非語言的遞歸性或語法規則。這也提醒我們,在構建跨模態模型時,應關注語義整合而非語言形式。
一個令人振奮的啟示是:以 LLM 嵌入為訓練目標的視覺模型,在數據量遠小于傳統模型的情況下,依然能學得更接近人腦的表征。這表明強語義目標可能比海量數據更重要。雖然 LLM 本身是通過大規模文本訓練得到的,其“語義密度”遠高于傳統的類別標簽,這是否應計入總數據量仍是一個開放問題。但無論如何,這種訓練方式為數據效率提供了新的思路。
更遠的前景是跨模態與跨物種的應用。如果視覺和聽覺系統都能投射到一個類似的 LLM 式語義空間,那么這個空間就可以作為“公共交換碼”,實現感知系統之間的信息融合。甚至在沒有語言系統的物種中,如獼猴或其他哺乳動物,也可能通過這種語義空間進行腦活動的預測與解碼。這不僅拓展了神經科學的研究邊界,也為構建更通用的人工智能系統提供了理論支撐。
4.從解釋到擴展
盡管成果令人鼓舞,但這項研究也面臨一些挑戰與開放問題。
首先是可解釋性。雖然我們知道 LLM 嵌入與腦活動高度相關,但具體哪些嵌入維度對應哪些腦區,仍不清楚。這需要將解釋型AI 與神經科學的可解釋性方法結合起來,構建更透明的模型。
其次是任務范式的影響。NSD 使用的是連續識別任務,被試可能在觀看圖像時進行內部“自我字幕化”,這可能增強了語言模型的對齊效果。未來需要在其他任務設置下驗證這種對齊是否依然成立。
還有一個值得注意的問題是語序與句法結構。研究發現,簡單字幕的詞序不敏感,但這不代表復雜句子也如此。我們需要擴大語料范圍,并進行更系統的句法操縱,探索語言結構在對齊中的作用。
在監督信號選擇方面,語言監督(如 LLM 嵌入)與類別監督、對比學習等目標之間的系統權衡仍需深入研究。不同目標在腦對齊度、數據效率、泛化能力上的表現可能差異巨大。
最后是廣泛適配的問題。這套方法是否能推廣到其他物種、其他感覺通道(如聽覺、觸覺),以及更復雜的跨模態認知任務?這是未來 NeuroAI 研究的重要方向,也可能是我們真正理解“智能”的關鍵一步。
這項研究不是終點,而是一個起點。它讓我們看到了語言模型不僅能理解語言,也能理解視覺,甚至能理解大腦。而我們也許正站在一個新的認知科學與人工智能融合時代的門檻上。
參考資料:???https://doi.org/10.1038/s42256-025-01072-0??
本文轉載自??波動智能??,作者:FlerkenS

















