NeurIPS 2025 | 上下文元學(xué)習(xí)實(shí)現(xiàn)不微調(diào)跨被試腦活動預(yù)測
本文作者來自香港大學(xué)、香港中文大學(xué)、卡內(nèi)基梅隆大學(xué)、哈佛大學(xué)、哥倫比亞大學(xué)等多所頂尖高校。其中論文第一作者是喻牧泉,來自香港中文大學(xué),主要研究方向?yàn)橛?jì)算神經(jīng)科學(xué)與腦機(jī)接口。通訊作者為羅逸飛(Andrew F. Luo),香港大學(xué)助理教授。
人類高級視覺皮層在個體間存在顯著的功能差異,而構(gòu)建大腦編碼模型(brain encoding models)—— 即能夠從視覺刺激(如圖像)預(yù)測人腦神經(jīng)響應(yīng)的計(jì)算模型 —— 是理解人類視覺系統(tǒng)如何表征世界的關(guān)鍵。傳統(tǒng)視覺編碼模型通常需要為每個新被試采集大量數(shù)據(jù)(數(shù)千張圖像對應(yīng)的腦活動),成本高昂且難以推廣。盡管現(xiàn)有方法可利用預(yù)訓(xùn)練視覺模型(如 CLIP )提取圖像特征,并通過線性回歸擬合腦響應(yīng),這類模型仍嚴(yán)重依賴大量被試內(nèi)數(shù)據(jù),在少樣本甚至零樣本條件下難以快速適應(yīng)新個體,限制了其在臨床、個性化神經(jīng)科學(xué)等現(xiàn)實(shí)場景中的應(yīng)用。
為解決這一挑戰(zhàn),BraInCoRL(Brain In-Context Representation Learning)提出一種基于元學(xué)習(xí)的上下文Transformer跨被試腦編碼模型,僅憑少量示例圖像及其對應(yīng)的腦活動數(shù)據(jù),即可無需微調(diào)地預(yù)測新被試在面對全新圖像時的腦響應(yīng)。該模型在多個公開fMRI數(shù)據(jù)集上表現(xiàn)出卓越的數(shù)據(jù)效率與泛化能力,甚至可跨掃描儀、跨協(xié)議進(jìn)行有效預(yù)測。
本工作發(fā)表于 NeurIPS 2025 中的文章《Meta-Learning an In-Context Transformer Model of Human Higher Visual Cortex》。

- 論文鏈接:https://arxiv.org/abs/2505.15813
- 代碼鏈接:https://github.com/leomqyu/BraInCoRL
背景和創(chuàng)新
人類高級視覺皮層(如梭狀回面孔區(qū) FFA、海馬旁位置區(qū) PPA 等)對語義類別(人臉、場景、食物等)具有選擇性響應(yīng)。盡管這些區(qū)域在被試間位置大致一致,但精細(xì)的功能組織存在顯著個體差異 —— 這使得為每個新被試構(gòu)建高精度編碼模型必須依賴大量功能磁共振成像(fMRI)掃描(通常需數(shù)千圖像),成本極高。
當(dāng)前主流方法多采用“圖像特征 + 線性回歸”的范式,雖在單個被試上表現(xiàn)良好,但無法跨被試泛化,必須為每位新用戶重新訓(xùn)練模型。近期一些工作嘗試引入 Transformer 架構(gòu)建模多被試數(shù)據(jù),但仍需在新被試數(shù)據(jù)上進(jìn)行微調(diào),未能真正擺脫對大量個體數(shù)據(jù)的依賴。
針對這一瓶頸,本文提出一種全新的建模范式:將每個腦體素(voxel)視為一個獨(dú)立的、從視覺刺激到神經(jīng)響應(yīng)的響應(yīng)函數(shù)。fMRI 測量僅提供該函數(shù)在有限輸入下的帶噪采樣,而訓(xùn)練目標(biāo)是從這些稀疏觀測中推斷出一個可計(jì)算、可泛化的映射。基于元學(xué)習(xí)和上下文學(xué)習(xí)范式,本文提出一種全新的BraInCoRL腦編碼架構(gòu),在訓(xùn)練階段從多被試數(shù)據(jù)中學(xué)習(xí)視覺皮層響應(yīng)的共享結(jié)構(gòu);在測試階段,僅需提供極少量(如 100 張)新被試的圖像-腦響應(yīng)對作為上下文,即可無需任何微調(diào),直接生成適用于該被試的體素級編碼器,并準(zhǔn)確預(yù)測其對全新圖像的神經(jīng)活動。
方法細(xì)節(jié)
元學(xué)習(xí) + 上下文學(xué)習(xí):將每個體素視為一個任務(wù)
BraInCoRL 的核心思想是將每個體素的視覺響應(yīng)建模為一個獨(dú)立的函數(shù)推斷任務(wù),并將其置于元學(xué)習(xí)(meta-learning)與上下文學(xué)習(xí)(in-context learning, ICL)的統(tǒng)一框架下。
具體而言,對任意體素
(可來自任意被試),我們假設(shè)存在一個未知但可計(jì)算的映射函數(shù):

其中
為輸入圖像, 為該體素對
的 fMRI 響應(yīng)(即 beta 值)。
傳統(tǒng)方法將此視為監(jiān)督回歸問題,需為每個新被試單獨(dú)擬合 。而 BraInCoRL 將其重新定義為:
給定一個支持集(support set)
其中
是由凍結(jié)的視覺編碼器(如 CLIP)提取的圖像嵌入。學(xué)習(xí)目標(biāo)是在不更新任何參數(shù)的情況下,直接推斷出
,并用于預(yù)測新圖像
的響應(yīng)。
為實(shí)現(xiàn)這一目標(biāo),BraInCoRL 將每個體素視為一個元學(xué)習(xí)任務(wù)。在訓(xùn)練階段,模型從多個被試的數(shù)千個體素中隨機(jī)采樣,通過 Transformer 學(xué)習(xí)跨被試、跨體素的視覺–神經(jīng)映射共性,即學(xué)習(xí)一個通用的上下文推理算法。
在測試階段,當(dāng)面對一個全新被試時,僅需提供其少量(例如 100 個)圖像–腦響應(yīng)對(image-activation pair)作為上下文輸入。模型通過前向計(jì)算,動態(tài)生成該被試專屬的體素編碼器
:

其中
即是 BraInCoRL 中的高級視覺皮層上下文 Transformer。

架構(gòu)設(shè)計(jì):
架構(gòu)上,BraInCoRL 包含三個部分:
凍結(jié)的圖像特征提取器(如 CLIP、DINO)將圖像編碼為圖像嵌入(image embeddings);
高級視覺皮層上下文 Transformer:接收若干圖像嵌入-腦響應(yīng)對作為上下文,通過自注意力機(jī)制融合跨被試知識,并直接生成體素編碼器的權(quán)重;
輕量體素編碼器:線性層,使用生成的權(quán)重對新圖像預(yù)測腦響應(yīng)。
此架構(gòu)在訓(xùn)練時顯式優(yōu)化上下文學(xué)習(xí)能力,使模型學(xué)會如何從少量樣本中推斷出一個體素的響應(yīng)函數(shù)。

三階段訓(xùn)練策略:
- 預(yù)訓(xùn)練階段:使用合成的體素權(quán)重與噪聲構(gòu)造大量虛擬體素任務(wù),訓(xùn)練模型基礎(chǔ)能力。
- 上下文擴(kuò)展階段:引入可變長度的上下文樣本,提升模型對不同樣本數(shù)量的適應(yīng)能力。
- 有監(jiān)督微調(diào)階段:使用真實(shí)fMRI數(shù)據(jù)進(jìn)一步優(yōu)化,使模型適應(yīng)生物腦響應(yīng)特性。
實(shí)驗(yàn)結(jié)果
1、極高的數(shù)據(jù)效率
在Natural Scenes Dataset (NSD)數(shù)據(jù)集 上,BraInCoRL僅使用100張上下文圖像,即在多個類別選擇性腦區(qū)(如面孔、地點(diǎn)、身體、食物、文字)上達(dá)到與全量訓(xùn)練模型(9,000張圖像)相近的解釋方差,顯著優(yōu)于基于相同樣本量的嶺回歸基線。同時在上下文數(shù)量變化的情況下,模型也表現(xiàn)出強(qiáng)大的穩(wěn)定性。


2、跨數(shù)據(jù)集泛化
在BOLD5000數(shù)據(jù)集(3T掃描儀,與訓(xùn)練集不同刺激協(xié)議)上,BraInCoRL同樣表現(xiàn)出色,驗(yàn)證其跨設(shè)備、跨協(xié)議的魯棒性。

3、語義聚類可視化揭示體素功能組織
在 UMAP 可視化中,BraInCoRL 生成的體素權(quán)重呈現(xiàn)出清晰的語義聚類,人臉、場景、身體、食物等功能區(qū)域各自形成獨(dú)立簇,且在多個被試間穩(wěn)定復(fù)現(xiàn)。

4、語義對齊與可解釋性
通過分析 BraInCoRL 的注意力機(jī)制,我們可以了解視覺皮層的功能組織,并發(fā)現(xiàn)與體素選擇相關(guān)的圖像。例如分析 Transformer 最后一層注意力權(quán)重,發(fā)現(xiàn)模型在預(yù)測“面孔區(qū)域”響應(yīng)時,會自動關(guān)注上下文中的人臉圖像,驗(yàn)證了其語義合理性。

5、自然語言驅(qū)動的大腦探查
將 CLIP 文本提示(如 “a photo of a person's face”)映射為圖像嵌入,輸入 BraInCoRL,即可零樣本預(yù)測整個皮層的激活圖。

結(jié)語
BraInCoRL 首次將上下文學(xué)習(xí) (In-Context Learning) 引入計(jì)算神經(jīng)科學(xué),構(gòu)建了一個無需微調(diào)、數(shù)據(jù)高效、可解釋、支持語言交互的通用視覺皮層編碼框架。該方法大幅降低了個體化腦編碼模型的構(gòu)建門檻,為未來在臨床神經(jīng)科學(xué)等數(shù)據(jù)受限場景中的應(yīng)用開辟了新路徑。















是由凍結(jié)的視覺編碼器(如 CLIP)提取的圖像嵌入。學(xué)習(xí)目標(biāo)是在不更新任何參數(shù)的情況下,直接推斷出
,并用于預(yù)測新圖像
的響應(yīng)。



















