人工智能的基石:思維的結構與智能的邊界
當代認知科學面臨一個迷人卻頑固的謎題,即為何多數物種早已掌握快速學習與遷移,卻唯有人類能靈活創造符號、進行高層類比?
美國伊利諾伊大學香檳分校團隊將這個問題置于生物進化與計算建模的交叉口。研究者首先聚焦動態綁定——這一從果蠅到人類普遍存在的“表征引擎”如何支撐快速泛化。
然而,僅有動態綁定尚不足以生成完整的符號思維,還需要哪些核心能力?是將多實體綁成層級謂詞的“多元關系表征”,還是在不同情境間建立對應的“結構映射”?或者兩者可否相輔相成、相互替代?
更進一步,這些能力對認知發展、神經損傷患者的功能缺失,以及符號思維的漫長演化歷程又意味著什么?這一系列問題貫穿研究,成為團隊構建2×2架構×任務模擬體系的出發點。
這項研究由美國伊利諾伊大學厄巴納-香檳分校跨學科團隊主導。John E. Hummel擔任心理學系、哲學系與信息學教授,長期探索類比推理、神經計算模型與符號系統的交匯;Rachel F. Heaton則橫跨藝術與設計學院、哲學系、信息學及Siebel設計中心,專注于視覺認知與設計思維的融合。
兩位作者分別擁有ORCID標識(Hummel 0000-0002-1585-9155;Heaton 0000-0002-7121-7691),其跨越心理學、哲學、設計與信息學的背景,正是將基礎可供性推向符號思維的計算系統發育這一宏大主題得以深入展開的關鍵動力。
1.計算架構總覽(2×2 能力空間)
在探索符號思維的最小計算成分時,研究團隊構建了一個“能力空間”矩陣,將認知架構按是否具備多元關系表征與結構映射能力,劃分為四種典型類型。
DBO(Dynamic Binding Only)
這一架構僅依賴動態綁定,把環境中可檢測的不變性特征與對象瞬時關聯起來,卻不支持將多組角色–填充物整合成高階關系,也無法在不同結構間建立映射。
RO(Relations Only)
RO 可以把兩個或更多角色和它們的填充物綁定為層級化的“多元謂詞”,使關系成為獨立實體;但缺乏結構映射機制,無法將一個關系系統記憶并遷移到新情境。
MO(Mapping Only)
完整掌握結構映射之道——能在“源”“目標”結構之間建立一對一對應,并將這些映射存入記憶;卻不具備將多個角色綁定為同一多元關系的能力。
R&M(Relations & Mapping)
將多元關系表征與結構映射雙重能力融會貫通,既能刻畫層級關系,也能跨結構對齊復用,是達成基本符號思維的最小必要組合。
這些架構共同基于動態綁定這一底層機制:它讓神經系統把“紅色”“大牙”“快速接近”等不變性特征,與具體對象瞬間綁定在一起。多元關系則將多組角色–填充物捆綁成可嵌套、可遞歸的謂詞結構;結構映射(受1:1對應約束)讓系統在不同結構間尋找相似角色并記憶對應。

圖1 LISA長期記憶中的知識表示(“LISAese”)。
為了保持各架構推理機制的可比性,團隊故意不啟用 LISA 中更復雜的 CWSG(Composition-with-Shared-Graph)或交集發現算法,而是統一以“可供性語義單元能否與感知端的關鍵對象同步激活”為唯一性能指標。
2.任務設計與評估指標
圍繞上述四種認知架構,研究者設計了一組由簡到難的實驗任務,唯一的評估標準是不論多么微妙的干擾,系統能否把記憶中目標對象的“可供性”推導并動態綁定到感知端的關鍵對象(Critical)上。
DBO 任務(基礎可供性) 只考察單元謂詞的泛化能力:給出一次“能走在這個表面”示例,系統能否在全新表面上立即推斷同樣的可供性。
RO 任務(純關系感知) 在感知與記憶兩端都使用多元關系詞匯,考察架構對外部關系的感知與記憶聯合作用。為了模擬不同感知缺失,還設有“Balint’s 版本”(只有記憶有關系)與“Cat 版本”(兩端都無關系)兩種對照。
MO 任務(僅映射) 將顏色或紋理等干擾屬性刻意與正確對象混淆,迫使系統憑借已學的一對一映射,將記憶中目標對象的可供性在屬性匹配失敗時依然繼承到關鍵對象。
R&M 任務(雙能力) 以新型咖啡機的水箱與濾籃關系為例,只有當系統既能識別“水箱在濾籃上方并相連”的多元關系,又能將這一結構映射到記憶端已知機型,才能正確推斷“能向水箱倒水”。
3.模擬設置與表示細節
在所有實驗中,感知端(Perception)扮演“驅動”角色,記憶端(Memory)則作為“接收”對象。每當一個感知命題被觸發,便會在記憶中激活對應單元,完成一次信息流動。這種一對一的觸發機制確保了各架構在同一樣例上接受了完全相同的輸入,便于后續性能比較。
為了考驗架構對層級關系與結構映射的依賴,研究者在語義編碼上刻意制造了干擾與偏置。無論是顏色、紋理,還是空間位置,都在“正確對應”與“誤導對應”之間精心平衡——當錯誤的語義重疊足夠強時,只有能利用關系層級或已學映射的架構,才有機會糾正這一偏差。
與此同時,始終施行1:1映射約束,要求每一個感知端結構角色只能對應到記憶端的單一角色,從而防止“多對多”或“多對一”的捷徑映射。

圖2僅動態綁定(DBO)任務的LISE表示。
針對不同能力組合,任務版本也做了巧妙適配。對于不支持多元關系表征的DBO和MO架構,實驗使用“Cat”(單元謂詞)版本,將位置、連通性等關系拆解為單獨的location1、location2 等謂詞;而對RO和R&M等具備二元關系能力的架構,則直接采用 top-connected(water-tank, filter-basket)、side-connected(water-tank, filter-basket) 等二元連接關系,讓它們能完整調用多元謂詞的層級結構。
4.結果解讀:架構 × 任務表現矩陣
以下矩陣總結了四類架構在四項任務中的成敗情況,勾勒出多元關系與結構映射各自的“對號入座”地圖:

DBO 任務中,只需動態綁定單元謂詞,所有架構均能快速泛化并成功推斷,不存在“能力冗余”的負遷移。

圖3:僅動態綁定(DBO)任務的仿真結果。
RO 任務要求記憶與感知兩端都具關系詞匯,只有RO和R&M架構能直接感知并利用該關系;即便“Balint’s 版本”在記憶中保存了關系,但因為感知端不具備,仍然無法得解。
MO 任務則引入顏色/紋理干擾,只有MO和R&M能憑借已學映射跨屬性繼承可供性,成功克服語義重疊。
R&M 任務匯聚二者優勢:單靠多元關系或單靠映射均無力解決,唯有同時具備兩種核心能力的R&M,方能在新咖啡機案例里正確推導“向水箱倒水”。
在對比架構的時間動力學曲線時,可以看到一個清晰的共性:所有架構在首次觸發時都會被語義重疊與錯誤對應所偏向,關鍵對象往往與“無可供性”一同激活。隨著迭代推進,MO與R&M架構通過學習到的映射連接開始逆轉這種偏差,而RO與R&M則借助層級關系結構克服語義噪聲。兩種機制在各自擅長的任務里,相互補充,也合力彰顯了“多元關系”與“結構映射”各自對符號思維不可或缺的地位。
5.關鍵發現與理論含義
一系列模擬驗證了“多元關系表征”和“結構映射”各自的不可替代性,僅靠映射無法補償缺乏層級關系的短板,正如MO架構在RO任務中束手無策;而只有關系、沒有映射,同樣無法在MO任務中得出正確結論,RO架構也同樣失利。

圖4:僅關系(RO)任務的仿真結果。
這一獨立性命題的成立,讓我們看到符號思維并非單一機制驅動,而是多重能力并行協作的成果。
從發展心理學角度審視,這兩種能力的到位呈現出漸進軌跡:幼兒最初依賴直觀特征,隨后在不斷探索中開始感知對象間的關系,最終將這些關系納入記憶并遷移運用。
更令人振奮的是,模擬還對臨床提供了具體預測——Balint’s綜合征患者若缺乏對空間與關系的感知,就可能連“能否將新物體堆疊在一起”這樣看似簡單的任務都難以判斷。

圖5:僅映射(MO)任務的仿真結果。
值得一提的是,盡管RO和MO架構都做了能力擴充,它們在最基礎的DBO任務中并未出現速度或準確度的下降。這意味著,哪怕引入更復雜的層級關系或映射記憶,也不會對“只需動態綁定”的簡單泛化任務產生負面影響。換言之,進化和開發一套新能力,并不會犧牲已有認知高效性。
6.計算系統發育框架:從不變性到符號
回溯生物智能的演化歷程,可以勾勒出一條從“感知不變性”到“復雜符號思維”的清晰進階路徑。最初,神經系統必須明確而獨立地編碼環境中的不變性特征——紅色、圓形、逼近的速度、大牙的威脅感……這些獨立的“原子”讓生物得以在新情境中迅速泛化。
緊接著,動態綁定機制應運而生,使得這些不變性能夠按需組合:紅色+圓形與紅色+逼近,不再是糾纏的一團,而是可拆分、可重組的認知單元。
在此基礎上,具備單元謂詞泛化的架構(DBO)便能在僅看一次“可走”示例后,自動推斷新地面的可供性。再往前走一步,能夠把多個角色–填充物捆綁為層級化多元謂詞(RO)就能真正表征對象間的關系,諸如“水箱在濾籃之上并相連”這類復雜結構才有了獨立身份。
結構映射的出現(MO)賦予智能體將整體場景與記憶中類似場景一一對應并記憶復用的能力。終于,當二者合流(R&M),具備了同時表征關系與跨情境映射的最簡計算條件,基礎符號思維便在此刻突現。

圖6:關系和映射(R&M)任務的仿真結果。
而邁向更高階的符號演繹與類比,則需要額外的CWSG與模式歸納機制,它們為多命題系統提供了圖式推理與交集發現的強大引擎。總體來看,這七個階段——不變性檢測、動態綁定、單元謂詞泛化、多元關系、結構映射、關系+映射,直至CWSG/模式歸納——構成了一個生物智能到符號智能的計算系統發育圖譜。
在自然界的不同物種中,我們已見到這條路徑上的碎片性表現:大黃蜂或許能對鄰近物體的組合關系做出反應;老鼠對因果關系的表征初露端倪;黑猩猩的工具操作則展現了基本的結構映射能力。
但直到人類,這套能力組合才真正齊備,才得以駕馭語言、數學和無窮盡的類比藝術。正是在這一計算系統的每一步進化中,單一的學習與泛化,才得以升華為對世界深度理解與靈活操控的真正符號思維。
7.拓展:語言與人類獨有的類比
語言作為人類最復雜的符號系統,本身就建立在多元關系和結構映射的雙重基座之上。任何一句句子,都在表達一個或多個參數的關系:主語與謂語、賓語與狀語乃至修飾語之間,層層遞歸、可套可拆,仿佛多元謂詞在句法結構中的活體演繹。
正因如此,語言天生支持遞歸——無論是定語疊加,還是從句層層套用,都離不開對多參數關系的靈活表征。
與此同時,語言還具有“可映射性”的天然優勢。每當我們將文字與世界對齊時,便在句子成分與現實對象之間建立了一一對應。
描述一幅圖景時,我們可以直接指出“這段文字說的是那扇開著的門”,或者更抽象地把復雜事件映射成比喻與類比,這種顯性或可被闡釋的映射能力,讓語言成為跨域遷移與新知發現的利器。
有趣的是,支撐這種多元關系表征與映射能力的基因突變很可能也推動了語言的誕生與演化。我們或許能把關系與映射的神經計算機制,視作語言進化中的核心驅動,讓聲音、文字得以承載無窮盡的符號和意義,也讓我們在不同范疇之間自由穿梭,從天體運行到原子結構都能一語道破。
8.人工智能對照與方法論啟示
當代Transformer大模型的“驚人表現”似乎動搖了傳統對動態綁定、多元謂詞與結構映射的信念。憑借海量文本的統計學習,它們在人機對話和類比題解上也能取得讓人側目的成績。
然而深究其背后,卻發現高度糾纏的表征讓模型在面對罕見或不常見的角色–填充物組合時頻頻失手。一次“帳篷在海鷗翅膀上”這樣的新奇場景,很可能令它們拼湊出奇怪的“混合物”或干脆放棄正確布局——因為沒有獨立表征“帳篷”“海鷗”“機翼”及它們之間的關系,只能依賴過去出現過的聯合統計。

圖7:三個prompt 的不同結果:你能創建一個新的帳篷日間視點1:1寬高比的照片級真實感圖像停在海鷗機翼上的飛機機翼上。
第一行:ChatGPT o4 mini(OpenAI,2025),OpenAI專門從事視覺推理的模型,傾向于為了使飛機和鳥雜交。
第二行:ChatGPT o3(OpenAI,2025),OpenAI的高級推理模型也傾向于將飛機和鳥類雜交。
第三行:谷歌Gemini 2.5 Flash(谷歌,2025),顯示出一些趨勢雜交,但在生成時也會顛倒關系或添加部分的副本不尋常的空間關系的圖像。每行中的第一張圖片描繪了大模型的對提示的最佳回應。
這種重度依賴大規模訓練數據來不斷擴展“凸包”的做法,導致AI系統在數據稀缺或能耗受限的環境下,泛化能力急劇下降,與生物智能那種幾次示例就能學會新詞、新操作的高效外推形成鮮明對比。
此時,回望研究團隊所提出的LISA框架,我們能從中汲取兩大要義:一是明確而獨立地表征不變性,讓關鍵概念如“可走”“可倒水”“因果關系”擁有專門神經單元;二是通過動態綁定、層級關系和結構映射,將這些不變性靈活組合,并少樣本地快速泛化。
將這些原則融入未來AI架構,不僅能減少對海量標注數據的依賴,還能顯著提升資源效率,使得智能系統在能耗、算力受限的設備上也能展現類人般的快速學習與跨域遷移潛力。映射記憶和層級關系綁定,或許應成為下一代可解釋神經網絡的核心模塊,讓人工智能從“數據驅動”更進一步,邁向“結構驅動”的真正智能。
這項研究的核心結論可以歸納為一個“最小充分條件”:在動態綁定的基礎上,只有同時具備多元關系表征與結構映射能力的認知架構,才能完成最基本的符號思維任務。這兩項能力是獨立的、不可互相替代的,但它們的協同作用卻是開啟類比、語言、圖式推理等更高階認知的關鍵。
而當這兩項能力與CWSG等機制結合時,認知架構便能處理更復雜的命題系統,實現真正意義上的系統性符號推理。這不僅為理解人類智能提供了理論支撐,也為人工智能的發展指明了方向。
參考資料:???https://arxiv.org/pdf/2508.15082??
本文轉載自??波動智能??,作者:FlerkenS?

















