AGI今天起有了量化標準!Bengio牽頭定義,當前進度條58%
長期以來,AGI都籠罩在“類人智能”的模糊表述中。
都說它像人一樣聰明,那到底有多聰明呢?
圖靈獎得主Yoshua Bengio聯合Center for AI Safety、加州大學伯克利分校等機構的新作《A Definition of AGI》給AGI下了個可衡量的定義。
“AGI is an AI that can match or exceed the cognitive versatility and proficiency of a well-educated adult.”
AGI是能匹配或超越受過良好教育成年人的認知廣度(versatility )和熟練度( proficiency)的人工智能。

該定義包含兩個關鍵維度:
- 確定了參照系直接錨定“受過良好教育的成年人”,避免了“AGI是超人類智能”這類模糊表述,讓評估有了具體標準。
- 強調全面性不看AI在單一任務上的表現,而是要求它在多個核心認知領域(如推理、記憶、感知等)都達標,不能有嚴重的偏科。
研究團隊設計了一套量化方法來評估當前AI離AGI的距離。
分數越高,離AGI越近
為了把這個標準落地,研究者參考了心理學里驗證過的卡特爾-霍恩-卡羅爾(CHC)理論這個研究人類認知能力的經典模型。

該模型將人類通用智力拆解為10個相互獨立但又關聯的核心認知領域,涵蓋了從基礎感知到高階推理的完整認知鏈條,基于這10個領域,研究團隊對人類傳統認知測試題進行了AI適配改造。
剔除依賴人類生理感知(如觸覺測試)或特定場景(如駕駛場景測試)的題目,保留核心認知邏輯,形成了一套包含500余道題目的AGI評估題庫。具體包括:
- 知識(K):主要測試常識、自然科學、社會科學、歷史、文化等方面的知識儲備。
- 讀寫(RW):考察閱讀和寫作能力,包括對文本的理解、語言表達、文字創作等。
- 數學(M):涉及數學計算、定量推理、數字概念的掌握等數學能力。
- 臨場推理(R):即處理新穎問題、進行邏輯分析與抽象思維的能力,也就是流體推理能力。
- 工作記憶(WM):指短期信息的保持與實時加工能力。
- 長時記憶存儲(MS):衡量AI系統將信息進行長期穩定存儲的能力。
- 長時記憶提取(MR):考查AI能否從長期記憶中高效地提取所需信息。
- 視覺(V):包括圖像識別、空間定位、視覺信息解讀等視覺加工能力。
- 聽覺(A):涉及聲音識別、語音理解、聽覺信息處理等聽覺加工能力。
- 速度(S):主要評估AI快速處理簡單認知任務的效率。
評估采用百分制,每個認知領域滿分10分,系統總分達到100分即判定為達到AGI水平,分數越高代表離AGI的距離越近。
AI雖然進步快,但離AGI還很遠
研究團隊運用上述評估體系,對當前主流LLM進行了全面測試,結果既展現了AI的快速進步,也暴露了其與AGI的巨大差距。
從總分來看,2023年發布的GPT-4總分僅為27分,而2025年版GPT-5總分提升至58分.
兩年間,分數增幅超過115%,反映出大模型在認知能力上的快速迭代。

但從AGI的及格線100分來看,即使是GPT-5,也尚未突破半程線,甚至在長時記憶存儲領域中拿了0分。
具體來說,當前AI與論文中定義的AGI更關鍵的差異體現在認知領域的不均衡性上。

優勢領域集中
據實驗結果來看,當前AI的優勢高度集中于知識儲備與符號處理類領域。
在知識(K)、讀寫(RW)、數學(M)三個領域表現突出,GPT-5在這三項的得分都超過了8。
△知識(K)領域評估
△讀寫(RW)領域評估
△數學(M)領域評估
這些優勢的共性在于均圍繞文本符號的理解與應用展開,是大模型在萬億級數據訓練中形成的模式匹配能力的集中體現。
AI在依賴海量數據訓練的任務中,在這些方面展現出了接近人類成年人的水平。
核心短板顯著
與集中的優勢形成鮮明對比,實驗暴露出AI在感知、記憶、推理等基礎認知領域存在致命短板,并且這些短板無法通過單純的擴大規模彌補。
在 “視覺(V)” 、 “聽覺(A)”領域,大模型的表現堪稱慘淡。
△視覺(V)領域評估
△聽覺(A)領域評估
GPT-4完全不具備圖像識別與聲音處理能力,即使GPT-5也僅能完成簡單的貓犬分類、基礎語音轉文字,遠無法實現人類級別的復雜場景解讀與情感識別。
“長時記憶存儲(MS)”與“提?。∕R)”是另一致命缺陷,說明AI有健忘癥。
△長時記憶存儲(MS)領域評估
△長時記憶提取(MR)領域評估
無法實現信息的長期穩定存儲,也就做不到對學習的內容靈活運用。
“偽全能” 的本質
部分大模型看似具備多任務處理能力,實則是通過技術手段掩蓋短板。
例如,部分模型通過擴大上下文窗口(如支持128k tokens的文本輸入),假裝具備長期記憶能力,但本質上仍是短期工作記憶的擴展,無法實現信息的長期存儲與跨場景調用。
還有模型依賴聯網搜索功能補充知識,看似無所不知,實則暴露了自身知識更新滯后、易產生幻覺的缺陷。
而這項研究的評估體系明確排除了外部工具的輔助,僅衡量AI系統的原生認知能力,使得這些偽全能表現無所遁形。
當然了,論文也明確指出,這套評估只看AI自身的認知硬實力,不管它能調用多少外部工具,也不看它能賺多少錢、替代多少工作,純粹聚焦于智力本身。
就算某個AI總分再高,只要像長期記憶這樣的核心領域是零分,本質上還是有嚴重缺陷的“殘次版”智能,離真正的AGI也還差得遠。
這下,AGI有了可以衡量的定義,從概念到現實,還有多久呢?
論文地址:https://www.agidefinition.ai/paper.pdf


























