編輯 | 聽雨
“什么是 AGI?”
這是所有科技公司都在喊的口號,卻也是一個模糊得幾乎無法定義的詞。
OpenAI 說它要“追求 AGI”;Anthropic 宣稱 Claude 是“朝向 AGI 的安全智能體”;谷歌和 Meta 則都聲稱自己“正在逼近 AGI”。
但——什么才算真正的 AGI?
沒人說得清。
直到現在。
由圖靈獎得主Yoshua Bengio、前谷歌 CEO 埃里克?施密特、紐約大學教授 Gary Marcus 等30 多位頂級科學家聯合撰寫的論文 《A Definition of AGI》 正式給出了答案:
“AGI 是一種能在認知的廣度與熟練度上,達到或超越受過良好教育的成年人的人工智能。”
圖片
更重要的是,他們不僅給出了定義,還提出了一套可量化、可打分的“AGI 評分體系”。
結果令人震驚:
GPT-4 的 AGI 得分只有 27%;
GPT-5 則達到了 58%。
圖片
換句話說:
GPT-5 的“綜合認知能力”,相當于一個受過高等教育成年人一半的水平。
一、十大認知維度:分數越高,離AGI越近
這套評估體系并非憑空想象,而是建立在人類心理學中最權威的模型——卡特爾-霍恩-卡羅爾(CHC)智能理論之上。
它將人類通用智能拆分為10 個核心認知領域,每項權重相同(10%),共同構成完整的“智能光譜”。
圖片
具體包括:
1、知識(K):主要測試常識、自然科學、社會科學、歷史、文化等方面的知識儲備。
2、讀寫(RW):考察閱讀和寫作能力,包括對文本的理解、語言表達、文字創作等。
3、數學(M):涉及數學計算、定量推理、數字概念的掌握等數學能力。
4、臨場推理(R):即處理新穎問題、進行邏輯分析與抽象思維的能力,也就是流體推理能力。
5、工作記憶(WM):指短期信息的保持與實時加工能力。
6、長時記憶存儲(MS):衡量AI系統將信息進行長期穩定存儲的能力。
7、長時記憶提取(MR):考查AI能否從長期記憶中高效地提取所需信息。
8、視覺(V):包括圖像識別、空間定位、視覺信息解讀等視覺加工能力。
9、聽覺(A):涉及聲音識別、語音理解、聽覺信息處理等聽覺加工能力。
10、速度(S):主要評估AI快速處理簡單認知任務的效率。
研究團隊還為每一維度設定了測試題,例如:
“掉下玻璃瓶會怎樣?”(常識)
“2kg 物體以 3m/s 勻速運動,合力是多少?”(科學)
“請為這段視頻寫一句說明。”(視覺理解)
“請規劃一趟 14 天的歐洲旅行。”(推理與計劃)
評估采用百分制,每個認知領域滿分10分,系統總分達到100分即判定為達到AGI水平,分數越高代表離AGI的距離越近。
二、GPT-5 更聰明了,但還不會“真正學習”
研究團隊指出,當代AI 的智力結構極不平衡,呈現出所謂的“Jagged Profile(鋸齒型智能)”。這意味著AI并非在所有方面都同樣聰明,而是在其能力上表現出極端的波峰和波谷。
圖片
從實驗結果來看,AI 在知識(K)、讀寫(RW)、數學(M)三個領域表現突出,GPT-5在這三項的得分都超過了8。
圖片
知識(K)領域評估
圖片
讀寫(RW)領域評估
圖片
數學(M)領域評估
這些領域有一個共性:都圍繞著文本與符號的理解和運用展開。換句話說,這正是大模型在萬億級語料訓練中形成的模式匹配能力的集中體現。
在依賴大規模數據的任務上,AI 已經展現出接近受過良好教育成年人的水平。
但真正決定“通用智能”的,不是會背多少知識,而是能否像人一樣理解、記憶與推理。
在這些核心認知機制上——尤其是長期記憶和多模態推理方面——AI 依然存在致命短板,部分維度甚至是“掛零”的狀態。
圖片
視覺(V)領域評估
圖片
聽覺(A)領域評估
GPT-4完全不具備圖像識別與聲音處理能力,即使GPT-5也僅能完成簡單的貓犬分類、基礎語音轉文字,遠無法實現人類級別的復雜場景解讀與情感識別。
圖片
長時記憶存儲(MS)領域評估
長時記憶提取(MR)領域評估
GPT-5在長期記憶這一項上依舊掛零,這也是目前最顯著的瓶頸。
這說明它依然是一個“失憶體”,無法像人類一樣持續積累經驗。
“長期記憶存儲或許是最重大的瓶頸,當前模型的得分接近0%。由于無法持續學習,AI系統患有‘失憶癥’,這限制了它們的效用,迫使AI在每次交互中都必須重新學習上下文。”
一句話總結:
GPT-5 更聰明了,但還不會“真正學習”。
三、“聰明的假象”:AI 的能力扭曲
更關鍵的是,AI 還學會了“偽裝聰明”。
研究中提供了兩個主要例子:
1、巨大的上下文窗口 VS 真實的記憶:
AI沒有真正的長期記憶,而是依賴巨大的“工作記憶”(即其上下文窗口)來追蹤信息。研究分析指出,這種方法“效率低下、計算成本高昂”,并且“無法擴展”到需要長期積累上下文的任務中。
2、外部搜索 VS 可靠的檢索:
為了對抗“幻覺”(即一本正經地胡說八道),AI使用檢索增強生成(RAG)技術來查找事實。這被描述為一種“拐杖”或“扭曲”,它掩蓋了AI無法可靠訪問其內部知識的缺陷,更重要的是,它掩蓋了AI缺乏“動態的、經驗性的記憶”這一事實。
這些“聰明的假象”其實是能力扭曲(Capability Contortion):
它們只是用短期技巧彌補長期缺陷,制造出“智能的幻覺”。
論文提出了一個形象比喻:
智能就像一臺發動機。
AI 的總“馬力”受最弱部件限制。
哪怕GPT-5 在語言領域馬力全開,但它的“記憶引擎”幾乎報廢。
沒有長期學習、沒有真正理解,再高的分數都只是“速度型選手”,而非“思考者”。
論文直言:
“這種補償式智能無法持續擴展,也無法支撐真正的通用智能。”
四、AGI ≠ 經濟效益
文中還批評了某些科技巨頭將“AGI”與“賺錢能力”劃等號的做法。
OpenAI 內部 reportedly 把 AGI 定義為“能年賺 1000 億美元的 AI”。
作者反駁道:
“經濟價值不等于通用智能。iPhone 也能創造千億美元,但它并不聰明。”
他們強調:
真正的AGI 衡量的是認知結構,而不是商業利潤。
五、下一步:通往 AGI 的四道坎
團隊認為,從GPT-5 到真正 AGI,仍有四大障礙:
- 長期記憶系統—— AI 需要像人類一樣持續學習。
- 視覺與空間推理—— 理解動態世界,而非靜態圖像。
- 多模態整合—— 跨越語言、視覺、聲音的統一理解。
- 幻覺消除與自我一致性—— 從“能說”變為“能信”。
這些才是通向真正通用智能的“最后四公里”。
論文最后寫道:
“GPT-5 的58%,意味著我們已經走過一半的路。
但這‘后一半’,才是真正的智能之壁。”
換句話說,AGI 不是某個版本號,也不是營銷噱頭。
它是一個系統、可測、可復現的科學目標。
當那天到來,AI 將不再只是“回答問題”,
而是——理解問題、學習世界、擁有思想。
各位評論區的大佬——
你覺得 AGI 離我們還有多遠?
你心目中的“通用智能”是什么樣子?































