上海交大/上海AI Lab翟廣濤:當(dāng)評(píng)測(cè)不再重要,AGI就實(shí)現(xiàn)了
上海交通大學(xué)教授、上海人工智能實(shí)驗(yàn)室雙聘研究員翟廣濤認(rèn)為,完美的 AI 評(píng)測(cè)體系本身就等同于通用人工智能。
人工智能的世界里,數(shù)字似乎就是一切。幾乎每周,都有某個(gè)新發(fā)布的 AI 模型在基準(zhǔn)測(cè)試中打破紀(jì)錄,MMLU、SuperCLUE、HLE……這些曾經(jīng)只在學(xué)術(shù)圈流轉(zhuǎn)的晦澀代號(hào),如今成為衡量一個(gè)個(gè)大模型「智商」的通用貨幣,是決定其市場(chǎng)聲譽(yù)乃至背后公司估值的關(guān)鍵砝碼。
然而,勝利捷報(bào)的 B 面,一種深層的困惑正在蔓延。
「我們看到大模型能力越來越強(qiáng),分?jǐn)?shù)越來越高,但這些對(duì)個(gè)人來說究竟有什么用,我們并不知道。」上海交通大學(xué)教授、上海人工智能實(shí)驗(yàn)室雙聘研究員翟廣濤告訴機(jī)器之心:「除了文字總結(jié)這類相對(duì)簡(jiǎn)單的工作外,好像沒有解決很多實(shí)際問題。代碼能力的受眾畢竟有限。」
這位在多媒體信號(hào)處理領(lǐng)域深耕二十余年的學(xué)者,正將注意力轉(zhuǎn)向「AI 評(píng)測(cè)」這個(gè)近來重要性急劇提升的領(lǐng)域。當(dāng)預(yù)訓(xùn)練的邊際效益開始遞減,評(píng)測(cè)已躍升為倒逼技術(shù)進(jìn)步、連接模型潛力與真實(shí)價(jià)值的關(guān)鍵杠桿。
表面上看,當(dāng)今評(píng)判 AI 的體系嚴(yán)謹(jǐn)而精密,但翟廣濤認(rèn)為,這場(chǎng)圍繞分?jǐn)?shù)的競(jìng)賽不僅未能準(zhǔn)確衡量真正的智能,反而讓我們陷入了一種對(duì)進(jìn)步的集體誤判與過度樂觀。分?jǐn)?shù)的攀升掩蓋了尺子本身的問題。這讓他意識(shí)到,評(píng)測(cè)的困境,本質(zhì)上就是我們對(duì)智能理解的困境。這一思考的終點(diǎn),是他的核心論斷:
一個(gè)完美的評(píng)測(cè)體系,其存在本身就等同于通用人工智能。因此,當(dāng)我們不再需要評(píng)測(cè)時(shí),AGI 或許才真正到來。
進(jìn)步的幻覺
評(píng)測(cè)體系面臨的首要問題是「數(shù)據(jù)污染」。由于大多數(shù)基準(zhǔn)測(cè)試都是公開的,它們的題目和答案往往會(huì)被納入下一代模型的訓(xùn)練數(shù)據(jù)中。
「基本上,大公司都會(huì)把與評(píng)測(cè)數(shù)據(jù)集相類似的數(shù)據(jù)放到訓(xùn)練集里面去,」翟廣濤教授表示:「這幾乎是行業(yè)默認(rèn)的操作,不然模型分?jǐn)?shù)“刷”不高。」
這種做法的問題顯而易見,就像讓學(xué)生提前拿到考試答案一樣,它讓評(píng)測(cè)失去了應(yīng)有的診斷價(jià)值。2025 年 4 月,一篇題為《排行榜的幻覺》(The Leaderboard Illusion)的論文揭示了更深層的問題。該研究發(fā)現(xiàn),業(yè)界最受推崇的 Chatbot Arena 存在系統(tǒng)性漏洞,少數(shù)大模型廠商不但可以進(jìn)行大規(guī)模秘密內(nèi)測(cè),選擇性公布最優(yōu)成績(jī),還能利用平臺(tái)規(guī)則攫取海量用戶偏好數(shù)據(jù),最終導(dǎo)致模型優(yōu)化方向過度擬合于該平臺(tái)的特定偏好,而非發(fā)展通用的真實(shí)能力。
其次是「原子化能力」評(píng)測(cè)的局限性。
為了實(shí)現(xiàn)量化,當(dāng)前評(píng)測(cè)體系傾向于將復(fù)雜的「智能」拆解為一個(gè)個(gè)獨(dú)立的原子能力——數(shù)學(xué)推理、代碼生成、語(yǔ)言理解、常識(shí)問答,等等。這種做法固然便于打分和比較,卻面臨著一個(gè)認(rèn)識(shí)困境。
「大模型的能力就像一塊海綿,里面有大量細(xì)小的空洞,」翟廣濤教授用這個(gè)比喻來解釋評(píng)測(cè)的核心挑戰(zhàn),「評(píng)測(cè)時(shí)探測(cè)到的很多問題實(shí)際上是“洞”,而不是模型真正的能力邊界。最難的是,你無(wú)法確定檢測(cè)到的問題究竟反映的是模型能力的不足,還是僅僅因?yàn)樗鼪]有關(guān)注到某個(gè)細(xì)節(jié),而這個(gè)問題實(shí)際上通過簡(jiǎn)單的提示優(yōu)化就能解決。」
通過將「智能」拆解成數(shù)百個(gè)相對(duì)獨(dú)立的原子化技能,整個(gè)行業(yè)或許正在訓(xùn)練模型成為應(yīng)試專家,而非一個(gè)能融會(huì)貫通的整體。實(shí)際應(yīng)用中,用戶需要的往往不是單項(xiàng)任務(wù)上的完美表現(xiàn),而是在復(fù)雜、多步驟的任務(wù)流程中展現(xiàn)出的綜合判斷與適應(yīng)能力。
這種脫節(jié)在具身智能領(lǐng)域表現(xiàn)得尤為明顯。例如,讓一個(gè)搭載了頂級(jí) VLA 模型的機(jī)械臂執(zhí)行「拿起桌上的易拉罐」這樣的指令,仿真環(huán)境中成功率接近 100%,但在真實(shí)世界里,zero-shot 成功率也許還不到 5%。「這也正是我們需要更精細(xì)、更貼近真實(shí)場(chǎng)景的評(píng)測(cè)體系的原因。」翟廣濤教授說。
由于缺乏科技巨頭那樣的資源,許多高校研究者將評(píng)測(cè)視為仍能做出貢獻(xiàn)的領(lǐng)域。但為了滿足論文創(chuàng)新性的要求,研究者們不斷提出新的評(píng)測(cè)維度和指標(biāo),卻往往在發(fā)表后無(wú)人維護(hù),導(dǎo)致整個(gè)領(lǐng)域呈現(xiàn)出嚴(yán)重的碎片化態(tài)勢(shì)。
「很多評(píng)測(cè)工作在某種程度上也是一種無(wú)奈,」翟廣濤教授坦言,「它成了為發(fā)表論文、為所謂創(chuàng)新而做出的被迫選擇。」這種現(xiàn)象不僅造成了資源的浪費(fèi),更重要的是,它可能正在將整個(gè) AI 評(píng)測(cè)領(lǐng)域引向一個(gè)技術(shù)上精密但實(shí)用性存疑的方向。
而這,也引發(fā)了關(guān)于評(píng)測(cè)的主體危機(jī)——究竟誰(shuí)才有資格成為裁判?
企業(yè)自評(píng)存在明顯的利益沖突;學(xué)術(shù)界盡管相對(duì)中立,但往往缺乏長(zhǎng)期維護(hù)大規(guī)模測(cè)試平臺(tái)所需的資源。
上海人工智能實(shí)驗(yàn)室的定位為解決這一問題提供了獨(dú)特的視角。作為新型研究機(jī)構(gòu),它能夠以相對(duì)中立的立場(chǎng),投入長(zhǎng)期資源來建設(shè)公正的評(píng)測(cè)平臺(tái)。「長(zhǎng)期投入支持一個(gè)反映真實(shí)水平的公平公正榜單,這是很有必要并且值得的,」翟廣濤教授說。
回歸「以人為本」的坐標(biāo)系
面對(duì)當(dāng)前評(píng)測(cè)的種種問題,翟廣濤教授給出的解法是,回歸「以人為中心」(Human-Centered Evaluation)的坐標(biāo)系。
「大模型終究要為人服務(wù),」他強(qiáng)調(diào):「評(píng)測(cè)的核心不應(yīng)是模型與基準(zhǔn)之間的對(duì)話,而應(yīng)該是模型在多大程度上提升了人類完成任務(wù)的效率和體驗(yàn)。」
「過去的二十年,視頻質(zhì)量為什么能獲得如此顯著的提升?從模糊的在線視頻到隨處可見的 4K、8K 超高清,就是因?yàn)橐曈X信號(hào)一直以用戶的主觀體驗(yàn)(Quality of Experience,QoE) 為目標(biāo)。好看就是好看,不好就是不好。」
當(dāng)然,主觀性評(píng)測(cè)面臨著可重復(fù)性和標(biāo)準(zhǔn)化的挑戰(zhàn)。翟廣濤團(tuán)隊(duì)通過統(tǒng)計(jì)學(xué)方法來解決這個(gè)問題:「我們不是只看一個(gè)人的體驗(yàn),而是找一群具有代表性的用戶。當(dāng)模型應(yīng)用有明確指向時(shí),比如面向科研工作者,我們就找科學(xué)家來測(cè)試;如果面向中小學(xué)教育,我們就找學(xué)生來提供反饋。多個(gè)反饋的平均值或分布在一定程度上能夠降低主觀隨機(jī)性,而且實(shí)際上這種方法更加公平。」
他帶領(lǐng)上海人工智能實(shí)驗(yàn)室大模型開源評(píng)測(cè)司南(OpenCompass)團(tuán)隊(duì)提出了一個(gè)由三大支柱構(gòu)成的評(píng)測(cè)框架:
- 信息質(zhì)量(Information Quality):輸出內(nèi)容是否準(zhǔn)確、可靠,幻覺嚴(yán)不嚴(yán)重?模型的回答是否提供了可信的溯源,信息是否充分、深入?
- 問題解決能力(Problem-Solving Capability):在一個(gè)完整的、多步驟的任務(wù)流中,模型在每個(gè)決策點(diǎn)的策略是否有效,思考是否全面?這也要求評(píng)測(cè)走向場(chǎng)景化,考察其是否合理規(guī)劃,有效處理邊界情況,提升了用戶任務(wù)完成的體驗(yàn)。
- 交互體驗(yàn)(Interaction Experience):與模型協(xié)作的過程是否順暢、高效、符合直覺?這一點(diǎn),恰恰是傳統(tǒng)離線評(píng)測(cè)完全忽略的。

為了將這套評(píng)測(cè)哲學(xué)落地,司南團(tuán)隊(duì)設(shè)計(jì)了「EDGE」技術(shù)路徑,即 Evolving(演進(jìn)的)、Dynamic(動(dòng)態(tài)的)、Granular(粒度的)、Ecosystem(生態(tài)的),這是一個(gè)能夠適應(yīng) AI 高速發(fā)展、充滿生命力的動(dòng)態(tài)構(gòu)想。其核心思想是,評(píng)測(cè)體系必須通過持續(xù)演進(jìn)的難度、動(dòng)態(tài)變化的題型,來對(duì)抗模型能力的發(fā)展以及應(yīng)試化。同時(shí),它必須提供細(xì)粒度的診斷,并由整個(gè)社區(qū)共建共享。
為了從根本上解決數(shù)據(jù)污染問題,團(tuán)隊(duì)更是投入巨大精力,建立了一個(gè)規(guī)模超十萬(wàn)道題的高質(zhì)量?jī)?nèi)部題庫(kù)。他們計(jì)劃采用逐步開源的方式,比如每季度開源 500 道題目,既確保了研究的可復(fù)現(xiàn)性,又避免了題庫(kù)被一次性污染而失效。
不僅如此,司南團(tuán)隊(duì)還提出了一個(gè)更具雄心的目標(biāo)——訓(xùn)評(píng)一體。
「將評(píng)測(cè)放在訓(xùn)練之外去說是沒有價(jià)值的,」翟廣濤教授強(qiáng)調(diào):「評(píng)測(cè)的最終目的是反哺訓(xùn)練。」
這里的關(guān)鍵技術(shù)是一個(gè)足夠好的「AI 裁判」(AI Judger)。通過大規(guī)模收集以人為中心評(píng)測(cè)中產(chǎn)生的真實(shí)用戶反饋,團(tuán)隊(duì)訓(xùn)練了一個(gè)與人類偏好高度對(duì)齊的 AI 評(píng)判模型,它可以作為獎(jiǎng)勵(lì)模型,在下一輪訓(xùn)練中指導(dǎo)基礎(chǔ)模型朝正確的方向優(yōu)化。
司南團(tuán)隊(duì)在上海人工智能實(shí)驗(yàn)室周伯文主任提出的安全與性能共同增長(zhǎng)的「45° 平衡律」(AI-45° Law)的基礎(chǔ)上,將模型的能力與安全(包括魯棒性、公平性、價(jià)值觀對(duì)齊等)視為兩個(gè)同等重要的評(píng)測(cè)坐標(biāo)軸。大模型理想的發(fā)展軌跡大體沿著 45° 線同步提升,即能力的每一次躍升,都伴隨著安全性的同等增強(qiáng)。這為大模型的發(fā)展提供了一個(gè)清晰、健康的導(dǎo)航,避免了片面追求能力而忽視潛在風(fēng)險(xiǎn)的短視行為。
評(píng)測(cè)的終點(diǎn),就是 AGI 的起點(diǎn)
回到我們最初的問題:如何丈量「智能」?
與物理量不同,智能沒有標(biāo)準(zhǔn)單位,也沒有絕對(duì)的測(cè)量基準(zhǔn)。每一次評(píng)測(cè)都只是從特定角度的有限觀察。
更深層的悖論在于:評(píng)測(cè)者與被評(píng)測(cè)者之間的地位關(guān)系。「評(píng)測(cè)本質(zhì)上是一種上位對(duì)下位的度量,」翟廣濤教授指出,「人類之所以能評(píng)測(cè)現(xiàn)有的 AI,是因?yàn)樵谕ㄓ弥悄艿膹V度與深度上,人類仍處于上位。但當(dāng)一個(gè)智能體在所有維度上全面超越人類時(shí),我們用什么標(biāo)準(zhǔn)去評(píng)判它呢?」
「一個(gè)完美的、萬(wàn)能的評(píng)測(cè)體系,它的存在本身就等同于AGI。」
「所以,當(dāng)評(píng)測(cè)這個(gè)領(lǐng)域變得不再重要的時(shí)候,AGI 可能就真的實(shí)現(xiàn)了,」翟廣濤教授說,「只要我們還需要拿著尺子去反復(fù)度量,就說明我們離那個(gè)階段還很遠(yuǎn)。」
這里的「不再重要」并非指評(píng)測(cè)功能的消失,而是人類作為外部評(píng)測(cè)主體的謝幕。屆時(shí),完美的自我評(píng)測(cè)能力將成為一種內(nèi)生的、自我審視的功能,被 AGI 自身所包含。
這也為 AI 發(fā)展指明了下一個(gè)「圣杯」——構(gòu)建終極評(píng)測(cè)體系的努力,本身就是通往 AGI 最重要的路徑。
基于這一愿景,司南團(tuán)隊(duì)正在擘畫一個(gè)更為宏大的藍(lán)圖,致力于將具身智能、AI 安全、軟硬件系統(tǒng)乃至千行百業(yè)的垂直應(yīng)用,全部納入一個(gè)統(tǒng)一、綜合性的權(quán)威評(píng)測(cè)框架之下。
「司南的愿景,是成為未來智能時(shí)代的度量衡,為 AI 技術(shù)的健康發(fā)展提供一個(gè)權(quán)威的參照系,引導(dǎo)全球的創(chuàng)新力量從無(wú)序的“刷分”競(jìng)賽,走向真正創(chuàng)造價(jià)值的、以人為本的健康發(fā)展道路。」翟廣濤教授表示。

官網(wǎng)地址:https://opencompass.org.cn/home
在這個(gè)意義上,司南團(tuán)隊(duì)的工作不僅僅是在設(shè)計(jì)測(cè)量工具,更是在探索智能的本質(zhì)。每一次評(píng)測(cè)方法的改進(jìn),都是對(duì)智能邊界的新一輪推進(jìn);每一個(gè)新的評(píng)測(cè)維度,都是對(duì)智能未知側(cè)面的一次必要補(bǔ)充。
這或許是 AI 評(píng)測(cè)領(lǐng)域最深刻的悖論,也是最美妙的愿景:它的終極成功,恰恰在于自身的消亡。





























