精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

230個大模型在嬰幼兒認知題上集體翻車!揭秘多模態大模型的核心知識缺陷

人工智能
在歸一化準確率對比中,多模態大模型在基礎核心認知能力上普遍落后,差距往往達到兩位數,即便規模更大也難以彌補。這是否意味著MLLM(多模態大模型)的先天認知結構中,缺少那些支撐早期人類學習的基礎知識機制?

一篇被Yann LeCun轉發的ICML 2025研究給了多模態大模型當頭一棒——

大部分AI在復雜任務上表現很好,但在人類從小就會的基礎認知能力上卻很拉垮。

圖片圖片

研究者建了測評題庫CoreCognition,覆蓋在人類嬰幼兒階段即出現的12種核心認知能力(如客體永恒、視角采擇、直覺物理、知覺恒常等),用來對模型進行系統性測試。

在CoreCognition基準的1503道“經典發展心理學測驗”上,230個主流模型系統暴露出對世界常識的“核心知識盲區”。

在歸一化準確率對比中,多模態大模型在基礎核心認知能力上普遍落后,差距往往達到兩位數,即便規模更大也難以彌補。

這是否意味著MLLM(多模態大模型)的先天認知結構中,缺少那些支撐早期人類學習的基礎知識機制?

也就是說,它們是否缺乏“core knowledge”(核心認知能力)?

構建CoreCognition Benchmark

圖片圖片

來自加州大學圣地亞哥分校、約翰霍普金斯大學、埃默里大學、北卡羅來納大學教堂山分校、斯坦福大學、卡內基梅隆大學等機構的研究人員,花費一年時間構造并開源了業界首個核心認知基準CoreCognition。

圖片

基準圍繞發展心理學與皮亞杰分層框架,覆蓋從連續性到機械推理12 項核心認知概念,共1503道多模態題目,每類≥95例,含圖像與視頻。

圖片圖片

研究團隊在設計題目時遵循以下高標準:

  • 判別性強不具備目標核心知識的模型在邏輯上更易選擇錯誤選項。
  • 最小混淆題目盡量僅依賴待測概念完成推理,剔除與其他核心知識或外部能力的耦合,避免跨概念干擾。
  • 無文本捷徑所有題目必須聯合利用圖像與文本才能得出正確答案。

所有數據由12位具備認知科學、計算機科學或統計學背景的高年級本科或研究生協作完成標注與審核,經過兩輪交叉驗證和Amazon Mechanical Turk人工校驗。

干預測試揭示“假理解”陷阱

為了進一步驗證模型是否真的掌握核心概念,研究團隊提出了Concept Hacking(概念干預) 方法:通過構造“對照組”(control)與“干預組”(manipulated),故意在測試任務中反轉與核心知識相關的關鍵特征,但保持其余細節一致,檢測模型是否真正理解概念還是走捷徑。

圖片圖片

例如其中的Intuitive Physics測試:

  • 原版題同時釋放兩顆小球,哪一個會先落地?考察基礎直覺物理(相同釋放高度、忽略空氣阻力時,自由落體等時到地)。
  • 孿生版保持大小不變,但改變釋放高度,用以檢驗模型是否真正依據高度差/落地時間推斷,而非套用“同時落地”的固定模板。
  • 人類表現兩題均能作對,能根據高度改變及時更新判斷。
  • 模型表現原題作對(選C),孿生版仍沿用舊模式選C,直接翻車——暴露出對表面模板的依賴,而非對落體規律的真實理解。

五大關鍵發現

一、在與人類早期認知直接相關的低層能力(如邊界感、連續性、客體永恒、空間性、視角采擇等)上,模型顯著落后于高層能力(如意向理解、工具使用、機械推理),與人類各層穩定高分的模式明顯不同。這表明當前MLLMs在人類早期即具備的基礎“核心知識”上存在系統性短板

圖片圖片

二、關聯性矩陣顯示,高層能力族內關聯較強,底層能力Permanence/Spatiality/Continuity與高層能力相關性普遍偏弱。說明模型缺乏人類由低到高的腳手架式認知發展結構,模型的高級感知與推理并不是建立在基礎的認知能力上的。這也能解釋為什么模型出現魯棒性缺陷。

圖片圖片

三、研究團隊將三階段12個核心能力的得分與26個公開基準做相關性分析,結果表明除Perspective和Intuitive Physics外,大多數核心能力與公開基準(除ChartQA)及高層能力顯著正相關。這表明核心知識越強,上層任務越穩。而Perspective和Intuitive Physics能力作為人類高級推理的基礎展現出的低相關性,與我們之前在關系矩陣里看到的模式一致,這正是現有模型核心知識缺陷的直接證據。

圖片圖片

四、基于230個模型擬合“規模—表現”的回歸斜率顯示,低層能力隨規模提升改善顯著更少或幾乎不變;其中Perspective-taking甚至出現反向規模效應(模型越大越差)。增加模型規模主要利好高層能力,對低層核心能力幫助有限甚至為負。

圖片圖片

五、Concept Hacking實驗結果顯示,大模型相較小模型整體并未取得提升,部分情形甚至更差。這說明單靠擴規模不足以消除對捷徑的依賴,也難以獲得穩健的核心知識。直觀上,模型并非“越大越懂”,而是越大越善于投機。

結合結果圖中的信息,模型可歸納為四類:

  • 核心知識型控制題與操縱題均表現良好(接近人類水平,但樣本占比極少),說明具備穩健的核心概念理解與遷移。
  • 捷徑依賴型控制題得分高、操縱題顯著下降,提示主要依賴表面線索或訓練相似性,缺乏對概念要素的因果把握。
  • 核心缺陷型控制題即低于或接近偶然水平,操縱題亦無穩定收益,反映基礎“核心知識”不足。
  • 偶然型控制題與操縱題均近似隨機波動,整體不可依賴(更多體現噪聲與運氣)。

圖片圖片

認知指令帶來短期增益,但難以彌補底層缺口

對比推理模型與其對應非推理版本模型性能顯示,推理模型多數核心能力任務未見顯著提升,癥結不在“會不會用推理”,而在底層表征是否具備,即預訓練階段對核心知識的覆蓋與結構化不足。

圖片圖片

與此同時,研究團隊發現,引入認知指令(在題目前明確提示相關概念,如perspective taking)可帶來約6%的即刻增益,提示模型內部可能分布式存有相關線索,但缺少有效的檢索與調用機制。

然而,此類做法在真實場景中可獲得性與可用性受限,實際應用往往無法提供如此明確的概念標簽來引導模型。

在引人注目的“能寫會畫”之外,真正的智能首先取決于對世界最樸素規則的把握。

這項研究說明:參數堆疊并不等于理解,地基是否扎實才是關鍵。

與其一味追求“更大、更強”,不如換個起點:先把核心知識補齊,讓模型學會在變化、多樣與噪聲中保持一致的常識判斷與因果直覺。

簡單說就是:先長地基,再長樓層;規模是加法,核心認知是乘法。

論文地址:https://arxiv.org/abs/2410.10855

Website:https://grow-ai-like-a-child.github.io/core-knowledge/Dataset:https://huggingface.co/datasets/williamium/CoreCognition

責任編輯:武曉燕 來源: 量子位
相關推薦

2025-07-29 08:40:00

模型AILLM

2024-07-16 13:20:59

2025-01-08 08:21:16

2025-09-16 09:35:52

2025-05-21 08:47:00

2024-12-30 00:01:00

多模態大模型Python

2023-06-06 17:48:35

罷工人工智能AI

2024-05-17 16:02:00

2024-09-25 14:53:00

2024-05-10 06:59:06

2024-12-18 18:57:58

2024-11-13 09:39:13

2025-11-05 08:51:33

2024-11-12 10:20:00

模型數據

2024-03-12 09:24:38

智能駕駛

2024-11-11 15:11:23

2025-11-14 10:10:13

2025-01-16 08:40:00

2024-03-25 12:40:19

訓練模型
點贊
收藏

51CTO技術棧公眾號

奇米888一区二区三区| 日韩精品www| 一本一本a久久| 中文字幕+乱码+中文乱码91| 欧美超碰在线| 欧美一级一级性生活免费录像| 久久久久久久久久久久久国产| www三级免费| 在线欧美日韩| 亚洲香蕉伊综合在人在线视看| 校园春色 亚洲色图| 黄网站app在线观看| 高清shemale亚洲人妖| 91爱视频在线| 一级特黄曰皮片视频| 成人51免费| 午夜视频在线观看一区二区三区| 欧美日韩精品中文字幕一区二区| 中文字幕人成人乱码亚洲电影| 亚洲高清资源在线观看| 亚洲国产高清自拍| 国产区二区三区| 在线中文字幕电影| 久久免费偷拍视频| 亚洲综合精品一区二区| 九九热精品视频在线| 水蜜桃久久夜色精品一区| 精品国产精品一区二区夜夜嗨| 中文字幕欧美人妻精品一区| 手机av在线播放| 国产亚洲精品bt天堂精选| 亚洲精品日韩激情在线电影| 手机看片久久久| 在线中文一区| 亚洲最新视频在线| 日韩少妇一区二区| 成人国产精品久久| 欧日韩精品视频| 国产v片免费观看| 欧洲不卡视频| 久久久精品国产99久久精品芒果| 91久久大香伊蕉在人线| 中国老头性行为xxxx| 日韩视频三区| 欧美激情伊人电影| 欧美第一页在线观看| 国产91精品对白在线播放| 欧美tickling挠脚心丨vk| 无限资源日本好片| 美女日韩欧美| 亚洲成人动漫在线观看| 一道本在线观看视频| 成人午夜影视| 久久久久久久一区| 久久精品国产99精品国产亚洲性色| av在线亚洲天堂| 老司机午夜精品| 国产成人拍精品视频午夜网站| 91精品国产高潮对白| 欧美一区二区三区另类 | 中文字幕日韩欧美在线视频| 国产精品探花一区二区在线观看| av一级亚洲| 日韩欧美卡一卡二| 四虎1515hh.com| 国产精品视频一区二区三区| 欧美精品一二三区| 一区二区久久精品| 国产精一区二区| 欧美一区二区三区在线视频| 国产精品久久久久久9999| 亚洲精品tv| 欧美精品免费视频| 激情成人在线观看| 亚洲精品不卡在线观看| 精品嫩草影院久久| 私密视频在线观看| 日本精品影院| 亚洲欧美一区二区三区四区 | 麻豆成人综合网| 国产精品老女人精品视频| 中文天堂在线视频| 另类欧美日韩国产在线| 成人亚洲激情网| 国产高清视频免费| av电影在线观看一区| 久久久一本精品99久久精品| 男同在线观看| 国产精品欧美极品| 最新av网址在线观看| 日本欧美电影在线观看| 五月婷婷激情综合| 日韩视频在线免费看| 欧美电影在线观看网站| 91精品国产入口| 亚洲无人区码一码二码三码| 久久99高清| 久久精品成人一区二区三区| 免费中文字幕在线观看| 国产九九精品| 国产欧美久久一区二区| 99久久精品日本一区二区免费| 东方aⅴ免费观看久久av| 精品伦精品一区二区三区视频| 国产经典自拍视频在线观看| 亚洲女人的天堂| 毛片在线视频播放| 日韩黄色在线| 精品国产sm最大网站免费看| 无码 人妻 在线 视频| 亚洲成人一区| 欧洲永久精品大片ww免费漫画| 亚洲一区二区色| 成人午夜视频在线观看| 日韩女优中文字幕| 波多一区二区| 欧美日韩精品一区二区| 野战少妇38p| 99久久精品费精品国产| 91精品国产91久久久久久久久| 中文字幕欧美在线观看| 91在线观看视频| 欧美爱爱视频网站| 日韩国产激情| 精品伦理精品一区| 国产一区在线观看免费| 亚洲国产清纯| 91亚洲精品视频| 精品视频一二三| 亚洲无人区一区| 午夜免费看视频| 亚洲电影男人天堂| 欧美高跟鞋交xxxxhd| 国产成人a v| aaa欧美色吧激情视频| 欧美精品久久96人妻无码| 666av成人影院在线观看| 精品国一区二区三区| 国内毛片毛片毛片毛片毛片| 久久国产福利| 国产日韩欧美一区二区| av观看在线| 欧美三电影在线| 国产呦小j女精品视频| 在线国产欧美| 成人免费视频视频在| 色视频在线免费观看| 91久久香蕉国产日韩欧美9色| 国产精品手机在线观看| 国产尤物精品| 亚洲999一在线观看www| 免费a级人成a大片在线观看| 欧美性大战久久久久久久| 成人免费毛片糖心| 亚洲欧美日本视频在线观看| 精品一区二区久久久久久久网站| 日韩123区| 日韩视频一区二区在线观看| 欧美特级一级片| 激情综合网av| 久久免费看毛片| 91精品国产自产观看在线| 按摩亚洲人久久| 亚洲中文字幕一区二区| 国产精品乱码妇女bbbb| 亚欧激情乱码久久久久久久久| 欧美午夜精品一区二区三区电影| 国产成人中文字幕| 国产三级电影在线| 欧美性猛交一区二区三区精品 | 欧美久久一区二区三区| 久久av资源网站| 国产xxxx孕妇| 亚洲资源在线观看| 成人做爰www看视频软件| 精品成人一区| 久久久久久a亚洲欧洲aⅴ| 成人美女黄网站| 亚洲视频精品在线| 中文字幕av网站| 亚洲视频一区在线| 中文字幕在线观看视频www| 欧美区国产区| 精品国产福利| 高清电影一区| 日韩在线观看精品| 黄频在线免费观看| 欧美丝袜一区二区三区| 免费成人深夜天涯网站| 国产尤物一区二区| 国产综合av在线| 欧美精品一区二区三区精品| 国产精品va在线| 老司机精品影院| 亚洲福利视频二区| а中文在线天堂| 亚洲欧美日韩一区二区| www.四虎精品| 久久精品人人做人人爽电影蜜月| 亚洲一区精品视频| 91蜜桃臀久久一区二区| 日本高清+成人网在线观看| 午夜看片在线免费| 亚洲成人网久久久| 中文字幕精品一区二| 一卡二卡欧美日韩| 久久精品国产亚洲AV熟女| 久久成人免费网站| 欧美亚洲精品一区二区| 99久精品视频在线观看视频| 精品无人乱码一区二区三区的优势| av在线一区不卡| 欧美激情一区二区久久久| av在线电影院| 亚洲成色777777在线观看影院| 精品一区二三区| 亚洲va欧美va人人爽| 娇小11一12╳yⅹ╳毛片| 99视频国产精品| 久久久久久综合网| 久久精品日产第一区二区| 亚洲爆乳无码精品aaa片蜜桃| 国产精品美女久久久久久不卡 | 天堂中文av在线资源库| 久久久国产影院| 国产一区电影| 亚洲成人教育av| av免费在线不卡| 欧美日韩国产综合视频在线观看 | 97久久久久久| av网站免费在线观看| 亚洲欧美日韩中文在线| 日韩一区二区三区在线观看视频| 欧美人动与zoxxxx乱| 免费污污视频在线观看| 亚洲va国产va欧美va观看| 成人高潮免费视频| 日本一区二区三区在线观看| 朝桐光av一区二区三区| 国产成人小视频| 性猛交ⅹ×××乱大交| 日韩专区一卡二卡| 日韩av资源在线| 亚洲日本成人| 日本男女交配视频| 欧美a级片一区| 亚洲自拍偷拍一区二区三区| 日韩精品免费| 色一情一区二区三区四区| 亚洲三级网页| 久久青青草原| 羞羞答答一区二区| 美媛馆国产精品一区二区| 精品人人人人| 国产精品永久入口久久久| 中文字幕一区二区三区四区久久 | 国产麻豆精品theporn| 少妇一级淫免费放| 免费高清视频精品| 特级丰满少妇一级| 久久精品国产网站| 色乱码一区二区三区在线| 日本欧美加勒比视频| 黑鬼大战白妞高潮喷白浆| 视频一区二区三区中文字幕| 91看片就是不一样| 日韩av在线播放中文字幕| 无人在线观看的免费高清视频| 水野朝阳av一区二区三区| www.日本xxxx| 久久精品国产精品亚洲综合| 99日在线视频| 国产精品一区三区| 欧美午夜精品一区二区| 成人精品国产一区二区4080| 亚洲av人人澡人人爽人人夜夜| 99精品视频一区二区| 精品人妻一区二区三区视频| 日本一区二区动态图| 你懂得在线观看| 一区二区三区四区不卡视频| 日本一级黄色大片| 在线观看一区不卡| 国产免费黄色大片| 亚洲丁香久久久| 可以在线观看的黄色| 视频在线观看99| 亚洲图区一区| …久久精品99久久香蕉国产| 精品国模一区二区三区| 国产综合香蕉五月婷在线| 亚洲国产视频二区| 看欧美日韩国产| 日韩久久久久| www.国产在线视频| 天堂一区二区在线| 国产福利精品一区二区三区| 成人网男人的天堂| 97人妻精品一区二区免费| 亚洲欧美日韩国产手机在线 | 狠狠躁天天躁日日躁欧美| 97人妻一区二区精品视频| 欧美一区二区三区免费视频| 天堂在线资源网| 中文字幕日本欧美| 欧美人与性动交α欧美精品济南到| 欧美在线观看一区二区三区| 免费成人黄色网| 国严精品久久久久久亚洲影视| 精品国产一区二区三区| 999久久欧美人妻一区二区| 日韩电影在线观看电影| 日本人妻一区二区三区| 国产欧美一区二区三区沐欲| 久久网免费视频| 欧美午夜精品久久久久久孕妇| 成 人 免费 黄 色| 国产一区二区三区18| 欧美xxx黑人xxx水蜜桃| 国产精品久久久久一区二区| 激情视频极品美女日韩| 一本久道久久综合狠狠爱亚洲精品| 亚洲久久一区二区| www.五月天色| 欧美激情综合五月色丁香小说| 久久久国产成人| 欧美图片一区二区三区| 日本精品999| 久久五月情影视| 成人国产一区| 欧美一级爽aaaaa大片| 伊人精品成人久久综合软件| 亚洲第一天堂久久| 国产女人aaa级久久久级| 少妇一级淫片免费放中国| 精品对白一区国产伦| av片在线观看免费| 成人黄色在线免费| 成人久久电影| 人妻无码视频一区二区三区| 99久久婷婷国产综合精品电影| 欧美日韩亚洲国产另类| 在线不卡中文字幕播放| av播放在线观看| 国产成人精品综合| 亚洲亚洲免费| www.玖玖玖| 99在线精品免费| www日韩精品| 亚洲国产小视频在线观看| 日韩另类在线| 成人av蜜桃| 国产综合婷婷| 国产成人av片| 亚洲午夜免费福利视频| 性欧美8khd高清极品| 欧美成人黄色小视频| 老司机亚洲精品一区二区| 热久久最新地址| 国产乱码精品一品二品| 欧美老熟妇一区二区三区| 欧美高清视频一二三区| 麻豆网站在线免费观看| 成人亚洲激情网| 亚洲欧美综合| 欧美xxxx黑人| 亚洲一区二区精品视频| 欧美少妇bbw| 91国产中文字幕| 亚洲精品进入| 青青青在线视频免费观看| 国产精品女同一区二区三区| 91极品身材尤物theporn| 久久精品精品电影网| 视频一区在线| 精品人妻少妇一区二区| 91蜜桃在线观看| 国产99免费视频| 日韩一区二区三区在线播放| 国产区一区二| 又大又硬又爽免费视频| 91免费视频网| 久草视频在线免费| 久久视频国产精品免费视频在线| 欧美9999| 香港三级韩国三级日本三级| 久久亚洲二区三区| 亚洲无码精品在线播放| 精品自拍视频在线观看| 欧美精品中文| 欧美日韩中文不卡| 亚洲午夜免费电影| 成人在线免费看| 91精品国产91久久久久青草| 亚洲美女啪啪| 天堂资源在线视频| 精品国产麻豆免费人成网站| 芒果视频成人app| 中文字幕精品在线播放| 99re成人精品视频|