精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

AI連電路圖都看不懂?SeePhys新基準暴擊多模態短板,正確率低至55%

人工智能
新基準名為SeePhys,強調了圖形感知對于模型認識和理解物理世界的重要性。內容涵蓋經典與現代物理的各個知識等級和領域,包括從初中到博士資格考試的全譜系多模態物理問題。

當前頂尖AI模型是否真能“看懂”物理圖像?

全譜系多模態物理推理新基準來了,結果SOTA級模型準確率都不足55%。

新基準名為SeePhys,強調了圖形感知對于模型認識和理解物理世界的重要性。

內容涵蓋經典與現代物理的各個知識等級和領域,包括從初中到博士資格考試的全譜系多模態物理問題。

圖片圖片

它由中山大學、蘇黎世聯邦理工學院、華為諾亞方舟實驗室和香港大學的研究團隊聯合推出,于近日正式開源。

團隊在實驗中系統性評估了LLM/MLLM在復雜科學圖表與理論推導耦合任務中的表現。

結果表明即使是Gemini-2.5-Pro和o4-mini等SOTA模型準確率都不足55%,暴露出多模態推理的巨大挑戰。

團隊表示,目前該基準正在ICML 2025 AI for MATH Workshop中開放評估,歡迎學界與工業界的團隊來挑戰。

圖片圖片

為什么需要SeePhys?

近年來,數學在大語言模型(LLMs)的推理能力評估中大放異彩,而物理學由于其具有與真實場景的強相關性和更復雜的圖像信息,正在多模態測評中得到越來越多的重視。

物理學不僅知識體系龐大、邏輯鏈條復雜,而且天然地將抽象世界規律與千變萬化的視覺圖像緊密結合。無論是電路圖、受力分析圖,還是費曼圖等,都挑戰了多模態大模型根據圖表理解世界本質規律的能力。

現有物理學基準或缺乏視覺組件,或僅覆蓋單一的知識層級,難以全面評估模型的物理思維能力。

SeePhys的誕生填補了這一空白,它旨在回答當前的頂尖AI模型是否真的“看懂”了物理圖像,并能像人類科學家一樣結合圖像進行思考。

SeePhys的獨特之處在于:

  • 知識層級跨度大:從初中到博士,從經典力學到量子場論,全面覆蓋了不同知識階段和研究領域;
  • 強視覺依賴:根據圖表是否包含必要解題信息進行分類,優先選擇具有強視覺依賴的問題;
  • 跨模態耦合:純多模態基準,需同步處理符號公式、幾何關系與真實世界建模。

圖片圖片

具體來看,SeePhys具有以下幾個關鍵屬性。

首先是全譜系覆蓋:

  • 2000道題目+2245張圖表,涵蓋7大物理領域(經典力學、電磁學、量子物理等);
  • 8個知識層級:初中、高中、奧賽(初級/高級)、本科(低年級/高年級)、碩士、博士資格考試;
  • 21類異構圖表:包括電路圖、時空曲率圖、光電效應示意圖等。

其次是不同的視覺富集程度:

  • Vision-Essential(75%):圖表含解題必需信息(如坐標系數值、電路拓撲、費曼圖);
  • Vision-Optional(25%):圖表僅輔助說明(如場景示意圖)。

還有多模態增強設計:

  • 提供純視覺副本(問題文本與圖表融合為單張高分辨率圖像);
  • 四種評估模式:文本+圖表(TV)、文本+描述(TC)、純文本(TO)、純視覺(VO)。

圖片圖片

實驗發現

通過對28個主流模型(包括o4-mini、Gemini-2.5-Pro、Claude-3.7-Sonnet等)的大規模測試,研究團隊總結以下結論:

視覺-文本對齊能力的缺陷:

  • 最佳模型Gemini-2.5-Pro準確率僅54.9%,即使是初中物理題正確率也不及70%。
  • 純語言模型表現意外接近多模態模型,如DeepSeek-R1(42.2%) vs o3-mini(40.3%),且模型在視覺依賴性較低的問題中準確率遠高于視覺信息富集的問題,暴露了當前頂尖MLLM仍存在巨大的視覺-文本對齊問題。
  • 模型對特定圖表類型(波動方程圖、電路圖)存在系統性識別障礙。

圖片圖片

“看見”對于“思考”的重要性:

  • 對于視覺富集的問題,添加對圖像的文本描述和直接輸入圖文交織問題均相對純文本問題提升巨大。
  • 即使是非必要性圖表也能輔助模型理解問題(如Claude-3.7-Sonnet在Text+Vision條件下相對Vision Only準確率提升30.2%),表明適當的視覺提示能夠幫助模型理解問題本質。

圖片圖片

知識注入顯現出邊際效應:

  • 較弱模型(如Qwen2.5-VL-3B和LLaVA-OneVision-7B)由于災難性遺忘現象,在高年級問題上精度下降幅度巨大,而較強模型則下降較為平緩,表明知識注入帶來的性能提升已經初步顯現邊際效應。
  • 當前模型更擅長記憶而非邏輯推理(如高級奧賽題反而比知識考察更深的博資考的準確率更低)。
  • 即使是初中和高中難度的物理題也并未被AI完全解決,物理學對于MLLM依然十分困難。

錯誤推理模式歸納

研究團隊對強模型o4-mini, Gemini-2.5-Pro與弱模型Qwen2.5-VL-3B共同錯誤的100個樣本進行人工分析。

然后,歸納得出了9種錯誤的推理模式,包括視覺誤讀、文本誤讀、建模錯誤、錯誤假設、數值計算錯誤、過度簡化、總結錯誤、過度思考和重復輸出。

所有三個模型都表現出明顯的建模缺陷(例如定理和公式誤用),同時表現出相對較少的文本誤讀和數值計算錯誤。

而過度思考和過度簡化的錯誤頻率在模型之間存在顯著差異,且較小的Qwen2.5-VL-3B出現了高重復輸出率(21%)。

圖片圖片

參賽鏈接:https://www.codabench.org/competitions/7925/

挑戰賽詳細信息:https://sites.google.com/view/ai4mathworkshopicml2025/challengeICML workshop

主頁:https://sites.google.com/view/ai4mathworkshopicml2025/home

論文:https://arxiv.org/pdf/2505.19099項目主頁:https://github.com/SeePhys/seephys-project

責任編輯:武曉燕 來源: 量子位
相關推薦

2025-06-18 08:49:00

模型系統AI

2023-11-07 18:08:03

GPT-4模型

2023-01-02 17:22:45

英文版動機程序員

2025-05-21 08:47:00

2025-06-10 09:10:00

2019-12-09 08:29:26

Netty架構系統

2022-02-07 09:05:00

GitHub功能AI

2025-07-10 08:52:00

2025-10-15 08:44:37

AI模型數據

2022-12-12 07:40:36

服務器項目Serverless

2019-10-24 08:56:38

語言代碼Java

2024-01-30 21:18:57

語言模型圖像序列機器人

2023-06-30 08:01:04

Reactuse關鍵詞

2022-07-26 14:38:08

JavaScriptWeb安全自動化

2022-06-16 14:07:26

Java代碼代碼review

2020-03-30 16:45:06

代碼看不懂

2021-12-09 11:59:49

JavaScript前端提案

2022-01-05 09:40:03

DIff算法前端

2025-02-13 09:40:00

2025-09-08 18:08:28

AIClockBenchAGI
點贊
收藏

51CTO技術棧公眾號

欧美精品亚洲一区二区在线播放| 国产女人aaa级久久久级| 另类美女黄大片| 欧美日韩一区二区区别是什么 | 国产伦精品一区二区三区免.费 | 亚洲天堂2018av| 亚洲精品一线| 国产区在线观看成人精品| 成人黄色激情网| 激情五月色婷婷| 欧美疯狂party性派对| 精品国产乱码久久久久久闺蜜| 男人天堂网视频| a级影片在线| 国产喂奶挤奶一区二区三区 | 另类图片第一页| 欧美日韩一区二区欧美激情| www.99热这里只有精品| 在线免费av电影| 99精品欧美一区二区三区小说| 国产女人18毛片水18精品| 日本熟妇毛茸茸丰满| 久久综合88| 亚洲欧美日韩精品久久奇米色影视| 中文字幕第66页| 九九热线视频只有这里最精品| 亚洲国产欧美在线| 青春草在线视频免费观看| 亚洲色偷精品一区二区三区| 国产不卡视频在线播放| 国产精品高清在线观看| 五月天婷婷综合网| 综合色一区二区| 日韩视频在线免费| 熟女高潮一区二区三区| 高潮久久久久久久久久久久久久| 欧美精品v国产精品v日韩精品| 日av中文字幕| 在线人成日本视频| 调教+趴+乳夹+国产+精品| 强开小嫩苞一区二区三区网站| 番号集在线观看| 国产亚洲欧美日韩俺去了| 九色91视频| 神马久久久久久久久久| 国产69精品久久久久777| 91免费视频网站| 91福利在线观看视频| 蜜桃91丨九色丨蝌蚪91桃色| 国产精品99久久久久久www| www.日本精品| 国产亚洲激情| 欧美一区二区视频97| 亚洲精品午夜久久久久久久| 欧美日韩伊人| 欧美极品欧美精品欧美视频 | 色婷婷国产精品综合在线观看| 分分操这里只有精品| 丰满诱人av在线播放| 一区二区三区欧美日韩| 女人床在线观看| 色呦呦在线资源| 午夜激情一区二区三区| 欧美综合在线播放| 色一区二区三区| 欧美日韩久久久久| 麻豆av免费在线| 日韩一级二级| 69堂精品视频| 亚洲午夜久久久久久久久| 国产精品毛片视频| 国产午夜精品理论片a级探花| 中文字幕第4页| 欧美丝袜丝交足nylons172| 中文字幕在线精品| www.av成人| 亚洲五月婷婷| 青青草成人在线| 一级片视频播放| 国产精品1区二区.| 精品福利在线视频| 98视频在线噜噜噜国产| 国产精品黄色网| 日韩中文字幕麻豆| 国产色综合天天综合网| 精品久久久久久亚洲综合网站 | 国产福利在线观看| 中文字幕一区日韩精品欧美| 路边理发店露脸熟妇泻火| 高h视频在线播放| 91久久久免费一区二区| 视频免费1区二区三区| 亚洲天堂av资源在线观看| 日韩的一区二区| 中文字幕求饶的少妇| 国产精品豆花视频| 国产精品99久久久久久久久久久久| 97超碰国产在线| 99久久国产综合精品女不卡| 亚洲欧洲一二三| av中文字幕在线看| 欧美日韩国产天堂| 性欧美成人播放77777| 99久久婷婷| 欧美一级片免费在线| 国产一区二区女内射| 91啪亚洲精品| 超碰人人爱人人| 成人在线视频免费| 亚洲精品第一国产综合精品| 精品少妇一区二区三区密爱| 羞羞答答国产精品www一本| 国产欧美一区二区白浆黑人| 四虎在线观看| 亚洲国产乱码最新视频 | 国产不卡在线一区| 亚洲激情一区二区| 三级在线观看视频| 日韩欧美在线一区二区三区| 超碰人人人人人人人| 一本久久知道综合久久| 91精品婷婷国产综合久久蝌蚪| 国产高清在线观看| 欧美性色xo影院| 中文字幕视频观看| 永久亚洲成a人片777777| 国产精品福利网站| 亚洲 欧美 精品| 亚洲午夜视频在线观看| 熟妇无码乱子成人精品| 国产精品久久久久一区二区三区厕所| 国产97在线播放| 亚洲欧美色视频| 婷婷开心激情综合| 波多野结衣加勒比| 激情综合自拍| 国产精品视频福利| 影音先锋男人资源在线| 555www色欧美视频| 五月婷婷六月香| 日韩国产欧美在线视频| 欧洲精品国产| 精品国模一区二区三区| 亚洲欧洲成视频免费观看| 你懂的国产在线| 久久久久久麻豆| 成人一区二区免费视频| 精品欧美午夜寂寞影院| 午夜精品久久久久久99热| 蜜桃av鲁一鲁一鲁一鲁俄罗斯的 | 欧美日韩在线一| 极品束缚调教一区二区网站 | 国产精品6666| eeuss影院一区二区三区 | 日韩av二区在线播放| 欧美日韩一区二区视频在线| 成人免费网站视频| 亚洲欧美日韩图片| 中国老头性行为xxxx| 国产精品久久久久一区 | 国产精品美女久久久久av爽| 97成人超碰视| 亚洲 中文字幕 日韩 无码| 国产一区二区三区天码| 国产一区二区在线免费视频| 国内外激情在线| 欧美xxxx老人做受| 日韩精品成人在线| 久久精品人人做人人爽97| 亚洲综合在线网站| 久久国产电影| 91视频99| 亚洲天堂资源| 日韩视频亚洲视频| 欧美一区二区黄片| 色婷婷精品大在线视频| 国产又粗又猛又爽又黄的视频四季 | 中文字幕+乱码+中文乱码www| 国产精品久久看| 国产伦精品一区二区三区妓女下载 | xvideos亚洲| 黑人精品一区二区| 色婷婷精品大视频在线蜜桃视频| 黄色片网站在线播放| 国产成人在线网站| 哪个网站能看毛片| 91亚洲国产高清| 国产伦精品一区二区三区在线| 欧美大片免费高清观看| 久久久久999| 亚洲av毛片成人精品| 欧美性色aⅴ视频一区日韩精品| 成人高潮免费视频| 26uuu色噜噜精品一区| 在线看的黄色网址| 亚洲激情婷婷| 亚洲一区3d动漫同人无遮挡 | 国语对白一区二区| 欧美国产日本视频| 岛国精品一区二区三区| 青青草国产精品97视觉盛宴| 菠萝蜜视频在线观看入口| 国产欧美日韩视频在线| 豆国产97在线| 久久久久毛片| 日韩av电影手机在线| 中文字幕在线观看播放| 国产亚洲成av人片在线观看桃| 精品二区在线观看| 欧美亚州韩日在线看免费版国语版| 亚洲av无码一区二区三区在线| 久久五月婷婷丁香社区| 日本中文字幕有码| 美女爽到高潮91| 丝袜老师办公室里做好紧好爽| 欧美成熟视频| 一本久道久久综合| 欧美猛男同性videos| 国产亚洲一区二区三区在线播放| 国产精品国产三级在线观看| 国产精品美乳一区二区免费| 女人高潮被爽到呻吟在线观看| 欧美成人合集magnet| 日本中文字幕在线视频| 亚洲视频欧美视频| 无码h黄肉3d动漫在线观看| 欧美一级精品大片| 国产精品久久免费| 欧美日韩五月天| 欧美成人一区二区视频| 好吊成人免视频| 日本最新中文字幕| 午夜欧美2019年伦理| 免费一级片在线观看| 亚洲精品视频在线| 欧美在线视频第一页| 中文字幕永久在线不卡| 大胸美女被爆操| 欧美国产视频在线| 黄色片在线观看免费| 91免费视频大全| 99久久人妻无码中文字幕系列| 成人美女视频在线观看18| 美女流白浆视频| 国产福利一区二区三区视频在线 | 亚洲中文字幕无码av永久| 欧美欧美全黄| 大荫蒂性生交片| 亚洲视频观看| 久久久久久久久久久99| 一本色道久久精品| 欧美 日本 亚洲| 久久久久99| 亚洲天堂网一区| 久久99久久久久久久久久久| 天天色天天综合网| 国产经典欧美精品| 韩国黄色一级片| 99精品视频在线观看免费| 麻豆精品免费视频| 国产日本欧美一区二区| 国产99在线 | 亚洲| 国产精品久线在线观看| caoporn91| 亚洲成人综合在线| 欧美三级一区二区三区| 欧美性xxxxx极品| 最近中文字幕在线观看| 欧美一区二区视频在线观看| 亚洲奶汁xxxx哺乳期| 国产丝袜一区二区三区| 成a人片在线观看www视频| 久久精品国产免费观看| 黄色羞羞视频在线观看| 欧美孕妇与黑人孕交| 91另类视频| 99久久综合狠狠综合久久止| 亚洲精品合集| 在线视频精品一区| 国内精品美女在线观看| 久草资源站在线观看| 免费成人你懂的| 亚洲美女高潮久久久| 久久蜜桃香蕉精品一区二区三区| 日本猛少妇色xxxxx免费网站| 夜夜揉揉日日人人青青一国产精品| av资源免费观看| 91精品在线一区二区| 无码h黄肉3d动漫在线观看| 在线播放日韩专区| 狂野欧美性猛交xxxxx视频| 欧美重口另类videos人妖| 在线欧美激情| 蜜桃视频在线观看91| 天堂网在线观看国产精品| 乱人伦xxxx国语对白| 久久99精品久久久| 国产视频久久久久久| 中文字幕一区二区三区色视频 | 久久66热这里只有精品| 手机在线电影一区| 波多野结衣乳巨码无在线| 韩国毛片一区二区三区| 精品人妻一区二区三区香蕉| 亚洲激情图片qvod| 免费看日批视频| 欧美tickling挠脚心丨vk| 成a人v在线播放| 欧美性做爰毛片| 日韩av综合| 色爱区成人综合网| 亚洲精品社区| 国产一级片中文字幕| 欧美高清在线精品一区| 亚洲国产综合久久| 91精品国产综合久久小美女| 国产高清在线观看| 91大神福利视频在线| 精品一区二区三区视频在线播放| 日韩av一区二区三区美女毛片| 国语精品一区| 日韩欧美中文视频| 国产精品久久久久桃色tv| 中文字幕免费在线观看视频| 亚洲成人教育av| 午夜av在线免费观看 | 哺乳挤奶一区二区三区免费看| 中文字幕av日韩精品| 日本aⅴ免费视频一区二区三区| 国内精品久久99人妻无码| 亚洲成av人影院在线观看网| 99国产揄拍国产精品| www.日韩不卡电影av| 福利一区视频| 色噜噜色狠狠狠狠狠综合色一| 亚洲自啪免费| 香蕉视频黄色在线观看| 亚洲高清视频在线| 丰满少妇高潮在线观看| 欧美多人爱爱视频网站| 久久久国产精品入口麻豆| 一级黄色录像免费看| 久久99久久久欧美国产| 三级黄色在线观看| 欧美日韩视频在线观看一区二区三区| h视频在线免费| 国产欧美日韩免费看aⅴ视频| 精品一区av| 污污网站免费看| 亚洲欧洲三级电影| 91中文字幕在线视频| 久久精品国产亚洲精品2020| 成人在线视频国产| 黄色录像特级片| 福利一区福利二区| 久久精品国产亚洲av高清色欲| 精品久久久久久久久久久久包黑料| 女人黄色免费在线观看| 懂色一区二区三区av片| 亚洲少妇诱惑| 最近中文字幕在线mv视频在线| 91精品1区2区| 日p在线观看| 99在线观看视频| 亚洲精品专区| 麻豆精品免费视频| 欧美三级在线播放| 国产午夜精品久久久久免费视| 不卡视频一区| 国产精品亚洲产品| 亚洲欧美va天堂人熟伦| 欧美精品久久天天躁| 性爱视频在线播放| 精品一区在线播放| 日韩和欧美的一区| 农村妇女精品一区二区| 日韩电影免费在线观看中文字幕 | 国产黄色在线网站| 国产欧美日本在线| 人人狠狠综合久久亚洲| 91嫩草|国产丨精品入口| 亚洲精品v欧美精品v日韩精品| 影音成人av| 免费人成在线观看视频播放| 91亚洲精华国产精华精华液| 黄色大全在线观看| 欧美美最猛性xxxxxx| 色狼人综合干| 日本一二三四区视频| 黑人巨大精品欧美一区二区| 色大18成网站www在线观看| 国产一区不卡在线观看| 麻豆精品久久精品色综合| 日本学生初尝黑人巨免费视频| 这里只有精品丝袜| 97久久综合区小说区图片区| 成人亚洲视频在线观看| 一区二区理论电影在线观看| 国产一区精品| 国产一区二区不卡视频|