精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Gemini-2.0奪冠!全球首個幾何推理專項評測出爐,淘天集團出品

人工智能 新聞
首個從幾何原理視角出發,全面評估多模態大模型幾何解題能力的雙語綜合基準來了!

多模態大模型幾何解題哪家強?

首個從幾何原理視角出發,全面評估多模態大模型幾何解題能力的雙語綜合基準來了!

GeoSense,系統評測多模態大模型在幾何原理識別和應用中的表現,評測基準的數據和評測代碼均已開源。

其背后團隊來自淘天集團算法技術-未來生活實驗室團隊。

圖片

人類在解答幾何問題時,首先會識別所需的幾何原理并通過靈活應用它們來推導出答案。

然而,目前的評測方法多集中于最終答案的正確性或簡單地對每個推理步驟進行打分,而忽視了推理過程中的關鍵因素:幾何原理的識別和應用

盡管有研究發現模型的對幾何圖的感知能力不足限制了其后續推理,但實驗發現,幾何原理與圖像中幾何元素的正確對應及應用,是多模態大模型推理的另一大瓶頸。

為填補這一空白,GeoSense出現了,為在復雜視覺場景中的推理能力提升提供了新的方向。

五層知識架構+1789道幾何問題

GeoSense旨在系統評估多模態大模型識別和應用幾何原理來解決幾何問題的能力。

該基準建立了包含定義、定理和公式等幾何原理的5層知識架構,覆蓋平面幾何和立體幾何,支持中英雙語;精心構建并人工詳細標注了包括1789道問題的數據集;并針對幾何原理設計了創新性的評估策略。

它構建了包含148個幾何原理的5層知識架構,覆蓋平面幾何和立體幾何的65個定義,47個定理和36個計算公式,多維度細粒度地評估模型面對幾何問題時識別和應用知識的能力。

此外,Geosense有精細標注的數據集

它收納了1789道幾何問題,并使用中英雙語詳細標注了解題所必需的5556個幾何原理及其與幾何圖中元素的對應與應用,并使用特殊標簽()標注了解題中的關鍵點,確保模型評估的綜合性和準確性。

圖片

GeoSense擁有嚴格的構建流程,共有23位幾何領域的研究生同學進行數據標注、審核和質量把控。

下圖展示了一道題目的雙語標注示例。

圖片

值得一提的是,GeoSense采用創新的評估方法,創新性地提出GPI(幾何原理識別)和GPA(幾何原理應用)兩個評估指標,重點審視模型在復雜視覺場景中的幾何原理識別和應用能力,幫助識別模型推理過程中的潛在不足與提升空間。

評估系統:GPI+GPA+ACC

GeoSense貢獻了一種新的評估系統,包括幾何原理識別(GPI)評分和幾何原理應用(GPA)評分以及答案正確性評分 (ACC),以全面評估多模態大模型在GPS中類人的推理機制。

圖片

GPI(幾何原理識別評分)

作者使用GPI來評估模型能否正確識別解決問題所必需的幾何原理。

如上圖所示,對于每個幾何問題 ,專家標注了解題所必需的幾何原理集合。

對于每個幾何原理,作者借助GPT-4o判斷其是否在模型的響應中被應用。最終的GPI得分是幾何原理集合中模型可以正確識別的幾何原理的比例。

然而,僅僅通過此指標仍然無法得知,模型是否在視覺環境中合理地使用這些原理解決問題。這與人類解決幾何問題時遇到的困境相似:在某些情況下,人類知道應該運用相似三角形的知識來解決問題,但在實際的幾何圖形中,往往難以正確對應各個相似元素并將幾何原理正確應用。

GPA(幾何原理應用評分)

為了進一步衡量模型在視覺環境中應用幾何原理的能力,作者們提出了GPA指標。

如上圖所示,對于模型正確識別的每個幾何原理,首先提取模型響應中與該幾何原理相關的內容。

而后將提取到的內容與標注中的關鍵點進行比對,計算F1 score作為該幾何原理的GPA評分。

ACC(答案準確性評分)

作者還評估了答案的準確性,以評估模型正確識別和組合應用多個幾何原理以解決問題的能力。

以下是跟現有流行的多模態幾何相關的多個評測基準的對比:

圖片

Gemini-2.0-Pro-Flash表現最佳

該團隊對多個開源和閉源模型進行了全面評測和分析,并給出了這些模型在GPI、GPA和ACC三個指標的平均值上的排名情況。

圖片

最佳表現模型

Gemini-2.0-Pro-Flash在以幾何原理為中心的解題能力評估中表現最佳,其次是Qwen2.5-VL-72B和QvQ-72B-Preview。

在開源模型中,Qwen-VL系列表現最為突出。

推理增強類模型的潛力與挑戰

推理模型如QVQ-72B-Preview在幾何原理識別和應用上展現了強大的潛力,但在實際問題解決中面臨準確率挑戰,這是由于過度復雜化思考過程從而無法得到正確答案導致的。

此外,InternVL2.5-38B-MPO在幾何原理識別率(GPI)和應用準確率(GPA)方面相較于nternVL2.5-38B有所提升,顯示了優化模型推理思維過程的有效性。

平面幾何理解是共同短板

多模態大模型在平面幾何的理解方面存在明顯不足。

以Claude3.55-Sonnet為例,其在平面圖形的轉換和移動(TMPF)以及平面圖形的理解(UPF)中的幾何原理識別率(GPI)分別為65.9和45.1,應用準確率(GPA)更低,為32.5和38.7。

這一現象顯示出在處理二維空間問題時,模型的識別和應用能力均較弱,說明多模態大模型在視覺信息處理和空間關系推理方面需要進一步優化,以改善其在平面幾何任務中的表現。

推理能力隨模型規模提升

一般情況下,同一系列的模型規模越大,表現越優。

例如,Qwen2.5-VL系列從7B增至72B后,三種指標的平均分(AVG)從 51.3 提升至 60.1。

實驗都有哪些發現?

什么限制了多模態大模型的推理能力?

GPI和GPA的降低都會導致ACC的降低。

在上表中,InternVL-2.5-8B和InternVL-2.5-38B在定義類幾何原理上的GPA基本相同,但由于InternVL-2.5-38B的GPI得分比InternVL-2.5-8B高了5%,導致其ACC比后者高了7.7%。

另外,其他一些例子如Claude37-Sonnet和Qwen2.5-VL-72B在全量評測下的結果體現了GPA的降低也會影響模型的表現。

此外,大部分多模態大模型在GeoSense上的GPI和GPA都較低,這體現了幾何原理的識別和應用共同限制了多模態大模型的推理能力。

為什么多模態大模型在復雜問題中表現更差?

研究團隊觀察到,隨著所需幾何原理數量的增加,GPI和ACC分數都降低,而GPA分數則受到的影響較小。這樣的趨勢在閉源多模態大模型中更加明顯。

這些觀察結果表明,多模態大模型在復雜問題上的較差表現主要是由于未能準確識別必需的幾何原理所導致的。

該實驗強調了提高多模態大模型識別幾何原理能力的重要性,以進一步增強其推理能力。

圖片

更擅長哪種知識,哪方面有所欠缺?

多模態大模型在計算方面表現出色,但在幾何性質理解方面卻存在不足。

從上表的結果來看,多模態大模型在公式類問題上的三個指標表現顯著優于定義和定理類問題,特別是在GPI指標上。

這表明,多模態大模型在面對計算問題時能夠更清楚地識別所需的幾何原理。

相比之下,定義和定理通常包含幾何元素的抽象屬性和關系,這是多模態大模型難以理解的。

為什么在平面幾何領域表現不好?

研究人員發現,GPI限制了多模態大模型在平面幾何中的表現。

就GPI指標而言,大多數模型在USF科目上的表現優于UPF科目。然而,對于GPA指標,兩個科目之間的表現差異不顯著。盡管如此,就ACC指標而言,大多數模型在USF上的表現仍然更好。

這些觀察結果表明,限制模型解決平面幾何問題能力的關鍵因素是GPI,即模型在準確識別必需的幾何原理方面遇到的困難。這是由于平面幾何中存在許多容易混淆的原理,如判定相似和全等三角形。

這強調了模型需要準確識別必要原理,以增強其對平面幾何的理解。

圖片

論文鏈接:
https://arxiv.org/abs/2504.12597
項目主頁:
https://gfzshiwai.github.io/GeoSense_Project/
Github:
https://github.com/GFZShiwai/GeoSense

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-12-27 09:00:00

訓練模型數據

2010-12-14 11:24:58

2025-02-06 09:52:12

2021-11-15 10:07:17

手機5G通信

2025-10-14 08:58:00

2025-02-20 10:44:06

2025-02-14 08:00:00

人工智能Gemini 2.0LLM

2019-09-17 09:40:06

編譯器開源開發者

2023-03-06 09:44:06

模型開源

2024-12-20 14:30:00

2025-04-03 02:35:00

GoogleGemini工具

2011-03-11 13:13:24

2023-12-21 13:26:13

谷歌Gemini大模型

2009-08-19 09:22:46

科技公司RIM

2012-02-08 09:17:50

JActorJava

2025-07-22 10:27:27

點贊
收藏

51CTO技術棧公眾號

福利小视频在线观看| 成人免费毛片视频| 风间由美性色一区二区三区四区 | 一区二区三区在线观看www| 99久久99久久久精品棕色圆| 99精品久久| 日韩中文字幕免费看| 亚洲啪av永久无码精品放毛片 | av在线免费一区| 国产美女娇喘av呻吟久久| 97人人模人人爽人人喊中文字| 性欧美精品中出| 亚洲精品黑牛一区二区三区| 色呦呦一区二区三区| 国产911在线观看| 国产福利片在线| av午夜一区麻豆| 国产欧美日韩高清| 国产午夜精品无码一区二区| 色小子综合网| 亚洲欧美日韩区| 少妇性l交大片7724com| 91九色综合| 欧美日韩在线视频一区| 四虎4hu永久免费入口| 二区三区在线播放| 95精品视频在线| 99九九电视剧免费观看| 中文字幕丰满人伦在线| 亚洲一区免费| 欧美精品18videosex性欧美| 99成人在线观看| 少妇精品久久久| 日韩精品在线观看一区二区| 日韩大尺度视频| 国产精品一区三区在线观看| 欧美少妇性性性| 人妻无码视频一区二区三区| 国产黄大片在线观看| 亚洲已满18点击进入久久| 中文字幕日韩精品一区二区| 粉嫩av一区| 久久精品视频一区二区| 欧美理论一区二区| 亚洲色大成网站www| 粉嫩av一区二区三区粉嫩 | 一区二区三区 欧美| 黄色成人免费网| 欧美午夜性色大片在线观看| 国产免费黄色小视频| 乱插在线www| 亚洲午夜激情av| 国产精品一线二线三线| 成人影院在线播放| 亚洲一二三区在线观看| 日韩xxxx视频| 性欧美freesex顶级少妇| 欧美日韩亚洲激情| 亚洲中文字幕久久精品无码喷水| 欧美大片免费高清观看| 在线视频欧美区| 亚洲老女人av| 先锋影音一区二区| 日韩视频在线一区二区| 激情av中文字幕| av日韩精品| 精品视频久久久久久| 99久久久无码国产精品性| 奇米狠狠一区二区三区| 菠萝蜜影院一区二区免费| 国产高潮国产高潮久久久91| 欧美区亚洲区| 91豆花精品一区| 免费观看日批视频| 另类调教123区| 91中文字精品一区二区| 天堂在线观看av| 久久精品日产第一区二区三区高清版| 日韩久久久久久久久久久久久| 日本视频在线播放| 亚洲国产aⅴ天堂久久| 久草青青在线观看| 亚洲欧洲二区| 亚洲精品97久久| 人妻无码一区二区三区免费| 综合久久婷婷| 日本免费久久高清视频| 一级全黄少妇性色生活片| 国产成人在线色| 欧美精品尤物在线| www.欧美日本韩国| 色综合激情五月| 在线观看你懂的视频| 香蕉精品久久| 久久国产精彩视频| 好吊色在线视频| 国产精品一区二区久久精品爱涩| 精品蜜桃传媒| 黄色片网站在线| 欧美午夜视频一区二区| 中文字幕第10页| 精品国产99| 国内偷自视频区视频综合| 日本欧美www| av电影在线观看不卡| 一区二区不卡在线视频 午夜欧美不卡'| 欧美videossex另类| 欧美又粗又大又爽| 永久免费看片在线播放| 午夜在线观看视频18| 久久久99精品久久| 成人性做爰片免费视频| 天堂中文av在线资源库| 91麻豆精品国产91久久久久久久久| 久草视频福利在线| 久久麻豆精品| 琪琪第一精品导航| www.国产欧美| 国产精品欧美一级免费| 一二三四视频社区在线| 欧美激情不卡| 亚洲欧美在线看| 国产一级二级三级| 紧缚捆绑精品一区二区| 日本一区二区三区视频在线播放| 久久亚洲导航| 欧美一区二区三级| 成人无码精品1区2区3区免费看| 日韩一级网站| 国产精品久久国产精品| 黄色片网站在线| 欧美日韩精品欧美日韩精品一 | 国产精品 欧美精品| 日本在线成人一区二区| 日本在线影院| 亚洲国产精品系列| 免看一级a毛片一片成人不卡| 麻豆精品一区二区综合av| 欧洲高清一区二区| 自拍偷拍亚洲视频| 日韩av网站电影| 日韩精品无码一区二区| 成人一区二区视频| 69精品丰满人妻无码视频a片| 日韩在线激情| www.欧美精品| 国产精品毛片久久久久久久av| 中文字幕不卡的av| 91香蕉视频导航| 久久精品国产大片免费观看| 成人av电影天堂| av网站免费在线观看| 欧美一区二区三区日韩视频| 久久国产美女视频| 国产成人免费av在线| 青青视频免费在线| 亚洲网址在线观看| 97欧美精品一区二区三区| 青青草视频免费在线观看| 黑人巨大精品欧美一区二区| 国产伦精品一区二区三区妓女 | 欧美中文在线字幕| 欧美zzoo| 精品视频免费看| 欧美黄色aaa| 国产jizzjizz一区二区| 免费看欧美一级片| 巨人精品**| 日本精品视频在线观看| 国产精品一级伦理| 欧美妇女性影城| 精品肉丝脚一区二区三区| 成人免费视频国产在线观看| 看av免费毛片手机播放| 精品久久成人| 亚洲www在线| 123区在线| 国产午夜精品全部视频在线播放| 中文字幕理论片| 伊人开心综合网| 中文字幕无码人妻少妇免费| 久久天天综合| 国产女人18毛片| 亚洲精品aaaaa| 国产日韩在线一区| 国产啊啊啊视频在线观看| 亚洲免费电影在线观看| 曰批又黄又爽免费视频| 一区二区三区 在线观看视频| 国产三级国产精品| 激情综合色播五月| 免费看国产曰批40分钟| 日韩国产一区二区| 国产精品综合久久久久久| 欧美亚洲大片| 久久久久久久久国产精品| 精品999视频| 精品国产乱码久久久久久蜜臀| 中文在线第一页| 亚洲乱码国产乱码精品精可以看| 一区二区视频观看| 国产一区二区三区香蕉| 大陆极品少妇内射aaaaa| 国产精品久久久久9999赢消| 久久久久久九九九九| 亚洲tv在线| 秋霞av国产精品一区| 欧美6一10sex性hd| 久久精品99久久久香蕉| 巨骚激情综合| 精品999在线播放| 国产在成人精品线拍偷自揄拍| 精品国产乱码久久久久久婷婷 | 亚洲444eee在线观看| a一级免费视频| 久久久久久久久免费| 日韩av成人网| 精品一区二区三区日韩| 久久精品免费网站| 国产欧美高清| 久久综合久久久久| 久久久久久久久久久久久久 | 中文字幕免费精品| 日韩三级电影免费观看| 色狼人综合干| 国产伦一区二区三区色一情| 成人在线视频www| 国产精品一区二区三区免费视频 | 137大胆人体在线观看| 日韩国产高清视频在线| 风流少妇一区二区三区91| 91精品国产色综合久久| 最好看的日本字幕mv视频大全| 精品久久久久久亚洲精品| 国产乱码久久久久久| 亚洲免费在线电影| 永久免费看片直接| 国产精品福利一区二区| 亚洲精品国产精品国自| 国产日韩视频一区二区三区| 国精产品一区二区三区| 久久综合久久综合亚洲| 少妇精品一区二区三区| 99国产一区二区三精品乱码| 国产一卡二卡三卡四卡| 丁香六月综合激情| 亚洲欧美日韩偷拍| 波多野结衣中文字幕一区| a级片在线观看视频| 国产成人精品一区二区三区四区| 无码人妻一区二区三区在线视频| 精品在线播放午夜| 午夜免费一级片| 国产福利一区在线观看| 韩国三级与黑人| 成人免费视频视频在线观看免费| 午夜剧场免费看| 91麻豆蜜桃一区二区三区| 免费a在线观看播放| 久久久噜噜噜久噜久久综合| 久久久久久久毛片| 国产精品久久久久久亚洲毛片| 91免费公开视频| 亚洲一区二区三区国产| av大片免费观看| 欧美在线一区二区三区| 国产精品高潮呻吟AV无码| 欧美一级生活片| 五月婷婷久久久| 在线成人一区二区| 国产在线激情视频| 久久久亚洲福利精品午夜| 久久sese| 91免费在线视频网站| 国产成人福利av| 欧美日韩一区二| 91久久国产| 男女私大尺度视频| 日本亚洲三级在线| 男插女视频网站| 久久亚洲精品国产精品紫薇| 国产不卡在线观看视频| 一区二区三区不卡在线观看 | 国产人妻大战黑人20p| 中文字幕精品综合| 久草网站在线观看| 黑人巨大精品欧美一区二区三区| 在线观看国产黄| 精品剧情v国产在线观看在线| 精品美女视频在线观看免费软件 | 精品一区二区在线免费观看| 中文字幕无人区二| 日本一区二区免费在线观看视频| 玖玖爱这里只有精品| 福利精品视频在线| 国产又粗又黄又爽视频| 亚洲精品美女网站| sm国产在线调教视频| 国产91精品久久久久久| 国产高清日韩| 欧美日韩综合另类| 国产精品啊啊啊| 超碰超碰在线观看| 91在线观看一区二区| 日韩影院一区二区| 在线精品视频一区二区三四| 欧美视频在线观看一区二区三区| 亚洲一区二区久久久| 九色porny自拍视频在线播放| 国产一区二区丝袜高跟鞋图片| 人妖一区二区三区| 无码人妻精品一区二区三区99v| 日韩成人免费看| 亚洲色图14p| 亚洲五月六月丁香激情| 91麻豆一区二区| 夜夜嗨av一区二区三区免费区| 久久电影网站| 69174成人网| 日韩精品看片| 黄色一级大片在线观看| 91一区二区在线| 五月天综合在线| 日韩一区二区电影在线| 欧美极品视频| 国产欧美一区二区三区久久| 国产精品视频一区二区三区四蜜臂| 极品粉嫩国产18尤物| 国产精品香蕉一区二区三区| 妖精视频在线观看免费| 欧美性猛片xxxx免费看久爱| 久久视频www| 欧美做受高潮1| 午夜精品影视国产一区在线麻豆| 日本一区午夜艳熟免费| 国产成人一区在线| 波多野结衣不卡视频| 欧美一级一级性生活免费录像| 9色在线视频| 国产精品一区专区欧美日韩| 欧美一二区在线观看| 免费日韩中文字幕| 久久精品视频在线免费观看| 免费av中文字幕| 一区二区三区精品99久久| 日韩中文视频| 亚洲精品一区二区三区樱花| 免费观看久久久4p| 神马久久精品综合| 欧美一区二区二区| 羞羞的视频在线看| 国产91精品入口17c| 亚洲经典在线| 国产人妻人伦精品1国产丝袜| 图片区小说区国产精品视频| 同心难改在线观看| 日本电影亚洲天堂| 国产探花一区在线观看| 我要看一级黄色大片| 亚洲国产成人一区二区三区| 在线免费看91| 久久夜色精品亚洲噜噜国产mv| 日韩精品一区二区三区中文| 人妻av无码专区| 26uuu久久天堂性欧美| 亚洲天堂五月天| 最新国产精品拍自在线播放 | 国产亚洲精品久久久久久豆腐| 欧美顶级少妇做爰| 视频在线观看入口黄最新永久免费国产| 97碰碰视频| 性xx色xx综合久久久xx| 欧美成人另类视频| 日韩亚洲电影在线| 中文字幕在线免费观看视频| 亚洲mv在线看| 国产成人精品三级麻豆| 国产三级av片| 久久国内精品一国内精品| 波多野结衣在线一区二区 | 国产美女主播视频一区| 免费毛片一区二区三区| 一区二区三区亚洲| 51社区在线成人免费视频| 久久久久久久久久久久久国产精品 | 波多野结衣在线播放| 欧美成人一区二区在线| 极品少妇xxxx偷拍精品少妇| 久久久午夜影院| 久久精品国产久精国产思思| 老司机成人在线| 伊人色在线视频| 色综合亚洲欧洲| www在线免费观看视频| 欧美一区二区三区四区五区六区 | 日本在线免费看| 精品视频免费观看| 国内精品国产成人| 中文字幕日韩免费| 欧美黄色免费网站|