精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-4o不敵Qwen,無一模型及格!UC伯克利/港大等聯(lián)合團隊提出多模態(tài)新基準(zhǔn):考察多視圖理解能力

人工智能 新聞
來自UC伯克利、憶生科技、香港大學(xué)、紐約大學(xué)、加州大學(xué)戴維斯分校、牛津大學(xué)等多家機構(gòu)的研究者聯(lián)合提出了All-Angles Bench。

多視圖理解推理有新的評判標(biāo)準(zhǔn)了!

什么是多視圖理解?也就是從不同視角整合視覺信息進而實現(xiàn)理解決策。

想象一下,機器人在復(fù)雜環(huán)境中執(zhí)行任務(wù),這就需要根據(jù)多個攝像頭的畫面準(zhǔn)確判斷物體位置、距離和運動方向,這就依賴于強大的多視圖理解能力。

但過去,由于評估多視圖推理能力的基準(zhǔn)測試稀缺,這一領(lǐng)域的研究進展相對緩慢。

來自UC伯克利、憶生科技、香港大學(xué)、紐約大學(xué)、加州大學(xué)戴維斯分校、牛津大學(xué)等多家機構(gòu)的研究者聯(lián)合提出了All-Angles Bench,旨在全面評估MLLMs的多視圖理解能力。它涵蓋了90個真實場景下,超過2100組人工標(biāo)注的多視圖問答對。

其評測數(shù)據(jù)集以及評測代碼現(xiàn)已全部開源。

圖片

他們對27個領(lǐng)先的多模態(tài)大語言模型進行基準(zhǔn)測試,其中包括Gemini-2.0-Flash、Claude-3.7-Sonnet和GPT-4o。

結(jié)果顯示,多模態(tài)大語言模型與人類水平之間存在顯著差距,并進一步發(fā)現(xiàn)模態(tài)大語言模型存在兩種主要的缺陷模式:(1)在遮擋情況下跨視圖對應(yīng)能力較弱;(2)對粗略相機位姿的估計能力較差。

圖片

具體來看:

多視圖理解Bench

數(shù)據(jù)構(gòu)建

圖片

All-Angles Bench是一個包含超過2100組人工標(biāo)注的多視圖問答對的大規(guī)模基準(zhǔn),涵蓋了90個來源于EGO4D-EXO和EgoHumans數(shù)據(jù)集的真實世界場景。

數(shù)據(jù)集包含六大具有挑戰(zhàn)性的任務(wù),分別是Counting、Attribute Identification、Relative Distance、Relative Direction、Object Manipulation和Camera Pose Estimation。

這些任務(wù)旨在從多角度考察MLLMs對3D場景的理解能力,包括物體之間的位置關(guān)系、物體與相機之間的位置關(guān)系等。

構(gòu)建過程

圖片

1. 數(shù)據(jù)收集與問題類型設(shè)計:研究團隊精心挑選了90個多樣化的多視圖場景,并利用GPT設(shè)計了上述六大任務(wù)下的相關(guān)問題。

2. 問題篩查與人工標(biāo)注:通過人工標(biāo)注對問題進行細化,修飾以及答案生成。研究團隊并且使用交叉檢查的方法,確保了問題的清晰度、正確性和相關(guān)性,使得測試問題能夠準(zhǔn)確地評估模型的能力。

3. 成對問題生成與人工質(zhì)量檢查:為了評估模型在跨視圖一致性方面的表現(xiàn),研究團隊通過重新表述問題或改變視角來生成成對問題。在生成過程中,保持視角對應(yīng)關(guān)系不變,并進行最后的質(zhì)量控制,以確保成對問題的有效性。

性能評估

研究團隊對27個領(lǐng)先的MLLMs進行了全面評估,其中包括知名的Gemini-2.0-Flash、Claude-3.7-Sonnet、GPT-4o,以及多種開源和閉源模型。

結(jié)果發(fā)現(xiàn),無論是閉源還是開源的多模態(tài)大語言模型,在多視圖理解能力方面與人類水平之間仍存在顯著差距。

圖片

發(fā)現(xiàn)1:對人類來說簡單的任務(wù),比如粗略的相機位姿估計,對多模態(tài)大語言模型而言卻頗具挑戰(zhàn)。

在Camera Pose Estimation任務(wù)中,人類標(biāo)注者的準(zhǔn)確率達到88.9%,而Gemini-2.0-Flash、Qwen2.5-VL-72B和InternVL2.5-38B這些頂尖的多模態(tài)大語言模型,其準(zhǔn)確率落后超過50%,這凸顯了其與人類推理水平的顯著差距。

發(fā)現(xiàn)2:某些開源多模態(tài)大語言模型在方向敏感的任務(wù)上超越了閉源模型。

有趣的是,Ovis2-34B和Qwen2.5-VL-72B在Relative Direction和Object Manipulation任務(wù)上的表現(xiàn)甚至優(yōu)于Gemini-2.0-Flash和Claude-3.7-Sonnet等閉源模型。推測這可能得益于開源模型集成的視頻理解能力和精細的視覺定位能力,使得在跨視圖跟蹤物體重新定向方面表現(xiàn)出色。

實驗分析

1、多模態(tài)大語言模型在成對問答中的不一致性

圖片

研究人員將模型的回答分為三類:CC(兩個回答都正確)、WW(兩個回答都錯誤)和IC(一個正確,一個錯誤)。較高的IC占比表明模型的多視圖理解能力較弱,即簡單的換個說法就會導(dǎo)致其回答出錯。

在對六個頂尖的多模態(tài)大語言模型進行評估時發(fā)現(xiàn):

1)GPT-4o在Relative Distance任務(wù)上的IC得分最高(約70%),遠高于其他模型在該任務(wù)上的IC得分。

2)所有模型在Relative Direction任務(wù)上平均IC得分最高,表明在處理方向變化時存在困難。

3)Gemini-2.0-Flash和Claude-3.7-Sonnet在各個任務(wù)中的不一致性較為均衡,而Ovis2-34B和GPT-4o則表現(xiàn)出顯著的基于任務(wù)的不一致性差異。

2、多模態(tài)大語言模型在多視圖對應(yīng)方面表現(xiàn)不佳

雖然在所有物體在單一視角下都可見(完全可見)的情況下,多模態(tài)大語言模型(MLLMs)往往能夠成功處理任務(wù),但在跨視角整合碎片化信息(部分可見)時,它們有時會出現(xiàn)問題。

例如,GPT-4o 有時會選擇每個視角中的最大數(shù)量,而不是對跨視角的物體數(shù)量進行統(tǒng)一統(tǒng)計.

圖片

研究人員還在完全可見和部分可見的設(shè)置下,對 GPT-4o、Ovis2-34B 和 InternVL2.5-38B 這三款模型評估了以下三種方法:1)Zero-Shot CoT;2)Self-Consistency;3)Identification CoT。

雖然思維鏈方法在部分可見的情況下提升了 GPT-4o 的表現(xiàn),但對于在多視圖計數(shù)方面本就表現(xiàn)出色的模型(如 InternVL2.5-38B)而言,帶來的提升比較微少。

這表明,僅靠優(yōu)化提示詞并不夠,如果要對多視圖理解有根本性的性能提升,還需要進行專門的多視圖訓(xùn)練。

圖片

3、多模態(tài)大語言模型在粗略的相機位姿估計方面表現(xiàn)不佳

圖片

通過可視化的方法,研究人員讓MLLM推理多視圖下的物體和和相機的位置與朝向,可以發(fā)現(xiàn),雖然 GPT-4o 和 Gemini-2.0-Flash 對單張圖像的場景理解表現(xiàn)尚可,但它們在對齊不同的相機視角時存在困難,難以正確處理視角變換,進而影響多模態(tài)大語言模型的多視圖一致性。

論文地址: https://arxiv.org/abs/2504.15280

項目主頁: https://danielchyeh.github.io/All-Angles-Bench/

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-06-28 18:13:05

2024-11-29 09:18:01

2025-01-02 11:01:45

2024-06-12 11:50:23

2023-08-15 14:18:19

智能研究

2025-01-22 15:21:00

2024-01-18 13:39:00

AI訓(xùn)練

2025-02-18 12:30:00

2023-05-31 16:15:51

模型圖像

2024-11-26 13:40:00

2025-11-05 08:51:33

2025-05-26 08:33:00

2024-05-20 08:20:00

OpenAI模型

2024-12-02 08:20:00

2025-04-30 09:09:00

2024-04-07 00:45:00

開源模型

2024-08-30 14:35:00

2025-05-27 15:59:41

AI工具模型

2023-12-16 09:49:18

2024-10-30 15:00:00

AI視頻模型
點贊
收藏

51CTO技術(shù)棧公眾號

久久女同性恋中文字幕| 一区二区亚洲| 欧美一区二区在线不卡| www.avtt| 免费在线观看一级毛片| 久久精品国产免费看久久精品| 久久夜精品va视频免费观看| 成人手机在线免费视频| 精品福利在线| 午夜精品福利一区二区三区av| 日本午夜一区二区三区| 国产成a人亚洲精v品无码| 亚洲日本欧美| 久久精品99久久香蕉国产色戒| 熟妇高潮一区二区| 成人激情视屏| 亚洲成av人影院| 影音欧美亚洲| 飘雪影视在线观看免费观看 | 精品无码av一区二区三区不卡| 波多野结衣亚洲| 一区二区三区中文免费| 日本成人黄色免费看| 亚洲女人18毛片水真多| 久久超碰97中文字幕| 日韩美女视频免费在线观看| 久久久久性色av无码一区二区| 欧美日韩在线二区| 日韩www在线| 男人的天堂免费| 亚洲精品乱码日韩| 色综合网色综合| 99热亚洲精品| 日韩精品卡一| 亚洲视频一区二区免费在线观看| 日韩一区二区三区高清| 外国精品视频在线观看 | 91视频啊啊啊| 亚洲国产中文在线| 欧美精品久久99| 久久久久国产一区| 久久野战av| 色综合天天综合网天天狠天天| 日日摸日日碰夜夜爽无码| 污的网站在线观看| 亚洲男人天堂av网| www亚洲国产| 免费在线观看av网站| 亚洲国产精品99久久久久久久久 | 国产精品黑丝在线播放 | 蜜桃传媒视频第一区入口在线看| 成人免费一级视频| 国产精品1024久久| 18成人在线| 午夜精品久久久久久久99| 国产一区二区三区免费| 91香蕉电影院| 午夜久久久久久久久久| 福利一区二区在线| 国产精品麻豆免费版| 少妇喷水在线观看| 91免费观看视频| 欧美日韩一区在线视频| yw193.com尤物在线| 中文字幕av一区二区三区免费看| 天堂av一区二区| 成人高潮成人免费观看| 国产精品毛片无遮挡高清| 亚洲激情图片| 毛片网站在线免费观看| 亚洲精品日日夜夜| 青青草国产精品视频| 瑟瑟视频在线看| 欧美在线观看视频一区二区 | 国产厕拍一区| 日韩精品在线免费观看视频| av黄色在线免费观看| 欧美xxav| 国内精品视频久久| 亚洲精品男人天堂| 免费xxxx性欧美18vr| 亚洲一区二区久久久久久| 日韩一级片免费观看| 国产亚洲综合在线| 影音先锋在线亚洲| 久草在线视频网站| 日本韩国欧美一区| 91小视频在线播放| 国产成人aa在线观看网站站| 亚洲日本欧美日韩高观看| a一级免费视频| 精品电影一区| 国产精品日韩一区| 好吊色视频一区二区| 国产亚洲精品7777| 日本中文字幕一级片| 最新欧美色图| 91精品国产91久久综合桃花 | 国产精品看片你懂得| 丁香色欲久久久久久综合网| 一二三四视频在线中文| 欧美美女一区二区在线观看| 国产人妻黑人一区二区三区| 日韩成人精品一区| 性欧美激情精品| 国产精品久久影视| 久久久久久久综合狠狠综合| 国产精品免费看久久久无码| 六月婷婷综合| 精品国产青草久久久久福利| 老熟妇一区二区| 在线日本成人| 91美女福利视频高清| 免费av在线电影| 一区二区三区免费观看| 午夜免费福利在线| 偷拍精品福利视频导航| 欧美贵妇videos办公室| 国产一区二区女内射| 91麻豆精东视频| www..com日韩| 爱情电影网av一区二区| 中文字幕在线视频日韩| 五月婷婷亚洲综合| 高清不卡一区二区| 国产专区在线视频| 国产一区二区三区视频在线 | 欧美久久电影| 精精国产xxxx视频在线野外| 精品国产一区二区三区久久影院| 亚洲AV成人无码网站天堂久久| 男人的天堂成人在线| 精品欧美一区二区三区久久久| 色帝国亚洲欧美在线| 91精品欧美久久久久久动漫| 中国美女黄色一级片| 日本亚洲欧美天堂免费| 欧美精品一区二区三区久久| 日本在线高清| 日韩av在线播放资源| 日本少妇激情视频| 成人免费视频app| 欧美久久在线观看| www国产精品| 欧美激情亚洲另类| 国产综合无码一区二区色蜜蜜| 亚洲色图制服诱惑| 一级黄色免费毛片| 欧美激情亚洲| 动漫3d精品一区二区三区| 在线观看免费版| 欧美日韩国产综合一区二区| 欧美一级特黄高清视频| 蓝色福利精品导航| 中文字幕欧美日韩一区二区| 99视频这里有精品| 久久69精品久久久久久久电影好 | 国产男女激情视频| 国产探花一区二区| 国产精品久久av| 欧美日韩在线看片| 91精品国产91综合久久蜜臀| 久久机热这里只有精品| 北条麻妃一区二区三区| 18禁网站免费无遮挡无码中文| 欧亚精品一区| 国产精品极品在线| 麻豆传媒视频在线观看| 日韩欧美不卡在线观看视频| 四虎永久在线精品| 久久久国产精品午夜一区ai换脸| 日本xxxx黄色| 欧美黄色一级视频| 精品国产综合| 国产精品亲子伦av一区二区三区| 久久天天躁狠狠躁夜夜躁| 亚洲精品911| 色婷婷亚洲精品| 天天做夜夜爱爱爱| 成人黄色国产精品网站大全在线免费观看 | 午夜精品123| 国产熟女一区二区| 国产精品主播直播| 91免费视频网站在线观看| 日韩成人精品一区| 国产一区二区自拍| 久久不卡日韩美女| 性色av香蕉一区二区| av在线1区2区| 亚洲第一精品久久忘忧草社区| 91午夜精品亚洲一区二区三区| 亚洲欧美综合色| 国产又粗又猛又色| 精品午夜一区二区三区在线观看 | 91精品产国品一二三产区| 日韩中文字在线| 亚洲 小说区 图片区 都市| 欧美日韩成人综合| 国产三级av片| 亚洲欧美日韩国产综合| 中文字幕第4页| 国产九色精品成人porny| 男人天堂999| 午夜精品av| 亚洲巨乳在线观看| 色橹橹欧美在线观看视频高清 | 天堂网av成人| 99视频在线播放| 国产91在线精品| 欧美一区二区三区……| 欧美bbbxxxxx| 久久韩国免费视频| 国产黄在线看| 日韩av一卡二卡| 亚洲av无码国产精品久久不卡| 欧美色图一区二区三区| 狠狠人妻久久久久久综合| 一级日本不卡的影视| 999精品在线视频| 国产欧美精品一区| 一区二区黄色片| 成人avav影音| 深田咏美中文字幕| 国产美女精品在线| 亚洲免费成人在线视频| 日韩成人一区二区| 99久久激情视频| 亚洲在线免费| 国产特级黄色大片| 亚洲毛片网站| 男女啪啪免费视频网站| 亚洲高清自拍| 久久久久久久久久网| 激情自拍一区| 欧美一级视频免费看| 亚洲无线视频| 国产一区二区四区| 亚洲网站在线| 日韩欧美亚洲天堂| 国产日韩欧美三级| 日本成年人网址| 亚洲欧美日本国产专区一区| av网站在线观看不卡| 免费永久网站黄欧美| 黄在线观看网站| 日韩在线观看一区二区| 奇米影音第四色| 蜜臀久久99精品久久久画质超高清 | 韩日成人影院| 国产成人av在线播放| www.久久| 亚洲综合成人婷婷小说| 日韩影片在线观看| 精品日韩欧美| 欧美日韩激情| 欧美日韩一级在线| 欧美网站在线| 黄色成人在线看| 国产精品久久国产愉拍| 丁香婷婷激情网| 久久成人免费电影| 亚洲精品无码一区二区| 91麻豆文化传媒在线观看| 中文字幕伦理片| 国产精品久久综合| 久草网在线观看| 欧美午夜视频一区二区| 中文字幕av无码一区二区三区| 欧美日本乱大交xxxxx| 国产成人三级在线播放| 日韩av一区二区在线观看| 国产高清视频在线| 久久精品一区中文字幕| 精品众筹模特私拍视频| 国产成人激情视频| 精品一区二区三区在线观看视频| 国产有色视频色综合| 国产一区三区在线播放| 欧美日韩中文字幕在线播放| 首页综合国产亚洲丝袜| 在线观看免费看片| 久久午夜国产精品| 日韩黄色免费观看| 色婷婷综合久色| 99热这里是精品| 亚洲欧美色图片| 污污的网站在线免费观看| 奇米一区二区三区四区久久| 欧美黄页在线免费观看| 精品伦精品一区二区三区视频| 日韩影院二区| www黄色日本| 国产一区二区精品在线观看| 精品人妻一区二区三区香蕉| 亚洲欧美偷拍另类a∨色屁股| 欧美激情黑白配| 欧美一级欧美三级在线观看| 精品推荐蜜桃传媒| 欧美高清在线播放| 91精品麻豆| 日本高清一区| 亚洲精品人人| 日本黄色www| 中文字幕亚洲综合久久菠萝蜜| 日韩精品久久久久久久酒店| 91超碰这里只有精品国产| 国产在线观看免费| 午夜精品一区二区三区在线视| 成年永久一区二区三区免费视频| 欧美日韩一区二| 国产精品视区| 国模无码视频一区| 亚洲天天做日日做天天谢日日欢| 国产午夜麻豆影院在线观看| 亚洲高清在线观看| 在线视频中文字幕第一页| 国产精品十八以下禁看| 亚洲区小说区图片区qvod| 国产91沈先生在线播放| 狠狠狠色丁香婷婷综合激情| 亚洲精品国产精品国自产网站| 精品久久久久久久久久久久| 亚洲AV无码精品色毛片浪潮| 久久久精品视频成人| 欧美日韩国产网站| 日本a级片久久久| 另类国产ts人妖高潮视频| 国产精品久久不卡| 天天综合色天天综合| 特黄aaaaaaaaa真人毛片| 欧美精品videos性欧美| 91亚洲无吗| 日韩精品在线观看av| 国产69精品一区二区亚洲孕妇| 成人观看免费视频| 日韩一区二区三区四区| 黄网站免费在线播放| 91免费版网站入口| 影音先锋成人在线电影| 日韩av福利在线观看| 亚洲女人****多毛耸耸8| 国产女人18毛片水18精| 美女少妇精品视频| 久久伊人久久| 国产aaa免费视频| 成人av午夜影院| 日韩免费视频一区二区视频在线观看| 亚洲国产精品嫩草影院久久| 99热99re6国产在线播放| 激情小说综合区| 久久国产日韩| 精品在线观看一区| 91精品在线一区二区| 日韩激情av| 久久99精品久久久久久三级 | 久久久久久综合网| 亚洲欧美另类在线| 狠狠躁夜夜躁av无码中文幕| 韩国三级电影久久久久久| 久草在线综合| 亚洲五月天综合| 国产精品国产馆在线真实露脸| 国产男男gay体育生白袜| 欧美裸体男粗大视频在线观看| 国内毛片久久| 黑森林精品导航| 亚洲免费伊人电影| 色窝窝无码一区二区三区成人网站 | 青青草原成人| 精品中文字幕一区二区| 一区二区三区免费高清视频| 亚洲精品美女久久久| 日本黄色一区| 91网站在线观看免费| www激情久久| 国产又粗又猛又爽又黄91| 欧美日韩国产第一页| 亚洲综合图色| 午夜免费福利网站| 欧美日韩亚洲一区二| 欧美三级黄网| 欧美成人蜜桃| 国产精品一区二区无线| 日本天堂网在线| www.亚洲成人| 岳的好大精品一区二区三区| 精品国产乱码久久久久久1区二区| 午夜在线成人av| 日本中文字幕电影在线免费观看 | 91免费看片网站| 国产视频一区三区| 少妇人妻丰满做爰xxx| 亚洲精品一区中文| 日韩一区二区三区精品| 性刺激的欧美三级视频| 婷婷丁香激情综合| 香蕉成人app免费看片| 神马影院一区二区三区| 成人激情免费电影网址| 一级特黄色大片|