精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

14 項任務測下來,GPT4V、Gemini等多模態大模型竟都沒什么視覺感知能力?

發布于 2024-5-11 09:33
瀏覽
0收藏

2023-2024年,以 GPT-4V、Gemini、Claude、LLaVA 為代表的多模態大模型(Multimodal LLMs)已經在文本和圖像等多模態內容處理方面表現出了空前的能力,成為技術新浪潮。


然而,對于這些模型的評測多集中于語言上的任務,對于視覺的要求多為簡單的物體識別。相對的,計算機視覺最初試圖解讀圖像作為3D場景的投影,而不僅僅處理2D平面“模式”的數組。


為響應這一情況,本文提出了BLINK,這是一個新的測試集,包含了重新構想的傳統計算機視覺問題,使我們能夠更全面評估多模態大模型的視覺感知能力,帶你揭開GPT4V、Gemini等大模型的視覺界限秘密。


作者相信BLINK將激勵社區幫助多模態LLMs達到與人類同等級別的視覺感知能力。


14 項任務測下來,GPT4V、Gemini等多模態大模型竟都沒什么視覺感知能力?-AI.x社區


論文鏈接:https://zeyofu.github.io/blink


什么是BLINK?


BLINK 是一個針對多模態語言模型(Multimodal LLMs)的新基準測試,專注于評估其核心視覺感知能力,這些能力在其他評估中并未涉及。


BLINK包含 14 項視覺感知任務,擁有3.8k個選擇題7.3k張圖像


人類可以“一眨眼”之間解決這些任務 (例如,相對視深、視覺對應、目標定位,和多視角推理等);但對當前的多模態大型語言模型(Multimodal LLMs)而言,這些任務構成了重大挑戰,因為它們難以通過自然語言處理來解決。


平均而言,人類在這些任務上的準確率為95.70%,然而即使是GPT-4V和Gemini也只達到了51.26%45.72%的準確率,比隨機猜測僅高出13.17%7.63%。 


14 項任務測下來,GPT4V、Gemini等多模態大模型竟都沒什么視覺感知能力?-AI.x社區


BLINK與其他基準測試的區別


14 項任務測下來,GPT4V、Gemini等多模態大模型竟都沒什么視覺感知能力?-AI.x社區


(1)BLINK 運用了多種的視覺prompts, 如圓形、盒形, 和圖像遮罩 masks, 而以前的基準測試僅包含文本問題和答案。


(2)BLINK評估了更全面的視覺感知能力,如多視角推理、深度估算和反射率估算。以往的基準測試通常更側重于基于物體識別的視覺問答(VQA)。


(3)BLINK只包含“視覺”常識性問題,這些問題人類不需要接受教育就可以在一秒鐘內回答,而以前的基準測試像MMMU這樣的則需要專業領域知識。


(4)BLINK涵蓋了14個需求感知的任務,這些任務受到經典計算機視覺問題的啟發。雖然這些問題僅需人類“一眨眼”的時間即可解決,但它們超出了當前多模態大型語言模型的能力。


BLINK 實驗結果


14 項任務測下來,GPT4V、Gemini等多模態大模型竟都沒什么視覺感知能力?-AI.x社區


本文評估了17個不同大小(即7B,13B,34B)的多模態LLMs在BLINK上的表現。并觀察到一個悖論:盡管這些問題對于人類來說很容易(平均準確率為95.70%),但對現有機器來說卻極其困難。


7B和13B開源多模態大型語言模型(LLMs)的平均準確率大約在35-42%之間,與隨機猜測(38.09%)相似。


最好的開源模型是LLaVA-v1.6-34B,達到了45.05%的準確率。


即使是最新的大模型,如GPT-4V、Gemini Pro和Claude 3 OPUS,其準確率也僅為51.26%、45.72%和44.11%。它們的表現僅比隨機猜測好13.17%、7.63%和6.02%,并且比人類的表現差44.44%、49.98%和51.59%。


值得注意的是,在某些任務上,如拼圖、語義對應、多視角推理、對象定位和相對反射率,一些多模態LLMs甚至表現不如隨機猜測。


14 項任務測下來,GPT4V、Gemini等多模態大模型竟都沒什么視覺感知能力?-AI.x社區


BLINK展示大模型的錯誤范例


對于每項任務,該文章展示了LLaVAv1.6-34B、Qwen-VL-Max、Gemini Pro、GPT-4V和人類的選擇。紅色選項指的是正確答案。請注意,為了視覺效果,作者故意放大了標記,并且將一些圖片做成插圖以節省空間。


對于智力測驗,第三張圖片是通過疊加第一張和第二張圖片構成的。 


14 項任務測下來,GPT4V、Gemini等多模態大模型竟都沒什么視覺感知能力?-AI.x社區


BLINK實驗分析


(1)把圖片轉換成文字是否是解決多模態問題的正確選擇?


為了回答這個問題,本文使用GPT-4V將圖片轉換為與任務無關的密集圖片字幕,并使用基于文本的LLM來完成任務(Caption + LLM)。這種密集字幕利用語言描述了圖像及視覺提示的詳細信息(例如,每個圓圈的位置)。


作者在BLINK、MMBench和MMMU上進行了實驗。令人驚訝的是,Caption + LLM的配置在MMBench和MMMU上的結果遠優于BLINK。這些結果表明,圖像字幕攜帶了回答其他基準所需的大部分視覺信息。同時,BLINK需要的高級感知能力超出了通用字幕目前可達到的范圍。


14 項任務測下來,GPT4V、Gemini等多模態大模型竟都沒什么視覺感知能力?-AI.x社區


(2)視覺提示(visual prompts)對多模態大模型能產生多大的影響?


本文分析了BLINK中多個任務上圓圈大小和顏色的影響。


實驗表明,視覺提示可能對多模態LLM的性能產生重大影響,改進視覺提示或提高模型對提示變化的魯棒性是未來研究的有前景的方向。根據分析,作者發現最佳圓圈大小依賴于具體任務,平均而言,10px的圓圈效果最好。同樣,對于所有任務來說,紅色比灰色更好。


14 項任務測下來,GPT4V、Gemini等多模態大模型竟都沒什么視覺感知能力?-AI.x社區


(3)傳統計算機視覺專家模型能解決BLINK任務嗎?


專家可以作為多模態LLM可能達到的上限的代理。這揭示了一個可能性,即多模態LLM可能因正確的數據和培訓策略而在這些任務上取得進展。


14 項任務測下來,GPT4V、Gemini等多模態大模型竟都沒什么視覺感知能力?-AI.x社區


作者簡介:


府星妤 (Xingyu Fu)是賓夕法尼亞大學NLP組的博士生,師從Dan Roth教授。她曾在亞馬遜和微軟實習。她的研究主要專注于多模態大模型的感知和推理Reasoning。


胡雨石 (Yushi Hu)是華盛頓大學NLP組的博士生,師從Mari Ostendorf 和 Noah Smith 教授。與此同時,他還是艾倫人工智能研究所(AI2)學生研究員,此前曾在谷歌和騰訊AI 實習。他的研究主要專注于多模態大模型和基于反饋的模型訓練。


本文轉自 機器之心 ,作者:機器之心


原文鏈接:??https://mp.weixin.qq.com/s/_-mgdLLJd4ck1UMJmfWTpg??

收藏
回復
舉報
回復
相關推薦
www.av视频在线观看| 国内外成人免费在线视频| 天天爱天天干天天操| 亚洲精品视频啊美女在线直播| 欧美日韩精品一区二区在线播放| 日韩av影视| 国产伦一区二区| 亚洲美女少妇无套啪啪呻吟| 亚洲欧美在线免费| 久久人人爽人人片| 欧美黑人疯狂性受xxxxx野外| 亚洲国产精品精华液ab| 91大片在线观看| 亚洲国产成人无码av在线| 日韩欧美中文| 亚洲精品国产综合久久| 日本77777| 亚洲深夜视频| 一区二区三区不卡视频| 欧洲成人一区二区| 亚洲va天堂va欧美ⅴa在线| 免费精品视频| 欧美大片免费观看| 纪美影视在线观看电视版使用方法| 天堂va欧美ⅴa亚洲va一国产| 亚洲va天堂va国产va久| 亚洲午夜精品福利| 熟妇高潮一区二区高潮| 国产麻豆精品95视频| 国产精品va在线| 日本va欧美va国产激情| 欧美国产先锋| 久久久999精品视频| 久久精品国产亚洲AV熟女| 97青娱国产盛宴精品视频| 欧美色老头old∨ideo| 免费毛片小视频| 免费看电影在线| 亚洲美女精品一区| 伊人天天久久大香线蕉av色| 国产一级网站视频在线| 99精品一区二区| 国产传媒一区二区| 国内老熟妇对白xxxxhd| 久久99精品久久久久婷婷| 国产精品久久不能| 亚洲 欧美 中文字幕| 国产美女精品| 欧洲精品在线视频| 一级片中文字幕| 国产一区二区三区的电影 | 欧美高清电影在线| 成人va在线观看| 国产日韩欧美亚洲一区| www.中文字幕| 高清不卡一区二区| 99精品在线直播| 亚洲av无码国产综合专区 | 亚洲国产一区二区三区青草影视| 亚洲一区二区四区| 午夜老司机在线观看| 国产精品久久久久久久久快鸭| 久久国产一区二区| 日韩a在线观看| 久久久国产精品午夜一区ai换脸| 久久av免费一区| 日韩黄色影片| 欧美国产激情二区三区| 亚洲色图自拍| yellow91字幕网在线| 亚洲男人的天堂网| 性一交一乱一伧国产女士spa| a视频在线免费看| 夜夜精品视频一区二区| 被灌满精子的波多野结衣| av最新在线| 色婷婷激情综合| 在线观看免费的av| 色悠久久久久综合先锋影音下载| 欧美一区二区三区四区高清 | 国产一区高清在线| av一区和二区| 日本护士...精品国| 亚洲国产精品传媒在线观看| 一区二区三区久久网| av电影免费在线观看| 午夜激情一区二区三区| 久久午夜夜伦鲁鲁一区二区| 日韩成人精品一区二区三区| 日韩欧美国产麻豆| 中文字幕丰满孑伦无码专区| 不卡中文字幕| 欧美激情视频给我| 无码人妻久久一区二区三区不卡| 日本怡春院一区二区| 91久久国产精品| 亚洲aaaaaaa| 亚洲欧美影音先锋| 大陆极品少妇内射aaaaa| 国产精品麻豆成人av电影艾秋| 欧美日韩国产乱码电影| 亚洲色图欧美另类| 成人影院在线| 性色av一区二区三区免费| 久久久久久亚洲av无码专区| 国产在线播放一区三区四| 精品一卡二卡三卡四卡日本乱码 | 久久久精品亚洲| 中文字幕日韩一级| 久久99精品一区二区三区三区| 99久久久久国产精品免费| 黄色片在线免费看| 夜夜嗨av一区二区三区四季av| 奇米精品一区二区三区| 91成人短视频在线观看| 亚洲九九九在线观看| 精品国产乱码久久久久久鸭王1| 伊人久久久大香线蕉综合直播| 国产不卡精品视男人的天堂| 精品人妻一区二区三区麻豆91| 91小视频免费看| 久久福利一区二区| 欧美美女被草| 在线播放国产精品| 黄色在线免费观看| 成人久久18免费网站麻豆| 中文字幕免费在线不卡| 三级成人黄色影院| 日韩精品极品在线观看播放免费视频 | 亚洲一区视频在线| 欧美伦理片在线观看| 秋霞在线一区| 久久久久国产精品免费| 99国产精品欲| 国产精品嫩草影院com| 玩弄中年熟妇正在播放| 日韩三级网址| 乱亲女秽乱长久久久| 亚洲视频久久久| 国产亚洲精品精华液| 亚洲精品无码久久久久久| 看全色黄大色大片免费久久久| 久久精品视频免费播放| 中文在线字幕av| 中文字幕精品在线不卡| 男女无套免费视频网站动漫| 国产中文精品久高清在线不| 国产mv免费观看入口亚洲| 日本天堂影院在线视频| 狠狠综合久久av一区二区小说| 亚洲麻豆一区二区三区| 伊人精品成人久久综合软件| 国产精品久久亚洲| 都市激情国产精品| 日韩国产高清视频在线| 国产中文字幕视频| 久久精品一区蜜桃臀影院| 妞干网在线免费视频| 国产欧美日韩免费观看| 国产精品mp4| 日韩毛片久久久| 337p亚洲精品色噜噜| 一区二区成人免费视频| 国产福利一区二区| 99视频在线免费播放| 综合国产视频| 国产美女被下药99| 超碰在线最新| 亚洲第一偷拍网| 日韩在线 中文字幕| 中文字幕不卡在线| 日本亚洲一区二区三区| 亚洲三级色网| 秋霞毛片久久久久久久久| 久久精品资源| 欧美激情精品久久久久久大尺度| 亚洲h视频在线观看| 懂色av一区二区三区| 亚洲激情图片网| 国产成a人亚洲| 91免费视频网站在线观看| 日韩在线视屏| 国产91精品一区二区绿帽| 345成人影院| 久久亚洲精品国产亚洲老地址| 99精品在线视频观看| 天天亚洲美女在线视频| www.xx日本| 99麻豆久久久国产精品免费优播| 国产成人精品无码播放| 影音先锋成人在线电影| 久久久久久久久久久久久久一区| 日韩影片中文字幕| 久久99热这里只有精品国产| 免费在线一级视频| 日韩亚洲欧美中文三级| 麻豆精品久久久久久久99蜜桃| 欧美高清在线一区| 李丽珍裸体午夜理伦片| 久久精品二区亚洲w码| 人妻av中文系列| 性欧美69xoxoxoxo| 欧美日韩免费高清| 91精品日本| 国产欧美日韩专区发布| 国模私拍一区二区国模曼安| 日韩有码在线观看| 天天操天天干天天舔| 91精品久久久久久久91蜜桃| 亚洲精品男人的天堂| 一个色综合av| 老司机精品免费视频| 97久久超碰国产精品| 91视频福利网| 蜜桃一区二区三区在线观看| 欧美日韩在线一| 欧美视频一区| 黄色免费高清视频| 精品国产一区二区三区久久久蜜臀 | 痴汉一区二区三区| 日本中文字幕视频一区| 国产成人精品视频在线观看| 色婷婷av在线| 久久久av免费| 麻豆网站在线免费观看| 亚洲午夜精品视频| 飘雪影院手机免费高清版在线观看| 欧美一区二区三区小说| 亚洲天堂久久久久| 欧美午夜一区二区三区免费大片| 伊人365影院| 亚洲永久精品国产| 国产高清在线免费观看| 亚洲欧洲另类国产综合| 中文字幕精品亚洲| 亚洲国产精品精华液ab| 免费看91的网站| 国产欧美日韩综合| 亚洲色成人网站www永久四虎| 粉嫩av一区二区三区粉嫩| 麻豆精品国产传媒| 国产成人在线看| 成人做爰69片免费| 成人三级伦理片| 美女久久久久久久久| 99热99精品| 伊人网伊人影院| 国产日韩一级二级三级| 在线免费观看视频| 中文字幕一区二区三区不卡在线| 国产精品天天干| 日本一区二区三区四区| 一二三四国产精品| 亚洲色大成网站www久久九九| 麻豆视频免费在线播放| 国产精品免费久久久久| 四虎影视一区二区| 亚洲人成网站在线| 婷婷色中文字幕| 亚洲成人第一页| 视频一区二区三区四区五区| 一本久久综合亚洲鲁鲁五月天| 久久青青草原亚洲av无码麻豆| 欧美日韩一区二区免费视频| 无码人妻黑人中文字幕| 欧美丝袜丝交足nylons| 国产精品人妻一区二区三区| 欧美一区二区成人| 手机看片1024日韩| 亚洲一区二区久久久| 黄色网址免费在线观看| 欧美极品欧美精品欧美视频 | 亚洲国产毛片aaaaa无费看| 欧美日韩中文视频| 一本大道久久a久久综合婷婷| 亚洲第一网站在线观看| 精品视频1区2区3区| 国产aⅴ爽av久久久久成人| 亚洲国产精品美女| 3p视频在线观看| 久久久久久久久久久国产| 欧美xxx视频| 亚洲a在线观看| 丝袜久久网站| 在线视频欧美一区| 一区二区动漫| 中文字幕av不卡在线| 国产suv精品一区二区三区| 少妇特黄一区二区三区| 亚洲桃色在线一区| 你懂的国产在线| 91精品啪在线观看国产60岁| 亚州av在线播放| 成人97在线观看视频| 国产免费拔擦拔擦8x高清在线人| 国产精品国产三级国产专播精品人| 伊人久久大香| 乱一区二区三区在线播放| 91国语精品自产拍| 少妇高清精品毛片在线视频| 国产福利一区二区| 久久久精品成人| 午夜精品久久久久久久99水蜜桃 | 疯狂撞击丝袜人妻| 一本色道久久综合狠狠躁的推荐| 国产一区二区视频免费观看| 亚洲精品wwww| 伊人影院在线视频| 国产精品久久久久久久天堂| 国产一区二区三区亚洲| 一区二区三区国产福利| 久久精品电影| 50一60岁老妇女毛片| 亚洲欧美另类久久久精品2019| 日韩精品久久久久久久酒店| 欧美福利视频一区| 免费在线视频一级不卡| 午夜精品久久久久久久久久久久| 黄色成人在线观看网站| 欧洲一区二区日韩在线视频观看免费| 日韩精品免费一区二区三区| 啊啊啊一区二区| 成人美女视频在线观看18| 欧产日产国产v| 555夜色666亚洲国产免| 最新av网站在线观看| 国产精品av在线| 精品国产乱码| 老司机午夜av| 久久精品亚洲精品国产欧美kt∨| 久久午夜鲁丝片午夜精品| 欧美一级搡bbbb搡bbbb| 老司机精品视频在线观看6| 国产精品入口尤物| 日韩精品一区二区久久| 在线观看亚洲色图| 国产区在线观看成人精品| www.国产一区二区| 亚洲色图av在线| 最新日韩一区| 五月天亚洲综合| 日本免费在线视频不卡一不卡二 | 精品区在线观看| 久久影视电视剧免费网站清宫辞电视 | 能在线观看的av网站| 91在线观看免费视频| 黄色片视频网站| 精品在线欧美视频| 最新日韩精品| 婷婷四月色综合| 久久精品国产99国产| 亚洲AV成人无码精电影在线| 欧美一区二区三区精品| 青青在线视频| 国产久一道中文一区| 中日韩视频在线观看| 四虎永久免费影院| 欧美中文字幕久久| yw193.com尤物在线| 国产精品欧美激情在线播放| 日韩.com| 久久发布国产伦子伦精品| 亚洲综合免费观看高清完整版在线| 精品美女www爽爽爽视频| 欧美精品久久久久久久| 在线看成人短视频| 黄色手机在线视频| 亚洲精品免费看| 熟妇高潮一区二区三区| 国产精品福利在线观看网址| 9999国产精品| 黑森林av导航| 色久综合一二码| 哥也色在线视频| 激情小说综合网| 蜜臀av一区二区在线免费观看| 来吧亚洲综合网| 亚洲精品国产精品国自产在线 | 成人av蜜桃| 国产精品久久777777毛茸茸| 亚洲色图日韩精品| 欧美mv日韩mv| 国产亚洲一区二区手机在线观看| 一区在线电影| 成人免费观看av| 中文在线免费看视频| 久久免费视频在线| 大色综合视频网站在线播放| 男人的天堂免费| 在线观看国产一区二区| av观看在线| 日韩欧美精品一区二区三区经典| 国内精品不卡在线| 亚洲免费黄色网址| 欧美成人性色生活仑片| 免费看av成人| 人妻互换一二三区激情视频| 欧洲av一区二区嗯嗯嗯啊| 678在线观看视频| 欧美日韩亚洲国产成人|