精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

中科大等意外發(fā)現(xiàn):大模型不看圖也能正確回答視覺問題!

人工智能 新聞
中科大、香港中文大學(xué)、上海AI Lab的研究團(tuán)隊(duì)團(tuán)隊(duì)意外發(fā)現(xiàn)了這一離奇現(xiàn)象。

想了解更多AIGC的內(nèi)容:

請(qǐng)?jiān)L問: 51CTO AI.x社區(qū)

http://m.jxzklqfsx.com/aigc/

大模型不看圖,竟也能正確回答視覺問題?!

中科大、香港中文大學(xué)、上海AI Lab的研究團(tuán)隊(duì)團(tuán)隊(duì)意外發(fā)現(xiàn)了這一離奇現(xiàn)象。

他們首先看到像GPT-4V、GeminiPro、Qwen1.5-72B、Yi-VL-34B以及LLaVA-Next-34B等大模型,不管是閉源還是開源,語言模型還是多模態(tài),竟然只根據(jù)在多模態(tài)基準(zhǔn)MMMU測(cè)試中的問題和選項(xiàng)文本,就能獲得不錯(cuò)的成績(jī)。

圖片

△藍(lán)色表示能看到圖的LVLMs,橘色和綠色分別表示只接收問題和選項(xiàng)文本的LLMs和LVLMs

(LLM:大語言模型;LVLMs:多模態(tài)大模型)

不知道的還以為是大模型的隱藏技能被發(fā)現(xiàn)了。

有網(wǎng)友發(fā)出靈魂拷問:我們?cè)u(píng)估多模態(tài)模型的方法正確嗎?

圖片

這一結(jié)果也激起了研究者們的好奇,于是他們決定對(duì)此展開進(jìn)一步探究。

大模型隱藏技能被發(fā)現(xiàn)?

針對(duì)現(xiàn)有的評(píng)估樣本和評(píng)估過程,研究人員認(rèn)為造成這種現(xiàn)象的兩個(gè)主要問題。

第一,一些多模態(tài)評(píng)估樣本缺少對(duì)視覺內(nèi)容的依賴性。

這種問題反映了現(xiàn)有的benchmark中的不合理之處。這個(gè)問題包含了兩種情況:

一種是有些評(píng)估樣本的答案可以被蘊(yùn)含在了題目和選項(xiàng)中從而免去了看圖的必要。

比如會(huì)有這種問題,這個(gè)圓形土圈是什么形狀?

圖片

另外一種則是有些評(píng)估樣本可以直接被語言大模型利用嵌入的豐富世界知識(shí)進(jìn)行解答而無需依賴圖片。

比如下圖中的問題:內(nèi)布拉斯加州的首府是什么?

圖片

第二,現(xiàn)有評(píng)估過程未考慮語言和多模態(tài)大模型訓(xùn)練過程中的數(shù)據(jù)泄露問題。

LVLM通常由一個(gè)vision encoder,一個(gè)語言模型基座,以及一個(gè)視覺-語言連接件組成。而且現(xiàn)有的多模態(tài)benchmark中有大量的評(píng)估樣本是從單模態(tài)的文本語料中轉(zhuǎn)化過來的(比如從考試題目中轉(zhuǎn)化而來)。

因此如果大語言模型的訓(xùn)練數(shù)據(jù)中無意間泄露了多模態(tài)benchmark中轉(zhuǎn)化不充分的評(píng)估樣本,就會(huì)影響LVLMs之間的公平比較。

為了定量觀察大語言模型中廣泛存在的泄露現(xiàn)象,研究者們采用了22個(gè)大語言模型在6個(gè)公開benchmark上進(jìn)行評(píng)估。

這些大語言模型包含了2個(gè)閉源模型(GPT4-Turbo以及GeminiPro)和20個(gè)大小、架構(gòu)各異的開源模型(比如Qwen系列,LLaMA2系列,Baichuan系列,Mixtral-8x7B等),并且使用了2-shot推理策略來減少拒絕回答的情況以及對(duì)齊回答的格式。

圖片

結(jié)果看到,閉源模型GeminiPro和開源模型Qwen1.5-72B在極具挑戰(zhàn)性的MMMU基準(zhǔn)上可以分別取得42.7和42.4的驚人成績(jī),一度逼近GeminiPro-Vision (44.4),LLaVA-Next-34B (47.0)和Yi-VL-34B (43.2)等多模態(tài)模型在能看到圖片情況下的表現(xiàn)。

進(jìn)一步的,他們還定量觀察多模態(tài)大模型在訓(xùn)練過程中的數(shù)據(jù)泄露情況:屏蔽了LVLM的圖片輸入從而只根據(jù)文本問題和選項(xiàng)來進(jìn)行評(píng)估(標(biāo)記為L(zhǎng)VLM-text)。

圖片

可以看到,像Sphinx-X-MoE和Monkey-Chat經(jīng)過多模態(tài)訓(xùn)練后在不看圖的情況下相比原始大模型在MMMU基準(zhǔn)上可以分別提升驚人的17.9和12.6,而它們即使進(jìn)一步在看到圖片的情況下也只能獲得1.2和4.7的性能提升。

圖片

GPT-4在新基準(zhǔn)上沒有及格

為了解決上述問題從而進(jìn)行更公平和準(zhǔn)確的評(píng)估,研究者們?cè)O(shè)計(jì)了一個(gè)多模態(tài)評(píng)估基準(zhǔn)MMStar——

包含了1,500個(gè)具有視覺依賴性的高質(zhì)量評(píng)估樣本,涵蓋了樣本均衡的粗略感知、精細(xì)感知,實(shí)例推理、邏輯推理、科學(xué)技術(shù)、數(shù)學(xué)這六個(gè)核心能力以及18個(gè)詳細(xì)的能力維度。

圖片

伴隨著MMStar benchmark,作者們還提出了multi-modal gain (MG)和 multi-modal leakage (ML)兩個(gè)評(píng)估指標(biāo)來反映出LVLMs在多模訓(xùn)練過程中的真實(shí)性能增益和數(shù)據(jù)泄露程度。

圖片

隨后,為了檢驗(yàn)所提出的MMStar質(zhì)量,他們進(jìn)行了三項(xiàng)評(píng)估。

1)用22個(gè)大語言模型只根據(jù)MMStar中的問題和選型進(jìn)行了評(píng)估,結(jié)果顯示,他們的表現(xiàn)都接近于隨機(jī)選擇,這表明MMStar在現(xiàn)有大模型訓(xùn)練語料中有著很少的數(shù)據(jù)泄露。

圖片

2)評(píng)估16個(gè)多模態(tài)模型在MMStar上的性能。

高分辨率設(shè)置下的GPT4V取得了57.1的最高平均性能(但還是沒有及格)。

開源模型中InternLM-Xcomposer2取得了平均性能為55.4的好成績(jī),LLaVA-Next在數(shù)學(xué)維度上的表現(xiàn)要略優(yōu)于GPT4V和GeminiPro-Vision。

值得注意的是,沒有多模態(tài)大模型能夠在精細(xì)感知(FP),邏輯推理(LR),科學(xué)技術(shù)(ST)以及數(shù)學(xué)(MA)上及格。

圖片

3)用16個(gè)LVLMs在6個(gè)公開benchmark以及所提的MMStar上對(duì)MG和ML指標(biāo)進(jìn)行了廣泛評(píng)估。

圖片

可以看到,而MMStar展示出了最少的平均數(shù)據(jù)泄漏程度。

研究團(tuán)隊(duì)相信,這種跨模型間的ML指標(biāo)對(duì)社區(qū)之后檢驗(yàn)新開發(fā)的多模態(tài)benchmarks也是有益的。

論文鏈接:https://arxiv.org/pdf/2403.20330.pdf
項(xiàng)目鏈接:https://mmstar-benchmark.github.io/

https://huggingface.co/datasets/Lin-Chen/MMStar

代碼鏈接:https://github.com/MMStar-Benchmark/MMStar


想了解更多AIGC的內(nèi)容:

請(qǐng)?jiān)L問: 51CTO AI.x社區(qū)

http://m.jxzklqfsx.com/aigc/

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2021-12-06 09:53:09

自然語言神經(jīng)網(wǎng)絡(luò)人工智能

2024-06-17 07:10:00

2024-12-02 10:40:00

AI模型

2023-10-30 15:06:00

模型數(shù)據(jù)

2023-08-21 13:49:00

圖像技術(shù)

2025-04-18 09:13:00

2023-12-04 13:23:00

數(shù)據(jù)訓(xùn)練

2013-06-19 11:32:32

計(jì)算性能ISCHPC

2023-03-17 07:59:57

AI數(shù)字化

2024-11-06 13:03:49

2012-11-23 10:15:55

SCC12全球超級(jí)計(jì)算大會(huì)

2021-05-07 09:34:20

量子芯片計(jì)算機(jī)

2025-04-09 09:25:00

視頻模型AI

2024-11-04 13:30:00

模型AI

2025-08-28 09:09:00

AI強(qiáng)化學(xué)習(xí)模型

2025-09-01 08:51:00

2021-11-17 16:13:45

IBM 處理器量子

2025-05-26 09:41:26

2017-03-23 17:09:45

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

亚洲成人午夜在线| 蜜臀久久99精品久久久无需会员| 免费国产a级片| 香蕉久久一区二区三区| 国产精品主播| 国产午夜精品全部视频在线播放| 三级视频中文字幕| 99久久精品免费观看国产| 风流少妇一区二区| 青青在线视频一区二区三区| 无码人妻精品一区二区中文| 欧美黑粗硬大| 亚洲成av人片在www色猫咪| 欧美成人dvd在线视频| 无码人妻丰满熟妇区bbbbxxxx| 精品久久视频| 日韩一区二区影院| 天美星空大象mv在线观看视频| 日本中文字幕中出在线| 国产午夜亚洲精品不卡| 亚洲iv一区二区三区| 91看片在线播放| 四季av一区二区三区免费观看| 日韩三级中文字幕| 亚洲中文字幕久久精品无码喷水| 精产国品自在线www| 国产免费久久精品| 国产精品成人观看视频免费| 中文字幕在线日本| 国产精品www994| 在线视频欧美日韩精品| 天堂在线精品视频| 欧美韩国亚洲| 亚洲午夜三级在线| 久久久久久av无码免费网站下载| 波多野结衣在线网站| 高清成人在线观看| 国产精品久久久久久久久久| 日本亚洲色大成网站www久久| 久久av超碰| 欧美精品一区二区三区蜜桃| 日韩va在线观看| 东京一区二区| 五月天一区二区三区| 欧美 日韩 国产精品| 国产视频福利在线| 91视频免费看| 国产亚洲自拍偷拍| 中文字幕福利视频| 久久久久久亚洲精品杨幂换脸| 欧美刺激性大交免费视频| 刘亦菲国产毛片bd| 色综合五月天| 亚洲四色影视在线观看| 久久亚洲AV成人无码国产野外 | 天天久久综合| 日韩精品视频免费在线观看| 亚洲国产日韩在线一区| 99视频这里有精品| 精品视频1区2区3区| 日日碰狠狠丁香久燥| h片在线观看视频免费| 夜夜嗨av一区二区三区四季av| 亚欧洲精品在线视频免费观看| 日本福利片在线| 久久嫩草精品久久久精品一| 国产一区二区视频在线免费观看| 亚洲精品网站在线| 国产高清精品久久久久| 97国产超碰| 国产又粗又长又黄| 天堂在线一区二区| 国产精品久久久久77777| 五月天婷婷导航| 久久亚洲精选| 国产精品免费在线免费| 中文字幕一区二区三区波野结 | 国产又大又黄又粗又爽| 欧美日韩在线精品一区二区三区激情综合| 亚洲高清视频在线| 欧美一级视频免费看| av伦理在线| 黑人巨大精品欧美一区二区一视频| 欧美成人三级在线视频| 日本蜜桃在线观看视频| 色综合久久99| 手机在线免费观看毛片| 久久女人天堂| 日韩欧美国产高清| 亚洲天堂美女视频| 久久av免费看| 美女性感视频久久久| 久久久久久免费观看| 国产欧美一区二区色老头| 日本久久久久久久久久久| 日本成人一级片| 国产呦精品一区二区三区网站| 成人免费视频视频在| 天堂v视频永久在线播放| 国产日韩欧美精品综合| 一区二区精品免费视频| 天堂va在线| 精品欧美一区二区三区| 亚洲 欧美 另类人妖| 日韩中文字幕无砖| 日韩国产欧美精品一区二区三区| 亚洲码无人客一区二区三区| 色婷婷综合网| 超碰精品一区二区三区乱码| 中文字幕在线字幕中文| 免费观看日韩av| 成人av资源| 国产在线观看高清视频| 一区二区三区四区在线播放 | 欧美日本韩国一区| 无码人妻一区二区三区免费n鬼沢| 久久久久久毛片免费看| 中文字幕视频在线免费欧美日韩综合在线看 | 日韩精品一区二区三区视频| 久久偷拍免费视频| 国产精品福利在线观看播放| 性欧美在线看片a免费观看| 免费看av在线| av中文字幕一区| 最新不卡av| 成人免费看视频网站| 在线综合视频播放| 日本护士做爰视频| 1024精品久久久久久久久| 日本电影亚洲天堂| 国产www视频| 国产欧美一区视频| 日日橹狠狠爱欧美超碰| 麻豆精品在线| 中文字幕日韩高清| av网站中文字幕| 国产成人精品1024| 久久久国产精华液999999| 88xx成人免费观看视频库| 精品少妇一区二区三区视频免付费| 日韩女同一区二区三区| 国产亚洲永久域名| 国产欧美日本在线| 久久久123| 91精品国产高清一区二区三区 | 国产一区二区在线观看免费播放| www在线观看播放免费视频日本| 偷拍与自拍一区| 欧美xxxx黑人| 亚洲综合五月| 国产在线999| a天堂中文在线88| 日韩欧美综合在线视频| 中国免费黄色片| 狠狠色丁香久久综合频道| 91亚洲人电影| 麻豆91在线| 欧美浪妇xxxx高跟鞋交| 日本精品在线观看视频| 久久高清一区| 欧美在线日韩精品| 视频在线日韩| 亚洲人成在线电影| 日韩av在线播| 成人美女在线视频| 久久国产精品网| 超碰成人免费| 97精品国产97久久久久久| 高h震动喷水双性1v1| 午夜一区二区三区视频| 黄色性生活一级片| 欧美日韩国产一区精品一区| 99视频免费观看| 后进极品白嫩翘臀在线播放| 日韩视频123| xxxxxx国产| 久久久午夜精品理论片中文字幕| 免费在线a视频| 91在线一区| 91sa在线看| 欧美白人做受xxxx视频| 在线免费精品视频| 九九热久久免费视频| 久久天堂精品| 婷婷久久五月天| 四虎影视成人精品国库在线观看| 久久久999成人| 亚洲xxx在线| 亚洲一区二区欧美激情| 亚洲久久久久久| 日本在线观看不卡视频| 男女激烈动态图| 美女精品视频在线| 777午夜精品福利在线观看| 精品999视频| 欧美久久久久久久久中文字幕| 人妻人人澡人人添人人爽| 国产精品自产自拍| www.亚洲天堂网| 天天av综合| 激情久久av| 久久av影院| 欧美日韩xxxxx| 欧美偷拍视频| 91麻豆精品国产91久久久使用方法| 免费在线观看国产精品| 2023国产精品自拍| www.色就是色.com| 一本色道88久久加勒比精品| 亚洲欧美日韩精品在线| 精品精品国产毛片在线看| 国产精品高清在线| 操喷在线视频| 最近2019中文字幕大全第二页| www.黄色av| 欧美影视一区在线| 国产网站在线看| 国产精品国产三级国产aⅴ中文| 国产午夜在线一区二区三区| 裸体在线国模精品偷拍| 国产中文字幕乱人伦在线观看| 欧美色图一区| 精品国产乱码久久久久软件 | 91免费综合在线| 国产一线二线在线观看| 在线观看日韩www视频免费| 亚洲AV无码精品自拍| 色88888久久久久久影院按摩 | 免费在线观看日韩av| 国产精品视区| 91精品国产吴梦梦| 欧美在线色图| 麻豆传媒一区| 国产精品nxnn| 91网免费观看| 台湾天天综合人成在线| 国产精品高清在线观看| 小早川怜子影音先锋在线观看| www.日韩av.com| 高清毛片在线看| 日韩精品免费在线视频| 亚洲av无码一区二区三区dv| 欧美三级午夜理伦三级中视频| 中文字幕在线观看免费视频| 一区二区三区毛片| 欧美日韩午夜视频| 国产欧美一区二区精品性色| 午夜av免费看| av成人老司机| 日本一区二区在线观看视频| 国产伦精品一区二区三区免费 | 青青青免费在线视频| 欧美激情亚洲自拍| 国产视频在线播放| www国产91| 日本韩国在线视频爽| 日韩一区二区欧美| 精品无吗乱吗av国产爱色| 日韩精品视频在线免费观看| 人妻无码中文字幕| 欧美一二区视频| 国产欧美日韩成人| 欧美一级理论性理论a| 国产乱码久久久久| 欧美一级理论片| 成人午夜免费在线观看| 亚洲第一网站男人都懂| xxxx国产精品| 亚洲国产精品中文| 三级理论午夜在线观看| 国产丝袜精品视频| 日本中文字幕电影在线观看| 亚洲美女激情视频| 二区在线观看| 日韩亚洲欧美成人| 天使と恶魔の榨精在线播放| 欧美国产视频日韩| 国产三线在线| 欧美性一区二区三区| 日韩精品麻豆| 国产日韩精品在线播放| 久久综合给合| а√在线天堂官网| 在线观看日韩视频| 新版中文在线官网| 日韩av男人的天堂| 国产麻豆精品| 久久久久久久有限公司| 成人直播大秀| 青草网在线观看| 日韩精品每日更新| 国产精品偷伦视频免费观看了| 亚洲黄色网址| 精品香蕉一区二区三区| 婷婷成人激情| 97视频在线观看视频免费视频| 欧美成人app| 国产免费一区二区| 日韩一区二区在线免费| 久久国产精品视频在线观看| 精彩视频一区二区三区| 国产人妻人伦精品1国产丝袜 | 小泽玛利亚一区| 色综合久久久久综合99| 成人爽a毛片一区二区| 色七七影院综合| 欧美黑人粗大| 国产中文一区二区| 午夜日本精品| 手机版av在线| 久久精品亚洲乱码伦伦中文| 日本熟妇毛茸茸丰满| 日韩一区二区电影在线| 日本不卡不卡| 国产精品久久久久免费a∨| 色吊丝一区二区| www.成年人视频| 国产一区二区三区美女| 国产精品69久久久久孕妇欧美| 色婷婷亚洲一区二区三区| 四虎精品一区二区三区| 色综合久久88| 欧美久久亚洲| 成人手机在线播放| 精彩视频一区二区三区| 国产黄a三级三级| 欧美亚洲一区二区在线观看| 男人久久精品| 日韩av大片免费看| 性欧美lx╳lx╳| 欧美a v在线播放| www.av亚洲| 国产情侣在线视频| 亚洲激情第一页| 高清精品在线| 精品一区二区国产| 妖精视频成人观看www| 亚洲久久久久久| 欧美日韩性生活视频| 五月婷婷伊人网| 日本精品久久久久久久| 日韩大胆成人| 欧美极品欧美精品欧美图片| 久久久久国产精品免费免费搜索| 六月丁香婷婷综合| 亚洲网站在线看| 欧美日韩免费电影| 台湾成人av| 国产在线麻豆精品观看| 成人免费视频网站入口::| 日韩欧美中文字幕一区| 欧美草逼视频| 久久久久久99| 日韩av中文字幕一区二区三区| 亚洲av毛片基地| 777午夜精品视频在线播放| 亚洲国产综合av| 91精品啪在线观看国产18 | 欧美性理论片在线观看片免费| 欧美精品国产精品久久久 | 国产免费成人av| 伊人青青综合网| 老司机午夜免费福利| 狠狠色狠狠色综合日日小说| 国产在线中文字幕| 91在线网站视频| 影音先锋中文字幕一区二区| 国产精品九九视频| 欧美午夜不卡视频| aa在线视频| 久久久久久99| 久久精品国产**网站演员| 免费中文字幕在线观看| 日韩电影中文字幕在线| 国产精品xxx| 亚洲精品久久久久久久蜜桃臀| 久久综合狠狠综合| 国产精品无码免费播放| 久久久女人电视剧免费播放下载| 蜜桃精品wwwmitaows| 国产不卡的av| 日韩欧美国产激情| av大大超碰在线| 日本在线成人一区二区| 国产河南妇女毛片精品久久久| 免费视频久久久| 免费av在线一区| 中国av一区| 中文字幕亚洲日本| 欧美中文字幕不卡| а√天堂8资源在线| 亚洲一二区在线| 99re成人精品视频| 国产精品无码免费播放| 欧美在线免费观看| 欧美精品一卡| 中国特黄一级片| 亚洲激情在线观看视频免费| 亚洲精品一区av| 青青青在线播放|