精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次

發(fā)布于 2024-6-28 13:51
瀏覽
0收藏

大模型性能哪家強?GPT-4一家常霸榜。


基準測試全擅長,競技場上見真章。

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

不過近日,谷歌的Gemini終于揚眉吐氣了一把,在全新的、更復(fù)雜的多模態(tài)考試中大獲全勝,全面超越了GPT-4o。


Jeff Dean表示:已閱,很贊。

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)


首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

這就是來自中科大,廈大,港大,北大,港中文和華師大的研究者聯(lián)合奉獻的,世界上首個多模態(tài)LLM視頻分析綜合評估基準——Video-MME。

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

論文地址:https://arxiv.org/pdf/2405.21075

項目地址:https://video-mme.github.io/


在前往AGI的道路上,多模態(tài)大語言模型(MLLM)顯然成為當(dāng)前的焦點。

不久前出世的GPT-4o,就在多模態(tài)的表現(xiàn)上技驚四座;同時,偏愛谷歌「雙子座」的網(wǎng)友也不在少數(shù)。

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

不過之前的相關(guān)基準測試,主要關(guān)注LLM在靜態(tài)圖像理解方面的能力。


而對于現(xiàn)實世界來說,處理連續(xù)視覺數(shù)據(jù),也就是視頻的能力,是至關(guān)重要的。

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

Video-MME是有史以來第一個為視頻分析精心設(shè)計的,綜合多模態(tài)基準測試,幫助我們?nèi)嬖u估MLLM捕捉現(xiàn)實世界動態(tài)性質(zhì)的能力。


Video-MME涵蓋了廣泛的視覺域、時長和數(shù)據(jù)模式,包括900個視頻,總時長256小時,還人工注釋了2700個高質(zhì)量的問答對(多項選擇題,每個視頻3個)。


下圖是其中一個例子:


準確回答該問題需要同時從視頻幀、字幕or語音中同時獲取信息,并且信息直接的跨度達30分鐘

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

在時間維度上,Video-MME中收集了各種不同時長的視頻。


包括短視頻(< 2分鐘)、中視頻(4分鐘~15分鐘)和長視頻(30分鐘~60分鐘),總體時長從11秒到1小時不等。

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

從視頻類型多樣性來看,Video-MME跨越了6個主要視覺領(lǐng)域:知識、影視、體育比賽、生活記錄和多語言,包含有30個子領(lǐng)域,以確保廣泛的場景泛化性。


在數(shù)據(jù)模式的廣度上,Video-MME整合了視頻幀以外的多模態(tài)輸入,包括字幕和音頻,以評估MLLM的全方位能力。


此外,Video-MME中所有數(shù)據(jù)都是由人類新收集和標注,而不是來自任何現(xiàn)有的視頻數(shù)據(jù)集,以確保數(shù)據(jù)的多樣性和質(zhì)量。


研究人員使用Video-MME,對各種最先進的MLLM進行了基準測試,包括GPT-4V、GPT4o和Gemini 1.5 Pro,以及開源圖像模型InternVL-Chat-V1.5和視頻模型LLaVA-NeXT-Video等。

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

實驗表明,Gemini 1.5 Pro是目前性能最高的商用MLLM,平均準確率為75%,GPT系列的最好成績是GPT-4o的71.9%。


相比之心,開源MLLM仍有巨大差距,表現(xiàn)最好的VILA-1.5以及LLaVA-NeXT-Video的總體準確率分別只有59和52%,開源社區(qū)還有相當(dāng)大的提升空間。

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

此外,通過將輸入擴展到多幀圖像,Video-MME也可用來評估基于圖像的MLLM,例如Qwen-VL-Max和InternVL-Chat-V1.5。


兩種模型的準確度均達到51%左右,接近視頻專用模型LLaVA-NeXT-Video,這表明圖像理解是視頻理解的基礎(chǔ),所以Video-MME在MLLM評估領(lǐng)域具有廣泛的適用性。


下面,換個視角,看看這些MLLM在不同任務(wù)類型下的表現(xiàn):

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

——Gemini 1.5 Pro 最終還是壓制住了 GPT-4o!


我們再把Gemini 1.5 Pro單獨拉出來開個小灶,詳細給出不同視頻時長和不同視頻類型下的評估結(jié)果:

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

通過對上表的進一步觀察,我們還可以發(fā)現(xiàn),整合字幕和音頻可以顯著增強LLM的視頻理解能力。


Gemini 1.5 Pro在加入字幕和音頻之后,準確度分別提高了6.2%和4.3%,長視頻則更為明顯。


對任務(wù)類型的細粒度分析表明,字幕和音頻對于需要大量領(lǐng)域知識的視頻特別有益。

當(dāng)然了,隨著視頻長度的增加,MLLM性能普遍下降,所以處理長視頻仍然是件困難的事情。


下面給出Gemini 1.5 Pro在不同視頻子類型上的評估結(jié)果,包括天文學(xué)、技術(shù)、紀錄片、新聞報道、電子競技、魔術(shù)表演和時尚等30個子類別。

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

Video-MME

數(shù)據(jù)集構(gòu)建

Video-MME的數(shù)據(jù)集構(gòu)建過程包括視頻采集、問答對標注、質(zhì)量審核三個步驟。

視頻采集

為了全面覆蓋不同的視頻類型,研究人員創(chuàng)建了一個域?qū)哟谓Y(jié)構(gòu),用于從網(wǎng)絡(luò)上收集原始視頻。


首先定義6個關(guān)鍵領(lǐng)域:知識、電影和電視、體育比賽、生活記錄和多語言。


每個領(lǐng)域進一步劃分為詳細的標簽,例如體育比賽包含足球和籃球,從而產(chǎn)生總共30個細粒度的視頻類。

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

對于每個類型,收集不同持續(xù)時間的視頻:短視頻(少于2分鐘)、中視頻(4-15分鐘)和長視頻(30-60分鐘)。


此外,還會獲取相應(yīng)的元信息,例如字幕和音頻,用于進一步研究。最終的數(shù)據(jù)集由900個視頻組成,這些視頻跨越各個領(lǐng)域,持續(xù)時間長度相對平衡。

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

問答標注

在收集原始視頻數(shù)據(jù)后,研究者對以問答對的形式對其進行注釋,以評估MLLM在解釋視頻內(nèi)容方面的熟練程度。


這里采用多項選擇題的QA格式,參與標注的作者都精通英語,在視覺語言學(xué)習(xí)方面具有豐富的研究經(jīng)驗。

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

標注者通過反復(fù)觀看視頻來提出3個相關(guān)的問題,每個問題有4個潛在選項。這2700個QA對包含12種任務(wù)類型,比如感知、推理和信息概要。

質(zhì)量審核

為了保證數(shù)據(jù)集的質(zhì)量,作者還進行了嚴格的人工審查流程。


首先,指派不同的標注者來檢查每個QA對,確保語言表達正確且明確,以及問題可回答(候選選項和正確選項都是合理的)。


此外,為了確保問題足夠具有挑戰(zhàn)性,要求多模態(tài)模型看了視頻才能回答,研究人員向Gemini 1.5 Pro提供了純文本問題,并過濾掉可以僅根據(jù)文本問題回答的QA對。


最后,Gemini 1.5 Pro在僅使用文本提問的情況下,準確率低于 15%。

數(shù)據(jù)集統(tǒng)計

視頻和元信息

Video-MME總共包含900個視頻、713個字幕和869個音頻文件。


從任務(wù)類型的分布來看,較短的視頻主要涉及與感知相關(guān)的任務(wù),例如動作和物體識別。

相比之下,較長的視頻主要以與時間推理相關(guān)的任務(wù)為特色。從下表中可以看到,Video-MME的有效時長(Certificate Length準確回答問題所需的時間跨度)非常長,表明了其挑戰(zhàn)性。

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

問答數(shù)據(jù)

關(guān)于問題和答案的語言多樣性,下表列出了數(shù)據(jù)集中文本字段的平均字數(shù)。


問題、選項和答案的字數(shù)在不同視頻長度上顯示出顯著的一致性,這表明Video-MME中的QA對風(fēng)格一致。

首個多模態(tài)視頻競技場Video-MME來了!Gemini全面超越GPT-4o,Jeff Dean連轉(zhuǎn)三次-AI.x社區(qū)

另一方面,字幕的字數(shù)隨著視頻長度的增加而顯著增加,短視頻的平均字數(shù)為198.6,而長視頻子集的字數(shù)高達6.5K。這一趨勢表明,較長的視頻包含的信息更多。


此外,問題對應(yīng)的正確答案選項(A/B/C/D)的分布接近均勻(25.2%/27.2%/25.2%/22.3%),確保了無偏的評估。


本文轉(zhuǎn)自 新智元 ,作者:新智元


原文鏈接:??https://mp.weixin.qq.com/s/fVoIEp64VePfN_e7C9CfCw??

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
欧美午夜丰满在线18影院| 99国产精品一区| 久久99久久99精品中文字幕| 中文字幕18页| 日本欧美日韩| 亚洲人成网站影音先锋播放| 激情伦成人综合小说| 伊人久久久久久久久久久久| 香蕉视频国产精品 | 亚洲第一色av| 国产传媒在线观看| 国产精品电影一区二区三区| 成人激情av| 中文字幕黄色av| 91久久亚洲| 日韩视频在线观看免费| 在线免费播放av| 国产一区二区高清在线| 欧美视频13p| 喜爱夜蒲2在线| 国产精品一二三区视频| av成人免费在线| 成人妇女免费播放久久久| 欧美精品亚洲精品日韩精品| 天天综合国产| 国产亚洲精品激情久久| 四季av综合网站| 清纯唯美激情亚洲| 欧美日产在线观看| 最近免费中文字幕中文高清百度| 中文字幕有码在线视频| 中文字幕乱码日本亚洲一区二区| 国产在线欧美日韩| 亚洲精品一区二区三区四区| 免费av网站大全久久| 性欧美激情精品| 欧美丰满艳妇bbwbbw| 久久精品国产www456c0m| 亚洲毛片在线免费观看| 五月天丁香社区| 国产精品视频一区二区三区综合| 欧美日韩在线播放一区| 亚洲国产精品久久久久爰色欲| 丁香花在线观看完整版电影| 亚洲免费观看高清完整版在线观看熊| 亚洲图片都市激情| av影片在线看| 国产精品乱码久久久久久| 日韩.欧美.亚洲| 国产一级网站视频在线| 久久久蜜臀国产一区二区| 精品久久久久久综合日本| 蜜桃久久一区二区三区| 懂色av一区二区夜夜嗨| 99久热re在线精品视频| 精品久久无码中文字幕| 国产精品 日产精品 欧美精品| 国产美女主播一区| 亚洲字幕av一区二区三区四区| 日韩中文字幕麻豆| 国产精品久久久久久网站 | 99在线精品视频在线观看| 欧美激情免费在线| 国产一国产二国产三| 精品二区视频| 97激碰免费视频| 日本高清不卡码| 久久中文欧美| 国产日韩精品在线| 国产农村老头老太视频| 国产suv精品一区二区6| 国产日韩欧美亚洲一区| 亚洲AV成人无码一二三区在线| 91在线看国产| 色一情一乱一伦一区二区三欧美 | 久久电影一区二区| 欧美日韩国产精品综合| 亚洲久久在线| 国产成人一区二区三区小说| 亚洲成人av网址| 精品在线免费视频| 国产精品av一区| 嫩草在线播放| 亚洲三级电影网站| 欧美久久久久久久久久久久久| 牛牛精品一区二区| 欧美亚洲一区三区| 4438x全国最大成人| 卡通动漫精品一区二区三区| 亚洲欧美日韩爽爽影院| 国产成人免费在线观看视频| 午夜日韩激情| 日本sm极度另类视频| 中文在线字幕av| 盗摄精品av一区二区三区| 久久久久资源| 成人日日夜夜| 色播五月激情综合网| 国产一级免费大片| 希岛爱理av免费一区二区| 精品国产自在精品国产浪潮| 欧美三级午夜理伦| 经典三级在线一区| 久热这里只精品99re8久| 免费在线看黄网站| 五月激情综合网| 一区二区三区四区毛片| 亚洲精品**不卡在线播he| 日韩中文字幕不卡视频| 日本一级黄色录像| 久久激五月天综合精品| 国模精品一区二区三区| 色网站免费在线观看| 精品成人乱色一区二区| 制服丝袜中文字幕第一页| 亚洲宅男一区| 色综合久综合久久综合久鬼88| 五月婷婷激情五月| a亚洲天堂av| 黄色一级视频播放| 日韩精品三区| 亚洲精品一二区| 国产一二三四在线| 九九视频精品免费| 少妇精品久久久久久久久久| 91美女精品| 日韩三级.com| 精品国产精品国产精品| 三级久久三级久久| 麻豆一区区三区四区产品精品蜜桃| 2024最新电影免费在线观看| 欧美午夜宅男影院| 中字幕一区二区三区乱码| 亚洲视频1区| 高清视频一区| 三级福利片在线观看| 欧美三级日韩三级国产三级| 免费人成又黄又爽又色| 亚洲永久免费| 免费精品视频一区| 日韩伦理精品| 精品无人国产偷自产在线| 国产一级一级片| 国产传媒一区在线| 五月天激情图片| 试看120秒一区二区三区| 久久精品视频中文字幕| 国产又粗又黄视频| 亚洲欧洲av一区二区三区久久| 中文字幕永久视频| 日韩精品一卡| 国产精品一区二区三区免费视频| 第一页在线观看| 欧美色视频一区| 黄大色黄女片18免费| 日本91福利区| 中文字幕精品—区二区日日骚| 欧美视频精品| 美女av一区二区三区 | 久久综合激情网| 成人18视频在线播放| 欧美亚洲黄色片| 日本在线中文字幕一区| 国产91精品久久久| 国产成人天天5g影院在线观看| 日本精品视频一区二区| 久久久精品成人| 精品亚洲免费视频| 少妇一晚三次一区二区三区| 国产精品久久久久av蜜臀| 久久免费精品日本久久中文字幕| 免费观看黄色av| 日韩欧美在线免费| 中国1级黄色片| 国产一区不卡在线| 3d动漫一区二区三区| 欧美欧美黄在线二区| 国产精品久久久久一区二区| 久久久久久久久免费视频| 日韩精品一区二区三区三区免费| 国产大片中文字幕在线观看| 91免费小视频| 欧美日韩一区二区三区69堂| 欧美高清日韩| 久久精品中文字幕一区二区三区 | 第一av在线| 亚洲欧美在线x视频| 亚洲中文一区二区三区| 亚洲一区二区三区四区在线免费观看 | 午夜精品成人av| 久久黄色av网站| 少妇人妻一区二区| 欧美性色欧美a在线播放| 性色国产成人久久久精品| 国产成人亚洲综合a∨婷婷| 欧美精品久久久久久久自慰| 国产一区99| 成人av免费在线看| 欧美三区四区| 久久久久久一区二区三区 | 国产日韩视频一区二区三区| 性生活免费在线观看| 日韩午夜av在线| 综合操久久久| 亚洲v天堂v手机在线| 91免费福利视频| 丝袜美腿诱惑一区二区三区| 精品中文字幕在线| 1024免费在线视频| 亚洲精品美女久久久| 国产精品人妻一区二区三区| 欧美日韩亚洲一区二区| 免费无遮挡无码永久在线观看视频| 91老师国产黑色丝袜在线| 亚洲三级在线视频| 男人操女人的视频在线观看欧美| 久久久久久久久久网| 最新国产精品| 亚洲一区二区精品在线观看| 一区二区三区韩国免费中文网站| 亚洲一区二区三区成人在线视频精品| 精品国产第一福利网站| 久久久久久久久综合| 国产剧情在线| 日韩视频在线一区| 国外av在线| 日韩成人性视频| 亚洲国产成人一区二区| 7777精品伊人久久久大香线蕉| 99超碰在线观看| 午夜欧美视频在线观看| 国产精品成人免费观看| 中文字幕一区二区三区在线观看| 性欧美一区二区| 久久亚区不卡日本| jizz日本免费| 久久一区二区三区国产精品| 捆绑凌虐一区二区三区| 成人自拍视频在线| 少妇极品熟妇人妻无码| 国产成人精品免费一区二区| 99九九精品视频| 国产精品18久久久久| 欧美69精品久久久久久不卡| 国产一区二区三区高清播放| 免费一区二区三区在线观看| 日韩精品视频网| 冲田杏梨av在线| 免费一级欧美片在线观看| 日本xxxx黄色| 激情六月婷婷久久| www.午夜av| 国产精品综合在线视频| 午夜视频在线免费看| 国产成人精品免费网站| 无码成人精品区在线观看| 成人免费高清视频在线观看| 久久久久亚洲AV成人无码国产| 成人动漫视频在线| 亚洲精品乱码久久久久久久| 久久综合99re88久久爱| av男人的天堂av| 亚洲国产精品99久久久久久久久| 美国一级黄色录像| 亚洲色图在线视频| 毛片a片免费观看| 亚洲观看高清完整版在线观看| 日韩毛片在线视频| 色噜噜夜夜夜综合网| 欧美另类高清videos的特点| 欧美嫩在线观看| 亚洲成人777777| 精品亚洲永久免费精品| 黄色免费在线播放| 久久久精品在线观看| 羞羞的网站在线观看| 久久久久一本一区二区青青蜜月| 国产黄色大片在线观看| 青青草99啪国产免费| 91天天综合| 91中文字精品一区二区| 你懂的一区二区三区| 亚洲最新在线| 亚洲区第一页| 依人在线免费视频| yourporn久久国产精品| 性高潮久久久久久久| 亚洲视频一区在线观看| 99视频在线看| 欧美精品日韩一区| 香港三日本三级少妇66| 中文字幕日韩有码| www.8ⅹ8ⅹ羞羞漫画在线看| 国产精品福利网| 一区二区三区免费在线看| 欧美lavv| 国产精品porn| 日韩av片网站| 91在线一区二区三区| 日本爱爱小视频| 欧美日韩国产精品一区二区三区四区| 91福利免费视频| 亚洲精品中文字幕女同| 在线三级电影| 国产精品久在线观看| 久久精品亚洲成在人线av网址| 一区二区三区在线观看www| 国产一区二区三区成人欧美日韩在线观看 | 日韩亚洲欧美综合| 大地资源中文在线观看免费版| 欧美精品videosex性欧美| 69堂精品视频在线播放| 精品一区二区三区国产| 亚洲一区色图| 久久婷婷综合色| 久久久噜噜噜久久人人看| 精品肉丝脚一区二区三区| 欧美午夜精品一区| 免费在线黄色网址| 欧美激情视频一区二区三区不卡| 日韩电影精品| 亚欧洲精品在线视频免费观看| 亚洲精品日韩久久| 欧美一区二区三区影院| 国产精品三级av在线播放| 黄色免费av网站| 亚洲国产精品久久精品怡红院| 中文字幕有码在线观看| 国产精品视频自在线| 欧美日韩色图| 凹凸日日摸日日碰夜夜爽1| 99精品视频一区二区三区| 国产亚洲色婷婷久久99精品| 日韩欧美成人激情| 91网在线看| 91色中文字幕| 亚洲高清资源在线观看| 天天综合天天添夜夜添狠狠添| 中文av一区特黄| 伊人影院中文字幕| 中文字幕亚洲欧美日韩2019| 欧美精品高清| 日韩在线第一区| 秋霞电影网一区二区| 日韩影视一区二区三区| 欧美伊人久久久久久久久影院| 春暖花开成人亚洲区| 国产伦精品一区二区三区精品视频| 精品国产精品国产偷麻豆| 免费在线观看的毛片| 久久久www成人免费毛片麻豆| 黄瓜视频在线免费观看| 亚洲日本aⅴ片在线观看香蕉| 日韩免费福利视频| 天天爽天天狠久久久| 免播放器亚洲一区| www.毛片com| 日韩女优视频免费观看| 国产黄色大片在线观看| 久久精品国产美女| 日本在线不卡视频一二三区| 人成免费在线视频| 911精品产国品一二三产区| 3d玉蒲团在线观看| 精品不卡在线| 日本欧美在线看| 老熟妻内射精品一区| 精品噜噜噜噜久久久久久久久试看| 77thz桃花论族在线观看| 欧美不卡三区| 久久91精品国产91久久小草| 欧美三根一起进三p| 亚洲国产三级网| 国产一区一一区高清不卡| 在线视频一二三区| 99久久亚洲一区二区三区青草| 日日夜夜狠狠操| 欧美成人亚洲成人| 老牛影视av一区二区在线观看| 无码人妻精品一区二区三区66| 国产精品久久久久一区| 秋霞欧美在线观看| 国产精品美女久久久免费| 一区二区三区在线电影| 日本黄色片在线播放| 欧美精品 国产精品| √天堂8资源中文在线| 亚洲欧洲免费无码| 成人免费毛片a| 中文字幕在线日亚洲9| 欧美国产第二页| 手机亚洲手机国产手机日韩| 久久无码专区国产精品s| 欧美在线色视频| 丁香花在线电影小说观看| 婷婷四房综合激情五月| 国产99久久久精品| 中文字幕一区二区人妻| 97精品国产97久久久久久春色 | 欧美久久在线观看|