精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

突破短視頻局限!MMBench 團隊構建中長視頻開放問答評測基準,全面評估多模態(tài)大模型視頻理解能力

人工智能 新聞
MMBench-Video是一個針對視頻理解任務設計的全新長視頻、多鏡頭基準,涵蓋了廣泛的視頻內容和細粒度能力評估。

GPT-4o 四月發(fā)布會掀起了視頻理解的熱潮,而開源領軍者Qwen2也對視頻毫不手軟,在各個視頻評測基準上狠狠秀了一把肌肉。

但當前的大部分評測基準仍然具有以下幾個缺陷:

  • 多注重于短視頻,視頻長度或視頻鏡頭數(shù)不足,難以考察到模型的長時序理解能力;
  • 對模型的考察局限在部分較為簡單的任務,更多細粒度的能力未被大部分基準所涉及到
  • 現(xiàn)有的基準仍可以僅憑單幀圖像以獲取較高的分數(shù),說明問題和畫面的時序性關聯(lián)不強
  • 對開放性問題的評估仍舊采用較舊的GPT-3.5,打分和人類偏好有較大的偏差且并不準確,容易高估模型性能。

針對這些問題,有沒有對應的基準能夠較好解決這些問題呢?

在最新的NeurIPS D&B 2024中由浙江大學聯(lián)合上海人工智能實驗室,上海交通大學和香港中文大學提出的MMBench-Video打造了一個全面的開放性視頻理解評測基準,并針對當前主流MLLM構建了開源的視頻理解能力評估榜單。

圖片

全能力鏈條覆蓋高質量數(shù)據(jù)集

圖片

MMBench-Video這一視頻理解評測基準采取全人工標注,歷經(jīng)一次標注和二次質量核驗,視頻種類豐富且質量高,問答涵蓋模型能力全面,準確回答問題需要橫跨時間維度對信息進行提取,更好的考察了模型的時序理解能力。

圖片

與其他數(shù)據(jù)集相比,MMBench-Video具有如下幾個突出特點:

視頻時長跨度較廣,鏡頭數(shù)多變:采集的視頻時長從30秒到6分鐘不等,避免了過短視頻語意信息簡單,過長視頻評測帶來的資源消耗大等問題。同時視頻涵蓋的鏡頭數(shù)整體呈長尾分布,一個視頻最多具有210個鏡頭,包含了豐富的場景與語境信息。

圖片

全方位能力大考,感知與推理的全面挑戰(zhàn):模型的視頻理解能力主要包含感知推理兩個部分,每個部分能力可以再額外進行細化。受MMBench啟發(fā)并結合視頻理解所涉及到的具體能力,研究者建立了一個包含26個細粒度能力的綜合能力譜系,每個細粒度能力都用數(shù)十到數(shù)百個問答對進行評估,且并不為現(xiàn)有任務的集合。

視頻種類豐富,問答語言多樣性強:覆蓋了人文、體育、科教、美食、金融等16個主要領域,每個領域視頻均占到5%以上。同時問答對相比傳統(tǒng)VideoQA數(shù)據(jù)集有了進一步的長度及語意豐富度提升,不局限于’what’’when’等簡單問題類型。

圖片

時序獨立性佳,標注質量高:在研究中發(fā)現(xiàn),大部分VideoQA數(shù)據(jù)集能夠僅通過視頻內的1幀獲得充足的信息,從而進行準確的回答。這可能是因為視頻內前后畫面變化較小,視頻鏡頭少,也可能是因為問答對質量較低。研究者將這一情況稱之為數(shù)據(jù)集的時序獨立性較差。與他們相比,MMBench-Video由于在標注時給出了詳細的規(guī)則限制,且問答對經(jīng)過二次核驗,具有顯著較低的時序獨立性,能夠更好的考察模型的時序理解能力。

圖片

主流多模態(tài)大模型成績單

為了更加全面評估多個模型的視頻理解性能,MMBench-Video選取了11個代表性的視頻語言模型,6個開源圖文多模態(tài)大模型及GPT-4o等5個閉源模型進行全面的實驗分析。

圖片

在所有模型當中,GPT-4o在視頻理解方面表現(xiàn)突出,同時Gemini-Pro-v1.5也展現(xiàn)出了出眾的模型性能。

令人訝異的是,現(xiàn)有的開源圖文多模態(tài)大模型在MMBench-Video上表現(xiàn)整體優(yōu)于經(jīng)過視頻-問答對微調的視頻語言模型,最優(yōu)的圖文模型VILA1.5在整體性能上超出最優(yōu)的視頻模型LLaVA-NeXT-Video近40%。

圖片

經(jīng)過進一步探究發(fā)現(xiàn),圖文模型之所以在視頻理解上表現(xiàn)更優(yōu),可能歸因于它們在處理靜態(tài)視覺信息時的精細化處理能力更強,而視頻語言模型在面向靜態(tài)圖像的感知及推理性能均有不足,進而面對更復雜的時序推理和動態(tài)場景時顯得力不從心。

這種差異揭示了現(xiàn)有視頻模型在空間和時間理解上的顯著不足,尤其是在處理長視頻內容時,其時序推理能力亟待提升。此外,圖文模型通過多幀輸入在推理上的性能提升表明,它們有潛力進一步拓展至視頻理解領域,而視頻模型則需要在更廣泛的任務上加強學習,以彌補這一差距。

視頻長度和鏡頭數(shù)量被認為是影響模型性能的關鍵因素

實驗結果表明,隨著視頻長度的增加,GPT-4o在多幀輸入下的表現(xiàn)有所下降,而開源模型如InternVL-Chat-v1.5和Video-LLaVA的表現(xiàn)相對穩(wěn)定。相比視頻長度,鏡頭數(shù)量對模型性能的影響更為顯著

當視頻鏡頭超過50個時,GPT-4o的性能下降至原始得分的75%。這表明,頻繁的鏡頭切換使得模型更難以理解視頻內容,導致其表現(xiàn)下降。

圖片

除此之外,MMBench-Video還借助接口獲取到了視頻的字幕信息,從而通過文字引入了音頻模態(tài)。

在引入后,模型在視頻理解上的表現(xiàn)得到了顯著提升,當音頻信號與視覺信號結合時,模型能夠更加準確地回答復雜問題。這一實驗結果表明,字幕信息的加入能極大豐富模型的上下文理解能力,尤其是在長視頻任務中,語音模態(tài)的信息密度為模型提供了更多線索,幫助其生成更精確的回答。然而,需要注意的是,雖然語音信息可以提升模型性能,但同時也可能增加生成幻覺內容的風險。

圖片

在裁判模型選擇方面,實驗顯示GPT-4具備更為公正和穩(wěn)定的評分能力,其抗操縱性強,評分不偏向于自己的回答,能夠更好地與人工評判對齊。

相比之下,GPT-3.5在評分時容易出現(xiàn)偏高的問題,導致最終結果的失真。與此同時,開源的大語言模型,如Qwen2-72B-Instruct,也展現(xiàn)了出色的評分潛力,其在與人工評判的對齊度上表現(xiàn)突出,證明其有望成為一種高效的評估模型工具。

使用VLMEvalKit一鍵評測

MMBench-Video目前支持在VLMEvalKit中一鍵評測。

VLMEvalKit是一個專為大型視覺語言模型評測設計的開源工具包。它支持在各種基準測試上對大型視覺語言模型進行一鍵評估,無需進行繁重的數(shù)據(jù)準備工作,使評估過程更加簡便。VLMEvalKit適用于圖文多模態(tài)模型及視頻多模態(tài)模型的評測,支持單對圖文輸入、圖文交錯輸入及視頻-文本輸入。它實現(xiàn)70多個基準測試,覆蓋了多種任務,包括但不限于圖像描述、視覺問答、圖像字幕生成等。所支持的模型及評測基準正在不斷更新中。

同時基于現(xiàn)有視頻多模態(tài)模型的評測結果較為分散,難以復現(xiàn)等現(xiàn)實,團隊還建立了OpenVLM Video Leaderboard這一針對模型的綜合視頻理解能力評測榜單。OpenCompass VLMEvalKit團隊將持續(xù)更新最新多模態(tài)大模型及評測benchmark,打造主流,開放,便捷的多模態(tài)開源評測體系。

圖片

最后總結一下,MMBench-Video是一個針對視頻理解任務設計的全新長視頻、多鏡頭基準,涵蓋了廣泛的視頻內容和細粒度能力評估。

基準測試包含從YouTube收集的600多個長視頻,涵蓋新聞、體育等16個主要類別,旨在評估MLLMs的時空推理能力。與傳統(tǒng)的視頻問答基準不同,MMBench-Video通過引入長視頻和高質量的人工標注問答對,彌補了現(xiàn)有基準在時序理解和復雜任務處理方面的不足。

通過GPT-4評估模型的答案,該基準展現(xiàn)了更高的評估精度和一致性,為視頻理解領域的模型改進提供了有力的工具。

MMBench-Video 的推出為研究人員和開發(fā)者提供了一個強大的評估工具,幫助開源社區(qū)深入理解和優(yōu)化視頻語言模型的能力。

論文鏈接:https://arxiv.org/abs/2406.14515
Github鏈接:https://github.com/open-compass/VLMEvalKit
HomePage:https://mmbench-video.github.io/
MMBench-Video LeaderBoard:https://huggingface.co/spaces/opencompass/openvlm_video_leaderboard

責任編輯:張燕妮 來源: 量子位
相關推薦

2024-06-17 18:06:17

2025-06-03 08:22:00

模型評估視頻

2025-09-30 08:54:00

2024-11-11 08:30:00

2024-08-05 08:46:00

模型測評

2024-12-20 12:30:00

模型AI數(shù)據(jù)

2024-05-21 07:54:30

視頻多模態(tài)語義檢索算法

2024-10-21 13:20:00

視頻數(shù)據(jù)集

2025-05-20 13:02:23

2022-08-11 13:37:41

多模態(tài)算法多模態(tài)網(wǎng)絡

2025-05-15 09:10:00

2025-05-21 08:47:00

2025-04-03 09:51:20

2025-04-07 07:55:00

視頻訓練生成

2025-11-05 08:51:33

2025-02-27 10:08:19

2025-01-02 11:01:45

2025-11-17 08:49:00

2017-06-27 11:42:53

互聯(lián)網(wǎng)
點贊
收藏

51CTO技術棧公眾號

欧美精品久久久久久久免费观看| 欧美在线观看视频一区二区三区| 国产激情一区二区三区在线观看 | 一区二区三区四区在线播放| 国产伦精品一区二区三区在线 | 国产日韩欧美| 国产一区二区动漫| 免费黄色在线播放| 欧美va在线| 一区二区三区国产| 日韩在线导航| 午夜影院免费体验区| 久久99国产乱子伦精品免费| 国内精品小视频| 国产一二三四视频| 丝袜久久网站| 日韩欧美视频在线| 国产又黄又猛又粗又爽的视频| 午夜在线激情影院| 中文一区二区在线观看| 国产精品久久一区二区三区| 中文字幕+乱码+中文乱码www| 影音先锋久久| 久久最新资源网| 性の欲びの女javhd| 哺乳挤奶一区二区三区免费看| 欧美午夜精品久久久| 亚洲 欧美 日韩 国产综合 在线| 韩国中文字幕在线| 日本一区二区久久| 蜜桃视频在线观看成人| 超碰人人人人人人| 国产一区二区三区久久久| 国产精品成人一区二区三区吃奶| 国产精品免费av一区二区| 欧美阿v一级看视频| 亚洲福利国产精品| 啄木系列成人av电影| 色欧美88888久久久久久影院| 蜜臀在线免费观看| 男人天堂久久久| 久久久九九九九| 久久99精品久久久久久水蜜桃| 超碰在线观看av| 国产精品资源在线| 成人亚洲欧美一区二区三区| 中文亚洲av片在线观看| 久久九九免费| 45www国产精品网站| 国产一级av毛片| 欧美另类专区| 欧美激情视频三区| 欧美精品色哟哟| 女人天堂亚洲aⅴ在线观看| 不卡av电影院| 在线观看成人毛片| 亚洲视频精品| 国内精品模特av私拍在线观看| 国产无遮挡免费视频| 伊人狠狠色j香婷婷综合| 欧美另类在线播放| 久一视频在线观看| 亚洲国产专区校园欧美| 91国在线精品国内播放| 精品欧美一区二区三区免费观看 | 精品国产一级| 欧美一区二区精品久久911| 国产成人在线综合| 精品一区二区三区在线观看视频 | 四虎国产精品永远| 久久毛片高清国产| 亚洲精品成人三区| 激情在线小视频| 亚洲精品视频免费看| 欧美成人精品免费| 中文字幕色婷婷在线视频| 一本久久a久久精品亚洲| 欧美一级裸体视频| www.久久热| 亚洲电影天堂av| 青青草福利视频| 日韩精品网站| 九九九久久久久久| 天堂网一区二区三区| 三级一区在线视频先锋| 成人黄色在线免费| 免费国产羞羞网站视频| 2024国产精品| 99久久久无码国产精品性色戒| 伊人春色在线观看| 欧美日韩国产中文字幕 | 精品久久国产一区| 亚洲精品久久久一区二区三区 | 香蕉久久网站| 久久男人的天堂| 亚洲精品一区二区二区| 国产成人自拍高清视频在线免费播放| 国产日韩欧美综合精品| 999国产在线视频| 亚洲香蕉伊在人在线观| 999精彩视频| 精品在线网站观看| 日韩在线资源网| 日韩精品一区二区三| 美女视频免费一区| 国产伦精品一区二区| а√天堂中文在线资源bt在线| 亚洲制服丝袜av| 蜜桃免费在线视频| 日韩成人av在线资源| 日韩视频免费看| youjizz在线视频| 国产91精品免费| 亚洲乱码一区二区三区| 麻豆免费在线| 日韩一级片网站| 香蕉久久久久久久| 久久久久久婷| 国产在线一区二区三区播放| 国产原创精品视频| 欧美视频在线一区二区三区| 波多野结衣视频播放| 影音先锋日韩在线| 国产在线视频不卡| 大地资源中文在线观看免费版| 亚洲一区二区三区在线播放| 手机免费看av网站| 日韩在线综合| 国产精品91久久久| 青梅竹马是消防员在线| 午夜电影网亚洲视频| 熟妇女人妻丰满少妇中文字幕| 第一会所亚洲原创| 国产精品男女猛烈高潮激情| 欧美视频综合| 日韩欧美在线看| 丰满大乳奶做爰ⅹxx视频| 黄色在线成人| 国产麻豆乱码精品一区二区三区| 婷婷在线播放| 日韩欧美在线影院| 欧美精品一级片| 国产很黄免费观看久久| 欧美少妇一区二区三区| 精品午夜av| 欧美日韩成人在线视频| 亚洲xxx在线| 一级特黄大欧美久久久| 中文字幕制服丝袜| 激情视频一区二区三区| 国产亚洲欧美一区二区| 国产在线美女| 精品一区电影国产| 中文字幕在线播| 久久精品免视看| 亚洲天堂av线| 久久国产亚洲| 亚洲999一在线观看www| 在线观看免费视频你懂的| 日韩视频一区在线观看| 国产亚洲第一页| 97精品视频在线观看自产线路二| 久久免费视频3| 九色成人国产蝌蚪91| 国产精品91久久久久久| 激情在线小视频| 精品久久久久久久久久久久久久久久久 | 亚洲午夜久久久久久久久电影院| 精品久久久久一区二区| 午夜一区二区三区不卡视频| 日本一区二区三区免费观看| 成人国产精品一区二区免费麻豆| 日韩有码在线电影| 亚洲国产www| 欧美日韩中文字幕日韩欧美| 中文字幕伦理片| 国产精品中文字幕日韩精品| 日韩国产一级片| heyzo久久| 91精品国产一区二区三区动漫| 国产精品探花在线| 国产一区二区三区四区福利| 一级片免费网站| 亚洲一区在线播放| 久久精品成人av| 精品亚洲aⅴ乱码一区二区三区| 99中文字幕在线观看| 日韩高清在线免费观看| 国产综合色香蕉精品| av白虎一区| 日韩中文字幕在线观看| 后进极品白嫩翘臀在线视频| 91久久精品一区二区三| 久久久国产精品黄毛片| 国产人伦精品一区二区| 宇都宫紫苑在线播放| 久久动漫亚洲| 国产黄色激情视频| 欧美精品尤物在线观看| 91黄在线观看| 国内精品伊人| 欧美性在线观看| 国产福利在线播放麻豆| 亚洲精品视频在线观看视频| av加勒比在线| 在线免费不卡视频| 国产一级av毛片| 亚洲欧美综合色| 中文字幕日韩三级片| 国产在线视频不卡二| 精品99在线视频| 欧美理论在线| 永久免费精品视频网站| 精品一区免费| 国产精品一区二区免费看| 午夜不卡一区| 国产精品精品一区二区三区午夜版| 岛国毛片av在线| 久久久国产精品视频| 成年在线观看免费人视频| 日韩av在线影院| 性欧美videos另类hd| 欧美精品第一页| 真实新婚偷拍xxxxx| 欧美视频免费在线| 日本网站在线播放| 亚洲在线视频免费观看| 久久久久久视频| 国产精品国产三级国产a | 中文字幕综合网| 99精品全国免费观看| 久久久亚洲精品一区二区三区| 久久久男人的天堂| 国产一区二区三区在线看麻豆| 嫩草影院国产精品| 日韩影院免费视频| 波多野结衣天堂| 日本中文字幕一区| 成人黄色片视频| 久久精品伊人| 中文字幕第21页| 免费在线观看日韩欧美| 九九热免费精品视频| 日韩成人一区二区三区在线观看| 国产无套内射久久久国产| 欧美中文日韩| 久久久久久久少妇| 巨乳诱惑日韩免费av| 久久久久久香蕉| 老司机免费视频一区二区三区| 色七七在线观看| 老司机精品视频在线| 永久免费的av网站| 国产一区二区三区综合| 午夜诱惑痒痒网| 国产福利91精品一区二区三区| 韩国一区二区三区四区| 成人福利电影精品一区二区在线观看| 国产白袜脚足j棉袜在线观看| 波多野结衣中文字幕一区| 菠萝菠萝蜜网站| 久久久久国产精品麻豆ai换脸| 美女100%露胸无遮挡| 亚洲日本欧美天堂| 免看一级a毛片一片成人不卡| 亚洲一二三区在线观看| 欧美男人亚洲天堂| 欧美日本一区二区在线观看| 国产男女裸体做爰爽爽| 亚洲国产日韩精品在线| 青青色在线视频| 色av中文字幕一区| 羞羞的视频在线看| 5566成人精品视频免费| 国产成人精品一区二区三区在线 | va视频在线观看| 亚洲第一精品福利| 国产粉嫩一区二区三区在线观看 | 日本精品免费| 香蕉av一区二区| 成熟丰满熟妇高潮xxxxx视频| 日韩综合小视频| 亚洲欧美一区二区三区不卡| 成人av资源在线| 免费看的黄色录像| 亚洲一二三四在线观看| 在线观看国产区| 精品免费视频一区二区| 国产精品免费播放| 久久久久久com| 91天天综合| 国产福利久久精品| 99精品美女| 爱福利视频一区二区| 精品无人码麻豆乱码1区2区| 国产xxxxxxxxx| 中文字幕在线一区免费| 日韩欧美三级在线观看| 欧美久久久影院| 日韩精品视频无播放器在线看 | 天堂网av手机版| 在线不卡中文字幕| 欧美视频免费一区二区三区| 久久中文字幕国产| 久久xxx视频| 国产在线精品一区| 中文字幕亚洲精品乱码| 美女黄色片视频| 91免费小视频| 麻豆亚洲av熟女国产一区二| 欧美在线观看视频在线| 午夜福利视频一区二区| 免费91在线视频| 青青草国产一区二区三区| 久久久久久a亚洲欧洲aⅴ| 伊人久久亚洲影院| 色哟哟在线观看视频| 欧美激情综合网| 天天干天天色综合| 精品国产污网站| 成人看av片| 成人欧美一区二区三区在线湿哒哒| 婷婷成人综合| 少妇人妻无码专区视频| 国产成人精品一区二| 艳妇荡乳欲伦69影片| 欧美色网站导航| 九九热视频在线观看| 91爱爱小视频k| 加勒比中文字幕精品| 国产精品成人久久电影| 国产91精品久久久久久久网曝门 | a天堂中文在线| 日韩美女写真福利在线观看| 啪啪激情综合网| 男人添女人下部高潮视频在观看| 国产精品88888| 久久中文免费视频| 欧美福利视频一区| 日韩精品成人av| 国产综合福利在线| 91一区在线| 中文字幕12页| 亚洲欧洲综合另类| 精品国精品国产自在久不卡| 久久在线免费视频| 日韩一区二区三区精品| 99热这里只有精品免费| 成人综合婷婷国产精品久久蜜臀| 麻豆changesxxx国产| 亚洲国产精品久久久久秋霞蜜臀| 91九色在线看| 另类欧美小说| 可以免费看不卡的av网站| 一级特黄曰皮片视频| 欧美老女人第四色| 国产超级va在线视频| 国产精品一区二区三区在线| 亚洲美女黄网| 中文字幕一区二区三区人妻| 在线观看日韩一区| 日本免费中文字幕在线| 亚洲一区二区三区777| 一区福利视频| 受虐m奴xxx在线观看| 欧美日韩一区二区三区四区五区| 麻豆tv在线| 超碰97国产在线| 久久国产成人| 黄色激情小视频| 精品粉嫩aⅴ一区二区三区四区| а√天堂中文资源在线bt| 欧美日韩精品免费观看| 精品影院一区二区久久久| 欧美国产精品一二三| 日韩精品在线第一页| 久久女人天堂| 久久亚洲国产成人精品无码区 | 小早川怜子一区二区的演员表| 欧美一三区三区四区免费在线看 | 在线一区二区三区| 日韩免费啪啪| 九色一区二区| 九九视频精品免费| 日本少妇吞精囗交| 在线视频一区二区| theporn国产在线精品| 好男人www社区| 亚洲一区免费观看| 黄网在线观看| aa成人免费视频| 日本vs亚洲vs韩国一区三区二区 | 国产又黄又粗视频| 日韩免费一区二区三区在线播放| 一本大道色婷婷在线| 中国成人亚色综合网站| 99久久精品国产导航| 91亚洲视频在线观看| 欧美一级免费视频| 在线电影一区二区|