精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

考考大模型視頻理解能力,中科院人大百川提出新基準合成框架

發布于 2024-6-21 09:27
瀏覽
0收藏

測試Gemini1.5 Pro、GPT-4o等多模態大模型的新基準來了,針對視頻理解能力的那種。

直接在視頻內容中插入多個無關的圖像或文本“針”,嚴格評估模型對時間理解的能力。


來看下面的栗子。


比如插入密碼詞“Alice”,讓模型找到這個密碼詞;插入蘋果圖片,讓模型解答這個水果是什么;又或者插入多個“針”,詢問模型插入針的順序是什么。

考考大模型視頻理解能力,中科院人大百川提出新基準合成框架-AI.x社區

這就是來自中科院、人大、百川的研究團隊聯合提出的利用合成視頻構建視頻理解測試基準的方法。


該方法名為VideoNIAH,可以解耦視頻內容與其對應的查詢-響應對,通過插入無關的圖像或文本“針”來生成測試數據,既保證了視頻來源的多樣性和查詢響應的多樣性,還通過插入多個針來嚴格評估模型對時間理解的能力。


此外,使用與現實視頻內容相對應的查詢-響應對可能存在數據泄露風險,影響基準測試的公平性,使用合成視頻生成方法可以有效避免這一問題。


研究團隊利用VideoNIAH方法制作了一個能夠有效評估視頻模型的細粒度理解能力和時空建模能力,同時支持長上下文評估的合成視頻理解基準VNBench,包含1350個樣本。

隨后對Gemini1.5 Pro、GPT-4o、GPT-4-turbo以及其它開源模型進行了測試,并分析了一系列結果。


研究團隊發現,即使是GPT-4o等最先進的專有模型,在需要檢測和追蹤視頻中特定空間區域內的“針”等計數任務上的表現也不理想;在排序任務上,專有模型與開源模型之間的性能差距尤為顯著……

考考大模型視頻理解能力,中科院人大百川提出新基準合成框架-AI.x社區

VNBench更多細節以及更多實驗結果我們接著往下看。

用VideoNIAH構建新基準

隨著視頻中心的MLLMs模型的提出,需要有更全面的基準測試來評估這些模型在視頻理解方面的能力,包括細粒度理解時空建模以及長上下文處理等。


傳統的視頻基準測試通常需要基于目標能力精心選擇視頻,并進行繁瑣的查詢-響應對標注,以匹配特定視頻內容。這個過程不僅挑戰重重,而且資源消耗巨大。

為了開發和評估視頻理解模型,需要一個既能夠擴展到不同視頻源和長度,又能夠高效運行的基準測試框架。


研究團隊提出了VideoNIAH。


如前文所述,VideoNIAH(Video Needle In A Haystack)創新性地將測試視頻內容與其查詢-響應對解耦,通過在原始視頻中插入無關的圖像/文本“針”(needles),并僅從這些針生成注釋。


這種方法不僅確保了視頻來源的多樣性和查詢響應的多樣性,還通過插入多個針來嚴格評估模型對時間理解的能力。

考考大模型視頻理解能力,中科院人大百川提出新基準合成框架-AI.x社區

利用VideoNIAH,研究者們構建了一個全面的視頻基準測試VNBench,包括檢索、排序和計數等任務。VNBench能夠有效評估視頻模型的細粒度理解能力和時空建模能力,同時支持長上下文評估。


VNBench的特點主要表現在以下三個方面:

“針”類型(Needle Type)的多樣性

  • 編輯內幀(Edit):使用人為添加的字幕作為”針”,這些字幕被嵌入到視頻幀中,模擬了在視頻中尋找特定文本信息的場景。
  • 插入幀間(Insert):使用圖像作為”針”,這些圖像作為靜態片段插入到視頻幀之間,考察模型對視頻中靜態圖像的識別和記憶能力。
  • 級別劃分:根據圖像的可識別性分為兩個級別,第一級使用常見物體(如水果圖像),第二級使用更具挑戰性的地標圖像/物體圖像,增加了任務的難度。

?

視頻”干草堆”(Video Haystack)的多樣性

  • 時間分布:VNBench使用的視頻”干草堆”來自不同的數據源,視頻時長從10秒到180秒不等,覆蓋了短、中、長三種不同的視頻長度,以評估模型對不同視頻長度的適應能力。
  • 內容覆蓋:視頻內容包含多種場景,確保了評估的廣泛性和視頻源的多樣性。

?

查詢(Query)的多樣性

  • 檢索任務:要求模型從視頻中檢索出特定的”針”,考察模型的細粒度理解和信息提取能力。
  • 排序任務:要求模型識別并排序視頻中所有插入”針”的時間順序,考察模型對視頻時間動態和事件序列的理解能力。
  • 計數任務:要求模型計算視頻中特定對象的出現次數,包括對單個幀內和跨幀的重復模式的識別和追蹤,考察模型在時空維度上的理解能力。
  • 任務分類:VNBench的三個任務類型分別對應不同的視頻理解能力評估,檢索任務評估信息檢索能力,排序任務評估時間推理能力,計數任務評估對視頻內容的長期記憶和模式識別能力。


通過這些設計,VNBench能夠全面地評估視頻理解模型在多樣化的視頻內容和查詢條件下的性能,為視頻理解技術的研究提供了一個有力的基準測試工具。

實驗及分析結果

在論文中,通過VNBench對視頻理解多模態大語言模型(MLLMs)進行了一系列評估,分析結果揭示了以下幾個關鍵點:

考考大模型視頻理解能力,中科院人大百川提出新基準合成框架-AI.x社區

首先是專有模型與開源模型的性能差異


專有模型(如Gemini 1.5 Pro和GPT-4系列)在大多數VNBench任務上的表現優于開源模型。這表明專有模型可能擁有更優越的視頻理解能力,這可能歸功于更大的模型參數和更全面的訓練過程。


其次是任務難度與模型表現


模型在單針短依賴任務(檢索任務)上的表現普遍優于多針長依賴任務(排序和計數任務)。這表明當前的視頻模型在處理需要長期依賴信息的任務時仍然面臨挑戰。


排序任務的性能差距方面,在排序任務上,專有模型與開源模型之間的性能差距尤為顯著。大多數開源模型在排序任務上幾乎無法完成任務,這可能是由于它們在訓練過程中忽視了時間序列建模的能力。


然后是計數任務的困難。即使是最先進的專有模型,在計數任務上的表現也不理想。特別是在需要檢測和追蹤視頻中特定空間區域內的“針”時(Counting-E-2任務),所有模型的表現都很差,這表明當前的視頻模型在理解和建模視頻中的細粒度時空關系方面仍有不足。


此外,視頻上下文長度的影響方面,隨著視頻處理時長的增加,開源模型的性能顯著下降,而專有模型由于具有更長的上下文處理窗口,性能波動不大。這表明當前模型在處理長視頻內容時的能力有限。

考考大模型視頻理解能力,中科院人大百川提出新基準合成框架-AI.x社區

“針”位置的影響方面,通過改變“針”在視頻中的位置,研究發現專有模型由于其較長的上下文窗口,能夠準確回憶所有插入的信息,而開源模型則表現出在長序列中對中間信息的回憶不足。

考考大模型視頻理解能力,中科院人大百川提出新基準合成框架-AI.x社區

這些分析結果不僅揭示了當前視頻理解模型的優勢和局限性,而且為未來的研究提供了寶貴的見解,有助于指導視頻理解技術的發展和改進。


論文鏈接:https://arxiv.org/abs/2406.09367
項目鏈接:https://videoniah.github.io/


本文轉自 量子位 ,作者:量子位


原文鏈接:??https://mp.weixin.qq.com/s/HZZQ8Rp4xPmJGzhB238hOw??

收藏
回復
舉報
回復
相關推薦
国产精品久久久久久久久久东京| 国产欧美日韩视频在线观看| 欧美超级免费视 在线| 少妇欧美激情一区二区三区| caoporm免费视频在线| 国产成人亚洲综合a∨猫咪| 97av视频在线| 日韩欧美视频免费观看| jizz性欧美2| 91黄色免费网站| 成人手机在线播放| 男女网站在线观看| 极品销魂美女一区二区三区| 高清欧美性猛交xxxx| 特级西西www444人体聚色| 欧美专区一区| 91久久精品国产91性色tv| 日韩中文字幕亚洲精品欧美| 三级无遮挡在线观看| 国模无码大尺度一区二区三区| 久久综合色8888| 国产精品扒开做爽爽爽的视频| 亚洲国产精品第一页| 亚洲精品久久久久avwww潮水| 国产精品免费看| 美日韩精品免费视频| 巨胸大乳www视频免费观看| 99亚洲男女激情在线观看| 粉嫩av一区二区三区免费野| 色狠狠久久aa北条麻妃| 激情五月亚洲色图| av中文字幕电影在线看| 国产精品电影一区二区| 欧美成人dvd在线视频| 成人久久精品人妻一区二区三区| 蜜桃精品视频在线| 青青青国产精品一区二区| 精品爆乳一区二区三区无码av| 青青草国产免费一区二区下载| 超碰免费在线| 在线一区电影| 一区二区成人精品| 女尊高h男高潮呻吟| 欧美中文高清| 欧美一区二区三区视频免费 | 好吊视频一区二区三区| 久久精品国产久精国产| 国产91九色视频| 4438国产精品一区二区| 日韩视频在线一区二区三区| 久久99精品久久久久久青青91| 日韩一区二区不卡视频| 久久精品国产68国产精品亚洲| 亚洲日本成人网| 91精品人妻一区二区| 亚洲丁香日韩| 日韩麻豆第一页| 日本黄色片在线播放| 免费萌白酱国产一区二区三区| 欧美大胆一级视频| 美女流白浆视频| 中文字幕亚洲在线观看| 精品毛片乱码1区2区3区| 麻豆传媒在线看| av男人一区| 亚洲国产精品va| 给我看免费高清在线观看| 色综合久久中文| 亚洲人成网站在线播| xxxx日本黄色| 欧美电影一二区| 久久成人免费视频| 久久久久久蜜桃| 亚洲毛片在线| 日产精品99久久久久久| 国产成人av免费| 久久99久久99| 不卡一区二区三区视频| 婷婷在线观看视频| 久久夜色精品一区| 高清国产在线一区| 日韩经典第一页| 久久综合给合久久狠狠色| 九色视频在线观看免费播放| 久久精品综合网| 亚洲啪啪av| 羞羞视频在线观看不卡| 午夜精品福利一区二区三区蜜桃| 国产99久久九九精品无码| 国产性生活网站| 中文字幕免费一区二区三区| 久久久视频精品| 精品久久久久久久久久久国产字幕| 全国精品久久少妇| **亚洲第一综合导航网站| 深夜福利视频一区| 亚洲欧洲精品天堂一级| 久久国产精品视频在线观看| 日韩中文在线播放| 日韩欧美精品在线视频| 91成人破解版| 欧美日本一区二区视频在线观看| 欧美一区二区色| a天堂在线视频| 久久一二三国产| 一二三在线视频| 欧美日韩美女| 日韩欧美资源站| 微拍福利一区二区| 亚洲一级特黄| 成人黄色免费看| 四虎影视在线播放| 亚洲精品视频一区| 好男人www社区| 精品午夜电影| 欧美成aaa人片免费看| 精品国产青草久久久久96| 丁香婷婷综合激情五月色| 色乱码一区二区三在线看| 7777kkk亚洲综合欧美网站| 欧美精品日韩一区| a级片在线观看| 一区二区毛片| yellow视频在线观看一区二区 | 国产在线观看免费av| 日韩一区精品视频| 精品视频在线观看| 麻豆蜜桃在线| 欧美一二区视频| 亚洲色图27p| 日韩中文字幕一区二区三区| 国产福利一区二区三区在线观看| 日本a在线播放| 欧洲一区在线电影| www.av欧美| 免费日韩av| 久久99影院| 日本不良网站在线观看| 亚洲国产成人久久综合一区| 免费国产羞羞网站美图| 麻豆国产精品一区二区三区 | 一区二区三区成人在线视频| 四季av一区二区三区| 欧洲三级视频| 国产精品va在线播放我和闺蜜| 青青草娱乐在线| 日韩欧美在线看| 欧美性做爰猛烈叫床潮| 亚洲第一精品夜夜躁人人躁| 国产性猛交xx乱| 日韩精品一二区| 欧美精品国产精品久久久| 免费毛片b在线观看| 日韩av在线精品| 久草视频在线观| 2欧美一区二区三区在线观看视频 337p粉嫩大胆噜噜噜噜噜91av | 美女露出粉嫩尿囗让男人桶| 一个色综合网| 3d精品h动漫啪啪一区二区| mm1313亚洲国产精品美女| 91精品国产综合久久精品麻豆| 色综合电影网| 男人天堂手机在线| 欧美精品黑人性xxxx| 国产又色又爽又高潮免费| 久久国产精品色婷婷| 国产人妻互换一区二区| 欧美第一在线视频| 韩剧1988免费观看全集| 青青青免费视频在线2| 91国产成人在线| 黄色精品视频在线观看| 国产老肥熟一区二区三区| 91黄色在线看| 亚洲三级网址| 国产日韩精品在线| 性爱视频在线播放| 亚洲精品久久久久| 中文字幕第315页| 亚洲色欲色欲www| 美女黄色一级视频| 久久男女视频| 裸体裸乳免费看| 国产成人精品福利| 国产精品第一第二| 午夜在线激情影院| 亚洲欧美日韩网| 国产精品久久综合青草亚洲AV| 亚洲精品大片www| 我和岳m愉情xxxⅹ视频| 激情六月婷婷综合| 日本黄色三级大片| 亚洲激情中文在线| 精品欧美一区二区在线观看视频| 在线成人视屏| 欧美精品久久久久久久免费观看| 户外极限露出调教在线视频| 欧美一区二区三区在线| 亚洲天堂男人av| 亚洲精品国产精华液| 国产人妻大战黑人20p| 国产福利精品导航| 久久综合伊人77777麻豆最新章节| 亚洲女同一区| 色999五月色| 国产精品1luya在线播放| 国产精品丝袜视频| 欧美a级在线观看| 超碰97人人做人人爱少妇| 欧美大片aaa| 亚洲精品在线三区| 国产一区二区女内射| 欧美丝袜一区二区三区| 欧美性猛交xxxxx少妇| 中文字幕欧美区| 亚洲天堂网一区二区| 国产99久久久国产精品| 中文字幕成人在线视频| 99精品国产在热久久| 亚洲毛片aa| 116极品美女午夜一级| 亚洲人在线观看视频| 欧美精品日日鲁夜夜添| 久久国产视频一区| 亚洲电影一级黄| 无码黑人精品一区二区| 国产亚洲综合av| 好吊色视频一区二区三区| 激情综合五月婷婷| a在线观看免费视频| 国产性生活视频| 日韩黄色三级在线观看| 久久久在线观看| 91黄色在线| 久久精品国产亚洲| 在线播放麻豆| 这里只有精品视频| 国产人成在线视频| 精品调教chinesegay| 色呦呦视频在线| 日本一区二区免费在线观看视频| 永久免费精品视频网站| 精品香蕉视频| 日韩av在线电影观看| 一区二区美女| 欧美精品与人动性物交免费看| 欧亚精品一区| 久久伊人资源站| 亚洲人成网www| 欧美重口乱码一区二区| 亚洲影院天堂中文av色| 免费99视频| 九一成人免费视频| 日本不卡一区| 日韩在线观看| 欧美爱爱视频网站| 亚洲影视一区二区三区| 蜜臀在线免费观看| 韩国久久久久| a级黄色小视频| 午夜一级久久| 午夜免费一区二区| 久久成人av少妇免费| 超碰在线超碰在线| 成人午夜又粗又硬又大| aaaaaav| 久久综合九色综合97_久久久| 亚洲精品乱码久久久久久久久久久久| 久久久久久一二三区| 69视频在线观看免费| 国产精品久久久久一区二区三区共 | 青青草手机在线观看| 亚洲第一主播视频| 人妻丰满熟妇av无码区| 欧美天天综合网| 97在线视频人妻无码| 欧美精品一区二区三区蜜桃| 日韩三级电影网| 色播久久人人爽人人爽人人片视av| 看女生喷水的网站在线观看| 欧美高清视频在线观看| 涩涩视频网站在线观看| 国产精品一区二区三区成人| 亚洲国产高清在线观看| 久久久久久国产精品mv| 日韩在线视屏| 日韩视频在线视频| 免费在线观看视频一区| 国产成人av片| 久久精品亚洲国产奇米99| 永久免费未视频| 精品国产91久久久久久老师| 最好看的日本字幕mv视频大全| 日韩一区国产二区欧美三区| 色偷偷在线观看| www.亚洲一区| 无码小电影在线观看网站免费| 国产精品影院在线观看| 久久超级碰碰| 中文字幕一区二区三区四区五区六区 | 狠狠色丁香婷婷综合| 久久午夜夜伦鲁鲁片| 亚洲欧洲精品一区二区三区| 国产香蕉视频在线| 高清国产一区二区三区四区五区| 97se亚洲国产综合在线| 中文字幕无人区二| 日本一区二区高清| 国产精彩视频在线观看| 欧美日韩亚洲另类| 天堂v在线观看| 久久韩剧网电视剧| 欧美日韩免费看片| 国产精品一区在线播放| 亚洲视频电影在线| 精品少妇人妻av一区二区| 国产suv一区二区三区| 国产视频久久| 日本黄色三级网站| 中文字幕av在线一区二区三区| 国产无遮挡免费视频| 欧美高清精品3d| se在线电影| 欧美野外猛男的大粗鳮| jazzjazz国产精品久久| 一级黄色免费在线观看| 青椒成人免费视频| 国产夫妻性爱视频| 亚洲精品国产首次亮相| 中国老女人av| 久久精品国产亚洲a| 国产性猛交xx乱| 在线观看91精品国产入口| 欧洲天堂在线观看| 性欧美xxxx视频在线观看| 日韩成人视屏| 免费成人深夜夜行网站视频| 九九国产精品视频| 大吊一区二区三区| 欧美视频中文字幕| 二区三区在线播放| 国产精品第10页| 精品免费av| 手机在线免费观看毛片| 国产欧美一区二区精品性色| 国产精品乱码一区二区视频| 亚洲男女性事视频| 精品国产免费人成网站| 免费成人在线观看av| 久久av最新网址| 人人妻人人藻人人爽欧美一区| 欧美性猛交xxxx黑人| 久青草国产在线| 国产精品极品在线| 久久神马影院| 污污视频在线免费| 亚洲美女免费在线| 免费观看国产视频| 97免费视频在线播放| 亚洲精品国产精品粉嫩| 无遮挡又爽又刺激的视频| 国产日韩精品视频一区| 黄色一区二区视频| 另类美女黄大片| 大奶在线精品| 久久久久久久久久久免费视频| 久久久久国产免费免费| 少妇一级淫片日本| 久久精品一本久久99精品| 久久视频免费| 国产情侣第一页| 久久综合色之久久综合| 中文字幕av久久爽| 欧美精品一二区| 外国成人在线视频| 国产又大又黄又猛| 亚洲综合激情小说| 青青草观看免费视频在线| 国产精品第一页在线| 午夜久久黄色| 9.1成人看片| 91精品欧美综合在线观看最新| 黄色美女视频在线观看| 欧洲视频一区二区三区| 韩国精品一区二区| a v视频在线观看| www.日韩欧美| 日韩av黄色在线| 中文字幕亚洲影院| 精品久久久一区| 欧美一区二区三区在线观看免费| 丁香婷婷久久久综合精品国产| 久久激情中文| 欧美三级 欧美一级| 亚洲无线码在线一区观看| 精品国产亚洲一区二区在线观看 | 激情久久中文字幕| 一区二区三区伦理片| 日韩欧美一级精品久久| 色8久久影院午夜场|