精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-4V只能排第二!華科大等發布多模態大模型新基準:五大任務14個模型全面測評

人工智能 新聞
華中科技大學聯合華南理工大學、北京科技大學等機構的研究人員對14個主流多模態大模型進行了全面測評,涵蓋5個任務,27個數據集。

近期,多模態大模型(LMMs)在視覺語言任務方面展示了令人印象深刻的能力。然而,由于多模態大模型的回答具有開放性,如何準確評估多模態大模型各個方面的性能成為一個迫切需要解決的問題。

目前,一些方法采用GPT對答案進行評分,但存在著不準確和主觀性的問題。另外一些方法則通過判斷題和多項選擇題來評估多模態大模型的能力。

然而,判斷題和選擇題只是在一系列參考答案中選擇最佳答案,不能準確反映多模態大模型完整識別圖像中文本的能力,目前還缺乏針對多模態大模型光學字符識別(OCR)能力的專門評測基準。

近期,華中科技大學白翔團隊聯合華南理工大學、北京科技大學、中科院和微軟研究院的研究人員對多模態大模型的OCR能力進行了深入的研究。

并在27個公有數據集和2個生成的無語義和對比的有語義的數據集上對文字識別、場景文本VQA、文檔VQA、關鍵信息抽取和手寫數學表達式識別這五個任務上進行了廣泛的實驗。

論文鏈接:https://arxiv.org/abs/2305.07895

代碼地址:https://github.com/Yuliang-Liu/MultimodalOCR

為了方便而準確地評估多模態大模型的OCR能力,本文還進一步構建了用于驗證多模態大模型零樣本泛化能力的文字領域最全面的評估基準OCRBench,評測了谷歌Gemini,OpenAI GPT4V以及目前開源的多個類GPT4V多模態大模型,揭示了多模態大模型直接應用在OCR領域的局限。


評測模型概述

本文對谷歌Gemini,OpenAI GPT4V在內的14個多模態大模型進行了評估。

其中BLIP2引入了Q-Former連接視覺和語言模型;Flamingo和OpenFlamingo通過引入新穎的門控交叉注意力層,使得大語言模型具備理解視覺輸入的能力;LLaVA開創性地使用GPT-4生成多模態指令跟隨數據,其續作LLaVA1.5通過改進對齊層和prompt設計,進一步提升LLaVA的性能。

此外,mPLUG-Owl和mPLUG-Owl2強調了圖像和文本的模態協作;LLaVAR收集了富文本的訓練數據,并使用更高分辨率的CLIP作為視覺編碼器,以增強LLaVA的OCR能力。

BLIVA結合指令感知特征和全局視覺特征來捕捉更豐富的圖像信息;MiniGPT4V2在訓練模型時為不同任務使用唯一的標識符,以便輕松區分每個任務的指令;UniDoc在大規模的指令跟蹤數據集上進行統一的多模態指令微調,并利用任務之間的有益交互來提高單獨任務的性能。

Docpedia直接在頻域而不是像素空間中處理視覺輸入。Monkey通過生成的詳細描述數據和高分辨率的模型架構,低成本地提高了LMM的細節感知能力。

評測指標及評測數據集

LMM生成的回復通常包含許多解釋性的話語,因此完全精確的匹配或平均歸一化Levenshtein相似度(ANLS)在評估LMM在Zero-Shot場景中的表現時并不適用。

本文為所有數據集定義了一個統一而簡單的評估標準,即判斷LMM的輸出是否包含了GT;為了減少假陽性,本文進一步過濾掉所有答案少于4個字符的問答對。

文本識別(Text Recognition)

本文使用廣泛采用的OCR文本識別數據集評估LMM。這些數據集包括:

(1)常規文本識別:IIIT5K、SVT、IC13;

(2)不規則文本識別:IC15、SVTP、CT80、COCOText(COCO)、SCUT-CTW1500(CTW)、Total-Text(TT);

(3)遮擋場景下的文本識別,WOST和HOST;

(4)藝術字識別:WordArt;

(5)手寫文本識別:IAM;

(6)中文識別:ReCTS;

(7)手寫數字串識別:ORAND-CAR-2014(CAR-A);

(8)無語義文本(NST)和語義文本(ST):ST數據集包含3000張來自IIIT5K字典的單詞圖像,NST數據集與ST數據集的不同之處在于單詞中字符的順序被打亂而不具備語義。

對于英文單詞識別,本文使用統一的prompt:「what is written in the image?」。對于ReCTS數據集中的中文文本則使用「What are the Chinese characters in the image?」作為prompt。對于手寫數字串,則使用prompt:「what is the number in the image?」。

場景文本問答(Scene Text-Centric VQA)

本文在STVQA、TextVQA、OCRVQA和ESTVQA上進行了實驗。其中ESTVQA數據集被分為ESTVQA(CN)和ESTVQA(EN),分別包含中文和英文問答對。

文檔問答(Document-Oriented VQA)

本文在DocVQA、InfographicVQA和ChartQA數據集上進行評估,包括了掃描文檔、復雜海報以及圖表。

關鍵信息抽取(KIE)

本文在SROIE、FUNSD和POIE數據集上進行了實驗,這些數據集包括收據、表單和產品營養成分標簽。KIE要求從圖像中提取key-value對。

為了使LMM能夠準確提取KIE數據集中給定key的正確的value,本文針對不同數據集設計了不同prompt。

對于SROIE數據集,本文使用以下prompt幫助LMM為「company」,「date」,「address」和「total」生成相應的value:「what is the name of the company that issued this receipt?」、「when was this receipt issued?」、「where was this receipt issued?」和「what is the total amount of this receipt?」。

此外,為了獲取FUNSD和POIE中給定key對應的value,本文使用prompt:「What is the value for '{key}'?」。

手寫數學公式識別(HMER)

評估了 HME100K數據集,在評估過程中,本文使用「Please write out the expression of the formula in the image using LaTeX format.」作為prompt。

評測結果

LMM在識別常規文本、不規則文本、遮擋場景下的文本和藝術字方面取得了與Supervised-SOTA相媲美的性能。

InstructBLIP2和BLIVA在WordArt數據集中的性能甚至超過了Supervised-SOTA,但LMM仍然存在較大局限。

語義依賴

LMMs在識別缺乏語義的字符組合時表現出較差的識別性能。

具體而言,LMMs在NST數據集上的準確率相比于ST數據集平均下降了57.0%,而Supervised-SOTA只下降了約4.6%。

這是因為場景文本識別的Supervised-SOTA直接識別每個字符,語義信息僅用于輔助識別過程,而LMMs主要依賴語義理解來識別單詞。

例如Figure1中,LMM成功識別了單詞「Message」,但錯誤地識別了「egaesMs」,這只是單詞「Message」的重新排序。

- 手寫文本

LMMs在準確識別手寫文本方面存在挑戰。手寫文本通常因快速書寫、不規則手寫或低質量紙張等因素而顯得不完整或模糊。平均而言,LMMs在這項任務中的性能比Supervised-SOTA差了51.9%。

- 多語言文本

在ReCTS、ESTVQA(En)和ESTVQA(Ch)上觀察到的顯著性能差距展示了LMMs在中文文本識別和問答方面的不足。這可能是由于中文訓練數據的缺少導致的。而Monkey的語言模型和視覺編碼器都經過大量中文數據的訓練,因此它在中文場景中表現優于其他多模態大模型。

- 細粒度感知

目前,大多數LMMs的輸入圖像分辨率受限于224 x 224,與它們架構中使用的視覺編碼器的輸入尺寸一致。然而,高分辨率的輸入圖像可以捕捉到更多的圖像細節,從而提供更細粒度的信息。由于BLIP2等LMMs的輸入分辨率受限,它們在場景文本問答、文檔問答和關鍵信息抽取等任務中提取細粒度信息的能力較弱。相比之下,Monkey和 DocPedia等具有更高輸入分辨率的多模態大模型在這些任務中具有更好的表現。

- HMER

LMMs在識別手寫數學表達式方面存在極大的挑戰。這主要是由于雜亂的手寫字符、復雜的空間結構、間接的LaTeX表示以及訓練數據的缺乏所導致的。

OCRBench

完整地評估所有數據集可能非常耗時,而且一些數據集中的不準確標注使得基于準確率的評估不夠精確。

鑒于這些限制,本文進一步構建了OCRBench,以方便而準確地評估LMMs的OCR能力。

OCRBench包含了來自文本識別、場景文本問答、文檔問答、關鍵信息抽取和手寫數學表達式識別這五個任務的1000個問題-答案對。

對于KIE任務,本文還在提示中進一步添加了「Answer this question using the text in the image directly.」來限制模型的回答格式。

為了確保更準確的評估,本文對OCRBench中的1000個問答對進行了人工校驗,修正了錯誤選項,并提供了正確答案的其他候選。

其結果如Table 3所示,Gemini獲得了最高分,GPT4V獲得了第二名。需要注意的是,由于OpenAI進行了嚴格的安全審查,GPT4V拒絕為OCRBench中的84張圖像提供結果。

Monkey展示了僅次于GPT4V和Gemini的OCR能力。從測試結果中,我們可以觀察到,即便是GPT4V和Gemini這樣最先進的多模態大模型在HMER任務上也面臨困難。

此外,它們在處理模糊圖像、手寫文本、無語義文本和遵循任務指令方面也存在挑戰。

正如圖2(g)所示,即使明確要求使用圖像中的文本回答,Gemini仍將「02/02/2018」解釋為「2 February 2018」。 

總結

本文對LMMs在OCR任務中的性能進行了廣泛的研究,包括文本識別、場景文本問答、文檔問答、KIE和HMER。

本文的定量評估顯示,LMM可以取得有希望的結果,特別是在文本識別方面,在某些數據集上甚至達到了SOTA。

然而,與針對特定領域的監督方法相比,仍然存在顯著差距,這表明針對每個任務定制的專門技術仍然是必不可少的,因為后者使用的計算資源和數據要少得多。

本文所提出的OCRBench為評估多模態大模型的OCR能力提供了基準,揭示了多模態大模型直接運用于OCR領域的局限。

本文還為OCRBench構建了一個在線排行榜,用于展示和比較不同多模態大模型的OCR能力(加入排行榜的方式參考Github)。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-10-17 12:34:04

2024-05-11 07:00:00

GPT4VGemini大模型

2023-07-23 18:55:20

ChatGPTGPT-4

2023-12-18 15:16:47

數據模型

2023-11-13 07:48:08

AI檢測

2024-04-14 19:53:44

2024-01-03 12:56:39

2023-10-12 09:28:17

2025-01-08 08:21:16

2023-10-12 13:05:00

谷歌AI

2023-07-05 09:57:11

2024-08-14 14:06:01

2024-06-12 11:50:23

2023-04-28 15:27:06

微軟模型

2023-08-30 13:23:00

模型訓練

2025-09-16 09:35:52

2025-11-05 08:51:33

2025-05-15 09:10:00

2023-09-19 13:48:31

AI數據
點贊
收藏

51CTO技術棧公眾號

国产欧美日韩综合精品一区二区三区| 台湾佬美性中文| 黄色片在线免费看| 久久精品二区亚洲w码| 久久亚洲电影天堂| 日韩精品人妻中文字幕有码| 性欧美gay| 亚洲免费大片在线观看| 精品视频一区二区| 91久久精品国产91性色69| 国产精品国码视频| 一区二区三区视频免费| 扒开伸进免费视频| 日本在线视频一区二区| 一区二区三区丝袜| 天堂精品视频| 午夜小视频在线播放| 久久国内精品视频| 欧美影院在线播放| 久久久久久久久97| 青青草原综合久久大伊人精品| 欧美刺激脚交jootjob| 九色porny91| 538在线观看| 亚洲桃色在线一区| 欧洲成人一区二区| 日韩中文字幕影院| 国产老女人精品毛片久久| 国产成人亚洲综合91| 香蕉免费毛片视频| 欧美伊人久久| 日韩中文娱乐网| 在线不卡av电影| 精品亚洲精品| 精品盗摄一区二区三区| 日本精品一区在线| 国产综合色在线观看| 午夜天堂影视香蕉久久| 在线观看亚洲精品| 暴力调教一区二区三区| 欧美与欧洲交xxxx免费观看| 黄色一级视频免费| 97视频精品| 中文字幕亚洲欧美一区二区三区| 亚洲色图14p| 中文在线综合| 日韩精品中文字幕在线一区| 91香蕉视频免费看| 久久九九精品视频| 欧美精品丝袜久久久中文字幕| chinese少妇国语对白| 亚洲欧洲自拍| 欧美日韩国产中文字幕| www.av毛片| sm在线观看| 亚洲成人免费视| 国产欧美日韩小视频| 欧美性爽视频| 亚洲电影一级黄| 国产中文字幕在线免费观看| sm在线播放| 日韩欧美在线免费观看| 欧洲av无码放荡人妇网站| 蜜桃麻豆av在线| 日韩欧美中文字幕在线播放| 精品久久久久久久免费人妻| 成人在线爆射| 欧美日韩一卡二卡三卡 | 国产一区在线免费观看| 五月婷婷六月丁香| 久久久蜜臀国产一区二区| 欧美日韩国产高清视频| eeuss影院在线播放| 中文字幕在线一区| 欧洲精品视频在线| 俺来俺也去www色在线观看| 五月婷婷久久丁香| 日日碰狠狠躁久久躁婷婷| 电影一区二区| 日韩精品中文字幕一区| 女同性恋一区二区三区| 啪啪亚洲精品| 日韩中文字幕不卡视频| a在线视频播放观看免费观看| 欧美99久久| 欧美在线视频一区| 亚洲一区二区人妻| 成人一二三区视频| 日本精品二区| 青春草在线免费视频| 欧美日韩一区二区免费视频| 嫩草av久久伊人妇女超级a| 色综合视频一区二区三区44| 精品粉嫩超白一线天av| 无码人妻丰满熟妇啪啪欧美| 欧美日韩国产免费观看 | 日韩人妻精品中文字幕| 另类小说欧美激情| 国产视频精品网| 淫片在线观看| 天天综合日日夜夜精品| 五月天中文字幕在线| 久久大胆人体视频| 神马国产精品影院av| 日韩精品国产一区二区| 另类小说视频一区二区| 久久精品国产一区二区三区不卡| 日本在线观看免费| 欧美日韩一区二区免费在线观看 | 51社区在线成人免费视频| 亚洲欧美精品一区二区| 青青草激情视频| 日韩成人一区二区| 国产精品亚洲不卡a| 麻豆av在线免费看| 色婷婷综合中文久久一本| 国产又粗又猛又爽又黄| 久久要要av| 日韩av大片免费看| 免费观看的毛片| 亚洲日本在线看| 特级丰满少妇一级| 神马香蕉久久| 午夜免费在线观看精品视频| 97国产精品久久久| 国产色综合一区| 男女超爽视频免费播放| 欧美视频二区欧美影视| 最近2019中文字幕第三页视频 | 国产全是老熟女太爽了| 在线播放日韩| 国产精品国产精品国产专区蜜臀ah| 日本中文字幕在线2020| 欧美视频在线一区二区三区| 美国黄色a级片| 99在线精品免费视频九九视| 成人免费观看网站| 97caopor国产在线视频| 在线成人免费观看| 懂色av蜜桃av| 日韩中文字幕不卡| 欧洲精品码一区二区三区免费看| 色黄视频在线观看| 日韩大陆毛片av| 日韩av一区二区在线播放| 国产成人精品免费在线| 97超碰在线视| 伊人精品久久| 久久久伊人欧美| 三级小视频在线观看| 亚洲成人在线观看视频| 国产成人av无码精品| 91久久综合| 韩国精品一区二区三区六区色诱| av电影院在线看| 亚洲黄一区二区| 亚洲精品男人天堂| 久久久久国产一区二区三区四区 | 狠狠色2019综合网| 中国 免费 av| av成人综合| 97精品国产91久久久久久| 午夜在线观看视频18| 天天色天天操综合| 三级网站在线免费观看| 首页国产欧美日韩丝袜| 亚洲精品日韩成人| 综合久久伊人| 欧美日本中文字幕| 天堂在线资源8| 欧美在线一二三| 免费成人深夜夜行网站| 国产精品18久久久久久久网站| 97超碰国产精品| 青青草这里只有精品| 日韩av男人的天堂| 欧美成人精品一区二区男人看| 欧美一区午夜视频在线观看| 九九九国产视频| 久久综合色婷婷| 日本免费色视频| 狠狠色综合网| 日韩hmxxxx| 日韩一区免费| 欧美主播福利视频| 麻豆传媒视频在线| 亚洲精品久久久久中文字幕二区| 国产精品51麻豆cm传媒| 亚洲欧美激情小说另类| 精品国产av色一区二区深夜久久| 日韩电影在线免费看| 99久热在线精品视频| 青青操综合网| 91九色蝌蚪国产| 水蜜桃在线视频| 久久国产加勒比精品无码| 青青色在线视频| 欧美不卡123| 亚洲精品一区二三区| 亚洲综合免费观看高清完整版 | 激情图片中文字幕| 国产视频久久| 国产免费xxx| 国产亚洲电影| 国产精品三区四区| 久久亚洲人体| 欧美诱惑福利视频| 成人女同在线观看| 久久久999国产| 黄色片在线免费观看| 亚洲第一偷拍网| 国产伦精品一区二区三区四区| 精品久久久久久久久久国产| 极品久久久久久| 国产精品入口麻豆原神| 丝袜美腿中文字幕| 国产99精品视频| 想看黄色一级片| 男人的j进女人的j一区| av动漫在线看| 亚洲日韩视频| 日本精品福利视频| 99久久夜色精品国产亚洲狼| 欧美日韩国产综合在线| 牛牛视频精品一区二区不卡| 成人免费在线看片| 9999在线精品视频| 国产精品青青在线观看爽香蕉| 少妇视频在线观看| 午夜精品www| 波多野在线观看| 欧美疯狂xxxx大交乱88av| 国产精品久久久久久福利| 最近2019好看的中文字幕免费 | 女仆av观看一区| 国产欧美日韩亚洲| 91午夜精品| wwwxx欧美| 精品欧美视频| 91福利入口| 嫩呦国产一区二区三区av| 亚洲va久久久噜噜噜久久天堂| 色综合.com| 91九色蝌蚪成人| 中文无码日韩欧| 国产精品一区二区欧美| 好吊妞视频这里有精品| 国产精品一区免费观看| 黄色欧美网站| 欧美精品久久久| 精品日本12videosex| 天堂va久久久噜噜噜久久va| 欧美少妇xxxx| 亚洲一区二区三区色| 久久久久久久久久久久久久久久久久 | 亚洲特黄一级片| 久草福利资源在线观看| 亚洲国产精品麻豆| 日韩三级视频在线播放| 狠狠色狠狠色综合日日小说| 久久久黄色大片| 欧美色视频一区| 国产女人爽到高潮a毛片| 日韩一区二区三区三四区视频在线观看 | 亚洲性图自拍| 国语自产偷拍精品视频偷 | 欧美激情一区二区三区p站| 99精品视频在线免费观看| 丰满大乳奶做爰ⅹxx视频| 2023国产精品| 天堂av免费在线| 亚洲自拍偷拍av| 精品免费囯产一区二区三区| 欧美综合天天夜夜久久| 国产视频一区二区三区四区五区| 日韩你懂的电影在线观看| 亚洲欧美日韩精品永久在线| 亚洲视频在线观看| 黄网站在线播放| 久久久综合av| 91tv亚洲精品香蕉国产一区| 亚洲自拍偷拍区| 色婷婷精品视频| 中文字幕一区二区三区乱码| 亚洲国产精品一区| 黄色一级免费大片| 国产成都精品91一区二区三| 女尊高h男高潮呻吟| 日本一区二区三区四区| 欧美丰满艳妇bbwbbw| 欧美日韩一区二区在线播放| 亚洲午夜激情视频| 亚洲国产精品99久久| 欧美日韩欧美| 88国产精品欧美一区二区三区| 久久久免费人体| 精品欧美日韩在线| 一区二区三区在线| 999精品网站| 成人深夜福利app| 国产乱子轮xxx农村| 欧美三级xxx| www.亚洲黄色| 中文字幕亚洲综合| 日本三级一区| 国产99在线播放| 99热在线成人| 成人性视频欧美一区二区三区| 处破女av一区二区| 男人晚上看的视频| 91极品视觉盛宴| 亚洲 欧美 激情 小说 另类| 欧美日韩xxxxx| 91精品网站在线观看| 日韩欧美一区二区三区四区五区| 亚洲高清网站| 久久黄色一级视频| 中文字幕一区二区三| 区一区二在线观看| 日韩国产中文字幕| av午夜在线观看| julia一区二区中文久久94| 91亚洲一区| 久久国产激情视频| 国产日产欧美精品一区二区三区| 日韩大片免费在线观看| 精品国产伦一区二区三区观看方式| av在线资源站| 国产精品久久av| 精品国产一区二区三区小蝌蚪| 欧美二区在线视频| 99国产精品久久久| 久草视频精品在线| 欧美不卡在线视频| 香蕉成人app免费看片| 亚洲精品日韩激情在线电影| 99久久婷婷| 中文字幕66页| 亚洲天堂中文字幕| 国产精品女同一区二区| 精品国产一区二区三区四区在线观看 | 亚洲精品久久| 午夜影院免费观看视频| 综合久久综合久久| 国产av无码专区亚洲av麻豆| 日韩性xxxx爱| 图片一区二区| 久久精品在线免费视频| 国产成人精品亚洲777人妖| 青青草成人免费| 亚洲精品suv精品一区二区| 999精品网| 鲁丝片一区二区三区| 视频一区二区国产| 在线免费看视频| 欧美久久久久免费| 伊人福利在线| 国产精品伊人日日| 国产精品免费看| 国产三级av在线播放| 欧美性色黄大片| 国产在线1区| 国产精品免费一区二区| 亚洲色诱最新| 黄色aaa视频| 欧美高清一级片在线| 色呦呦在线资源| 国产视频一区二区三区四区| 六月天综合网| 欧日韩不卡视频| 精品少妇一区二区三区在线视频| 国产福利电影在线播放| 欧美亚洲爱爱另类综合| 久久精品国产一区二区三| 91成人福利视频| 日韩av影视在线| 欧美日韩破处视频| 国产精品久久国产| 久久久五月婷婷| 国产精品久久久久久免费| 久久久久久久久久久久久久久久久久av| 欧美交a欧美精品喷水| 久久国产这里只有精品| 亚洲国产一区二区视频| 国产资源在线观看| 91在线短视频| 日韩在线观看一区二区| 国产极品国产极品| 亚洲免费福利视频| 九九99久久精品在免费线bt| 国产主播在线看| 亚洲日本在线a| 男人天堂综合| 91免费在线观看网站| 日韩极品在线观看| 免费一级a毛片夜夜看 | 色综合久久中文综合久久牛| 视频在线不卡| 成人啪啪免费看| 亚洲专区一区二区三区|