精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-4o弱點(diǎn)暴露了,PDF長(zhǎng)文檔閱讀理解僅45分

人工智能 新聞
為了評(píng)測(cè)多模態(tài)大模型在PDF長(zhǎng)文檔上的閱讀理解能力,由上海AI Lab領(lǐng)銜提出的MMLongBench-Doc評(píng)估基準(zhǔn)測(cè)試了14個(gè)LVLMs(視覺(jué)語(yǔ)言大模型)。

圖文并茂的PDF長(zhǎng)文檔在日常生活中無(wú)處不在。過(guò)去人們通常使用OCR,layout detection等方法對(duì)PDF長(zhǎng)文檔進(jìn)行解析。但隨著多模態(tài)大模型的發(fā)展,PDF長(zhǎng)文檔的端到端閱讀理解成為了可能。

為了評(píng)測(cè)多模態(tài)大模型在PDF長(zhǎng)文檔上的閱讀理解能力,由上海AI Lab領(lǐng)銜提出的MMLongBench-Doc評(píng)估基準(zhǔn)測(cè)試了14個(gè)LVLMs(視覺(jué)語(yǔ)言大模型)。

評(píng)估結(jié)果表明:表現(xiàn)最好的GPT-4o在整體F1分?jǐn)?shù)上也只達(dá)到了 44.9%。

GPT-4V排名第二,得分30.5%。

除了這兩個(gè)模型,其他被評(píng)測(cè)LVLMs的表現(xiàn)更是要弱于OCR+LLMs形式。

圖片

這些結(jié)果表明,目前的LVLMs在端到端PDF長(zhǎng)文檔閱讀任務(wù)上雖然表現(xiàn)出了一定的潛力,但仍然還有很大的提升空間。

135個(gè)PDF、1091個(gè)問(wèn)題

LVLMs的出現(xiàn)有效促進(jìn)了文檔理解任務(wù)的解決。針對(duì)單頁(yè)文檔,常見(jiàn)的閉源和開(kāi)源模型都展示出了相當(dāng)不錯(cuò)的表現(xiàn)(DocVQA > 90%;ChartQA > 80%)。然而,日常生活中閱讀的文檔,如論文、財(cái)報(bào)、宣傳資料,往往有更多的頁(yè)數(shù),許多文檔長(zhǎng)度可以達(dá)到數(shù)十頁(yè)甚至上百頁(yè)。面對(duì)長(zhǎng)文檔,無(wú)論是單頁(yè)信息的查詢還是跨頁(yè)信息的理解都極具挑戰(zhàn)性,因此對(duì)LVLMs的能力提出了更高的要求。

因此研究團(tuán)隊(duì)提出了《MMLONGBENCH-DOC: Benchmarking Long-context Document Understanding with Visualizations》,以進(jìn)一步評(píng)估LVLMs在超長(zhǎng)文檔解析方面的能力。

圖片

MMLongBench-Doc的數(shù)據(jù)統(tǒng)計(jì)量、文檔格式和問(wèn)題類型示例如圖1所示。

與之前的文檔理解數(shù)據(jù)集相比,MMLongBench-Doc在文檔側(cè)和問(wèn)題側(cè)都具有顯著優(yōu)勢(shì):

圖片

△MMLongBench-Doc的數(shù)據(jù)統(tǒng)計(jì)量

文檔側(cè):研究團(tuán)隊(duì)手動(dòng)選取了135篇PDF格式的文檔,涵蓋學(xué)術(shù)論文、財(cái)務(wù)報(bào)告、教程、宣傳手冊(cè)等7個(gè)不同領(lǐng)域。絕大多數(shù)文檔都具有復(fù)雜的版式結(jié)構(gòu),并且包含多種模態(tài)(文字、表格、圖片等)的內(nèi)容。文檔的平均長(zhǎng)度為47.5頁(yè),文本信息超過(guò)兩萬(wàn)個(gè)單詞,篇幅和信息量遠(yuǎn)遠(yuǎn)超過(guò)其他數(shù)據(jù)集中的文檔。

圖片

△文檔的分布(左)。文檔的頁(yè)數(shù)與字符數(shù)統(tǒng)計(jì)(右;包含和之前數(shù)據(jù)集的比較)

問(wèn)題側(cè):由10名phd-level的標(biāo)注者人工標(biāo)注了1091個(gè)問(wèn)題:

這些問(wèn)題可以分為三類:single-page、cross-page和unanswerable。

Single-page question:44.5%的問(wèn)題是針對(duì)某一頁(yè)內(nèi)容設(shè)計(jì)的,重點(diǎn)考察大模型從長(zhǎng)文本中查找信息的能力(類似于大海撈針);

Cross-page question: 33%的問(wèn)題需要綜合兩頁(yè)甚至更多頁(yè)內(nèi)容的信息來(lái)回答,重點(diǎn)考察大模型面對(duì)多跳問(wèn)題的綜合推理能力;

Unanswerable question: 為了防止模型利用文檔中的捷徑回答問(wèn)題,22.5%的問(wèn)題被設(shè)計(jì)為沒(méi)有答案,即無(wú)法根據(jù)文檔中提供的信息進(jìn)行回答。

這些問(wèn)題均勻分布在文檔的不同位置(page index)和不同模態(tài)(分為text, layout, table, chart, image五種)的內(nèi)容中。

圖片

△問(wèn)題均勻分布在文章的不同位置

其他被評(píng)測(cè)LVLMs整體表現(xiàn)弱于OCR+LLMs

研究評(píng)測(cè)了14個(gè)LVLMs(4個(gè)閉源模型,10個(gè)開(kāi)源模型)在MMLongBench-Doc上的表現(xiàn)。

通過(guò)給定一篇文檔和一個(gè)基于該文檔的問(wèn)題,研究人員將PDF格式的文檔轉(zhuǎn)化成多張PNG格式的頁(yè)面截圖,并將這些截圖輸入給LVLMs。作為比較,還使用OCR工具將PDF文檔轉(zhuǎn)化為T(mén)XT文本,并使用這些TXT文本評(píng)測(cè)了10個(gè)LLMs的表現(xiàn)。評(píng)測(cè)的具體結(jié)果如下所示。

圖片

△LVLMs與LLMs在MMLongBench-Doc上的實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)發(fā)現(xiàn):

GPT-4o在所有LVLMs中表現(xiàn)最佳,F(xiàn)1分?jǐn)?shù)達(dá)到了約45%;排名第二的GPT-4V的F1分?jǐn)?shù)則為約31%。其余LVLMs的表現(xiàn)則在20%左右甚至更低。這說(shuō)明,目前的LVLMs尚不足以勝任端到端的長(zhǎng)文檔閱讀理解。

通過(guò)對(duì)比LVLMs和OCR+LLMs的表現(xiàn)。盡管OCR解析會(huì)對(duì)PDF文本帶來(lái)?yè)p耗(尤其是對(duì)圖表類信息),除了GPT-4o和GPT-4V這兩個(gè)模型外,其他被評(píng)測(cè)的LVLMs整體表現(xiàn)弱于OCR+LLMs。這進(jìn)一步說(shuō)明目前的LVLMs在長(zhǎng)文檔閱讀理解上還有很大的潛力。

圖片
△LVLMs與LLMs的實(shí)驗(yàn)結(jié)果對(duì)比

對(duì)于能力更強(qiáng)的LVLM模型,比如GPT-4o,其直接讀取PDF圖片的表現(xiàn)則優(yōu)于其讀取OCR版本的文檔,這說(shuō)明了多模態(tài)大語(yǔ)言模型在端到端的長(zhǎng)文檔閱讀理解任務(wù)上具有更高的上限。

此外,研究團(tuán)隊(duì)還對(duì)六個(gè)不同模型進(jìn)行了定性分析。

如下圖所示,這個(gè)問(wèn)題來(lái)自于一個(gè)40頁(yè)長(zhǎng)的文檔,需要綜合第9,10頁(yè)中的兩個(gè)表格和第16頁(yè)中的一個(gè)圖表進(jìn)行多步推理才能夠回答。

可以看到除了GPT-4o回答正確外,GPT-4V也給出了正確的分析思路(但因?yàn)樵诔槿〉?0頁(yè)的信息時(shí)出錯(cuò)導(dǎo)致最終的答案不正確),而其他模型的回答則明顯存在很大的問(wèn)題。

圖片
△案例分析

更多定量和定性的分析討論可閱讀論文原文。

論文地址:https://arxiv.org/pdf/2407.01523
項(xiàng)目頁(yè):https://mayubo2333.github.io/MMLongBench-Doc/
數(shù)據(jù)集:https://huggingface.co/datasets/yubo2333/MMLongBench-Doc
GitHub:https://github.com/mayubo2333/MMLongBench-Doc

責(zé)任編輯:張燕妮 來(lái)源: 量子位
相關(guān)推薦

2025-01-02 11:01:45

2023-05-06 12:17:44

GPT-4自然語(yǔ)言人類語(yǔ)言

2024-06-28 18:13:05

2024-05-21 12:23:17

2024-06-05 08:29:35

2025-05-26 08:33:00

2024-11-28 15:51:19

GPT-4o微軟

2025-04-01 09:25:00

2024-05-14 19:16:52

ChatGPTGPT-4oOpenAI

2025-04-15 08:01:12

2024-05-24 14:04:04

2025-04-08 02:26:00

2025-06-04 13:53:22

代碼模型AI

2025-08-11 08:42:00

GPT-5AI模型

2025-05-26 09:05:00

2024-06-21 09:51:17

2024-05-14 08:23:27

GPT-4oAI技術(shù)

2025-08-07 14:05:40

OpenAI大模型開(kāi)源

2024-06-27 12:45:30

2024-05-17 09:35:55

GPT-4o模型OpenAI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

麻豆精品国产传媒| 丁香桃色午夜亚洲一区二区三区| 99热在线成人| 亚洲午夜电影在线| 尤物yw午夜国产精品视频| 浴室偷拍美女洗澡456在线| 国产成人精品一区二三区| 国产一精品一av一免费爽爽| 国产丝袜美腿一区二区三区| 不卡毛片在线看| 国产一区二区在线免费播放| 日韩欧美在线观看一区二区| 第四色中文综合网| 亚洲丝袜自拍清纯另类| 国产精品情侣自拍| 免费在线观看a视频| 亚洲精品tv| 亚洲资源网你懂的| 一区二区在线观看视频| 国产精品人成电影在线观看| 国内精品久久国产| 国产美女久久久久久| 国产亚洲人成a在线v网站| 久久亚区不卡日本| 蜜臀av中文字幕| 久久久人成影片一区二区三区在哪下载| 欧美黄污视频| 欧美精品电影在线播放| 午夜精品亚洲一区二区三区嫩草 | 椎名由奈jux491在线播放| 久久久久久久中文| 91av久久久| 久久要要av| 欧美日本韩国一区二区三区视频 | 欧美一级大片| 久久这里都是精品| 99在线观看视频网站| 久久免费视频播放| 欧美午夜18电影| 日韩欧美福利视频| 久久婷婷一区| 日韩欧美精品网址| 亚洲巨乳在线观看| 91丨porny丨在线中文| 久久国产日韩| 日韩在线资源网| 999在线精品视频| a级影片在线观看| 国产91露脸合集magnet| 久久久久久久网站| 扒开jk护士狂揉免费| 成人在线中文| 亚洲在线成人精品| 久久久久久99| 国产精品女人久久久| 欧美午夜影院| 一区二区日韩精品| 欧美人妻一区二区三区| 精品国内自产拍在线观看视频| 一区二区三区视频在线看| 亚洲精品在线免费看| 黄色小视频在线免费观看| 日韩午夜在线播放| 亚洲日本无吗高清不卡| 91久久精品无码一区二区| 免费高清不卡av| 久久这里只有精品国产| 欧美综合社区国产| 欧美视频完全免费看| 日韩国产一区久久| 国产suv一区二区| 国产欧美高清| 久热精品视频在线免费观看 | 奇米四色…亚洲| 亚洲午夜性刺激影院| 国内自拍第二页| 国产乱码精品一区二区三区亚洲人| 亚洲第一精品在线| 日韩中文一区| 老司机99精品99| 91色综合久久久久婷婷| 亚洲bt欧美bt日本bt| 亚洲天堂男人av| 中文字幕一区二区三三| 亚洲人免费视频| 性一交一黄一片| 久久porn| 欧美sm极限捆绑bd| av在线网址导航| 婷婷综合六月| 欧美精品精品一区| 免费不卡的av| 精品一区二区三区在线观看视频| 亚洲欧洲综合另类在线| 一区二区三区四区五区视频| 最新国产露脸在线观看| 国产日韩亚洲欧美综合| 亚洲精品高清在线观看| 久久夜色精品国产| 国产精品6666| 91精品秘密在线观看| 一区二区三区亚洲| 国产suv一区二区三区| 91综合久久| 国外成人在线视频| 国产乡下妇女做爰| 日韩电影在线免费观看| 欧美黑人一级爽快片淫片高清| av网站在线不卡| 精品一区二区三区视频在线播放| 欧美视频精品在线| 日本在线视频www| 91九色美女在线视频| 亚洲综合精品久久| 天天干在线影院| 日本精品裸体写真集在线观看| 久久一区二区三区国产精品| 91九色视频在线观看| 国产精品系列视频| av网站一区二区三区| 国产色综合一区二区三区| www.91在线| 国产精品丝袜黑色高跟| 亚洲bbw性色大片| av电影在线免费| 日韩一区和二区| 东京热无码av男人的天堂| 日韩片欧美片| 久久天天躁狠狠躁夜夜躁| www五月天com| 91在线视频在线| 色吧亚洲视频| 超碰资源在线| 91电影在线观看| 婷婷激情5月天| 精品国产一区一区二区三亚瑟| 日韩在线国产精品| 亚洲天堂男人av| 99久精品国产| 国产精品裸体瑜伽视频| 成人欧美一区二区三区的电影| 亚洲免费观看在线视频| 一级特黄录像免费播放全99| 午夜欧美激情| 欧美揉bbbbb揉bbbbb| 国产男男chinese网站| 日韩黄色大片网站| 国产精品7m视频| 国产高中女学生第一次| 亚洲欧洲美洲综合色网| 精品无码国产一区二区三区av| 欧美日本高清| 亚洲aaa精品| 污片在线免费看| 精品国产一区一区二区三亚瑟| xxx欧美精品| 免费一级a毛片夜夜看| 99精品国产福利在线观看免费| 九色91av视频| 6080午夜伦理| 久久精品亚洲国产奇米99| 亚洲砖区区免费| 欧美网站免费| 久久久91精品国产| 五月天激情四射| 国产亚洲欧洲一区高清在线观看| 天天干天天色天天爽| 9999在线精品视频| 亚洲女人被黑人巨大进入al| 午夜激情福利网| 国产精品一级片| 先锋影音日韩| 亚洲国产91视频| 欧美大片在线看| 午夜影院免费体验区| 国产精品美日韩| 日韩avxxx| 91精品国产自产在线丝袜啪| 日韩在线免费高清视频| 国产精品伊人久久| 亚洲国产va精品久久久不卡综合| 日本 片 成人 在线| 老司机成人在线| 2019中文字幕在线观看| 国产精品久久久久精| 亚洲狠狠爱一区二区三区| 男女黄床上色视频| 久久狠狠亚洲综合| 日日噜噜噜噜夜夜爽亚洲精品| 春色校园综合激情亚洲| 亚洲欧美激情在线视频| 国产麻豆免费视频| 中文天堂在线一区| 久久久无码人妻精品无码| 91中文字幕精品永久在线| 99国产在线| 国产精品极品美女在线观看| 美女久久久久久久久久久| 免费的毛片视频| 亚洲欧美日韩国产综合在线| 中文字幕一区二区人妻电影丶| 亚洲视频分类| 国产九九精品视频| www.亚洲视频| 欧美精品一区二区精品网| 三级影片在线看| 久久久亚洲综合| 久草福利在线观看| 日本欧美一区二区在线观看| 性高湖久久久久久久久aaaaa| 视频在线观看免费影院欧美meiju 视频一区中文字幕精品 | 亚洲成人资源| 999国内精品视频在线| 日本а中文在线天堂| 亚洲国产精品嫩草影院久久| 国产一级生活片| 成人网男人的天堂| 欧美成人福利在线观看| 午夜亚洲激情| 日韩欧美一区二区在线观看| 中文在线免费一区三区| 国产欧美精品久久久| 欧美一级大黄| 57pao成人永久免费视频| 在线电影福利片| 久久精品国产2020观看福利| 国产大片在线免费观看| 欧美日韩在线不卡| 成人午夜淫片100集| 日本一区二区三区免费乱视频 | 亚洲午夜一区| 波多野结衣成人在线| 91成人在线| 国产不卡视频在线| 2018av在线| 欧美激情中文字幕在线| 国产黄色在线网站| 久久精品国产欧美激情| 日本精品在线| 欧美大胆一级视频| 毛片视频网站在线观看| 亚洲国产一区二区三区青草影视| 日本黄色网址大全| 成人综合在线观看| 日本精品一二三区| 亚洲综合精品四区| 欧美一级在线看| 国产视频一区欧美| 97视频在线免费播放| 四虎成人av| 一区二区三区四区在线视频| 日韩国产欧美一区二区| 在线综合视频网站| 国产精品久久久久久久久妇女| 精品久久蜜桃| free欧美| 国产精品久久色| 九七影院97影院理论片久久| 国产一区欧美二区三区| 福利在线免费视频| 国产69久久精品成人| 黑人精品一区| 国产精品免费观看在线| 99er精品视频| 国产精品高清一区二区三区| 亚洲电影有码| 91精品在线一区| 三级成人在线| 国产美女精品视频| 免费观看亚洲视频大全| 国产精品精品软件视频| 色天下一区二区三区| 99九九电视剧免费观看| 国产亚洲成av人片在线观黄桃| 国产一区二区色| 国产亚洲高清一区| 国产区一区二区| 精品99久久| 久久99蜜桃综合影院免费观看| crdy在线观看欧美| 亚洲永久在线观看| 日本中文字幕在线一区| 色女孩综合网| 国模 一区 二区 三区| 久久久久久久久久久免费视频| 在线成人亚洲| www欧美激情| 成人少妇影院yyyy| 波多野结衣家庭教师在线观看| 99国内精品久久| 欧美黄色一级生活片| 99久久精品国产网站| 波多野在线播放| 一区二区三区美女| 天天操天天干天天摸| 精品av在线播放| 国产无遮挡aaa片爽爽| 在线精品国精品国产尤物884a | 最新国产成人在线观看| 国产在线视频99| 欧美日韩专区在线| 性xxxx视频| 久热爱精品视频线路一| 日韩精品专区| 国产综合动作在线观看| 国产精品99久久久久久动医院| 亚洲在线不卡| 欧美一级网站| 在线播放av网址| 亚洲视频在线观看一区| 少妇一级淫片免费放中国 | 精品国产18久久久久久| 亚洲午夜av电影| 黄色激情在线播放| 亚洲一区中文字幕| 日本a级不卡| 亚洲精品tv久久久久久久久| 99亚洲一区二区| 亚洲精品在线视频播放| 国产欧美精品日韩区二区麻豆天美| 欧美老熟妇乱大交xxxxx| 亚洲欧美日韩国产一区二区三区| 久久一区二区三| 日韩欧美一区二区免费| 麻豆影视在线观看_| 国产精品爽黄69天堂a| 欧美a大片欧美片| 99在线精品免费视频| 先锋影音久久| 黄色污在线观看| 麻豆久久久久久| 人妻熟女aⅴ一区二区三区汇编| 久久久久综合网| 日本免费在线播放| 男人操女人的视频在线观看欧美| 女人和拘做爰正片视频| 国产999精品久久| 特级片在线观看| 亚洲大片一区二区三区| av老司机久久| 欧美成人久久久| 国产一区二区三区亚洲综合| 一级一片免费播放| 久草中文综合在线| 亚洲欧美国产不卡| 日韩电影一区二区三区| 亚洲av无码一区二区三区网址| 久久久国产午夜精品| 日本在线播放视频| 亚洲老头同性xxxxx| 超碰国产一区| 青青草成人网| 亚洲色图国产| 黄色片子免费看| 91麻豆免费视频| 国产视频1区2区| 亚洲三级av在线| 国产精品美女午夜爽爽| 亚洲福利av在线| 亚洲乱码中文字幕综合| 97超碰人人草| 不卡av在线播放| 伊人久久大香线蕉av超碰| 久久香蕉视频网站| 欧美黄免费看| 精品国产一二区| 精品国产鲁一鲁一区二区张丽| 加勒比av一区二区| www午夜视频| 日韩码欧中文字| 亚洲AV无码乱码国产精品牛牛| 欧美日本免费一区二区三区| 亚洲人成色777777精品音频| 992tv在线成人免费观看| 欧美啪啪网站| 成年人视频网站免费| 青青草一区二区三区| 国产在线观看免费视频软件| 欧美日韩亚洲一区二区三区| 国产精品亚洲lv粉色| 久久久久久久久久久免费| 亚洲品质自拍| 免费精品99久久国产综合精品应用| 久久久五月婷婷| 中文字幕一区二区三区四区视频 | 国产精品毛片一区二区在线看舒淇| 日韩精品免费电影| 伊人222成人综合网| 精品国产电影| 另类中文字幕网| 国产精品成人久久| 日韩在线观看免费网站| 免费萌白酱国产一区二区三区| av影院在线播放| 久久尤物电影视频在线观看| 在线视频免费观看一区| 少妇av一区二区三区| 2021年精品国产福利在线| 成人性视频欧美一区二区三区| 精品在线免费视频|