精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

讓GPT-4o準(zhǔn)確率大降,這個(gè)文檔理解新基準(zhǔn)揭秘大模型短板

人工智能 新聞
字節(jié)跳動(dòng) OCR 團(tuán)隊(duì)聯(lián)合華中科技大學(xué)打造了?WildDoc——?首個(gè)真實(shí)世界場景文檔理解的基準(zhǔn)數(shù)據(jù)集。

本文的共同第一作者為字節(jié)跳動(dòng)算法工程師王安瀾和廖蕾,本文的通訊作者為字節(jié)跳動(dòng)算法工程師唐景群。 

在文檔理解領(lǐng)域,多模態(tài)大模型(MLLMs)正以驚人的速度進(jìn)化。從基礎(chǔ)文檔圖像識(shí)別到復(fù)雜文檔理解,它們在掃描或數(shù)字文檔基準(zhǔn)測試(如 DocVQA、ChartQA)中表現(xiàn)出色,這似乎表明 MLLMs 已很好地解決了文檔理解問題。然而,現(xiàn)有的文檔理解基準(zhǔn)存在兩大核心缺陷:

  • 脫離真實(shí)場景:現(xiàn)實(shí)中文檔多為手機(jī) / 相機(jī)拍攝的紙質(zhì)文件或屏幕截圖,面臨光照不均、物理扭曲(褶皺 / 彎曲)、拍攝視角多變、模糊 / 陰影、對(duì)焦不準(zhǔn)等復(fù)雜干擾;
  • 無法評(píng)估魯棒性:現(xiàn)有基準(zhǔn)未模擬真實(shí)環(huán)境的復(fù)雜性和多樣性,導(dǎo)致模型在實(shí)際應(yīng)用中表現(xiàn)存疑;

圖片

這些缺陷引出了一個(gè)關(guān)鍵疑問:當(dāng)前 MLLMs 模型距離在自然環(huán)境中實(shí)現(xiàn)全面且魯棒的文檔理解能力到底還有多遠(yuǎn)?

為了揭開這個(gè)謎底,字節(jié)跳動(dòng) OCR 團(tuán)隊(duì)聯(lián)合華中科技大學(xué)打造了 WildDoc—— 首個(gè)真實(shí)世界場景文檔理解的基準(zhǔn)數(shù)據(jù)集。

WildDoc 選取了 3 個(gè)常用的具有代表性的文檔場景作為基準(zhǔn)(Document/Chart/Table), 包含超過 12,000 張手動(dòng)拍攝的圖片,覆蓋了環(huán)境、光照、視角、扭曲和拍攝效果等五個(gè)影響真實(shí)世界文檔理解效果的因素,且可與現(xiàn)有的電子基準(zhǔn)數(shù)據(jù)集表現(xiàn)進(jìn)行對(duì)比。

為了嚴(yán)格評(píng)估模型的魯棒性,WildDoc 構(gòu)建了一致性評(píng)估指標(biāo)(Consistency Score)。實(shí)驗(yàn)發(fā)現(xiàn)主流 MLLMs 在 WildDoc 上性能顯著下降,揭示了現(xiàn)有模型在真實(shí)場景文檔理解的性能瓶頸,并為技術(shù)改進(jìn)提供可驗(yàn)證的方向。本工作不僅填補(bǔ)了真實(shí)場景基準(zhǔn)的空白,更推動(dòng)文檔理解研究向「實(shí)用化、泛化性」邁出關(guān)鍵一步。

圖片

  • 論文鏈接:https://arxiv.org/abs/2505.11015
  • 項(xiàng)目主頁:https://bytedance.github.io/WildDoc/
  • Github:https://github.com/bytedance/WildDoc

WildDoc 數(shù)據(jù)構(gòu)造與組成

WildDoc 數(shù)據(jù)包含超 1.2 萬張手動(dòng)采集的真實(shí)文檔圖像,模擬自然環(huán)境中的復(fù)雜挑戰(zhàn),并引入一致性分?jǐn)?shù)指標(biāo),量化評(píng)估模型在跨場景下的魯棒性。WildDoc 目前已開源全部 12K + 圖像與 48K + 問答對(duì),其構(gòu)造過程如下:

1、數(shù)據(jù)采集:

  • 場景多樣化:在自然環(huán)境(如戶外、室內(nèi)不同光照條件)中手動(dòng)拍攝文檔,確保覆蓋環(huán)境、光照、視角等多維度干擾因素。
  • 基準(zhǔn)對(duì)齊:復(fù)用現(xiàn)有基準(zhǔn)的電子文檔,通過物理打印后拍攝,保證與傳統(tǒng)基準(zhǔn)的可比性。

2、多條件拍攝:

  • 對(duì)同一文檔進(jìn)行四次拍攝,每次改變環(huán)境參數(shù)(如光照強(qiáng)度、拍攝角度、紙張扭曲程度),獲取各種不同效果的對(duì)比樣本。

3、標(biāo)注與驗(yàn)證:

  • 對(duì)圖像中的文本、布局等關(guān)鍵信息以及對(duì)于問題的可回答性進(jìn)行人工驗(yàn)證,確保準(zhǔn)確性。
  • 通過一致性分?jǐn)?shù)計(jì)算,評(píng)估模型在不同條件下的穩(wěn)定性,輔助篩選高質(zhì)量數(shù)據(jù)。

圖片

實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)對(duì)眾多具有代表性的 MLLMs 進(jìn)行了測試,包括通用 MLLMs(如 Qwen2.5-VL、InternVL2.5)、專注文檔理解的 MLLMs(如 Monkey、TextHarmony)和領(lǐng)先的閉源 MLLMs(如 GPT4o、Doubao-1.5-pro)。實(shí)驗(yàn)結(jié)果揭示了當(dāng)前多模態(tài)大模型在真實(shí)場景下的諸多不足。

圖片

首先,現(xiàn)有 MLLMs 在 WildDoc 上的性能相比傳統(tǒng)文檔基準(zhǔn)(如 DocVQA)測試大幅下降。例如,GPT-4o 平均準(zhǔn)確率下降 35.3,ChartQA 子集下降達(dá) 56.4;開源模型 Qwen2.5-VL-72B 平均準(zhǔn)確率 70.6,為開源最佳,但仍低于原始基準(zhǔn)約 15%。目前最優(yōu)的閉源模型為 Doubao-1.5-pro 表現(xiàn)最優(yōu)(平均準(zhǔn)確率 73.7%),但其一致性分?jǐn)?shù)僅 55.0,這也意味著它在一半多的情況下都不能在不同條件下保持準(zhǔn)確回答。這表明,當(dāng)前 MLLMs 模型在面對(duì)真實(shí)場景的變化時(shí),缺乏足夠的穩(wěn)定性和適應(yīng)性。

實(shí)驗(yàn)結(jié)果揭示了在真實(shí)世界文檔理解中 MLLMs 模型的表現(xiàn),有以下幾點(diǎn)發(fā)現(xiàn):

  • 物理扭曲最具挑戰(zhàn)性:皺紋、褶皺、彎曲等物理變形導(dǎo)致模型性能下降最顯著(如 GPT-4o 下降 34.1-34.7),遠(yuǎn)超光照(-25.9)或視角(-26.2)變化的影響。
  • 非正面視角與圖像質(zhì)量:非正面拍攝(如傾斜視角)因文本形變和模糊導(dǎo)致性能下降(Qwen2.5-VL-72B 下降 17.6),但屏幕捕獲圖像因數(shù)據(jù)增強(qiáng)算法成熟,性能下降較小(-8.3 至 - 9.1)。
  • 語言模型規(guī)模影響有限:大參數(shù)量模型(如 72B 參數(shù)的 Qwen2.5-VL)在 WildDoc 上表現(xiàn)略優(yōu),但未完全克服真實(shí)場景挑戰(zhàn),表明模型架構(gòu)需針對(duì)性優(yōu)化。

圖片

圖片

圖片

另外,一些模型在原始基準(zhǔn)測試上表現(xiàn)差異不大,甚至已經(jīng)接近飽和,但在 WildDoc 上卻出現(xiàn)了顯著的性能差異。這說明傳統(tǒng)基準(zhǔn)測試已經(jīng)難以區(qū)分模型的真實(shí)能力,而 WildDoc 則能更敏銳地捕捉到模型在真實(shí)場景下的不足。

未來之路:如何讓 MLLMs 更好地理解真實(shí)世界的文檔?

面對(duì)這些挑戰(zhàn),研究團(tuán)隊(duì)提出了幾點(diǎn)改進(jìn)策略,為未來的研究指明了方向。

  • 一是數(shù)據(jù)增強(qiáng)。通過更多的增強(qiáng)技術(shù)來模擬真實(shí)世界的條件,如變化的光照、陰影等,讓模型在訓(xùn)練中接觸到更多樣化的場景,從而提高其適應(yīng)能力。
  • 二是魯棒特征學(xué)習(xí)。讓模型學(xué)會(huì)提取對(duì)真實(shí)世界變化不敏感的特征,這樣即使文檔圖像發(fā)生了一些變化,模型也能準(zhǔn)確理解其內(nèi)容。
  • 三是真實(shí)數(shù)據(jù)引入。收集更多的真實(shí)世界文檔圖像,豐富訓(xùn)練數(shù)據(jù)集,讓模型在更多的「實(shí)戰(zhàn)」中積累經(jīng)驗(yàn),提升性能。

WildDoc 數(shù)據(jù)集有效揭示了 MLLMs 在真實(shí)文檔理解中的不足,為后續(xù)研究提供了關(guān)鍵基準(zhǔn)和優(yōu)化方向,更推動(dòng)文檔理解研究向「實(shí)用化、泛化性」邁出關(guān)鍵一步。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-06-12 11:50:23

2025-05-06 15:32:23

模型AI測試

2024-08-02 13:14:51

2023-10-14 17:24:49

2023-10-14 13:09:53

谷歌模型

2025-11-14 13:40:55

GPT-4oAI模型

2024-06-27 12:45:30

2024-06-20 10:43:15

2025-02-13 09:40:00

2024-06-18 12:54:39

2025-08-07 14:05:40

OpenAI大模型開源

2024-09-06 13:00:29

2024-06-05 13:09:26

2024-12-06 14:19:50

2025-02-18 12:30:00

2025-01-02 11:01:45

2025-07-25 09:31:34

2024-08-14 12:54:46

2024-04-01 08:00:00

AI模型
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

国产一二在线观看| 欧美大波大乳巨大乳| 伦理av在线| 91影院在线观看| 国产伦精品免费视频| 成人涩涩小片视频日本| 国产主播性色av福利精品一区| 欧美视频在线视频| 国产麻豆电影在线观看| 四虎在线视频免费观看| 青青草国产精品97视觉盛宴| 成年无码av片在线| 手机av免费看| 三级欧美日韩| 91成人免费网站| 一卡二卡三卡视频| 日本韩国在线视频爽| 99视频在线精品| 成人激情免费在线| 欧美日韩一二三四区| 你懂的亚洲视频| 亚洲天堂开心观看| 俄罗斯黄色录像| 男女啪啪999亚洲精品| 偷拍日韩校园综合在线| 四虎4hu永久免费入口| 成人免费在线视频网| www.欧美.com| 91入口在线观看| 国产精品久久777777换脸| 美女国产精品| 欧美中文在线字幕| 一级aaa毛片| 综合久久99| 中文字幕v亚洲ⅴv天堂| 丰腴饱满的极品熟妇| 精品亚洲免a| 精品国精品国产尤物美女| 一本岛在线视频| 成人片免费看| 欧美日韩久久久久| 人人妻人人添人人爽欧美一区| 老司机在线视频二区| 国产精品素人一区二区| 青青草原成人| 蜜桃视频在线观看网站| 99re热视频精品| 精品日韩美女| 天堂网av2014| 99视频精品全部免费在线| av一区二区三区免费| a毛片在线免费观看| 国产在线精品免费| 91亚洲精品一区| 国产女主播福利| 国内精品国产三级国产a久久| 国产精品亚洲欧美导航| 中文字幕久久网| 美女视频黄久久| 成人av在线亚洲| 国产麻豆一精品一男同| 国产伦精品一区二区三区免费| 亚洲a∨日韩av高清在线观看| 国产一区二区在线播放视频| 激情五月婷婷综合网| 国产日韩中文字幕| 国产日本精品视频| 国产成人亚洲综合a∨婷婷| 99热在线国产| 三级理论午夜在线观看| 国产亚洲精品aa| 亚洲国产精品久久久久婷婷老年| av电影在线观看一区二区三区| 国产精品午夜在线观看| 在线日韩日本国产亚洲| 欧美亚洲国产日本| 天天综合网入口| 日韩福利电影在线观看| 国产精品视频一| 国产www免费观看| av激情综合网| 五月天丁香综合久久国产| 欧美日本一道| 亚洲线精品一区二区三区八戒| 成人在线观看你懂的| 成人性生活视频| 欧美日韩国产另类一区| 波多野结衣三级视频| 青青一区二区| 亚洲性无码av在线| 538任你躁在线精品视频网站| 狠狠噜噜久久| 国产福利精品av综合导导航| 国产日韩欧美一区二区东京热| 97精品国产97久久久久久久久久久久| 日韩欧美在线电影| 四虎影视成人| 日本高清成人免费播放| 香蕉视频色在线观看| 亚洲黄色录像| 美女久久久久久久| 国产一级片毛片| 国产成人免费av在线| 欧美日韩国产一二| 污污的视频在线观看| 色综合天天综合色综合av| 韩国三级丰满少妇高潮| 久久av影视| 久久久久久中文字幕| 中文字幕观看视频| 91啦中文在线观看| 狠狠精品干练久久久无码中文字幕| 成人免费网站观看| 欧美精品 国产精品| 最近中文字幕无免费| 99久久亚洲精品蜜臀| 日本欧美中文字幕| 亚洲精品免费在线观看视频| 欧美国产日韩精品免费观看| 国产h视频在线播放| 国产 日韩 欧美| 中文字幕欧美在线| 成人公开免费视频| av亚洲精华国产精华精华| 成人手机视频在线| 国产91在线播放精品| 亚洲黄页网在线观看| 欧美日韩国产精品一区二区三区| 蜜乳av一区二区| 日韩一区二区三区高清| 欧美xxxhd| 亚洲成人av在线播放| 亚洲欧美一区二区三区四区五区| 麻豆精品精品国产自在97香蕉| 欧美精品一区二区三区在线看午夜 | 成人黄色大片在线观看| 精品国产三级a∨在线| 精品123区| 国产亚洲精品久久久优势| 91国产丝袜播放在线| 成人午夜又粗又硬又大| 黄色一级片国产| 人人爱人人干婷婷丁香亚洲| 最新日韩中文字幕| 中文字幕日韩第一页| 欧美激情一区二区三区四区| 国产肥臀一区二区福利视频| 久久97精品| 17婷婷久久www| 日批视频在线播放| 精品久久久久久中文字幕一区奶水| 亚洲成a人片在线www| 欧美日本不卡| 国产一区二区不卡视频在线观看| 国产精品69xx| 亚洲精品福利在线| 欧美福利视频一区二区| 99久久99精品久久久久久| 男女视频网站在线观看| 一道本一区二区三区| 国产精品99免视看9| 成人免费在线视频网| 欧美精品一卡两卡| 免费人成在线观看| 99久久久国产精品免费蜜臀| 日批视频在线免费看| 精品久久美女| 成人在线激情视频| 黄色网页网址在线免费| 日韩在线麻豆| 精品亚洲夜色av98在线观看| 亚洲影院在线播放| 国产日韩三级在线| 色呦色呦色精品| 黄色成人av网站| 欧美18视频| 色999久久久精品人人澡69| 久久在线免费观看视频| 亚洲精品一区二区三区不卡| 懂色aⅴ精品一区二区三区蜜月| 91精彩刺激对白露脸偷拍| 男人的天堂亚洲一区| 9191国产视频| 久久av免费看| 91视频网页| 欧美黑人粗大| 久久久国产精彩视频美女艺术照福利 | 99re视频| 欧美成人资源| 欧美www在线| 日本成人一区二区三区| 欧美日本国产一区| 日韩精品一区三区| 欧美高清在线视频| 亚洲图片欧美另类| 日本sm残虐另类| 亚洲高潮无码久久| 久久99视频| 国产福利久久| 国产亚洲人成a在线v网站 | 一区二区电影免费观看| 久久中文字幕在线| 欧美日韩视频精品二区| 日韩一区二区三区电影在线观看 | 日韩欧美中文字幕精品| 永久免费无码av网站在线观看| 亚洲视频一区二区在线| 亚洲一区二区三区日韩| 国产91精品久久久久久久网曝门| 一级特黄性色生活片| 亚洲二区在线| 亚洲免费视频播放| 蜜桃tv一区二区三区| av一区二区三区在线观看| 免费视频成人| 国产精品第三页| av日韩中文| 九九热精品视频| 免费日本一区二区三区视频| 日韩国产一区三区| 亚洲精品成av人片天堂无码| 欧美老女人在线| 中文字幕一区二区在线视频| 午夜精品爽啪视频| 四虎永久免费在线| 国产精品人妖ts系列视频| 人妻无码一区二区三区| 高清日韩电视剧大全免费| 911av视频| 久久www免费人成看片高清| 精品久久久久av| 国产精品呻吟| 久久黄色片视频| 亚洲福利电影| 久久精品国产sm调教网站演员| 午夜欧美精品| 色一情一乱一乱一区91| 色综合天天爱| 一区精品在线| 第一会所亚洲原创| 午夜精品亚洲一区二区三区嫩草| 无码少妇一区二区三区| 精品乱色一区二区中文字幕| 91亚洲无吗| 古典武侠综合av第一页| 国产精品成人自拍| 国产日韩一区二区三区| 国产劲爆久久| 久久久久久欧美精品色一二三四| 精品国产乱子伦一区二区| 精品一区日韩成人| 欧洲亚洲成人| 欧美精品一区二区视频| av亚洲免费| 亚洲综合网中心| 91精品国产自产在线观看永久∴| 日韩不卡一二区| 黄色在线成人| 欧美老熟妇喷水| 日韩精品色哟哟| 思思久久精品视频| 激情综合一区二区三区| 精品国产aⅴ一区二区三区东京热| 国产黄色精品视频| 亚洲乱妇老熟女爽到高潮的片| 成人动漫中文字幕| 人妻丰满熟妇aⅴ无码| 国产欧美精品一区| 538精品在线视频| 亚洲一区二区三区国产| 亚洲精品男人天堂| 欧美视频一区二| 精品国产亚洲av麻豆| 亚洲高清久久网| 黄上黄在线观看| 久久精品国产一区二区三区 | 香蕉成人伊视频在线观看| 偷偷操不一样的久久| 一二三四视频在线中文| 欧美成人合集magnet| 国产精品一区hongkong| 国产精品第七影院| 在线观看视频一区二区三区| 久久99精品久久久久久三级 | 处破女av一区二区| 性欧美13一14内谢| 亚洲欧美综合在线精品| 日本特黄特色aaa大片免费| 欧美亚洲日本一区| 理论片中文字幕| 在线视频日本亚洲性| 97caopor国产在线视频| 奇门遁甲1982国语版免费观看高清| 激情中国色综合| 久99久视频| 91精品秘密在线观看| 欧美三级一级片| 精品一区二区三区日韩| 野外性满足hd| 亚洲精品国产精华液| 久久久久久久亚洲| 精品欧美乱码久久久久久1区2区| 国内三级在线观看| 久久久久久久久爱| 日本黄色成人| 蜜桃精品久久久久久久免费影院| 一区二区在线| 成人在线看视频| 成人精品小蝌蚪| 欧美大片xxxx| 欧洲色大大久久| 亚洲 国产 欧美 日韩| 九九热r在线视频精品| 福利一区二区免费视频| 欧美日韩精品久久| 国产精品大片| 亚洲制服在线观看| 国产精品欧美精品| 天天干在线播放| 亚洲成人亚洲激情| 在线中文字幕-区二区三区四区| 国产精品久久久久久网站| 伦理一区二区三区| 成年人网站国产| 国产精品亚洲一区二区三区妖精| 国产农村妇女精品一区| 日韩欧美中文字幕在线播放| 欧美综合视频在线| 久久久久久久久久久av| 免费看日产一区二区三区| 亚洲精品国产精品国自产观看| 久久大逼视频| 中文字幕xxx| 精品久久久一区| 五月婷婷在线观看视频| 高清欧美性猛交xxxx| www.成人网| 国产尤物av一区二区三区| 国产精品自拍在线| 青青草偷拍视频| 欧美一激情一区二区三区| av毛片在线免费| 91青青草免费在线看| 午夜精品久久99蜜桃的功能介绍| 中文字幕第六页| 夜夜精品视频一区二区| 国产特级黄色片| 色久欧美在线视频观看| www.久久久久爱免| 色撸撸在线观看| 看电视剧不卡顿的网站| 国产一区二区三区视频播放| 3atv一区二区三区| 国产日产一区二区| 亚洲一区二区三区四区在线播放| 亚洲一区二区日韩| 精人妻一区二区三区| 午夜欧美视频在线观看 | 在线视频亚洲欧美| 91精品一区| 久久久久久久香蕉| 97精品久久久午夜一区二区三区 | 日本va欧美va欧美va精品| 在线视频这里只有精品| 欧美一级免费大片| av小说在线播放| 日韩电影大全在线观看| 看电视剧不卡顿的网站| 免费无遮挡无码永久在线观看视频| 日韩精品一区二区三区蜜臀 | 欧美私人啪啪vps| 女同性恋一区二区三区| 日本黄色一区二区| 中文字幕在线播放| 高清视频在线观看一区| 久久久精品性| 91视频综合网| 日韩精品视频三区| 日本成人在线网站| www.av片| 国产精品美女久久久久aⅴ国产馆| 99久久久国产精品无码免费| 91av福利视频| 99国产精品一区二区| 国产欧美视频一区| 色婷婷综合久久久久中文一区二区 | 欧美国产日韩激情| 国产肉丝袜一区二区| www.av网站| 国产成人精品一区二区| 欧美久久一区| 在线小视频你懂的| 欧美变态tickling挠脚心| 日韩电影av| 亚洲成人动漫在线| 国产肉丝袜一区二区| 国精品人妻无码一区二区三区喝尿 | 日韩一区二区三免费高清在线观看| 国产 国语对白 露脸| 国产欧美日韩在线|