精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

mPLUG-DocOwl2:新模型無需OCR,多頁文檔理解邁入新紀元 精華

發布于 2024-9-9 00:16
瀏覽
0收藏

OCR-Free多頁文檔理解的挑戰與進展

在現代信息時代,多頁文檔的自動理解和處理變得尤為重要。這些文檔可能包括書籍、報告、學術論文等,它們通常包含大量的文本、圖表和其他視覺元素。傳統的文檔理解方法依賴于光學字符識別(OCR)技術將圖像轉換為文本數據。然而,OCR過程不僅耗時,而且在處理高分辨率或多頁文檔時,容易出現錯誤,尤其是在文檔格式復雜或字體多樣的情況下。

隨著深度學習技術的發展,OCR-Free的文檔理解方法逐漸受到關注。這類方法直接從文檔圖像中提取信息,無需轉換為文本格式,從而避免了OCR過程中可能出現的錯誤。然而,這種方法面臨的主要挑戰之一是如何有效處理和理解高分辨率的多頁文檔圖像。高分辨率圖像通常意味著更多的視覺信息和更大的數據量,這對計算資源(如GPU內存)和處理速度提出了更高的要求。

為了應對這些挑戰,研究人員提出了多種策略。一種有效的策略是開發高分辨率文檔壓縮模塊,該模塊能夠將每個高分辨率文檔圖像壓縮成更少的視覺標記(tokens),同時保留布局和大部分文本信息。例如,mPLUG-DocOwl2模型采用了一種高分辨率文檔壓縮器,通過跨注意力機制,以全局低分辨率視覺特征為指導,將文檔圖像壓縮成324個視覺標記。這種方法不僅顯著減少了GPU內存的使用和推理時間,而且在多頁文檔理解基準測試中設定了新的最高標準。

mPLUG-DocOwl2:新模型無需OCR,多頁文檔理解邁入新紀元-AI.x社區

此外,為了進一步提升模型的多頁文檔理解能力,研究人員還開發了三階段訓練框架,包括單圖像預訓練、多圖像連續預訓練和多任務微調。這種訓練策略有助于模型在處理單頁和多頁文檔時都能達到較高的性能,同時保持較高的標記效率和問題回答性能的平衡。

總之,OCR-Free多頁文檔理解技術的發展為自動文檔處理領域帶來了新的進展。通過高效的圖像壓縮技術和精細的訓練策略,現代模型能夠在保持高效率的同時,提供準確的文檔內容理解,這對于信息檢索、內容管理等應用場景具有重要意義。

mPLUG-DocOwl2:新模型無需OCR,多頁文檔理解邁入新紀元-AI.x社區

論文概覽

1. 標題
MPLUG-DOCOWL2: HIGH-RESOLUTION COMPRESSING FOR OCR-FREE MULTI-PAGE DOCUMENT UNDERSTANDING

2. 作者
Anwen Hu1, Haiyang Xu1*, Ji Zhang1, Qin Jin2, Liang Zhang2, Fei Huang1, Jiabo Ye1, Jingren Zhou1, Ming Yan1*

3. 機構

  1. Alibaba Group
  2. Renmin University of China

4. 鏈接
???https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl2??

高分辨率文檔圖像的挑戰

在處理高分辨率文檔圖像時,多模態大型語言模型(MLLMs)面臨著一系列挑戰。隨著文檔圖像分辨率的提高,模型需要生成數千個視覺令牌來理解單一文檔圖像,這不僅增加了GPU內存的消耗,也導致了推理速度的降低,特別是在多頁文檔理解的場景中。

1. 視覺令牌的過多生成

高分辨率圖像處理通常會產生大量的視覺令牌。例如,InternVL 2模型在單頁文檔理解基準測試中平均需要約3000個視覺令牌。這種大量的視覺令牌不僅導致長時間的推理延遲,還占用了大量的GPU內存,從而限制了模型在完整文檔或視頻理解方面的應用。

2. 壓縮視覺特征的挑戰

為了解決視覺令牌過多的問題,研究者們嘗試了多種壓縮方法。然而,現有的壓縮架構往往難以在保留信息和提高令牌效率之間取得平衡。例如,獨立壓縮文檔圖像的每個部分可以減少每個子圖像的視覺令牌數量,但在所有子圖像連接后,總的視覺令牌數量仍然很長。此外,使用可學習的查詢或選定的令牌作為壓縮指導可能會忽略整體布局信息,這對于文檔圖像的視覺特征壓縮至關重要。

3. 布局感知的壓縮架構

為了更有效地壓縮文檔圖像中的視覺特征,本研究提出了一種布局感知的壓縮架構——高分辨率DocCompressor。這種架構利用全局低分辨率圖像的視覺特征作為壓縮指導,通過交叉注意力機制將高分辨率文檔圖像壓縮為更少的令牌,同時保留了布局和大部分文本信息。具體來說,每個來自全局特征圖的查詢在注意力機制中只關注原始高分辨率圖像中相對位置相同的一組高分辨率特征,從而在壓縮過程中減少計算復雜性并保留重要的文本語義。

通過這種方法,我們的模型DocOwl2在多頁文檔理解基準測試中設定了新的最高標準,并且在首個令牌延遲方面實現了超過50%的減少,展示了在多頁問答、證據頁解釋和跨頁結構理解方面的先進能力。此外,與在類似數據上訓練的單圖像MLLMs相比,DocOwl2在使用的視覺令牌數量上減少了超過80%,同時保持了可比的單頁文檔理解性能。

DocOwl2模型架構解析

DocOwl2模型是為了解決多頁文檔理解中的挑戰而設計的,特別是在處理高分辨率文檔圖像時,傳統的多模態大型語言模型(MLLMs)往往需要生成大量的視覺令牌,這不僅消耗大量GPU內存,還會導致推理速度變慢。為了優化這一過程,DocOwl2采用了一種高效的壓縮模塊,即高分辨率DocCompressor,以及一個三階段的訓練框架,包括單圖像預訓練、多圖像連續預訓練和多任務微調。

mPLUG-DocOwl2:新模型無需OCR,多頁文檔理解邁入新紀元-AI.x社區

1. 高分辨率DocCompressor壓縮模塊

高分辨率DocCompressor是DocOwl2中的核心組件,它能夠將每個高分辨率文檔圖像壓縮成324個令牌。這一壓縮是通過低分辨率的全局視覺特征來引導的,這些全局視覺特征能夠捕捉到文檔的整體布局信息。具體來說,DocCompressor使用跨注意力機制,將高分辨率特征映射到較少的令牌上,同時保留布局和大部分文本信息。

2. 三階段訓練框架

為了充分發揮DocOwl2模型在多頁文檔理解上的能力,開發團隊設計了一個三階段的訓練框架:

  • 單圖像預訓練:在這一階段,模型首先在單頁文檔圖像上進行預訓練,學習如何有效地壓縮視覺特征并保留重要的文本信息。
  • 多圖像連續預訓練:隨后,模型在多頁文檔圖像上進行預訓練,這有助于模型學習如何處理和理解多個相關聯的圖像。
  • 多任務微調:最后,通過在具體的多頁文檔理解任務上進行微調,進一步優化模型的性能,使其能夠更好地應對實際應用中的挑戰。

通過這種方法,DocOwl2不僅顯著提高了處理速度,減少了GPU內存的使用,還在多頁文檔理解基準測試中達到了新的最佳性能。此外,與類似數據訓練的單圖像MLLMs相比,DocOwl2在單頁理解性能上也表現出色,但使用的視覺令牌數量不到20%。

實驗設計與基準測試

在進行多頁文檔理解的研究中,我們設計了一種高分辨率文檔壓縮模塊(High-resolution DocCompressor),旨在通過低分辨率全局視覺特征的引導,將每個高分辨率文檔圖像壓縮為324個視覺標記。這種方法不僅提高了處理速度,而且顯著減少了GPU內存的使用。

1. 壓縮模塊的設計

我們提出的高分辨率DocCompressor模塊基于交叉注意力機制,利用全局低分辨率圖像捕獲的布局信息作為壓縮指導。這種布局感知的壓縮對于文檔圖像非常重要,因為文檔中的文本通常在布局區域內語義連貫,更易于概括。例如,在一個雙欄的論文中,屬于“相關工作”部分的文本與同一行但屬于“方法”部分的文本難以概括在一起。

2. 訓練框架

為了充分利用這種壓縮方法,我們開發了DocOwl2模型,并在三階段訓練框架下進行訓練:單圖像預訓練、多圖像連續預訓練和多任務微調。這種訓練策略旨在平衡標記效率和問答性能,從而加強多頁文檔理解能力。

3. 基準測試

我們在單頁和多頁文檔理解基準測試中對DocOwl2進行了測試。結果顯示,DocOwl2在多頁文檔理解任務中設定了新的最先進水平,并且在首個標記延遲方面實現了超過50%的減少,證明了其在多頁問答、帶證據頁的解釋以及跨頁結構理解方面的先進能力。此外,與在類似數據上訓練的單圖像MLLMs相比,我們的DocOwl2在單頁理解性能上具有可比性,但視覺標記數量減少了80%以上。

mPLUG-DocOwl2:新模型無需OCR,多頁文檔理解邁入新紀元-AI.x社區

mPLUG-DocOwl2:新模型無需OCR,多頁文檔理解邁入新紀元-AI.x社區

通過這些實驗和基準測試,我們驗證了高分辨率DocCompressor在壓縮視覺特征和保持文檔圖像文本語義方面的有效性,以及三階段訓練框架在提升單頁和多頁文檔理解性能方面的優勢。

mPLUG-DocOwl2:新模型無需OCR,多頁文檔理解邁入新紀元-AI.x社區

模型性能分析與討論

1. 性能概述

DocOwl2模型在多頁文檔理解方面設定了新的行業標準。通過引入高分辨率DocCompressor模塊,該模型能夠將每個高分辨率文檔圖像壓縮為324個視覺令牌,同時保留了布局和大部分文本信息。這種壓縮顯著提高了模型在多頁文檔理解任務中的效率,減少了首個令牌的延遲時間超過50%,并且與單頁文檔理解性能相當,僅使用不到20%的視覺令牌。

2. 性能對比

與其他多模態大型語言模型(MLLMs)相比,DocOwl2在單頁和多頁文檔理解基準測試中均展現出優越性能。尤其是在處理高分辨率圖像時,DocOwl2通過有效減少視覺令牌的數量,能夠在保持高性能的同時,顯著減少GPU內存的使用和推理時間。例如,在DocVQA基準測試中,DocOwl2的表現與使用更多視覺令牌的模型相當,但其首個令牌延遲(First Token Latency)顯著更低。

3. 訓練與優化

DocOwl2的訓練過程包括單圖像預訓練、多圖像連續預訓練和多任務微調三個階段。這種三階段訓練框架的設計旨在平衡令牌效率和問題回答性能。通過在多圖像理解任務中引入結構感知的多頁文檔解析數據集,模型能夠更好地理解和關聯多個圖像之間的內容,從而提高了在復雜文檔理解任務中的表現。

4. 應用場景與前景

DocOwl2模型不僅在學術界引起了重視,其在工業界的應用前景也非常廣泛。從法律文件的自動解析到醫療記錄的信息提取,再到新聞視頻的內容理解,DocOwl2的高效、準確的多頁文檔理解能力都是極具價值的。此外,模型的開源性質也為廣大研究人員和開發者提供了進一步探索和優化的可能。

通過這些詳細的性能分析和討論,我們可以看到DocOwl2模型在OCR-free多頁文檔理解領域的重要進展和潛力。未來的研究可以進一步探索如何優化模型結構和訓練策略,以適應更多樣化的應用場景。

本文轉載自 ??AI論文解讀??,作者:柏企

收藏
回復
舉報
回復
相關推薦
国产成人一级电影| 亚洲欧美偷拍自拍| 欧美日韩精品一区二区三区蜜桃| 天天人人精品| 亚洲精品国产精| 香蕉成人久久| 中文字幕欧美日韩| 91传媒理伦片在线观看| 四虎影视4hu4虎成人| 亚洲精选在线视频| 日韩欧美亚洲精品| 亚洲av无码一区二区三区dv| 久久久久久网| 久久久久久国产精品久久| 日本理论中文字幕| 国产成人在线中文字幕| 欧美日韩一区成人| 欧美性大战久久久久xxx | 欧美a∨亚洲欧美亚洲| 四季av在线一区二区三区| 亚洲韩国日本中文字幕| 日韩va在线观看| 欧美亚洲大片| 激情av一区二区| 免费国产成人看片在线| 国产小视频在线观看| 国产成人在线观看免费网站| 国产欧美日韩专区发布| 天天干天天干天天干天天| 欧美精品入口| www国产精品com| 我不卡一区二区| 日韩中出av| 亚洲国产高清高潮精品美女| 亚洲 自拍 另类 欧美 丝袜| www.一区| 精品视频一区三区九区| 午夜精品久久久内射近拍高清| 国精一区二区三区| 玉足女爽爽91| 久久久天堂国产精品| 成人区精品一区二区不卡| 亚洲国产高清不卡| 亚洲春色在线视频| 波多野结衣一区二区| 久久久久久一级片| 青青草原亚洲| 国产九九在线| 欧美极品aⅴ影院| 色婷婷精品国产一区二区三区| 久久天堂电影| 欧美激情一二三区| 亚洲一二三区在线| 麻豆网站视频在线观看| 亚洲素人一区二区| 国产免费xxx| 99热国产在线| 一区二区久久久久久| 隔壁人妻偷人bd中字| 国内在线免费视频| 精品欧美激情精品一区| 欧美污视频网站| 香蕉久久免费电影| 欧美日韩一区二区电影| 中文字幕第22页| 一区中文字幕| 亚洲精品电影在线| 99久久久无码国产精品性| 精品国产网站| 久久偷看各类女兵18女厕嘘嘘| 婷婷久久综合网| 精品动漫3d一区二区三区免费| 午夜欧美大片免费观看| 少妇高潮av久久久久久| 免费高清不卡av| 99精品99久久久久久宅男| 免费观看国产精品| 久久夜色精品国产欧美乱极品| 亚洲 国产 日韩 综合一区| a篇片在线观看网站| 亚洲国产视频直播| 国产中文字幕免费观看| 免费日韩电影| 欧美一区二区三区在线看| 人妖粗暴刺激videos呻吟| 夜夜躁狠狠躁日日躁2021日韩| 国产亚洲欧美日韩美女| 欧产日产国产v| 性xx色xx综合久久久xx| 91九色在线视频| 特黄视频在线观看| 国产精品短视频| 免费在线a视频| 日本一区二区三区中文字幕| 精品国产乱码久久| 手机毛片在线观看| 欧美三级视频| 国产精品久久久久久久久久ktv | 国产丝袜一区视频在线观看 | 日本人妻熟妇久久久久久| 久久精品在线免费观看| 中文字幕人妻熟女人妻洋洋| 国产综合av| 精品美女一区二区| 国产一二三四视频| 黄色亚洲大片免费在线观看| 国产精品777| 国精产品一品二品国精品69xx| 国产亚洲一二三区| 97中文字幕在线| 黄色欧美视频| 亚洲美女在线视频| 久久久久久久久久久久久久久久久| 久久亚洲欧美| 51国偷自产一区二区三区的来源| 北条麻妃在线| 一本久久a久久免费精品不卡| 色欲无码人妻久久精品| 成人在线免费小视频| 91精品国产91久久久久久吃药| 一二区在线观看| 国产欧美精品国产国产专区| 日本少妇高潮喷水视频| 亚洲精品不卡在线观看| 久久av在线播放| 亚洲一级片免费看| 国产三级一区二区| 白嫩少妇丰满一区二区| 欧美福利在线播放网址导航| 欧美极品美女视频网站在线观看免费 | 亚洲国产日韩综合久久精品| 老司机久久精品| 日韩欧美高清| 国产精品网站视频| 超碰97在线免费观看| 色诱视频网站一区| 51调教丨国产调教视频| 国产欧美综合一区二区三区| 国产乱人伦精品一区二区| 在线观看wwwxxxx| 欧美一区二区三区喷汁尤物| 精品国产精品国产精品| 国产美女一区二区| 国产又大又长又粗又黄| 欧美视频免费看| 综合av色偷偷网| 亚洲无码久久久久| 亚洲欧美另类久久久精品| 在线一区二区不卡| 欧美在线不卡| 成人黄色在线免费观看| 丰满大乳少妇在线观看网站| 日韩你懂的在线观看| 久久亚洲国产成人精品性色| 成人丝袜视频网| 男人插女人视频在线观看| 电影一区二区在线观看| 欧美野外猛男的大粗鳮| 九九九伊在人线综合| 91激情在线视频| 日韩一区二区三区三四区视频在线观看| 日韩黄色片在线| 久久精品色综合| 日本高清不卡在线| 137大胆人体在线观看| 欧美日韩精品欧美日韩精品一 | 天天色综合社区| 97色伦图片97综合影院| 91亚洲精华国产精华| 欧美人与牲禽动交com| 精品成人私密视频| 人人草在线观看| 中文字幕中文字幕一区| 日本wwww色| 性久久久久久| 欧美日韩在线免费观看视频| 91大神精品| 奇米四色中文综合久久| 免费在线观看黄| 亚洲精品一区在线观看| 欧美a视频在线观看| 中文字幕视频一区二区三区久| 女女调教被c哭捆绑喷水百合| 亚洲美女网站| 亚洲一区高清| 超碰成人在线免费| 国产精品入口免费视| 污视频免费在线观看| 日韩精品免费在线视频观看| 亚洲综合网av| 精品福利在线视频| 糖心vlog免费在线观看| 91蜜桃在线观看| 国产永久免费网站| 国产亚洲一级| 国内外成人激情免费视频| 亚洲免费成人av在线| 91精品免费视频| gay欧美网站| 欧美成年人在线观看| 狠狠v欧美ⅴ日韩v亚洲v大胸 | 日本少妇一级片| 日本少妇一区二区| av在线播放亚洲| 亚洲一区 二区 三区| 日韩啊v在线| 粉嫩久久久久久久极品| 国产欧美日韩免费看aⅴ视频| 成av人片在线观看www| 久久天天躁狠狠躁夜夜躁2014| 欧美日韩免费做爰大片| 欧美不卡在线视频| 亚洲一区二区人妻| 91官网在线观看| 黄色激情视频在线观看| 日韩美女啊v在线免费观看| 91成年人网站| 91亚洲永久精品| 无码人妻一区二区三区精品视频| 蜜桃av一区二区在线观看| 久久人妻精品白浆国产| 一区二区三区福利| 97中文字幕在线| 午夜国产精品视频| 手机在线视频你懂的| 成人在线丰满少妇av| 欧美日韩国产三区| 欧美三级午夜理伦三级在线观看| 欧美精选在线播放| 亚洲国产精品毛片av不卡在线| 在线日韩欧美| 2019日韩中文字幕mv| 欧美特黄a级高清免费大片a级| 中文字幕一区二区三区有限公司 | 成人在线观看毛片| 999久久久精品国产| 色女孩综合网| 欧美丝袜一区| 翔田千里亚洲一二三区| 第一会所sis001亚洲| 日韩欧美第二区在线观看| 精品国产一区二区三区不卡蜜臂 | 婷婷激情四射五月天| 久久精品人人| 一本久道中文无码字幕av| 久久婷婷亚洲| 亚洲成色www.777999| 日韩电影在线一区二区三区| 天天干天天干天天干天天干天天干| 石原莉奈一区二区三区在线观看| 大香煮伊手机一区| 日韩精品一级二级| 污色网站在线观看| 久久97超碰色| 熟妇女人妻丰满少妇中文字幕 | 超碰97人人干| 久久久久久久久99精品| 免费看日本黄色片| 亚洲视频免费看| 久久精品99久久久久久| 亚洲无人区一区| 四虎精品永久在线| 欧美午夜精品久久久久久孕妇 | 麻豆免费精品视频| 伊人色在线观看| 国产99久久久国产精品潘金网站| www.17c.com喷水少妇| 91一区二区在线| 妖精视频在线观看免费| 亚洲女爱视频在线| 国产一级在线观看视频| 色成年激情久久综合| 国产又黄又粗又猛又爽| 精品欧美乱码久久久久久| 日韩精品视频无播放器在线看 | 国产一区二区三区国产| 9.1在线观看免费| 久久久久久免费网| 亚洲区一区二区三| 亚洲成人av资源| 中文在线观看免费高清| 日韩一区二区不卡| 日本私人网站在线观看| 色一情一乱一区二区| 成人在线高清免费| 国产精品白丝jk喷水视频一区| 国产成年精品| 免费日韩av电影| 性欧美69xoxoxoxo| 亚洲自偷自拍熟女另类| 美日韩一级片在线观看| youjizz.com国产| 国产精品天天看| 日本少妇xxxx动漫| 欧美裸体一区二区三区| 亚洲日本中文字幕在线| 麻豆成人在线看| 蜜桃视频成人m3u8| 国产在线一区二区三区播放| 999久久久精品国产| 日韩精品视频久久| 国产精品资源在线观看| 黄色片网站免费| 午夜精品久久久久久久蜜桃app| 一本到在线视频| 亚洲男子天堂网| 丁香花电影在线观看完整版| 91免费版网站入口| 欧美日韩播放| 波多野结衣之无限发射| 国产乱人伦精品一区二区在线观看| 黄色aaa视频| 亚洲成人免费电影| av加勒比在线| 北条麻妃在线一区二区| 欧美黄色三级| 麻豆av一区二区| 亚洲国产裸拍裸体视频在线观看乱了中文| 色噜噜狠狠一区二区三区狼国成人| wwww国产精品欧美| 国产午夜小视频| 日韩精品中文字幕在线一区| 秋霞午夜在线观看| 国产精品高潮呻吟久久av野狼| 亚洲第一论坛sis| 国产h视频在线播放| k8久久久一区二区三区| 妺妺窝人体色www婷婷| 欧美一区二区三区电影| 嫩草香蕉在线91一二三区| 国产精品久久久久av| 久久av导航| 欧美精品色婷婷五月综合| 成人av在线资源网站| 精品无码久久久久久久| 日韩欧美久久久| 怡红院红怡院欧美aⅴ怡春院| 91免费综合在线| 中文字幕人成人乱码| 这里精品视频免费| 九九热视频在线观看| 日韩av成人在线| 一本色道久久综合狠狠躁的番外| 91av资源网| 久久夜色精品一区| 丰满少妇xoxoxo视频| 亚洲美女av在线| 自拍偷自拍亚洲精品被多人伦好爽 | 精品无码国产一区二区三区av| 国产精品456| 九热这里只有精品| 日韩av在线直播| 手机看片久久| 午夜精品视频在线观看一区二区| 日韩vs国产vs欧美| 午夜精品久久久久99蜜桃最新版 | 精品国产一区二区三区麻豆小说| 欧美精品1区| 中文字幕人妻一区| 精品久久久久国产| 青青草观看免费视频在线| 国产z一区二区三区| 欧美www视频在线观看| 亚洲黄色片免费看| 一区二区在线免费观看| 日本久久一级片| 日产精品99久久久久久| 日本久久综合| 成人亚洲免费视频| 亚洲午夜电影网| 可以免费看污视频的网站在线| 国产精品日韩电影| 午夜日本精品| 麻豆精品免费视频| 欧美精品久久久久久久久老牛影院| av文字幕在线观看| 国产精品一区二区三区观看| 噜噜噜在线观看免费视频日韩| 国产传媒在线看| 日韩欧美一区二区在线视频| 蜜桃视频m3u8在线观看| 亚洲欧美成人一区| 成人午夜大片免费观看| 亚洲av无码不卡| 久久国产精品视频| 蜜臀91精品国产高清在线观看| 不卡的在线视频| 欧美视频免费在线| av官网在线播放| 日韩av在线一区二区三区| 国产 日韩 欧美大片| 最新中文字幕在线观看视频| 久热精品视频在线观看一区| 日韩av三区| 男生和女生一起差差差视频| 日韩欧美在线免费观看| 日本动漫理论片在线观看网站| 日韩精彩视频| 成人动漫视频在线| 一级aaaa毛片|