精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

十大PDF解析工具在不同文檔類別中的比較研究 原創

發布于 2025-4-7 06:31
瀏覽
0收藏

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區十大PDF解析工具總結

PDF解析對于包括文檔分類、信息提取和檢索在內的多種自然語言處理任務至關重要,尤其是RAG的背景下。盡管存在各種PDF解析工具,但它們在不同文檔類型中的有效性仍缺乏充分研究,尤其是超出學術文檔范疇。通過使用DocLayNet數據集,比較10款流行的PDF解析工具在6種文檔類別中的表現,以填補這一空白。這些工具包括PyPDF、pdfminer.six、PyMuPDF、pdfplumber、pypdflum2、Unstructured、Tabula、Camelot以及基于深度學習的工具Nougat和Table Transformer(TATR)。

對于基于深度學習的相關技術方法,筆者在前期介紹了完整的技術鏈路,可以參考《??文檔智能專欄(點擊跳轉)??》

對于對pdf解析質量要求不高并且要求速度比較快的場景,基于規則引擎的相關pdf parser工具可以依舊滿足相關業務場景,那么該如何選擇pdf解析工具呢?

pdf解析的挑戰

  • 復雜性:PDF解析面臨多個挑戰,包括單詞識別、詞序保持、段落完整性以及表格提取等。這些挑戰要求解析工具能夠準確地識別和處理文檔中的各種元素。
  • 技術需求:PDF解析方法可以分為基于規則的方法和基于深度學習的方法。基于規則的方法通常在計算效率和部署速度上具有優勢,而基于學習的方法在處理復雜文檔時表現出色。

本文通過比較10種流行的PDF解析工具在6種不同文檔類別上的表現,提供對工具性能的全面評估。供參考。

評估方法

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區

常見公開評測數據集

評測數據集

DocLayNet 是一個包含約80,000個文檔頁面的大型數據集,文檔被標注為11種不同的元素(如腳注、公式、列表項、頁腳、頁眉、圖片、節頭、表格、文本和標題)。這些文檔分為六個不同的類別:財務報告、手冊、科學文章、法律法規、專利和政府招標。

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區

類別分布情況

文檔主要用英語標注(95%),少量用德語(2.5%)、法語(1%)和日語(1%)。為了確保標注的高質量和可靠性,大約7,059個文檔進行了雙重標注,1,591個文檔進行了三重標注。

評估指標

并使用多種評估指標進行比較,包括F1分數、BLEU分數和局部對齊分數。

在文檔中,評估策略特別關注于文本提取的質量,尤其是當涉及到復雜的文檔結構和內容時。以下是如何結合具體的公式和評估指標來詳細講解評估策略:

文本提取的評估策略

1.Levenshtein 相似性

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區

2.F1 分數

3.BLEU 分數

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區

4.局部對齊分數

局部對齊分數用于評估文本提取的整體質量,特別是在處理復雜布局和段落結構時。局部對齊通過尋找兩個字符串中最相似的子串來實現,使用匹配得分、不匹配和間隙懲罰來計算相似性。

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區

表格檢測評價指標

使用交并比(IoU)來比較解析器提取的表格與GT表格的相似性。如果解析器不提供邊界框信息,則使用Jaccard系數計算檢測的精確度和召回率。

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區

評測工具

工具名稱

功能

技術

輸出格式

特點

PyPDF

提取文本、圖像和元數據

基于規則 (RB)

TXT

成熟的純 Python 庫,處理多種 PDF 操作

pdfminer.six

提取文本、圖像、目錄、字體大小

基于規則

TXT、HTML、hOCR、JPG

多功能,支持 CJK 語言和垂直書寫

PDFPlumber

提取文本和表格

基于規則 (基于 pdfminer)

TXT、HTML、hOCR、JPG

提供可視化調試工具,提取過程便捷

PyMuPDF

提取文本、表格和圖像

基于規則 (MuPDF),可選 OCR

TXT、HTML、SVG、JSON

Python 綁定,處理復雜文檔布局

pypdfium2

提取文本

基于規則

TXT

輕量級庫,專注文本提取

Unstructured

預處理和攝取圖像及文本文檔

基于規則,支持 OCR

TXT

支持元素級文本和表格提取

Tabula

提取表格

基于規則

DataFrame、CSV、JSON

Python 包裝器,使用 tabula-java

Camelot

提取表格

基于規則

DataFrame、CSV、JSON、HTML

靈活配置,支持流模式和格子模式

Nougat

提取文本

基于 Transformer

Markdown

深度學習模型,專為學術文檔訓練

Table Transformer (TATR)

檢測表格

基于 Transformer

圖像

對象檢測模型,訓練于 PubTables-1M 等

評測結論

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區

6中文檔類別中對PDF解析庫進行了全面比較

  • 文本提取結論 在財務、招標、法律法規和手冊類別中,大多數工具表現較好,PyMuPDF和pypdfium在這些類別中表現尤為突出。在科學和專利類別中,所有工具的表現均有所下降。PyMuPDF和pypdfium在專利類別中表現相對較好,但科學類別仍然是一個挑戰。Nougat作為一個基于視覺變換器的模型,在科學文檔的文本提取中表現出色。Nougat在科學文檔中表現優于所有基于規則的工具。

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區

十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區


  • 表格檢測結論 評估了四種基于規則的PDF表格提取工具(Camelot、pdfplumber、PyMuPDF、Tabula)和一個基于Transformer的模型(TATR)在表格檢測任務中的表現。規則工具在特定文檔類型中表現良好,但在其他類別中表現不佳。Camelot在政府招標類別中表現最佳,Tabula在手冊、科學和專利類別中表現較好。TATR在所有類別中表現出較高的召回率和一致性。在科學、財務和招標類別中,TATR的召回率較高,顯示出其在處理復雜表格結構時的優勢。
  • 十大PDF解析工具在不同文檔類別中的比較研究-AI.x社區

總結

其實,全文看下來,這個評測的粒度還是比較粗的,但是其中的對于基于規則的pdf parser工具結論還是值得看一看的。在具體的業務場景中,選擇合適的解析工具需要考慮文檔類型和具體任務的需求。

參考文獻:A Comparative Study of PDF Parsing Tools Across Diverse Document Categories,https://arxiv.org/pdf/2410.09871v2


公眾號大模型自然語言處理  作者:余俊暉

原文鏈接:??https://mp.weixin.qq.com/s/5mItOr1bBD7CIb-5k2kB6A??


?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-4-7 06:31:37修改
收藏
回復
舉報
回復
相關推薦
黄色成人av网站| www.久久久久爱免| 久久久国产午夜精品| 国产精品高清在线观看| 国产真人做爰视频免费| 日韩电影精品| 亚洲成人一区在线| 欧美一级爽aaaaa大片| 91麻豆国产在线| 一区在线视频| 一本一本久久a久久精品综合小说 一本一本久久a久久精品牛牛影视 | 国偷自拍第113页| 欧美男gay| 欧美一区二区三区成人| 国产极品尤物在线| 中文字幕日本在线| 国产成人精品亚洲777人妖| 57pao精品| 国产这里有精品| 精品成av人一区二区三区| 777奇米成人网| www.成年人视频| www视频在线观看免费| 国产传媒一区在线| 青青久久av北条麻妃海外网| 波多野结衣爱爱视频| 国产成人精品三级高清久久91| 欧美一区二区视频在线观看| 妺妺窝人体色www在线观看| 久久免费电影| 国产精品的网站| 日韩av不卡播放| 日韩在线观看视频一区二区三区| 麻豆成人免费电影| 日本老师69xxx| 日韩精品视频免费播放| 中文字幕一区二区av | 成人直播在线| 国产精品污污网站在线观看| 久久综合中文色婷婷| 亚洲av综合色区无码一二三区| 日本在线不卡视频| 欧美性做爰毛片| 日韩激情在线播放| 欧美日韩精品一本二本三本| 色av吧综合网| 天堂在线中文视频| 神马久久一区二区三区| 亚洲黄色片网站| xfplay5566色资源网站| 天堂av一区| 欧美一区日韩一区| 天天av天天操| av在线国产精品| 51久久夜色精品国产麻豆| 午夜激情在线观看视频| 亚洲www免费| 色综合天天综合| 欧美极品欧美精品欧美图片| 欧美少妇网站| 欧美视频在线观看免费网址| 免费黄色日本网站| 亚洲精品永久免费视频| 狠狠躁夜夜躁人人爽超碰91| 人妻少妇精品无码专区二区| 成人免费图片免费观看| 无吗不卡中文字幕| 成人免费观看cn| 伊人网在线播放| 91国偷自产一区二区三区成为亚洲经典 | 成人福利在线视频| 中国一级片黄色一级片黄| 日韩精品电影一区亚洲| 国产精品美腿一区在线看| 久久精品国产亚洲av麻豆蜜芽| 免费欧美在线视频| 91免费福利视频| 亚洲精品第五页| 91免费国产在线观看| 欧美成人第一区| av男人的天堂在线| 亚洲乱码日产精品bd| 国产精品69久久久| 亚洲天堂手机| 欧美日本在线视频| 国产成人av片| 久久99国内| 久久久国产影院| 国产主播在线观看| 天堂成人国产精品一区| 国产在线观看精品一区二区三区| 精品黑人一区二区三区在线观看| 北岛玲一区二区三区四区 | 四虎成人精品永久免费av九九| 久久精品国产69国产精品亚洲| 精国产品一区二区三区a片| 99热这里只有精品8| 国产精品xxxxx| www.com欧美| 国产婷婷一区二区| 日本免费黄色小视频| 久草免费在线视频| 欧美日韩国产三级| 在线免费看黄色片| 日韩精品永久网址| 国内精品久久久久影院 日本资源| 亚洲精品成人在线视频| 韩日精品视频一区| 蜜桃麻豆91| 色婷婷在线播放| 在线观看www91| 美女露出粉嫩尿囗让男人桶| 精品久久久久久久久久久下田| 欧美精品一区三区| 免费av中文字幕| 成人国产精品视频| 中文一区一区三区免费| а√天堂资源官网在线资源| 欧美高清性hdvideosex| 人妻丰满熟妇aⅴ无码| 91精品99| 国产精品都在这里| 亚洲av成人精品毛片| 亚洲码国产岛国毛片在线| 国产视频在线视频| 三级精品视频| 久久久欧美一区二区| 国产麻豆精品一区| 国产精品私人自拍| 六月丁香婷婷在线| 极品国产人妖chinesets亚洲人妖 激情亚洲另类图片区小说区 | 天天色综合色| 日本欧美精品在线| 无码精品黑人一区二区三区| 一区二区三区四区在线免费观看 | 99视频在线精品| japanese在线播放| 欧美亚洲综合视频| 一区二区中文字幕| 五月婷婷六月婷婷| 2024国产精品| 日本成年人网址| 欧美理伦片在线播放| 欧美精品在线极品| 国产青青草视频| 亚洲视频一区二区在线| 亚洲视频第二页| 郴州新闻综合频道在线直播| 日本韩国欧美精品大片卡二| 亚洲欧美综合在线观看| 亚洲成人动漫一区| 国产精品久久久久久亚洲色| 黑丝一区二区三区| 国产精品国产精品国产专区不卡| 五月花成人网| 日韩欧美不卡在线观看视频| 亚洲国产精品免费在线观看| 国产99精品国产| 日本五级黄色片| heyzo欧美激情| 性欧美xxxx视频在线观看| 亚洲精品一区二区口爆| 亚洲国产精品人人做人人爽| 国产精品手机在线观看| 99精品国产一区二区青青牛奶| 精品午夜一区二区三区| 625成人欧美午夜电影| 亚洲欧美制服另类日韩| 无码一区二区三区| 国产精品久久综合| 污污视频在线免费| 禁久久精品乱码| 快播日韩欧美| a成人v在线| 欧美成人免费小视频| 蜜桃视频久久一区免费观看入口| 五月天丁香久久| japanese中文字幕| 久久精品国产99国产| 一本大道东京热无码aⅴ| 波多野结衣在线一区二区| 57pao成人国产永久免费| 国产视频网站在线| 91精品国产综合久久小美女| 精品一区在线视频| 国产亚洲综合在线| 中文 日韩 欧美| 99亚洲视频| 亚洲一区二区三区四区中文| 中文字幕久久精品一区二区| 91成人福利在线| 免费a级人成a大片在线观看| 亚洲二区在线播放视频| 亚洲天堂五月天| 亚洲精品福利视频网站| 日本黄色特级片| 激情综合色播激情啊| 久草热视频在线观看| 日韩一区电影| 国产美女99p| 深夜福利亚洲| 91高清在线免费观看| av资源种子在线观看| 精品国产1区二区| 中文字字幕在线中文乱码| 亚洲福利视频一区二区| 美女网站视频色| 久久综合久久久久88| 一级 黄 色 片一| 久久xxxx| 国产不卡一区二区视频| 久久高清免费| 久久偷窥视频| 99re8这里有精品热视频免费| 国产精品爱久久久久久久| 免费网站在线观看人| 少妇av一区二区三区| 青青草免费观看免费视频在线| 欧美一区二区三级| 伊人网av在线| 色乱码一区二区三区88| 国产在线一区视频| 亚洲欧美日本韩国| 国产精品久久久视频| 92国产精品观看| 肉丝美足丝袜一区二区三区四| 美洲天堂一区二卡三卡四卡视频| 黄在线观看网站| 一区在线视频观看| 麻豆传媒网站在线观看| 久久密一区二区三区| 日本免费高清不卡| 天堂成人娱乐在线视频免费播放网站| 91九色偷拍| 成人豆花视频| 国产自产女人91一区在线观看| 久久久一本精品| 欧洲成人免费视频| 女人高潮被爽到呻吟在线观看 | 正在播放亚洲| 欧美日韩激情在线一区二区三区| 久久国产一区| 日本妇女一区| 久久精品国产第一区二区三区最新章节 | 在线成人免费视频| 一级二级三级视频| 精品污污网站免费看| 精品国产www| 欧美日韩一区二区三区视频| 中国老头性行为xxxx| 欧美日韩亚洲国产综合| 中文永久免费观看| 欧美日韩亚洲丝袜制服| 国产又大又粗又硬| 欧美一区二区免费观在线| 国产精品欧美激情在线| 欧美一区二区三区思思人| 国产乱码精品一区二三区蜜臂 | 女人天堂在线| 国产视频精品va久久久久久| 青青草超碰在线| 一区二区成人精品| 人人干在线视频| 欧美精品在线免费| 国产丝袜在线观看视频| 国内免费精品永久在线视频| 欧美伦理91| 国产精品久久色| 96视频在线观看欧美| 114国产精品久久免费观看| 91大神精品| 欧美成ee人免费视频| 色综合久久网| 福利视频免费在线观看| 一区二区毛片| 一路向西2在线观看| 极品少妇一区二区| 美女扒开腿免费视频| 26uuu久久天堂性欧美| 日本美女xxx| 亚洲精品福利视频网站| 免费观看成人毛片| 欧美日韩五月天| 性做久久久久久久| 亚洲欧美激情一区| 蜜桃av在线免费观看| 久久久久久国产精品| 亚洲欧美一区二区三区| 国产精品wwww| 高清欧美性猛交xxxx黑人猛| 日本在线观看一区二区三区| 欧美a级片网站| 久久久999视频| 国产中文字幕精品| 国产精品无码午夜福利| 亚洲欧洲精品一区二区三区不卡 | 色素色在线综合| 国产欧美第一页| 日韩精品在线视频美女| 免费网站成人| 欧美自拍视频在线| 成人自拍视频| 欧洲亚洲一区二区| 欧美fxxxxxx另类| 亚洲性生活网站| 成人动漫一区二区三区| 特黄一区二区三区| 欧美日韩在线视频首页| 国产成人精品毛片| 中日韩美女免费视频网站在线观看 | 欧美激情第三页| 久久国产三级| 欧美大香线蕉线伊人久久国产精品| 亚洲v在线看| 三年中国国语在线播放免费| 成人一区二区视频| 国产黄色小视频网站| 色香蕉成人二区免费| 国模无码一区二区三区| 久久久国产精品视频| 吞精囗交69激情欧美| 国产一区二区黄色| 欧美成人高清| 国产原创精品在线| 国产日韩欧美综合在线| 久久国产精品系列| 欧美电影免费观看完整版| 精品176二区| 国产专区欧美专区| 久久综合国产| 日韩一区二区三区不卡视频| 久久久久久**毛片大全| 国产一国产二国产三| 日韩欧美国产三级电影视频| 黄色免费在线观看| 国产日韩欧美电影在线观看| 欧美色图一区| 免费看黄色一级大片| 国产视频亚洲色图| 天天射天天干天天| 亚洲欧美一区二区三区四区| xxxxxx欧美| 日本一区二区三不卡| 日韩激情av在线| 久久久久久成人网| 欧美日韩精品综合在线| 香蕉视频在线播放| 成人免费网站在线| 亚洲精品成人无限看| 日韩高清一二三区| 亚洲成人综合视频| 四虎影视在线播放| 国内精品免费午夜毛片| 欧美自拍视频| 精品免费国产一区二区| 国产欧美日韩在线| 一级黄色免费看| 美女视频黄免费的亚洲男人天堂| 精品一区二区三区中文字幕视频| 国产传媒久久久| 91一区二区三区在线播放| 久久青青草原亚洲av无码麻豆| 亚洲人成自拍网站| 日韩一区中文| 欧洲精品在线播放| 91色porny| 中文字幕乱码无码人妻系列蜜桃| 日韩中文字幕视频| 久久久久久亚洲精品美女| 91.com在线| 99r精品视频| 久久久久久久久久一级| 日韩在线观看免费高清完整版| 精品视频在线播放一区二区三区| 欧美在线观看视频免费| 99久久精品免费| 日韩久久久久久久久久| 两个人的视频www国产精品| 成人资源在线播放| 国产精品少妇在线视频| 国产精品国产精品国产专区不蜜 | 日韩一级特黄| 久久国产精品视频在线观看| 国产欧美日韩久久| 国产成人三级在线播放| 欧美专区在线播放| 亚洲先锋影音| 亚洲精品视频久久久| 在线成人免费视频| 日韩精品av| 中文字幕一区二区三区四区五区 | 亚洲精品色午夜无码专区日韩| 欧美精品久久天天躁| 精品三级久久| 在线播放 亚洲| 91在线观看免费视频| 国产又粗又猛又黄又爽无遮挡| 国产69精品久久久久99| 日韩在线精品| 香蕉视频黄色在线观看|