精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

告別「復制+粘貼」,基于深度學習的OCR,實現PDF轉文本

新聞 深度學習
最近,來自 K1 Digital 的高級機器學習工程師 Lucas Soares 一直在嘗試通過使用 OCR(光學字符識別)自動轉錄 pdf 幻燈片,以便直接在 markdown 文件中操作它們的內容,從而避免手動復制和粘貼 pdf 內容,實現這一過程的自動化。

[[403226]]

傳統的講座通常伴隨著一組 pdf 幻燈片。一般來說,想要對此類講座做筆記,需要從 pdf 復制、粘貼很多內容。

最近,來自 K1 Digital 的高級機器學習工程師 Lucas Soares 一直在嘗試通過使用 OCR(光學字符識別)自動轉錄 pdf 幻燈片,以便直接在 markdown 文件中操作它們的內容,從而避免手動復制和粘貼 pdf 內容,實現這一過程的自動化。

告別「復制+粘貼」,基于深度學習的OCR,實現PDF轉文本

左為項目作者 Lucas Soares。

項目地址:https://github.com/EnkrateiaLucca/ocr_for_transcribing_pdf_slides

為什么不使用傳統的 pdf 轉文本工具呢?

Lucas Soares 發現傳統工具往往會帶來更多的問題,需要花時間解決。他曾經嘗試使用傳統的 Python 軟件包,但是遇到了很多問題(例如必須使用復雜的正則表達式模式解析最終輸出等),因此決定嘗試使用目標檢測和 OCR 來解決。

基本過程可分為以下步驟:

  • 將 pdf 轉換為圖片;
  • 檢測和識別圖像中的文本;
  • 展示示例輸出。

基于深度學習的 OCR 將 pdf 轉錄為文本

將 pdf 轉換為圖像

Soares 使用的 pdf 幻燈片來自于 David Silver 的增強學習(參見以下 pdf 幻燈片地址)。使用「pdf2image」包將每張幻燈片轉換為 png 圖像格式。

告別「復制+粘貼」,基于深度學習的OCR,實現PDF轉文本

pdf 幻燈片示例。

地址:https://www.davidsilver.uk/wp-content/uploads/2020/03/intro_RL.pdf

代碼如下: 

  1. from pdf2image import convert_from_path 
  2. from pdf2image.exceptions import ( 
  3.  PDFInfoNotInstalledError, 
  4.  PDFPageCountError, 
  5.  PDFSyntaxError 
  6.  
  7. pdf_path = "path/to/file/intro_RL_Lecture1.pdf" 
  8. images = convert_from_path(pdf_path) 
  9. for i, image in enumerate(images): 
  10.     fname = "image" + str(i) + ".png" 
  11.     image.save(fname, "PNG"

經過處理后,所有的 pdf 幻燈片都轉換成 png 格式的圖像:

告別「復制+粘貼」,基于深度學習的OCR,實現PDF轉文本

檢測和識別圖像中的文本

為了檢測和識別 png 圖像中的文本,Soares 使用 ocr.pytorch 庫中的文本檢測器。按照說明下載模型并將模型保存在 checkpoints 文件夾中。

ocr.pytorch 庫地址:https://github.com/courao/ocr.pytorch

代碼如下: 

  1. # adapted from this source: https://github.com/courao/ocr.pytorch 
  2. %load_ext autoreload 
  3. %autoreload 2 
  4. import os 
  5. from ocr import ocr 
  6. import time 
  7. import shutil 
  8. import numpy as np 
  9. import pathlib 
  10. from PIL import Image 
  11. from glob import glob 
  12. import matplotlib.pyplot as plt 
  13. import seaborn as sns 
  14. sns.set() 
  15. import pytesseract 
  16.  
  17. def single_pic_proc(image_file): 
  18.     image = np.array(Image.open(image_file).convert('RGB')) 
  19.     result, image_framed = ocr(image) 
  20.     return result,image_framed 
  21.  
  22. image_files = glob('./input_images/*.*'
  23. result_dir = './output_images_with_boxes/' 
  24.  
  25. # If the output folder exists we will remove it and redo it. 
  26. if os.path.exists(result_dir): 
  27.     shutil.rmtree(result_dir) 
  28. os.mkdir(result_dir) 
  29.  
  30. for image_file in sorted(image_files): 
  31.     result, image_framed = single_pic_proc(image_file) # detecting and recognizing the text 
  32.     filename = pathlib.Path(image_file).name 
  33.     output_file = os.path.join(result_dir, image_file.split('/')[-1]) 
  34.     txt_file = os.path.join(result_dir, image_file.split('/')[-1].split('.')[0]+'.txt'
  35.     txt_f = open(txt_file, 'w'
  36.     Image.fromarray(image_framed).save(output_file) 
  37.     for key in result: 
  38.         txt_f.write(result[key][1]+'\n'
  39.     txt_f.close() 

設置輸入和輸出文件夾,接著遍歷所有輸入圖像(轉換后的 pdf 幻燈片),然后通過 single_pic_proc() 函數運行 OCR 模塊中的檢測和識別模型,最后將輸出保存到輸出文件夾。

其中檢測繼承(inherit)了 Pytorch CTPN 模型,識別繼承了 Pytorch CRNN 模型,兩者都存在于 OCR 模塊中。

示例輸出

代碼如下: 

  1. import cv2 as cv 
  2.  
  3. output_dir = pathlib.Path("./output_images_with_boxes"
  4.  
  5. # image = cv.imread(str(np.random.choice(list(output_dir.iterdir()),1)[0])) 
  6. image = cv.imread(f"{output_dir}/image7.png"
  7. size_reshaped = (int(image.shape[1]),int(image.shape[0])) 
  8. image = cv.resize(image, size_reshaped) 
  9. cv.imshow("image", image) 
  10. cv.waitKey(0
  11. cv.destroyAllWindows() 

下圖左為原始 pdf 幻燈片,圖右為轉錄后的輸出文本,轉錄后的準確率非常高。

告別「復制+粘貼」,基于深度學習的OCR,實現PDF轉文本

文本識別輸出如下: 

  1. filename = f"{output_dir}/image7.txt" 
  2. with open(filename, "r") as text: 
  3.     for line in text.readlines(): 
  4.         print(line.strip("\n")) 

通過上述方法,最終你可以得到一個非常強大的工具來轉錄各種文檔,從檢測和識別手寫筆記到檢測和識別照片中的隨機文本。擁有自己的 OCR 工具來處理一些文本內容,這比依賴外部軟件來轉錄文檔要好的多。

 

責任編輯:張燕妮 來源: 機器之心Pro
相關推薦

2021-09-24 09:59:59

復制粘貼PythonPDF

2020-09-14 17:10:16

微信搜索移動應用

2024-10-25 11:56:33

OCRVisRAGRAG

2017-05-22 13:15:45

TensorFlow深度學習

2024-08-29 08:23:22

EasyOCRSpring文字識別

2018-07-19 15:13:15

深度學習圖像

2017-05-12 16:25:44

深度學習圖像補全tensorflow

2023-05-22 08:00:00

深度學習機器學習人工智能

2023-09-26 07:39:21

2018-08-03 09:42:01

人工智能深度學習人臉識別

2019-05-22 14:28:08

AI人工智能深度學習

2021-11-03 09:00:00

深度學習自然語言機器學習

2025-11-11 09:39:40

2022-10-26 15:41:38

深度學習Deepfake機器學習

2024-12-03 09:59:00

2024-11-04 08:14:48

2017-09-21 15:43:02

深度序列學習

2017-08-03 16:20:42

深度學習文本摘要遞歸神經網絡

2023-11-12 23:01:44

PaddleOCR深度學習

2020-10-17 09:03:06

使用JS創建復制&粘貼
點贊
收藏

51CTO技術棧公眾號

欧美一区二区三区思思人| 久久久久久免费网| 欧美成人合集magnet| 韩国三级在线播放| av电影在线地址| 久久午夜电影网| 国产日韩精品电影| 日本三级视频在线| 不卡日本视频| 欧美成人乱码一区二区三区| 在线观看av一区| 91手机视频在线观看| 精品处破女学生| 国产一区二区三区站长工具| 欧美一二三在线| 成人一级片网站| 50度灰在线| 国产婷婷色一区二区三区四区| 成人免费淫片视频软件| 日韩成人在线免费视频| 日韩国产专区| 国产午夜精品麻豆| 麻豆精品国产传媒| 国产91亚洲精品久久久| 亚洲二区在线观看| 正在播放国产精品| 男人的天堂在线视频| 国产精品一级片在线观看| 2019日本中文字幕| 久久精品免费av| 91亚洲人成网污www| 亚洲欧美激情一区| 成人做爰69片免费| 自拍偷拍亚洲| 欧美日韩视频在线观看一区二区三区| 亚洲色成人www永久在线观看| av女优在线| 99国产欧美另类久久久精品| 97免费高清电视剧观看| 91一区二区视频| 天堂蜜桃91精品| 国语自产精品视频在线看一大j8| 网站永久看片免费| 国内黄色精品| 亚洲人成欧美中文字幕| 99久久免费看精品国产一区 | 国产精品啊啊啊| 日韩在线视频国产| 成人黄色a级片| 精品国产一区二区三区香蕉沈先生| 亚洲黄色www网站| 国产成人av免费观看| 国产不卡精品| 91精品国产福利在线观看| 国产一线二线三线在线观看| 在线成人av观看| 欧美日韩人人澡狠狠躁视频| 国产美女网站在线观看| hd国产人妖ts另类视频| 亚洲成人免费影院| 成 年 人 黄 色 大 片大 全| 国产白丝在线观看| 亚洲国产日韩精品| 三上悠亚久久精品| 日韩伦理在线一区| 欧美视频13p| 国产裸体舞一区二区三区| 亚洲精品中文字幕| 在线日韩一区二区| 国产探花在线看| 亚洲日日夜夜| 91精品在线麻豆| 佐山爱在线视频| 高潮按摩久久久久久av免费| 91精品免费在线观看| 99久久综合网| 加勒比色老久久爱综合网| 日韩av中文字幕在线播放| 内射中出日韩无国产剧情| 在线看成人短视频| 在线成人中文字幕| 国产精品嫩草影院俄罗斯| 最新精品国产| 韩国三级日本三级少妇99| 青青国产在线观看| 蜜芽一区二区三区| 亚洲www视频| 特级丰满少妇一级aaaa爱毛片| 91香蕉视频在线| 少妇免费毛片久久久久久久久| 在线视频自拍| 亚洲午夜成aⅴ人片| 国产精品丝袜久久久久久消防器材| 中文字幕av一区二区三区佐山爱| 欧美午夜精品久久久久久孕妇| 第一区免费在线观看| 亚洲高清影院| 亚洲国产精品va在线看黑人| 男人舔女人下部高潮全视频| 一本一本久久a久久综合精品| 欧美一级电影久久| 91精品国产乱码久久久久| 成人中文字幕在线| 亚洲二区自拍| 9999在线视频| 欧美日本一道本| 色婷婷精品久久二区二区密| 色综合蜜月久久综合网| 91豆花精品一区| 一级片视频网站| 91亚洲精品久久久蜜桃| 一区二区三区日韩视频| 美女福利一区二区| 欧美大片在线观看| eeuss中文字幕| 国产精品视频| 高清国产在线一区| 色多多视频在线观看| 婷婷久久综合九色综合绿巨人 | 欧美经典一区| 夜夜嗨av一区二区三区四区| 国产午夜精品一区二区理论影院| 奇米888四色在线精品| 国产精品久久国产三级国电话系列| av在线1区2区| 欧美日韩一区免费| 亚洲日本久久久| 亚洲成人二区| 国产精品丝袜一区二区三区| 色视频在线观看免费| 一区二区三区精密机械公司| www.超碰97.com| 日本久久精品| 国产成人av在线| 午夜视频在线播放| 夜夜亚洲天天久久| 亚洲综合123| 91久久高清国语自产拍| 国产精品久久久久久av| 久草在现在线| 疯狂欧美牲乱大交777| 无码国产69精品久久久久网站| 亚洲精品一区二区妖精| 国产精品一区电影| 阿v免费在线观看| 一本大道久久a久久综合| 国产麻豆天美果冻无码视频| 亚洲人妖在线| 精品国产综合久久| 日本不卡1234视频| 国产丝袜一区二区三区| 青青国产在线观看| 久久亚洲精精品中文字幕早川悠里| 大陆av在线播放| 加勒比视频一区| 国内精品小视频在线观看| 韩国av电影在线观看| 夜夜揉揉日日人人青青一国产精品 | 精品夜夜澡人妻无码av| 亚洲一区日韩在线| 欧美美乳视频网站在线观看| 在线免费av资源| 亚洲天堂男人的天堂| 国产91精品看黄网站在线观看| 91女神在线视频| 熟女少妇精品一区二区| 日本久久综合| 91在线观看免费观看| 91网址在线观看| 精品久久久久久最新网址| 国产精选第一页| 91天堂素人约啪| 天堂中文视频在线| 婷婷综合久久| http;//www.99re视频| 51漫画成人app入口| 日韩精品在线视频| 国产99久久久久久免费看| 国产精品美女久久久久av爽李琼 | 成人av在线一区二区三区| 国产h视频在线播放| 国产精品免费大片| 成人午夜在线观看| 麻豆mv在线看| 中文字幕亚洲欧美在线| av小说天堂网| 欧美日韩激情美女| avhd101老司机| 国产成人自拍网| 欧美成人免费高清视频| 色男人天堂综合再现| 成人一区二区在线| 黑人精品一区| 久久视频在线视频| 少妇人妻一区二区| 欧美日韩高清在线播放| 久久久久久蜜桃| 国产午夜精品理论片a级大结局| 狠狠操狠狠干视频| 亚洲人体偷拍| 欧美日韩视频免费在线观看| 色综合久久中文| 91亚洲精华国产精华| 日本乱码一区二区三区不卡| 操人视频在线观看欧美| 欧美高清电影在线| 日韩欧美国产电影| 久久午夜鲁丝片| 亚洲小说欧美激情另类| 国产3级在线观看| 99国产精品久| 在线免费观看av网| 美女尤物久久精品| 久久亚洲a v| 欧美aaaa视频| 欧美日韩精品综合| 一区二区精彩视频| 国产精品大陆在线观看| 91超碰在线免费| 欧美精品一二区| 91在线网址| 精品亚洲一区二区三区在线播放| 精品女同一区二区三区| 欧美制服丝袜第一页| 欧美bbbbbbbbbbbb精品| 一区二区三区四区不卡在线| 毛片aaaaaa| 久久久久国产精品免费免费搜索| av免费观看不卡| 国产精品一区免费视频| www.久久91| 美女免费视频一区二区| 久久久噜噜噜www成人网| 亚洲一本视频| 999久久欧美人妻一区二区| 日韩一区电影| 性欧美videosex高清少妇| 天天躁日日躁狠狠躁欧美巨大小说 | 黄色片免费观看视频| 亚洲一区二区三区在线播放| 精品人妻伦九区久久aaa片| 国产精品免费久久| 欧美亚洲色综久久精品国产| 国产亚洲精品精华液| 国产三级av在线播放| 91视频在线看| 丰满大乳奶做爰ⅹxx视频| 不卡免费追剧大全电视剧网站| 欧美一区二区三区影院| 国产99精品国产| 91精品人妻一区二区三区四区| 国产精品18久久久| 国产伦理在线观看| 成人性色生活片| 久久久久麻豆v国产精华液好用吗 在线观看国产免费视频 | 国产小视频免费观看| 精品美女在线观看| 黄色一级大片在线免费看国产一| 精品少妇一区二区三区| 丰满肥臀噗嗤啊x99av| 欧美精品一区二区三区一线天视频| 国产成人手机在线| 亚洲欧美三级在线| 久久伊伊香蕉| 日韩中文字幕网站| 大地资源网3页在线观看| 欧美精品免费播放| www.综合网.com| 欧美怡春院一区二区三区| 中文字幕在线直播| 国产精品电影观看| 亚洲伊人精品酒店| 成人资源av| 日韩精品丝袜美腿| 日本电影一区二区三区| 日韩夫妻性生活xx| 日韩欧美猛交xxxxx无码| 99国产精品久久久久久久成人热 | 亚洲老司机av| 最新97超碰在线| 欧美第一黄色网| 超级白嫩亚洲国产第一| 日本一区二区在线播放| 四虎永久精品在线| 国产麻豆日韩| 日韩成人激情| 国产96在线 | 亚洲| 久久一区精品| 日韩av成人网| 国产日韩欧美制服另类| 久久精品黄色片| 黑人狂躁日本妞一区二区三区| 一二三区在线播放| 欧美精品一区在线观看| 日韩黄色影院| 97热精品视频官网| 欧美日韩卡一| 狠狠色狠狠色综合人人| 欧美疯狂party性派对| 免费不卡av在线| 蜜桃91丨九色丨蝌蚪91桃色| 蜜桃视频无码区在线观看| 久久九九全国免费| 欧美黄色一级网站| 欧美专区亚洲专区| 亚洲av成人精品日韩在线播放| 日韩中文av在线| 性感女国产在线| 3d动漫啪啪精品一区二区免费 | 五月天在线免费视频| 国产欧美69| 熟妇女人妻丰满少妇中文字幕| 欧美韩国日本不卡| 国产一级18片视频| 日韩免费性生活视频播放| 草草影院在线观看| 2019中文字幕在线免费观看| 国内精品视频| 亚洲三区视频| 日韩黄色小视频| 日本黄色免费观看| 亚洲综合成人在线| 国产精品国产一区二区三区四区| 亚洲色图国产精品| 8x8ⅹ拨牐拨牐拨牐在线观看| 91精品综合久久| 可以免费看的av毛片| 欧美优质美女网站| 欧美精品少妇| 欧美一级电影久久| 欧亚精品一区| 欧美视频在线观看视频| 国产成人自拍网| 欧美成人三级在线观看| 9191国产精品| 成人亚洲综合天堂| 国产成人精品日本亚洲| 外国成人在线视频| 国产精品无码人妻一区二区在线| 色国产综合视频| ,亚洲人成毛片在线播放| 国产亚洲成精品久久| 欧美成人h版| 欧美裸体网站| 老司机精品视频网站| 素人fc2av清纯18岁| 精品av在线播放| 五月婷中文字幕| 欧美中文字幕视频| 国产精品亚洲人成在99www| 免费观看精品视频| 久久久青草青青国产亚洲免观| 亚洲va在线观看| 亚洲人午夜精品免费| 亚洲伦理影院| 精品欧美一区二区久久| 天堂av在线资源| 欧美一级片在线播放| 亚洲免费福利一区| 熟女性饥渴一区二区三区| 久久久久久久久久看片| 波多野结衣一二区| 日韩中文第一页| 日韩一区网站| 日韩亚洲欧美视频| 91免费精品国自产拍在线不卡| 日韩三级一区二区| 综合国产在线视频| 国产精品1区| 日本人妻伦在线中文字幕| 波多野结衣在线一区| 黄色片视频免费| 日韩在线免费高清视频| 日本高清久久| 久激情内射婷内射蜜桃| ww亚洲ww在线观看国产| 这里只有精品9| 色与欲影视天天看综合网| 国产精品jk白丝蜜臀av小说| 男人天堂网视频| 国产精品传媒入口麻豆| 性生交生活影碟片| 91av视频在线观看| 热久久天天拍国产| 国产伦理在线观看| 在线中文字幕一区| 超碰在线网址| 国产亚洲福利社区| 美女视频网站久久| 国产奶水涨喷在线播放| 日韩乱码在线视频| 亚洲我射av| av动漫在线观看| 亚洲欧美日韩中文字幕一区二区三区| 日本久久一级片| 国产精品视频一| 亚洲毛片网站| 亚洲精品久久久久久国| 亚洲精品白浆高清久久久久久| 欧美xxxx网站|