精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

學術黨狂喜,Meta推出OCR神器,PDF、數學公式都能轉

人工智能 新聞
現在,Meta AI 推出了一個 OCR 神器,可以很好的解決這個難題,該神器被命名為 Nougat。Nougat 基于 Transformer 模型構建而成,可以輕松的將 PDF 文檔轉換為 MultiMarkdown,掃描版的 PDF 也能轉換,讓人頭疼的數學公式也不在話下。

我們平時在閱讀論文或者科學文獻時,見到的文件格式基本上是 PDF(Portable Document Format)。據了解,PDF 成為互聯網上第二重要的數據格式,占總訪問量的 2.4%。

然而,存儲在 PDF 等文件中的信息很難轉成其他格式,尤其對數學公式更是顯得無能為力,因為轉換過程中很大程度上會丟失信息。就像下圖所展示的,帶有數學公式的 PDF,轉換起來就比較麻煩。

現在,Meta AI 推出了一個 OCR 神器,可以很好的解決這個難題,該神器被命名為 Nougat。Nougat 基于 Transformer 模型構建而成,可以輕松的將 PDF 文檔轉換為 MultiMarkdown,掃描版的 PDF 也能轉換,讓人頭疼的數學公式也不在話下。

  • 論文地址:https://arxiv.org/pdf/2308.13418v1.pdf
  • 項目主頁:https://facebookresearch.github.io/nougat/

Nougat 不但可以識別文本中出現的簡單公式,還能較為準確地轉換復雜的數學公式。

公式中出現的上標、下標等各種數學格式也分的清清楚楚:

Nougat 還能識別表格:

圖片

掃描產生畸變的文本也能處理:

不過,Nougat 生成的文檔中不包含圖片,如下面的柱狀圖:

看到這,網友紛紛表示:(轉換)效果真是絕了。

方法概述

本文架構是一個編碼器 - 解碼器 Transformer 架構,允許端到端的訓練,并以 Donut 架構為基礎。該模型不需要任何 OCR 相關輸入或模塊,文本由網絡隱式識別。該方法的概述見下圖 1。

該研究用到了 2 個 Swin Transformer ,一個參數量為 350M,可處理的序列長度為 4096,另一參數量為 250M,序列長度為 3584。在推理過程中,使用貪婪解碼生成文本。

在圖像識別任務中,使用數據增強技術來提高泛化能力往往是有益的。由于本文只研究數字化的學術研究論文,因此需要使用一些變換來模擬掃描文件的不完美和多變性。這些變換包括侵蝕、擴張、高斯噪聲、高斯模糊、位圖轉換、圖像壓縮、網格變形和彈性變換 。每種變換都有固定的概率應用于給定的圖像。這些變換在 Albumentations 庫中實現。在訓練過程中,研究團隊也會通過隨機替換 token 的方式,對實際文本添加擾動。

每種變換的效果概覽  

數據集構建與處理

據研究團隊所知,目前還沒有 PDF 頁面和相應源代碼的配對數據集,因此他們從 arXiv 上開放獲取的文章中創建了自己的數據集。為了數據多樣性,數據集中還包括 PubMed Central  (PMC) 開放訪問非商業數據集的一個子集。預訓練期間,還加入了部分行業文檔庫  (IDL)。

表 1 數據集構成

在處理數據集的過程中,研究團隊也將不同來源的數據進行了合適的處理,下圖展示了他們對 arXiv 文章進行源代碼收集并編譯 PDF 的過程。詳細內容請閱讀全文。

源文件被轉換成 HTML,然后再轉換成 Markdown。

研究團隊根據 PDF 文件中的分頁符分割 markdown 文件,并將每個頁面柵格化為圖像以創建最終配對的數據集。在編譯過程中,LaTeX 編譯器自動確定 PDF 文件的分頁符。由于他們不會為每篇論文重新編譯 LaTeX 源文件,因此必須將源文件分割成若干部分,分別對應不同的頁面。為此,他們使用 PDF 頁面上的嵌入文本,并將其與源文本進行匹配。

但是,PDF 中的圖形和表可能并不對應于它們在源代碼中的位置。為了解決這個問題,研究團隊使用 pdffigures2 在預處理步驟中刪除這些元素。將識別出的字幕與 XML 文件中的字幕進行比較,根據它們的 Levenshtein 距離進行匹配。一旦源文檔被拆分為單獨的頁面,刪除的圖形和表就會重新插入到每一頁的末尾。為了更好地匹配,他們還使用 pylatexence -library 將 PDF 文本中的 unicode 字符替換為相應的 LaTeX 命令。

詞袋匹配:首先,研究團隊使用 MuPDF 從 PDF 中提取文本行,并對其進行預處理,刪除頁碼和頁眉 / 頁腳。然后使用詞袋模型與 TF-IDF 向量化器和線性支持向量機分類器。將模型擬合到以頁碼為標簽的 PDF 行。然后,他們將 LaTeX 源代碼分成段落,并預測每個段落的頁碼。理想情況下,預測將形成階梯函數,但在實踐中,信號將有噪音。為了找到最佳邊界點,他們采用類似于決策樹的邏輯,并最小化基于 Gini 不純度的度量:

其中圖片是在區間 [a,b] 中選擇具有預測頁碼 i 的元素的概率,該區間描述了哪些段落 (元素) 被考慮用于分割。

區間 [a, b] 的最佳拆分位置 t 為:

搜索過程從所有段落開始,對于后續的每個分頁,搜索區間的下界設置為前一個分頁位置。

模糊匹配:在第一次粗略的文檔分割之后,研究團隊嘗試找到段落中的準確位置。通過使用 fuzzysearch 庫,將預測分割位置附近的源文本與嵌入的 PDF 文本的前一頁的最后一個句子和下一頁的第一個句子進行比較,就可以達到這個目的。如果兩個分隔點在源文本中的相同位置,則認為換頁是準確的,得分為 1。另一方面,如果分割位置不同,則選擇具有最小歸一化 Levenshtein 距離的分割位置,并給出 1 減距離的分數。要包含在數據集中,PDF 頁面的兩個分頁符的平均得分必須至少為 0.9。如此一來,所有頁面的接受率約為 47%。

實驗

實驗中用到的文本包含三種類別:純文本、數學表達式以及表格。

結果如表 1 所示。Nougat 優于其他方法,在所有指標中取得最高分,并且具有 250M 參數模型的性能與 350M 參數模型相當。

下圖為 Nougat 優對一篇論文的轉換結果:

Meta 表示,Nougat 在配備 NVIDIA A10G 顯卡和 24GB VRAM 機器上可并行處理 6 個頁面,生成速度在很大程度上取決于給定頁面上的文本量。在不進行任何推理優化的情況下,基礎模型每批次平均生成時間為 19.5s(token 數≈1400),與經典方法(GROBID 10.6 PDF/s )相比速度還是非常慢的,但 Nougat 可以正確解析數學表達式。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2017-04-27 08:19:56

Markdown數學公式

2009-04-16 08:19:40

Windows 7微軟操作系統

2024-08-27 00:01:00

LaTeX語言符號

2021-06-26 07:54:21

Python字體分辨率

2025-10-20 09:30:34

2017-09-06 08:49:33

機器學習數學公式代數

2020-06-24 08:07:32

5G網絡智慧城市

2025-04-09 12:48:13

模型AI數據

2025-09-12 09:04:20

2023-05-24 09:56:40

谷歌AI編程神器

2025-01-27 09:00:00

2023-04-23 12:36:00

必應聊天人工智能

2013-06-03 09:45:53

R語言

2022-02-22 15:17:24

GitHub做飯項目HowToCook

2019-04-08 08:25:48

代碼開發工具

2022-02-18 08:25:46

微軟Windows 11任務管理器

2025-11-10 17:11:35

谷歌AI圖像生成

2024-02-05 13:40:00

Mathlive開源庫Web 組件

2021-06-21 05:28:54

谷歌 Chrome 瀏覽器
點贊
收藏

51CTO技術棧公眾號

国产色视频在线| 亚洲女人在线观看| 日本护士...精品国| 欧美aⅴ99久久黑人专区| 日韩欧美成人一区二区| 日产精品久久久久久久蜜臀| 日韩一级片免费观看| 久久一区视频| 久久香蕉频线观| 中文字幕乱码一区| 日本在线精品| 亚洲欧美日韩国产成人精品影院| 国产精品国模大尺度私拍| 亚洲不卡视频在线观看| 久久久久久久久久久妇女| 亚洲黄色www| 不用播放器的免费av| 大菠萝精品导航| 亚洲欧洲精品一区二区三区| 久久久亚洲综合网站| 国产精品久久久久精| 麻豆9191精品国产| 国模私拍一区二区三区| 91av手机在线| 夜夜春成人影院| 日韩午夜在线影院| 狠狠热免费视频| 91美女精品| 亚洲猫色日本管| 日韩欧美一区二区视频在线播放| 欧美自拍偷拍一区二区| 国内精品久久久久影院一蜜桃| 97欧美精品一区二区三区| 色婷婷在线视频观看| 精品美女久久| 日韩av中文在线| 91精品国产高清91久久久久久 | 在线观看xxxx| 久久99伊人| 韩剧1988免费观看全集| 午夜免费激情视频| 成人激情免费视频| 国产电影一区二区在线观看| 亚洲丝袜美腿综合| 天堂va久久久噜噜噜久久va| 日韩有码电影| 波多野结衣中文字幕一区二区三区| 国产日韩欧美在线| 性色av一区二区三区四区| 亚洲在线黄色| 69久久夜色精品国产7777| 特级片在线观看| 色琪琪久久se色| 中文综合在线观看| 欧美另类69xxxx| 国产一区网站| 亚洲一区二区黄| 久久久久久久毛片| 九九热精品视频在线观看| 日韩精品视频中文在线观看 | 成人在线视频免费| 欧美午夜电影网| 免费一区二区三区在线观看| 992tv国产精品成人影院| 欧美亚洲综合久久| 亚洲综合欧美在线| 91精品网站在线观看| 欧美裸体一区二区三区| 亚洲视频在线不卡| 国产精品久久久久久久久久白浆| 日韩欧美美女一区二区三区| 又黄又色的网站| 欧美大奶一区二区| 亚洲欧美综合v| 丰满的亚洲女人毛茸茸| 97在线精品| 欧美精品免费在线观看| 五月天婷婷网站| 美女精品在线| 国产区精品在线观看| 国产av无码专区亚洲av麻豆| 成人禁用看黄a在线| 欧美日韩国产高清视频| 在线观看免费黄视频| 日本在线免费| 日韩av不卡一区二区| 国产日韩精品在线| 国产激情视频在线播放| 成人av在线电影| 欧美一区1区三区3区公司| 丁香婷婷在线| 一区二区三区中文字幕电影 | 欧美极品视频| 亚洲高清视频在线| 亚洲中文字幕久久精品无码喷水| 日韩五码电影| 亚洲精品福利在线| 一级二级黄色片| 韩日成人在线| 国产精品美女av| 丰满少妇一级片| 国产香蕉久久精品综合网| 大桥未久一区二区| videos性欧美另类高清| 在线不卡中文字幕播放| 精品无码在线视频| 久久国产亚洲| 97在线视频精品| 一区不卡在线观看| 国产精品乡下勾搭老头1| 欧美日韩国产高清视频| 国精产品一区一区三区mba下载| 一本色道久久加勒比精品| 国产欧美精品一二三| 欧美成人午夜77777| 欧美成年人视频| 高潮毛片又色又爽免费 | 婷婷综合激情| 奇米影视亚洲狠狠色| 性欧美18一19性猛交| 中文字幕av免费专区久久| 日韩黄色短视频| 9999精品视频| 国产亚洲精品va在线观看| 日本三级2019| 国产精品一二三在| 亚洲一区二区不卡视频| 国产精品极品美女在线观看| 精品国产伦一区二区三区观看方式 | 成人一区二区av| 99riav视频一区二区| 日韩精品视频在线| 国产午夜视频在线播放| 国产精品一品二品| 在线无限看免费粉色视频| 精品成人av| 亚洲欧美日韩中文视频| 成人免费看片98欧美| 东方欧美亚洲色图在线| 黄色一级片av| 国产精品中文| 久久综合亚洲社区| 国产精品污视频| 中文字幕亚洲区| 亚洲成人av免费看| 美女久久久久| 国产成人精品a视频一区www| 日本啊v在线| 一本一本久久a久久精品综合麻豆| 亚洲观看黄色网| 一区二区毛片| 狠狠色综合一区二区| 免费在线国产视频| 精品区一区二区| 国产精品白浆一区二小说| 成人深夜福利app| 日韩欧美国产综合在线| 国产香蕉精品| 91精品国产成人www| 四虎影视精品成人| 欧美在线视频你懂得| 精品人妻中文无码av在线| 男女视频一区二区| 曰韩不卡视频| 秋霞一区二区三区| 久久久天堂国产精品女人| 免费a级片在线观看| 激情亚洲一区二区三区四区| 美女洗澡无遮挡| 蜜臀久久99精品久久久画质超高清| 三区精品视频| 国产精品久久免费视频 | 欧美另类老肥妇| 国产手机视频精品| 中文字幕一区二区三区人妻四季| 中文字幕在线不卡一区二区三区| 99中文字幕在线| 亚洲国产免费看| 免费久久久一本精品久久区| 丰满少妇一区| 美女少妇精品视频| 视频三区在线观看| 欧美日产国产精品| 国产亚洲精品女人久久久久久| 26uuu亚洲| 少妇一级淫免费播放| 欧美午夜在线| 欧美日韩在线精品| 成人在线精品| 欧日韩在线观看| 黄色一级片在线观看| 亚洲国产精品久久久久秋霞蜜臀| 亚洲精品一区二三区| 伊人色综合久久天天| 三级电影在线看| 狠狠色狠狠色综合系列| 18岁网站在线观看| 97人人精品| 鲁丝片一区二区三区| 综合欧美精品| 日本国产精品视频| 黄色在线免费| 国产亚洲激情在线| 深爱五月激情五月| 欧美美女一区二区| 国产熟妇一区二区三区四区| 亚洲欧美日本在线| 午夜在线观看一区| 成人丝袜高跟foot| 午夜xxxxx| 日精品一区二区三区| 日本熟妇人妻xxxx| 91亚洲人成网污www| 久久亚洲国产精品日日av夜夜| 国产精品麻豆| 国产精品亚发布| 欧美xxxhd| 欧美激情xxxx性bbbb| 日本激情视频在线观看| 亚洲精品在线观看www| 懂色av蜜臀av粉嫩av分享吧| 精品婷婷伊人一区三区三| 国产香蕉视频在线| 亚洲一卡二卡三卡四卡 | 日本一区高清| 日韩欧美国产精品| 国产又爽又黄免费软件| 日本黄色一区二区| 中文字幕在线观看视频网站| 一区二区在线看| 一本一本久久a久久| 国产午夜亚洲精品理论片色戒| 国产精品无码在线| 成人av中文字幕| 女同性αv亚洲女同志| 精品一区二区三区免费播放| 黄色国产小视频| 久久久xxx| 精品中文字幕av| 亚洲激情社区| aa在线观看视频| 国产视频欧美| 日日摸日日碰夜夜爽av| 一区二区毛片| 免费午夜视频在线观看| 午夜一区不卡| 国产极品粉嫩福利姬萌白酱| 亚洲精品孕妇| 国产亚洲天堂网| 久久激情网站| 成人在线观看黄| 日本少妇一区二区| 国产高潮免费视频| 久久99久国产精品黄毛片色诱| 亚洲综合av在线播放| 久久99精品国产91久久来源| 国产一级免费大片| 国产福利精品一区二区| xxxwww国产| 久久这里都是精品| 国产123在线| 中文字幕中文乱码欧美一区二区| 一本在线免费视频| 亚洲色图另类专区| 久久久综合久久久| 黄色一区二区三区| 中国精品一区二区| 884aa四虎影成人精品一区| 99精品在线视频观看| 精品国产乱码久久久久久蜜臀| 天天操天天干天天爱| 亚洲日韩中文字幕| 日本三级视频在线观看| 欧美男插女视频| 黄在线观看免费网站ktv| 欧美中文字幕在线播放| 久久av影院| 69174成人网| 人人精品亚洲| 亚洲欧美久久久久一区二区三区| 亚洲乱码在线| 成 年 人 黄 色 大 片大 全| 久久婷婷激情| 久久精品亚洲天堂| av中文字幕在线不卡| 无码人妻aⅴ一区二区三区69岛| 国产精品国产三级国产aⅴ无密码| 欧美日韩激情在线观看| 午夜久久久久久电影| 中文字幕人妻精品一区| 日韩欧美一区二区久久婷婷| 视频二区在线| 久久久999精品免费| 黄在线观看免费网站ktv| 国产在线观看一区二区三区| 国产精品网址| 亚洲一区3d动漫同人无遮挡 | 日韩美女视频一区二区| 国产无遮挡又黄又爽在线观看| 欧洲另类一二三四区| 成人激情四射网| 日韩小视频在线观看| а√天堂8资源中文在线| 国产日韩亚洲欧美| 亚洲国产网址| 中国女人做爰视频| 美女国产一区二区三区| 人妻换人妻a片爽麻豆| 中文字幕一区二区三中文字幕| av中文在线播放| 欧美一级日韩不卡播放免费| 国产精品四虎| 91国在线精品国内播放 | 欧美二区三区| 欧美成人午夜| 日本黄大片一区二区三区| 91丨porny丨首页| 青青草免费av| 欧美精品 国产精品| 国产中文在线| 91超碰caoporn97人人| 亚洲欧洲国产精品一区| 一个色的综合| 日韩中文字幕不卡| 第四色在线视频| 亚洲一区视频在线| 国产特级aaaaaa大片| 最近2019年手机中文字幕| 大胆人体一区二区| 国产在线精品二区| 黄色日韩在线| 国产精品无码自拍| 亚洲欧美国产77777| 国产一区二区小视频| 中国日韩欧美久久久久久久久| 性xxxxfreexxxxx欧美丶| 国产精品美女黄网| 欧美日韩网站| 岛国大片在线免费观看| 亚洲精品免费在线观看| 国产精品久久久久久久久久久久久久久久久久 | 丰满人妻一区二区| 欧美另类极品videosbestfree| 亚洲一区导航| 中文字幕在线中文字幕日亚韩一区| 日韩精品久久久久久| 免费看黄色的视频| 在线精品观看国产| av色图一区| 国产精品电影一区| 日韩理论在线| 亚洲精品综合在线观看| 中文字幕日韩一区二区| 国产精品一区二区人人爽| 久久在线精品视频| 精品精品视频| 黄色三级中文字幕| 粉嫩一区二区三区在线看| 日韩免费一级片| 日韩电影免费在线观看中文字幕| 樱花草涩涩www在线播放| 你懂的网址一区二区三区| 日韩国产高清影视| 开心激情五月网| 91精品国产欧美一区二区18| 欧美日韩在线视频免费观看| 国产精品制服诱惑| 亚洲欧美日韩一区在线观看| 人妻aⅴ无码一区二区三区| 欧美日韩小视频| 天堂av最新在线| 国语精品中文字幕| 日韩电影免费在线看| 二区三区四区视频| 日韩你懂的在线播放| 色网在线免费观看| 四虎影院一区二区三区| 国产麻豆精品theporn| 日韩成人av毛片| 国产性色av一区二区| 96sao精品免费视频观看| 亚洲国产精品无码av| 国产亚洲一本大道中文在线| 91精品视频免费在线观看| 久久久久久美女| 国产精品自拍区| 在线播放免费视频| 偷拍日韩校园综合在线| 粉嫩av在线播放| 3d动漫精品啪啪一区二区三区免费| 99精品热视频只有精品10| 国产黄色录像视频| 精品卡一卡二卡三卡四在线| 日本免费久久| www.日本三级| 国产区在线观看成人精品| www五月婷婷| 国产精品精品视频| 一区福利视频| 91香蕉视频污在线观看|