太牛了-復雜表格Cell合并、跨頁拼接,中文領域96%,甩MonkeyOCR 20%
- 在PDF文檔解析領域,布局檢測、閱讀順序預測、手寫體文字識別等領域都已經有了很多非常成熟,且可靠的方案。
- 但是,復雜表格的解析,依然是眼前非常難啃的骨頭。
例如:表格中單元格跨列、跨行的合并;跨頁表格的融合;表頭重復、冗余等問題
今天分享的OCRFlux是基于qwen2.5vl-3B模型微調的,一個復雜表格的解決方案。
一、OCRFlux創新點
1.1 單頁解析技術
- 復雜表格解析
OCRFlux 在訓練數據中使用 HTML 格式表示表格,使其能夠自然地支持復雜表格結構。
OCRFlux 能夠精確恢復多列跨越的表格單元格以及跨行和跨列合并的單元格,即使在表格布局復雜的情況下也能保持準確性。


- 多列布局處理
OCRFlux 能夠準確識別多列布局文檔,并將其轉換為具有自然閱讀順序的干凈 Markdown 格式。
能夠正確重建跨越列的文本元素之間的序列和關系。

- 多表格與多語言支持
OCRFlux 具備處理單頁上多個表格的能力,能夠有效區分和解析不同的表格。
同時,它還支持解析包含混合英語和中文內容的文檔,展示了其在多語言處理方面的強大能力。

1.2 跨頁段落 / 表格合并技術
- 跨3頁表格合并
在 PDF 文檔中,表格通常會被分隔在多個連續頁面上。
OCRFlux 通過自動檢測和合并碎片化的表格元素,并匹配表頭,實現跨頁表格的無縫、準確重建。

- 表格垂直拆分與表格頭重復
有許多列的表格,被拆分到多頁的情況,OCRFlux 能夠有效解決垂直拆分問題,將邏輯相關的段落重新連接起來。
當表格跨越多個頁面時,每個頁面的標題通常會重復的情況,OCRFlux 通過無縫合并跨頁面內容解決了這個問題,刪除了多余的標題,同時保留了重要的表格數據。


二、 訓練方案
- 首先,指令微調:
基于 Qwen2.5-VL-3B-Instruct 進行微調,使得 OCRFlux 能夠更好地理解和處理文檔中的各種元素,包括文本、表格和圖像等
- 其次,單頁解析訓練:
- 使用約 110 萬頁的私有文檔數據集(主要來自金融和學術文件)以及約 25 萬頁的公共 olmOCR-mix-0225 數據集進行訓練。
- OCRFlux 的模型僅使用頁面圖像作為輸入,而不使用任何元數據(如文本塊及其位置),這既能保證模型的準確性,又能減少處理時間和內存消耗,同時避免了因元數據損壞或 OCR 結果錯誤而導致的潛在問題。
- 最后,跨頁段落 / 表格合并訓練:
- 使用約 45 萬對樣本進行檢測任務訓練,約 10 萬對樣本進行合并任務訓練,所有樣本均來自私有數據集。
- OCRFlux 采用聯合訓練的方式,將單頁解析和跨頁合并任務集成在同一多模態大語言模型中,通過不同的提示詞進行訓練,從而使模型在推理過程中更加高效。
三、效果對比
- 基于編輯距離(Edit Distance Similarity (EDS))的對比測試
- OCRFlux-bench-single專門針對單頁解析的測試數據集,得分都超過了96%,比現在流行的olmocr、Nanonets-OCR-s、MonkeyOCR高出了至少10個點。

- 基于樹形的編輯距離(Tree Edit Distance-based Similarity (TEDS))的對比測試
- OCRFlux-pubtabnet-single專門針對復雜表格微調的測試數據集

- OCRFlux-bench-cross跨頁融合測試數據集, 中文環境接近滿分了。

- OCRFlux-pubtabnet-cross跨頁表格融合測試數據集,有90%以上的成功率

四、效果測試
通過OCRFlux demo可以測試一下自己的pdf文檔
- 表格跨頁融合

本文轉載自?????CourseAI?????,作者:CourseAI
贊
收藏
回復
分享
微博
QQ
微信
舉報
回復
相關推薦

















