多模態文檔智能解析-MonkeyOCR v1.5框架、數據構造及特點 原創
多模態的解析大家的方案越來越趨近相同,繼續看《??文檔智能??》,快速過一下基于多模態視覺語言模型-MonkeyOCR v1.5的兩階段文檔解析技術報告及數據設計。ps:模型權重暫未開源。

性能對比
《???文檔解析進展??》如下:

整體框架
如下圖,兩階段的pipline框架,與mineru一樣,VLM同時負責layout、閱讀順序和版面元素識別解析。

第一階段


{"label": "Table", "bbox": [187, 98, 517, 111], "index": 0},
{"label": "Image", "bbox": [xx, 1xx, 5x0, 140], "index": 1},
{"label": "Text", "bbox": [1xx, 1x8, xx9, 338], "index": 2},從上述給到的信息看,VLM在第一階段同時輸出:元素位置+元素類別+閱讀順序+元素角度(方便后處理)
第二階段
通過VLM分別解析表格、公式、文本類別,最終通過后處理整合成markdown/html等格式。

訓練trick-基于視覺一致性的強化學習

為提升復雜表格識別能力,通過“視覺對比”引導模型自我優化,在不依賴大量人工標注的前提下,提升表格識別的準確性和魯棒性。
核心邏輯是:表格識別結果是否準確,可通過“原始表格圖像”與“識別結果渲染圖像”的視覺一致性來判斷,以此構建獎勵信號,用強化學習優化模型。
該方法主要通過兩個步驟:
- 訓練視覺一致性獎勵模型
- 構建正負樣本對:用已標注數據的真實標簽(GT)生成視覺不一致的變體(比如修改單元格內容、打亂結構),再用微調后的VLM生成多個識別結果,將錯誤結果與GT配對,形成大量正負樣本。
- 獎勵計算邏輯:輸入原始表格圖像(I?)、模型識別結果(y)、識別結果的渲染圖像(I?),通過VLM判斷三者的視覺一致性,輸出獎勵值(reward = VLM(I?, y, I?)),一致則獎勵高,不一致則獎勵低。
- 用GRPO算法優化模型
以有監督微調(SFT)后的VLM為基礎政策模型(πθ)。將無標注數據輸入政策模型生成識別結果,用第一步訓練好的獎勵模型給出獎勵信號,通過GRPO算法(帶KL約束的強化優化)更新模型參數,讓模型逐漸傾向于生成“視覺一致”的準確結果。
表格帶圖片情況
這一塊額外用yolo訓練了一個檢測模型,用于檢測表格中的圖片,用< img >作為占位符替換表格中的圖片,用于后面重建是插回去。

表格合并
這一塊再訓練一個分類模型預測要不要合并:采用基于 BERT 的分類器,預測后續片段 的首行是否在語義上延續前一個片段的尾行。若判斷為正向延續,則觸發行級單元合并(模 式 3);若為負向結果,則執行無表頭的拼接(模式 2)。

實驗性能


參考文獻:MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patternshttps://arxiv.org/pdf/2511.10390
本文轉載自??大模型自然語言處理?? 作者:老余

















