多模態大模型OCR幻覺緩解思路:DianJin-OCR-R1通過“再看一眼”圖像減輕幻覺 原創
前期介紹了通過GRPO的方式解決多模態大模型OCR幻覺的思路《??GRPO強化學習緩解多模態大模型OCR任務的幻覺思路及數據生成思路???》。
由于多模態大模型的OCR感知能力不是特別強,容易像LLM一樣產生幻覺-即生成輸入圖像中并不存在的詞匯。LVLMs 設計用于通用目的,在OCR 任務上的表現往往不如在特定領域數據集上訓練的專家模型。

幻覺例子
下面來看一個方案,首先通過利用自身的 OCR 能力識別輸入圖像中的內容,然后調用 其他工具(即其他專家模型)獲取其結果作為參考,最后“再看一眼”圖像并重新思考推理過程,以提供最終的識別結果,從而減輕 LVLMs 幻覺問題。
方法
給定一張圖像和一個文本問題,DianJin-OCR-R1 首先利用自身的 OCR 能力識別輸入圖像中的相關內容。隨后,它調用其他專家模型或工具,并將其結果作為參考或補充信息。接著,模型“再次審視”圖像,綜合分析自身結果及其他模型的結果,反思在識別過程中是否出現錯誤或遺漏。最后,模型提供最終的識別內容。

過程pipline
數據構建

在印章、表格、公式三類OCR任務上生成推理數據,格式:
- 印章識別:文本
- 表格識別:HTML代碼(需包含單元格合并標記?
?colspan/rowspan??,確保結構與圖像完全一致); - 公式識別:LaTeX代碼。
三個任務的prompt:



數據構建的核心是生成包含“推理過程”和“正確結果”的結構化樣本,選用Qwen-VL-Max作為“推理鏈生成器”。
推理鏈(ri)的結構:模型自身識別的內容用 < think>< /think> 標簽包圍,多個工具響應用 < tool>< /tool> 標簽包圍,反思內容用 < rethink>< /rethink> 標簽包圍。生成的輸出用 < answer>< /answer> 標簽包圍。
數據集來源
- 印章識別
ReST數據集(ICDAR 2023印章標題識別競賽數據集),含5000張訓練圖、5000張測試圖(因測試集無標注,僅用訓練集);
參考工具:PP-StructureV3(專家OCR模型,低幻覺)、Qwen-VL-OCR(專家VLM,適配印章文本識別)。 - 表格識別
表格需同時覆蓋“語言多樣性”(中/英文)和“結構復雜性”(合并單元格、多層表頭);
a.內部數據集(補充未公開的復雜表格場景,如合并單元格、跨頁表格);
b.TabRecSet(公開雙語表格數據集,含38.1k表格,20.4k英文+17.7k中文);
c.參考工具:PP-StructureV3(表格結構解析,如??colspan/rowspan??識別)、MonkeyOCR-3B(LVLM,優化表格內容提取,適配雙語場景)。
- 公式識別
數據集:UniMER-1M
參考工具:PP-StructureV3(PP-FormulaNet模塊,優化公式結構解析)、MonkeyOCR-3B(擅長公式字符識別,減少符號錯誤)。
經過處理,構建了三類任務的推理數據集,統一表示為:


各數據集的token統計
模型訓練及獎勵概述
- Qwen2.5-VL-7B-Instruct 作為訓練底座,
- SFT掌握推理流程
- RFT優化精度與格式:
a.格式獎勵:推理鏈需嚴格包含< recognition>、< tool>、< rethink>、`` 標簽,且無額外內容 → 獎勵 1.0;否則 → 獎勵 0.0
b.準確率獎勵:(1)印章:完全匹配→1.0,否則 0.0;(2)表格:獎勵 = TEDS(結構 + 內容相似度);(3)公式:獎勵 = CDM(字符匹配度),CDM=1.0 時額外加 0.5(鼓勵完美結果)。
實驗效果


參考文獻:DianJin-OCR-R1: Enhancing OCR Capabilities via a Reasoning-and-Tool Interleaved Vision-Language Model,https://www.arxiv.org/pdf/2508.13238
repo:https://github.com/aliyun/qwen-dianjin
本文轉載自??大模型自然語言處理?? 作者:llmnlp

















