GRPO強化學習緩解多模態大模型OCR任務的幻覺思路及數據生成思路 原創
多模態大模型在“看不清”文字時瞎編答案,稱為“OCR幻覺”,如下圖,主要有幾點:(1)預訓練階段缺乏相關數據:關鍵信息提取(KIE)數據以及退化視覺場景的清晰標注顯著不足,限制了模型處理復雜視覺輸入的能力。指令微調階段忽視退化場景:現有研究通常假設 OCR 任務輸入為非退化圖像,導致模型缺乏處理真實世界退化文檔(如模糊、遮擋、低對比度)所需的推理能力。

Qwen2.5-VL-7B(左)與 GPT-4o(右)在解讀退化文本圖像中的表現。Qwen2.5-VL-7B模型可能出現幻覺,識別出圖像中不存在的數值,而 GPT-4o 模型則因部分文本遮擋而難以識別退化。
下面來看看一個思路。
數據集

KIE-HVQA數據集中三類數據的可視化展示。[Q] 代表問題,[G] 表示真實值,[P] 則是由 Qwen2.5-VL 模型在 zero-shot 提示下生成的預測。這些數據呈現出不同程度的退化,如模糊或損壞,影響了模型的預測準確率。
數據生成方法

數據生成pipline
主要思路如下:
數據生成方法分三步走,目的是構造一個專門用于訓練模型“看清模糊文字、不亂編答案”的冷啟動數據集,核心邏輯是:用現有模型生成“人類式思考”的鏈式推理(CoT)數據,再與圖像配對,形成多模態訓練樣本。流程如下:
Step 1:圖像→文本描述(借助GPT-4o)
輸入一張退化文檔圖像(如模糊的發票)+ 問題(如“這張發票的總金額是多少?”),用GPT-4o將圖像內容轉為純文本描述(包括文字內容、退化情況、空間位置等)。 目的是把多模態信息“翻譯”成語言模型能理解的文本。
- 例如:GPT-4o會描述“圖像中‘總金額’一欄的數字‘100’被污漬遮擋,僅能看到‘1’和‘00’的輪廓”。
Step 2:文本→鏈式推理(借助DeepSeek-R1)
輸入Step 1中生成的純文本描述 + 問題,用推理模型DeepSeek-R1生成人類式的思考鏈(CoT),模擬人如何一步步判斷,讓模型學會“看不清時不硬猜”,而是用邏輯推理標記不確定部分。
- 示例CoT:“觀察到‘總金額’欄的數字有污漬遮擋,但‘1’的豎線清晰,‘00’的輪廓部分可見,結合上下文‘人民幣符號¥’,推斷金額為‘100元’,但需標記‘00’為不確定區域。”
Step 3:合成多模態數據
輸入原始圖像(帶退化)和Step 2生成的CoT文本(含推理和不確定標記),輸出一個完整的多模態訓練樣本(圖像+問題+CoT答案)。
數據增強:
- 對圖像隨機添加退化(模糊、遮擋、低對比度)。
- 用OCR模型(如Qwen2.5-VL-72B)驗證退化后的字符是否仍可見,確保標注準確。
最終效果生成的數據集覆蓋身份證、發票、處方等場景。每個樣本都附帶:
- 像素級退化標注(哪些字符被遮擋)
- OCR可靠性得分(模型對字符可見性的置信度)
- CoT推理鏈(如何從不確定信息中得出結論)
方法

基于GRPO強化學習+多目標獎勵函數的框架,解決OCR幻覺問題。
獎勵函數設計
帶OCR獎勵的強化學習:設計基于規則的三級獎勵函數,強制模型根據視覺可見性輸出答案,避免幻覺。

獎勵函數設計:
將字符按可見性分為三類,不同處理策略:
- 清晰字符(如“B, a, u”):必須準確識別,獎勵高。
- 部分遮擋字符(如“e”被污漬蓋住30%):需標記為異常(如“e[部分可見]”),保留但提示不確定。
- 完全不可見字符(如“t, i”被完全遮擋):必須輸出空格,避免幻覺。

了單詞“Beautiful”中每個字母的退化標準。字母“B, a, u, f, u, l”清晰可見;字母“e”部分被遮擋;字母“t, i”則完全不可見
獎勵計算流程:
對模型預測和真實值計算編輯距離,生成三個指標:
- ?
?clear_metric??:清晰字符的準確率 - ?
?not_clear_metric??:模糊/遮擋字符的處理合理性 - ?
?final_metric??:最終答案與真實值的匹配度
復合獎勵:

其中c?, c?, c?為權重,確保模型優先視覺忠實度,而非盲目追求字符準確率。
訓練階段
冷啟動SFT:用前文生成的CoT數據微調Qwen2.5-VL-7B,學習“退化場景下的推理范式”。
GRPO強化學習:
- 輸入退化圖像(如模糊處方),模型生成多個候選答案。
- 獎勵函數評估每個答案是否“不幻覺”(如遮擋區域是否輸出空格)。
- 通過GRPO優化策略,使模型逐漸學會“無法識別時拒絕回答”。
實驗性能

參考文獻:Seeing is Believing? Mitigating OCR Hallucinations in Multimodal Large Language Models,https://arxiv.org/pdf/2506.20168v1
?
本文轉載自??大模型自然語言處理??? 作者:余俊暉

















