文檔圖像旋轉對VLM OCR的影響及基于Phi-3.5-Vision+分類頭的文檔方向分類器及數據構建思路原創

大模型自然語言處理

發布于 2025-11-11 10:03

瀏覽

0收藏

假設文檔的存在方向旋轉，那么會進一步的干擾VLM進行OCR的性能，下面看一個預處理方案，解決文檔旋轉干擾OCR問題，并進行一些評估，方法較為簡單，快速看一下。

文檔圖像旋轉對VLM OCR的影響及基于Phi-3.5-Vision+分類頭的文檔方向分類器及數據構建思路-AI.x社區

OCR 工作流對比在樣本英文和印度文字文檔上進行旋轉校正前后的情況。由于對齊錯誤導致的重復和幻覺（紅色標注）等問題通過模塊得到緩解，從而獲得準確的結果

旋轉分類任務定義：將文檔旋轉校正轉化為四分類任務，覆蓋最常見的四種旋轉狀態：

類別0：-90°（逆時針旋轉90°）
類別1：0°（正立）
類別2：90°（順時針旋轉90°）
類別3：180°（倒置）

模型架構

視覺編碼器

初始化Phi-3.5-Vision-Instruct的視覺編碼器作為 backbone，該編碼器基于CLIP ViT-L/14結構，具備強視覺特征提取能力，且參數量適中（整體模型約304M參數）。

動態裁剪策略

為解決單一圖像輸入難以兼顧“全局布局”和“局部文本細節”的問題，設計了多尺度裁剪方案：

預處理步驟：先將輸入圖像（RGB格式，H×W×3）縮放、填充至“長和寬均能被336整除”的分辨率。
裁剪生成：

a.局部裁剪：將圖像分割為不重疊的336×336補丁（最多16個），捕捉局部文本特征。

b.全局裁剪：將整圖縮放到336×336，保留全局布局信息。

這么做可以通過多視角輸入提升模型對文本位置不均、邊緣填充過多等復雜場景的魯棒性。

分類頭

既然是一個四分類任務，那么自然有基于特征的分類頭。

特征聚合：每個裁剪塊經編碼器輸出序列后，提取首個位置的CLStoken（全局特征表示，跟bert的分類類似），再對所有裁剪塊的CLS token取平均，得到統一的圖像表征。
多層分類頭：采用輕量前饋神經網絡，結構為：

a.第一層：線性投影（維度從D→D/2，D為編碼器輸出維度1024）+ GELU激活 + 20% dropout（防過擬合）。

b.第二層：線性投影（維度從D/2→4），輸出四分類logits。

損失函數：Softmax交叉熵損失。

數據

文檔圖像旋轉對VLM OCR的影響及基于Phi-3.5-Vision+分類頭的文檔方向分類器及數據構建思路-AI.x社區

訓練數據：英文數據集（11K文檔圖像，含發票、合同等真實場景）；11種印度語言數據集（38K圖像，源自Wikisource

旋轉增強：對訓練數據均勻施加四種旋轉變換，模擬真實的隨機旋轉場景。

性能

文檔圖像旋轉對VLM OCR的影響及基于Phi-3.5-Vision+分類頭的文檔方向分類器及數據構建思路-AI.x社區

參考文獻：Seeing Straight: Document Orientation Detection for Efficient OCR，https://arxiv.org/pdf/2511.04161v1

本文轉載自??大模型自然語言處理?? 作者：老余

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

文檔圖像旋轉

VLM OCR

已于2025-11-11 10:09:38修改

贊

回復

舉報

回復

相關推薦

基于Mamba架構的，狀態空間音頻分類模型AUM

Aceryt ? 4511瀏覽 ? 0回復
Advanced RAG 11：對用戶輸入的內容進行「分類處理」和「再優化」

Baihai_IDP ? 3891瀏覽 ? 0回復
時頻圖像分類，還在用VGG、ResNet?

Tang_Lan ? 5600瀏覽 ? 0回復
時頻圖像分類，還在用VGG、ResNet?

Tang_Lan ? 4053瀏覽 ? 0回復
機器學習利器——決策樹分類器深度解析

51CTO內容精選 ? 3723瀏覽 ? 0回復
最強圖像大模型Phi-3.5-vision，教你跑起來

小虎哦哦 ? 4936瀏覽 ? 0回復
RAG高級優化：基于問題生成的文檔檢索增強

恰似驚鴻 ? 4534瀏覽 ? 0回復
Phi-3-Vision-128K大模型，AI助力OCR，文檔處理更上一層樓

小虎哦哦 ? 3701瀏覽 ? 0回復
使用OpenAI和Kumologica對用戶支持請求進行智能分類

51CTO內容精選 ? 3418瀏覽 ? 0回復
AdaBoost分類器完全圖解

51CTO內容精選 ? 3931瀏覽 ? 0回復
文本文字識別、公式識別、表格文字識別核心算法及思路及實踐-DBNet、CRNN、TrOCR

大模型自然語言處理 ? 4869瀏覽 ? 0回復
OCR-free感知多模態大模型技術鏈路及訓練數據細節

大模型自然語言處理 ? 4708瀏覽 ? 0回復
聊聊對強化微調（RFT）的理解及看法

NLP工作站 ? 3962瀏覽 ? 0回復
基于CNN＋PyTorch實現視覺檢測分類

51CTO內容精選 ? 3521瀏覽 ? 0回復
用RAG的思路構建文檔級別知識圖譜框架-RAKG

大模型自然語言處理 ? 2948瀏覽 ? 0回復
GRPO強化學習緩解多模態大模型OCR任務的幻覺思路及數據生成思路

大模型自然語言處理 ? 3211瀏覽 ? 0回復
基于YOLOv11的陶瓷分類智能框架融合視覺建模與經濟分析，實現文物分類及價值估測

HyperAI超神經 ? 2173瀏覽 ? 0回復
端到端的多模態文檔解析模型-DeepSeek-OCR架構、數據、訓練方法

大模型自然語言處理 ? 1403瀏覽 ? 0回復
多模態文檔智能解析-MonkeyOCR v1.5框架、數據構造及特點

大模型自然語言處理 ? 277瀏覽 ? 0回復

大模型自然語言處理

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

51CTO

51CTO博客

51CTO學堂

文檔圖像旋轉對VLM OCR的影響及基于Phi-3.5-Vision+分類頭的文檔方向分類器及數據構建思路原創

模型架構

視覺編碼器

動態裁剪策略

分類頭

數據

性能

目錄

51CTO

51CTO博客

51CTO學堂

文檔圖像旋轉對VLM OCR的影響及基于Phi-3.5-Vision+分類頭的文檔方向分類器及數據構建思路 原創

模型架構

視覺編碼器

動態裁剪策略

分類頭

數據

性能

目錄

文檔圖像旋轉對VLM OCR的影響及基于Phi-3.5-Vision+分類頭的文檔方向分類器及數據構建思路原創