0.07B大敗QwenVL72B!百度開源OCR3.0"三件套"
光學字符識別(OCR)任務誕生以來,經歷了“模式匹配→統計學習→深度卷積→視覺-語言大模型”四次范式遷移。 自 2023 年chatgpt爆火以后,以 GPT-4、Qwen-VL 為代表的百億級視覺-語言大模型(VLM)將 OCR 推向了新的高度:不再是簡單的“拍圖識字”,而是成為 RAG(檢索增強生成)與 LLM 預訓練語料構建的“知識入口”。
然而,工業界落地時,依然存在三大矛盾: (1)精度與參數量的矛盾:VLMs 在古籍、手寫、多語種場景下仍會出現漏檢、錯序、字符粒度偏移,而矯正成本隨參數量線性上升。 (2)效率與硬件的矛盾:生產環境往往只有單卡 T4 或邊緣 ARM CPU,VLMs 的 70B 參數難以部署。 (3)結構化與開放性的矛盾:純文本行輸出無法滿足“篇章-段落-表格-公式-圖表”多級粒度的文檔理解需求,下游 RAG 仍需二次解析。
一、PaddleOCR 3.0的解決方案

- PP-OCRv5:用 <0.1B 參數的單一模型實現中/英/日/簡/繁/拼音六體統一識別,在 17 類復雜場景平均 1-EditDist 超越 72B 級 VLM;
- PP-StructureV3:將版面分析、表格還原、公式識別、圖表解析、印章文本等任務封裝成“一鍵 JSON+Markdown”輸出,成為當前 OmniDocBench 中英雙語 Parsing 榜單 SOTA;
- PP-ChatOCRv4:把輕量化 OCR 與 ERNIE 4.5、PP-DocBee2 等 3B 級多模態模型通過 RAG 融合,實現“關鍵信息抽取(KIE)”端到端 Recall@1 85.55%,超過 GPT-4o 22 個百分點。
二、PP-OCRv5:0.07B 參數如何打敗 72B 大模型?

2.1 待解決問題
(1)多語種“拼圖”式部署:傳統方案需要 6 個獨立識別模型,顯存占用 6×,工業產線切換語種需重啟服務。
(2)手寫、古籍、模糊、旋轉等長尾場景漏檢率高:VLMs 預訓練以自然場景為主,對“白色試卷+鉛筆手寫”“豎排古籍+斷字”兩類分布欠擬合。
(3)邊緣端實時性:教育閱卷、金融雙錄、物流掃描等場景要求 CPU 單核 200 ms 以內完成 1080p 全圖識別。
PP-OCRv5 采用“四段式流水線”:圖像預處理→文本檢測→行方向分類→文本識別。 其中檢測與識別共用 PP-HGNetV2 主干,通過“知識蒸餾+數據合成+雙分支推理”三把斧,把精度損失從 2.3% 壓到 0.4%,而參數量僅為 Qwen2.5-VL-72B 的 1/1000。
2.2 統一多語種建模
創新點在于:
- 字根級 Token 合并:將 CJK 統一表意符號(URO)+ 日文 Shift-JIS + 英文 ASCII 合并為 28 887 個“字根”,通過 Embedding 層共享,實現“一字多形”映射。
- 動態詞匯表熱插拔:訓練階段采用 0.3 的 DropToken 比例隨機 mask 某一語種,推理階段通過 lang 信號動態切換輸出層,保證單模型同時服務多語種。
- 示例:下圖中同時出現“中文段落+日文振假名+英文標題”的 A4 掃描件,PP-OCRv5 僅一次前向即輸出正確 Unicode 序列,而 GOT-OCR2.0-0.5B 在日文人名“あべ”處出現“安部”→“安倍”的同音錯字。

2.3 手寫與古籍長尾增強


數據側的提升
- 引入 ERNIE-4.5-VL-424B 做“自動標注+編輯距離過濾”,從 120 萬頁古籍 PDF 中清洗出 1.8 億行高質量樣本;
- 用 Diffusion-based 手寫合成引擎,按“中小學試卷+銀行支票+法律筆錄”三類版式生成 6000 萬行合成數據,并通過“書寫壓力+墨水擴散”物理建模提升真實感。
模型側: - GTC-NRTR 分支:在訓練階段以 8 層 Transformer Decoder 做 Attention-based 序列建模,loss 為交叉熵;
- SVTR-HGNet 分支:采用純 CTC,去掉了自注意力,推理復雜度 O(n) ;
- 雙分支蒸餾:GTC-NRTR 作為教師,把 Attention 權重蒸餾到 SVTR 的卷積特征圖,使得輕量分支獲得字符間上下文。
- 在自建 Handwritten-17 數據集上,PP-OCRv5 手寫中文錯誤率 3.8%,較 PP-OCRv4 相對下降 26%,且推理耗時僅增加 7%。
2.4 檢測端“大模型教小模型”
- 教師模型:GOTOCR2.0 視覺編碼器(ViT-G/14,305M 參數);
- 學生模型:PP-HGNetV2-S(9.3M 參數);
蒸餾對象:
- 特征圖 L2 loss:選取 4 個 stage 輸出,加權 0.5/0.7/0.9/1.1;
- 響應型 KD:文本行中心線熱圖做 KL 散度,溫度系數 T=5;
- 困難樣本在線挖掘:ERNIE-4.5-VL 對 50 萬張圖像打偽標簽,與真值編輯距離∈[0.1,0.3] 的樣本視為困難,batch 內重采樣比例 30%。
結果:在 ICDAR 2025-ReCTS 中文招牌測試集,F1 從 87.2% 提升到 91.7%,超過 Gemini2.5-Pro 1.8 個百分點。
2.5 方向分類微模型
文本行方向分類僅 0.2M 參數,基于 PP-LCNetV3,支持 0°/90°/180°/270° 四分類。 訓練時采用“隨機旋轉+隨機透視+隨機彎曲”三聯增廣,使模型對古籍豎排、試卷倒拍、發票斜拍魯棒。 在 200 萬張內部驗證集上 Top-1 準確率 99.4%,單張 224×224 圖 CPU 推理 1.3 ms。
三、PP-StructureV3:把“版面”還原成“語義樹”

3.1 解決的問題
(1)多欄報刊、跨頁表格、浮動圖片導致閱讀序錯亂;
(2)表格結構復雜:合并單元格、無框線、斜線表頭;
(3)公式、圖表、印章與正文混雜,傳統 OCR 只給文本行,后續仍需人工劃區。
采用五段式流水線:預處理→OCR→版面分析→文檔元素識別→后處理。與 PP-OCRv5 的最大差異在于“版面分析”與“元素識別”兩層新增了 6 個專業模型,形成多模型級聯。
3.2 版面區域雙檢測
① Layout Detection:PP-DocLayout-plus,基于 Cascade R-CNN,類別擴展到 11 類(標題、段落、頁眉、頁腳、圖、表、公式、算法、印章、注釋、參考文獻);
② Region Detection:解決“一頁多文章”問題,采用 SOLOv2 實例分割,把不同文章的標題-段落-圖片聚合到同一區域 ID。
后處理采用“X-Y Cut+閱讀序啟發式”:先按 Y 軸投影切分欄,再在欄內按 X 軸排序,最后對 Region ID 做拓撲排序。在 OmniDocBench 的中文多欄報刊子集,閱讀序恢復準確率 96.7%,超過 Marker-1.2.3 約 18 個百分點。
3.3 表格還原 PP-TableMagic
- 表格方向分類:0°/90°/180°/270°;
- 框型分類:全線框、半框、無框、三線表;
- 單元格檢測:YOLOv8-X 改骨干為 PP-HGNetV2,輸出每個單元格 bbox;
- 結構識別:Encoder-Decoder Transformer,2560 token 長度,輸出 HTML。
創新點:
- 提出“單元格鄰接圖”中間表征:把檢測框視為節點,邊權=IoU+行列啟發式,用圖神經網絡做消息傳遞,解決合并單元格難題;
- 訓練數據 240 萬張,含 40% 合成樣本,合成引擎基于 Excel+LaTeX 隨機生成,通過“RAG 種子+LLM Persona”控制業務分布。
實驗:在 PubTabNet 英文表,TEDS score 96.8%;在自建中文財報表(含合并單元格)TEDS 95.1%,超過 Gemini2.5-Pro 1.9 個百分點。
3.4 公式識別 PP-FormulaNet_plus
- token 長度提升到 2560,支持多行公式;
- 中文漢字公式數據挖掘:從 arXiv-CN、知網學位論文爬取 120 萬張含“中文+公式”頁面,用 ERNIE-4.5-VL 做弱標簽;
- 采用“樹結構注意力”:在 Transformer Decoder 引入 Parent-Attention,強制當前 token 只能 attend 到語法樹祖先節點,提升長公式一致性。
結果:在 CROHME 2025 測試集,ExpRate 58.3%,較 Nougat 相對提升 9.6%。
3.5 圖表解析 PP-Chart2Table
輕量級 ViT-Lite + 線性投影,預訓練任務為“打亂數據恢復”:把柱狀圖、折線圖、餅圖的原始數據 csv 隨機打亂行/列,讓模型重排,迫使它真正理解數值映射關系。
微調階段用 480 萬張合成圖表,RAG 引擎從世界銀行、國家統計局抓取真實數據作為種子,LLM 負責按業務 persona 生成標題、圖例、顏色。
下游任務:輸入圖表 PNG,直接輸出 Markdown 表格。在自建 Chart2Table-Test 數據集,數值精度 F1 93.7%,超過 GPT-4o 14 個百分點。
3.6 印章文本彎曲矯正
專用 PP-OCRv4_seal:
- 彎曲文本檢測:PolarNet,把彎曲文本展開到極坐標,輸出極坐標掩膜;
- 文本識別:用 PP-LCNetV3 輕量識別頭,支持橢圓、圓形、菱形印章;
- 數據:從 3000 家電子發票平臺收集 120 萬枚印章,用 Diffusion 做“印章磨損+油墨淡化”仿真。
結果:在自測集,印章文本 1-EditDist 0.932,超過通用 GOT-OCR 0.11。
3.7 后處理:閱讀序與標題-圖表關聯
采用“三階段圖算法”:
- 同區域內部按 Y-X 排序;
- 跨區域按拓撲序;
- 圖-表-公式與標題做最大權匹配,權值=空間距離+語義相似度(ERNIE 句向量)。
在 2000 頁多欄 PDF 上,人工標注 8000 條“圖-標題”對,匹配準確率 97.4%。

四、PP-ChatOCRv4:讓 OCR 成為 RAG 的“知識引路人”

4.1 待解決問題
(1)傳統 KIE 依賴“BIEO 標注+CRF”,遷移到新領域需重標;
(2)多頁 PDF、罕見字符、跨段落表格導致上下文超長,LLM 易幻覺;
(3)純 VLM 方案成本高,638 張文檔 1196 條問答,GPT-4o 調用費 > 200 美元。
4.2 解決思路
“輕量化 OCR + 向量檢索 + 多模態 LLM 融合”:
- OCR 側:PP-Structure 輸出段落-表格-公式 JSON,保證字符粒坐標;
- 檢索側:用 ERNIE 文本向量做 RAG,先召回 Top-5 段落,降低 LLM 輸入長度 80%;
- 多模態側:3B 參數的 PP-DocBee2 直接看圖回答,避免 OCR 誤差傳播;
- 融合側:規則+置信度投票,文本答案與視覺答案沖突時,選置信度高者。
4.3 向量檢索模塊
- 切塊策略:按“段落+表格一行”為最小單元,256 token;
- 索引:FAISS-IVF1024,向量維數 768;
- 召回:雙路召回,文本向量+表格 HTML 向量加權,alpha=0.7。
- 結果:在 638 張文檔的 1196 條問答,召回率 94.3%,比純稀疏 BM25 高 11 個百分點。
4.4 Prompt 工程
采用“三段式”模板:
- 任務描述:你是文檔助手,請嚴格依據提供的段落回答;
- 上下文:把召回的 Top-5 段落按閱讀序拼接;
- 輸出格式:JSON,key 為問題,value 為答案+引用段落 ID。
- 通過 Few-shot 4 例 in-context learning,把幻覺率從 18% 降到 4%。
4.5 結果融合策略
- 文本流置信度:ERNIE 4.5 生成概率平均;
- 視覺流置信度:PP-DocBee2 的 softmax 最大概率;
- 沖突規則:若兩者編輯距離>0.3,選置信度高者;否則選文本流(字符精度更高)。
- 最終 Recall@1 85.55%,超過 Qwen2.5-VL-72B 5.3 個百分點,平均單張 A4 調用成本僅 0.8 分人民幣。

??https://github.com/PaddlePaddle/PaddleOCR??
本文轉載自???CourseAI???,作者:CourseAI

















