最強OCR竟然不是DeepSeek、Paddle！HuggingFace新作：六大頂尖開源OCR模型橫評！繼DS后又殺出匹黑馬！

作者：聽雨 2025-10-24 16:42:09

在AI快速進化的浪潮中，文字和圖像的界限正在被重新定義。那些能“看懂”文件、理解圖表、讀出語義的視覺語言模型（VLM），正在讓傳統OCR（光學字符識別）進入一個全新的智能階段。

編輯 | 聽雨

在AI快速進化的浪潮中，文字和圖像的界限正在被重新定義。那些能“看懂”文件、理解圖表、讀出語義的視覺語言模型（VLM），正在讓傳統OCR（光學字符識別）進入一個全新的智能階段。如果你還以為OCR只是“識字”的工具，那你可能錯過了它真正的革命性變化。

這兩天，小編讀到AI開源平臺Hugging Face 發布的一篇關于開源 OCR 模型的文章，提供了全面的模型選擇和使用指南。

里面涵蓋了 DeepSeek-OCR、PaddleOCR-VL、dots.ocr 等六大主流模型的詳細分析對比，包括輸出格式、功能特性和多語言支持，同時提供 OmniDocBenchmark、OlmOCR-Bench、CC-OCR 三大權威基準測試的介紹，幫助詳細評估模型性能。

除此之外，文章里還提供這些模型的本地和云端部署的完整代碼示例，包括如何使用 vLLM、Transformers 等多種推理框架。

在這份指南中，你將了解到：

當前模型的格局與能力
何時應微調模型 vs. 直接使用開箱即用模型
選擇模型時需要考慮的關鍵因素
如何超越傳統 OCR，進入多模態檢索與文檔問答

對于需要為項目集成 OCR 功能的開發者，或正在構建文檔處理系統的團隊，這篇文章非常值得一讀。

話不多說，咱們開始吧！

一、從OCR到文檔AI：新的起點

光學字符識別（OCR）是計算機視覺最古老也最實用的任務之一。早期OCR只負責“識別文字”；而如今，隨著視覺語言模型（VLM）的興起，它已經變成能“理解文檔”的智能系統。

這些新模型不僅能識別掃描件中的文字，還能：

處理低質量掃描與手寫體；
理解表格、圖表、圖片等復雜結構；
甚至直接回答關于文檔的問題。

換句話說：OCR 不再只是“看見”，而是能“看懂”。

二、現代OCR的核心能力

1、轉錄

最新的 OCR 模型能夠將文本內容轉錄為機器可讀格式，輸入包括：

手寫文字
多語言字符（拉丁文、阿拉伯文、日文等）
數學公式
化學式
圖像、版面標簽、頁碼等

OCR 模型可將它們轉化為機器可解析的格式（如 HTML、Markdown 等）。

2、處理復雜文檔組件

除了純文本，一些模型還能識別：

圖片
圖表
表格

有些模型甚至能檢測圖片在文檔中的位置并正確插入，有的還能生成圖片描述并嵌入相應位置，這在將 OCR 輸出傳給 LLM 時尤為有用。典型模型包括OlmOCR（AllenAI）和 PaddleOCR-VL（PaddlePaddle）。

模型常見的輸出格式包括：

DocTags
HTML
Markdown

不同的輸出格式會影響表格與圖表的呈現方式：有的模型將圖表視作圖像保留；而另一些模型則將圖表轉化為 Markdown 表格或 JSON，如下例所示：

Chart Rendering

同理，表格會被轉換為機器可讀格式，同時保留列名、標題等上下文。

輸出格式：

現代 OCR 模型常用輸出格式如下：

DocTag：類 XML 格式，保留布局、文本樣式、元素層級信息（如 Docling 模型所用）

DocTags DocTags

HTML：常見文檔解析格式，表達結構清晰
Markdown：最易讀的格式，簡潔但不支持復雜表格
JSON：常用于結構化表格或圖表數據，不用于整篇輸出

選擇建議:

數字重建：選 DocTags / HTML（保留布局）
LLM 問答輸入：選 Markdown + 圖片描述
程序化分析：選 JSON 輸出

3、空間定位感知

文檔常有復雜布局（如多欄排版、浮動圖片）。傳統 OCR 需在后處理中手動排序文字，極易出錯。現代 OCR 模型引入布局元數據（“anchors”），用邊界框（bounding boxes）錨定文本，從而保留閱讀順序與位置關系，這個過程也稱為grounding/anchoring，有助于減少幻覺錯誤。

模型提示

OCR 模型可接受圖片輸入，有時還支持文本提示（prompt）。例如：

Granite-Docling 支持指令切換，如“Convert this page to Docling”或“Convert this formula to LaTeX”。
OlmOCR（AllenAI）依賴較長的系統提示詞。它基于 Qwen2.5-VL 微調，因此也能處理其他任務，但 OCR 性能最佳。

三、2025最新OCR模型橫評

為了幫助你更容易選擇合適的模型，我們整理了一份目前最有代表性的開源OCR模型對比表（非完整清單）。下面這些模型都有一個共同點：它們都具備版面感知能力（layout-aware），能解析表格、圖表、數學公式等復雜文檔結構。

每個模型所支持的語言列表可在其 Model Card（模型卡）中找到。除 Chandra 使用 OpenRAIL 許可證和 Nanonets 許可證不明確外，其余模型均為開源。文中的“平均分”（Average Score）來自模型卡上公布的評測結果，主要基于 OlmOCR Benchmark（一個僅含英文的標準測試集）。

值得注意的是：目前許多模型都基于Qwen2.5-VL或Qwen3-VL微調而來，所以文末也列出了Qwen3-VL的原始表現以作參考。

模型對比

模型名稱	輸出格式	特性	參數規模	多語言支持	平均OlmOCR基準分
Nanonets-OCR2-3B	結構化 Markdown / HTML 表格	提取簽名、水印、手寫；生成圖片描述	4B	英/中/法/阿等	N/A
PaddleOCR-VL	Markdown、JSON、HTML	支持手寫、舊文檔；可提示；圖表轉 HTML	0.9B	109種語言	N/A
dots.ocr	Markdown、JSON	Grounding；圖片嵌入	3B	多語言	79.1 ± 1.0
OlmOCR-2	Markdown、HTML、LaTeX	Grounding；批量優化	8B	僅英語	82.3 ± 1.1
Granite-Docling-258M	DocTags	Prompt 任務切換；位置標記	258M	英/日/阿/中	N/A
DeepSeek-OCR	Markdown、HTML	支持通用視覺理解；表格→HTML；手寫	3B	近百種語言	75.4 ± 1.0
Chandra	Markdown、HTML、JSON	Grounding；圖片提取	9B	40+語言	83.1 ± 0.9
Qwen3-VL	任意格式	可識別古文、手寫、圖片	9B	32語言	N/A

注：Qwen3-VL 是強大的視覺語言模型，能做文檔理解等任務，但并非專為 OCR 微調。使用時建議結合 prompt 實驗。

從整體評分來看，國外模型依然在準確率和結構化能力上占據上風。

在OlmOCR基準測試中，Chandra（83.1）與 OlmOCR-2（82.3）表現最佳，穩居第一梯隊，展現出強大的版面理解與表格解析能力。dots.ocr（79.1）也有不錯的綜合表現，尤其在圖像嵌入和手寫識別上表現均衡。

國產模型方面，DeepSeek-OCR（75.4）雖略低于國外頂尖模型，但在中文識別、跨語言泛化與推理速度上表現突出，成為最具潛力的新秀。Qwen3-VL則更偏向通用視覺語言模型，雖然沒有固定 OCR 提示詞優化，但在圖表重構與古籍識別上具備獨特優勢。PaddleOCR-VL延續了其輕量高效的傳統，支持 109 種語言，適合大規模部署與實際工程應用。

四、模型評估與基準

沒有“通吃型模型”。評估時要看任務需求（如表格輸出格式、語言等）。推薦基準：

OmniDocBenchmark：文檔類型多樣（書籍、雜志、教材），支持 HTML / Markdown 表格評估。
OlmOCR-Bench：以“單元測試”式評估英文文檔，涵蓋表格、版式、公式。
CC-OCR（多語言）：覆蓋多語言，但質量較低；是目前少數支持英文/中文以外語言的基準。

建議：若你的領域（如醫療、金融）在公開數據集中未被覆蓋，應自行收集代表性樣本來評估模型。

五、成本與部署效率

大多數OCR模型都在3B~7B參數之間，推理成本遠低于封閉API。舉例：

OlmOCR-2（配合vLLM/SGLang）：H100上每百萬頁成本約$178；
DeepSeek-OCR：A100單卡可日處理20萬頁；
支持量化版，進一步降本。

總體來看，開源模型在大規模使用時性價比顯著優于閉源方案。

六、開源OCR數據集

雖然開源模型爆發，但可用數據集仍稀缺。目前代表性數據包括：

olmOCR-mix-0225（AllenAI）：已被至少72個模型使用；
isl_synthetic_ocr：高質量合成數據；
Medical History of British India：人工校正的歷史檔案；
VLM生成數據 + 篩選算法：正成為主流趨勢。

未來，更多“可訓練即用”的開放數據集將推動社區加速前進。

七、本地與云端部署指南

本地部署

多數模型支持 vLLM 或 transformers 加載；
一行命令即可運行：vllm serve nanonets/Nanonets-OCR2-3B。

或用Python調用OpenAI兼容接口，輕松推理圖文。

MLX for Apple Silicon

Apple 推出的 MLX 框架可在 Mac 上本地運行 OCR 模型。

安裝方式：

pip install -U mlx-vlm

wget https://huggingface.co/datasets/merve/vlm_test_images/resolve/main/throughput_smolvlm.png

python -m mlx_vlm.generate --model ibm-granite/granite-docling-258M-mlx --max-to

云端部署

Hugging Face Inference Endpoints：一鍵托管推理；
Hugging Face Jobs：支持批量OCR推理，自動批處理數千張文檔，無需GPU本地部署。

八、OCR：文檔AI的未來

Visual Document Retrieval

支持直接對PDF堆棧進行“視覺搜索”的模型，可搭配向量數據庫構建多模態RAG系統。

Document Question Answering

相比先轉文本再喂LLM，更推薦直接使用如 Qwen3-VL 這類視覺語言模型——能保留圖表、公式、圖片上下文，避免信息損失。

可以預見，未來的文檔AI將不再只是OCR的升級，而是多模態智能的落地場景。開源模型的興起，讓成本和隱私問題不再是阻礙；而視覺語言模型的普及，則讓“文檔理解”從專業能力變成了普惠工具。我們正處在一個轉折點上——當機器開始“讀懂”人類的文字，信息的邊界也將被重新定義。

評論區的各位大佬：

你目前在用哪款OCR模型？更看重“精度”還是“速度”？

你覺得文檔AI的下一個突破點，會是更強的模型能力，還是更好的應用場景？

歡迎在評論區聊聊你的看法！

參考鏈接：https://huggingface.co/blog/ocr-open-models

責任編輯：武曉燕來源： 51CTO技術棧