編輯 | 聽雨
在AI快速進化的浪潮中,文字和圖像的界限正在被重新定義。那些能“看懂”文件、理解圖表、讀出語義的視覺語言模型(VLM),正在讓傳統OCR(光學字符識別)進入一個全新的智能階段。如果你還以為OCR只是“識字”的工具,那你可能錯過了它真正的革命性變化。
這兩天,小編讀到AI開源平臺Hugging Face 發布的一篇關于開源 OCR 模型的文章,提供了全面的模型選擇和使用指南。
里面涵蓋了 DeepSeek-OCR、PaddleOCR-VL、dots.ocr 等六大主流模型的詳細分析對比,包括輸出格式、功能特性和多語言支持,同時提供 OmniDocBenchmark、OlmOCR-Bench、CC-OCR 三大權威基準測試的介紹,幫助詳細評估模型性能。
除此之外,文章里還提供這些模型的本地和云端部署的完整代碼示例,包括如何使用 vLLM、Transformers 等多種推理框架。
在這份指南中,你將了解到:
- 當前模型的格局與能力
- 何時應微調模型 vs. 直接使用開箱即用模型
- 選擇模型時需要考慮的關鍵因素
- 如何超越傳統 OCR,進入多模態檢索與文檔問答
對于需要為項目集成 OCR 功能的開發者,或正在構建文檔處理系統的團隊,這篇文章非常值得一讀。
話不多說,咱們開始吧!
一、從OCR到文檔AI:新的起點
光學字符識別(OCR)是計算機視覺最古老也最實用的任務之一。早期OCR只負責“識別文字”;而如今,隨著視覺語言模型(VLM)的興起,它已經變成能“理解文檔”的智能系統。
這些新模型不僅能識別掃描件中的文字,還能:
- 處理低質量掃描與手寫體;
- 理解表格、圖表、圖片等復雜結構;
- 甚至直接回答關于文檔的問題。
換句話說:OCR 不再只是“看見”,而是能“看懂”。
二、現代OCR的核心能力
1、轉錄
最新的 OCR 模型能夠將文本內容轉錄為機器可讀格式,輸入包括:
- 手寫文字
- 多語言字符(拉丁文、阿拉伯文、日文等)
- 數學公式
- 化學式
- 圖像、版面標簽、頁碼等
OCR 模型可將它們轉化為機器可解析的格式(如 HTML、Markdown 等)。
2、處理復雜文檔組件
除了純文本,一些模型還能識別:
- 圖片
- 圖表
- 表格
有些模型甚至能檢測圖片在文檔中的位置并正確插入,有的還能生成圖片描述并嵌入相應位置,這在將 OCR 輸出傳給 LLM 時尤為有用。典型模型包括OlmOCR(AllenAI)和 PaddleOCR-VL(PaddlePaddle)。
模型常見的輸出格式包括:
- DocTags
- HTML
- Markdown
不同的輸出格式會影響表格與圖表的呈現方式:有的模型將圖表視作圖像保留;而另一些模型則將圖表轉化為 Markdown 表格或 JSON,如下例所示:
Chart Rendering
同理,表格會被轉換為機器可讀格式,同時保留列名、標題等上下文。
輸出格式:
現代 OCR 模型常用輸出格式如下:
- DocTag:類 XML 格式,保留布局、文本樣式、元素層級信息(如 Docling 模型所用)
DocTags
- HTML:常見文檔解析格式,表達結構清晰
- Markdown:最易讀的格式,簡潔但不支持復雜表格
- JSON:常用于結構化表格或圖表數據,不用于整篇輸出
選擇建議:
- 數字重建:選 DocTags / HTML(保留布局)
- LLM 問答輸入:選 Markdown + 圖片描述
- 程序化分析:選 JSON 輸出
3、空間定位感知
文檔常有復雜布局(如多欄排版、浮動圖片)。傳統 OCR 需在后處理中手動排序文字,極易出錯。現代 OCR 模型引入布局元數據(“anchors”),用邊界框(bounding boxes)錨定文本,從而保留閱讀順序與位置關系,這個過程也稱為grounding/anchoring,有助于減少幻覺錯誤。
模型提示
OCR 模型可接受圖片輸入,有時還支持文本提示(prompt)。例如:
- Granite-Docling 支持指令切換,如“Convert this page to Docling”或“Convert this formula to LaTeX”。
- OlmOCR(AllenAI) 依賴較長的系統提示詞。它基于 Qwen2.5-VL 微調,因此也能處理其他任務,但 OCR 性能最佳。
三、2025最新OCR模型橫評
為了幫助你更容易選擇合適的模型,我們整理了一份目前最有代表性的開源OCR模型對比表(非完整清單)。下面這些模型都有一個共同點:它們都具備版面感知能力(layout-aware),能解析表格、圖表、數學公式等復雜文檔結構。
每個模型所支持的語言列表可在其 Model Card(模型卡)中找到。除 Chandra 使用 OpenRAIL 許可證 和 Nanonets 許可證不明確外,其余模型均為開源。文中的“平均分”(Average Score)來自模型卡上公布的評測結果,主要基于 OlmOCR Benchmark(一個僅含英文的標準測試集)。
值得注意的是:目前許多模型都基于Qwen2.5-VL或Qwen3-VL微調而來,所以文末也列出了Qwen3-VL的原始表現以作參考。
模型對比
模型名稱 | 輸出格式 | 特性 | 參數規模 | 多語言支持 | 平均OlmOCR基準分 |
Nanonets-OCR2-3B | 結構化 Markdown / HTML 表格 | 提取簽名、水印、手寫;生成圖片描述 | 4B | 英/中/法/阿等 | N/A |
PaddleOCR-VL | Markdown、JSON、HTML | 支持手寫、舊文檔;可提示;圖表轉 HTML | 0.9B | 109種語言 | N/A |
dots.ocr | Markdown、JSON | Grounding;圖片嵌入 | 3B | 多語言 | 79.1 ± 1.0 |
OlmOCR-2 | Markdown、HTML、LaTeX | Grounding;批量優化 | 8B | 僅英語 | 82.3 ± 1.1 |
Granite-Docling-258M | DocTags | Prompt 任務切換;位置標記 | 258M | 英/日/阿/中 | N/A |
DeepSeek-OCR | Markdown、HTML | 支持通用視覺理解;表格→HTML;手寫 | 3B | 近百種語言 | 75.4 ± 1.0 |
Chandra | Markdown、HTML、JSON | Grounding;圖片提取 | 9B | 40+語言 | 83.1 ± 0.9 |
Qwen3-VL | 任意格式 | 可識別古文、手寫、圖片 | 9B | 32語言 | N/A |
注:Qwen3-VL 是強大的視覺語言模型,能做文檔理解等任務,但并非專為 OCR 微調。使用時建議結合 prompt 實驗。
從整體評分來看,國外模型依然在準確率和結構化能力上占據上風。
在OlmOCR基準測試中,Chandra(83.1)與 OlmOCR-2(82.3)表現最佳,穩居第一梯隊,展現出強大的版面理解與表格解析能力。dots.ocr(79.1)也有不錯的綜合表現,尤其在圖像嵌入和手寫識別上表現均衡。
國產模型方面,DeepSeek-OCR(75.4)雖略低于國外頂尖模型,但在中文識別、跨語言泛化與推理速度上表現突出,成為最具潛力的新秀。Qwen3-VL則更偏向通用視覺語言模型,雖然沒有固定 OCR 提示詞優化,但在圖表重構與古籍識別上具備獨特優勢。PaddleOCR-VL延續了其輕量高效的傳統,支持 109 種語言,適合大規模部署與實際工程應用。
四、模型評估與基準
沒有“通吃型模型”。評估時要看任務需求(如表格輸出格式、語言等)。推薦基準:
- OmniDocBenchmark:文檔類型多樣(書籍、雜志、教材),支持 HTML / Markdown 表格評估。
- OlmOCR-Bench:以“單元測試”式評估英文文檔,涵蓋表格、版式、公式。
- CC-OCR(多語言):覆蓋多語言,但質量較低;是目前少數支持英文/中文以外語言的基準。
建議:若你的領域(如醫療、金融)在公開數據集中未被覆蓋,應自行收集代表性樣本來評估模型。
五、成本與部署效率
大多數OCR模型都在3B~7B參數之間,推理成本遠低于封閉API。舉例:
- OlmOCR-2(配合vLLM/SGLang):H100上每百萬頁成本約$178;
- DeepSeek-OCR:A100單卡可日處理20萬頁;
- 支持量化版,進一步降本。
總體來看,開源模型在大規模使用時性價比顯著優于閉源方案。
六、開源OCR數據集
雖然開源模型爆發,但可用數據集仍稀缺。目前代表性數據包括:
- olmOCR-mix-0225(AllenAI):已被至少72個模型使用;
- isl_synthetic_ocr:高質量合成數據;
- Medical History of British India:人工校正的歷史檔案;
- VLM生成數據 + 篩選算法:正成為主流趨勢。
未來,更多“可訓練即用”的開放數據集將推動社區加速前進。
七、本地與云端部署指南
本地部署
- 多數模型支持 vLLM 或 transformers 加載;
- 一行命令即可運行:vllm serve nanonets/Nanonets-OCR2-3B。
或用Python調用OpenAI兼容接口,輕松推理圖文。
MLX for Apple Silicon
Apple 推出的 MLX 框架可在 Mac 上本地運行 OCR 模型。
安裝方式:
pip install -U mlx-vlmwget https://huggingface.co/datasets/merve/vlm_test_images/resolve/main/throughput_smolvlm.png
python -m mlx_vlm.generate --model ibm-granite/granite-docling-258M-mlx --max-to
云端部署
- Hugging Face Inference Endpoints:一鍵托管推理;
- Hugging Face Jobs:支持批量OCR推理,自動批處理數千張文檔,無需GPU本地部署。
八、OCR:文檔AI的未來
Visual Document Retrieval
支持直接對PDF堆棧進行“視覺搜索”的模型,可搭配向量數據庫構建多模態RAG系統。
Document Question Answering
相比先轉文本再喂LLM,更推薦直接使用如 Qwen3-VL 這類視覺語言模型——能保留圖表、公式、圖片上下文,避免信息損失。
可以預見,未來的文檔AI將不再只是OCR的升級,而是多模態智能的落地場景。開源模型的興起,讓成本和隱私問題不再是阻礙;而視覺語言模型的普及,則讓“文檔理解”從專業能力變成了普惠工具。我們正處在一個轉折點上——當機器開始“讀懂”人類的文字,信息的邊界也將被重新定義。
評論區的各位大佬:
你目前在用哪款OCR模型?更看重“精度”還是“速度”?
你覺得文檔AI的下一個突破點,會是更強的模型能力,還是更好的應用場景?
歡迎在評論區聊聊你的看法!
參考鏈接:https://huggingface.co/blog/ocr-open-models




























