DeepSeek-OCR實戰部署指南:視覺壓縮技術顛覆傳統OCR!
在人工智能飛速發展的浪潮中,DeepSeek團隊再次帶來令人振奮的開源力作——DeepSeek-OCR!這款基于“上下文光學壓縮”創新技術的模型,不僅在性能上全面超越之前爆火的Minuer,更重新定義了視覺文本處理的效率邊界。
# 倉庫地址
https://github.com/deepseek-ai/DeepSeek-OCR
# 模型下載地址
https://huggingface.co/deepseek-ai/DeepSeek-OCR
#技術報告地址
https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf
技術突破:從Minuer到DeepSeek的跨越
DeepSeek-OCR的發布標志著OCR技術進入新的發展階段。相比Minuer等現有解決方案,DeepSeek-OCR在多個維度實現顯著提升:
效率碾壓
- 在OmniDocBench基準測試中,僅100個視覺token的表現已超越眾多主流模型
- 10倍壓縮比下精度高達97%,遠超傳統方法
創新架構設計
DeepSeek-OCR采用獨特的雙組件架構:
DeepEncoder編碼器:融合SAM + CLIP雙結構,通過16×卷積壓縮模塊大幅減少視覺token數量,將1024×1024文檔從4096個token壓縮至僅256個token。
DeepSeek3B-MoE解碼器:采用專家混合模型,僅激活約5.7億參數,實現高效推理。
為什么說超越了Minuer?
Minuer作為文檔理解領域的重要模型,在處理復雜文檔時通常需要消耗大量計算資源。而DeepSeek-OCR通過以下方面實現全面超越:
計算效率革命
DeepSeek-OCR的“上下文光學壓縮”技術,將文本光學化處理,用極少的視覺token承載大量信息。這種創新方法讓模型在保持高精度的同時,計算開銷大幅降低。
精度與速度兼得
在實際測試中,DeepSeek-OCR不僅在處理速度上顯著優于Minuer,在復雜文檔解析、多語言支持、圖表識別等任務中也展現出更強的魯棒性和準確性。
資源需求大幅降低
單張A100-40G顯卡即可支持每日20萬頁以上的訓練數據生成,這使得DeepSeek-OCR在成本效益方面具有明顯優勢,為大規模應用鋪平道路。
多語言全球化
支持近100種語言的PDF文檔處理,滿足跨國企業的多樣化需求。
技術創新的深遠影響
DeepSeek-OCR的推出不僅是一個模型的發布,更是對長文本處理范式的重新思考:
當業界仍在通過增加上下文長度來解決問題時,DeepSeek選擇了完全不同的技術路徑——通過視覺壓縮實現信息的高效表示。這一創新為解決大模型的長上下文問題提供了全新思路。
項目代碼復現+實測分析
1、安裝環境
# 克隆項目
git clone https://github.com/deepseek-ai/DeepSeek-OCR.git
# 創建虛擬環境
conda create -n deepseek-ocr pythnotallow=3.12.9 -y
conda activate deepseek-ocr
# 安裝依賴環境
pip install torch==2.6.0 torchvisinotallow==0.21.0 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu118
pip install vllm==0.8.5
pip install -r requirements.txt
pip install flash-attn==2.7.3 --no-build-isolation2、啟動腳本
vllm的運行方式如下:
cd DeepSeek-OCR-master/DeepSeek-OCR-vllm
# image: streaming output
python run_dpsk_ocr_image.py3、實戰演練
在config.py文件中配置,模型的地址、圖片的輸入和輸出路徑;
模型地址下載:
https://huggingface.co/deepseek-ai/DeepSeek-OCR
作者找了一個2025年高考數學試卷,作為示例進行測試一下:
示例1

結果展示1:

markdown格式展示:
準考證號: 姓名:
(在此卷上答題無效)
絕密★本科目考試啟用前
# 2025年普通高等學校招生全國統一考試
# 數學
本試卷共4頁,19小題,滿分150分,考試用時120分鐘。
注意事項:
\(①\) 答卷前,考生務必將自己的準考證號、姓名填寫在答題卡上。
\(②\) 回答選擇題時,選出每小題答案后,用2B鉛筆把答題卡上對應題目的答案標號涂黑。如需要改動,用橡皮擦干凈后,再選涂其他答案標號。回答非選擇題時,用0.5毫米黑色簽字筆將答案寫在答題卡上。寫在本試卷上無效。
\(③\) 考試結束后,考生須將本試卷和答題卡一并交回。
## 一、選擇題:本大題共8小題,每小題5分,共計40分,每小題給出的四個選項中,只有一個選項是正確的,請把正確的選項填涂在答題卡相應的位置上。
1. \((1 + 5\mathrm{i})\) 的虛部為
A.-1
B.0
C.1
D.6
2. 設全集 \(U = \{1,2,3,4,5,6,7,8\}\) ,集合 \(A = \{1,3,5\}\) ,則 \(C_{U}A\) 中元素個數為
A.0
B.3
C.5
D.8
3. 若雙曲線 \(C\) 的虛軸長為實軸長的 \(\sqrt{7}\) 倍,則 \(C\) 的離心率為
A. \(\sqrt{2}\) B.2
C. \(\sqrt{7}\) D. \(2\sqrt{2}\)
4. 若點 \((a,0)(a > 0)\) 是函數 \(y = 2\tan (x - \frac{\pi}{3})\) 的圖象的一個對稱中心,則 \(a\) 的最小值為
A. \(\frac{\pi}{6}\) B. \(\frac{\pi}{3}\) C. \(\frac{\pi}{2}\) D. \(\frac{4\pi}{3}\)
5. 設 \(f(x)\) 是定義在 \(\mathbf{R}\) 上且周期為2的偶函數,當 \(2\leqslant x\leqslant 3\) 時, \(f(x) = 5 - 2x\) ,則 \(f(- \frac{3}{4}) =\)
A. \(-\frac{1}{2}\) B. \(-\frac{1}{4}\) C. \(\frac{1}{4}\) D. \(\frac{1}{2}\)
6. 帆船比賽中,運動員可借助風力計測定風速的大小和方向,測出的結果在航海學中稱為視風風速,視風風速對應的向量,是真風風速對應的向量與船行風速對應的向量之和,其中船行風速對應的向量與船速對應的向量大小相等,方向相反,圖1給出了部分風力等級、名稱與風速大小的對應關系,已知某帆船運動員在某時刻測得的視風風速對應的向量與船速對應的向量如圖2(風速的大小和向量的大小相同,單位 \(\mathrm{m / s}\) ),則真風為
A.輕風
B.微風
C.和風
D.勁風示例2

輸出的目錄下面,包含對應的圖片;

結果如下:

markdown的結果如下:
17. (15分)
如圖所示的四棱錐 \(P - ABCD\) 中, \(PA \perp\) 平面 \(ABCD\) , \(BC // AD\) , \(AB \perp AD\) .
(1)證明:平面 \(PAB\perp\) 平面 \(PAD\) ·
(2)若 \(PA = AB = \sqrt{2}\) , \(AD = \sqrt{3} +1\) , \(BC = 2\) , \(P\) , \(B\) , \(C\) , \(D\) 在同一個球面上,設該球面的球心為 \(O\) .
(i)證明: \(O\) 在平面 \(ABCD\) 上;
(ii)求直線 \(AC\) 與直線 \(PO\) 所成角的余弦值.

18. (17分)
設橢圓 \(C:\frac{x^{2}}{a^{2}} +\frac{y^{2}}{b^{2}} = 1(a > b > 0)\) ,記 \(A\) 為橢圓下端點, \(B\) 為右端點, \(|AB| = \sqrt{10}\) ,且橢圓 \(C\) 的離心率為 \(\frac{2\sqrt{2}}{3}\) .
(1)求橢圓的標準方程;
(2)設點 \(P(m,n)\) ·
(i)若 \(P\) 不在 \(y\) 軸上,設 \(R\) 是射線 \(AP\) 上一點, \(|AR|\cdot |AP| = 3\) ,用 \(m\) , \(n\) 表示點 \(R\) 的坐標;
(ii)設直線 \(OQ\) 的斜率為 \(k_{1}\) ,直線 \(OP\) 的斜率為 \(k_{2}\) ,若 \(k_{1} = 3k_{2}\) , \(M\) 為橢圓上一點,求 \(|PM|\) 的最大值.
19. (17分)
(1)求函數 \(f(x) = 5\cos x - \cos 5x\) 在區間 \([0,\frac{\pi}{4} ]\) 的最大值;
(2)給定 \(\theta \in (0,\pi)\) 和 \(a\in \mathbf{R}\) ,證明:存在 \(y\in [a - \theta ,a + \theta ]\) ,使得 \(\cos y\leqslant \cos \theta\) ·
(3)設 \(b\in \mathbf{R}\) ,若存在 \(\phi \in \mathbf{R}\) 使得 \(5\cos x - \cos (5x + \phi)\leqslant b\) 對 \(x\in \mathbf{R}\) 恒成立,求 \(b\) 的最小值.運行日志:
INFO 10-21 14:15:53 [async_llm_engine.py:211] Added request request-1761027353.
Some kwargs in processor config are unused and will not have any effect: image_mean, downsample_ratio, image_token, normalize, sft_format, candidate_resolutions, ignore_id, mask_prompt, image_std, patch_size, pad_token, add_special_token.
<|ref|>text<|/ref|><|det|>[[48, 27, 160, 48]]<|/det|>
17. (15分)
<|ref|>text<|/ref|><|det|>[[50, 61, 625, 120]]<|/det|>
如圖所示的四棱錐 \(P - ABCD\) 中, \(PA \perp\) 平面 \(ABCD\) , \(BC // AD\) , \(AB \perp AD\) .
<|ref|>text<|/ref|><|det|>[[98, 134, 408, 157]]<|/det|>
(1)證明:平面 \(PAB\perp\) 平面 \(PAD\) ·
<|ref|>text<|/ref|><|det|>[[48, 176, 636, 241]]<|/det|>
(2)若 \(PA = AB = \sqrt{2}\) , \(AD = \sqrt{3} +1\) , \(BC = 2\) , \(P\) , \(B\) , \(C\) , \(D\) 在同一個球面上,設該球面的球心為 \(O\) .
<|ref|>text<|/ref|><|det|>[[147, 253, 435, 276]]<|/det|>
(i)證明: \(O\) 在平面 \(ABCD\) 上;
<|ref|>text<|/ref|><|det|>[[147, 290, 547, 312]]<|/det|>
(ii)求直線 \(AC\) 與直線 \(PO\) 所成角的余弦值.
<|ref|>image<|/ref|><|det|>[[650, 66, 868, 217]]<|/det|>
<|ref|>text<|/ref|><|det|>[[48, 397, 160, 418]]<|/det|>
18. (17分)
<|ref|>text<|/ref|><|det|>[[46, 428, 852, 520]]<|/det|>
設橢圓 \(C:\frac{x^{2}}{a^{2}} +\frac{y^{2}}{b^{2}} = 1(a > b > 0)\) ,記 \(A\) 為橢圓下端點, \(INFO 10-21 14:15:58 [metrics.py:486] Avg prompt throughput: 182.5 tokens/s, Avg generation throughput: 77.2 tokens/s, Running: 1 reqs, Swapped: 0 reqs, Pending: 0 reqs, GPU KV cache usage: 0.2%, CPU KV cache usage: 0.0%.
B\) 為右端點, \(|AB| = \sqrt{10}\) ,且橢圓 \(C\) 的離心率為 \(\frac{2\sqrt{2}}{3}\) .
<|ref|>text<|/ref|><|det|>[[98, 528, 312, 550]]<|/det|>
(1)求橢圓的標準方程;
<|ref|>text<|/ref|><|det|>[[98, 562, 258, 584]]<|/det|>
(2)設點 \(P(m,n)\) ·
<|ref|>text<|/ref|><|det|>[[147, 596, 852, 658]]<|/det|>
(i)若 \(P\) 不在 \(y\) 軸上,設 \(R\) 是射線 \(AP\) 上一點, \(|AR|\cdot |AP| = 3\) ,用 \(m\) , \(n\) 表示點 \(R\) 的坐標;
<|ref|>text<|/ref|><|det|>[[147, 673, 852, 740]]<|/det|>
(ii)設直線 \(OQ\) 的斜率為 \(k_{1}\) ,直線 \(OP\) 的斜率為 \(k_{2}\) ,若 \(k_{1} = 3k_{2}\) , \(M\) 為橢圓上一點,求 \(|PM|\) 的最大值.
<|ref|>text<|/ref|><|det|>[[48, 826, 160, 847]]<|/det|>
19. (17分)
<|ref|>text<|/ref|><|det|>[[98, 861, 588, 895]]<|/det|>
(1)求函數 \(f(x) = 5\cos x - \cos 5x\) 在區間 \([0,\frac{\pi}{4} ]\) 的最大值;
<|ref|>text<|/ref|><|det|>[[98, 906, 770, 930]]<|/det|>
(2)給定 \(\theta \in (0,\pi)\) 和 \(a\in \mathbf{R}\) ,證明:存在 \(y\in [a - \theta ,a + \theta ]\) ,使得 \(\cos y\leqslant \cos \theta\) ·
<|ref|>text<|/ref|><|det|>[[98, 943, 832, 966]]<|/det|>
(3)設 \(b\in \mathbf{R}\) ,若存在 \(\phi \in \mathbf{R}\) 使得 \(5\cos x - \cos (5x + \phi)\leqslant b\) 對 \(x\in \mathbf{R}\) 恒成立,求 \(b\) 的最小值.INFO 10-21 14:16:03 [async_llm_engine.py:179] Finished request request-1761027353.
INFO 10-21 14:16:03 [async_llm_engine.py:65] Engine is gracefully shutting down.
===============save results:===============
image: 100%|███████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 18477.11it/s]
other: 100%|████████████████████████████████████████████████████████████████████████████████████| 16/16 [00:00<00:00, 142784.82it/s]
[rank0]:[W1021 14:16:04.037833982 ProcessGroupNCCL.cpp:1496] Warning: WARNING: destroy_process_group() was not called before program exit, which can leak resources.識別一張圖片,大概耗時10秒左右;
本文轉載自??AI小新??,作者:AI小新

















