再談DeepSeek-OCR的信息壓縮論!附DeepSeek-OCR與PaddleOCR實測對比!
分享了??DeepSeek-OCR的相關細節??,確實有被DS的高立意所折服,我還在苦苦利用OCR解析文檔做落地的時候,DeepSeek在考慮用圖像壓縮文本信息!
昨天一天的發酵,也是各種文本已死,視覺當立,我也是醉了,我這人呢,挺沒意思的,所以拋出幾個觀點大家一起討論,
第一個,文本Token數量壓縮到視覺Token數量的10倍以內時,解碼精度可達97%,但是這里會有一個問題,解碼的精度是字符的準確率,但是不代表文本信息重要性,我舉個例子,就是100個字里,你錯了3個字,如果要是關鍵人名,或者數值等內容識別錯了,就會很影響后面內容的使用或者傳遞~
純文字不形象的話,想想表格就更清晰了,如果表格單元格位置錯亂,會十分影響后面使用,所以壓縮率,對應的應該是信息精度,
但我也不知道如何去評價信息精度,只不過覺得單純看解碼精度,太過草率,
第二個,長上下文坍塌現象,我們都知道,LLM處理長文會出現越往后面,LLM的精度會出現一定的下降,
但是我在思考,假如正常LLM的坍塌在128K之后,那么經過壓縮的視覺Token,在處理的時候,會不會在12K的時候出現坍塌,模型到底能不能處理的了高密度信息Token,現在還在用MLP對齊,起碼,目前VLM在處理視頻的時候,每幀Token數和幀數都會影響模型最終效果
第三個,文本Token壓縮成視覺Token時,高壓縮率丟失的內容,真的比Summary丟失的要少嗎?直觀感覺會少一些,但是20倍壓縮60%的OCR準確率,是丟失信息、還是錯誤信息,是否依然保證原始信息的流暢,我的直覺,summary起碼信息是流暢的,但是圖像的信息壓縮,也許是斷續的。
上面只是一些思考,沒有否定DeepSeek-OCR的信息壓縮論,
因為我第一眼也是覺得醍醐灌頂,歡迎大家評論區討論,有相關paper歡迎丟出來。
順著信息壓縮這個思路往下走,那么就是提高極度壓縮下的精度,
上篇我也是立個Flag,說DeepSeek-OCR與PaddleOCR-VL對比一些,
這次真馬來了~

PS:趨勢榜前三名都是OCR模型,前五都能做OCR的事情,所以OCR是真好起來了,哈哈哈哈~

下面從純機文OCR識別、手寫體識別、形近字、數學公式、表格解析、豎版內容等多個角度來進行對比。
懶人不愛看版:
- 單論OCR能力,我只能說PaddleOCR-VL全面領先
- 針對機打純文DeepSeekOCR跟PaddleOCR-VL差不多
- 表格解析、豎版內容上,DeepSeekOCR存在一些不足
- 測試了不少圖片,下面例子是部分
- DeepSeek黨,求別噴,只是對比測試
測試鏈接:
??https://huggingface.co/spaces/PaddlePaddle/PaddleOCR-VL_Online_Demo??
??https://huggingface.co/spaces/axiilay/DeepSeek-OCR-Demo??
注意:DeepSeek-OCR選擇的精度均為Large
機打純文
純看模型的OCR能力,是否能將內容還原,最樸素的需求,直接解析我昨天發的文章。

PaddleOCR-VL效果:不看格式,內容完全正確,一字不差。

DeepSeekOCR效果:不看格式,內容完全正確,一字不差。

這種機打的純文本,對于現在大多數VLM模型還是沒啥難度的。
但調整small確實會出現錯誤,所以如果是高壓縮,還要看信息丟失程度

手寫文本
考察模型對手寫內容的識別準確率,能否直接處理壓縮手寫內容

PaddleOCR-VL效果:正確

DeepSeekOCR效果:錯了一個字

增億點難度,說實話,下面這個例子我都有的不認識,哈哈哈

PaddleOCR-VL效果:存在識別錯誤,但整體字符準確率要比DeepSeek-OCR高。

DeepSeekOCR效果:

形近字
考察模型是否可以準確識別形近字

PaddleOCR-VL效果:全部正確

DeepSeekOCR效果:錯了一個字,有點奇怪,昏和舀感覺差好多,不知道為啥錯了

數學公式
考察模型對數學公式解析的能力,是否可以將公式還原,

PaddleOCR-VL效果:解析正確

DeepSeekOCR效果:錯了一點


表格識別
考察模型的表格解析能力,能否將文本內容和表格結構均識別正確。

PaddleOCR-VL效果:識別正確

DeepSeekOCR效果:結構存在錯誤,就是如果表格內容,結構不對,對后面信息理解是巨大的傷害!

再來一個,

PaddleOCR-VL效果:識別正確,

DeepSeekOCR效果:結構存在問題

豎版內容識別
考察模型對豎版內容理解的能力,是否知道圖像為豎版內容,排序是否準確。

PaddleOCR-VL效果:正確,不僅內容識別全對,順序也沒有問題。

DeepSeekOCR效果:內容識別多出一句話,同時豎版內容理解也不對。

最后,在簡單過一下PaddleOCR的細節,由PP-DocLayoutV2和PaddleOCR-VL-0.9B兩部分組成,
PP-DocLayoutV2是用于識別文檔的結構信息,過濾圖片中無效視覺部分,如空白,這本身也算是一種“壓縮”吧。
PaddleOCR-VL-0.9B接受batch塊圖像進行識別,最終輸出結構化輸出。

其中,PaddleOCR-VL-0.9B依舊是經典三結構,圖像編碼器采用NaViT,MLP映射器,文本解碼器采用ERNIE4.5-0.3B模型,如下。

最后想說,圖像二維壓縮是個很好的方向,但也確實存在一些問題,在OCR這一塊,PaddleOCR確實是鼻祖級別,真別質疑百度的技術,哈哈哈!
VLM沒出來之前,PaddleOCR是必備,不過之前都是小模型,現在更新了0.9B版本,我已經準備換PDF解析工具了,
本文轉載自??NLP工作站??,作者:NLP工作站

















