精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

復雜文檔也能一鍵讀懂?PaddleOCR VL + RAG 給出新答案

發布于 2025-11-6 07:28
瀏覽
0收藏

當文檔包含復雜表格、數學公式或多欄排版時,傳統 OCR 工具往往會產出雜亂內容,需要手動整理。

就在上周,我逛 GitHub 時看到了百度新近開源的 PaddleOCR-VL-0.9B。

老實講,看到它只有 9 億參數時,我第一反應是:“哦,又一個小模型來湊熱鬧?”但出于職業好奇,我還是要問一句:它能打嗎?結果完全把我震住了。

這不只是 OCR,這是文檔理解的一次量子飛躍

PaddleOCR-VL 遠超我的預期。它在全球權威評測榜 OmniDocBench v1.5 的綜合性能中拿到 92.6 的分數,位列全球第一;推理速度相較 MinerU2.5 提升 14.2%,相較 dots.ocr 提升 253.01%。

我最直觀的感受是:它非常準,甚至“準得過分”!不愧是能登頂的第一名模型。

今天我會圍繞四個關鍵挑戰來測試 PaddleOCR-VL:公式識別、表格識別、閱讀順序與結構、手寫體識別。

先看公式識別。我上傳了一張包含復雜數學公式的圖片。可以看到,模型處理得非常好——對上標、下標以及冗長復雜的表達式都能精準解析。

接著是表格識別。這是出了名的難題,表格樣式多,有的帶邊框,有的不帶,且包含大量數字,模型非常容易誤判。我用 PaddleOCR-VL 處理了多種表格樣例,準確率真的很能打。

另一個大難點是文檔結構與閱讀順序的理解。現代文檔不僅內容更復雜,而且版式變化很大:多欄設計、圖文混排、折頁、彩色印刷、傾斜掃描、手寫批注……這些都會讓 OCR 更困難。正確的閱讀順序并不總是簡單的自上而下、從左到右。

PaddleOCR-VL 的技術報告展示了它幾乎“像人一樣”理解復雜結構。無論是學術論文、多欄報刊,還是技術報告,它都能智能分析版面,并恢復符合人類直覺的閱讀順序。

最后,即使面對更復雜的版式,PaddleOCR-VL 依然非常穩定。比如這張手寫便簽:它混合了文本、數字、段落與圖片,左右、上下都有分欄,這類版面通常只有人才能理清頭緒。

PaddleOCR VL 有何獨特之處?

PaddleOCR VL 不再只是簡單的文本識別,而是能夠真正“理解”文檔結構。無論是學術論文、多欄報刊還是技術報告,PaddleOCR-VL 都能智能理解版面布局,并自動按正確的順序組織內容。

同時,它還能準確抽取復雜內容,例如文檔中的表格、數學公式、手寫筆記、圖表數據,并將其轉換成可直接使用的結構化數據。

此外,PaddleOCR-VL 支持 109 種語言的識別,覆蓋中文、英文、法語、日語、俄語、阿拉伯語、西班牙語等多語種場景,極大提升了模型在多語文檔中的識別與處理能力。

PaddleOCR VL 是如何訓練的

PaddleOCR-VL 由兩部分組成:PP-DocLayoutV2 和 PaddleOCR-VL-0.9B。

其中核心是 PaddleOCR-VL-0.9B,它將一個預訓練視覺編碼器(visual encoder)與動態分辨率預處理器(dynamic resolution preprocessor)、兩層 MLP projector,以及一個預訓練大語言模型(LLM)集成到一起。

其預處理技術使用原生動態高分辨率(native dynamic high resolution)。視覺編碼器采用 NaViT 風格編碼器(NaViT style encoder),支持原生分辨率輸入。

這一設計減少了幻覺(hallucinations),并提升了多模態視覺語言模型 PaddleOCR-VL-0.9B 的表現。

Projector 高效地把視覺編碼器的特征對接到語言模型的 embedding 空間。

在自回歸語言模型(autoregressive language model)中,序列是按 token 逐個生成的。這意味著解碼器的規模會直接影響整體推理時延,模型越小,解碼越快。

Let's start coding

現在我們一步步來,拆解如何搭建一個強大的推理應用。先安裝模型所需的依賴庫。我們用 pip 安裝:

!pip uninstall -y torch paddlepaddle paddlepaddle-gpu
!pip install torch torchvision --index-url https://download.pytorch.org/whl/cu118
!pip install paddleocr paddlepaddle
!pip install langchain langchain-community langchain-openai faiss-cpu sentence-transformers openai python-dotenv

下一步照例是導入相關庫,隨著我們繼續,你會逐漸理解它們的作用,并進行一些基礎配置。

PaddleOCR:以業界領先的準確率,將文檔和圖像轉換為結構化、對 AI 友好的數據(如 JSON 與 Markdown),為 AI 應用提供支撐。

import torch
from paddleocr importPaddleOCR
from langchain.text_splitterimportRecursiveCharacterTextSplitter
from langchain_community.vectorstoresimportFAISS
from langchain_community.embeddingsimportHuggingFaceEmbeddings
from langchain_openai importChatOpenAI
from langchain.chainsimportRetrievalQA
from langchain.docstore.documentimportDocument

于是我構建了這個 SimpleRAG 系統:用 PaddleOCR-VL 做文本抽取,用 OpenAI 生成回答。下面我來講講我是怎么做的。

在初始化階段,我配置了核心組件——使用 HuggingFace 的 BGE embeddings 做向量表示,使用 GPT-4o 作為對話模型,temperature 設為 0 以獲得穩定回復。我還初始化了稍后會構建的 vectorstore 和 QA chain。

在抽取方法上,一開始我嘗試了 HuggingFace transformers 版本的 PaddleOCR,結果報了一個關于 image tokens 不匹配的詭異錯誤;隨后安裝 PaddlePaddle 又把 PyTorch 搞壞了(不得不重啟環境,按正確順序重裝);接著我還得一路猜 API,因為有的方法已經棄用,新的參數也不一樣。

真正的突破來自我直接打印了返回結果對象的結構——原來它就是一個列表,列表里只有一個字典,而那個字典里有個鍵叫 rec_texts,里面就是識別到的所有文本字符串列表。

所以,與其去訪問什么復雜的嵌套結構比如 .boxes.text,我只需要判斷結果是不是字典,拿 rec_texts 這個鍵,把其中的字符串擴展進我的列表就好了。

class SimpleRAG:
    def__init__(self):
        self.embeddings = HuggingFaceEmbeddings(model_name="BAAI/bge-small-en-v1.5")
        self.llm = ChatOpenAI(model="gpt-4o", temperature=0)
        self.vectorstore = None
        self.qa_chain = None
        self.ocr = PaddleOCR(use_textline_orientation=True, lang='en')
    
    defextract_text_from_images(self, image_paths: list):
        docs = []
        for path in image_paths:
            result = self.ocr.predict(input=path)
            
            text_lines = []
            for res in result:
                ifisinstance(res, dict) and'rec_texts'in res:
                    text_lines.extend(res['rec_texts'])
            
            text = "\n".join(text_lines) if text_lines else"No text found"
            docs.append(Document(page_content=text, metadata={'source': path}))
        
        return docs

在 build_index 中,我會先從所有圖片中抽取文本,再用 RecursiveCharacterTextSplitter 將文檔切分為 1000 字符、重疊 200 字符的塊,用 BGE embeddings 構建 FAISS vectorstore,并搭建一個基于 GPT-4o 的 RetrievalQA chain,每次檢索 top-3 的相關片段。

對于 query,我只需把問題傳給 QA chain,它會完成檢索與生成,并返回答案。

def build_index(self, image_paths: list):
        docs = self.extract_text_from_images(image_paths)
        
        text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
        splits = text_splitter.split_documents(docs)
        
        self.vectorstore = FAISS.from_documents(splits, self.embeddings)
        self.qa_chain = RetrievalQA.from_chain_type(
            llm=self.llm,
            retriever=self.vectorstore.as_retriever(search_kwargs={"k": 3})
        )
defquery(self, question: str):
        returnself.qa_chain.invoke(question)

# Usage
rag = SimpleRAG()
rag.build_index(["Your pic"])
answer = rag.query("extract all the table?")
print(answer)

結語:

在這個 AI 技術飛速演進的時代,我們經常被“史上最強”“顛覆性”之類的宣傳包圍。然而真正有價值的突破,往往來自那些解決了具體問題、讓技術更易用的創新。

PaddleOCR-VL 也許不會登上大眾科技頭條,但對于每天都要處理文檔的開發者而言,它可能正是久等的答案。

畢竟,最好的技術,是能靜靜融入日常工作、讓你幾乎察覺不到它的存在。PaddleOCR-VL 正在扎實地朝這個方向邁進。

Reference:

本文轉載自??PyTorch研習社??,作者:AI研究生

已于2025-11-6 07:28:38修改
收藏
回復
舉報
回復
相關推薦
亚洲国产成人精品一区二区| 中文字幕中文字幕在线十八区 | 日韩不卡视频一区二区| 亚洲av人人澡人人爽人人夜夜| 免费资源在线观看| 黄色av日韩| 国产精品传媒入口麻豆| 91国内免费在线视频| 欧洲美女亚洲激情| 十九岁完整版在线观看好看云免费| 97精品国产一区二区三区| 欧美性极品xxxx娇小| 动漫一区二区在线| 国产在线一卡二卡| 亚洲a成人v| 国产精品国产三级国产a| 91九色在线观看| 懂色av懂色av粉嫩av| 日本成人a网站| 性欧美疯狂xxxxbbbb| 99视频网站| 久久久久久久福利| 亚洲一区二区三区在线免费 | 久久青青草综合| 久久精品国产亚洲av高清色欲 | а天堂中文在线官网| 日本午夜精品视频在线观看| 亚洲欧美激情精品一区二区| 日本黄色三级大片| 你懂得在线网址| 国产精品一区二区久激情瑜伽| 久久久精品电影| 在线播放黄色av| 亚洲高清黄色| 欧美国产精品一区二区三区| 国产精品久久久久久久久久尿| 日本高清免费观看| 人人澡人人添人人爽一区二区| 国产精品18久久久久久久网站| 欧美贵妇videos办公室| 亚洲调教欧美在线| 88xx成人免费观看视频库| 国产欧美在线观看一区| 国产一区二区香蕉| 久久久精品视频在线| 999精品视频| 一区二区亚洲精品国产| 潘金莲激情呻吟欲求不满视频| 成人免费高清| 国产精品日产欧美久久久久| 91老司机在线| 精品在线视频免费| 亚洲男女av一区二区| 欧美精品一区二区三区高清aⅴ| 18禁免费观看网站| av在线天堂播放| 国产美女娇喘av呻吟久久| 国产精品人人做人人爽| 亚洲AV无码成人精品区东京热| 国产日产精品_国产精品毛片| 欧美日韩高清一区二区不卡 | 九九热视频在线观看| 日韩经典一区二区| 久久夜色精品亚洲噜噜国产mv | 精品999日本久久久影院| 亚洲一区二区精品视频| 欧美少妇一区| 国产不卡精品视频| 亚洲男人影院| 日韩午夜在线视频| 亚洲精品国产成人av在线| 91午夜精品| 一本大道久久a久久精二百| 视频一区二区视频| 香蕉久久一区二区三区| 九色porny丨国产精品| 97超级碰碰碰久久久| 国产精品美女久久久久av爽| 91精品成人| 亚洲男人7777| 国精产品一区一区| 日韩美女毛片| 日韩欧美在线123| 国产情侣av自拍| 2019中文字幕在线电影免费 | 久久九九国产| 欧美xxxx做受欧美.88| 日韩av在线看免费观看| 在线一区二区三区视频| 亚洲成色777777在线观看影院| 中文字幕在线永久| 亚洲欧洲二区| 欧美自拍偷拍一区| 免费在线观看亚洲视频| 中国av在线播放| 亚洲a一区二区| 欧在线一二三四区| gogo高清午夜人体在线| 欧美性高潮床叫视频| 欧美成人福利在线观看| 黄色成人免费网| 无吗不卡中文字幕| 欧洲xxxxx| 日本天堂在线观看| 国产欧美日韩综合精品一区二区| 中文字幕久精品免| 成人免费黄色网页| 一区二区三区中文免费| 7777在线视频| 乡村艳史在线观看| 午夜精品123| 不卡av免费在线| 欧美xx视频| 69堂成人精品免费视频| 天天操天天干天天做| 久久综合五月婷婷| 亚洲国产精品va在线看黑人动漫| 韩国三级hd中文字幕| 国产欧美一区| 国内精品400部情侣激情| 国产真实夫妇交换视频| 久久久久国产精品一区二区| 91丨九色丨国产| 99青草视频在线播放视| 国产精品视频一二三区| xxxx18hd亚洲hd捆绑| 丁香花在线电影| 午夜电影久久久| 天堂av手机在线| 欧美日韩123| 亚洲午夜国产成人av电影男同| 精品人妻少妇嫩草av无码| 久久99影视| 久久久久久亚洲精品不卡| 日本少妇在线观看| 男人天堂欧美日韩| 99精彩视频| 麻豆tv免费在线观看| 亚洲人成伊人成综合网小说| 日本精品免费视频| 精品国产黄a∨片高清在线| 欧美日韩国产综合草草| 中文字幕人妻一区二区| 亚洲欧洲日本mm| 国产91在线播放| 亚洲资源在线播放| 成人性视频网站| 欧美另类网站| 蜜桃在线视频| 欧美日韩一区三区四区| 中国男女全黄大片| 伊甸园亚洲一区| 久久这里有精品| 在线免费观看一区二区| 国产精品美女久久久久久久| 日本在线观看免费视频| 日韩欧美中文字幕一区二区三区| 日韩av一区在线观看| 日本一级免费视频| 欧美激情aⅴ一区二区三区| 91精品国产色综合| 婷婷在线免费视频| 欧美国产精品v| 韩国中文字幕av| 成久久久网站| 欧美精品videossex性护士| 国产高清视频免费观看| 一区二区三区四区国产精品| 又大又长粗又爽又黄少妇视频| 午夜性色一区二区三区免费视频| 91亚洲精品在线观看| 欧美xxxx视频| 亚洲精品国产suv| 五月天婷婷丁香网| 麻豆成人av在线| 久久国产一区二区| 欧美大胆成人| 日韩在线视频网站| 九九九在线观看| 国产一区二区三区在线观看免费视频 | 伊人影院蕉久影院在线播放| 日韩欧美专区在线| 最新中文字幕av| 蜜桃一区二区三区四区| 国产欧美亚洲日本| 久草免费在线观看| 在线观看日韩精品| www.97视频| 日韩高清在线不卡| 三级网在线观看| 卡通动漫国产精品| 国产精品扒开腿爽爽爽视频 | 欧美国产高跟鞋裸体秀xxxhd| 十八禁一区二区三区| 日韩欧美成人精品| 看黄色录像一级片| 99久久精品一区| 菠萝蜜视频在线观看入口| 福利一区视频| 一个人看的www久久| 国产精品美女一区| 国产精品美女久久久久久2018| 99中文字幕在线| 香蕉久久夜色精品| 400部精品国偷自产在线观看| 77成人影视| 久久青草国产手机看片福利盒子| 成年无码av片在线| 偷拍精品一区二区三区| 欧美日韩在线综合| 久久午夜鲁丝片午夜精品| 久久久久久一级片| 黄网站欧美内射| 欧美日韩激情在线一区二区三区| 91av在线精品| 亚洲图片88| 精品中文字幕久久久久久| 国产精品自拍视频一区| 欧美激情资源网| 特级特黄刘亦菲aaa级| 欧美特黄a级高清免费大片a级| 91麻豆国产语对白在线观看| 色在线免费观看| 欧美丰满少妇xxxxx做受| xxxxx日韩| 亚洲激情在线观看| 国产福利免费视频| 欧美精品乱码久久久久久| 国产视频不卡在线| 久久国产精品99久久久久久老狼| 福利视频一区二区三区四区| 天天影视天天精品| 97久久人人超碰caoprom欧美| 视频一区在线免费看| 最近2019中文字幕在线高清 | 欧美久久天堂| 欧美高清视频在线| 成人片在线看| 久久国产一区二区三区| yjizz视频网站在线播放| 亚洲人在线观看| 国产精华7777777| 中文字幕制服丝袜一区二区三区| 蜜桃精品成人影片| 久久国产精品99精品国产 | 人在线成免费视频| 欧美高清一级大片| 中文字幕伦理免费在线视频| 久久久精品免费视频| 午夜精品一区| 综合欧美国产视频二区| 精品久久久中文字幕人妻| 亚洲va在线va天堂| 国产在线欧美在线| 亚洲观看高清完整版在线观看| 日本黄色特级片| 91香蕉视频污在线| 日本黄色的视频| 男女男精品网站| 密臀av一区二区三区| 日韩中文字幕一区二区三区| 国产97色在线 | 日韩| 奇米777欧美一区二区| 欧美黄色性生活| 精品在线亚洲视频| 97超碰人人看| 床上的激情91.| 国产精品伦子伦| 国产性色一区二区| av漫画在线观看| 99热精品一区二区| wwwwww日本| 日本一区二区视频在线| 91制片厂在线| 久久综合九色综合97婷婷女人 | 国产又粗又黄又爽| 无码av中文一区二区三区桃花岛| 草久视频在线观看| 欧美视频一区二| 亚洲一区欧美在线| 亚洲视频在线观看一区| 青娱乐91视频| 国产精品女人毛片| 日本午夜在线观看| 国产欧美一区二区在线| 国产黄色大片免费看| 中文字幕日韩一区二区| 美女100%无挡| 亚洲欧洲av另类| 麻豆一区二区三区精品视频| 欧美日韩在线另类| 国产精品第一页在线观看| 疯狂欧美牲乱大交777| 中文字幕福利视频| 色综合亚洲欧洲| 国产精品福利电影| 亚洲第一视频在线观看| 波多野结衣在线影院| 欧美精品一二区| 久久爱91午夜羞羞| 成人在线视频网| 欧美黄色成人| 国产综合精品一区二区三区| 日韩欧美字幕| 亚洲国产精品123| 精品国产乱码久久久久久1区2匹| 亚洲三区在线| 日韩欧美视频在线播放| 欧美视频在线第一页| 三级一区在线视频先锋| 国产精品丝袜久久久久久消防器材| 亚洲一级黄色| 美脚丝袜脚交一区二区| 精品动漫3d一区二区三区免费版| 久章草在线视频| 国产91精品一区二区麻豆亚洲| 久久久久无码精品| 国产99久久久国产精品潘金 | 日韩无套无码精品| 国产91精品精华液一区二区三区| 日本欧美一区二区三区不卡视频| 亚洲最色的网站| 久久午夜无码鲁丝片| 欧美丝袜丝交足nylons图片| 手机看片国产1024| 久久99久久99精品中文字幕| 污污网站在线观看| 欧美极品少妇xxxxⅹ裸体艺术| 成人免费视频观看| 欧美极品jizzhd欧美| 亚洲激情国产| 自拍偷拍激情视频| 中文字幕亚洲一区二区va在线| 69国产精品视频免费观看| 亚洲精品在线免费播放| av在线导航| 91精品在线看| 日韩在线视屏| 国产九九在线视频| 久久久久久久久岛国免费| 午夜精品三级久久久有码| 日韩欧美国产一二三区| 超碰在线网址| 成人写真视频福利网| 日本一区二区在线看| 午夜视频在线瓜伦| 久久久综合九色合综国产精品| 日本一级淫片色费放| 亚洲成人精品久久| 久久久123| 国产伦精品一区二区三| 最新亚洲精品| 黄色网页免费在线观看| av电影天堂一区二区在线观看| 动漫精品一区一码二码三码四码| 日韩欧美在线网站| 日本三级在线观看网站| 成人av电影免费| 亚洲小说欧美另类社区| 国产精品嫩草69影院| 亚洲成人av一区二区| 日韩在线视频第一页| 在线播放日韩av| 69堂精品视频在线播放| 亚洲精品无人区| 激情成人综合网| 在线观看国产三级| 欧美视频在线免费| 番号在线播放| 久久免费视频观看| 欧美理伦片在线播放| 国产一区二区三区精彩视频| 国产色一区二区| 亚洲综合精品国产一区二区三区| 久久久91精品国产| 精品久久ai电影| 乱子伦视频在线看| 中文字幕亚洲在| 人妻一区二区三区四区| 91国内精品久久| 成人在线国产| 中文字幕 欧美 日韩| 欧美性xxxx| 日本高清在线观看wwwww色| 亚洲自拍欧美色图| 日韩在线观看一区 | 一本一本久久a久久精品牛牛影视 一本色道久久综合亚洲精品小说 一本色道久久综合狠狠躁篇怎么玩 | 一本色道久久亚洲综合精品蜜桃 | 成人在线爆射| 中国人体摄影一区二区三区| 99久免费精品视频在线观看| 国产99久久久久久免费看| 精品国产一区二区三区久久狼黑人| 日韩第一区第二区| 欧美综合在线观看视频| 玉米视频成人免费看| 九色在线观看视频| 亚洲精品欧美日韩专区| 免费永久网站黄欧美| 精品无码一区二区三区蜜臀 |