0.9B問鼎SOTA 文心4.5衍生模型PaddleOCR-VL發(fā)布并開源
10月16日晚,百度正式發(fā)布并開源自研多模態(tài)文檔解析模型PaddleOCR-VL。在全球權(quán)威文檔解析評測榜單OmniBenchDoc V1.5中,PaddleOCR-VL以92.6分取得綜合性能全球第一成績,四大核心能力(文本、表格、公式、閱讀順序)全線SOTA,超越 GPT-4o、Gemini-2.5 Pro、Qwen2.5-VL-72B等主流多模態(tài)大模型,以及MonkeyOCR-Pro-3B、MinerU2.5、dots.ocr等OCR專業(yè)模型,刷新全球OCR VL模型性能天花板。

據(jù)了解,PaddleOCR-VL其核心模型參數(shù)僅0.9B,輕量高效,能夠在極低計算開銷下,精準(zhǔn)識別文本、手寫漢字、表格、公式、圖表等復(fù)雜元素,支持109 種語言,覆蓋中文、英語、法語、日語、俄語、阿拉伯語、西班牙語等多語場景,廣泛適用于政企文檔管理、知識檢索、檔案數(shù)字化、科研信息抽取等文檔智能任務(wù)。
作為文心4.5衍生模型,PaddleOCR-VL-0.9B通過融合NaViT動態(tài)分辨率視覺編碼器與ERNIE-4.5-0.3B語言模型,在精度與效率上取得雙重突破。
精度方面,在OmniDocBench v1.5上,PaddleOCR-VL實現(xiàn)了文本編輯距離僅0.035、公式識別CDM91.43、表格 TEDS93.52、閱讀順序預(yù)測誤差值0.043的紀(jì)錄級表現(xiàn),模型在復(fù)雜文檔、手寫稿、歷史檔案識別等高難度場景中亦能表現(xiàn)穩(wěn)定。


推理方面,在單張A100GPU上,PaddleOCR-VL每秒可處理1881個Token,推理速度較 MinerU2.5提升14.2%,較 dots.ocr 提升253.01%。

區(qū)別于傳統(tǒng)OCR僅能逐行識別文字,PaddleOCR-VL能夠像人一樣讀懂、理解復(fù)雜版面結(jié)構(gòu),精準(zhǔn)提取財報表格、數(shù)學(xué)公式、課堂手寫筆記等多元信息,并在識別后自動還原符合人類閱讀習(xí)慣的閱讀順序,精準(zhǔn)區(qū)分標(biāo)題、正文、圖片與圖注,確保信息無遺漏、邏輯不混亂。
架構(gòu)上,PaddleOCR-VL 采用創(chuàng)新的兩階段架構(gòu):第一階段由 PP-DocLayoutV2 模型負(fù)責(zé)版面檢測與閱讀順序預(yù)測;第二階段由 PaddleOCR-VL-0.9B 識別并結(jié)構(gòu)化輸出文字、表格、公式、圖表等元素。相較端到端方案,能夠在復(fù)雜版面中更穩(wěn)定、更高效,有效避免多模態(tài)模型常見的幻覺與錯位問題。

憑借輕量架構(gòu)與高精度表現(xiàn),PaddleOCR-VL 在性能、成本和落地性上實現(xiàn)最佳平衡,具備強(qiáng)實用價值。其結(jié)構(gòu)化輸出能力還能與 RAG(檢索增強(qiáng)生成)系統(tǒng)深度結(jié)合,為大模型提供高質(zhì)量知識輸入,成為 AI 知識處理新階段的重要基礎(chǔ)設(shè)施。
目前,PaddleOCR-VL 已全面開源:
開源地址:
https://github.com/PaddlePaddle/PaddleOCR
技術(shù)報告地址:
https://ernie.baidu.com/blog/publication/PaddleOCR-VL_Technical_Report.pdf
體驗Demo地址:































