十億級參數,千億級性能,上海AI Lab發布新一代文檔解析大模型,復雜場景解析精度媲美人類專家
大模型越來越大,參數量動輒千億,但真要在實際場景里做到“高精度+高效率”,卻并不容易。
上海人工智能實驗室發布新一代文檔解析大模型——MinerU2.5。
作為MinerU系列最新成果,該模型僅以1.2B參數規模,就在OmniDocBench、olmOCR-bench、Ocean-OCR等權威評測上,全面超越Gemini2.5-Pro、GPT-4o、Qwen2.5-VL-72B等主流通用大模型,以及dots.ocr、MonkeyOCR、PP-StructureV3等專業文檔解析工具。
憑借高精度、多模態的文檔理解與結構化輸出能力,MinerU2.5尤其適合構建RAG知識庫與大規模文檔提取等實際應用場景。
△OmniDocBench文檔解析評測結果
從上圖可以看出,MinerU2.5在整體解析能力及單元素解析能力維度上全面第一。不僅如此,在技術報告中,無論是文本、公式、表格,還是閱讀順序等核心解析任務,MinerU2.5都展現出卓越的技術性能。

除了在指標上全面領先外,團隊還對不同類型文檔的解析結果進行了人工評估。
結果顯示,MinerU2.5在解析精度和用戶體驗上均實現顯著提升,在布局檢測、表格識別、公式識別、文本識別等關鍵任務上取得全面突破。
實現高精度與高效率
憑借1.2B精巧參數,MinerU2.5在大規模語料提取等生產力場景中兼顧高精度與高效率,體現出“小身材、大能量”的獨特優勢,展現出強大的應用價值。
為了保證模型能夠輕松處理不同來源、不同難度、包含不同元素的文檔,科研團隊精心設計了文檔解析數據引擎,為模型預訓練和微調階段提供多樣性、高質量數據。
針對文檔解析的預訓練階段,團隊考慮從文檔多樣性、元素多樣性、中英文數量均衡保證預訓練數據的多樣性,并通過多階段模型篩選保證數據質量。
在模型微調階段,團隊采用了基于推理一致性的迭代挖掘策略,針對一階段預訓練模型挖掘困難樣本,并結合智能化標注及專家修正保證數據足夠復雜、精準,有效提升模型在復雜樣本上的解析能力。

△MinerU2.5文檔解析大模型技術架構
最終模型在復雜排版、復雜公式及復雜表格上性能顯著提升,在其他普通樣本上的解析精度更是達到了媲美人工標注員的水平。
在解析效率方面,MinerU2.5采用了QwenVL2系列的原生分辨率視覺編碼器(675M)及0.5B的語言解碼器,模型總參數量接近1.2B。
在布局分析階段,MinerU2.5將高分辨率文檔圖像下采樣到1036*1036 從而實現高效解析。在內容識別階段,MinerU2.5僅需將切割的小區域元素進行原生分辨率編碼解析,解析速度快、精度高、幻覺少。
配合vLLM參數優化及工程優化,MinerU2.5在消費級顯卡4090(48G)上達到每秒1.7頁的解析速度,遠超其他大模型解析方案,讓高質量、低成本的解析成為現實。
出圖、表格和公式解析能力得到大幅提升

在出圖方面,模型魯棒性得到增強,可輕松處理各類文檔:在論文、數據、考題、課本、研報、財報、PPT等多樣性文檔上均表現出精準的解析結果。

此外,表格解析能力也得到了大幅提升:在各種類別的表格上,解析能力優秀,特別是旋轉表格、無線表、少線表和復雜表格上,相比于之前進步顯著。
在公式解析任務上,模型對各類公式均能輸出準確結果。特別地,MinerU2.5創新性地將復合公式解耦為多個原子公式進行解析,從而顯著提升了針對復雜長公式的解析能力。
MinerU2.5已經全面上線,包括HuggingFace、ModelScope和GitHub在內的多平臺均可獲取模型下載、源碼及在線Demo,科研人員和開發者都能輕松下載、運行和復現模型效果。
依托MinerU2.5多模態大模型核心能力,MinerU在線產品功能實現全面升級。
本次迭代新增了表格旋轉識別、無線或少線表格解析、跨格式文檔無損復制以及參考文獻識別等功能,并對中文公式、復雜數學公式以及嵌套表格的解析精度進行了優化。
所有新增功能已完整融入JSON/Markdown導出、復制、翻譯等重要操作,實現開箱即用、流暢無縫的使用體驗。
值得一提的是,導出的JSON文件保留了頁眉、頁腳、頁碼、腳注及側邊文本等全部信息,為開發者提供了更便捷的二次處理條件,同時大幅提升了文檔解析的準確性與適用范圍。

△MinerU在線版已全部上架MinerU2.5最新模型能力
在國產算力生態建設方面,OpenDataLab團隊采取“自主可控+開放協同”雙軌策略,持續推動國產化適配與算力優化。通過與DeepLink的聯合攻關,依托其開放計算體系實現多后端算力的打通,MinerU2.5得以在國產千卡級平臺上穩定高效運行。
同時,MinerU2.5正在與昇騰、沐曦、摩爾線程、寒武紀、海光等國產平臺完成深度適配,相關技術成果將以開源方式共享,為高性能應用場景提供可靠的產業化支撐。
在應用落地方面,MinerU已率先開發出面向N8n、扣子、FastGP、BISHENG等主流Agent平臺的插件,并為釘釘、Cherry Studio、Sider等知名AI工具提供接入與技術保障。
未來,團隊將繼續擴展國內外主流平臺及開發工具的適配范圍,推動技術與重點行業應用深度融合,構建開放、兼容且可持續發展的生態體系。
技術報告:https://arxiv.org/abs/2509.22186
開源項目:https://github.com/opendatalab/MinerU
開源模型:https://huggingface.co/opendatalab/MinerU2.5-2509-1.2B
在線使用:https://mineru.net
























