如何打造一個文檔解析的多模態大模型?MinerU2.5架構、數據、訓練方法 原創
前期,筆者在《文檔智能》專欄中介紹了pipline式、兩階段式和端到端的多個文檔解析相關方案及技術點。如:

pipline

layout+VLM

VLM finetune
下面再來看一個兩階段(一個VLM既做layout,也做OCR format)的VLM文檔解析模型-MinerU2.5。
方法

MinerU2.5 的框架,在第一階段,MinerU2.5 對下采樣后的頁面執行快速的全局布局分析。在第二階段,MinerU2.5 利用布局分析結果從原始高分辨率文檔中裁剪出關鍵區域,并在這些原始分辨率的局部區域內進行細粒度的內容識別(例如,文本、表格和公式識別)。
模型架構
- 語言解碼器:LLM(Qwen2-Instruct-0.5B),M-RoPE 替換了原始的 1D-RoPE
- 視覺編碼器:使用Qwen2-VL視覺編碼器(NaViT-675M)進行初始化
- patch merge:為了在效率和性能之間取得平衡,該架構在相鄰的 2 × 2 視覺 token 上使用 pixel-unshuffe對聚合后的視覺 token 進行預處理,然后再將其輸入大型語言模型。
訓練方法

整體分三階段訓練:
階段 0-模態對齊
- 圖文對齊:僅訓練兩層 MLP,凍結其他模塊。Image Caption數據集訓練。
- 指令微調:解凍所有模塊,使用VQA數據訓練。
階段 1-文檔解析預訓練
文檔解析預訓練階段的目標是使VLM具備兩種能力:版面分析和內容識別,該階段是解凍所有模塊訓練。
訓練數據:
- 版式分析:大規模模型標注數據與公開數據集的混合數據,以確保足夠的規模和文檔多樣性。在版面分析方面,為兼顧訓練效率,將完整文檔圖像縮放到固定分辨率(1036 × 1036),并相應調整坐標,使用提示 “Layout Detection:”
數據樣式:
<|box_start |>100 200 300 400<| box_end|><|ref_start|>title <|ref_end|><|rotate_up|>
<|box_start |>400 500 600 700<| box_end|><|ref_start|>text <|ref_end|><|rotate_up|>- 內容識別:注意:下面進行格式轉化時,輸入圖像將保持其原始分辨率,但圖像 token 數量將限制在 4 到 2048 的值域內。若超過此限制,圖像將相應地進行縮放。
a.文本:輸出為markdown格式,提示詞:“Text Recognition:”
b.表格:輸出為以 OTSL 格式(采用 OTSL 是因為它相較于HTML 作為視覺語言模型的目標具有顯著優勢。其極簡設計具有與表格視覺二維矩陣直接的結構對應關系,**將結構 token 數量從超過 28 個減少到僅 5 個,并將平均序列長度縮短約50%**。這使得它成為模型生成時更高效的輸出目標。最后一階段是將 OTSL 輸出簡單轉換為標準HTML。),提示詞:“Table Recognition:”
c.公式:輸出為latex公式,提示詞:“Formula Recognition:”
訓練設置: 初始化階段0的權重,訓練了 2 輪次。每輪次總共包含 690 萬個樣本,其中包括 230 萬用于版面分析,240 萬用于文本塊,110 萬用于公式塊,以及 110 萬用于表格塊。
第二階段-文檔解析微調
目標是在保持 VLM 已具備的檢測與解析能力的基礎上,進一步提升在復雜場景下的解析性能。
訓練數據:
- 通過數據工程從預訓練數據集中抽取了高質量且多樣化的樣本,并將其納入第二階段訓練,確保對不同文檔元素類型的廣泛覆蓋。
- 難樣本人工標注
訓練配置: 使用階段1模型初始化,訓練3輪。布局分析用 43 萬樣本,文本塊用 300 萬樣本,公式塊用 147 萬樣本,表格塊用 140 萬樣本。
數據增強策略
增強模型在開放世界情景下處理多樣化文檔的魯棒性,在第一階段和第二階段均設計了多種針對性的數據增強策略。這些增強方法模擬了常見的文檔干擾類型。

數據增強策略
數據引擎
- 版面多樣性:采用頁面級圖像聚類從廣泛的視覺版面和風格中選擇樣本。
- 文檔類型多樣性:利用文檔元數據(例如,學科、標簽),進行分層采樣,以確保學術論文、教科書、報告和演示文稿等類型的均衡表示。
- 元素平衡:初步的檢測模型有助于確保所篩選數據集中關鍵元素(如標題、段落、表格、公式和圖表)的類別分布均衡。
- 語言平衡:對數據進行篩選,以保持中文和英文文檔的可比數量。

實驗性能


參考文獻:MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing,https://arxiv.org/pdf/2509.22186
本文轉載自?????大模型自然語言處理?? 作者:余俊暉

















