如何打造一個文檔解析的多模態大模型？MinerU2.5架構、數據、訓練方法原創

大模型自然語言處理

發布于 2025-10-17 09:44

瀏覽

0收藏

前期，筆者在《文檔智能》專欄中介紹了pipline式、兩階段式和端到端的多個文檔解析相關方案及技術點。如：

如何打造一個文檔解析的多模態大模型？MinerU2.5架構、數據、訓練方法-AI.x社區

pipline

如何打造一個文檔解析的多模態大模型？MinerU2.5架構、數據、訓練方法-AI.x社區

layout+VLM

如何打造一個文檔解析的多模態大模型？MinerU2.5架構、數據、訓練方法-AI.x社區

VLM finetune

下面再來看一個兩階段（一個VLM既做layout，也做OCR format）的VLM文檔解析模型-MinerU2.5。

方法

如何打造一個文檔解析的多模態大模型？MinerU2.5架構、數據、訓練方法-AI.x社區

MinerU2.5 的框架，在第一階段，MinerU2.5 對下采樣后的頁面執行快速的全局布局分析。在第二階段，MinerU2.5 利用布局分析結果從原始高分辨率文檔中裁剪出關鍵區域，并在這些原始分辨率的局部區域內進行細粒度的內容識別（例如，文本、表格和公式識別）。

模型架構

語言解碼器：LLM（Qwen2-Instruct-0.5B），M-RoPE 替換了原始的 1D-RoPE
視覺編碼器：使用Qwen2-VL視覺編碼器（NaViT-675M）進行初始化
patch merge：為了在效率和性能之間取得平衡，該架構在相鄰的 2 × 2 視覺 token 上使用 pixel-unshuffe對聚合后的視覺 token 進行預處理，然后再將其輸入大型語言模型。

訓練方法

如何打造一個文檔解析的多模態大模型？MinerU2.5架構、數據、訓練方法-AI.x社區

整體分三階段訓練:

階段 0-模態對齊

圖文對齊：僅訓練兩層 MLP，凍結其他模塊。Image Caption數據集訓練。
指令微調：解凍所有模塊，使用VQA數據訓練。

階段 1-文檔解析預訓練

文檔解析預訓練階段的目標是使VLM具備兩種能力：版面分析和內容識別，該階段是解凍所有模塊訓練。

訓練數據：

版式分析：大規模模型標注數據與公開數據集的混合數據，以確保足夠的規模和文檔多樣性。在版面分析方面，為兼顧訓練效率，將完整文檔圖像縮放到固定分辨率（1036 × 1036），并相應調整坐標，使用提示 “Layout Detection:”

數據樣式：

<|box_start |>100 200 300 400<| box_end|><|ref_start|>title <|ref_end|><|rotate_up|>
<|box_start |>400 500 600 700<| box_end|><|ref_start|>text <|ref_end|><|rotate_up|>

內容識別：注意：下面進行格式轉化時，輸入圖像將保持其原始分辨率，但圖像 token 數量將限制在 4 到 2048 的值域內。若超過此限制，圖像將相應地進行縮放。

a.文本：輸出為markdown格式，提示詞：“Text Recognition:”

b.表格：輸出為以 OTSL 格式（采用 OTSL 是因為它相較于HTML 作為視覺語言模型的目標具有顯著優勢。其極簡設計具有與表格視覺二維矩陣直接的結構對應關系，**將結構 token 數量從超過 28 個減少到僅 5 個，并將平均序列長度縮短約50%**。這使得它成為模型生成時更高效的輸出目標。最后一階段是將 OTSL 輸出簡單轉換為標準HTML。），提示詞：“Table Recognition:”

c.公式：輸出為latex公式，提示詞：“Formula Recognition:”

訓練設置： 初始化階段0的權重，訓練了 2 輪次。每輪次總共包含 690 萬個樣本，其中包括 230 萬用于版面分析，240 萬用于文本塊，110 萬用于公式塊，以及 110 萬用于表格塊。