精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

如何打造一個文檔解析的多模態大模型?MinerU2.5架構、數據、訓練方法 原創

發布于 2025-10-17 09:44
瀏覽
0收藏

前期,筆者在《文檔智能》專欄中介紹了pipline式、兩階段式和端到端的多個文檔解析相關方案及技術點。如:

如何打造一個文檔解析的多模態大模型?MinerU2.5架構、數據、訓練方法-AI.x社區

pipline

如何打造一個文檔解析的多模態大模型?MinerU2.5架構、數據、訓練方法-AI.x社區

layout+VLM

如何打造一個文檔解析的多模態大模型?MinerU2.5架構、數據、訓練方法-AI.x社區

VLM finetune

下面再來看一個兩階段(一個VLM既做layout,也做OCR format)的VLM文檔解析模型-MinerU2.5。

方法

如何打造一個文檔解析的多模態大模型?MinerU2.5架構、數據、訓練方法-AI.x社區

MinerU2.5 的框架,在第一階段,MinerU2.5 對下采樣后的頁面執行快速的全局布局分析。在第二階段,MinerU2.5 利用布局分析結果從原始高分辨率文檔中裁剪出關鍵區域,并在這些原始分辨率的局部區域內進行細粒度的內容識別(例如,文本、表格和公式識別)。

模型架構

  • 語言解碼器:LLM(Qwen2-Instruct-0.5B),M-RoPE 替換了原始的 1D-RoPE
  • 視覺編碼器:使用Qwen2-VL視覺編碼器(NaViT-675M)進行初始化
  • patch merge:為了在效率和性能之間取得平衡,該架構在相鄰的 2 × 2 視覺 token 上使用 pixel-unshuffe對聚合后的視覺 token 進行預處理,然后再將其輸入大型語言模型。

訓練方法

如何打造一個文檔解析的多模態大模型?MinerU2.5架構、數據、訓練方法-AI.x社區

整體分三階段訓練:

階段 0-模態對齊
  • 圖文對齊:僅訓練兩層 MLP,凍結其他模塊。Image Caption數據集訓練。
  • 指令微調:解凍所有模塊,使用VQA數據訓練。
階段 1-文檔解析預訓練

文檔解析預訓練階段的目標是使VLM具備兩種能力:版面分析和內容識別,該階段是解凍所有模塊訓練。

訓練數據:

  • 版式分析:大規模模型標注數據與公開數據集的混合數據,以確保足夠的規模和文檔多樣性。在版面分析方面,為兼顧訓練效率,將完整文檔圖像縮放到固定分辨率(1036 × 1036),并相應調整坐標,使用提示 “Layout Detection:”

數據樣式:

<|box_start |>100 200 300 400<| box_end|><|ref_start|>title <|ref_end|><|rotate_up|>
<|box_start |>400 500 600 700<| box_end|><|ref_start|>text <|ref_end|><|rotate_up|>
  • 內容識別:注意:下面進行格式轉化時,輸入圖像將保持其原始分辨率,但圖像 token 數量將限制在 4 到 2048 的值域內。若超過此限制,圖像將相應地進行縮放。

     a.文本:輸出為markdown格式,提示詞:“Text Recognition:”

     b.表格:輸出為以 OTSL 格式(采用 OTSL 是因為它相較于HTML 作為視覺語言模型的目標具有顯著優勢。其極簡設計具有與表格視覺二維矩陣直接的結構對應關系,**將結構 token 數量從超過 28 個減少到僅 5 個,并將平均序列長度縮短約50%**。這使得它成為模型生成時更高效的輸出目標。最后一階段是將 OTSL 輸出簡單轉換為標準HTML。),提示詞:“Table Recognition:”

     c.公式:輸出為latex公式,提示詞:“Formula Recognition:”

訓練設置: 初始化階段0的權重,訓練了 2 輪次。每輪次總共包含 690 萬個樣本,其中包括 230 萬用于版面分析,240 萬用于文本塊,110 萬用于公式塊,以及 110 萬用于表格塊。

第二階段-文檔解析微調

目標是在保持 VLM 已具備的檢測與解析能力的基礎上,進一步提升在復雜場景下的解析性能。

訓練數據:

  • 通過數據工程從預訓練數據集中抽取了高質量且多樣化的樣本,并將其納入第二階段訓練,確保對不同文檔元素類型的廣泛覆蓋。
  • 難樣本人工標注

訓練配置: 使用階段1模型初始化,訓練3輪。布局分析用 43 萬樣本,文本塊用 300 萬樣本,公式塊用 147 萬樣本,表格塊用 140 萬樣本。

數據增強策略

增強模型在開放世界情景下處理多樣化文檔的魯棒性,在第一階段和第二階段均設計了多種針對性的數據增強策略。這些增強方法模擬了常見的文檔干擾類型。

如何打造一個文檔解析的多模態大模型?MinerU2.5架構、數據、訓練方法-AI.x社區

數據增強策略

數據引擎

  • 版面多樣性:采用頁面級圖像聚類從廣泛的視覺版面和風格中選擇樣本。
  • 文檔類型多樣性:利用文檔元數據(例如,學科、標簽),進行分層采樣,以確保學術論文、教科書、報告和演示文稿等類型的均衡表示。
  • 元素平衡:初步的檢測模型有助于確保所篩選數據集中關鍵元素(如標題、段落、表格、公式和圖表)的類別分布均衡。
  • 語言平衡:對數據進行篩選,以保持中文和英文文檔的可比數量。

如何打造一個文檔解析的多模態大模型?MinerU2.5架構、數據、訓練方法-AI.x社區

實驗性能

如何打造一個文檔解析的多模態大模型?MinerU2.5架構、數據、訓練方法-AI.x社區

如何打造一個文檔解析的多模態大模型?MinerU2.5架構、數據、訓練方法-AI.x社區

參考文獻:MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing,https://arxiv.org/pdf/2509.22186

本文轉載自?????大模型自然語言處理??   作者:余俊暉

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
久久精品成人欧美大片古装| 欧美亚一区二区| 精品国产乱码久久久久久郑州公司| 国产精品自拍99| 日韩欧美三级| 亚洲高清免费观看高清完整版| 黄色av免费在线播放| 成人在线观看亚洲| 久久久噜噜噜久久中文字幕色伊伊| 91精品久久久久久久久| 免费一级特黄特色大片| 精品国产成人| 精品国产91久久久久久久妲己 | 国产综合色香蕉精品| 久久老司机精品视频| 精品国产一区二区三区香蕉沈先生 | 亚洲综合一区在线| 在线播放日韩专区| 性欧美18—19sex性高清| 另类中文字幕国产精品| 亚洲国产精品人人做人人爽| 亚洲蜜桃在线| 五十路在线视频| 国产乱码一区二区三区| 国产精品久久精品| 99精品视频99| 欧美日韩日本国产亚洲在线 | 欧美国产高潮xxxx1819| 亚洲视频专区在线| 亚洲天堂美女视频| 国产一区二区高清在线| 欧美私人免费视频| 91av资源网| 国产www视频在线观看| 日韩美女精品在线| 一区二区三区视频在线播放| 国产三级视频在线看| 99久久精品费精品国产一区二区| 91观看网站| 91精品国产乱码久久久| 日韩av电影天堂| 国产极品精品在线观看| 亚洲第一在线播放| 午夜亚洲性色视频| 7777kkkk成人观看| 中文字幕第28页| 伊人久久婷婷| 久久久久久久久久久成人| 乱h高h女3p含苞待放| 小说区亚洲自拍另类图片专区| 伊人久久久久久久久久| 男人的天堂官网| 日韩国产专区| 日韩中文字幕在线精品| 午夜激情福利电影| 综合久久婷婷| 欧美极品少妇xxxxⅹ喷水| www.av视频| 亚洲婷婷免费| 97久久精品人搡人人玩| 国产午夜福利片| 午夜在线观看免费一区| 欧美性在线视频| 国产精品熟女视频| 日本欧美在线看| 成人午夜在线观看| 亚洲h视频在线观看| 成人午夜私人影院| 蜜桃av色综合| 一本一道波多野毛片中文在线| 日本一区二区三区四区在线视频 | 成人网站免费观看| 伊人成综合网伊人222| 伊人青青综合网站| www欧美com| 在线精品福利| 国产精品夫妻激情| www.看毛片| 91丨九色porny丨蝌蚪| 亚洲国产欧美日韩| 国产精品一区hongkong| 日韩欧美精品在线观看| 一本色道久久亚洲综合精品蜜桃| 美女日韩一区| 精品无码久久久久久国产| www色com| 激情亚洲网站| 国产精品国模在线| 亚洲av综合色区无码一区爱av| av在线一区二区| 亚洲制服中文| 2018av在线| 欧美日韩亚洲综合一区二区三区| 免费在线观看日韩av| 亚洲欧洲美洲国产香蕉| 久久精品视频导航| 亚洲另类欧美日韩| 麻豆久久久久久| 国产伦精品一区二区三区在线| 国产片在线观看| 亚洲一区二区视频在线观看| 国产自偷自偷免费一区| 9999久久久久| 色777狠狠综合秋免鲁丝| 日韩成人高清视频| 久久99精品国产| 久久免费99精品久久久久久| 国产三级在线播放| 色婷婷综合久久久| 亚洲国产精品狼友在线观看| 四虎成人精品永久免费av九九| 性欧美视频videos6一9| 国产精品一级视频| 国产丝袜欧美中文另类| 成人黄色av片| 久久69av| 久久精品国产69国产精品亚洲| 午夜毛片在线观看| 丁香亚洲综合激情啪啪综合| 亚洲综合av一区| 日韩精品三区| 亚洲精品美女视频| 日本一区二区不卡在线| 国产裸体歌舞团一区二区| 日韩精品一区二区三区外面 | 国产精品av免费| 黄色aa久久| 欧美变态口味重另类| 久草手机视频在线观看| 日韩不卡手机在线v区| 精品福利影视| ****av在线网毛片| 欧美精品一区二区三区蜜桃 | 激情久久婷婷| 高清视频一区| 18videosex性欧美麻豆| 欧美无乱码久久久免费午夜一区| 亚洲观看黄色网| 亚洲精品1区| 99re视频在线播放| 18videosex性欧美麻豆| 日韩欧美在线综合网| 久久99久久99精品免费看小说| 久久国产精品露脸对白| 中文字幕久久一区| 亚洲青青久久| 久久综合久久美利坚合众国| 91福利在线观看视频| 国产精品成人网| 中文av字幕在线观看| 国产电影一区二区在线观看| 国产精品一二三视频| 日本韩国在线视频爽| 欧美色国产精品| 国产乱子轮xxx农村| 久久99在线观看| 成人在线观看www| 51vv免费精品视频一区二区| 久久青草福利网站| 日本1级在线| 欧美性大战久久久久久久蜜臀 | sdde在线播放一区二区| 国产乱肥老妇国产一区二| 乱人伦中文视频在线| 日韩一区二区三区在线观看| 日韩成人高清视频| 国产欧美精品一区二区色综合朱莉| 91最新在线观看| 91精品精品| 国产精品污www一区二区三区| av剧情在线观看| 亚洲欧美激情另类校园| 中文字幕在线观看高清| 亚洲另类在线制服丝袜| 99精品一区二区三区无码吞精| 中文一区在线| 亚洲欧洲日本国产| 国产精伦一区二区三区| 5252色成人免费视频| 成人精品一区| 日韩精品一区二区三区在线| 伊人久久综合视频| 国产精品青草久久| 亚洲一区二区在线免费| 久久黄色网页| 中文字幕精品在线播放| 久久久久久毛片免费看 | 日本精品黄色| 国产精品国产亚洲精品看不卡15| 周于希免费高清在线观看| 精品国产一区二区三区久久久狼| 亚洲精品国产精品乱码不卡| 99热这里只有精品1| 色哟哟一一国产精品| 亚洲综合福利| 国产精自产拍久久久久久| 50度灰在线| 亚洲视频在线观看网站| 国产av无码专区亚洲av| 欧美性xxxx极品高清hd直播| 欧美手机在线观看| 久久精品亚洲精品国产欧美kt∨| 亚洲天堂av一区二区| 一级成人国产| 亚洲美女自拍偷拍| 免费视频国产一区| 福利精品视频| 91成人小视频| 国产999精品久久久影片官网| 97caopron在线视频| 国产香蕉精品视频一区二区三区| 亚洲成人777777| 欧美绝品在线观看成人午夜影视| 日韩精品在线免费看| 亚洲视频免费在线观看| 91国模少妇一区二区三区| 国产高清一区日本| 蜜臀一区二区三区精品免费视频| 亚洲在线黄色| 国产男女免费视频| 亚洲字幕久久| 四虎影院一区二区| 日韩大片在线| 日韩欧美一区二区在线观看| 日本在线中文字幕一区| 成人片在线免费看| 国产在线视频欧美一区| 国产精品女主播视频| av综合电影网站| 91精品国产91久久久| 羞羞网站在线免费观看| 色av中文字幕一区| 在线免费黄色| 中文欧美日本在线资源| 可以免费看污视频的网站在线| 亚洲精品乱码久久久久久按摩观| 国模人体一区二区| 精品国产91亚洲一区二区三区婷婷| 国产wwwxxx| 欧美一区二区精美| 99精品久久久久久中文字幕 | 日韩在线视频网| 3p视频在线观看| 日韩中文字幕网址| 麻豆影视在线观看_| 久久精品亚洲国产| a天堂中文在线官网在线| 久久精品一区中文字幕| 黄色网址免费在线观看| 久久久精品网站| 成人video亚洲精品| 操日韩av在线电影| 日本色护士高潮视频在线观看| 久久91亚洲精品中文字幕奶水| 综合图区亚洲| 久久久综合av| 国内精彩免费自拍视频在线观看网址| 97免费中文视频在线观看| jizzjizz中国精品麻豆| 亚洲91av视频| 精品视频一区二区三区四区五区| 国产成人+综合亚洲+天堂| 欧美xxxx做受欧美护士| 国产欧美久久久久久| 精品国产乱码一区二区三区| 99久久久精品免费观看国产| 粉嫩的18在线观看极品精品| 麻豆亚洲一区| 日韩在线看片| 污污污污污污www网站免费| 亚洲黄网站黄| 在线观看的毛片| 国产一区二区三区观看| yjizz视频| 久久久久国产精品人| 黄色av片三级三级三级免费看| 亚洲欧美一区二区三区久本道91| 国产一级在线播放| 一本大道久久a久久综合婷婷| 一区二区自拍偷拍| 欧美一区二区精品在线| 神马精品久久| 色香阁99久久精品久久久| 主播国产精品| 日韩美女在线看| 国产精品毛片aⅴ一区二区三区| 99久久国产免费免费| 亚洲人成伊人成综合图片| 在线看成人av电影| 亚洲精品影院在线观看| 亚洲国产精品三区| 成人午夜视频网站| 久久中文字幕精品| 亚洲高清视频在线| 中文字幕观看视频| 亚洲精品在线观看网站| 婷婷激情在线| 欧美一区深夜视频| 久久免费精品| 日韩久久不卡| 亚洲看片一区| 99中文字幕在线| 久久久91精品国产一区二区精品| 日韩国产第一页| 一本久久综合亚洲鲁鲁五月天 | 国产一区二区免费| 国精一区二区三区| 成人观看高清在线观看免费| 夜色77av精品影院| 欧美精品在欧美一区二区| 麻豆一区二区三区| 免费一级做a爰片久久毛片潮| 亚洲影院理伦片| 国产精品久久婷婷| 一区二区三区精品99久久| av免费不卡| 91青青草免费在线看| 成人综合专区| 92看片淫黄大片一级| 成a人片亚洲日本久久| 97在线视频国产| 午夜美女福利视频| 久久久91精品国产一区不卡| 欧洲av不卡| 久草一区二区| 国产欧美日本| 中国特级黄色大片| 一区二区三区在线不卡| 国产精品视频一区二区三区,| 中文字幕av一区二区| 欧美黄色网页| 欧美日韩国产不卡在线看| 亚洲经典视频在线观看| 中文字幕18页| 亚洲一卡二卡三卡四卡无卡久久| 国产伦精品一区二区三区四区 | 天天综合av| 精品一卡二卡三卡四卡日本乱码| 欧美特黄一区| 国产欧美视频一区| 亚洲综合在线视频| 亚洲精品成人电影| 高清亚洲成在人网站天堂| 福利在线一区| 男人插女人视频在线观看| 不卡大黄网站免费看| 日韩成人在线免费视频| 亚洲第一天堂av| 国内老司机av在线| 狠狠色综合一区二区| 亚洲综合国产激情另类一区| jizz欧美性20| 色哟哟精品一区| 99riav在线| 91理论片午午论夜理片久久| 久久久久av| xxxxwww一片| 亚洲成人午夜影院| 四虎精品在永久在线观看| 日韩免费在线免费观看| 欧美理论电影大全| 中国黄色片一级| 一区二区三区免费看视频| 高清乱码毛片入口| 欧美在线视频一区二区| 欧美美女一区| 一级 黄 色 片一| 亚洲线精品一区二区三区八戒| 人妻无码中文字幕免费视频蜜桃| 69av在线播放| 成人在线免费观看91| 国产5g成人5g天天爽| 亚洲国产aⅴ天堂久久| 韩国三级在线观看久| 国产一区二区丝袜高跟鞋图片| 最新欧美人z0oozo0| yy1111111| 欧美色图12p| 国产蜜臀在线| 色综合电影网| 国产精品亚洲人在线观看| 少妇网站在线观看| 色综合久久网| 久草免费资源站| 日本精品一级二级| av大大超碰在线| 日本一区二区三区免费看| 国产在线视视频有精品| 成人毛片18女人毛片| 久久精品亚洲一区| 偷拍亚洲精品| 欧洲美女亚洲激情| 色综合久久天天| 成人免费网址| 日本一区二区三区免费看| 成人中文字幕电影| 国产又大又黄的视频| 欧美壮男野外gaytube| 欧美1区2区视频| 色一情一交一乱一区二区三区 |