端到端的多模態(tài)大模型文檔解析:POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案 原創(chuàng)
前期在《文檔智能專欄》中詳細(xì)介紹了各種pipline(MinerU、ppstructure、Docling等)、檢測(cè)+多模態(tài)VLM(monkeyocr等)、端到端(olmocr等)的文檔解析技術(shù)鏈路及相關(guān)方案。

pipline

layout+VLM

VLM finetune
下面再來(lái)看一個(gè)端到端的解析方案,騰訊開(kāi)源的多模態(tài)大模型-POINTS-Reader,實(shí)測(cè)了下效果一般,但可以看看數(shù)據(jù)合成及思路。
方法
1、數(shù)據(jù)形式
這個(gè)不用多說(shuō),基本上各種文檔解析的格式都趨向大同,純文本使用Markdown、表格使用html、數(shù)學(xué)公式使用LaTeX。

2、合成數(shù)據(jù)生成

兩階段pipline生成大規(guī)模高質(zhì)量數(shù)據(jù)集的過(guò)程
文檔解析的標(biāo)注數(shù)據(jù)由于其通用性還是非常難以獲取的,因此,為讓模型在統(tǒng)一格式下充分學(xué)習(xí),需生成多樣性高、覆蓋真實(shí)場(chǎng)景常見(jiàn)布局的合成數(shù)據(jù)。生成過(guò)程兼顧“數(shù)據(jù)多樣性”和“構(gòu)建效率”,POINTS-Reader的數(shù)據(jù)構(gòu)建思路如下:
1)數(shù)據(jù)分類
將合成數(shù)據(jù)分為4類,覆蓋文檔常見(jiàn)組合場(chǎng)景,確保模型接觸多樣化輸入:
- 僅含純文本(如單欄書籍正文);
- 含純文本+數(shù)學(xué)公式(如學(xué)術(shù)論文公式推導(dǎo)部分);
- 含純文本+表格(如財(cái)報(bào)數(shù)據(jù)表格部分);
- 含多列布局+表格(如報(bào)紙、學(xué)術(shù)論文的多欄表格排版)。
2)數(shù)據(jù)生成流程
- 文本生成:設(shè)計(jì)與類別匹配的Prompt,調(diào)用大語(yǔ)言模型(LLM,論文使用Qwen2.5-3B-Instuct)生成對(duì)應(yīng)內(nèi)容。例如,為“類別3(文本+表格)”設(shè)計(jì)Prompt時(shí),要求LLM生成帶表格描述的段落,并插入從PubTabNet(含復(fù)雜表格結(jié)構(gòu)的公開(kāi)數(shù)據(jù)集)中篩選的表格,增強(qiáng)數(shù)據(jù)真實(shí)性。
- 規(guī)則過(guò)濾:對(duì)生成的文本、表格、公式進(jìn)行初步質(zhì)量校驗(yàn)(提前篩除明顯錯(cuò)誤,如語(yǔ)法錯(cuò)誤的公式、結(jié)構(gòu)無(wú)效的表格)。
- HTML渲染:將過(guò)濾后的文本按“單欄、雙欄、三欄”布局模板轉(zhuǎn)換為HTML,通過(guò)Chrome的Headless Mode渲染為圖片,形成“圖片-文本(統(tǒng)一格式)”配對(duì)數(shù)據(jù)。
相關(guān)prompt:
- 文本

- 公式



- 表格

- 多欄



3)模型訓(xùn)練與迭代訓(xùn)練
用上述合成數(shù)據(jù)對(duì)VLM進(jìn)行微調(diào)訓(xùn)練,模型結(jié)構(gòu)上沒(méi)有特別大的創(chuàng)新,LLM使用的是qwen2,視覺(jué)側(cè)使用的是qwenvl的視覺(jué)編碼器,文中提到的一點(diǎn)就是迭代訓(xùn)練,思路一句話概括就是使用訓(xùn)練好的模型對(duì)更寬泛的數(shù)據(jù)進(jìn)行預(yù)測(cè),預(yù)測(cè)的數(shù)據(jù)通過(guò)各種規(guī)則校驗(yàn),然后加到訓(xùn)練數(shù)據(jù)中持續(xù)迭代訓(xùn)練,筆者認(rèn)為這樣最大的問(wèn)題就是很難評(píng)價(jià)這個(gè)“偽數(shù)據(jù)”是否符合訓(xùn)練數(shù)據(jù)的標(biāo)準(zhǔn)(僅覆蓋了過(guò)濾規(guī)則)。
實(shí)驗(yàn)

參考文獻(xiàn):POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversionrepo:https://github.com/Tencent/POINTS-Reader
本文轉(zhuǎn)載自??大模型自然語(yǔ)言處理?? 作者:llmnlp

















