精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

端到端的多模態(tài)大模型文檔解析:POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案 原創(chuàng)

發(fā)布于 2025-9-16 06:56
瀏覽
0收藏

前期在《文檔智能專欄》中詳細(xì)介紹了各種pipline(MinerU、ppstructure、Docling等)、檢測(cè)+多模態(tài)VLM(monkeyocr等)、端到端(olmocr等)的文檔解析技術(shù)鏈路及相關(guān)方案。

端到端的多模態(tài)大模型文檔解析:POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

pipline

端到端的多模態(tài)大模型文檔解析:POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

layout+VLM

端到端的多模態(tài)大模型文檔解析:POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

VLM finetune

下面再來(lái)看一個(gè)端到端的解析方案,騰訊開(kāi)源的多模態(tài)大模型-POINTS-Reader,實(shí)測(cè)了下效果一般,但可以看看數(shù)據(jù)合成及思路。

方法

1、數(shù)據(jù)形式

這個(gè)不用多說(shuō),基本上各種文檔解析的格式都趨向大同,純文本使用Markdown、表格使用html、數(shù)學(xué)公式使用LaTeX。

端到端的多模態(tài)大模型文檔解析:POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

2、合成數(shù)據(jù)生成

端到端的多模態(tài)大模型文檔解析:POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

兩階段pipline生成大規(guī)模高質(zhì)量數(shù)據(jù)集的過(guò)程

文檔解析的標(biāo)注數(shù)據(jù)由于其通用性還是非常難以獲取的,因此,為讓模型在統(tǒng)一格式下充分學(xué)習(xí),需生成多樣性高、覆蓋真實(shí)場(chǎng)景常見(jiàn)布局的合成數(shù)據(jù)。生成過(guò)程兼顧“數(shù)據(jù)多樣性”和“構(gòu)建效率”,POINTS-Reader的數(shù)據(jù)構(gòu)建思路如下:

1)數(shù)據(jù)分類

將合成數(shù)據(jù)分為4類,覆蓋文檔常見(jiàn)組合場(chǎng)景,確保模型接觸多樣化輸入:

  • 僅含純文本(如單欄書籍正文);
  • 含純文本+數(shù)學(xué)公式(如學(xué)術(shù)論文公式推導(dǎo)部分);
  • 含純文本+表格(如財(cái)報(bào)數(shù)據(jù)表格部分);
  • 含多列布局+表格(如報(bào)紙、學(xué)術(shù)論文的多欄表格排版)。

2)數(shù)據(jù)生成流程

  • 文本生成:設(shè)計(jì)與類別匹配的Prompt,調(diào)用大語(yǔ)言模型(LLM,論文使用Qwen2.5-3B-Instuct)生成對(duì)應(yīng)內(nèi)容。例如,為“類別3(文本+表格)”設(shè)計(jì)Prompt時(shí),要求LLM生成帶表格描述的段落,并插入從PubTabNet(含復(fù)雜表格結(jié)構(gòu)的公開(kāi)數(shù)據(jù)集)中篩選的表格,增強(qiáng)數(shù)據(jù)真實(shí)性。
  • 規(guī)則過(guò)濾:對(duì)生成的文本、表格、公式進(jìn)行初步質(zhì)量校驗(yàn)(提前篩除明顯錯(cuò)誤,如語(yǔ)法錯(cuò)誤的公式、結(jié)構(gòu)無(wú)效的表格)。
  • HTML渲染:將過(guò)濾后的文本按“單欄、雙欄、三欄”布局模板轉(zhuǎn)換為HTML,通過(guò)Chrome的Headless Mode渲染為圖片,形成“圖片-文本(統(tǒng)一格式)”配對(duì)數(shù)據(jù)。

相關(guān)prompt:

  • 文本

端到端的多模態(tài)大模型文檔解析:POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

  • 公式

端到端的多模態(tài)大模型文檔解析:POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

端到端的多模態(tài)大模型文檔解析:POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

端到端的多模態(tài)大模型文檔解析:POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

  • 表格

端到端的多模態(tài)大模型文檔解析:POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

  • 多欄

端到端的多模態(tài)大模型文檔解析:POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

端到端的多模態(tài)大模型文檔解析:POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

端到端的多模態(tài)大模型文檔解析:POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

3)模型訓(xùn)練與迭代訓(xùn)練

用上述合成數(shù)據(jù)對(duì)VLM進(jìn)行微調(diào)訓(xùn)練,模型結(jié)構(gòu)上沒(méi)有特別大的創(chuàng)新,LLM使用的是qwen2,視覺(jué)側(cè)使用的是qwenvl的視覺(jué)編碼器,文中提到的一點(diǎn)就是迭代訓(xùn)練,思路一句話概括就是使用訓(xùn)練好的模型對(duì)更寬泛的數(shù)據(jù)進(jìn)行預(yù)測(cè),預(yù)測(cè)的數(shù)據(jù)通過(guò)各種規(guī)則校驗(yàn),然后加到訓(xùn)練數(shù)據(jù)中持續(xù)迭代訓(xùn)練,筆者認(rèn)為這樣最大的問(wèn)題就是很難評(píng)價(jià)這個(gè)“偽數(shù)據(jù)”是否符合訓(xùn)練數(shù)據(jù)的標(biāo)準(zhǔn)(僅覆蓋了過(guò)濾規(guī)則)。

實(shí)驗(yàn)

端到端的多模態(tài)大模型文檔解析:POINTS-Reader數(shù)據(jù)合成與迭代訓(xùn)練提升方案-AI.x社區(qū)

參考文獻(xiàn):POINTS-Reader: Distillation-Free Adaptation of Vision-Language Models for Document Conversionrepo:https://github.com/Tencent/POINTS-Reader


本文轉(zhuǎn)載自??大模型自然語(yǔ)言處理??   作者:llmnlp

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
已于2025-9-16 09:31:36修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
亚洲视频一区在线观看| 全国精品久久少妇| 亚洲成人动漫在线播放| 成人毛片一区二区| 国产精品久久久久久久龚玥菲| 视频一区欧美精品| 免费av一区二区| 色婷婷免费视频| 久久69成人| 亚洲午夜久久久久中文字幕久| 久久精品国产99精品国产亚洲性色| 无码一区二区三区在线观看| 亚洲高清资源在线观看| 亚洲第一网站男人都懂| 美女一区二区三区视频| 青草影视电视剧免费播放在线观看| www.亚洲免费av| 国产精品香蕉av| 国产无码精品视频| 欧美电影一区| 亚洲老头老太hd| 亚洲av毛片在线观看| 在线观看欧美日韩电影| 亚洲视频狠狠干| 欧美激情论坛| 亚洲风情第一页| 美女视频免费一区| 欧美亚洲视频在线看网址| 免费成人深夜夜行网站| 深爱激情久久| 精品剧情v国产在线观看在线| 99视频精品免费| 成年网站在线视频网站| 中文字幕在线视频一区| 欧美日韩三区四区| 男人天堂一区二区| 国产精品69毛片高清亚洲| 国产精品麻豆va在线播放| 日韩免费一级片| 午夜亚洲福利| 久久综合电影一区| 懂色av蜜臀av粉嫩av永久| 亚洲日本三级| 日韩经典一区二区三区| 亚洲911精品成人18网站| 伊人久久大香线蕉综合影院首页| 色综合天天综合狠狠| 久久久久久久久久网| 亚洲国产精品精华素| 国产精品免费免费| 亚洲国产精品一区二区第四页av| 婷婷丁香花五月天| 成人毛片在线观看| 99久久精品免费看国产四区| 国产毛片毛片毛片毛片| 久88久久88久久久| 国产在线视频不卡| 伊人22222| 麻豆91精品视频| 国产精品视频大全| 中文字幕欧美在线观看| 日本不卡123| 国产精品视频久久久| 精品国产www| 青椒成人免费视频| 国产精品偷伦免费视频观看的| 国产免费a视频| 秋霞午夜av一区二区三区| 国产精品电影久久久久电影网| 国产在线观看黄色| 亚洲中字在线| 国产精品久久久av| 在线视频你懂得| 激情文学综合插| 91九色在线观看| 国产77777| 成人av网站在线| 精品免费日产一区一区三区免费| 视频二区在线| 国产网红主播福利一区二区| 午夜精品视频在线观看一区二区 | 亚洲精品国产精品久久清纯直播 | 69sex久久精品国产麻豆| 草美女在线观看| 一本一本久久a久久精品综合麻豆 一本一道波多野结衣一区二区 | 国产精品福利一区| avav在线播放| 欲香欲色天天天综合和网| 91福利视频久久久久| 97超碰成人在线| 北条麻妃在线一区二区免费播放 | 久久久久久久久丰满| 久久91亚洲精品中文字幕| 在线观看 中文字幕| 视频一区二区三区中文字幕| 成人精品视频在线| 天堂中文在线看| 国产精品乱人伦中文| 国产91在线亚洲| 日韩精品99| 91精品国产综合久久精品麻豆| 黄色在线免费播放| 欧美亚洲精品在线| 国内精品免费午夜毛片| 波多野结衣一二区| 国产.精品.日韩.另类.中文.在线.播放| 久久99精品久久久久久水蜜桃| 网友自拍视频在线| 精品美女国产在线| 男人午夜视频在线观看| 啪啪激情综合网| 久久激情五月丁香伊人| 久久久国产精品成人免费| 精品亚洲欧美一区| 欧美资源一区| 男女在线视频| 欧美日韩一级片网站| 久久久久国产精品无码免费看| 成人影院天天5g天天爽无毒影院| 国产69精品久久久| av网站免费播放| 国产无人区一区二区三区| 日韩伦理在线免费观看| 四虎国产精品免费久久5151| 亚洲美女在线观看| 久久久久亚洲AV| 97超碰免费在线| 欧美性大战久久久| 欧美肉大捧一进一出免费视频 | 国产成人免费av在线| 日产国产精品精品a∨| 久草成色在线| 91精品黄色片免费大全| 欧美18—19性高清hd4k| 国产精品综合| 久久大片网站| av福利在线导航| 日韩一区二区三区在线观看| 欧美午夜激情影院| 视频一区二区不卡| 久久精品国产99精品国产亚洲性色| 青春草视频在线| 日韩欧美黄色影院| 国精品无码一区二区三区| 免费欧美在线视频| 亚洲va久久久噜噜噜久久狠狠| 一二三四视频在线中文| 亚洲精品久久久久久久久久久久| 欧美精品色哟哟| 国产91精品一区二区麻豆亚洲| 国产又大又长又粗又黄| 欧美黄色a视频| 日韩在线视频观看正片免费网站| √资源天堂中文在线| 久久综合九色综合97婷婷| a在线视频观看| 美女福利一区| 欧美性受xxxx黑人猛交| 深夜视频在线免费| 色综合天天综合网天天狠天天| 国产偷人妻精品一区| 亚洲一区视频| 日韩精品一区二区三区色偷偷| 欧美黑人粗大| 色99之美女主播在线视频| 91国在线视频| 中文字幕亚洲视频| 色姑娘综合天天| 亚洲欧洲综合| 日本视频精品一区| 人人精品久久| 欧美高清视频一区二区| 亚洲日本在线播放| 欧美在线一区二区三区| www色aa色aawww| 国产成人免费高清| 国产成人a亚洲精v品无码| 精品99久久| 国产日韩欧美视频| gogo高清在线播放免费| 日韩精品亚洲精品| 136福利视频导航| 亚洲综合久久久| 成年人在线观看av| 久久国产精品免费| 国产美女作爱全过程免费视频| 日韩欧美影院| 国产日韩精品视频| 91九色在线播放| 中文字幕日韩在线视频| 亚洲AV无码一区二区三区少妇| 亚洲成av人片在www色猫咪| 少妇久久久久久久久久| 韩国av一区二区三区| av在线播放亚洲| 久久一本综合| 久久国产精品久久精品国产| 国产情侣一区二区三区| 97久久超碰福利国产精品…| 91在线品视觉盛宴免费| 精品久久久久久久久久久久包黑料| 日日夜夜狠狠操| 一区二区三区精品久久久| 麻豆av免费观看| 国产精品一卡二卡在线观看| 日韩中文字幕三区| 午夜激情久久| 欧美日韩在线一区二区三区| 精品一区二区三区四区五区| 国产精品爱久久久久久久| 中文国产字幕在线观看| 国产亚洲一级高清| 天堂av资源在线| 欧美精品在线视频| 在线观看日本视频| 亚洲妇熟xx妇色黄| 成熟的女同志hd| 欧美国产精品一区| 在线 丝袜 欧美 日韩 制服| 国产一区二区精品久久| 热久久精品免费视频| 亚洲精品美女| 日韩精品免费一区| 91精品精品| 视频一区视频二区视频| 日韩美女精品| 国产美女在线精品免费观看| 成人综合日日夜夜| 国产一区二区视频在线观看| 欧美片第一页| 91精品国产一区| 高h视频在线播放| 久久这里只有精品99| 永久免费av在线| 夜夜嗨av色综合久久久综合网| 亚洲色图欧美视频| 精品国产制服丝袜高跟| 国产熟女精品视频| 欧美揉bbbbb揉bbbbb| 怡红院av久久久久久久| 欧美小视频在线观看| 日本亚洲欧美在线| 午夜日韩在线观看| 日韩和一区二区| 亚洲一区在线看| 欧美日韩偷拍视频| 亚洲精品伦理在线| 久久精品视频免费在线观看| 亚洲免费高清视频在线| www.色小姐com| 亚洲精品免费一二三区| 免费在线观看av网址| 一区二区三区产品免费精品久久75| 日本二区三区视频| 亚洲欧美另类久久久精品| 美女的奶胸大爽爽大片| 一区二区三区精品视频| 精品久久免费视频| 婷婷成人综合网| 日日骚av一区二区| 91黄色激情网站| 亚洲视屏在线观看| 欧美日本高清视频在线观看| 国产精品女同一区二区| 日韩一区二区免费在线观看| 国产成人三级一区二区在线观看一| 欧美一区二区三区四区久久 | 成人爽a毛片免费啪啪动漫| 久久免费成人精品视频| gay欧美网站| 国产精品激情av在线播放| 日韩一区二区三免费高清在线观看| 川上优av一区二区线观看 | 国产在线欧美日韩| 国产探花一区在线观看| 先锋影音欧美| 欧美一区国产在线| 欧美亚洲日本一区二区三区| 久久99伊人| 亚洲男人天堂av在线| 懂色av一区二区三区免费看| 内射中出日韩无国产剧情| 日本一区二区视频在线观看| 成人免费视频国产免费观看| 亚洲国产精品久久久久秋霞影院| 黄色污污网站在线观看| 91精品国产色综合久久ai换脸| 欧美熟妇另类久久久久久不卡| 亚洲欧美在线播放| 18+视频在线观看| 69av在线视频| japansex久久高清精品| 久久精品五月婷婷| 99国产精品一区二区| 欧美激情视频免费看| 老**午夜毛片一区二区三区| 国产性生活一级片| 久久综合九色欧美综合狠狠| 侵犯稚嫩小箩莉h文系列小说| 亚洲va国产天堂va久久en| 又骚又黄的视频| 亚洲国产精久久久久久| 男人在线资源站| 欧美在线视频观看| 成人51免费| 欧美日本国产精品| 欧美另类女人| 国产aⅴ爽av久久久久| 91色九色蝌蚪| 青青草手机视频在线观看| 在线看日本不卡| 免费国产黄色片| 久久亚洲私人国产精品va| 校园春色亚洲色图| 国产一区二区自拍| 91av精品| 啊啊啊国产视频| 2017欧美狠狠色| 久久久久久蜜桃| 欧美精品在线观看播放| 国产小视频在线| 性欧美xxxx交| 久久伊人精品| 中文字幕日韩一区二区三区不卡| 羞羞视频在线观看欧美| 国产精品果冻传媒| 亚洲男同1069视频| 一本一道人人妻人人妻αv| 国产视频亚洲精品| 1区2区在线| 国产麻豆日韩| 欧美96在线丨欧| 爱豆国产剧免费观看大全剧苏畅| 国产偷国产偷亚洲高清人白洁| 国产女同在线观看| 亚洲第一av网| 超碰97国产精品人人cao| 91久久精品一区二区别| 国产精品久久久久久久久久10秀| 簧片在线免费看| 中文字幕第一区第二区| 高潮毛片又色又爽免费 | 欧美女优在线| 538国产精品一区二区免费视频| 99久久香蕉| 日本精品久久久久久久久久| 丁香六月综合激情| 九九视频免费观看| 亚洲高清一区二| 成年人国产在线观看| 国产午夜精品在线| 99精品国产一区二区青青牛奶| 国产视频久久久久久| 精品久久久视频| 黄色在线视频观看网站| 国产精品18久久久久久首页狼| 国产欧美日韩一区二区三区四区| 精品久久久久久中文字幕2017| 久久久国产精品不卡| 高潮毛片又色又爽免费| 中文字幕无线精品亚洲乱码一区 | 91最新在线免费观看| 中文字幕一区二区三区在线视频| 色综合久久久无码中文字幕波多| 一区二区三区影院| 天堂中文在线官网| 国产成人鲁鲁免费视频a| 第九色区aⅴ天堂久久香| 国产3p在线播放| 亚洲一区二区在线视频| 五月婷婷狠狠干| 国产精品精品一区二区三区午夜版| 精品少妇av| 国产三级精品三级在线| 亚洲一二三四在线观看| 欧美女子与性| 91精品国产综合久久香蕉922| 欧美一区二区| 国产三级视频网站| 欧美日韩国产a| 青春草在线免费视频| 免费国产一区| 久久国内精品自在自线400部| 三级在线观看免费大全| 精品久久免费看| **在线精品| 欧美在线观看黄| 2021国产精品久久精品| 国产欧美综合视频| 91成人福利在线| 国产电影一区二区在线观看| 第一页在线视频| 欧美性猛交xxxx| 成年视频在线观看| 久久一区二区三区av| 久久精品国产99国产| 国产精品50页| 日韩一区二区福利| 老汉色老汉首页av亚洲| 在线能看的av网站|