精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

復(fù)雜版式解析:騰訊POINTS無(wú)蒸餾3B秒殺Qwen72B

人工智能
騰訊開源的POINTS-Reader 框架,提出了一種全新的、無(wú)需蒸餾的兩階段框架,用于構(gòu)建高質(zhì)量文檔提取數(shù)據(jù)集和能夠處理多樣化文檔格式與布局的模型。

一、PDF文檔復(fù)雜版面解析發(fā)展的困境

  1. 版式復(fù)雜:多欄、表格跨行、公式嵌套、圖片浮動(dòng)。
  2. 標(biāo)注昂貴:一頁(yè)學(xué)術(shù) PDF 人工還原需 15-30 min,含 300+ 符號(hào)。
  3. 誤差級(jí)聯(lián):傳統(tǒng) Pipeline(檢測(cè)→OCR→結(jié)構(gòu)恢復(fù)→后處理)每一步誤差放大,最終 Word 誤差率>15%。

現(xiàn)有三大技術(shù)路線對(duì)比

路線

代表系統(tǒng)

優(yōu)點(diǎn)

關(guān)鍵缺陷

規(guī)則-流水線

MinerU, Marker

可解釋、可控

重人力、級(jí)聯(lián)誤差、難泛化

端到端蒸餾

olmOCR, Nougat

端到端、簡(jiǎn)潔

依賴教師(GPT-4o/72B)、算力黑洞、學(xué)生“學(xué)不像”

純合成數(shù)據(jù)

Kosmos-2.5

零人工

Markdown 表結(jié)構(gòu)受限、無(wú)真實(shí)分布校正

圖片圖片

騰訊開源的POINTS-Reader 框架,提出了一種全新的、無(wú)需蒸餾的兩階段框架,用于構(gòu)建高質(zhì)量文檔提取數(shù)據(jù)集和能夠處理多樣化文檔格式與布局的模型。

  • 第一階段是統(tǒng)一格式預(yù)熱階段(Uniform Format Warm-up Stage,UWS),通過(guò)生成大規(guī)模、多樣化的合成數(shù)據(jù),使模型能夠以統(tǒng)一格式提取關(guān)鍵元素并具備較強(qiáng)的初始性能。
  • 第二階段是迭代自改進(jìn)階段(Iterative Self-improvement Stage,ISS),通過(guò)一系列過(guò)濾策略驗(yàn)證標(biāo)注質(zhì)量,并在經(jīng)過(guò)驗(yàn)證的數(shù)據(jù)集上重新訓(xùn)練模型,迭代重復(fù)此過(guò)程,逐步提升模型的轉(zhuǎn)換能力和生成數(shù)據(jù)的質(zhì)量。

二、POINTS-Reader

圖片圖片

2.1. 階段一:統(tǒng)一格式預(yù)熱(UWS)

  • 需要解決的三大細(xì)節(jié)問(wèn)題

格式混亂:表有 Markdown/HTML/LaTeX 三種,模型“無(wú)所適從”。

合成數(shù)據(jù)“假”:純 LLM 生成文本,無(wú)真實(shí)版面。

規(guī)模可控:如何 24 h 內(nèi)生成百萬(wàn)級(jí)圖像-文本對(duì)?

利用已訓(xùn)練的模型對(duì)大規(guī)模真實(shí)文檔進(jìn)行標(biāo)注。

1)規(guī)范輸出

  • 純文本 → Markdown
  • 表格 → 僅保留 rowspan/colspan 的極簡(jiǎn) HTML
  • 公式 → LaTeX(KaTeX 子集)首次在文檔轉(zhuǎn)換領(lǐng)域提出“輸出原子化協(xié)議”,把結(jié)構(gòu)、樣式、語(yǔ)義解耦,降低 32% 序列長(zhǎng)度。

2)數(shù)據(jù)生成的策略

  • (1) 純文本 (2) 文本+公式 (3) 文本+表格 (4) 多欄+表格 每類 20 萬(wàn),共 80 萬(wàn)。技術(shù)關(guān)鍵:
  • LLM Prompt 工程 引入“隨機(jī)種子+風(fēng)格槽”,確保詞匯、句式、篇章多樣性。
  • 自動(dòng)渲染:用 Chrome Headless + PagedJS 把 HTML 轉(zhuǎn) 300 dpi 圖像,支持 1/2/3 欄版式。
  • 規(guī)則過(guò)濾:LaTeX 用正則檢查括號(hào);HTML 表用“行列數(shù)一致”驗(yàn)證。

3)長(zhǎng)寬比裁剪發(fā)現(xiàn) A4 比例(√2≈1.414)外樣本易含“長(zhǎng)條噪聲”,做 aspect-ratio ∈ [0.4, 2.5] 過(guò)濾,帶來(lái) 1.2 個(gè)點(diǎn)的編輯距離下降。

2.2. 階段二:迭代自改進(jìn)(ISS)

  • 需要解決的新問(wèn)題

合成版面“太干凈”:無(wú)噪點(diǎn)、無(wú)手寫批注、無(wú)掃描畸變。

直接拿 UWS 模型跑真實(shí)數(shù)據(jù),編輯距離比 Pipeline 差 40%。

若直接蒸餾 Qwen2.5-VL-72B,需 2×10^4 GPU·h,且教師偏差會(huì)傳入。

通過(guò)一系列過(guò)濾策略驗(yàn)證標(biāo)注質(zhì)量,并在經(jīng)過(guò)驗(yàn)證的數(shù)據(jù)集上重新訓(xùn)練模型,迭代重復(fù)此過(guò)程,逐步提升模型的轉(zhuǎn)換能力和生成數(shù)據(jù)的質(zhì)量。

  1. 純文本:OCR-F1 過(guò)濾
  • 用 PaddleOCR 得參考 T,模型輸出 P;計(jì)算字符級(jí) F1。
  • 閾值 0.90 時(shí)保留率 42%,編輯距離下降 0.092。
  • 創(chuàng)新:并非“硬匹配”,而采用 bag-of-words + 子串動(dòng)態(tài)規(guī)劃,對(duì)順序漂移魯棒。
  1. 表格:結(jié)構(gòu)一致性
  • 僅檢查每行單元格數(shù)是否等于列數(shù),以及 rowspan 合法。
  • 不依賴外部 Table-Structure 模型,避免二次誤差。
  • 過(guò)濾后表樣本保留率 55%,但后續(xù)迭代表錯(cuò)誤率仍持續(xù)下降(圖 10),證明“結(jié)構(gòu)正確?內(nèi)容逐步正確”。
  1. 公式:語(yǔ)法樹驗(yàn)證
  • 調(diào)用 KaTeX parser,捕獲 ParseError。
  • 保留率 68%,ISS 第 5 輪公式編輯距離再降 0.05。

使用經(jīng)過(guò)過(guò)濾的高質(zhì)量數(shù)據(jù)重新訓(xùn)練模型,并重復(fù)上述過(guò)程,逐步提升模型性能和數(shù)據(jù)質(zhì)量。

  • 迭代曲線與停止準(zhǔn)則

K=5 時(shí) OmniDocBench 編輯距離 0.259→0.176(文本)、0.383→0.274(公式)、0.335→0.228(表格)。

保留樣本量:第 1 輪 0.98 M → 第 5 輪 1.10 M,說(shuō)明“量↑質(zhì)↑”同步。

斜率趨緩,故作者設(shè) K=5;若繼續(xù)增大,需引入更難數(shù)據(jù)或主動(dòng)學(xué)習(xí)。

與蒸餾路線正面對(duì)比

圖片圖片

復(fù)現(xiàn)“Qwen2.5-VL-72B 教師→3B 學(xué)生”蒸餾實(shí)驗(yàn):

  • 教師 OmniDocBench 整體 ED=0.214,學(xué)生 0.302;
  • POINTS-Reader 無(wú)蒸餾 ED=0.259,顯著優(yōu)于學(xué)生,且訓(xùn)練 GPU·h 節(jié)省 65%。所以說(shuō),蒸餾并非唯一途徑,自改進(jìn)可在 3B 級(jí)別反超教師-學(xué)生范式。

圖片圖片


責(zé)任編輯:武曉燕 來(lái)源: CourseAI
相關(guān)推薦

2025-10-28 15:40:01

AI模型訓(xùn)練

2025-10-17 09:08:05

2024-10-17 18:52:41

2023-12-01 13:36:01

阿里云通義千問(wèn)

2024-09-19 14:00:00

模型開源代碼

2025-03-25 12:11:08

2012-08-31 09:26:10

360互聯(lián)網(wǎng)百度

2024-03-27 09:09:57

模型AI開源

2025-09-19 11:09:40

2025-11-17 09:15:37

2012-11-23 09:50:28

32nm龍芯龍芯3B 1500

2021-11-29 15:17:48

鴻蒙HarmonyOS應(yīng)用

2024-01-17 12:08:32

模型訓(xùn)練

2025-06-17 08:45:00

模型智能工具

2021-09-08 10:22:36

B端C端設(shè)計(jì)師

2025-05-14 13:22:08

Qwen3訓(xùn)練小模型

2024-12-18 07:10:00

2023-11-28 12:49:37

數(shù)據(jù)訓(xùn)練

2024-06-13 09:12:48

2025-09-24 08:50:30

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

a视频在线观看免费| 一本大道伊人av久久综合| 欧美精品中文| 欧美午夜一区二区三区| 樱空桃在线播放| 少妇人妻偷人精品一区二区| 日韩精品国产精品| 欧美激情视频三区| 国产视频不卡在线| 成人搞黄视频| 欧美日本韩国一区二区三区视频| 蜜臀av色欲a片无码精品一区| 黄色小视频在线观看| 国产一区二区三区日韩| 日韩av大片免费看| 久久久91视频| 欧美在线免费看视频| 精品少妇一区二区三区在线视频| 日韩视频免费在线播放| av中文在线资源库| 1区2区3区欧美| 欧美日韩亚洲综合一区二区三区激情在线 | 免费视频亚洲| 欧美本精品男人aⅴ天堂| 不卡av免费在线| 欧美aa一级| 亚洲精品久久久久久国产精华液| 日韩视频专区| 四虎影院在线播放| 成人性生交大片| 成人欧美一区二区三区黑人| 一级黄色在线观看| 国产人成精品一区二区三| 久久91亚洲精品中文字幕奶水| 新91视频在线观看| 欧美巨大xxxx| 亚洲国产精品成人va在线观看| 在线成人免费av| 国语自产精品视频在线看抢先版结局| 欧美性猛交xxxxx免费看| 中文字幕在线中文| 精品美女在线观看视频在线观看 | 欧美一进一出视频| 女人18毛片一区二区三区| 国产精品亚洲一区二区三区在线| 国产精品第2页| 亚洲黄色小说图片| 99国产精品视频免费观看一公开 | 少妇激情综合网| 日本一道本视频| 国产伦精品一区二区三区视频 | 日韩欧美卡一卡二| 亚洲欧美日本一区二区三区| 韩日精品一区| 欧美日免费三级在线| 天天碰免费视频| 成人在线黄色| 欧美区在线观看| 夜夜夜夜夜夜操| 欧美系列精品| 67194成人在线观看| 激情在线观看视频| 久久免费精品| 精品久久久三级丝袜| 丰满少妇中文字幕| 国产精品一区二区中文字幕| 亚洲国产成人精品电影| 538国产视频| 国产欧美日韩精品高清二区综合区| 国产视频久久网| 亚洲а∨天堂久久精品2021| 成人区精品一区二区婷婷| 色哟哟入口国产精品| 国产激情无码一区二区三区| 欧美成人精品| 97视频在线观看成人| 9i精品福利一区二区三区| 日本欧洲一区二区| 91精品久久久久久蜜桃| 天天射天天操天天干| 久久久久久久久岛国免费| 亚洲国产精品日韩| 日本在线视频网址| 欧美午夜精品久久久久久人妖| 丰满少妇在线观看| 欧美.com| 精品亚洲一区二区| 亚洲欧美另类日本| 亚洲日产国产精品| 国产成人一区二区在线| www.com在线观看| 91免费视频大全| 中文字幕在线中文字幕日亚韩一区| 欧美hdxxxx| 欧美午夜影院一区| 稀缺呦国内精品呦| 清纯唯美日韩| 亚州成人av在线| 亚洲 小说区 图片区| 国产麻豆精品在线观看| 玛丽玛丽电影原版免费观看1977| 麻豆网站在线看| 疯狂做受xxxx欧美肥白少妇| 中文字幕视频三区| 亚洲肉体裸体xxxx137| 欧美成人激情在线| 免费视频网站在线观看入口| 国产69精品久久777的优势| 日韩.欧美.亚洲| 18video性欧美19sex高清| 欧美日产国产精品| 99久久久久久久久久| 综合激情网站| 国产精品免费久久久| 欧美一区二区三区激情| 成人欧美一区二区三区| 激情五月亚洲色图| 久久久久高潮毛片免费全部播放| 久久精品国产视频| 好吊色在线视频| www.av精品| 成人污网站在线观看| 欧美日韩va| 亚洲日韩第一页| 欧美日韩综合在线观看| 国产成人精品亚洲日本在线桃色| 亚洲 日韩 国产第一区| 综合久久2023| 亚洲黄色成人网| 久久久国产精品人人片| 国产麻豆成人精品| 一区二区三区不卡在线| 秋霞国产精品| 亚洲视频网站在线观看| 日韩欧美成人一区二区三区| 99久久精品国产网站| 97中文字幕在线| 亚洲无线观看| 欧美伦理91i| 国产成人精品一区二区无码呦 | 国产成人自拍网| 在线看视频不卡| 日韩一级特黄| 精品国产一区二区在线| 一区二区三区在线免费观看视频 | 日本高清不卡一区二区三区视频| 亚洲第一天堂av| 久久精品无码人妻| 成人视屏免费看| 日韩xxxx视频| 精品女人视频| 欧美亚洲另类激情另类| 日本韩国一区| 欧美午夜精品久久久久久浪潮| 久久国产精品无码一级毛片| 国产精品呻吟| 欧美日本韩国国产| 亚洲欧美在线成人| 中文字幕一精品亚洲无线一区 | 亚洲国产美女久久久久| 三级黄色在线视频| 久久久欧美精品sm网站| 国产精品视频黄色| 99热国内精品永久免费观看| 亚洲www在线| 黄网在线免费看| 日韩黄色高清视频| 亚洲精品国产欧美在线观看| 国产精品久久久久久久第一福利| 男人午夜视频在线观看| 欧美亚洲不卡| 欧美日韩在线不卡一区| 美女视频一区| 欧美大片在线影院| 欧美美女搞黄| 欧美美女视频在线观看| 欧美成人aaa片一区国产精品| 不卡一区二区中文字幕| 国产精品欧美激情在线观看| 日韩欧美高清在线播放| 97超碰在线播放| 亚洲人体影院| 久久精彩免费视频| 天堂av在线免费| 欧美色国产精品| 久久成人国产精品入口| 久久久一区二区| 日韩不卡的av| 美女91精品| 黄黄视频在线观看| 伊人久久大香线蕉综合网蜜芽 | 精品亚洲免a| 国产精品视频1区| 蜜臀av在线| 一区二区福利视频| 亚洲AV无码精品色毛片浪潮| 91国产免费看| 国产真实乱人偷精品视频| 欧美激情资源网| 成年女人免费视频| 麻豆国产91在线播放| 国产一区二区三区小说| 日本a口亚洲| 国产在线观看一区| 精品国产鲁一鲁****| 日韩av男人的天堂| 国产经典三级在线| 日韩亚洲欧美中文在线| 欧美美乳在线| 亚洲精品99久久久久| 国产精品高潮呻吟久久久| 欧美特黄级在线| a级片在线观看免费| 欧美国产精品一区二区三区| 少妇精品一区二区| 国产东北露脸精品视频| 久久婷婷综合色| 久久av在线| xxxx18hd亚洲hd捆绑| 这里只有精品在线| 亚洲一区尤物| 精品久久美女| 欧美一二三区| 亚洲婷婷伊人| 久久久久一区二区三区| 91精品啪在线观看国产手机| 91免费国产网站| ww久久综合久中文字幕| 日韩av三级在线观看| 国产h片在线观看| 欧美激情第一页xxx| 色呦呦网站在线观看| 久久久国产一区| 日本成a人片在线观看| 在线免费观看羞羞视频一区二区| 色在线免费视频| 日韩电影免费在线观看中文字幕 | 在线精品国产欧美| 亚洲aⅴ在线观看| 精品不卡在线视频| 亚洲精品久久久久久无码色欲四季 | 131美女爱做视频| 一区视频在线| 国产免费黄色一级片| 韩日精品在线| 亚洲一区二区三区av无码| 欧美日韩国产在线一区| 国产爆乳无码一区二区麻豆| 欧美va天堂| 成品人视频ww入口| 国产日韩欧美一区| 国产免费一区二区三区视频| 另类激情亚洲| 好男人www社区| 久久精品国产99| 中文字幕色网站| 国产精品18久久久久久久网站| 亚洲国产日韩在线一区| 粉嫩aⅴ一区二区三区四区五区| 久久精品aⅴ无码中文字字幕重口| 成人精品小蝌蚪| 久久人人爽人人人人片| 91欧美一区二区| 娇妻被老王脔到高潮失禁视频| 国产精品萝li| 亚洲av无码一区二区三区在线| 亚洲一区成人在线| 国产做受高潮漫动| 日本精品一区二区三区四区的功能| 波多野结衣高清在线| 欧美福利电影网| www.色呦呦| 亚洲美女精品久久| 99中文字幕一区| 欧美日本黄视频| 欧美激情网站| 国产欧美亚洲精品| 最新国产精品精品视频| 欧美日韩一区二区三区在线视频 | 自拍亚洲一区欧美另类| 久草免费在线| 欧美一二三视频| 高清在线一区| 国产精品国产三级国产专区53| 综合干狼人综合首页| 国产精品av免费| 亚洲经典视频在线观看| 成人性生生活性生交12| 成人综合婷婷国产精品久久蜜臀| 中文字幕在线免费看线人| 亚洲国产精品精华液ab| 九九热精品在线观看| 91国模大尺度私拍在线视频| 亚洲精品国产手机| 最新国产精品拍自在线播放| 成人黄色动漫| 国产在线a不卡| 欧美成人午夜77777| 在线码字幕一区| 性色一区二区三区| 欧美污在线观看| 国产精品久久久久三级| 国产一级做a爱片久久毛片a| 欧美嫩在线观看| 三级在线观看| 欧美黑人xxxⅹ高潮交| 成人毛片免费| 久久久综合香蕉尹人综合网| 亚洲精品网址| 国产精品入口免费软件| 92国产精品观看| 日本妇女毛茸茸| 欧美日韩国产精品自在自线| 亚洲人妻一区二区| 欧美国产亚洲视频| 99tv成人影院| 亚洲图片欧洲图片日韩av| 亚洲在线观看| 91精品又粗又猛又爽| 亚洲欧美一区二区三区孕妇| 无码视频一区二区三区| 亚洲精品美女视频| 黄色大片在线| 99国产视频在线| 亚洲电影影音先锋| 亚洲va在线va天堂va偷拍| 久久亚洲欧美国产精品乐播| 日韩av在线播放观看| 日韩亚洲欧美中文三级| 巨大荫蒂视频欧美大片| 国产精品偷伦一区二区| 欧美日韩国产传媒| 日本成人黄色网| 久久亚洲精品国产精品紫薇| 天天插天天操天天干| 亚洲精品国产精品国产自| 蜜臀av在线播放| 国产精品一区在线播放| 激情婷婷欧美| 久久久久亚洲av成人网人人软件| 一区二区三区四区蜜桃 | 免费观看成人性生生活片| 久久亚洲午夜电影| 国产亚洲一区在线| 国产男女猛烈无遮挡a片漫画| 天天影视涩香欲综合网| 手机在线不卡av| 91国产美女在线观看| 六月丁香久久丫| 免费黄色日本网站| 91免费看片在线观看| 色av性av丰满av| 亚洲人在线观看| 国产成人精选| 中文字幕一区二区三区有限公司| 国内成+人亚洲+欧美+综合在线 | 国产精品视频一区二区久久| 国产成人亚洲综合91精品| 欧美日韩激情| 一起操在线视频| 亚洲三级在线播放| 亚洲第一成人av| 91精品国产沙发| 欧美精品一区二区三区中文字幕| 男操女免费网站| 亚洲精品国产无天堂网2021| 黄色小视频免费观看| 91chinesevideo永久地址| 免费成人网www| 中文字幕中文在线| 亚洲va国产va欧美va观看| 色鬼7777久久| 国产精品欧美在线| 欧美freesex交免费视频| 亚洲欧美色图视频| 欧美日韩午夜在线| 手机电影在线观看| 欧美婷婷久久| 极品少妇xxxx精品少妇| 国产亚洲精品av| 一区二区三区四区在线观看视频| 91麻豆精品| 国产一区二区三区精彩视频| 国产精品乱人伦| 男人天堂手机在线观看| 国产精品入口福利| 欧美人与禽猛交乱配视频| 日韩人妻一区二区三区| 欧美美女喷水视频| 无遮挡爽大片在线观看视频 | 9.1成人看片| 欧美精品在欧美一区二区少妇| 成人影音在线| 一区二区视频国产| 99精品视频在线免费观看| 7777久久亚洲中文字幕| 国产69久久精品成人| 亚洲欧美色图| 级毛片内射视频| 精品日韩一区二区三区|