多模態(tài)的解析大家的方案越來越趨近相同,繼續(xù)看《??文檔智能??》,快速過一下基于多模態(tài)視覺語言模型MonkeyOCRv1.5的兩階段文檔解析技術(shù)報告及數(shù)據(jù)設(shè)計。ps:模型權(quán)重暫未開源。性能對比《???文檔解析進(jìn)展??》如下:整體框架如下圖,兩階段的pipline框架,與mineru一樣,VLM同時負(fù)責(zé)layout、閱讀順序和版面元素識別解析。第一階段{"label":"Table","bbox":[187,98,517,111],"index":0},{"label":"Image","bbox":[xx,1x...
6天前 265瀏覽 0點贊 0回復(fù) 0收藏
大a都上4千點了,來看一個“股票研究報告(ERR)自動生成”,輸入輸出如下:輸入:給定公司股票代碼(s)和研究日期(t),自動采集6類結(jié)構(gòu)化非結(jié)構(gòu)化數(shù)據(jù),構(gòu)成輸入集合S[O,F,A,N,P,M]a.O:公司基礎(chǔ)信息(如行業(yè)分類、市場定位)b.F:財務(wù)指標(biāo)(利潤表、資產(chǎn)負(fù)債表、現(xiàn)金流量表)c.A:公司公告(董事會決議、季度報告等)d.N:公司相關(guān)新聞(經(jīng)篩選去重)e.P:歷史股價數(shù)據(jù)f.M:市場指數(shù)(如滬深300)輸出:符合行業(yè)規(guī)范的ERR...
2025-11-12 08:20:30 491瀏覽 0點贊 0回復(fù) 0收藏
英偉達(dá)的技術(shù)報告一般細(xì)節(jié)都比較多,本次開源的12B的參數(shù)模型NemotronNanoV2VL專為文檔理解、長視頻理解及推理任務(wù)而設(shè)計。下面來快速過一下。模型架構(gòu)遵循“視覺編碼器+MLP投射器+語言模型”架構(gòu)。視覺編碼器:基于RADIOv2.5的cRADIOv2VLMH版本初始化,負(fù)責(zé)提取圖像視頻的視覺特征。MLP投射器:作為跨模態(tài)橋梁,實現(xiàn)視覺特征與文本特征的對齊。語言模型:基于NemotronNano12BV2(混合MambaTransformer架構(gòu)),提供強(qiáng)文本推理能...
2025-11-11 10:09:05 630瀏覽 0點贊 0回復(fù) 0收藏
這次看到這個開源的一個demo,想起若干年前做過的項目和參加的一些類似比賽經(jīng)歷,先來看看llm出來之前是怎么干的,兩種:ocr(pdfparser等)解析簡歷的文字內(nèi)容+bertcrf(更早的比賽經(jīng)歷就不追溯了,那會bert都沒出來,可以看看下圖)等進(jìn)行實體識別結(jié)合cv的方式,版式分析+ocr+bertcrf等進(jìn)行實體識別pdfparser解析pdf(可編輯pdf情況,圖片pdf使用ocr)簡歷信息實體識別,很早之前的ner模型,后面演變成bert類實體識別干了什么呢...
2025-11-11 10:04:48 244瀏覽 0點贊 0回復(fù) 0收藏
假設(shè)文檔的存在方向旋轉(zhuǎn),那么會進(jìn)一步的干擾VLM進(jìn)行OCR的性能,下面看一個預(yù)處理方案,解決文檔旋轉(zhuǎn)干擾OCR問題,并進(jìn)行一些評估,方法較為簡單,快速看一下。OCR工作流對比在樣本英文和印度文字文檔上進(jìn)行旋轉(zhuǎn)校正前后的情況。由于對齊錯誤導(dǎo)致的重復(fù)和幻覺(紅色標(biāo)注)等問題通過模塊得到緩解,從而獲得準(zhǔn)確的結(jié)果旋轉(zhuǎn)分類任務(wù)定義:將文檔旋轉(zhuǎn)校正轉(zhuǎn)化為四分類任務(wù),覆蓋最常見的四種旋轉(zhuǎn)狀態(tài):類別0:90°(逆時針旋轉(zhuǎn)90°...
2025-11-11 10:03:09 227瀏覽 0點贊 0回復(fù) 0收藏
再來看一個文檔版式數(shù)據(jù)生成思路,利用大模型從粗到細(xì)粒度的生成通用文檔版面分析數(shù)據(jù),解決現(xiàn)有版式分析“缺多樣性”、“缺規(guī)模”、“依賴人工標(biāo)注”問題。OmniLayout與現(xiàn)有布局?jǐn)?shù)據(jù)集的比較OmniLayout1M數(shù)據(jù)集為解決上面提到的問題,構(gòu)建OmniLayout1M數(shù)據(jù)集,因此有幾個點需要提一下:覆蓋的場景需要豐富,數(shù)據(jù)來源于學(xué)術(shù)數(shù)據(jù)庫(13個,如arXiv、PubMed);出版商(7個,如Elsevier、Springer);文檔共享平臺(16個,如教育...
2025-11-06 09:28:19 341瀏覽 0點贊 0回復(fù) 0收藏
如何輸入一張草圖,生成美觀的版面圖?下面來看一個多模態(tài)布局生成思路。草圖生成版面圖效果方法整體框架如上圖框架,文檔布局生成的目標(biāo)是:以“用戶草圖+圖像+文本”為輸入,生成“符合草圖結(jié)構(gòu)、視覺美觀、語義連貫(如閱讀順序正確)”的多模態(tài)布局。多模態(tài)模型微調(diào)PaLIGemma3B,目的是“理解草圖結(jié)構(gòu)+關(guān)聯(lián)素材內(nèi)容+生成結(jié)構(gòu)化布局代碼”。模型需同時處理視覺(草圖+圖像)和文本(文本+prompt)輸入,實現(xiàn)“結(jié)構(gòu)與內(nèi)容的對...
2025-11-04 09:17:24 385瀏覽 0點贊 0回復(fù) 0收藏
整體偏向工程實現(xiàn),DocResearcher從名字可以看出,首先這個框架需要進(jìn)行文檔解析提取文檔的圖文多模態(tài)元素,文檔解析相關(guān)技術(shù)鏈路《??文檔智能??》。其次是多模態(tài)深度研究(通過迭代分解問題、積累證據(jù)、驗證信息,實現(xiàn)多文檔、多跳、多輪的深度推理。)和銜接兩者的多模態(tài)檢索架構(gòu)。DocReseaRcHeR架構(gòu)多模態(tài)文檔深度研究的典型應(yīng)用場景。用戶在多輪對話的上下文中提出一個需要多跳推理的問題,其中真實證據(jù)跨越多個文檔和...
2025-10-29 07:13:00 842瀏覽 0點贊 0回復(fù) 0收藏
本文僅看RexOmni中關(guān)于坐標(biāo)量化的思路。DetectAnythingviaNextPointPrediction,https:arxiv.orgabs2510.12798檢測器在定位方面表現(xiàn)優(yōu)異,但缺乏語言理解能力。多模態(tài)大模型(MLLMs)語言理解能力較強(qiáng),但在定位方面存在困難。2)檢測器與多模態(tài)大模型(MLLMs)在最優(yōu)化難度上的差異RexOmni的核心思路是:將“連續(xù)坐標(biāo)回歸”轉(zhuǎn)化為MLLM擅長的“離散token預(yù)測任務(wù)”。因此,任務(wù)目標(biāo)就是讓MLLM“能懂坐標(biāo)”。直接坐標(biāo)預(yù)測策略使用...
2025-10-27 08:46:34 926瀏覽 0點贊 0回復(fù) 0收藏
olmOCR2相關(guān)對比:持?jǐn)?shù)據(jù)、模型和代碼完全開源olmOCR2是一套面向文檔OCR的端到端解決方案,其核心方法圍繞RLVR,通過“合成數(shù)據(jù)規(guī)模化單元測試定獎勵RL訓(xùn)練提性能”的閉環(huán),解決傳統(tǒng)OCR系統(tǒng)在復(fù)雜場景(數(shù)學(xué)公式、表格、多列布局)中的痛點。現(xiàn)有問題傳統(tǒng)OCR系統(tǒng)的性能評估依賴編輯距離,計算模型輸出與GroundTruth的字符級差異(插入、刪除、替換次數(shù))。圖1:傳統(tǒng)編輯距離的局限性:閱讀順序問題圖2:傳統(tǒng)編輯距離的局限性:...
2025-10-24 09:57:39 941瀏覽 0點贊 0回復(fù) 0收藏
DeepSeekOCR是一個端到端的多模態(tài)文檔解析模型,是Vary、GOTOCR2.0的后續(xù),前期也有詳細(xì)介紹《??【多模態(tài)&文檔智能】OCRfree感知多模態(tài)大模型技術(shù)鏈路及訓(xùn)練數(shù)據(jù)細(xì)節(jié)??》。其核心目標(biāo)是用極少的視覺token(visiontokens)解碼出大量文本token(texttokens)。視覺token壓縮比和性能比較VLMs中的典型視覺編碼?:處理長文本時視覺token過多、激活內(nèi)存大的問題多模態(tài)文檔解析相關(guān)就不再過多介紹了,詳細(xì)可以看專欄《???文...
2025-10-21 10:00:25 1389瀏覽 0點贊 0回復(fù) 0收藏
文檔解析這條賽道真卷,《文檔智能》目前整體技術(shù)路線分三類:pipline式、兩階段式和端到端,如下:piplinelayout+VLMVLMfinetune下面再來看一個兩階段方案,由layout+VLM組成PaddleOCRVL0.9B。方法PaddleOCRVL正如上圖,PaddleOCRVL分兩階段:階段1:PPDocLayoutV2,負(fù)責(zé)布局分析,定位語義區(qū)域并預(yù)測其閱讀順序。PPDocLayoutV2結(jié)構(gòu)式RTDETR以及一個具有六個transformer層的輕量級指針網(wǎng)絡(luò),以準(zhǔn)確預(yù)測布局元素的閱讀順序。版...
2025-10-21 09:09:10 742瀏覽 0點贊 0回復(fù) 0收藏
現(xiàn)有RAG系統(tǒng)的各個模塊的任務(wù)目標(biāo)不一致:傳統(tǒng)方法(如監(jiān)督微調(diào)SFT)單獨(dú)優(yōu)化查詢重寫、文檔檢索、答案生成等模塊,但單個模塊的“局部最優(yōu)”無法保證最終答案的“全局最優(yōu)”。MMOARAG創(chuàng)新點是將RAG系統(tǒng)的可訓(xùn)練模塊建模為協(xié)作式多智能體,讓所有智能體的優(yōu)化目標(biāo)統(tǒng)一對齊到“最終答案質(zhì)量”(如F1分?jǐn)?shù)),通過多智能體強(qiáng)化學(xué)習(xí)(MAPPO算法)實現(xiàn)模塊間的聯(lián)合優(yōu)化,解決這個問題。MMOARAG的整體框架總結(jié)如下:模塊角色(智能體...
2025-10-21 09:07:22 817瀏覽 0點贊 0回復(fù) 0收藏
前期,筆者在《文檔智能》專欄中介紹了pipline式、兩階段式和端到端的多個文檔解析相關(guān)方案及技術(shù)點。如:piplinelayout+VLMVLMfinetune下面再來看一個兩階段(一個VLM既做layout,也做OCRformat)的VLM文檔解析模型MinerU2.5。方法MinerU2.5的框架,在第一階段,MinerU2.5對下采樣后的頁面執(zhí)行快速的全局布局分析。在第二階段,MinerU2.5利用布局分析結(jié)果從原始高分辨率文檔中裁剪出關(guān)鍵區(qū)域,并在這些原始分辨率的局部區(qū)域內(nèi)...
2025-10-17 09:44:27 1725瀏覽 0點贊 0回復(fù) 0收藏
現(xiàn)有金融RAG的兩大痛點:一是多模態(tài)數(shù)據(jù)(文本表格圖表)的統(tǒng)一處理,二是通用金融知識與公司特異性需求的平衡。金融領(lǐng)域的問答(如分析SEC10K報告中的供應(yīng)鏈風(fēng)險、季度毛利率)需要“精準(zhǔn)結(jié)合多模態(tài)數(shù)據(jù)、兼顧通用規(guī)則與公司特性、快速響應(yīng)高頻查詢與實時需求。完整的VeRitasFiRAG流水線。該圖展示了三條并行的知識檢索路徑:多路徑檢索(藍(lán)色)、記憶庫查找(綠色)和工具使用(紅色)。圍繞金融領(lǐng)域多模態(tài)問答RAG框架Veritas...
2025-10-15 09:41:52 1942瀏覽 0點贊 0回復(fù) 0收藏
下面再看一個思路,圍繞解決在視覺豐富文檔(VRDs,如含圖表、多頁報告、幻燈片的PDF)理解的缺陷:丟失布局與結(jié)構(gòu)上下文:傳統(tǒng)RAG將文檔拆分為孤立塊(如段落)嵌入,忽略跨頁依賴(如“章節(jié)標(biāo)題后續(xù)內(nèi)容”關(guān)聯(lián))和布局層級(如“圖表標(biāo)題注釋”的視覺關(guān)聯(lián)),易漏檢關(guān)鍵證據(jù)。過度依賴語義嵌入:僅通過文本圖像嵌入的相似度檢索,無法處理依賴符號結(jié)構(gòu)線索的查詢(如“統(tǒng)計所有源自Pew研究中心的圖表”)——這類查詢需聚合“...
2025-10-15 09:40:07 1879瀏覽 0點贊 0回復(fù) 0收藏
多模態(tài)大模型VLMs視覺token數(shù)量多會影響推理的計算性能,也有相關(guān)工作在token壓縮上進(jìn)行了研究,token剪枝是與token壓縮不同的提高計算性能的另一種方法,下面來看一個專為文檔理解設(shè)計的剪枝思路,在多模態(tài)文檔理解場景的視覺token的剪枝工作,目標(biāo)是在VLMs處理文檔圖像前,提前過濾無信息背景區(qū)域,以降低計算成本同時保持文檔理解性能。如上圖框架三個組件:二值文本區(qū)域分類器(綠色)、保持索引的token剪枝(藍(lán)色)以及一...
2025-10-09 07:19:48 1189瀏覽 0點贊 0回復(fù) 0收藏
ThinkingAugmentedPreTraining(TPT,思考增強(qiáng)預(yù)訓(xùn)練)提出源于當(dāng)前LLM訓(xùn)練的兩大核心瓶頸,這也是方法設(shè)計的出發(fā)點:高質(zhì)量數(shù)據(jù)耗盡:LLM訓(xùn)練依賴海量數(shù)據(jù)(如最新開源模型已用10萬億Token),但人類創(chuàng)作的高質(zhì)量Web數(shù)據(jù)已接近枯竭,繼續(xù)擴(kuò)大數(shù)據(jù)規(guī)模成本極高;高價值Token難學(xué)習(xí):部分關(guān)鍵Token(如數(shù)學(xué)題答案“890”、邏輯推理結(jié)論)背后依賴復(fù)雜的多步推理(如多項式除法、余數(shù)定理),固定模型容量下,直接學(xué)習(xí)這類Token只...
2025-10-09 07:16:30 1166瀏覽 0點贊 0回復(fù) 0收藏
看到一篇博客,寫的不錯,原文:Ahitchhiker'sguideintoLLMposttraining,https:tokensforthoughts.notion.siteposttraining101本文僅作譯記錄。概述本文檔旨在作為理解大語言模型(LLM)后訓(xùn)練基礎(chǔ)的指南,涵蓋了從預(yù)訓(xùn)練模型到指令微調(diào)模型的完整流程。指南將梳理后訓(xùn)練的全生命周期,探討以下內(nèi)容:從“下一個token預(yù)測”到“指令遵循”的轉(zhuǎn)變過程有監(jiān)督微調(diào)(SupervisedFineTuning,SFT)基礎(chǔ),包括數(shù)據(jù)集構(gòu)建與損失函數(shù)各類...
2025-09-28 07:27:05 4183瀏覽 0點贊 0回復(fù) 0收藏
首先從源碼角度看Qwen3VL的改進(jìn),核心圍繞增強(qiáng)多模態(tài)融合深度(DeepStack)、優(yōu)化視覺特征處理、提升時序建模精度(視頻時間戳編碼)以及精細(xì)化歸一化設(shè)計(文本專用RMSNorm),整體更注重多模態(tài)任務(wù)中的特征對齊與深層交互。然后概述DeepStack用于多模態(tài)大模型的核心思想。Qwen3VL源碼側(cè)改進(jìn)點代碼側(cè)改動如下:1.??hiddenact"silu"???>??hiddenact"gelupytorchtanh"??2.Qwen3VLProcessor引入??Qwen3VLVideoProcesso...
2025-09-25 10:56:38 4397瀏覽 0點贊 0回復(fù) 0收藏