“扁平+拓?fù)洹彪p索引,85頁P(yáng)DF"秒級"推理,MMRag幻覺率驟降76%
多模態(tài)長文檔視覺問答(Multimodal Long-context Document Question Answering, 后文簡稱 M-L-DocQA)要求系統(tǒng)在給定一份可能長達(dá)數(shù)十頁, 包含:文本、表格、圖表、圖像與版式元素的 PDF。自動定位并融合跨頁、跨模態(tài)的證據(jù),最終生成自然語言答案。
圖片
這種任務(wù)常見于科研論文、上市公司年報、產(chǎn)品說明書、政府統(tǒng)計報告等場景。深入接觸過RAG的讀者們,想必都明白其中的技術(shù)難點(diǎn)。
當(dāng)前的技術(shù)路線與困境
目前基本上就兩條技術(shù)路線1、大視覺-語言模型直接端到端(LVLM-based)代表工作:GPT-4V、Qwen-VL、InternLM-XComposer2-4KHD 等。優(yōu)點(diǎn):無需顯式檢索,可一次性讀入整圖或整 PDF。缺點(diǎn):
- 上下文長度受限,>100 頁 PDF 必須滑動窗口或降采樣,導(dǎo)致信息丟失;
- 幻覺嚴(yán)重,在多跳數(shù)值推理上錯誤率極高;
- 黑箱推理,難以給出可驗(yàn)證的證據(jù)鏈。
2、檢索增強(qiáng)生成(RAG-based)代表工作:ColBERTv2、M3DocRAG、VisRAG 等。優(yōu)點(diǎn):可擴(kuò)展至任意頁數(shù),顯式返回證據(jù),降低幻覺。缺點(diǎn):
- 模態(tài)割裂——文本檢索器只看 OCR,圖像檢索器只看截圖,二者得分空間不可比,導(dǎo)致“圖文不能互通”;
- 跨頁碎片化——現(xiàn)有方法以單頁或單段為檢索粒度,無法建模“頁與頁之間的語義遠(yuǎn)距離依賴”;
- 證據(jù)粒度單一——要么只召回段落,要么只召回整圖,缺乏“頁級父頁 + 文檔級摘要”的多層次證據(jù)。
MMRAG-DocQA要解決問題
- 多模態(tài)連接缺失。問題關(guān)鍵詞往往只與文本局部匹配,而真正答案卻藏在圖表視覺區(qū),需要建立“文本-視覺”在同頁內(nèi)的語義橋。
- 跨頁證據(jù)鏈接與長距推理缺失。答案需要把 A 頁的“說明性文字”與 B 頁的“數(shù)值表格”聯(lián)合計算,現(xiàn)有方法無法顯式聚合跨頁語義。
MMRAG-DocQA的方案

- 首次將“分層索引 + 多粒度檢索”引入多模態(tài)長文檔問答。
- 設(shè)計扁平化頁內(nèi)索引(flattened in-page index)與拓?fù)淇珥撍饕╰opological cross-page index),同時建模“同頁異模態(tài)相關(guān)性”與“跨頁遠(yuǎn)距離依賴”。
- 提出頁級父頁檢索(parent-page retrieval)與文檔級摘要檢索(summary retrieval)兩種互補(bǔ)策略,實(shí)現(xiàn)粗-細(xì)粒度證據(jù)互補(bǔ)。
分層索引構(gòu)造

多粒度檢索策略
- 頁級父頁檢索(Modality Connection) 動機(jī):答案圖表與描述文字常共處一頁,只要召回“相關(guān)文本段”,就能順藤摸瓜拿到同頁圖像。流程:

- 文檔級摘要檢索(Long-distance Reasoning)動機(jī):跨頁數(shù)值對比、多跳邏輯需要“宏觀語義”指引,僅靠零散段無法滿足。流程:
- 在拓?fù)渌饕?I_cross 中,計算 Q 與所有節(jié)點(diǎn)向量的相似度;
- 取 Top-K_s 個節(jié)點(diǎn),拉取對應(yīng)摘要,得 Summary^final_q;
- 摘要已天然融合多頁信息,可直接作為“高層證據(jù)”。
證據(jù)融合與答案生成
最終上下文 ,拼接后送入 LLM。提示模板 P_CoT 要求模型按四步輸出:Step-by-step Analysis → Reasoning Summary → Relevant Pages → Final Answer[type],其中 type∈{List,Integer,String,Float},方便腳本自動提取,無需額外正則。
圖片






























