多模態文檔類“GraphRAG”框架實現思路-LAD-RAG框架 原創
下面再看一個思路,圍繞解決在視覺豐富文檔(VRDs,如含圖表、多頁報告、幻燈片的PDF)理解的缺陷:
- 丟失布局與結構上下文:傳統RAG將文檔拆分為孤立塊(如段落)嵌入,忽略跨頁依賴(如“章節標題-后續內容”關聯)和布局層級(如“圖表-標題-注釋”的視覺關聯),易漏檢關鍵證據。
- 過度依賴語義嵌入:僅通過文本/圖像嵌入的相似度檢索,無法處理依賴符號/結構線索的查詢(如“統計所有源自Pew研究中心的圖表”)——這類查詢需聚合“圖表類型+來源標注”等顯式結構信息,而嵌入無法捕捉此類細節。
- top-k檢索:固定檢索數量(如top-5/10),不適應查詢復雜度(例:“介紹3個組織”僅需3頁,“統計荷蘭位置圖片”需12頁),導致“證據不足”或“噪聲過多”。
LAD-RAG 通過以下方式解決傳統 RAG 在VRD 中的三個關鍵局限性:

二、LAD-RAG框架

LAD-RAG 框架流程:在信息攝取階段,大型視覺語言模型從每頁文檔中提取要素并編碼至索引系統,同時構建捕獲頁面間與頁面內關聯的文檔關系圖以支持符號檢索。在推理階段,智能體解析問題并循環交互神經網絡索引與文檔關系圖,從而檢索相關證據,實現問題感知與結構感知的雙重檢索機制。左:攝入階段構建雙索引;右:推理階段LLM智能體動態檢索
2.1、第一階段:Ingestion
攝入階段的目標是通過“視覺語言模型(LVLM)+運行內存”構建包含布局結構和跨頁依賴的文檔表示,最終輸出“符號文檔圖”和“索引”。
2.1.1 核心步驟1:文檔元素提取與Running Memory維護
為捕捉跨頁上下文,LAD-RAG模擬人類閱讀習慣(逐頁理解+記憶累積),分兩步處理文檔:
- 文檔逐頁元素提取:使用GPT-4o(強視覺語言模型)逐頁解析VRD,提取頁面中所有本地化元素(如段落、圖表、表格、章節標題、腳注),并為每個元素生成“自包含描述”(用于后續節點構建)。
每個元素需包含5類關鍵信息(為后續符號圖節點屬性做準備):
- 布局位置(如“左上”“頁腳”);
- 元素類型(如“figure”“section_header”);
- 顯示內容(文本、圖表數據、表格數值);
- 自包含摘要(脫離上下文也可理解的描述,如“2023年美國移民意愿柱狀圖,對比公眾與拉丁裔群體”);
- 視覺屬性(字體、顏色、大小)。
- Running Memory(M)累積跨頁信息
維護一個“動態記憶庫”,類似人類閱讀時的“持續理解”,逐頁累積三類高-level信息:
- 章節結構(如“1. 引言 → 1.1 研究背景”的層級);
- 實體提及(如反復出現的“Pew研究中心”“大數據轉型案例”);
- 主題進展(如“從‘問題提出’到‘案例分析’的邏輯流”)。
當處理新頁面時,通過內存關聯新元素與歷史信息(如“新圖表屬于第2章案例分析”),為后續跨頁邊的構建提供依據。
2.1.2 核心步驟2:構建符號文檔圖(G)
符號文檔圖是將文檔的“結構與布局關系"圖的構成如下:
組成 | 具體設計 | 作用 |
節點(Nodes) | 每個節點對應1個頁面元素(如1個圖表、1個段落),屬性即3.1中提取的“布局位置、元素類型、摘要”等信息 | 實現“細粒度檢索”(如僅檢索所有“figure”節點) |
邊(Edges) | 連接節點的兩類關系: | 捕捉跨元素/跨頁依賴,支持“結構化檢索”(如“找到附錄A的所有延續頁面”) |
邊的構建依賴“運行內存”——例如,內存中記錄“第22頁‘附錄A’是章節層級的葉子節點”,處理第23頁時,通過內存識別“第23頁內容是附錄A的延續”,并建立“第22頁附錄節點→第23頁附錄節點”的“continues”邊。
2.1.3 核心步驟3:神經-符號雙索引存儲
攝入階段的最終輸出是兩類互補索引,為推理階段的多模態檢索提供基礎:
- 符號索引(G):即完整的文檔圖對象,存儲節點/邊的顯式結構屬性(如“元素類型=figure”“邊類型=continues”),支持“基于規則的結構化查詢”(如“篩選所有屬于第3章且引用圖表的段落”)。
- 神經索引(E):對所有節點的“自包含摘要”進行向量嵌入(如用E5/BGE模型),構建向量數據庫,支持“基于語義相似度的檢索”(如“找到與‘大數據轉型案例’語義相似的節點”)。
雙索引避免傳統RAG僅依賴嵌入的局限,也避免純符號檢索缺乏語義理解的問題。
相關提示詞:

用于提取文檔圖結點的提示。

用于跨文檔頁面構建和更新運行記憶的提示。

用于文檔圖譜構建的攝取過程中所使用的提示
2.2、第二階段:推理——LLM智能體動態檢索證據
推理階段的目標是通過LLM智能體(仍基于GPT-4o)動態交互雙索引,根據查詢需求自適應選擇檢索策略,直到收集到“完整且低噪聲”的證據。
這里文章核心的介紹了LLM智能體與三大檢索工具。
智能體的核心能力是“理解查詢需求→選擇檢索工具→迭代優化證據集”,其可調用三類工具(對應不同檢索場景):
工具名稱 | 功能 | 適用場景 |
NeuroSemanticSearch | 向神經索引(E)發送查詢,返回語義相似度最高的節點(如“檢索‘大數據轉型案例’相關節點”) | 查詢依賴語義理解(無顯式結構要求) |
SymbolicGraphQuery | 向符號索引(G)發送結構化查詢,篩選符合屬性/關系的節點(如“篩選所有‘type=figure’且‘屬于第2章’的節點”) | 查詢依賴結構/符號線索(如“統計特定來源的圖表數量”) |
Contextualize | 輸入1個節點,基于文檔圖的“社區檢測”(Louvain算法)擴展其“結構鄰近節點”(如“輸入‘附錄A’節點,擴展所有屬于同一社區的附錄延續節點”) | 需補充節點的上下文(如“找到與目標節點相關的所有章節內容”) |
社區檢測細節:Louvain算法會將文檔圖中“結構/語義高度關聯的節點”聚類為“社區”(如“第3章的所有圖表+段落+標題”構成一個社區),Contextualize工具通過調用社區信息,快速擴展出“完整的上下文證據”,避免漏檢。

這一階段提示詞
實驗性能

各模型在不同檢索類型(經 topk 調整:證據數量與 LAD-RAG 相同)及 top-k 下的準確率得分。 單/多參考分別指需要單頁或多頁證據的問題。

案例研究顯示,LAD-RAG 成功檢索出所有對比普通大眾與拉丁裔/西班牙裔群體的圖表。傳統語 義檢索器不僅遺漏大量相關圖表,還會混入無關內容,而 LAD-RAG 則動態選擇符號檢索方案:先篩選 所有圖形結點,再利用周邊布局進行語境化分析,最終判定是否符合查詢要求。這種基于圖譜引導的多步 驟流程實現了精準且完備的證據收集。

案例研究展示 LAD-RAG 檢索多頁參考文獻的過程。當語義搜索僅能定位參考文獻首頁時,因語義 重疊較弱而遺漏后續內容,LAD-RAG 動態切換至基于圖形的上下文關聯技術,成功恢復所有結構相關 的結點,實現完整證據覆蓋。

MMLongBench-Doc 問答準確率細分。

在 LongDocURL 上的問答準確率細分
參考文獻:LAD-RAG: Layout-aware Dynamic RAG for Visually-Rich Document Understanding,https://arxiv.org/pdf/2510.07233v1
本文轉載自????大模型自然語言處理?? 作者:余俊暉

















