多模態文檔類“GraphRAG”框架實現思路-LAD-RAG框架原創

大模型自然語言處理

發布于 2025-10-15 09:40

瀏覽

0收藏

下面再看一個思路，圍繞解決在視覺豐富文檔（VRDs，如含圖表、多頁報告、幻燈片的PDF）理解的缺陷：

丟失布局與結構上下文：傳統RAG將文檔拆分為孤立塊（如段落）嵌入，忽略跨頁依賴（如“章節標題-后續內容”關聯）和布局層級（如“圖表-標題-注釋”的視覺關聯），易漏檢關鍵證據。
過度依賴語義嵌入：僅通過文本/圖像嵌入的相似度檢索，無法處理依賴符號/結構線索的查詢（如“統計所有源自Pew研究中心的圖表”）——這類查詢需聚合“圖表類型+來源標注”等顯式結構信息，而嵌入無法捕捉此類細節。
top-k檢索：固定檢索數量（如top-5/10），不適應查詢復雜度（例：“介紹3個組織”僅需3頁，“統計荷蘭位置圖片”需12頁），導致“證據不足”或“噪聲過多”。

LAD-RAG 通過以下方式解決傳統 RAG 在VRD 中的三個關鍵局限性：

多模態文檔類“GraphRAG”框架實現思路-LAD-RAG框架-AI.x社區

二、LAD-RAG框架

多模態文檔類“GraphRAG”框架實現思路-LAD-RAG框架-AI.x社區

LAD-RAG 框架流程：在信息攝取階段，大型視覺語言模型從每頁文檔中提取要素并編碼至索引系統，同時構建捕獲頁面間與頁面內關聯的文檔關系圖以支持符號檢索。在推理階段，智能體解析問題并循環交互神經網絡索引與文檔關系圖，從而檢索相關證據，實現問題感知與結構感知的雙重檢索機制。左：攝入階段構建雙索引；右：推理階段LLM智能體動態檢索

2.1、第一階段：Ingestion

攝入階段的目標是通過“視覺語言模型（LVLM）+運行內存”構建包含布局結構和跨頁依賴的文檔表示，最終輸出“符號文檔圖”和“索引”。

2.1.1 核心步驟1：文檔元素提取與Running Memory維護

為捕捉跨頁上下文，LAD-RAG模擬人類閱讀習慣（逐頁理解+記憶累積），分兩步處理文檔：

文檔逐頁元素提取：使用GPT-4o（強視覺語言模型）逐頁解析VRD，提取頁面中所有本地化元素（如段落、圖表、表格、章節標題、腳注），并為每個元素生成“自包含描述”（用于后續節點構建）。
每個元素需包含5類關鍵信息（為后續符號圖節點屬性做準備）：

布局位置（如“左上”“頁腳”）；
元素類型（如“figure”“section_header”）；
顯示內容（文本、圖表數據、表格數值）；
自包含摘要（脫離上下文也可理解的描述，如“2023年美國移民意愿柱狀圖，對比公眾與拉丁裔群體”）；
視覺屬性（字體、顏色、大小）。

Running Memory（M）累積跨頁信息
維護一個“動態記憶庫”，類似人類閱讀時的“持續理解”，逐頁累積三類高-level信息：

章節結構（如“1. 引言 → 1.1 研究背景”的層級）；
實體提及（如反復出現的“Pew研究中心”“大數據轉型案例”）；
主題進展（如“從‘問題提出’到‘案例分析’的邏輯流”）。
當處理新頁面時，通過內存關聯新元素與歷史信息（如“新圖表屬于第2章案例分析”），為后續跨頁邊的構建提供依據。

2.1.2 核心步驟2：構建符號文檔圖（G）

符號文檔圖是將文檔的“結構與布局關系"圖的構成如下：

組成	具體設計	作用
節點（Nodes）	每個節點對應1個頁面元素（如1個圖表、1個段落），屬性即3.1中提取的“布局位置、元素類型、摘要”等信息	實現“細粒度檢索”（如僅檢索所有“figure”節點）
邊（Edges）	連接節點的兩類關系： 1. 引用關系（如“段落引用圖表”“腳注引用章節”）； 2. 布局/結構關系（如“元素屬于同一章節”“跨頁延續的附錄內容”）	捕捉跨元素/跨頁依賴，支持“結構化檢索”（如“找到附錄A的所有延續頁面”）

邊的構建依賴“運行內存”——例如，內存中記錄“第22頁‘附錄A’是章節層級的葉子節點”，處理第23頁時，通過內存識別“第23頁內容是附錄A的延續”，并建立“第22頁附錄節點→第23頁附錄節點”的“continues”邊。

2.1.3 核心步驟3：神經-符號雙索引存儲

攝入階段的最終輸出是兩類互補索引，為推理階段的多模態檢索提供基礎：

符號索引（G）：即完整的文檔圖對象，存儲節點/邊的顯式結構屬性（如“元素類型=figure”“邊類型=continues”），支持“基于規則的結構化查詢”（如“篩選所有屬于第3章且引用圖表的段落”）。
神經索引（E）：對所有節點的“自包含摘要”進行向量嵌入（如用E5/BGE模型），構建向量數據庫，支持“基于語義相似度的檢索”（如“找到與‘大數據轉型案例’語義相似的節點”）。

雙索引避免傳統RAG僅依賴嵌入的局限，也避免純符號檢索缺乏語義理解的問題。

相關提示詞：

多模態文檔類“GraphRAG”框架實現思路-LAD-RAG框架-AI.x社區

用于提取文檔圖結點的提示。

多模態文檔類“GraphRAG”框架實現思路-LAD-RAG框架-AI.x社區

用于跨文檔頁面構建和更新運行記憶的提示。

多模態文檔類“GraphRAG”框架實現思路-LAD-RAG框架-AI.x社區

用于文檔圖譜構建的攝取過程中所使用的提示

2.2、第二階段：推理——LLM智能體動態檢索證據

推理階段的目標是通過LLM智能體（仍基于GPT-4o）動態交互雙索引，根據查詢需求自適應選擇檢索策略，直到收集到“完整且低噪聲”的證據。

這里文章核心的介紹了LLM智能體與三大檢索工具。

智能體的核心能力是“理解查詢需求→選擇檢索工具→迭代優化證據集”，其可調用三類工具（對應不同檢索場景）：

工具名稱	功能	適用場景
NeuroSemanticSearch	向神經索引（E）發送查詢，返回語義相似度最高的節點（如“檢索‘大數據轉型案例’相關節點”）	查詢依賴語義理解（無顯式結構要求）
SymbolicGraphQuery	向符號索引（G）發送結構化查詢，篩選符合屬性/關系的節點（如“篩選所有‘type=figure’且‘屬于第2章’的節點”）	查詢依賴結構/符號線索（如“統計特定來源的圖表數量”）
Contextualize	輸入1個節點，基于文檔圖的“社區檢測”（Louvain算法）擴展其“結構鄰近節點”（如“輸入‘附錄A’節點，擴展所有屬于同一社區的附錄延續節點”）	需補充節點的上下文（如“找到與目標節點相關的所有章節內容”）

社區檢測細節：Louvain算法會將文檔圖中“結構/語義高度關聯的節點”聚類為“社區”（如“第3章的所有圖表+段落+標題”構成一個社區），Contextualize工具通過調用社區信息，快速擴展出“完整的上下文證據”，避免漏檢。

多模態文檔類“GraphRAG”框架實現思路-LAD-RAG框架-AI.x社區

這一階段提示詞

實驗性能

多模態文檔類“GraphRAG”框架實現思路-LAD-RAG框架-AI.x社區

各模型在不同檢索類型（經 topk 調整：證據數量與 LAD-RAG 相同）及 top-k 下的準確率得分。單/多參考分別指需要單頁或多頁證據的問題。

多模態文檔類“GraphRAG”框架實現思路-LAD-RAG框架-AI.x社區

案例研究顯示，LAD-RAG 成功檢索出所有對比普通大眾與拉丁裔/西班牙裔群體的圖表。傳統語義檢索器不僅遺漏大量相關圖表，還會混入無關內容，而 LAD-RAG 則動態選擇符號檢索方案：先篩選所有圖形結點，再利用周邊布局進行語境化分析，最終判定是否符合查詢要求。這種基于圖譜引導的多步驟流程實現了精準且完備的證據收集。

多模態文檔類“GraphRAG”框架實現思路-LAD-RAG框架-AI.x社區

案例研究展示 LAD-RAG 檢索多頁參考文獻的過程。當語義搜索僅能定位參考文獻首頁時，因語義重疊較弱而遺漏后續內容，LAD-RAG 動態切換至基于圖形的上下文關聯技術，成功恢復所有結構相關的結點，實現完整證據覆蓋。

多模態文檔類“GraphRAG”框架實現思路-LAD-RAG框架-AI.x社區

MMLongBench-Doc 問答準確率細分。

多模態文檔類“GraphRAG”框架實現思路-LAD-RAG框架-AI.x社區

在 LongDocURL 上的問答準確率細分

參考文獻：LAD-RAG: Layout-aware Dynamic RAG for Visually-Rich Document Understanding，https://arxiv.org/pdf/2510.07233v1

本文轉載自????大模型自然語言處理?? 作者：余俊暉

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

多模態

GraphRAG

LAD-RAG框架

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂

多模態文檔類“GraphRAG”框架實現思路-LAD-RAG框架原創