ViDoRAG：提升視覺RAG性能10% 精華

發(fā)布于 2025-3-17 00:58

瀏覽

0收藏

ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents

ViDoRAG——一個專為視覺文檔復(fù)雜推理設(shè)計的多智能體 RAG 框架。ViDoRAG 采用基于高斯混合模型（GMM）的混合策略，實現(xiàn)高效多模態(tài)檢索。為進一步挖掘模型推理潛力，我們設(shè)計了一個包含探索、總結(jié)與反思的迭代智能體工作流，為研究 RAG 領(lǐng)域的測試時擴展提供了全新框架，超越現(xiàn)有方法 10%以上。

https://arxiv.org/abs/2502.18017

一、為什么需要 ViDoRAG 技術(shù)？

ViDoRAG：提升視覺RAG性能10%-AI.x社區(qū) 圖片

1.1 視覺文檔的復(fù)雜性

在信息爆炸的時代，視覺文檔（如包含圖表、表格、圖像的文件）在教育、金融、法律等多個領(lǐng)域廣泛應(yīng)用。這些文檔不僅包含文本信息，還通過視覺元素傳遞關(guān)鍵信息。然而，傳統(tǒng)的檢索增強生成（Retrieval-Augmented Generation, RAG）方法在處理這些視覺文檔時面臨巨大挑戰(zhàn)，因為它們難以有效整合文本和視覺特征。例如，一份金融報告可能包含復(fù)雜的圖表和表格，傳統(tǒng)的 RAG 系統(tǒng)只能提取文本信息，而忽略了圖表中的關(guān)鍵數(shù)據(jù)，導(dǎo)致信息不完整。

1.2 現(xiàn)有方法的局限性

現(xiàn)有的視覺問答（Visual Question Answering, VQA）基準(zhǔn)主要針對單一圖像或文檔，無法應(yīng)對大規(guī)模文檔集合中的復(fù)雜推理任務(wù)。例如，傳統(tǒng)的 VQA 數(shù)據(jù)集通常要求每個問題與特定的圖像或文檔配對，但在實際應(yīng)用中，用戶可能需要從數(shù)百個文檔中檢索信息。此外，傳統(tǒng)的 OCR（光學(xué)字符識別）檢索方法在處理視覺信息時表現(xiàn)不佳，導(dǎo)致檢索結(jié)果不準(zhǔn)確。例如，OCR 可能無法正確識別圖表中的數(shù)字或符號，從而影響后續(xù)的推理和生成。

1.3 ViDoRAG 的誕生

為了填補這一空白，ViDoRAG 應(yīng)運而生。它通過多模態(tài)檢索和迭代推理代理，顯著提升了視覺文檔的檢索和生成能力，為復(fù)雜推理任務(wù)提供了全新的解決方案。例如，ViDoRAG 在處理一份包含多個圖表的學(xué)術(shù)論文時，能夠同時提取文本和圖表中的信息，并通過迭代推理生成準(zhǔn)確的答案。這種創(chuàng)新方法不僅提高了信息檢索的準(zhǔn)確性，還增強了生成模型在處理復(fù)雜視覺文檔時的推理能力。

二、ViDoRAG 技術(shù)架構(gòu)

ViDoRAG：提升視覺RAG性能10%-AI.x社區(qū) 圖片

2.1 多模態(tài)混合檢索

ViDoRAG 的核心創(chuàng)新之一是多模態(tài)混合檢索策略。它結(jié)合了文本和視覺兩種檢索管道，通過高斯混合模型（Gaussian Mixture Model, GMM）動態(tài)調(diào)整檢索結(jié)果分布。這種方法能夠為每個查詢找到最優(yōu)的檢索分布，從而減少不必要的計算，提升生成效率。

在傳統(tǒng)的檢索方法中，通常會使用一個固定的參數(shù) K 來檢索最相關(guān)的 K 個圖像或文本片段。然而，這種方法存在兩個問題：

? 一是 K 值過小可能導(dǎo)致檢索到的信息不足，無法準(zhǔn)確回答問題；

? 二是 K 值過大會引入噪聲，增加計算開銷。

ViDoRAG 通過 GMM 模型動態(tài)調(diào)整 K 值，根據(jù)查詢與文檔集合的相似度分布，自動確定最佳的 K 值。

GMM 模型將相似度分布分為兩個高斯分布，分別代表高相似度和低相似度的文檔。通過期望最大化（Expectation-Maximization, EM）算法，GMM 模型能夠估計每個模態(tài)的先驗概率，從而動態(tài)調(diào)整 K 值。

這種動態(tài)調(diào)整策略不僅提高了檢索的準(zhǔn)確性，還顯著減少了計算開銷。實驗表明，ViDoRAG 在檢索任務(wù)中的表現(xiàn)優(yōu)于傳統(tǒng)的固定 K 值方法，尤其是在處理大規(guī)模文檔集合時，能夠更高效地找到相關(guān)信息。

2.2 迭代推理代理

ViDoRAG 引入了三種智能體：搜索智能體（Seeker Agent）、審查智能體（Inspector Agent）和回答智能體（Answer Agent）。這種多智能體框架通過迭代推理的方式，逐步優(yōu)化答案的生成過程，減少了無關(guān)信息的干擾，提升了推理的魯棒性。

?搜索智能體（Seeker Agent）：負責(zé)快速掃描文檔并選擇相關(guān)圖像。它根據(jù)查詢和審查代理的反饋，逐步縮小檢索范圍，確保每次迭代都能找到更相關(guān)的信息。

?審查智能體（Inspector Agent）：則對搜索代理選擇的圖像進行詳細審查，并提供初步答案或反饋。如果當(dāng)前信息不足以回答問題，審查代理會指導(dǎo)搜索代理進一步檢索相關(guān)圖像。

?回答智能體（Answer Agent）：負責(zé)整合審查代理的初步答案，并生成最終的答案。

這種迭代推理的框架不僅提高了答案的準(zhǔn)確性，還增強了模型在處理復(fù)雜查詢時的魯棒性。實驗表明，ViDoRAG 在復(fù)雜推理任務(wù)中的表現(xiàn)顯著優(yōu)于傳統(tǒng)的單步推理方法。

2.3 開源資源

ViDoRAG 的代碼和數(shù)據(jù)集已在 GitHub 上開源，地址為：https://github.com/Alibaba-NLP/ViDoRAG。

ViDoRAG：提升視覺RAG性能10%-AI.x社區(qū) 圖片

下圖為數(shù)據(jù)集構(gòu)建流程：

ViDoRAG：提升視覺RAG性能10%-AI.x社區(qū) 圖片

三、ViDoRAG 的應(yīng)用與效果評估

3.1 性能提升

ViDoRAG：提升視覺RAG性能10%-AI.x社區(qū) 圖片

在閉源和開源模型上進行了對比，包括 GPT-4o、Qwen2.5-7B-Instruct、Qwen2.5-VL-7B-Instruct 和 Llama3.2-Vision-90B-Instruct。

? 閉源模型表現(xiàn)優(yōu)于開源模型。

? Qwen2.5-VL-7B 在 ViDoRAG 中展示了出色的指令跟隨和推理能力。

? Llama3.2-VL 需要 90B 參數(shù)才能完成相同的指令，可能與模型的預(yù)訓(xùn)練領(lǐng)域有關(guān)。

3.2 檢索效率

ViDoRAG：提升視覺RAG性能10%-AI.x社區(qū) 圖片

注：

Recall@K 表示在前 K 個檢索結(jié)果中，系統(tǒng)成功檢索到正確答案的比例。

MRR@K 是衡量系統(tǒng)檢索到正確答案的平均排名的倒數(shù)。

上圖各種檢索器的詳細性能，包括基于 OCR 和基于視覺的檢索器。由于動態(tài)檢索在查詢之間存在不確定性，使用結(jié)果的平均長度進行分析。

動態(tài)檢索可以在較短的上下文長度下實現(xiàn)更好的召回性能，而混合檢索結(jié)合了兩個管道的結(jié)果，達到了最先進的性能。

3.3 消融實驗

ViDoRAG：提升視覺RAG性能10%-AI.x社區(qū) 圖片

上表展示了不同檢索器和生成方法對性能的影響。將動態(tài)檢索分解為兩個部分：動態(tài)和混合。Naive 方法指直接輸入，作為基線使用。

? 動態(tài)方法指僅基于視覺管道使用 GMM 擬合最佳召回分布。

? 混合方法指直接合并視覺和文本檢索結(jié)果，由于上下文較長，導(dǎo)致次優(yōu)結(jié)果。

上述結(jié)果表明：ViDoRAG在檢索和生成模塊上的改進及其組合能夠從多個角度全面提升端到端性能。

3.4 時間效率

3.4.1 動態(tài)檢索如何平衡延遲與準(zhǔn)確性？

在傳統(tǒng)的 RAG 系統(tǒng)中，使用較小的 top-K 值可能導(dǎo)致遺漏關(guān)鍵信息，而使用較大的值則會引入噪聲并增加計算開銷。

ViDoRAG 根據(jù)查詢與語料庫之間的相似度分布動態(tài)確定要檢索的文檔數(shù)量，確保僅檢索最相關(guān)的文檔，從而減少不必要的計算并加速生成過程。

ViDoRAG：提升視覺RAG性能10%-AI.x社區(qū) 圖片

如上表，比較了使用和不使用 GMM 的檢索方法。實驗表明，GMM 可能會由于分布偏差而降低召回率，但由于顯著縮短了生成上下文，因此在端到端評估中有效提升了性能。

3.4.2 多代理生成的延遲分析

ViDoRAG：提升視覺RAG性能10%-AI.x社區(qū) 圖片

由于多智能體系統(tǒng)的迭代性質(zhì)，延遲有所增加，如上圖所示。每個智能體按順序執(zhí)行特定任務(wù)，與傳統(tǒng)直接 RAG 相比增加了少量開銷。然而，盡管延遲增加，生成答案的質(zhì)量提高使得在復(fù)雜 RAG 任務(wù)中這種權(quán)衡非常有益

3.5 生成的多模態(tài)與策略

ViDoRAG：提升視覺RAG性能10%-AI.x社區(qū) 圖片

如上圖所示，基于視覺的Pipeline 在所有類型的查詢中均優(yōu)于基于文本的 Pipeline。

由于模型的固有特性，LLM 的推理能力比 VLM 更強。然而，缺乏視覺信息使得模型難以識別信息之間的內(nèi)在聯(lián)系。這也對基于視覺豐富文檔的生成提出了挑戰(zhàn)。在獲取視覺信息的同時，ViDoRAG 進一步增強了 VLM 的推理能力，在準(zhǔn)確性和計算負載之間取得了平衡。