ppt檢索的RAG方案(多模態、OCR、混合檢索)評估結論 原創
ppt RAG主要分下面3種:
- 基于layout+OCR的pipline的以文本主導的RAG方案。
- 基于VLMs+圖片向量模型的多模態RAG方案。

- 綜合上述兩種的混合檢索
那么哪種方式更好?下面主要記錄一下評估結論。
數據集

SlideVQA 和 LPM 數據集中的示例
- SlideVQA:是一個為推動演示文稿VQA研究而開發的數據集,包含來自SlideShare 的2619個ppt,包含超過 52000 個ppt和 14484個 VQA 樣本。該數據集評估模型在文本和視覺ppt元素之間檢索相關內容并進行推理的能力,每個樣本均關聯真實值ppt用于評估,并包含單跳問題(僅需一個ppt即可回答)和多跳問題(需要多個ppt才能回答)。
- LPM:用于訓練多模態講座ppt內容模型的資源,包含 334 個教育視頻(187 小時中 9031 幅ppt,覆蓋生物、解剖學、心理學、牙科、公共演講和機器學習等 35 門課程,每幅ppt均配有對應的口語文本、視覺元素以及通過 OCR 提取的文字。數據集中包含 8,598 個視覺圖像,包括自然圖像(45.1%)、圖表(46.7%)、表格(3.5%)和公式(4.6%),平均每幅ppt包含 26 個單詞和 0.94 個圖像。
實驗及結論

- 基于視覺的檢索方法:DSE、ColPali、jina-reranker-m0、MonoQwen2-VL-v0.1等
- 基于文本的檢索:bge-reranker-v2-gemma、ms-marco-MiniLM-L-12-v2等
關鍵結論
- 將混合文本檢索方法應用于視覺語言模型生成的ppt標題(例如,BM25 結合向量模型如BGE等)可顯著優于直接的多模態編碼方法(如微調的 DSE)。
- 通過引入 Jina 視覺重排序器增強的晚期交互 ColPali(視覺)模型,或通過 RRF 融合 ColPali(視覺)與其文本對應版本在標題上的表現,達到了最高的檢索效率。僅使用文本的 ColPali 模型本身在標題上應用時,提供了一種具有競爭力且顯著更節省存儲空間的替代案。在所有高性能配置中,強大的重排序器對于獲得最高得分至關重要,但不可避免地帶來了顯著延遲,凸顯了存儲需求與計算成本之間的核心權衡。用于生成標題的 VLM 選擇(Molmo 對比 Gemma3)也顯示出依賴數據集的性能差異。
檢索ppt的最佳方法是什么?
取決于應用場景。
- 若以準確率為優先,且資源和延遲可忽略,則使用Jina 重排序器的 ColPali(視覺)或其與文本 ColPali 結合的 RRF 混合方案為最佳選擇。
- 在需要兼顧高準確率、低延遲和可控存儲的 RAG 系統中,基于高質量標題的混合文本檢索(如 BM25+Neural+BGE)或搭配 BGE 重排序器的文本 ColPali 方案極為有效。
因此,將多模態ppt檢索問題轉化為文本問題,能夠利用成熟的文本信息檢索技術,通常比直接進行多模態編碼獲得更實用的解決方案。在資源極度受限的環境中,即使僅對高質量標題使用簡單的 BM25,也能提供一個合理且高效的基準。頂級重排序器(無論是視覺還是文本)帶來的顯著延遲,仍是在交互式 RAG 系統部署的主要挑戰。
What’s the Best Way to Retrieve Slides? A Comparative Study of Multimodal, Caption-Based, and Hybrid Retrieval Techniques,https://arxiv.org/pdf/2509.15211v1
本文轉載自??大模型自然語言處理?? 作者:余俊輝
?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
已于2025-9-23 10:42:37修改
贊
收藏
回復
分享
微博
QQ
微信
舉報
回復
相關推薦

















