華為 Doc-Researcher 布局感知+視覺語義雙殺
RAG+Agent催生了深度研究系統逐漸興起,通過迭代推理和證據收集來解決復雜問題。然而,現有的系統主要依賴于文本網頁數據,忽視了多模態文檔(如科學論文、技術報告和金融文件)中蘊含的豐富知識。這些文檔通常包含圖表、表格、圖表和方程等視覺元素,其中嵌入了關鍵信息。處理這類文檔需要復雜的解析技術以保留視覺語義,智能分塊以維持結構連貫性,以及跨模態的自適應檢索能力,而這些能力在現有系統中是缺失的。
一、深度研究系統的一些問題

(一)多模態文檔解析不足
問題:
- 現有的文檔解析方法要么通過光學字符識別(OCR)將文檔轉換為文本,要么將文檔作為原始頁面截圖處理,這兩種方法都無法保留圖表、表格、圖像等視覺元素的模態特性和豐富的視覺語義。
解決方案:
- 利用深度多模態解析框架,進行布局感知的文檔分析,提取結構化元素(如文本、表格、圖像、方程等),并為其添加布局類型和邊界框坐標。
- 對于視覺元素,通過Qwen2.5-VL生成粗粒度的總結和細粒度的描述,同時將方程轉換為LaTeX格式。
- 這種解析策略既保留了視覺語義,又維持了結構精度,為后續的檢索和推理操作提供了高效的支持。
(二)檢索策略有限
問題:
- 現有系統僅基于OCR提取的文本塊或全頁截圖進行檢索,無法根據不同的研究任務動態選擇最優的檢索策略和粒度(如文檔級、頁面級、塊級等),導致無法精確定位多模態證據。
解決方案:
- 設計系統化的檢索架構,支持文本、視覺和混合檢索范式,并根據不同查詢的特征動態選擇檢索粒度。
- 通過實驗評估了多種文本和視覺檢索器以及重排序和查詢擴展策略,揭示了文本、視覺和混合檢索方法在效果和效率之間的權衡。
假設用戶需要從多篇金融報告中提取關于特定公司財務指標的詳細信息。 如果使用傳統的文本檢索方法,可能會遺漏與圖表相關的財務數據。 而本文的檢索架構可以根據查詢內容,動態選擇視覺檢索方法來定位包含財務圖表的頁面,同時結合文本檢索提取圖表中的具體數值和相關描述,從而為用戶提供全面且精確的檢索結果。
(三)缺乏深度研究能力
問題:
- 當前單輪的視覺問答,無法進行迭代的多步驟研究流程,且缺乏對多模態文檔進行綜合理解和推理的能力。
解決方案:
- 本文將介紹的Doc-Researcher系統,通過多智能體協作框架實現迭代的多步驟研究流程。
- 該系統包括規劃器(Planner)、搜索器(Searcher)、精煉器(Refiner)和報告生成器(Reporter)四個智能體,能夠根據用戶查詢的語義和對話歷史,智能選擇文檔子集、確定檢索粒度,并分解復雜問題為多個子查詢。
- 通過迭代的搜索-精煉循環,系統逐步積累相關證據,并最終生成綜合性的答案。
以一個涉及多篇研究報告的復雜問題為例,用戶詢問不同研究中關于某種藥物療效的對比分析。
- 首先通過規劃器篩選出與藥物相關的研究文檔,然后根據查詢的復雜性選擇合適的檢索粒度(如文檔摘要或細粒度的文本塊)。
- 搜索器和精煉器通過多輪迭代檢索和證據篩選,逐步積累支持對比分析的證據,包括文本描述、數據圖表等。
- 最終,報告生成器將這些證據整合成一份包含文本和視覺元素的綜合報告,清晰展示不同研究中藥物療效的對比結果,為用戶提供全面且直觀的答案。
二、Doc-Researcher

(一)模型結構
Doc-Researcher系統由以下幾個關鍵模塊組成:
- 深度多模態解析模塊:負責將多模態文檔轉換為結構化、多粒度且可搜索的單元,同時保留多模態語義。
- 檢索架構模塊:支持文本、視覺和混合檢索范式,并根據不同查詢動態選擇最優檢索策略。
- 多智能體協作模塊:包括規劃器、搜索器、精煉器和報告生成器,用于解決復雜問題的迭代研究流程。
- M4DocBench基準測試模塊:用于評估多模態、多跳、多文檔和多輪深度研究能力的基準測試框架。
(二)深度多模態解析

通過布局感知的分塊方法,將文檔中的文本元素在章節邊界內合并,生成不同粒度級別的文檔表示(如塊、頁面、全文、摘要),以支持多粒度檢索。
- 文檔預處理:使用MinerU工具對文檔進行布局感知解析,提取結構化元素(如文本、表格、圖像、方程等),并為其添加布局類型和邊界框坐標。
- 視覺元素處理:對于圖像和表格,通過Qwen2.5-VL生成粗粒度的總結和細粒度的描述,同時將方程轉換為LaTeX格式。
- 文檔分塊:根據布局信息,將文本元素在章節邊界內合并,生成不同粒度級別的文檔表示(如塊、頁面、全文、摘要),以支持多粒度檢索。
(三)檢索架構
根據查詢的特征和內容類型,動態選擇文本、視覺或混合檢索方法,并確定最優的檢索粒度,以實現精確的多模態證據定位。
- 文本檢索:使用文本檢索器(如BM25、E5、BGE-M3等)對OCR提取的文本、文本塊以及視覺元素的文本描述進行編碼和檢索。
- 視覺檢索:使用視覺檢索器(如DSE、ColPali、Jina-embedding-v4等)直接對頁面截圖或視覺塊進行編碼和檢索。
- 混合檢索:結合文本和視覺檢索器的優勢,同時檢索文本塊和視覺塊,以充分利用不同模態的信息。
- 動態策略選擇:根據查詢的特征和內容類型,動態選擇最優的檢索策略和粒度(如文檔級、頁面級、塊級等)。
作者分享了幾個比較好用的模型,以及效果展示


(四)多智能體協作
通過規劃器的智能文檔篩選和檢索粒度選擇,結合搜索器和精煉器的迭代檢索與證據篩選,逐步積累相關證據,并通過報告生成器生成綜合答案。 將檢索到的證據整合為包含文本和視覺元素的多模態報告,直接嵌入相關圖表、圖像等,增強答案的質量和可驗證性。
- 規劃器:分析用戶查詢和對話歷史,篩選出與查詢相關的文檔子集,確定最優的檢索粒度,并分解復雜問題為多個子查詢。
- 搜索器:根據規劃器的指示,使用選定的檢索策略和粒度進行檢索,獲取與子查詢相關的文檔內容。
- 精煉器:對檢索到的內容進行去重和相關性過濾,篩選出真正相關的證據。
- 報告生成器:將積累的證據整合為一份包含文本和視覺元素的

M4DocBench涵蓋了多個領域的多模態文檔集合,包含158個專家標注的問題,涉及304篇文檔,測試了多模態、多跳、多文檔和多輪深度研究能力。
本文轉載自??CourseAI??,作者:CourseAI

















