大漲240%,Doc-Researcher確立多模態文檔深度研究新范式
當大模型遇上“看不懂”的文檔
在ChatGPT引領的AI革命中,大語言模型(LLM)展現了驚人的推理能力。然而,當面對專業領域的復雜文檔時,它們卻常常“束手無策”:
- 模態缺失:現有Deep Research系統僅支持純文本網頁,無法處理PDF、論文、財報中的圖表、表格、公式
- 結構破壞:簡單OCR將文檔轉為純文本,丟失布局信息(如表格結構、圖表標題)
- 檢索粗暴:單輪檢索+固定粒度,無法適應“先概覽后精讀”的人類研究習慣

如圖1所示,一個真實的研究場景可能需要:跨3個文檔→整合文本+表格+圖片→回答多跳問題。這正是Doc-Researcher要解決的挑戰!
三位一體的解決方案
1?? 深度多模態解析(Deep Multimodal Parsing)
- 布局感知:用MinerU檢測文檔元素(文本段、表格、圖表、公式),保留邊界框坐標
- 智能分塊:按章節合并文本,生成4級粒度(chunk/page/full/summary)

布局感知的chunk
- 模態轉錄:表格/圖表用VLM生成描述,公式轉LaTeX,實現一次解析,多次復用

圖5:布局感知分塊流程
2?? 系統級檢索架構(Systematic Retrieval)

對比10種檢索器后,發現:
- 文本檢索:適合密集文本,但丟失視覺語義(如折線圖趨勢)
- 視覺檢索:直接編碼頁面截圖,保留圖表信息,但計算成本高
- 混合檢索:文本塊+視覺塊雙編碼,在M4DocBench上提升8-12%召回率
檢索范式 | 代表模型 | 優勢場景 | 計算成本 |
文本檢索 | Qwen3-Embedding | 合同、論文正文 | 低(0.6B參數) |
視覺檢索 | ColPali/Jina-VL | 財報圖表、幻燈片 | 高(>3B參數) |
混合檢索 | Doc-Researcher | 復雜多模態文檔 | 中等 |
3?? 多智能體研究流程(Multi-Agent Workflow)
- Planner:像人類研究員一樣先篩選相關文檔(減少60-80%搜索空間),再動態選擇粒度(summary→chunk→page)
- Searcher & Refiner:迭代執行“檢索-精煉”循環,支持多跳推理(如先找“Q3營收”→再對比“同比增長”)
- Reporter:生成圖文交織的答案,直接嵌入關鍵圖表作為證據

圖2:Doc-Researcher系統架構
全面碾壓現有方案
?? M4DocBench:首個“四多”基準

M4DocBench標注示例
為公平評測,構建了M4DocBench:
- 多跳(Multi-hop):158個問題平均需3.8個文檔證據鏈
- 多模態(Multi-modal):112個問題需文本+表格+圖片
- 多文檔(Multi-document):平均每題12.7個文檔(最多42個)
- 多輪(Multi-turn):58個問題需結合對話歷史
維度 | M4DocBench | 現有最佳基準 |
平均文檔數 | 12.7 | 1-2 |
證據頁數 | 7.0頁 | 1.2頁 |
標注細粒度 | 14.8個布局框 | 無 |
?? 性能對比:3.4倍提升!

在M4DocBench上,Doc-Researcher以50.6%準確率登頂,遠超:
- 最強基線(MDocAgent):15.8% →+34.8%
- 長文本模型(DeepSeek-R1):31.7% →+18.9%
- 純視覺RAG(M3DocRAG):7.0% →+43.6%

圖3:迭代搜索深度對性能的影響
從實驗室到產業界
場景 | 傳統方案痛點 | Doc-Researcher優勢 |
金融研報分析 | 手工整理圖表數據 | 自動提取圖表+跨報告對比 |
法律合同審查 | 遺漏附件中的關鍵條款 | 聯合解析正文+附件+附圖 |
醫學文獻調研 | 無法結合CT圖像與文字 | 整合影像+病歷+論文 |
教育資料準備 | 幻燈片與講義分離 | 統一檢索PPT+PDF+教材 |
https://arxiv.org/html/2510.21603
研究機構:華為技術有限公司
Doc-Researcher: A Unified System for Multimodal Document
Parsing and Deep Research本文轉載自??PaperAgent??
已于2025-11-4 07:36:50修改
贊
收藏
回復
分享
微博
QQ
微信
舉報
回復
相關推薦

















