MultiFinRAG:針對(duì)金融領(lǐng)域問(wèn)答的多模態(tài)RAG框架,效果比ChatGPT-4o提升19%,Token使用減少60%
?“MultiFinRAG: An Optimized Multimodal Retrieval-Augmented Generation (RAG) Framework for Financial Question Answering”
現(xiàn)代金融文件通常超過(guò)100頁(yè),包含復(fù)雜的文本、表格和圖形,準(zhǔn)確的問(wèn)答(QA)對(duì)分析師和自動(dòng)化金融代理至關(guān)重要。然而,現(xiàn)有問(wèn)答方法面臨文檔長(zhǎng)度超出LLM的令牌限制、API成本高、混合格式使得表格和圖形的關(guān)系在轉(zhuǎn)為文本時(shí)喪失等挑戰(zhàn)。
MultiFinRAG是一個(gè)專為金融問(wèn)答設(shè)計(jì)的檢索增強(qiáng)生成框架,解決傳統(tǒng)大語(yǔ)言模型在處理金融文檔時(shí)的局限性。MultiFinRAG在處理復(fù)雜金融查詢時(shí),準(zhǔn)確性比ChatGPT-4o提升19%,尤其在文本、表格和圖像方面。結(jié)合模態(tài)感知檢索閾值與輕量化量化開源LLM,框架在普通硬件上高效運(yùn)行,減少60%以上的token使用,提升響應(yīng)速度。

摘要
MultiFinRAG是一個(gè)專為金融問(wèn)答設(shè)計(jì)的檢索增強(qiáng)生成框架,解決傳統(tǒng)大語(yǔ)言模型在處理金融文檔時(shí)的局限性。該框架通過(guò)多模態(tài)提取,將表格和圖像批量處理,利用輕量級(jí)的開源多模態(tài)LLM生成結(jié)構(gòu)化JSON輸出和簡(jiǎn)潔文本摘要。輸出結(jié)果與敘述文本一起嵌入并索引,采用模態(tài)感知相似性閾值進(jìn)行精確檢索。采用分層回退策略,根據(jù)需要?jiǎng)討B(tài)調(diào)整上下文,從文本到文本+表格+圖像,支持跨模態(tài)推理,減少無(wú)關(guān)上下文。在復(fù)雜金融問(wèn)答任務(wù)中,MultiFinRAG在普通硬件上實(shí)現(xiàn)了比ChatGPT-4o高出19%的準(zhǔn)確率。
簡(jiǎn)介
現(xiàn)代金融文件通常超過(guò)100頁(yè),包含復(fù)雜的文本、表格和圖形,準(zhǔn)確的問(wèn)答(QA)對(duì)分析師和自動(dòng)化金融代理至關(guān)重要。然而,現(xiàn)有問(wèn)答方法面臨文檔長(zhǎng)度超出LLM的令牌限制、API成本高、混合格式使得表格和圖形的關(guān)系在轉(zhuǎn)為文本時(shí)喪失等挑戰(zhàn)。
傳統(tǒng)的檢索增強(qiáng)生成(RAG)方法存在以下問(wèn)題:
- 固定大小的文本塊可能破壞連貫性;
- 表格和圖形被視為非結(jié)構(gòu)化文本;
- 靜態(tài)的top-k檢索可能返回冗余或邊際相關(guān)的片段。
MultiFinRAG框架提出以下創(chuàng)新:
- 批量多模態(tài)提取:小組表格和圖像輸入輕量級(jí)多模態(tài)LLM,返回結(jié)構(gòu)化JSON和簡(jiǎn)潔摘要,保留數(shù)值關(guān)系。
- 語(yǔ)義塊合并與閾值檢索:基于嵌入相似性重新組合過(guò)度分段的文本塊,并使用特定閾值過(guò)濾邊際上下文。
- 分級(jí)回退策略:優(yōu)先檢索高相似度文本,若結(jié)果不足則自動(dòng)擴(kuò)展到表格和圖像上下文,確保全面覆蓋。
相關(guān)工作
LLMs在決策流程中的應(yīng)用推動(dòng)了檢索增強(qiáng)生成(RAG)系統(tǒng)的發(fā)展,以解決知識(shí)局限,尤其是在特定領(lǐng)域和不斷變化的環(huán)境中。財(cái)務(wù)文件(如10-K和8-K)對(duì)RAG提出了挑戰(zhàn),因其內(nèi)容冗長(zhǎng)且多模態(tài),信息分散。現(xiàn)有RAG系統(tǒng)在處理需要跨多種格式的信息綜合時(shí)表現(xiàn)不足。
開源多模態(tài)模型(如Meta的Llama-3.2-11BVision-Instruct、Google的Gemma等)使構(gòu)建強(qiáng)大的多模態(tài)RAG管道成為可能。現(xiàn)代RAG框架引入了動(dòng)態(tài)檢索策略、智能分塊機(jī)制和層次化內(nèi)容組織。SELF-RAG、T-RAG、MoG和DRAGIN等方法提升了檢索和生成的效率。Dense Passage Retrieval(DPR)是開放域QA中的基石,優(yōu)于稀疏檢索基線。PDFTriage提出了布局感知檢索,以改善對(duì)圖表和多頁(yè)內(nèi)容的QA。
盡管有進(jìn)展,現(xiàn)有金融RAG系統(tǒng)在處理復(fù)雜多模態(tài)問(wèn)題時(shí)仍有限。MultiFinRAG旨在跨文本、表格和圖形進(jìn)行綜合推理,結(jié)合近似最近鄰檢索和模態(tài)感知相似性過(guò)濾,專為金融文件設(shè)計(jì)。
方法
模型和工具使用
使用專門和通用模型處理金融文檔的多模態(tài)特性。
- 表格檢測(cè):使用Detectron2Layout識(shí)別和提取表格結(jié)構(gòu)。
- 圖像檢測(cè):Pdfminer的布局分析定位PDF中的圖表和圖示。
- 多模態(tài)摘要:嘗試使用Gemma3和LLaMA-3.2進(jìn)行表格和圖像的批量摘要,輸出結(jié)構(gòu)化JSON和純文本。
- 嵌入生成:BAAI/bge-base-en-v1.5模型生成語(yǔ)義文本塊、表格和圖像摘要的嵌入。
- 近似檢索:FAISS提供高效的近似最近鄰搜索。
- 集成的LLM:通過(guò)Ollama框架整合Gemma3和LLaMA-3.2,優(yōu)化內(nèi)存和速度,支持單GPU部署。
基線框架
使用傳統(tǒng)的RAG管道評(píng)估方法性能。
- 基本RAG設(shè)置:標(biāo)準(zhǔn)的檢索增強(qiáng)生成管道,使用固定大小文本塊,無(wú)語(yǔ)義合并。
- 嵌入與檢索:與MultiFinRAG相同的BAAI/bge-base-en-v1.5嵌入,通過(guò)FAISS IVF-PQ從固定塊中檢索,無(wú)分層邏輯。
- 無(wú)多模態(tài)解析:圖表和表格未被總結(jié),視覺(jué)和表格元素被簡(jiǎn)化為原始文本或忽略。
MultiFinRAG
概覽

系統(tǒng)將每個(gè)PDF ?? ?? 分為三類可檢索的塊:文本塊 ?? ?? ^ text、表格塊 ?? ?? ^ table和圖像塊 ?? ?? ^ image。

文本塊包含語(yǔ)義連貫的文本段落,表格和圖像塊通過(guò)多模態(tài)LLM轉(zhuǎn)換。所有塊被嵌入并存儲(chǔ)在FAISS索引中。查詢 ?? 觸發(fā)分層檢索,先檢索文本,再檢索文本+表格和圖像,自動(dòng)升級(jí)以應(yīng)對(duì)上下文不足,最終生成LLM答案。

語(yǔ)義分塊和索引
句子分割:將敘述分割為句子。
滑動(dòng)窗口:使用滑動(dòng)窗口形成重疊塊,以捕捉語(yǔ)義單元。
嵌入與斷點(diǎn):對(duì)每個(gè)句子進(jìn)行嵌入,計(jì)算相似度,標(biāo)記高于95百分位的相似度作為分割點(diǎn)。
塊形成:在斷點(diǎn)處將塊分割為語(yǔ)義塊。
塊合并:計(jì)算塊間余弦相似度,合并相似度高的塊以減少冗余。
近似索引:嵌入最終塊集,構(gòu)建FAISS索引,實(shí)現(xiàn)快速k-NN查找,減少上下文大小,降低計(jì)算成本。
批量多模態(tài)提取
通過(guò)檢測(cè)區(qū)域、語(yǔ)義文本分塊,批量處理表格和圖像,確保100%覆蓋。
- 表格解析:將表格區(qū)域裁剪并分批處理,構(gòu)建多模態(tài)提示,確保所有表格都被解析。
- 圖像摘要:對(duì)圖像區(qū)域進(jìn)行批量處理,生成摘要,確保所有數(shù)據(jù)相關(guān)圖像都被處理。


分層檢索與決策功能
設(shè)定文本、表格和圖像的最小檢索數(shù)量,通過(guò)分層檢索策略進(jìn)行有效調(diào)用。結(jié)合文本、表格和圖像的檢索,使用FAISS索引和系統(tǒng)提示以避免幻覺(jué)。
通過(guò)決策函數(shù)進(jìn)行閾值校準(zhǔn)
通過(guò)決策函數(shù)進(jìn)行閾值校準(zhǔn),優(yōu)化相似性切割點(diǎn)。文本閾值從0.55到0.85逐步調(diào)整,記錄檢索質(zhì)量和QA準(zhǔn)確性。表格和圖像閾值在固定文本閾值下獨(dú)立調(diào)整,記錄準(zhǔn)確性。選擇最大化上下文相關(guān)性和QA準(zhǔn)確性的閾值組合,保持查詢上下文大小在預(yù)算內(nèi)。
最終選擇的閾值為:文本0.70,表格0.65,圖像0.55,確保文本優(yōu)先,必要時(shí)使用表格/圖像。
實(shí)驗(yàn)
本研究關(guān)注端到端問(wèn)答(QA)準(zhǔn)確性。信息檢索統(tǒng)計(jì)(如精確度、召回率等)在開發(fā)過(guò)程中收集,但因篇幅限制未在此報(bào)告。計(jì)劃在后續(xù)論文中提供詳細(xì)的檢索組件統(tǒng)計(jì)數(shù)據(jù)。
數(shù)據(jù)集
收集了多家公司財(cái)務(wù)文件,包括Form 10-Q、Form 10-K、Form 8-K和DEF 14A,通過(guò)SEC的EDGAR數(shù)據(jù)庫(kù)和API下載并轉(zhuǎn)換為PDF。制作了300個(gè)評(píng)估問(wèn)題,分為四類:146個(gè)文本問(wèn)題、42個(gè)圖像問(wèn)題、72個(gè)表格問(wèn)題、40個(gè)需結(jié)合文本和圖像/表格的問(wèn)題。
文本問(wèn)題直接從財(cái)務(wù)文件中提取信息,確保答案簡(jiǎn)潔明了。圖像問(wèn)題要求分析財(cái)務(wù)圖表,測(cè)試框架對(duì)圖形的理解能力。

表格問(wèn)題涉及表格數(shù)據(jù)的解讀,需準(zhǔn)確定位行列獲取答案。

結(jié)合文本和圖像/表格的問(wèn)題最具挑戰(zhàn)性,需要綜合信息才能回答。

評(píng)估策略
評(píng)估LLM框架輸出仍是重要的研究領(lǐng)域,傳統(tǒng)的精確匹配方法不再適用,尤其在數(shù)值答案中可能出現(xiàn)單位差異。BERTScore計(jì)算生成答案與參考答案的相似度,但對(duì)數(shù)值問(wèn)題不合理,因無(wú)法有效比較數(shù)字的語(yǔ)義相似性。最近對(duì)使用LLM評(píng)估GenAI結(jié)果的興趣增加,但存在LLM偏見的問(wèn)題。由于數(shù)據(jù)集規(guī)模和資源限制,選擇手動(dòng)評(píng)估以確保更準(zhǔn)確的評(píng)估,減少誤判風(fēng)險(xiǎn)。
結(jié)果

文本問(wèn)題準(zhǔn)確性:MultiFinRAG框架下,Gemma 3的準(zhǔn)確率為90.4%,比基線框架提高15.1%。Gemma 3在識(shí)別關(guān)鍵答案方面優(yōu)于Llama-3.2-11B-Vision-Instruct(高6.8%)。
圖像問(wèn)題準(zhǔn)確性:MultiFinRAG與Gemma 3的準(zhǔn)確率為66.7%,顯著高于Llama-3.2-11B-Vision-Instruct的42.9%,表明Gemma 3在圖像描述上更有效。
表格問(wèn)題準(zhǔn)確性:MultiFinRAG與Gemma 3的準(zhǔn)確率為69.4%,比Llama-3.2-11B-Vision-Instruct的13.9%高55.5%,顯示Gemma 3在表格描述上表現(xiàn)更佳。
綜合問(wèn)題準(zhǔn)確性:MultiFinRAG與Gemma 3的準(zhǔn)確率為40%,而Llama-3.2-11B-Vision-Instruct僅為10%。基線框架下Gemma 3的準(zhǔn)確率為0%,轉(zhuǎn)向MultiFinRAG后顯著提升。
與ChatGPT-4o比較
MultiFinRAG與Gemma 3在文本問(wèn)題上比ChatGPT-4o高出4.1%的準(zhǔn)確率,且在某些情況下提供了ChatGPT-4o未能正確回答的答案。

在圖像問(wèn)題上,MultiFinRAG的準(zhǔn)確率比ChatGPT-4o高出40%以上,ChatGPT-4o因文本中多個(gè)值的干擾而回答錯(cuò)誤。
對(duì)于表格問(wèn)題,MultiFinRAG的準(zhǔn)確率比ChatGPT-4o高出25%以上,ChatGPT-4o的錯(cuò)誤回答顯示其可能受限于訓(xùn)練數(shù)據(jù)。
在需要同時(shí)分析文本和圖像/表格的問(wèn)題上,MultiFinRAG的準(zhǔn)確率為75.3%,比ChatGPT-4o的56.0%高出19.3%。ChatGPT-4o在已有知識(shí)的情況下能正確回答,但在不熟悉的信息上表現(xiàn)不佳。
效率與成本
本次評(píng)估主要關(guān)注準(zhǔn)確性,而非處理時(shí)間,后者受基礎(chǔ)設(shè)施影響較大。MultiFinRAG在Google Colab T4 GPU上處理200頁(yè)P(yáng)DF(含200個(gè)表格和150張圖片)平均需25分鐘。目前,MultiFinRAG和基線系統(tǒng)均可在Google Colab免費(fèi)版上運(yùn)行,實(shí)驗(yàn)無(wú)額外費(fèi)用。ChatGPT-4o作為對(duì)比基準(zhǔn)也使用免費(fèi)版,未產(chǎn)生額外成本。
討論和未來(lái)工作
模塊評(píng)估:通過(guò)系統(tǒng)性消融實(shí)驗(yàn)量化各組件影響。
用戶反饋:未來(lái)將進(jìn)行更廣泛的用戶研究以評(píng)估可用性。
結(jié)構(gòu)化數(shù)據(jù)管道:開發(fā)系統(tǒng)處理大表格,提供自然語(yǔ)言接口,直接供給RAG生成器。
跨文檔與縱向分析:構(gòu)建多文檔索引,支持時(shí)間比較和趨勢(shì)檢測(cè),提供可視化和自動(dòng)摘要。
抗噪聲與錯(cuò)誤修正:通過(guò)多種OCR引擎和一致性檢查提高解析準(zhǔn)確性,使用微調(diào)的LLM進(jìn)行后處理。
擴(kuò)展領(lǐng)域覆蓋:方法可推廣至其他金融文檔,適應(yīng)不同布局和元數(shù)據(jù)。
微調(diào)與領(lǐng)域適應(yīng):在高質(zhì)量金融QA數(shù)據(jù)集上微調(diào)檢索和生成模型。
網(wǎng)頁(yè)內(nèi)容攝取與實(shí)時(shí)多模態(tài)問(wèn)答:擴(kuò)展至在線新聞,整合文本、表格和圖形,提升實(shí)時(shí)問(wèn)答能力。
總結(jié)
MultiFinRAG在處理復(fù)雜金融查詢時(shí),準(zhǔn)確性超過(guò)ChatGPT-4o,尤其在文本、表格和圖像方面。結(jié)合模態(tài)感知檢索閾值與輕量化量化開源LLM,框架在普通硬件上高效運(yùn)行,減少60%以上的token使用,提升響應(yīng)速度。在挑戰(zhàn)性的多模態(tài)問(wèn)答任務(wù)中,MultiFinRAG實(shí)現(xiàn)超過(guò)75%的準(zhǔn)確率,提供實(shí)用、可擴(kuò)展且經(jīng)濟(jì)高效的解決方案。

















