精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

UniversalRAG:跨多種模態和粒度語料庫的檢索增強生成 原創

發布于 2025-5-14 10:00
瀏覽
0收藏


摘要

檢索增強生成(RAG)通過將模型響應與查詢相關的外部知識相結合,在提高事實準確性方面展現出巨大潛力。然而,大多數現有的 RAG 方法僅限于純文本語料庫。盡管最近的研究努力將 RAG 擴展到圖像和視頻等其他模態,但它們通常僅在單一模態特定的語料庫上運行。相比之下,現實世界中的查詢對知識類型的需求差異很大,單一類型的知識源無法滿足這些需求。為了解決這一問題,我們引入了通用檢索增強生成(UniversalRAG),這是一種新穎的 RAG 框架,旨在從具有不同模態和粒度的異構源中檢索和整合知識。具體而言,由于發現將所有模態強制納入從單個組合語料庫派生的統一表示空間會導致模態差距(即檢索傾向于選擇與查詢模態相同的項目),我們提出了一種模態感知路由機制,該機制可以動態識別最合適的特定模態語料庫,并在其中進行有針對性的檢索。此外,除了模態之外,我們將每個模態組織成多個粒度級別,以便根據查詢的復雜性和范圍進行微調檢索。我們在涵蓋多種模態的 8 個基準測試中驗證了通用檢索增強生成(UniversalRAG)的有效性,結果表明它優于特定模態和統一的基線方法。我們的項目頁面為??https://universalrag.github.io??。

1 引言

近年來,大語言模型(LLMs)在諸如問答(OpenAI 等人,2024;Anil 等人,2023)等各種任務中展現出卓越性能,并在 ChatGPT 等各種服務中得到廣泛應用,為人們的日常生活提供幫助。然而,大語言模型(LLMs)經常生成事實性錯誤或誤導性信息,尤其是在其訓練過程中較少接觸或未接觸過的主題(如近期事件)上(Zhang 等人,2023;Huang 等人,2025)。為了解決這一問題,檢索增強生成(RAG)應運而生,它是一種很有前景的方法,能夠使模型的響應基于從外部知識源檢索到的與查詢相關的知識,從而提高事實準確性(Lewis 等人,2020;Gao 等人,2024;Chen 等人,2024a)。

然而,盡管檢索增強生成(RAG)很有效,但現有的方法通常是為單一語料庫和模態設計的,這限制了它們處理需要不同類型知識源的用戶查詢的能力。在實際應用中,如圖 1 所示,用戶查詢對知識類型的需求差異很大:有些查詢使用文本(如表面事實和定義)就能得到最佳解答;有些則需要從圖像中獲取視覺理解(如物體的空間關系);還有些需要視頻提供的時間推理支持(如具有動態場景的分步指令)。相反,檢索增強生成(RAG)領域最初主要關注文本語料庫(Lewis 等人,2020;Jiang 等人,2023;Yan 等人,2024)。盡管最近的研究已將其擴展到文本以外的模態(如圖像和視頻)(Abootorabi 等人,2025;Riedler 和 Langer,2024;Jeong 等人,2025),但現有的檢索增強生成(RAG)方法通常是特定于模態和語料庫的。因此,它們可能無法作為一個通用的、萬能的框架,靈活處理知識需求各異的廣泛查詢。

在這項工作中,我們提出了通用檢索增強生成(UniversalRAG),這是一種新穎的檢索增強生成(RAG)框架,它整合了分布在多個特定模態語料庫(包括文本、圖像和視頻源)中的知識,并利用這些知識在通用工作流程中生成針對查詢的有依據的響應。為了實現這一點,最直接的方法可能是匯總收集到的異構知識語料庫中的所有條目,并使用多模態編碼器將它們嵌入到統一的表示空間中(如果不同模態的輸入在語義上相似,多模態編碼器通常經過訓練以對齊這些輸入)。然而,盡管進行了這種對齊努力,我們發現這種策略存在模態差距,即輸入傾向于根據其模態而不是語義含義進行聚類(如圖 2 所示),在先前的不同研究中也觀察到了類似現象(Zhang 等人,2025;Wei 等人,2024)。結果,檢索過程會偏向于與查詢模態相同的知識源,而忽略了其他模態的相關內容。


UniversalRAG:跨多種模態和粒度語料庫的檢索增強生成-AI.x社區

圖1:現有檢索增強生成(RAG)方法的局限性(a, b)以及所提出的檢索增強生成(RAG)框架通用檢索增強生成(UniversalRAG)(c)的示意圖

圖2:統一嵌入空間的t-SNE可視化

圖3:基線模型和通用檢索增強生成(UniversalRAG)的平均得分

為了應對這一挑戰,我們沒有依賴于將所有模態強制納入共享表示的統一嵌入空間,而是采取了不同的方法:引入模態感知路由策略。具體而言,通用檢索增強生成(UniversalRAG)會根據給定查詢的模態需求,動態確定最合適的知識源進行檢索,然后將檢索過程路由到相應的特定模態語料庫。值得注意的是,這種策略不僅通過避免直接的跨模態比較來規避模態差距,還通過擴展路由邏輯實現了新模態的無縫集成,而無需修改現有的特定模態檢索器。

除了模態之外,另一個重要維度是數據粒度(語料庫中每個條目的大小或單位),它在檢索精度和生成質量方面都起著關鍵作用(Chen 等人,2024b;Zhong 等人,2025)。因為即使在同一模態內,不同的查詢也會從不同的粒度級別中受益。這是因為過細的粒度條目會稀釋上下文信息,而過粗的條目可能會將不相關的信息捆綁在一起。例如,一個復雜的分析性問題可能需要長篇文檔或完整視頻來獲取足夠的上下文信息,而一個簡單的事實性問題用單個段落或短視頻片段就能得到最佳解答 。

為了適應這一方面,我們進一步將每個模態細分為多個粒度級別,并將它們組織成不同的語料庫:文本文檔會額外分割成段落,并存儲在段落級語料庫中;類似地,完整長度的視頻會被分割成短視頻片段并存儲;而圖像由于本身就是碎片化的,所以保持不變。總體而言,通過這些考慮模態和粒度的語料庫(包括段落、文檔、圖像、片段和視頻),以及一個額外的 “無需檢索” 選項來高效處理簡單查詢(即不需要外部知識的查詢),我們的通用檢索增強生成(UniversalRAG)會將每個查詢動態路由到最相關的知識源,最終滿足現實世界用戶多樣化的信息需求。

我們在 8 個具有不同模態的基準測試中對通用檢索增強生成(UniversalRAG)進行了驗證(Hendrycks 等人,2021;Rajpurkar 等人,2016;Kwiatkowski 等人,2019;Yang 等人,2018;Chang 等人,2022;Wang 等人,2024a;Jeong 等人,2025)。通用檢索增強生成(UniversalRAG)在平均得分上超過了所有基線方法,表明其在各種查詢上都具有強大的性能。我們還通過實驗結果研究了多模態和多粒度語料庫的有效性。

2 方法

在本節中,我們將介紹通用檢索增強生成(UniversalRAG),這是一種新穎的檢索增強生成(RAG)框架,它可以根據給定的查詢,從跨越多種模態和粒度的不同語料庫中檢索知識。

2.1 預備知識

我們從預備知識開始,正式介紹大型視覺語言模型(LVLMs)和檢索增強生成(RAG)。

?大型視覺語言模型:為了將大語言模型(LLMs)的強大能力擴展到文本之外,并支持對圖像和視頻等視覺輸入的理解,最近引入了大型視覺語言模型(LVLMs)。它通過將視覺編碼器集成到大語言模型(LLMs)中,使其能夠處理文本和圖像、視頻等視覺輸入。形式上,大型視覺語言模型(LVLMs)將輸入序列x=[x_{1}, x_{2}, ..., x_{n}](其中可能包括文本和視覺標記),并生成輸出標記序列y=[y_{1}, y_{2}, ..., y_{m}],表示為:y=LVLM(x)。然而,盡管大型視覺語言模型(LVLMs)具有多模態能力,但它們仍然局限于參數化知識,并且在處理需要超出預訓練時編碼信息的詳細或有依據的信息的查詢時,往往會遇到困難。

?檢索增強生成:為了解決僅依賴參數化模型的上述局限性,檢索增強生成(RAG)從大型外部語料庫中檢索與查詢相關的信息,并將其整合到生成過程中。具體而言,在檢索步驟中,檢索器從語料庫C中選擇相關上下文c,形式化為c = Retriever(q; C),其中c \in C。在隨后的生成步驟中,大型視覺語言模型(LVLM)根據輸入查詢和檢索到的上下文生成響應a,表示為a = LVLM(q, c)。然而,大多數現有的檢索增強生成(RAG)方法僅限于從單一模態(如僅圖像)的單個語料庫中進行檢索,這限制了它們處理通常需要多模態信息的現實世界多樣化查詢的能力。

?統一檢索中的模態差距:鑒于現實場景中的外部知識通常涵蓋多種模態,如文本、圖像和視頻,我們定義了三個特定模態的語料庫:文本語料庫C_{text }={t_{1}, ..., t_{n}}、圖像語料庫C_{image }={i_{1}, ..., i_{m}}和視頻語料庫C_{video }={v_{1}, ..., v_{k}}。處理這種異構數據的一種常見方法是使用多模態編碼器將所有項目統一到共享的嵌入空間中,從而得到統一語料庫C_{unified }=C_{text } \cup C_{image } \cup C_{video },其中每個項目都表示為共享空間中的向量(Zhang 等人,2025;Wei 等人,2024),然后進行檢索c = Retriever(q; C_{unified })。然而,我們的實驗揭示了這種統一空間中存在明顯的模態差距,如圖 2 所示,查詢本質上是文本形式的,無論實際需要何種模態,都傾向于與文本語料庫項目更緊密地對齊。結果,即使查詢需要視覺或時間理解,檢索器也會返回基于文本的內容,導致次優或不相關的響應。這一觀察結果凸顯了統一檢索策略的基本局限性,并表明需要為不同模態維護單獨的特征空間。

2.2 通用檢索增強生成(UniversalRAG)

現在我們來介紹通用檢索增強生成(UniversalRAG),這是一個新穎的框架,它能動態識別查詢,并將其路由到最合適的知識模態和粒度進行檢索。

?模態感知檢索:為了解決檢索中的模態差距問題,我們為每個模態維護單獨的嵌入空間,將整體語料庫組織成三個不同的子語料庫:C_{text }、C_{image }和C_{video },每個子語料庫都由特定模態的向量表示組成。然后,我們引入一個路由模塊 Router,它為每個查詢動態選擇最合適的模態。具體來說,給定一個查詢q,Router 預測與查詢相關的模態r \in {'Text', 'Image', 'Video'},形式化為r = Router(q) 。一旦確定了模態r,特定模態的檢索器就會從相應的語料庫C_{r}中選擇相關項目c,大型視覺語言模型(LVLM)會根據查詢和檢索到的內容生成最終響應。然而,雖然這種設計減輕了模態差距,但僅按模態分隔語料庫可能仍然不夠,因為不同的查詢可能需要不同的粒度級別,即使在同一模態內也是如此。

?粒度感知檢索:為了靈活滿足不同查詢的信息需求,我們擴展了通用檢索增強生成(UniversalRAG),使其能夠在每個模態內的多個粒度級別上運行,為文本和視頻模態構建了兩個語料庫級別:細粒度和粗粒度。具體來說,文本語料庫最初是在段落級別組織的,每個項目通常包含關于單個實體的知識,但一些復雜查詢需要跨多個段落進行推理。為了解決這個問題,我們構建了一個文檔級語料庫C_{document }={d_{1}, ..., d_{l}},其中每個d是通過連接多個段落并對結果文本進行編碼得到的文檔的向量表示。另一方面,原始視頻語料庫由完整長度的視頻組成,這些視頻的時長通常超過一小時,當某些問題僅用短視頻片段就能回答時,檢索整個視頻的效率很低。因此,我們將每個完整長度的視頻分割成多個固定時長的片段,構建了一個片段級語料庫C_{clip }={k_{1}, ..., k_{p}},其中每個k表示從原始完整視頻中提取的修剪后視頻片段的表示。請注意,由于圖像本身就是細粒度的,我們不對圖像語料庫進行額外分割,保持其原樣。為此,Router 做出的路由決策r分為六類之一:{'None', 'Paragraph', 'Document', 'Image', 'Clip', 'Video'},檢索過程形式化如下:


UniversalRAG:跨多種模態和粒度語料庫的檢索增強生成-AI.x社區

最后,大型視覺語言模型(LVLM)根據檢索到的內容c生成最終響應a,這反映了為給定查詢q確定的最合適的模態和粒度。此外,如果不需要檢索(即c = None),大型視覺語言模型(LVLM)僅根據q直接生成響應,無需任何額外上下文。

2.3 通用檢索增強生成(UniversalRAG)中的路由設計

在這里,我們探討路由的兩種設計,它負責根據查詢動態選擇檢索模態和粒度。

?無訓練路由:無訓練路由利用預訓練大語言模型(LLM)的固有知識和推理能力,將查詢分類為合適的檢索類型,而無需額外訓練。具體來說,給定一個查詢q,向大語言模型(LLM)提供描述路由任務的詳細指令,并附帶幾個上下文示例,然后從一組六個預定義選項中預測最合適的檢索類型。

?訓練路由:我們進一步探索訓練路由模塊,以實現更準確的路由決策。然而,這種策略的一個關鍵挑戰是缺乏用于選擇最優語料庫的真實查詢 - 標簽對。為了解決這個問題,我們利用現有基準測試的特定模態歸納偏差來構建路由的訓練數據集,即我們假設每個基準測試主要與特定的模態和檢索粒度相關聯。具體來說,對于文本問答基準測試,僅基于模型參數知識就能回答的數據集查詢標記為 “None”,單跳檢索增強生成(RAG)基準測試的查詢標記為 “Paragraph”,多跳檢索增強生成(RAG)基準測試的查詢標記為 “Document”。類似地,基于圖像的檢索增強生成(RAG)基準測試的查詢標記為 “Image”。對于視頻問答基準測試,關注視頻中局部事件或特定時刻的查詢,如識別特定時間戳的動作,標記為 “Clip”,而需要理解完整故事情節或更廣泛時間上下文的查詢標記為 “Video”。使用這個構建的數據集,我們訓練路由在推理時預測給定查詢的適當檢索類型。

3 實驗設置

在本節中,我們將解釋實驗設置,包括數據集、模型、評估指標和實現細節。

3.1 數據集

為了評估我們的框架在不同模態下的性能,我們編制了一個全面的問答基準測試,涵蓋六種不同的檢索設置:無檢索、段落、文檔、圖像、片段和視頻。

?問答數據集:對于無檢索設置,我們使用 MMLU(Hendrycks 等人,2021),它在不需要外部知識源的情況下評估模型的知識。對于文本檢索設置,我們納入了三個基準測試:SQuAD(Rajpurkar 等人,2016)和自然問題(NQ)(Kwiatkowski 等人,2019)作為單跳檢索增強生成(RAG)基準測試,其中檢索單元是段落;而 HotpotQA(Yang 等人,2018)作為多跳檢索增強生成(RAG)基準測試,其中檢索單元是文檔。對于圖像檢索設置,我們使用 WebQA(Chang 等人,2022)的一個子集,該子集包含需要外部圖像支持的查詢。最后,對于視頻檢索設置,我們使用來自 LVBench(Wang 等人,2024a)、VideoRAG-Wiki(Jeong 等人,2025)和 VideoRAG-Synth(Jeong 等人,2025)的查詢。其中,針對短視頻片段或局部內容的查詢被歸類為片段級查詢,而需要理解長視頻或整個視頻的查詢被視為視頻級查詢。

?檢索語料庫:為了支持跨模態和粒度的檢索,我們為每個模態和粒度構建了特定的檢索語料庫。對于段落級檢索,我們使用從 SQuAD 和自然問題(NQ)派生的維基百科段落語料庫(Karpukhin 等人,2020)。在文檔級檢索的情況下,我們遵循 LongRAG(Jiang 等人,2024)的構建方法,構建一個聚合的維基百科文章語料庫。在圖像檢索方面,我們使用的檢索語料庫由WebQA數據集中的圖像構成。對于與視頻相關的檢索,我們定義了兩個單獨的語料庫:視頻檢索語料庫由來自LVBench和VideoRAG的完整YouTube視頻組成,而片段級檢索語料庫則包含從相同視頻中提取的剪輯片段。附錄A中提供了有關數據集構建的更多詳細信息。

3.2 模型

我們將 UniversalRAG 與八種不同的基線模型進行比較,具體如下:1)Na?ve 模型在回答查詢時不檢索外部知識。2)Paragraph、3)Document、4)Image、5)Clip 和 6)Video 模型僅從各自特定模態的語料庫中檢索信息。7)Unified 模型使用多模態編碼器 InternVideo2(Wang 等人,2024b)在不同語料庫的所有數據的單一統一嵌入空間中檢索信息,類似于(Zhang 等人,2025;Wei 等人,2024)。8)Random 模型隨機選擇一個特定模態的語料庫進行檢索。我們還實現了 UniversalRAG 的三個變體,其檢索器組件有所不同。9)GPT-4o 采用 GPT-4o(OpenAI 等人,2024)作為無訓練的路由器。10)DistilBERT 和 11)T5-Large 分別使用 DistilBERT(Sanh 等人,2019)和 T5-Large(Raffel 等人,2020),并在路由數據集上進行訓練。12)Oracle 是我們的理想設置,其中每個查詢都被路由到最合適的特定模態語料庫,模擬完美的路由。

3.3 評估指標

我們使用以下指標評估 UniversalRAG 和基線模型的性能。對于多項選擇題的基準測試,我們使用 Top1 準確率(Acc),它表示正確回答的問題數量。對于答案較短的基準測試,我們使用精確匹配(EM),用于檢查預測響應是否與正確答案完全匹配;以及 F1 分數(F1),用于衡量響應與參考答案在單詞級別的重疊程度。最后,對于答案較長的基準測試,我們使用 ROUGE-L,它捕捉預測答案與正確答案之間最長的匹配序列(Lin,2004);以及 BERTScore,它使用上下文嵌入來衡量響應與注釋之間的語義相似度(Zhang 等人,2020)。

3.4 實現細節

為了有效地從不同模態中檢索信息,我們利用特定模態的編碼器:bge-large-en-v1.5(Xiao 等人,2024)作為文本編碼器,InternVideo2(Wang 等人,2024b)作為視覺編碼器。對于響應生成,我們使用多種大型視覺語言模型(LVLMs),包括 InternVL2.5-8B(Chen 等人,2025)、Qwen2.5-VL7B-Instruct(Bai 等人,2025)和 Phi-3.5-Vision-Instruct(Abdin 等人,2024)。對于路由器模塊,可訓練的路由器以 2e-5 的學習率訓練 5 個 epoch,并根據驗證準確率選擇最佳的檢查點。在無訓練設置中,通過圖 6 所示的提示實例化 GPT-4o(OpenAI 等人,2024)。附錄 B 中提供了更多詳細信息。

4 實驗結果與分析

現在我們展示結果并進行深入分析。

4.1 主要結果

這里,我們展示了跨多種模態和粒度級別的不同檢索場景的整體結果。

?整體結果:首先,圖 3 展示了 UniversalRAG 和基線模型在八個多模態基準測試中的平均得分,表 1 提供了結果的詳細細分。UniversalRAG 在平均得分上始終優于所有基線模型,證明了通過自適應語料庫選擇利用多種模態的有效性。與提供有限信息的單模態語料庫不同,UniversalRAG 為每個查詢動態選擇最相關的模態,實現更準確的檢索和生成。有趣的是,UniversalRAG 顯著優于 Unified 基線模型,突出了我們的路由策略在現實多模態設置中的有效性。具體而言,Unified 基線模型由于其統一嵌入空間中的模態差距而表現不佳,常常默認僅檢索文本數據,從而導致性能下降。UniversalRAG 通過使用路由器選擇單個特定模態語料庫進行檢索來緩解此問題,有效地解決了模態差距。鑒于在構建跨模態統一嵌入空間時避免模態差距存在固有的挑戰,我們基于路由器的策略為解決這一問題提供了一個有前景的方向。


UniversalRAG:跨多種模態和粒度語料庫的檢索增強生成-AI.x社區

表1:不同檢索增強生成(RAG)變體,包括通用檢索增強生成(UniversalRAG)和基線模型,在特定模態基準測試上的結果。我們的方法通用檢索增強生成(UniversalRAG),以彩色單元格表示,包括針對DistilBERT和T5-Large的訓練方法,而GPT-4o以無訓練方式運行。加粗表示每個指標的最佳性能;下劃線表示通用檢索增強生成(UniversalRAG)方法中的第二好性能。R-L和BERT分別指ROUGE-L和BERTScore。

?路由器的有效性:在 UniversalRAG 模型中,經過訓練的路由器模型在所有使用不同大型視覺語言模型(LVLMs)的實驗中均比無訓練的路由器模型取得更好的結果。這種改進是由于經過訓練的路由器在訓練過程中針對路由任務進行了明確的優化,從而帶來了卓越的路由性能。因此,具有訓練路由器的 UniversalRAG 模型更擅長識別最優數據源并生成更準確的答案。盡管如此,無訓練的路由器仍然優于包括隨機路由器在內的其他基線方法,表明在我們的框架中零樣本路由仍然有效。為了進一步了解路由對整體系統性能的影響,我們分析了每個路由器模型的準確率和相應的整體得分。圖 4 展示了零樣本和訓練路由器模型的混淆矩陣。雖然兩種路由器通常都能成功將輸入導向適當的模態,但訓練路由器的準確率明顯高于無訓練的模型。值得注意的是,對于 Clip 和 Video 模態,存在一些誤路由的查詢,主要是由于區分兩種不同粒度的模糊性。盡管如此,輸入仍然被正確路由到視頻模態,突出了路由機制的穩健性。如表 2 所示,我們的路由方法在路由準確率方面顯著優于隨機和統一基線模型。這種準確率的提高直接轉化為更好的整體性能,證明了準確路由與端到端有效性之間的強相關性。這些結果強調了將查詢正確路由到適當模態語料庫的重要性,證明了在多模態檢索增強生成(RAG)場景中可靠路由器的必要性。


UniversalRAG:跨多種模態和粒度語料庫的檢索增強生成-AI.x社區

圖4:不同模型在域內和域外查詢上的路由器預測混淆矩陣


UniversalRAG:跨多種模態和粒度語料庫的檢索增強生成-AI.x社區

表2:不同檢索方法在域內和域外數據集上的路由器準確率和生成性能

?多粒度的有效性:為了進一步研究納入多個粒度級別的有效性,我們在粗粒度和細粒度檢索設置下評估 UniversalRAG。在無粒度(粗粒度)設置中,路由器將查詢分類為四個主要模態:無、文本、圖像或視頻。在有粒度(細粒度)設置中,我們進一步細分模態以進行更精確的檢索:文本分為段落和文檔級別,而視頻分為片段和完整視頻。在基準測試中,我們使用 HotpotQA 評估跨多個實體的文檔級推理,使用 LVBench 評估片段級任務,因為其問題通常可以使用短視頻片段回答。如表 3 所示,在所有路由器模型下,具有粒度的 UniversalRAG 在兩個基準測試上始終優于無粒度的模型。這突出了在文本和視頻語料庫中支持不同粒度級別可以通過使模型能夠根據每個查詢檢索適量的信息來提高 UniversalRAG 的性能。相比之下,沒有粒度控制的模型對所有查詢應用相同的粒度級別,這可能導致信息檢索不足或過多。因此,支持多個粒度級別對于自適應處理廣泛的用戶查詢至關重要。


UniversalRAG:跨多種模態和粒度語料庫的檢索增強生成-AI.x社區

表3:粒度對三個模型在兩個基準測試上性能的影響。Gn表示粒度


4.2 分析與討論

這里,我們對性能改進進行詳細分析。

?域外數據集上的結果:為了研究我們方法的泛化能力,我們在五個未見數據集上評估 UniversalRAG,附錄 A.2 中提供了每個基準測試的詳細描述。如表 2 所示,GPT-4o 實現了最高的路由準確率,甚至超過了其在域內的性能,展示了強大的泛化能力。然而,訓練后的路由器在域外數據上表現不佳,表明路由器對訓練數據過擬合,這主要是由于訓練數據中查詢的多樣性不足。圖 4 進一步突出了域內和域外數據集之間的性能權衡。受益于其穩健的路由,GPT-4o 還實現了最高的平均問答得分,優于訓練后的路由器和基線模型。作為解決兩種設置之間性能權衡的一種方法,我們引入了一種使用訓練和無訓練路由器的集成路由器。具體而言,如果訓練路由器的路由結果置信度足夠高,則選擇該結果;否則,使用無訓練路由器的響應。這種策略使得在處理與域內數據集特征相似的查詢時利用訓練路由器,而對于不熟悉或域外的查詢則依賴無訓練路由器的泛化路由能力。如表 2 所示,具有集成路由器的 UniversalRAG 在域內和域外基準測試中均表現出更好的性能。

?路由器大小的分析:為了評估路由器大小對路由準確率的影響,我們使用不同模型大小的訓練路由器評估 UniversalRAG。具體而言,我們訓練了四個不同參數數量的 T5 模型變體,并使用 InternVL2.5 作為生成器來測量路由器準確率。如表 4 所示,路由器準確率隨模型大小變化很大,表明較大的模型在跨模態和粒度進行準確路由決策方面更有效。


UniversalRAG:跨多種模態和粒度語料庫的檢索增強生成-AI.x社區

表4:不同路由器模型大小下的路由器準確率

?不同模型大小的分析:為了了解 UniversalRAG 的性能如何隨大型視覺語言模型(LVLM)大小擴展,我們使用不同大小的 InternVL2.5 模型評估我們的模型和基線模型,如圖 5 所示。在所有模型大小下,UniversalRAG 的得分持續提高并優于其他基線模型。這表明 UniversalRAG 具有可擴展性,并意味著通過使用更大的大型視覺語言模型(LVLMs)可以提高其性能。

?案例研究:我們在附錄 D 中展示了 UniversalRAG 的案例研究。


UniversalRAG:跨多種模態和粒度語料庫的檢索增強生成-AI.x社區

圖5:不同生成模型(InternVL2.5)大小下的生成性能


5 相關工作

5.1 大型視覺語言模型

基于大語言模型(LLMs)的強大性能,研究人員致力于使大語言模型(LLMs)能夠理解視覺信息。Liu 等人(2023)率先引入了大型視覺語言模型(LVLMs),通過采用基于 CLIP(Radford 等人,2021)的圖像編碼器,使語言模型能夠在其文本特征空間中理解輸入圖像。此后,各種圖像理解語言模型相繼推出,它們在大語言模型(LLMs)上使用不同的視覺編碼器(Bai 等人,2023;Chen 等人,2024c;Liu 等人,2024)。隨著圖像理解性能的提升,一些研究將這些方法擴展到視頻數據,視頻可視為圖像幀的序列(Li 等人,2024a;Chen 等人,2025;Bai 等人,2025)。由于更大的訓練數據集和改進的模型結構,當前的大型視覺語言模型(LVLMs)在多個基準測試評估中顯示出強大的圖像和視頻理解能力(Yue 等人,2024;Mathew 等人,2021;Li 等人,2024b;Fu 等人,2024)。然而,獨立的大型視覺語言模型(LVLMs)經常受到幻覺的困擾,這主要是由于其基礎語言模型繼承的有限知識邊界。

5.2 檢索增強生成

檢索增強生成(RAG)可以通過在生成答案時納入外部知識來解決上述挑戰;然而,傳統的檢索增強生成(RAG)方法僅依賴文本數據,而最近的研究開始探索跨多種多模態語料庫的檢索增強生成(RAG),凸顯了其在純文本設置之外的巨大潛力。具體而言,基于圖像的檢索增強生成(RAG)(Chen 等人,2022;Riedler 和 Langer,2024)是多模態檢索增強生成(RAG)的首次嘗試,它檢索并使用視覺信息來回答查詢。此外,Jeong 等人(2025)最近將檢索增強生成(RAG)擴展到視頻,捕捉視覺和時間元素以回答與過程相關的問題。盡管取得了這些進展,但大多數現有方法僅考慮單模態語料庫,鑒于現實世界的查詢可能需要任何模態的信息,這并不實際。因此,利用所有可用數據來生成最佳答案至關重要,而不是將模型限制在有限的模態中。最近的方法(Cui 等人,2024;Liu 等人,2025a)支持從多模態語料庫中檢索,但通常從所有可用模態中檢索,并且僅在檢索后甚至生成后才決定使用哪些信息,這效率低下且無法使檢索適應查詢的特定需求。

處理多樣化的查詢需要一種能夠適應特定上下文和查詢的檢索增強生成(RAG)方法,而不是使用單一固定的方法。一種有前景的方法是根據預定義的復雜度級別對查詢進行路由(Jeong 等人,2024;Tang 等人,2025;Islam 等人,2024),將它們分類為不需要檢索、單步檢索或多步檢索,以平衡性能和延遲。另一種策略利用模型置信度(Ding 等人,2024;Yao 等人,2024),僅在模型置信度較低時檢索外部信息,從而有效地將資源分配給具有挑戰性的查詢。盡管自適應檢索已成為檢索增強生成(RAG)的核心,但現有基準測試(Zhang 等人,2024;Li 等人,2024c)主要評估純文本系統,如何在多模態中進行自適應檢索仍是一個開放問題。在現實世界場景中,查詢從不同的數據類型中受益,因此在混合模態語料庫中識別最適合檢索的模態至關重要。

5.3 檢索粒度

語料庫索引的大小,即檢索粒度,是檢索中的一個關鍵設計選擇,因為它顯著影響檢索增強生成(RAG)的性能和效率。Chen 等人(2024b)發現,從以命題為索引的語料庫中檢索優于句子或段落級別的檢索性能。最近的研究(Liu 等人,2025b;Zhong 等人,2025)也表明,考慮多個粒度可以實現更好的檢索性能。同樣,研究了粒度感知的文本到視頻檢索,以從視頻語料庫中找到與查詢相關的特定片段,而不僅僅是完整視頻(Chen 等人,2023)。因此,在多模態語料庫中,僅選擇合適的模態是不夠的;系統還應確定最佳的檢索粒度級別。

6 結論

在本文中,我們提出了 UniversalRAG,這是一種新穎的檢索增強生成(RAG)框架,旨在從具有不同模態和粒度的語料庫中進行檢索。通過模態和粒度感知的路由機制,UniversalRAG 為每個查詢動態選擇最合適的知識源,有效地解決了模態差距和固定粒度檢索帶來的限制。在 8 個基準測試中的廣泛評估表明,UniversalRAG 始終優于特定模態和統一的基線模型,展示了在不同模態下的強大性能。此外,我們的分析強調了細粒度檢索的重要性以及無訓練和訓練路由器的互補優勢。這些發現展示了 UniversalRAG 作為一種自適應解決方案的潛力,用于將大型視覺語言模型(LVLMs)與異構外部知識相結合,為更可靠的多模態推理和模態感知信息集成開辟了新的方向。


本文轉載自?AIRoobt?? ,作者:Yunxin Li等

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
国模吧视频一区| 亚洲欧美在线不卡| 精品美女在线观看视频在线观看| 久久99国产精品尤物| 日韩亚洲综合在线| 国产性生活一级片| 久草在线视频资源| 素人啪啪色综合| 亚洲另类春色校园小说| 色老汉一区二区三区| 亚洲国产欧美一区二区三区不卡| 一区二区不卡视频在线观看| 一区二区三区在线观看免费| 亚洲精品国偷自产在线99热| 亚洲 激情 在线| 1区2区在线观看| 91在线播放网址| 国产欧美一区二区| 国产午夜福利片| 国产aⅴ精品一区二区三区久久| 日本道色综合久久| 在线观看免费黄色片| 日本高清视频免费观看| 日本视频一区二区| 欧美肥婆姓交大片| av网站免费在线看| 麻豆影视在线| 日本特黄久久久高潮| 久久成人这里只有精品| 天天综合天天添夜夜添狠狠添| 成人免费一区二区三区牛牛| 国产精品视频九色porn| 国产精品区一区二区三在线播放 | 吞精囗交69激情欧美| 亚洲欧洲99久久| 久久久久久九九九九| 久久久999久久久| 亚洲精品一级| 欧美成人手机在线| 中文字幕第24页| 精品欧美午夜寂寞影院| 欧美丰满高潮xxxx喷水动漫| 欧美变态tickling挠脚心| 懂色av一区二区三区在线播放| 欧美一级淫片免费视频黄| 欧美一区成人| 自拍视频国产精品| 99re久久精品国产| 狠狠一区二区三区| 欧美一区二区三区免费视频| 91在线视频观看免费| 亚洲精品天堂| 国产精品国产三级国产有无不卡 | 粉嫩一区二区三区四区公司1| 欧美系列在线观看| 99蜜桃臀久久久欧美精品网站| caopo在线| 国产精品福利电影一区二区三区四区| 精品国产乱码久久久久软件 | 日本黄色网址大全| 国产精品网在线观看| 日韩欧美在线不卡| 亚洲精品在线网址| 色综合.com| 欧美午夜片在线观看| 国产午夜福利视频在线观看| rebdb初裸写真在线观看| 亚洲免费视频成人| 特级西西444| 精品麻豆一区二区三区 | 精品嫩草影院久久| 国产麻豆剧传媒精品国产| 爱情电影网av一区二区| 91.com视频| 激情文学亚洲色图| 91成人抖音| 色激情天天射综合网| 日韩视频在线免费看| 黄色录像二级片| 黄色软件在线观看| 久久精品一级爱片| 欧美一区二区三区四区夜夜大片| 日韩porn| 国产拍揄自揄精品视频麻豆| 日本中文不卡| yw在线观看| 国产精品高潮久久久久无| 中文字幕人成一区| 日本动漫理论片在线观看网站| 亚洲黄色在线视频| 国产av人人夜夜澡人人爽麻豆| 国产一线二线在线观看| 午夜精品久久久久久久久久 | 欧美性猛交xxxx免费看漫画| 日本精品免费在线观看| 日韩毛片一区| 欧美一级一区二区| 中国黄色片视频| 台湾佬综合网| 最近2019年日本中文免费字幕| 婷婷社区五月天| 伊人成人在线| 4k岛国日韩精品**专区| 中文字幕av网站| 狠狠色丁香久久婷婷综| 国产精品18毛片一区二区| 三级在线播放| 成人免费一区二区三区视频| 国产成人一二三区| 爱啪视频在线观看视频免费| 欧美三级午夜理伦三级中视频| 少妇一级淫免费播放| 中文在线综合| 亚洲视频在线免费观看| 国产农村妇女精品一区| 亚洲深夜av| 国产精品色悠悠| 精品人妻一区二区三区麻豆91| 爽成人777777婷婷| 成人黄色av网站在线| 精品一区在线播放| 日本电影在线观看网站| 亚洲狠狠爱一区二区三区| 天天操天天爽天天射| 久久夜色精品国产噜噜av小说| 久久精品国产v日韩v亚洲| 国产亚洲精品码| 狠狠色伊人亚洲综合成人| 欧美精品在线一区| 日本在线观看大片免费视频| 欧美视频一区二区在线观看| 亚洲av人人澡人人爽人人夜夜| 欧美三级情趣内衣| 国内精品久久久久久中文字幕| 一区二区三区在线免费观看视频| 成人午夜大片免费观看| 亚洲在线观看一区| 欧美大片1688| 亚洲第一区在线观看| 粉嫩av性色av蜜臀av网站| 在线一区免费观看| 国产一区二区中文字幕免费看| av在线app| 欧美日韩精品一区二区三区四区| 这里只有精品在线观看视频| 中国精品18videos性欧美| 日韩av免费看网站| 色婷婷综合视频| 一区二区三区日本| 亚洲精品中文字幕乱码无线| 青草国产精品| 欧洲精品久久久| 99在线精品视频免费观看软件| 久久综合九色欧美综合狠狠 | 三级视频网站在线| 洋洋成人永久网站入口| 亚洲精品视频三区| 99久久亚洲精品蜜臀| 国产精品日日摸夜夜添夜夜av| 六十路在线观看| 精品欧美一区二区三区| 在线免费看黄色片| 亚洲成色精品| 精品欧美一区二区精品久久| sm性调教片在线观看| 欧美日韩黑人| 欧美另类老女人| 国产wwwxxx| 亚洲精品视频一区| 蜜桃视频无码区在线观看| 欧美激情视频一区二区三区在线播放 | 99精品在线| 成人免费在线视频网站| 欧洲毛片在线| 亚洲成a人片在线不卡一二三区| 亚洲图片欧美另类| 亚洲婷婷免费| 黄色91av| 成人日韩在线| 一区二区三区国产视频| 中文字幕一区二区人妻痴汉电车| 中文字幕精品三区| 999热精品视频| 亚洲国产精品一区| 久久久精品动漫| 免费福利视频一区二区三区| 精品中文字幕久久久久久| 日日骚av一区二区| 中文字幕av不卡| 天堂中文av在线| 国产精品啊v在线| 国产原创精品| 台湾佬成人网| 色妞在线综合亚洲欧美| 亚洲av无码国产综合专区| 精品女同一区二区三区在线播放| 欧美bbbbb性bbbbb视频| 久久一区亚洲| 色一情一乱一伦一区二区三欧美| 久久er热在这里只有精品66| 欧美日韩成人网| 久草福利在线视频| 欧美一区二区三区四区五区| 日韩激情在线播放| 欧美激情一区二区三区不卡| 日本wwwwwww| 日韩va亚洲va欧美va久久| 亚洲三区在线观看| 成人免费a视频| 亚洲电影在线一区二区三区| 国产美女精品久久久| 肉色欧美久久久久久久免费看| 日韩在线视频网| 手机看片国产1024| 欧美人与禽zozo性伦| 国产一级一片免费播放| 国产欧美日韩中文久久| 免费观看一区二区三区| 裸体一区二区| av片在线免费| 色综合天天综合网中文字幕| 国产一区二区三区四区五区在线| 台湾佬成人网| 国自产精品手机在线观看视频| 思思99re6国产在线播放| 亚洲精品99久久久久| 91成人一区二区三区| 欧美丝袜第一区| 久久久国产精品黄毛片| 中国色在线观看另类| 国产精品久久久久久在线观看| 韩国一区二区三区| 成人免费xxxxx在线视频| 亚洲黄色视屏| 久久亚洲a v| 99久久久久| 日本一区免费| 婷婷亚洲成人| 国产精品国产三级国产专区53 | 午夜精品福利影院| 91视频99| 99久热在线精品视频观看| 国产精品高潮呻吟久久av黑人| 色在线视频观看| 久久久爽爽爽美女图片| 性欧美video高清bbw| 日韩一区二区三区xxxx| 国产51人人成人人人人爽色哟哟| 亚洲黄色在线看| 人妻无码中文字幕| 亚洲第一区第一页| 婷婷丁香花五月天| 精品呦交小u女在线| 好吊视频一区二区三区| 日韩一区二区三区在线观看| 国产精品欧美久久久久天天影视| 欧美日韩综合在线| 中文字幕第三区| 欧美大胆的人体xxxx| 欧美激情一区二区三区成人| 26uuu亚洲电影在线观看| 另类专区欧美制服同性| av在线下载| 在线视频欧美性高潮| 国产在线观看a| 久久精品视频一| 综合图区亚洲| 久久噜噜噜精品国产亚洲综合| 美足av综合网| 高清欧美性猛交xxxx| 草草在线观看| 日本国产一区二区三区| 在线一区av| 97精品伊人久久久大香线蕉| 成人免费无遮挡| 国产激情久久久久| 全球最大av网站久久| 国产精品爽爽爽| 91精品视频一区二区| av在线不卡观看| 98视频精品全部国产| 成人自拍爱视频| 国产精品一区2区3区| 亚洲不卡中文字幕| 欧美色女视频| 在线观看av的网址| 亚洲第一毛片| 欧美s码亚洲码精品m码| 久久国产88| 四虎国产精品永久免费观看视频| 国产v综合v亚洲欧| wwwwxxxx国产| 国产精品免费久久| 九九视频在线免费观看| 香蕉影视欧美成人| 99久久久久久久久| 精品视频一区二区不卡| 国产欧美综合视频| 亚洲国产精品中文| av电影在线观看| 欧美高清第一页| 欧美电影免费观看网站| 成人美女av在线直播| 国产精品午夜av| 日本xxxxx18| 久久国产日韩| 国产精品熟女一区二区不卡| 久久免费视频一区| 久久国产精品国语对白| 午夜不卡av在线| 欧美性受xxx黑人xyx性爽| 亚洲精品456在线播放狼人| 一广人看www在线观看免费视频| 欧美激情精品久久久久久免费印度 | 日韩久久久久久久久| 在线观看国产91| www.日韩在线观看| 中文字幕亚洲欧美在线| cao在线视频| 国产精品久久激情| 老司机凹凸av亚洲导航| 亚洲精品欧美精品| 国产情侣一区| 国产人妻精品久久久久野外| 国产三级欧美三级日产三级99| 成人做爰视频网站| 欧美私人免费视频| 青青草av免费在线观看| 久久不射电影网| 日本精品另类| 久久国产主播精品| 中文乱码免费一区二区三区下载| 亚洲乱码国产一区三区| 成人免费电影视频| 欧美日韩色视频| 欧美无人高清视频在线观看| 免费a级片在线观看| 久久亚洲国产成人| av在线一区不卡| 国产色综合一区二区三区| 黄色精品免费| 日本特黄在线观看| 中文字幕亚洲精品在线观看| 天天操天天干天天摸| 亚洲欧美变态国产另类| 欧美伦理91| 含羞草久久爱69一区| 在线精品一区| www.四虎精品| 一区二区三区美女| 国产农村老头老太视频| 色噜噜狠狠狠综合曰曰曰88av| 国产精品99| 亚洲成人自拍| 久久激情综合网| 国产视频精品免费| 欧美日韩国产一区二区三区地区| 免费在线看v| 456亚洲影院| 日韩成人一级| 久久久久久久久久久免费视频| 91免费视频网址| 亚洲欧美综合自拍| 日韩成人av网| 666av成人影院在线观看| 久久精品国产综合精品| 久久国产99| avhd101老司机| 欧美性极品xxxx娇小| av大片在线观看| 国产在线视频欧美| 欧美色123| 国产成人无码一区二区在线观看| 精品久久久久久久久久久久久久 | 蜜臀国产一区| 日本一区二区三区视频在线观看| 青草av.久久免费一区| 正义之心1992免费观看全集完整版| 小视频免费在线观看| 天天爽天天狠久久久| 久久99久久久欧美国产| 欧美性猛交xxxxx少妇| 欧美变态tickling挠脚心| 丁香花在线影院| 日韩伦理一区二区三区av在线| 久久综合狠狠| 午夜剧场免费在线观看| 欧美成人性福生活免费看| 丰满的护士2在线观看高清| 麻豆av一区二区三区久久| 蜜桃视频在线一区| 欧美三级免费看| 亚洲精品视频二区| 四虎成人精品一区二区免费网站| 99亚洲国产精品| 91麻豆国产精品久久| 91超薄丝袜肉丝一区二区| 久久久女女女女999久久| 国产欧美日韩视频在线| 亚洲欧美日韩精品一区|