HiRAG:利用層次知識的檢索增強生成下一代GraphRAG
摘要
基于圖的檢索增強生成(RAG)方法顯著提升了大型語言模型(LLMs)在特定領(lǐng)域任務(wù)中的性能。然而,現(xiàn)有的RAG方法未能充分利用人類認知中固有的層次知識,這限制了RAG系統(tǒng)的能力。本文介紹了一種新的RAG方法,稱為HiRAG,它利用層次知識來增強RAG系統(tǒng)在索引和檢索過程中的語義理解和結(jié)構(gòu)捕捉能力。我們的廣泛實驗表明,HiRAG相較于最先進的基線方法取得了顯著的性能提升https://github.com/hhy-huang/HiRAG
全文鏈接:https://t.zsxq.com/rUMbM
核心速覽
研究背景
1.研究問題:這篇文章要解決的問題是如何在基于圖的檢索增強生成(RAG)方法中更好地利用人類認知中的層次知識,從而提升RAG系統(tǒng)在特定領(lǐng)域任務(wù)中的性能。
2.研究難點:該問題的研究難點包括兩個方面:(1)現(xiàn)有方法過于依賴源文檔,導(dǎo)致構(gòu)建的知識圖譜中存在語義相似但結(jié)構(gòu)上不接近的實體;(2)現(xiàn)有方法在檢索上下文時,通常只從全局或局部視角出發(fā),未能有效解決局部和全局知識之間的知識差距。
圖片
3.相關(guān)工作:該問題的研究相關(guān)工作有:Gao等人提出的RAG方法,Lewis等人提出的RAG方法,F(xiàn)an等人提出的RAG方法,Zhang等人提出的RAG方法,Tang和Yang提出的RAG方法,Edge等人提出的GraphRAG方法,Liang等人提出的KAG方法,Guo等人提出的LightRAG方法,Circlemind提出的FastGraphRAG方法,以及HippoRAG和HippoRAG2等方法。
研究方法
這篇論文提出了HiRAG方法,用于解決現(xiàn)有RAG方法中未能充分利用層次知識的問題。具體來說,HiRAG方法包括兩個主要模塊:層次化知識索引(HiIndex)和層次化知識檢索(HiRetrieval)。
1.層次化知識索引(HiIndex):
?首先,使用實體中心的三元組提取方法構(gòu)建基本知識圖譜G0。具體步驟包括將輸入文檔分割成文本塊,并使用LLM提取實體和關(guān)系。
?然后,逐層構(gòu)建層次化知識圖譜。對于每一層,首先獲取上一層的實體嵌入,并使用高斯混合模型(GMM)進行語義聚類。聚類后,將每個簇的描述輸入LLM生成摘要實體。
?通過連接不同層次的實體和關(guān)系,更新知識圖譜。
?使用Leiden算法計算層次化知識圖譜中的社區(qū),并為每個社區(qū)生成一個可解釋的語義報告。
2.層次化知識檢索(HiRetrieval):
?從層次化知識圖譜中檢索三級知識:局部知識、全局知識和橋梁知識。
?局部知識:檢索與查詢最相關(guān)的n個實體。
?全局知識:找到與檢索到的實體相連的社區(qū),并檢索這些社區(qū)的報告。
?橋梁知識:從每個社區(qū)中選擇與查詢最相關(guān)的關(guān)鍵實體,并收集這些實體以形成推理路徑,構(gòu)建子圖。
實驗設(shè)計
1.數(shù)據(jù)集:使用了UltraDomain基準中的四個數(shù)據(jù)集(Mix、CS、Legal、Agriculture)和2WikiMultiHopQA、HotpotQA兩個多跳問答數(shù)據(jù)集。
2.查詢:使用了UltraDomain提供的基準查詢和隨機抽樣的1000個查詢。
3.LLM:對于查詢聚焦總結(jié)(QFS)任務(wù),使用了DeepSeek-V3作為LLM;對于多跳問答(MHQA)任務(wù),使用了GPT-4o-mini和nvidia/NVEmbed-v2作為LLM和嵌入模型。
4.評估方法:QFS任務(wù)的評估使用了四個維度:全面性、賦能性、多樣性和總體表現(xiàn);MHQA任務(wù)的評估使用了精確匹配(EM)和F1分數(shù)。
結(jié)果與分析
1.QFS任務(wù):HiRAG在所有數(shù)據(jù)集和四個評估維度上均優(yōu)于現(xiàn)有方法。具體來說,HiRAG在全面性、賦能性、多樣性和總體表現(xiàn)上的勝率分別為87.6%、64.1%、65.9%和87.6%。
圖片
2.MHQA任務(wù):HiRAG在EM和F1分數(shù)上也顯著優(yōu)于現(xiàn)有方法。在2WikiMultiHopQA和HotpotQA數(shù)據(jù)集上,HiRAG的平均EM和F1分數(shù)分別為65.5%和73.7%。
3.層次化知識圖譜與平面知識圖譜的對比:替換為平面知識圖譜后,HiRAG的性能顯著下降,表明層次化知識圖譜在答案生成質(zhì)量上的重要性。
4.橋梁知識與間隙知識的對比:去除橋梁知識后,HiRAG的性能也顯著下降,驗證了橋梁知識在連接局部和全局知識中的有效性。
圖片
總體結(jié)論
這篇論文提出了一種新的RAG方法HiRAG,通過有效地利用層次化知識,解決了現(xiàn)有RAG方法中未能充分利用層次知識的問題。HiRAG通過引入層次化知識索引和橋梁機制,顯著提升了RAG系統(tǒng)的性能和效率。實驗結(jié)果表明,HiRAG在多個數(shù)據(jù)集和任務(wù)上均取得了最優(yōu)的性能。
論文評價
優(yōu)點與創(chuàng)新
1.提出了一個新的RAG方法,稱為HiRAG,利用層次知識增強RAG系統(tǒng)在索引和檢索過程中的語義理解和結(jié)構(gòu)捕捉能力。
2.解決了現(xiàn)有RAG系統(tǒng)中存在的兩個關(guān)鍵挑戰(zhàn):語義相似實體之間的遠距離結(jié)構(gòu)關(guān)系和局部知識與全局知識之間的知識差距。
3.引入了無監(jiān)督的層次化索引機制(HiIndex),通過逐層構(gòu)建層次化知識圖譜來增強語義相似實體之間的連接。
4.提出了新穎的橋梁機制(HiRetrieval),有效地橋接局部實體的描述與全局社區(qū)的知識,從而解決知識層差距問題。
5.提供了三級上下文:全局級、橋梁級和局部級知識,使LLM能夠生成更全面和精確的響應(yīng)。
6.廣泛的實驗驗證了HiRAG的有效性和效率,并通過綜合消融研究驗證了每個組件的貢獻。
不足與反思
1.構(gòu)建高質(zhì)量層次化知識圖譜可能會消耗大量的標記和計算時間,因為LLMs需要在每一層進行實體摘要。盡管如此,由于LLMs的使用成本正在迅速下降,可以考慮并行化索引過程以減少索引時間。
2.檢索模塊需要更復(fù)雜的查詢感知排序機制。目前,HiRetrieval模塊完全依賴于LLM生成的權(quán)重進行關(guān)系排序,這可能會影響查詢的相關(guān)性。未來將研究更有效的排序機制以進一步提高檢索質(zhì)量。
關(guān)鍵問題及回答
問題1:HiRAG方法中的層次化知識索引(HiIndex)是如何構(gòu)建的?其具體步驟是什么?
1.基本知識圖譜的構(gòu)建:首先,使用實體中心的三元組提取方法構(gòu)建基本知識圖譜。具體步驟包括將輸入文檔分割成文本塊,并使用LLM提取實體和關(guān)系。
2.逐層構(gòu)建層次化知識圖譜:對于每一層,首先獲取上一層的實體嵌入,并使用高斯混合模型(GMM)進行語義聚類。聚類后,將每個簇的描述輸入LLM生成摘要實體。
3.更新知識圖譜:通過連接不同層次的實體和關(guān)系,更新知識圖譜。
4.社區(qū)計算和語義報告生成:使用Leiden算法計算層次化知識圖譜中的社區(qū),并為每個社區(qū)生成一個可解釋的語義報告。
問題2:HiRAG方法中的層次化知識檢索(HiRetrieval)是如何設(shè)計的?其主要功能是什么?
HiRAG方法中的層次化知識檢索(HiRetrieval)旨在從層次化知識圖譜中檢索三級知識:局部知識、全局知識和橋梁知識。其主要功能如下:
1.局部知識檢索:檢索與查詢最相關(guān)的n個實體。
2.全局知識檢索:找到與檢索到的實體相連的社區(qū),并檢索這些社區(qū)的報告。
3.橋梁知識檢索:從每個社區(qū)中選擇與查詢最相關(guān)的關(guān)鍵實體,并收集這些實體以形成推理路徑,構(gòu)建子圖。
通過這三級知識的檢索,HiRAG能夠有效地橋接局部和全局知識,生成更全面和精確的回答。
問題3:HiRAG方法在實驗中表現(xiàn)如何?與其他方法相比有哪些優(yōu)勢?
1.QFS任務(wù):HiRAG在所有數(shù)據(jù)集和四個評估維度(全面性、賦能性、多樣性和總體表現(xiàn))上均優(yōu)于現(xiàn)有方法。具體來說,HiRAG在全面性、賦能性、多樣性和總體表現(xiàn)上的勝率分別為87.6%、64.1%、65.9%和87.6%。
2.MHQA任務(wù):HiRAG在EM和F1分數(shù)上也顯著優(yōu)于現(xiàn)有方法。在2WikiMultiHopQA和HotpotQA數(shù)據(jù)集上,HiRAG的平均EM和F1分數(shù)分別為65.5%和73.7%。
3.優(yōu)勢分析:
?層次化知識圖譜:HiRAG通過引入層次化知識圖譜,增強了語義相似實體之間的連接,解決了現(xiàn)有方法中語義相似但結(jié)構(gòu)上不接近的問題。
?橋梁機制:HiRAG通過橋梁知識有效地橋接了局部和全局知識,解決了局部和全局知識之間的知識差距問題。
?綜合性能:HiRAG在多個數(shù)據(jù)集和任務(wù)上均取得了最優(yōu)的性能,顯著提升了RAG系統(tǒng)的性能和效率。
本文轉(zhuǎn)載自??知識圖譜科技??,作者:Wolfgang

















