基于RAG的AI知識(shí)庫(kù)如何評(píng)估優(yōu)化 原創(chuàng)
在評(píng)估AI知識(shí)庫(kù)(尤其是RAG類(lèi)型)時(shí),確實(shí)面臨一些挑戰(zhàn),因?yàn)槠漭敵龅恼_性和相關(guān)性難以像數(shù)據(jù)抽取或Text2SQL系統(tǒng)那樣直接通過(guò)標(biāo)準(zhǔn)答案來(lái)衡量。以下是一些推薦的評(píng)估指標(biāo)和方法,可以幫助你更全面地評(píng)估RAG系統(tǒng)的性能:
1. 檢索質(zhì)量評(píng)估
- 召回率@k(Recall@k):衡量檢索到的相關(guān)文檔占所有相關(guān)文檔的比例。
- 精確率@k(Precision@k):衡量檢索到的前k個(gè)文檔中相關(guān)文檔的比例。
- 平均倒數(shù)排名(MRR):衡量第一個(gè)正確答案的倒數(shù)排名的平均值。
- 平均精度均值(MAP):衡量每個(gè)查詢的平均精度分?jǐn)?shù)的平均值。
2. 生成質(zhì)量評(píng)估
- 準(zhǔn)確率(Accuracy):評(píng)估生成答案是否包含真實(shí)答案的內(nèi)容。
- 忠實(shí)度(Faithfulness):衡量生成的答案是否忠實(shí)于檢索到的上下文。
- 內(nèi)容完整性(Completeness):評(píng)估生成答案是否覆蓋了用戶需求的所有要點(diǎn)。
- 答案相關(guān)性(Answer Relevance):衡量用戶問(wèn)題與生成答案之間的相關(guān)性。
- 流暢性(Fluency):評(píng)估生成答案的語(yǔ)言流暢性。
3. 語(yǔ)義相似性評(píng)估
- ROUGE-L:通過(guò)最長(zhǎng)公共子序列的F1分?jǐn)?shù)評(píng)估生成答案與參考答案之間的詞匯相似性。
- BERTScore:使用上下文嵌入的token級(jí)余弦相似度評(píng)估生成答案與參考答案之間的語(yǔ)義相似性。
4. 人類(lèi)評(píng)估
- 主觀評(píng)估:由領(lǐng)域?qū)<以u(píng)估答案的準(zhǔn)確性、完整性、相關(guān)性、流暢性和溯源性。
- LLM評(píng)分:利用大型語(yǔ)言模型作為評(píng)估工具,評(píng)估生成答案的質(zhì)量。
5. 自動(dòng)化評(píng)估框架
- RAGAS框架:評(píng)估答案是否忠實(shí)于上下文、是否充分利用了上下文等。
- RAGCHECKER框架:提供細(xì)粒度的診斷指標(biāo),評(píng)估檢索和生成模塊的性能。
6. 系統(tǒng)性能指標(biāo)
- 單次查詢成本(CPQ):計(jì)算每次查詢的GPU算力和存儲(chǔ)成本。
- 99分位延遲(P99):監(jiān)控系統(tǒng)響應(yīng)時(shí)間,優(yōu)化熱點(diǎn)查詢結(jié)果的緩存。

進(jìn)一步通過(guò)不同維度的評(píng)估指標(biāo)和方法建議,結(jié)合學(xué)術(shù)界和工業(yè)界的常見(jiàn)實(shí)踐:
一、核心評(píng)估維度與指標(biāo)
1. 檢索(Retrieval)階段評(píng)估
目標(biāo):衡量援引文檔的相關(guān)性和召回能力。
- 相關(guān)性評(píng)分(如1-5分):由專(zhuān)家對(duì)檢索結(jié)果與問(wèn)題的相關(guān)性打分,計(jì)算平均分或一致性(Cohen's Kappa)。
- Hit Rate@K:前K個(gè)檢索結(jié)果中至少包含一個(gè)相關(guān)文檔的比例。
- MRR(Mean Reciprocal Rank):相關(guān)文檔的排名倒數(shù)均值(側(cè)重高排名相關(guān)文檔)。
- NDCG@K:考慮文檔相關(guān)性和排序位置的加權(quán)評(píng)分(適合多等級(jí)相關(guān)性標(biāo)注)。
- 常用指標(biāo):
- 人工標(biāo)注輔助:
2. 生成(Generation)階段評(píng)估
目標(biāo):評(píng)估回復(fù)的準(zhǔn)確性、流暢性和信息完整性。
- Faithfulness(忠實(shí)性):生成內(nèi)容是否與援引文檔一致(可通過(guò)NLI模型或人工判斷)。
- Factual Accuracy:抽樣驗(yàn)證生成內(nèi)容中事實(shí)性陳述的正確性(如對(duì)比權(quán)威數(shù)據(jù)庫(kù))。
- ROUGE/Lexical Overlap:對(duì)比生成文本與參考答案的詞重疊率(適合事實(shí)性回答)。
- BLEU:機(jī)器翻譯常用指標(biāo),可遷移到生成文本評(píng)估。
- BERTScore:基于語(yǔ)義相似度(使用BERT嵌入計(jì)算生成文本與參考答案的相似度)。
- 基于參考答案的指標(biāo)(需標(biāo)注標(biāo)準(zhǔn)答案):
- 無(wú)參考答案的指標(biāo):
3. 端到端(End-to-End)評(píng)估
目標(biāo):綜合評(píng)估系統(tǒng)整體表現(xiàn)。
- Answer Relevancy:使用LLM(如GPT-4)評(píng)估生成回答與問(wèn)題的相關(guān)性(提示工程設(shè)計(jì)評(píng)分規(guī)則)。
- Citation Accuracy:檢查援引文檔是否確實(shí)支持生成內(nèi)容(可通過(guò)NLP模型自動(dòng)驗(yàn)證)。
- Likert Scale評(píng)分(如1-5分):從“完全錯(cuò)誤”到“完全正確”對(duì)回復(fù)質(zhì)量打分。
- 用戶滿意度調(diào)查(如CES、NPS):模擬真實(shí)用戶反饋。
- 人工評(píng)分(黃金標(biāo)準(zhǔn)):
- 自動(dòng)化替代指標(biāo):
二、針對(duì)Text2SQL和知識(shí)庫(kù)的特殊考量
1. Text2SQL評(píng)估
- 執(zhí)行正確性:生成的SQL在數(shù)據(jù)庫(kù)執(zhí)行后的結(jié)果是否與標(biāo)準(zhǔn)答案匹配(精確匹配或結(jié)果集相似度)。
- 語(yǔ)法有效性:SQL是否能被解析器正確解析(如通過(guò)?
?EXPLAIN??驗(yàn)證)。
2. 知識(shí)庫(kù)援引評(píng)估
- 文檔覆蓋度:援引文檔是否覆蓋了回答中的所有關(guān)鍵事實(shí)(可通過(guò)實(shí)體/關(guān)系抽取對(duì)比)。
- 冗余性:援引文檔是否包含無(wú)關(guān)內(nèi)容(計(jì)算援引文本與生成內(nèi)容的冗余比例)。
三、推薦評(píng)估框架與工具
- RAGAS框架(專(zhuān)為RAG設(shè)計(jì))
- ??
?Faithfulness??:生成內(nèi)容與援引文檔的一致性。 - ??
?Answer Relevancy??:回答與問(wèn)題的相關(guān)性。 - ??
?Context Relevancy??:援引文檔的濃縮程度(剔除無(wú)關(guān)內(nèi)容)。 - 開(kāi)源庫(kù)(GitHub),提供以下自動(dòng)化指標(biāo):
- LLM-as-a-Judge
- 用GPT-4/Claude等高級(jí)模型作為“裁判”,設(shè)計(jì)評(píng)分提示模板(示例):
請(qǐng)根據(jù)以下標(biāo)準(zhǔn)評(píng)分(1-5分):- 相關(guān)性:回答是否直接解決用戶問(wèn)題?- 準(zhǔn)確性:內(nèi)容是否與援引文檔一致?- 完整性:是否覆蓋問(wèn)題所有方面?問(wèn)題:[用戶問(wèn)題]援引文檔:[文檔內(nèi)容]生成回答:[回答文本]人工評(píng)估基準(zhǔn)
- 構(gòu)建小規(guī)模黃金測(cè)試集(100-200例),涵蓋多樣性問(wèn)題類(lèi)型,定期人工復(fù)核系統(tǒng)表現(xiàn)。
- 分層評(píng)估:
a.第一層:自動(dòng)化指標(biāo)(如RAGAS)快速迭代。
b.第二層:LLM-as-a-Judge中等頻率抽樣。
c.第三層:人工評(píng)估關(guān)鍵場(chǎng)景。
- 關(guān)注業(yè)務(wù)目標(biāo):
a.若為客服場(chǎng)景,側(cè)重回答正確性;若為探索性問(wèn)答,可容忍部分冗余但需高召回率。
四、傳統(tǒng)RAG的優(yōu)化實(shí)踐
傳統(tǒng) RAG 無(wú)法解決復(fù)雜的問(wèn)題場(chǎng)景:
- 傳統(tǒng) RAG 在跨文檔召回時(shí)的成功率低
- 用戶的需求日益復(fù)雜,需要多篇文檔甚至結(jié)合工具調(diào)用才能解答
- 知識(shí)資產(chǎn)無(wú)組織,檢索低效,難以發(fā)揮出應(yīng)有價(jià)值
解決方案:知識(shí)圖譜+DeepSearch
- 使用輕量化LightRAG方案,構(gòu)建知識(shí)圖譜,解決語(yǔ)義理解對(duì)齊和知識(shí)跨文檔的難題
- 使用DeepSearch迭代式搜索方案,綜合多源、多輪搜索結(jié)果,利用大模型的推理能力,提高問(wèn)答的準(zhǔn)確性
優(yōu)化1:結(jié)合迭代式搜索框架的檢索Agent
把傳統(tǒng) RAG 檢索(含稀疏檢索、稠密檢索)、local 圖譜檢索、global 圖譜檢索、代碼檢索等,都作為一個(gè)檢索工具,交給大模型來(lái)選擇。大模型基于推理能力,結(jié)合每一輪的檢索結(jié)果,判斷是否需要以及使用什么工具進(jìn)行下一輪檢索。
優(yōu)化2:結(jié)合深度定制工具的領(lǐng)域助手agent
- query理解: 通過(guò)讓模型自主決定調(diào)用哪些工具解決問(wèn)題。
- 上下文重寫(xiě): 利用上下文信息進(jìn)行查詢重寫(xiě),提升查詢與知識(shí)標(biāo)簽的匹配度,增強(qiáng)理解能力。
- 工具調(diào)用: 引入工具調(diào)用機(jī)制,支持更復(fù)雜的操作流程,提高解決問(wèn)題的能力。
- 優(yōu)化匹配: 利用領(lǐng)域圖譜進(jìn)行改寫(xiě);有效解決口語(yǔ)化表達(dá)與專(zhuān)業(yè)文檔之間的匹配難題,顯著提升匹配效率和準(zhǔn)確性。
經(jīng)過(guò)優(yōu)化后,傳統(tǒng) RAG 方案做到的成功率:
- 文檔召回率80%+
- 最終生成正確率60%+
五、挑戰(zhàn)與解決方案
- 主觀性難題:通過(guò)多標(biāo)注者投票+一致性檢驗(yàn)降低偏差。
- 成本權(quán)衡:自動(dòng)化指標(biāo)覆蓋80%用例,人工聚焦20%高風(fēng)險(xiǎn)場(chǎng)景(如醫(yī)療、金融)。
通過(guò)組合量化指標(biāo)與定性分析,可系統(tǒng)化評(píng)估RAG知識(shí)庫(kù)的綜合質(zhì)量。
總而言之,評(píng)估RAG系統(tǒng)的性能需要綜合考慮檢索質(zhì)量、生成質(zhì)量、語(yǔ)義相似性、人類(lèi)評(píng)估以及系統(tǒng)性能等多個(gè)方面。通過(guò)結(jié)合上述指標(biāo),可以更全面地衡量RAG系統(tǒng)的性能,并根據(jù)評(píng)估結(jié)果不斷優(yōu)化數(shù)據(jù)預(yù)處理、檢索策略、LLM微調(diào)和Prompt設(shè)計(jì)等環(huán)節(jié)。
參考文獻(xiàn):
本文轉(zhuǎn)載自???數(shù)字化助推器??? 作者:天涯咫尺TGH

















