精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

RAGChecker:顯著超越RAGAS,一個精細化評估和診斷 RAG 系統的創新框架 精華

發布于 2024-10-29 11:50
瀏覽
0收藏

RAG應用已經是當下利用大模型能力的典型應用代表,也獲得了極大的推廣,各種提升RAG性能的技術層出不窮。然而,如何全面、準確地評估 RAG 系統一直是一個挑戰。傳統評估方法存在諸多局限性:無法有效評估長文本回復、難以區分檢索和生成模塊的錯誤來源、與人類判斷的相關性不高。為此,亞馬遜和上海交通大學等研究團隊開發了 RAGChecker[1],這是一個專為 RAG 系統設計的創新評估框架。

RAGChecker:顯著超越RAGAS,一個精細化評估和診斷 RAG 系統的創新框架-AI.x社區圖片

RAGChecker 的核心亮點在于其細粒度的評估方法。它首先使用大型語言模型將文本分解為獨立的聲明,然后通過另一個模型驗證每個聲明的準確性。這種方法不僅能夠評估整體性能,還能深入診斷檢索和生成模塊的具體問題。

RAGChecker 提供了三類指標:

1)整體指標:包括精度、召回率和 F1 分數,全面反映 RAG 系統的輸出質量。

2)檢索指標:

  • 聲明召回:衡量檢索上下文覆蓋標準答案聲明的比例。
  • 上下文精度:評估檢索上下文中相關 chunks 的比例。

3)生成指標:

  • 上下文利用率:反映生成器有效利用相關信息的程度。
  • 幻覺:量化生成的錯誤信息比例。
  • 忠實度:衡量生成器對檢索上下文的依賴程度。
  • 相關/不相關噪聲敏感度:評估生成器對不同類型噪聲的敏感程度。
  • 自知識:反映生成器依賴內部知識的程度。

使用方法

RAGChecker 提供了多種使用方法,包含命令行、python 編碼等方式,還可以與主流 LLM 開發框架集成,如 llamaindex。

  • 安裝

pip install ragchecker
python -m spacy download en_core_web_sm
  • 使用命令行

ragchecker-cli \
    --input_path=examples/checking_inputs.json \
    --output_path=examples/checking_outputs.json \
    --extractor_name=bedrock/meta.llama3-1-70b-instruct-v1:0 \
    --checker_name=bedrock/meta.llama3-1-70b-instruct-v1:0 \
    --batch_size_extractor=64 \
    --batch_size_checker=64 \
    --metrics all_metrics \
    # --disable_joint_check  # uncomment this line for one-by-one checking, slower but slightly more accurate
  • 使用 python

from ragchecker import RAGResults, RAGChecker
from ragchecker.metrics import all_metrics


# initialize ragresults from json/dict
with open("examples/checking_inputs.json") as fp:
    rag_results = RAGResults.from_json(fp.read())

# set-up the evaluator
evaluator = RAGChecker(
    extractor_name="bedrock/meta.llama3-1-70b-instruct-v1:0",
    checker_name="bedrock/meta.llama3-1-70b-instruct-v1:0",
    batch_size_extractor=32,
    batch_size_checker=32
)

# evaluate results with selected metrics or certain groups, e.g., retriever_metrics, generator_metrics, all_metrics
evaluator.evaluate(rag_results, all_metrics)
print(rag_results)

"""Output
RAGResults(
  2 RAG results,
  Metrics:
  {
    "overall_metrics": {
      "precision": 76.4,
      "recall": 62.5,
      "f1": 68.3
    },
    "retriever_metrics": {
      "claim_recall": 61.4,
      "context_precision": 87.5
    },
    "generator_metrics": {
      "context_utilization": 87.5,
      "noise_sensitivity_in_relevant": 19.1,
      "noise_sensitivity_in_irrelevant": 0.0,
      "hallucination": 4.5,
      "self_knowledge": 27.3,
      "faithfulness": 68.2
    }
  }
)
"""
  • 與 llamaindex 集成

# User query and groud truth answer
user_query = "What is RAGChecker?"
gt_answer = "RAGChecker is an advanced automatic evaluation framework designed to assess and diagnose Retrieval-Augmented Generation (RAG) systems. It provides a comprehensive suite of metrics and tools for in-depth analysis of RAG performance."


# Get response from LlamaIndex
response_object = rag_application.query(user_query)

# Convert to RAGChecker format
rag_result = response_to_rag_results(
    query=user_query,
    gt_answer=gt_answer,
    response_object=response_object,
)

# Create RAGResults object
rag_results = RAGResults.from_dict({"results": [rag_result]})
print(rag_results)

實驗結果

RAGChecker 的有效性已通過大規模實驗和人工評估得到驗證。結果顯示,RAGChecker 的評分與人類判斷的相關性顯著高于現有評估方法。在 Pearson 相關性上,RAGChecker 達到了 61.93%,而最接近的基線方法 RAGAS 僅為 48.31%。

RAGChecker:顯著超越RAGAS,一個精細化評估和診斷 RAG 系統的創新框架-AI.x社區

關鍵要點

利用 RAGChecker,研究人員評估了 8 個最先進的 RAG 系統,覆蓋了 10 個不同領域的數據集。

RAGChecker:顯著超越RAGAS,一個精細化評估和診斷 RAG 系統的創新框架-AI.x社區

通過分析結果,他們發現了一些關鍵洞見:

  • 檢索器的質量至關重要。無論使用何種生成器,更好的檢索器都能帶來一致的性能提升。例如,將 BM25 檢索器替換為 E5-Mistral 檢索器,在使用 GPT-4 作為生成器時,整體 F1 分數從 50.3 提高到 52.7 。
  • 生成器模型的規模越大,整體性能越好。這體現在更高的上下文利用率、更低的噪聲敏感度和更少的幻覺。以 Llama3 系列為例,70B 版本在各項指標上都優于 8B 版本。
  • 開源模型在區分準確信息和噪聲方面表現較差。它們傾向于過度信任上下文,特別是在檢索質量提高時。例如,Llama3-70B 的忠實度從 93.2%上升到 95.9%,而 GPT-4 僅從 87.9%上升到 92.9%。
  • 存在檢索召回和生成器噪聲敏感度之間的權衡。提高檢索召回率會不可避免地引入更多噪聲,從而增加生成器的噪聲敏感度。數據顯示,使用 E5-Mistral 檢索器時,聲明召回率從 74.0%提高到 83.5%,但相關噪聲敏感度也從 26.2%上升到 28.9%。

基于這些發現,研究者提出了幾點改進 RAG 系統的建議:

  • 優先提升檢索器性能,如使用更好的嵌入模型或適度增加檢索 chunk 數量和大小。實驗表明,將 chunk 大小從 150 增加到 300,可以將整體 F1 分數從 52.6 提高到 53.4 。
  • 在有限上下文長度的情況下,使用較少數量的大 chunks 優于較多數量的小 chunks 。這可以提高上下文精度,從而減少噪聲影響。
  • 針對不同的應用場景和用戶偏好,可以通過調整生成提示來平衡上下文利用率、噪聲敏感度和忠實度。例如,通過優化提示詞,可以將 GPT-4 的忠實度從 92.2%提高到 93.6%。
  • 對于開源模型,需要著重提升其推理能力,以更好地區分和利用上下文中的有用信息。這可能需要在訓練過程中引入更多的推理任務。

小結

RAGChecker 為全面評估和診斷 RAG 系統提供了一個強大而靈活的工具。通過揭示 RAG 系統中檢索和生成模塊的復雜交互,以及不同設計選擇帶來的影響,RAGChecker 不僅能幫助研究人員更好地理解和改進現有 RAG 系統,還為未來 RAG 系統的優化和創新指明了方向。

參考資料

[1]RAGChecker: https://github.com/amazon-science/RAGChecker

本文轉載自 ??AI工程化??,作者: ully


收藏
回復
舉報
回復
相關推薦
不卡一区在线观看| 国产欧美91| 日韩一级免费一区| 成年人午夜免费视频| 久久精品a一级国产免视看成人| 日韩电影在线一区二区| 久久精品中文字幕电影| 香港三日本8a三级少妇三级99| 日韩一区二区三区免费视频| 亚洲主播在线播放| 亚洲aⅴ天堂av在线电影软件| 国产成人精品无码高潮| 日日摸夜夜添夜夜添国产精品 | 黄网站免费在线播放| 国产成人免费视频精品含羞草妖精| 91po在线观看91精品国产性色| 黄色裸体一级片| 粉嫩久久久久久久极品| 欧美猛男男办公室激情| 人人妻人人添人人爽欧美一区| 国产秀色在线www免费观看| 久久综合久久综合九色| 国产aⅴ精品一区二区三区黄| 瑟瑟视频在线免费观看| 在线亚洲观看| 九九热精品视频国产| 日本污视频网站| 要久久爱电视剧全集完整观看| 欧美一二三区在线观看| 亚洲精品www.| 欧美日韩五区| 日本韩国欧美一区| 无码播放一区二区三区| wwww在线观看免费视频| 亚洲欧美色一区| 亚洲美女网站18| 黄色av网址在线免费观看| 99精品桃花视频在线观看| av成人在线电影| 99热这里只有精品9| 久久av资源网| 国产在线视频91| 中文字幕一二区| 日韩av在线免费观看不卡| 日本成人在线视频网址| 可以免费在线观看的av| 亚洲区一区二| 97久久超碰福利国产精品…| 日本中文字幕网| 一区在线免费观看| 午夜精品福利在线观看| 日韩精品国产一区二区| 亚洲高清在线| 96精品视频在线| 久久青青草原亚洲av无码麻豆| 国产欧美午夜| 欧洲一区二区视频| 日本视频www色| 免费在线视频一区| 成人黄在线观看| 国产三级小视频| 国产酒店精品激情| 国产精品制服诱惑| 欧洲天堂在线观看| 欧美国产1区2区| 吴梦梦av在线| www555久久| 福利微拍一区二区| 三级a在线观看| 91成人短视频在线观看| 日韩一区和二区| 亚洲国产综合视频| 香蕉精品久久| 在线亚洲欧美视频| 波多野结衣亚洲一区二区| 韩日视频一区| 欧美一区二区三区四区在线| 超碰在线免费97| 国产在线播放一区| 精品一区久久久久久| 国产私人尤物无码不卡| 亚洲毛片av在线| 91视频 -- 69xx| 成人久久网站| 日韩欧美国产精品| 一级片手机在线观看| 久久精品国产99久久| 欧美黑人一级爽快片淫片高清| 国产又色又爽又黄的| 免费成人av在线| 国产精品免费一区二区三区在线观看| 精品推荐蜜桃传媒| 亚洲人123区| 欧美色图另类小说| 91麻豆精品国产综合久久久| 亚洲精品久久久久| 国产精品18在线| 亚洲国产专区| 成人黄色免费网站在线观看| 肉丝一区二区| 亚洲人成人一区二区在线观看| 免费黄色福利视频| 日韩一区免费| 深夜精品寂寞黄网站在线观看| 久久99久久98精品免观看软件 | 欧美一级电影久久| 国产男女裸体做爰爽爽| 久久久99久久| 国产aaa免费视频| 四虎国产精品成人免费影视| 日韩精品高清视频| 久久久久久久久久久久久女过产乱| 亚洲国产婷婷| 999日本视频| 在线视频自拍| 日本道精品一区二区三区| 中文视频在线观看| 亚洲高清影视| 国产精品一区久久| 久久久久久青草| 午夜在线成人av| xxxxwww一片| 中文字幕乱码亚洲无线精品一区| 国产精品草莓在线免费观看| 无码国产精品一区二区免费16| 亚洲黄色免费网站| 中文国产在线观看| 日韩欧美精品| 国产精品久久久久不卡| 欧洲亚洲在线| 欧美日韩国产中文字幕 | 亚洲在线视频播放| 久久色.com| 国产真实乱子伦| 另类图片第一页| 78m国产成人精品视频| 亚洲国产精彩视频| 一区av在线播放| 4438x全国最大成人| 99久久综合狠狠综合久久aⅴ| 国产精品成人aaaaa网站| 亚洲人成色777777精品音频| 性做久久久久久| 人妻av一区二区| 黑人一区二区三区四区五区| 999在线免费观看视频| 亚洲电影视频在线| 日韩美女在线视频| 久久97人妻无码一区二区三区| 国产精品夜夜爽| 特级西西444| 成人爽a毛片| 97精品视频在线播放| 午夜视频福利在线| 欧美午夜久久久| 一级黄色性视频| 蜜桃精品在线观看| 在线免费一区| 亚洲大奶少妇| 久久免费视频在线观看| 亚洲欧洲国产综合| 欧美亚洲一区三区| 韩国一级黄色录像| 国v精品久久久网| 国产深夜男女无套内射| 综合亚洲自拍| 国产区亚洲区欧美区| 黄色视屏免费在线观看| 欧美videofree性高清杂交| 日本在线观看中文字幕| 久久久不卡网国产精品一区| 无限资源日本好片| 欧美成人精品| 欧美大香线蕉线伊人久久国产精品| 香蕉成人av| 久久中文字幕一区| 十八禁一区二区三区| 色偷偷久久人人79超碰人人澡| 91麻豆制片厂| 国产福利一区二区| 农村妇女精品一二区| 99久久精品费精品国产| 成人午夜电影在线播放| 性欧美hd调教| 欧美美女操人视频| 欧美日韩在线中文字幕| 欧美高清激情brazzers| 日韩伦人妻无码| 国产精品视频yy9299一区| 国产精品欧美性爱| 日韩av电影免费观看高清完整版| 18视频在线观看娇喘| 亚洲va久久久噜噜噜久久| 成人h视频在线| 色资源二区在线视频| 日韩小视频在线| 亚洲色偷精品一区二区三区| 欧美人妇做爰xxxⅹ性高电影| 欧美成人aaaaⅴ片在线看| 国产精品无圣光一区二区| 国产69视频在线观看| 美腿丝袜在线亚洲一区| 97超碰青青草| 国内综合精品午夜久久资源| 色之综合天天综合色天天棕色| a级日韩大片| 国产在线98福利播放视频| 最新中文字幕在线播放| 蜜臀久久99精品久久久无需会员| 国产精品天堂| 亚洲国产私拍精品国模在线观看| av手机免费看| 欧美色区777第一页| 国产精品视频123| 亚洲在线免费播放| 91麻豆免费视频网站| 国产日韩精品一区| 国产精品成人无码专区| 国产不卡视频在线播放| 超碰人人草人人| 日本亚洲三级在线| 免费观看精品视频| 国产欧美一区二区色老头 | 日韩视频在线你懂得| 中文天堂在线播放| 色久综合一二码| 五月婷婷视频在线| 亚洲高清免费视频| 久草国产在线视频| 亚洲精品视频在线观看网站| 日本 欧美 国产| 国产欧美一区二区三区沐欲| 性久久久久久久久久| 91影院在线观看| 欧美双性人妖o0| 成人高清视频在线观看| 农村末发育av片一区二区| 国产福利一区二区| 少妇性l交大片7724com| 国产精品99久久久久久似苏梦涵 | 97超碰国产在线| 欧美日韩亚洲综合在线 欧美亚洲特黄一级| 欧美日韩综合在线观看| 精品久久久久久中文字幕一区奶水| 天堂资源在线播放| 亚洲超碰精品一区二区| 久久夜色精品亚洲| 欧美日韩亚洲高清| 久草视频一区二区| 91久久精品一区二区三区| 欧美性猛交xxxx乱大交hd| 91国偷自产一区二区开放时间| 亚洲av无码不卡| 欧洲日韩一区二区三区| 伊人影院中文字幕| 91精品国产91久久久久久一区二区 | 欧美日本不卡| 成年人网站国产| 99热免费精品| 亚洲成人av免费看| 久久99九九99精品| 亚洲欧洲日韩综合| 久久夜色精品一区| 日本裸体美女视频| 亚洲欧洲制服丝袜| 日韩 欧美 亚洲| 91久久人澡人人添人人爽欧美| 怡春院在线视频| 日韩午夜激情免费电影| 天堂在线视频免费观看| 亚洲视频第一页| 粗大黑人巨茎大战欧美成人| 欧美第一页在线| 欧美大片免费| 147欧美人体大胆444| 欧美电影在线观看免费| 天天久久人人| 伊人久久亚洲影院| 日本va中文字幕| 国产99久久久国产精品潘金| 在线免费观看黄色小视频| 中文字幕一区免费在线观看| 妺妺窝人体色www婷婷| 欧美视频精品一区| 国产乱色精品成人免费视频 | 国产cdts系列另类在线观看| 久久久久久久久国产| 素人啪啪色综合| 懂色一区二区三区av片| 精品国产乱码久久久久久果冻传媒 | 91精品视频免费观看| 福利片在线一区二区| 性刺激综合网| 亚洲精品日韩久久| 男生操女生视频在线观看| 久久婷婷色综合| 久久国产精品波多野结衣| 在线免费av一区| 蜜桃91麻豆精品一二三区| 中文字幕在线国产精品| heyzo一区| 成人天堂噜噜噜| 少妇精品久久久| 僵尸世界大战2 在线播放| 久久成人免费网| 亚洲天堂视频一区| 艳妇臀荡乳欲伦亚洲一区| 中文字幕人妻互换av久久| 日韩精品一二三四区| 羞羞视频在线观看免费| 国产欧美日韩丝袜精品一区| 婷婷激情久久| 精品无码一区二区三区爱欲| 蜜乳av一区二区| 久久久久久久久久久久| 精品福利免费观看| 性生活视频软件| 久久夜色精品国产亚洲aⅴ| 国产精品亚洲一区二区三区在线观看| 国产日韩欧美二区| 在线观看国产精品入口| av噜噜在线观看| 中文字幕欧美一区| 亚洲一级特黄毛片| 亚洲天堂av高清| 国产精欧美一区二区三区蓝颜男同| 国产成人精品日本亚洲11 | 亚洲av无码国产精品久久不卡| 日韩中文字幕在线| 成人综合网站| 亚洲精品在线视频观看| 日产国产高清一区二区三区| 成人午夜福利一区二区| 色菇凉天天综合网| 国产区高清在线| 国产精品高潮呻吟视频| 韩日一区二区三区| 成人午夜视频免费在线观看| 久久久噜噜噜久噜久久综合| 五月天婷婷久久| 亚洲视频在线观看视频| 精品日韩视频| 亚洲欧洲久久| 国产在线国偷精品产拍免费yy| 懂色av懂色av粉嫩av| 日韩欧美视频一区| 黑人精品视频| 国内精品久久久久久久果冻传媒| 99视频在线精品国自产拍免费观看| 日韩av无码一区二区三区不卡| 亚洲第一精品在线| 网站黄在线观看| 日韩av电影院| 日韩欧美综合| 黄色三级视频在线播放| 亚洲最大成人综合| 天天干免费视频| 国产成人精品最新| 日韩一级毛片| ass极品水嫩小美女ass| 亚洲成人第一页| 国产日本在线| 91青草视频久久| 亚洲精品社区| 最新中文字幕av| 91精品久久久久久久久99蜜臂| 欧美草逼视频| 欧美视频小说| 国产一区二区在线视频| 精品视频久久久久| 亚洲欧美日韩视频一区| 在线播放成人| 熟女少妇在线视频播放| 国产精品理论在线观看| 精品久久人妻av中文字幕| 欧美诱惑福利视频| 99久久99久久精品国产片桃花 | 欧美人与动xxxxz0oz| 激情内射人妻1区2区3区| 亚洲色图欧洲色图婷婷| 天天舔天天干天天操| 成人黄色免费网站在线观看| 日韩网站在线| 黄色裸体一级片| 国产视频精品免费播放| 国产精品一区二区三区av | 成人国产在线观看| 久久久免费高清视频| 久久中文字幕视频| 精品日韩欧美一区| 无码人妻丰满熟妇啪啪网站| 一本色道久久综合精品竹菊| av中文字幕在线播放| 日本高清不卡三区| 国产东北露脸精品视频| 国产精品sm调教免费专区| 国内揄拍国内精品| 香蕉国产精品| 五月天精品视频| 亚洲成在人线av|