精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

給RAG系統做一次全面「體檢」,亞馬遜開源RAGChecker診斷工具

人工智能 新聞
近日,亞馬遜上海人工智能研究院推出了一款名為 RAGChecker 的診斷工具為 RAG 系統提供細粒度、全面、可靠的診斷報告,并為進一步提升性能,提供可操作的方向。

亞馬遜上海人工智能研究院成立于 2018 年,已成為深度學習研究領域的領先機構之一,共發表了~90 篇論文。研究領域包括深度學習的基礎理論、自然語言處理、計算機視覺、圖機器學習、高性能計算、智能推薦系統、欺詐檢測與風險控制、知識圖譜構建以及智能決策系統等。研究院率先研究和開發了世界領先的深度圖學習庫 Deep Graph Library (DGL),結合了深度學習和圖結構表示的優勢,影響許多重要應用領域。

檢索增強生成(Retrieval-Augmented Generation, RAG)技術正在徹底革新 AI 應用領域,通過將外部知識庫和 LLM 內部知識的無縫整合,大幅提升了 AI 系統的準確性和可靠性。然而,隨著 RAG 系統在各行各業的廣泛部署,其評估和優化面臨著重大挑戰。現有的評估方法,無論是傳統的端到端指標還是針對單一模塊的評估,都難以全面反映 RAG 系統的復雜性和實際表現。特別是,它們只能提供一個最終打分報告,僅反映 RAG 系統的性能優劣。

人生病了需要去醫院做檢查,那 RAG 系統生病了,如何診斷呢?

近日,亞馬遜上海人工智能研究院推出了一款名為 RAGChecker 的診斷工具為 RAG 系統提供細粒度、全面、可靠的診斷報告,并為進一步提升性能,提供可操作的方向。本文詳細介紹了這個 RAG 的 “顯微鏡”,看看它如何幫助開發者們打造更智能、更可靠的 RAG 系統。

圖片

  • 論文:https://arxiv.org/pdf/2408.08067
  • 項目地址:https://github.com/amazon-science/RAGChecker

RAGChecker: RAG 系統的全面診斷工具

想象一下,如果我們能對 RAG 系統進行一次全面的 “體檢”,會是什么樣子?RAGChecker 就是為此而生的。它不僅能評估系統的整體表現,還能深入分析檢索和生成兩大核心模塊的性能。

圖片

RAGChecker 的主要特點包括:

  1. 細粒度評估:RAGChecker 采用基于聲明(claim)級別的蘊含關系檢查,而非簡單的回復級別評估。這種方法能夠對系統性能進行更加詳細和微妙的分析,提供深入的洞察。
  2. 全面的指標體系:該框架提供了一套涵蓋 RAG 系統各個方面性能的指標,包括忠實度(faithfulness)、上下文利用率(context utilization)、噪聲敏感度(noise sensitivity)和幻覺(hallucination)等。
  3. 經過驗證的有效性:可靠性測試表明,RAGChecker 的評估結果與人類判斷有很強的相關性,其表現超過了其他現有的評估指標。這保證了評估結果的可信度和實用性。
  4. 可操作的洞察:RAGChecker 提供的診斷指標為改進 RAG 系統提供了明確的方向指導。這些洞察能夠幫助研究人員和實踐者開發出更加有效和可靠的 AI 應用。

RAGChecker 的核心指標

RAGChecker 的指標體系可以用下圖直觀的理解:

這些指標被分為三大類:

1. 整體指標: 

  • Precision(精確率):模型回答中正確陳述的比例
  • Recall(召回率):模型回答中包含的標準答案中陳述的比例
  • F1 score(F1 分數):精確率和召回率的調和平均數,提供平衡的性能度量

2. 檢索模塊指標: 

  • Context Precision(上下文精確率):在所有檢索塊中,包含至少一個標準答案陳述的塊的比例
  • Claim Recall(陳述召回率):被檢索塊覆蓋的標準答案陳述的比例

3. 生成模塊指標: 

  • Context Utilization(上下文利用率):評估生成模塊如何有效利用從檢索塊中獲取的相關信息來產生正確的陳述。這個指標反映了系統對檢索到的信息的利用效率。
  • Noise Sensitivity(噪音敏感度):衡量生成模塊在回答中包含來自檢索塊的錯誤信息的傾向。這個指標幫助識別系統對不相關或錯誤信息的敏感程度。
  • Hallucination(幻覺):測量模型生成既不存在于檢索塊也不在標準答案中的信息的頻率。這就像是捕捉模型 “憑空捏造” 信息的情況,是評估模型可靠性的重要指標。
  • Self-knowledge(模型內部知識):評估模型在未從檢索塊獲得信息的情況下,正確回答問題的頻率。這反映了模型在需要時利用自身內置知識的能力。
  • Faithfulness(忠實度):衡量生成模塊的響應與檢索塊提供的信息的一致程度。這個指標反映了系統對給定信息的依從性。

這些指標就像是 RAG 系統的 “體檢報告”,幫助開發者全面了解系統的健康狀況,并找出需要改進的地方。

開始使用 RAGChecker

對于想要嘗試 RAGChecker 的開發者來說,上手過程非常簡單。以下是快速入門的步驟:

1. 環境設置:首先,安裝 RAGChecker 及其依賴:

pip install ragchecker
python -m spacy download en_core_web_sm

2. 準備數據:將 RAG 系統的輸出準備成特定的 JSON 格式,包括查詢、標準答案、模型回答和檢索的上下文。數據格式應如下所示:

{
     "results": [
       {
         "query_id": "< 查詢 ID>",
         "query": "< 輸入查詢 >",
         "gt_answer": "< 標準答案 >",
         "response": "<RAG 系統生成的回答 >",
         "retrieved_context": [
           {
             "doc_id": "< 文檔 ID>",
             "text": "< 檢索塊的內容 >"
           },
           ...
         ]
       },
       ...
     ]
   }

3. 運行評估:

  • 使用命令行:
ragchecker-cli \
    --input_path=examples/checking_inputs.json \
    --output_path=examples/checking_outputs.json
  • 或者使用 Python 代碼:
from ragchecker import RAGResults, RAGChecker
from ragchecker.metrics import all_metrics

# 從 JSON 初始化 RAGResults
with open ("examples/checking_inputs.json") as fp:
    rag_results = RAGResults.from_json (fp.read ())

# 設置評估器
evaluator = RAGChecker ()

# 評估結果
evaluator.evaluate (rag_results, all_metrics)
print (rag_results)

4. 分析結果:RAGChecker 會輸出 json 格式的文件來展示評估指標,幫助你了解 RAG 系統的各個方面表現。

輸出結果的格式如下:

圖片

通過分析這些指標,開發者可以針對性地優化 RAG 系統的各個方面。例如:

  • 較低的 Claim Recall(陳述召回率)可能表明需要改進檢索策略。這意味著系統可能沒有檢索到足夠多的相關信息,需要優化檢索算法或擴展知識庫。
  • 較高的 Noise Sensitivity(噪音敏感度)表明生成模塊需要提升其推理能力,以便更好地從檢索到的上下文中區分相關信息和不相關或錯誤的細節。這可能需要改進模型的訓練方法或增強其對上下文的理解能力。
  • 高 Hallucination(幻覺)分數可能指出需要更好地將生成模塊與檢索到的上下文結合。這可能涉及改進模型對檢索信息的利用方式,或增強其對事實的忠實度。
  • Context Utilization(上下文利用率)和 Self-knowledge(模型內部知識)之間的平衡可以幫助你優化檢索信息利用和模型固有知識之間的權衡。這可能涉及調整模型對檢索信息的依賴程度,或改進其綜合利用多種信息源的能力。

通過這種方式,RAGChecker 不僅提供了詳細的性能評估,還為 RAG 系統的具體優化方向提供了清晰的指導。

在 LlamaIndex 中使用 RAGChecker

RAGChecker 現在已經與 LlamaIndex 集成,為使用 LlamaIndex 構建的 RAG 應用提供了強大的評估工具。如果你想了解如何在 LlamaIndex 項目中使用 RAGChecker,可以參考 LlamaIndex 文檔中關于 RAGChecker 集成的部分。

結語

RAGChecker 的推出為 RAG 系統的評估和優化提供了一個新的工具。它為開發者提供了一把 “顯微鏡”,幫助他們深入了解、精準優化 RAG 系統。無論你是正在研究 RAG 技術的學者,還是致力于開發更智能 AI 應用的工程師,RAGChecker 都將是你不可或缺的得力助手。讀者可以訪問 https://github.com/amazon-science/RAGChecker 獲取更多信息或參與到項目的開發中來。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2017-03-22 15:38:28

代碼架構Java

2022-06-21 09:26:28

開源項目PR

2023-04-11 08:01:31

MongoDB數據工具

2017-12-12 16:17:55

微服務系統運維

2014-05-19 10:16:56

WinJS開源TypeScript

2020-03-19 15:32:47

手機消毒病毒

2021-02-25 15:54:41

微軟開源Error Analy

2024-07-31 14:07:00

RAGSQL技術

2025-07-22 01:55:00

2020-08-19 11:02:39

系統ssh登錄

2017-06-12 11:09:56

計數架構數據庫

2017-09-08 15:34:01

2011-06-28 10:41:50

DBA

2019-09-12 09:40:34

秒殺系統高并發

2023-06-07 07:31:04

PC端app脫殼技巧

2020-10-24 13:50:59

Python編程語言

2021-12-27 10:08:16

Python編程語言

2019-08-02 14:45:22

阿里Java命令

2025-04-30 08:31:40

2013-08-19 09:53:01

系統監控lsof 監控工具
點贊
收藏

51CTO技術棧公眾號

少妇人妻丰满做爰xxx| 68精品久久久久久欧美| 欧美日韩亚洲国产成人| 国产伦精品一区二区三区免.费| 一区二区蜜桃| 亚洲国产精品视频在线观看| 欧美丰满熟妇bbbbbb百度| 男生女生差差差的视频在线观看| 日本欧美久久久久免费播放网| 久久久精品国产亚洲| 青青草视频播放| 97欧美成人| 亚洲国产综合人成综合网站| 五月天国产一区| 亚洲精品久久久久久久久久| 91综合久久一区二区| 日韩一区二区三区免费观看| 亚洲一区三区视频在线观看| www.桃色av嫩草.com| 久久在线精品| 亚洲美女在线观看| 在线免费看v片| 黄色成人免费网| 亚洲精品视频在线观看网站| 欧美成熟毛茸茸复古| 国产精品乱码一区二区| 久久精品系列| 久久久亚洲欧洲日产国码aⅴ| www.com.av| 国产精品欧美日韩一区| 精品国产乱码久久| 九九九九九九九九| 久久精品女人天堂av免费观看| 一个色在线综合| 中文字幕中文字幕在线中心一区| 国内在线免费高清视频| 日韩电影在线一区| 午夜精品视频在线| 高h视频免费观看| 欧美经典影片视频网站| 欧美性大战久久| 久久久久久久中文| 91九色在线看| 一区二区三区国产| 中国一级黄色录像| 成人动漫在线免费观看| 久久久精品中文字幕麻豆发布| 国产一区二区三区av在线| 午夜精品一二三区| 国产激情视频一区二区三区欧美| 国产日本欧美一区| 波多野结衣一区二区在线| 日本一区二区高清不卡| 亚洲欧美日韩中文视频| 中文字幕在线免费看线人| 九九热hot精品视频在线播放| 欧美成人在线直播| 色婷婷狠狠18禁久久| 国产调教在线| 精品成人乱色一区二区| 精品这里只有精品| 日韩激情电影免费看| 午夜久久久久久久久久一区二区| 日本黄大片在线观看| 日韩另类在线| 五月激情综合婷婷| 波多野结衣家庭教师视频| 欧美黑人一区| 欧美日韩一区二区不卡| 激情五月婷婷六月| hd国产人妖ts另类视频| 精品国产91久久久久久| 激情综合网婷婷| 久久夜夜操妹子| 欧美午夜精品一区二区三区| 亚洲精品久久久中文字幕| 伊人久久综合网另类网站| 91精品国产欧美一区二区18| 在线观看你懂的视频| 99这里只有精品视频| 亚洲激情久久久| japanese中文字幕| 久久要要av| 久久99国产精品自在自在app| 中文字幕一区二区三区手机版| 亚洲综合日韩| 国产精品午夜国产小视频| 99久久精品无免国产免费| 成人丝袜视频网| 欧美日韩精品免费在线观看视频| 最近高清中文在线字幕在线观看| 亚洲日本中文字幕区| 欧美亚洲日本一区二区三区| 日韩视频网站在线观看| 激情成人中文字幕| 少妇性饥渴无码a区免费| 日本成人在线网站| 精品99一区二区三区| 久久国产精品无码一级毛片| 成人在线丰满少妇av| 色与欲影视天天看综合网| 免费看毛片网站| 国产美女一区二区三区| 久久久久久欧美精品色一二三四| 欧美日韩在线看片| 午夜视频一区二区| 中文av一区二区三区| 国产精品对白| 久久久国产影院| 无码人妻av一区二区三区波多野| 国产在线精品一区二区三区不卡 | 日本美女久久| 日韩三级中文字幕| 人妻精品久久久久中文| 亚洲视频一区| 91精品久久久久久久| 亚洲人在线观看视频| 韩国成人精品a∨在线观看| 国产精品对白刺激| 丰满少妇在线观看bd| 亚洲国产精品精华液2区45| 九九爱精品视频| 精品中文视频| 最近2019中文字幕一页二页| 好吊妞视频一区二区三区| 99精品久久| 55夜色66夜色国产精品视频| 国产wwwwwww| 国产精品美女久久久久久久久| 亚洲熟妇国产熟妇肥婆| 日韩欧美中文字幕一区二区三区 | 成人在线视频网址| 免费的黄网站在线观看| 欧美图片一区二区三区| 91成人破解版| 久久资源在线| 欧美精品人人做人人爱视频| 97人澡人人添人人爽欧美| 日韩欧美专区在线| 老熟妇高潮一区二区三区| 另类欧美日韩国产在线| 成人xxxx视频| 九色视频网站在线观看| 欧美日韩精品国产| 偷偷色噜狠狠狠狠的777米奇| 欧美日本一区二区视频在线观看| 91老司机在线| 激情在线小视频| 欧美日韩一级视频| 久草手机视频在线观看| 男人的天堂久久精品| 色综合久久av| 91欧美精品| 综合久久五月天| 一级淫片免费看| 日韩美女精品在线| 国产传媒免费观看| 自拍偷拍欧美专区| 99热最新在线| 国产青青草在线| 在线视频你懂得一区| 成人精品999| 日韩精品一二区| 午夜一区二区三区| 99久久99九九99九九九| 免费不卡在线观看av| 国偷自拍第113页| 99re这里都是精品| 欧美极品欧美精品欧美图片| 国产成人手机高清在线观看网站| 日韩免费精品视频| 搞黄视频在线观看| 欧美日韩1234| 男人与禽猛交狂配| 成年人网站91| 国产真人无码作爱视频免费| 日本一二区不卡| 69174成人网| а√在线中文在线新版| 亚洲人成在线观看| 97视频免费在线| 亚洲成a人片在线不卡一二三区| 黄色录像a级片| 免费欧美日韩国产三级电影| 中文字幕av久久| 欧美日韩导航| 国产在线播放91| 福利在线导航136| 国产亚洲精品美女久久久久| 国产精品区在线观看| 亚洲va欧美va人人爽午夜| 国产精久久一区二区三区| 激情综合色丁香一区二区| 亚洲 欧美 日韩 国产综合 在线 | 成人aa视频在线观看| 黄色一级免费大片| 欧美在线亚洲| 欧美在线播放一区二区| 手机av免费在线| 亚洲欧美一区二区三区久久| 91成品人影院| 岛国av一区二区三区| 日本精品在线免费观看| 97久久精品人人做人人爽 | 国产精成人品2018| 久久久久久亚洲精品| av网站在线免费播放| 亚洲第一中文字幕在线观看| 亚洲一区中文字幕永久在线| 欧美日韩亚洲高清| www欧美com| 国产欧美综合在线| 大尺度做爰床戏呻吟舒畅| 麻豆高清免费国产一区| 国产综合免费视频| 亚洲黄色高清| 亚洲精品天堂成人片av在线播放| 欧美久久综合网| 精品国产乱码久久久久久郑州公司 | 精品美女视频| 精品国产日本| 91亚洲精品视频在线观看| 91精品久久久久久久| 国产一区二区三区朝在线观看| 国模精品一区二区三区色天香| 户外极限露出调教在线视频| 日韩精品中文字幕在线观看| www视频在线| 51精品久久久久久久蜜臀| 国产熟妇一区二区三区四区| 婷婷开心久久网| 国产亚洲精品成人| 亚洲免费观看高清| 国产精品精品软件男同| 国产精品久久久久影院色老大| 大又大又粗又硬又爽少妇毛片| 99这里只有精品| 中文字幕天堂网| 在线亚洲精品| 日韩精品一区在线视频| 午夜精品国产| 喜爱夜蒲2在线| 欧美激情视频一区二区三区在线播放| 亚洲高清在线播放| 欧美一区二区三| 日韩欧美一区二区在线观看| 国产麻豆精品久久| 日本电影一区二区三区| 国产亚洲一区二区三区不卡| 欧美高清性xxxxhdvideosex| 亚洲精品推荐| 欧美不卡三区| 欧美久久综合网| 在线观看日韩片| 911精品美国片911久久久| 国产精品手机视频| 国产成人精品亚洲线观看| 成人欧美一区二区三区在线观看| 一级毛片精品毛片| 成人免费观看网站| 精品按摩偷拍| 欧美激情www| 青青草91久久久久久久久| 亚洲激情电影在线| 国产精品久久久久无码av| 潘金莲一级淫片aaaaaa播放1| 国产一区欧美| 99精品在线免费视频| 日韩福利视频网| 国产无遮挡猛进猛出免费软件| 国产综合一区二区| 亚洲成年人在线观看| 99免费精品在线观看| 成年人免费观看视频网站| 国产精品久线观看视频| 精品人妻伦九区久久aaa片| 亚洲一区在线看| 精品人妻一区二区色欲产成人| 欧美写真视频网站| 国产特级黄色片| 亚洲黄页网在线观看| а天堂8中文最新版在线官网| 美女国内精品自产拍在线播放| 丁香影院在线| 国产精品高潮在线| 精品中文字幕一区二区三区| 久久综合九九| 国产精品成人一区二区不卡| www.日本少妇| 青草国产精品久久久久久| 无码人妻一区二区三区一| 久久久久国产精品麻豆ai换脸| 黄色香蕉视频在线观看| 亚洲国产日产av| 久久久久久av无码免费看大片| 日韩午夜在线播放| 久久av少妇| 欧美国产视频日韩| 污污的网站在线免费观看| 97超级碰碰人国产在线观看| 祥仔av免费一区二区三区四区| 精品国产_亚洲人成在线| 亚洲a在线视频| 日本黄网站免费| 丰满放荡岳乱妇91ww| 国产日韩精品中文字无码| 香蕉成人啪国产精品视频综合网| 亚洲熟妇av乱码在线观看| 亚洲黄色在线观看| 九色porny在线| 国产精品久久久久久久久久免费| 粉嫩精品导航导航| 免费在线观看污污视频| 丝袜美腿亚洲一区二区图片| 人妻换人妻a片爽麻豆| 中文字幕一区二区不卡| 国产性生活视频| 亚洲福利视频久久| 八戒八戒神马在线电影| 国产成人欧美在线观看| 欧美美女啪啪| 69精品丰满人妻无码视频a片| 蜜桃av噜噜一区二区三区小说| 人妻无码一区二区三区| 亚洲第一在线综合网站| 国产深喉视频一区二区| 色噜噜久久综合伊人一本| 欧美精品日日操| 久久久精品有限公司| 1024成人| 国产精品入口麻豆| 亚洲一区二区三区在线| 国产哺乳奶水91在线播放| 日韩在线视频免费观看高清中文 | 中文在线日韩| 国产亚洲视频一区| 国产精品久久久久四虎| 最新中文字幕第一页| 一区二区在线免费视频| 日韩精品毛片| 国产免费一区二区三区在线观看 | 这里只有精品在线观看| 玛雅亚洲电影| 欧美少妇一区| 日韩专区一卡二卡| 久久久久亚洲av无码a片| 色999日韩国产欧美一区二区| 你懂的免费在线观看| 日韩免费在线播放| 精品国产aⅴ| 亚洲老女人av| 国产精品自在在线| free性中国hd国语露脸| 欧美日韩国产在线看| 色视频在线观看| 欧日韩在线观看| 国产精品一国产精品| 高清一区二区视频| 亚洲国产精华液网站w| 亚洲综合免费视频| 久热精品视频在线观看一区| 综合激情久久| 国内精品在线观看视频| 久久婷婷国产综合精品青草 | missav|免费高清av在线看| 国产综合欧美在线看| 日韩精品每日更新| 美国精品一区二区| 日韩一区二区三区四区 | 亚洲午夜一二三区视频| 天堂在线观看免费视频| 日本国产一区二区三区| 色婷婷色综合| 少妇熟女视频一区二区三区| 天天影视涩香欲综合网| 韩国中文免费在线视频| 91日本在线视频| 亚洲美女黄网| 日本高清黄色片| 日韩精品一区二区在线| 欧美日韩大片| aaa免费在线观看| 91视频www| 国产精品视频第一页| 国内精品久久久久久久久| 精品国产成人| 亚洲av无码久久精品色欲| 色婷婷综合视频在线观看| 久久久久久久久免费视频| 好吊色欧美一区二区三区视频| 秋霞电影一区二区| 国产亚洲欧美精品久久久久久| 亚洲人成电影网站色…| 精品午夜视频| 国产第一页视频| 亚洲一区在线观看免费 | 一区二区三区av电影| 欧美zozo| 高清日韩一区| 免费精品视频在线|