精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估 原創(chuàng)

發(fā)布于 2025-10-22 09:54
瀏覽
0收藏

大家好,我是玄姐。

一、引言

Agentic AI 的評(píng)估,核心是測(cè)試你的大語(yǔ)言模型(LLM)應(yīng)用,確保其性能穩(wěn)定。

LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

這個(gè)話題或許不算最吸引人,但越來(lái)越多企業(yè)開始關(guān)注它。所以,搞清楚該跟蹤哪些指標(biāo)來(lái)實(shí)際衡量性能,很有必要。

另外,每次推送代碼更新時(shí),做好評(píng)估也能防止系統(tǒng)出問(wèn)題。

因此,本文研究了多輪對(duì)話機(jī)器人、檢索增強(qiáng)生成(RAG)和智能體(Agentic)應(yīng)用的常見評(píng)估指標(biāo),還簡(jiǎn)要介紹了 DeepEval、RAGAS 和 OpenAI 的 Evals 庫(kù)等框架,幫你明確不同場(chǎng)景下該選哪個(gè)工具。

LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

二、傳統(tǒng)評(píng)估方式(基礎(chǔ)入門)

如果你熟悉自然語(yǔ)言處理(NLP)任務(wù)的評(píng)估方法,也了解公開基準(zhǔn)測(cè)試的原理,可直接跳過(guò)這部分。

要是不熟悉,建議先了解準(zhǔn)確率(Accuracy)、BLEU 等早期指標(biāo)的用途和原理,以及 MMLU 這類公開基準(zhǔn)測(cè)試的流程。

2.1 自然語(yǔ)言處理任務(wù)的評(píng)估

評(píng)估文本分類、翻譯、摘要等傳統(tǒng) NLP 任務(wù)時(shí),我們會(huì)用到準(zhǔn)確率、精確率(Precision)、F1 分?jǐn)?shù)、BLEU 和 ROUGE 等傳統(tǒng)指標(biāo)。

LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

這些指標(biāo)至今仍在使用,但主要適用于模型輸出單一、易對(duì)比的 “正確答案” 的場(chǎng)景。

  • 以文本分類為例,任務(wù)是給每個(gè)文本分配一個(gè)標(biāo)簽。此時(shí)可通過(guò)準(zhǔn)確率評(píng)估 —— 將模型分配的標(biāo)簽與評(píng)估數(shù)據(jù)集中的參考標(biāo)簽對(duì)比,判斷是否正確。

     a.評(píng)判標(biāo)準(zhǔn)很明確:標(biāo)簽錯(cuò)誤得 0 分,正確得 1 分。

     b.比如,用 1000 封郵件的垃圾郵件數(shù)據(jù)集訓(xùn)練分類器,若模型正確標(biāo)記了 910 封,準(zhǔn)確率就是 0.91。

     c.文本分類中,我們還常使用 F1 分?jǐn)?shù)、精確率和召回率(Recall)。

  • 對(duì)于文本摘要、機(jī)器翻譯這類 NLP 任務(wù),人們常用 ROUGE 和 BLEU 指標(biāo),判斷模型生成的譯文或摘要與參考文本的吻合度。
  • 這兩個(gè)指標(biāo)都會(huì)統(tǒng)計(jì)重疊的 n 元語(yǔ)法(n-grams),雖對(duì)比方向不同,但核心邏輯一致:共享的詞語(yǔ)片段越多,分?jǐn)?shù)越高。
  • 不過(guò)這種評(píng)估方式比較簡(jiǎn)單 —— 若模型輸出用了不同措辭,分?jǐn)?shù)就會(huì)偏低。

總體而言,這些傳統(tǒng)指標(biāo)在 “答案唯一” 的場(chǎng)景下效果最好,但對(duì)于如今我們搭建的 LLM 應(yīng)用,大多不太適用。

2.2 大語(yǔ)言模型基準(zhǔn)測(cè)試

關(guān)注行業(yè)動(dòng)態(tài)的話,你可能會(huì)發(fā)現(xiàn):每次有新的大語(yǔ)言模型發(fā)布,都會(huì)進(jìn)行 MMLU Pro、GPQA 或 Big-Bench 等基準(zhǔn)測(cè)試。

LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

這些屬于通用評(píng)估,正確叫法是 “基準(zhǔn)測(cè)試(Benchmark)”,而非我們后續(xù)會(huì)講的 “評(píng)估(Evals)”。

盡管每個(gè)模型還會(huì)接受毒性、幻覺(jué)、偏見等方面的評(píng)估,但最受關(guān)注的還是類似 “考試” 或 “排行榜” 的基準(zhǔn)測(cè)試。

  • MMLU 等數(shù)據(jù)集以選擇題為主,出現(xiàn)已有一段時(shí)間。我曾瀏覽過(guò)該數(shù)據(jù)集,發(fā)現(xiàn)其中存在不少混亂之處。

     a.有些問(wèn)題和答案模糊不清,這讓我猜測(cè):LLM 提供商可能會(huì)針對(duì)這些數(shù)據(jù)集訓(xùn)練模型,確保模型能答對(duì)題目。

     b.這也引發(fā)了公眾的擔(dān)憂:大多數(shù) LLM 在基準(zhǔn)測(cè)試中表現(xiàn)優(yōu)異,可能只是過(guò)擬合導(dǎo)致;因此,我們需要更新的數(shù)據(jù)集和獨(dú)立的評(píng)估方式。

2.3 大語(yǔ)言模型評(píng)分器(LLM-as-a-judge)

評(píng)估這些數(shù)據(jù)集時(shí),通??梢杂脺?zhǔn)確率和單元測(cè)試。但現(xiàn)在有個(gè)新變化 —— 出現(xiàn)了 “大語(yǔ)言模型評(píng)分器(LLM-as-a-judge)”。

  • 基準(zhǔn)測(cè)試模型時(shí),團(tuán)隊(duì)大多仍用傳統(tǒng)方法。只要是選擇題或答案唯一的場(chǎng)景,無(wú)需其他操作,只需將模型答案與參考答案對(duì)比,判斷是否完全匹配即可。
  • LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

     a.MMLU、GPQA 等含選擇題答案的數(shù)據(jù)集,就屬于這種情況。

     b.對(duì)于代碼測(cè)試(如 HumanEval、SWE-Bench),評(píng)分器只需運(yùn)行模型生成的補(bǔ)丁或函數(shù):所有測(cè)試通過(guò),即視為問(wèn)題解決;反之則未解決。

但可想而知,若問(wèn)題模糊或?qū)儆陂_放式問(wèn)題,答案就可能不穩(wěn)定。這種漏洞催生了 “LLM-as-a-judge”—— 用 GPT-4 這類大語(yǔ)言模型對(duì)答案打分。

LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

  • MT-Bench 是采用 LLM 作為評(píng)分器的基準(zhǔn)測(cè)試之一:它將兩個(gè)競(jìng)爭(zhēng)的多輪對(duì)話答案輸入 GPT-4,讓其判斷哪個(gè)更好。
  • 原本依賴人工評(píng)分的 “聊天機(jī)器人競(jìng)技場(chǎng)(Chatbot Arena)”,如今似乎也通過(guò)引入 LLM-as-a-judge 來(lái)擴(kuò)大規(guī)模。

為保證透明度,也可使用 BERTScore 等語(yǔ)義評(píng)估工具,對(duì)比語(yǔ)義相似度。為簡(jiǎn)潔起見,這里就不詳細(xì)展開現(xiàn)有工具了。

綜上,團(tuán)隊(duì)可能仍會(huì)用 BLEU、ROUGE 等重疊指標(biāo)進(jìn)行快速合理性檢查,或在可能的情況下依賴完全匹配解析,但如今的新趨勢(shì)是用另一個(gè)大語(yǔ)言模型來(lái)評(píng)判輸出結(jié)果。

三、大語(yǔ)言模型應(yīng)用的評(píng)估方法

現(xiàn)在的核心變化是:我們不再只測(cè)試 LLM 本身,而是測(cè)試整個(gè)系統(tǒng)。

LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

只要條件允許,我們?nèi)詴?huì)像以前一樣用程序化方法評(píng)估。

對(duì)于更細(xì)微的輸出,我們可以先通過(guò) BLEU、ROUGE 這類低成本、確定性的指標(biāo)查看 n 元語(yǔ)法重疊情況,但如今大多數(shù)現(xiàn)代框架都會(huì)用 LLM 評(píng)分器進(jìn)行評(píng)估。

有三個(gè)領(lǐng)域值得探討:多輪對(duì)話、RAG 和智能體(Agent)的評(píng)估方法及相關(guān)指標(biāo)。

你可以看到,這三個(gè)領(lǐng)域已定義的指標(biāo)數(shù)量非常多。

LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

接下來(lái),我們先簡(jiǎn)要介紹這些指標(biāo),再講解能提供幫助的各類框架。

3.1 多輪對(duì)話評(píng)估

首先要講的是多輪對(duì)話(常見于聊天機(jī)器人)的評(píng)估搭建方法。

我們與聊天機(jī)器人互動(dòng)時(shí),希望對(duì)話自然、專業(yè),機(jī)器人能記住關(guān)鍵信息,全程不偏離主題,且能準(zhǔn)確回答問(wèn)題。

目前有不少常用指標(biāo)可跟蹤,首先來(lái)看 “相關(guān)性 / 連貫性(Relevancy/Coherence)” 和 “完整性(Completeness)”。

  • 相關(guān)性:用于跟蹤 LLM 是否恰當(dāng)回應(yīng)用戶查詢、不偏離主題;
  • 完整性:若最終結(jié)果能滿足用戶需求,則該指標(biāo)得分高。
  • LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

也就是說(shuō),只要能跟蹤整個(gè)對(duì)話過(guò)程中的用戶滿意度,我們就能進(jìn)一步跟蹤對(duì)話是否真的 “降低了支持成本”、“提升了信任度”,以及是否 “提高了自助服務(wù)率”。

其次是 “知識(shí)留存(Knowledge Retention)” 和 “可靠性(Reliability)”。

  • 知識(shí)留存:機(jī)器人是否記住對(duì)話中的關(guān)鍵細(xì)節(jié);
  • 可靠性:能否確保機(jī)器人不 “混亂”—— 不僅要記住細(xì)節(jié),還要能自我修正。
  • LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

在 “氛圍編碼工具(vibe coding tools)” 中,我們常會(huì)遇到機(jī)器人忘記之前犯的錯(cuò)誤、反復(fù)出錯(cuò)的情況,這種情況就可判定為 “可靠性(或穩(wěn)定性)低”。

第三是 “角色一致性(Role Adherence)” 和 “提示對(duì)齊(Prompt Alignment)”。

LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

  • 這兩個(gè)指標(biāo)用于跟蹤 LLM 是否堅(jiān)守給定角色,以及是否遵循系統(tǒng)提示中的指令。

接下來(lái)是與安全性相關(guān)的指標(biāo),如 “幻覺(jué)(Hallucination)” 和 “偏見 / 毒性(Bias/Toxicity)”。

  • 幻覺(jué):該指標(biāo)很重要,但評(píng)估難度較大。有人會(huì)嘗試通過(guò)網(wǎng)頁(yè)搜索驗(yàn)證輸出,也有人會(huì)將輸出拆分為不同斷言,用更大規(guī)模的模型(LLM-as-a-judge 模式)評(píng)估。

a.還有其他方法,比如 SelfCheckGPT—— 對(duì)同一提示多次調(diào)用模型,查看模型是否堅(jiān)持最初答案、偏離次數(shù)多少,以此判斷一致性。

  • 偏見 / 毒性:可通過(guò)其他 NLP 方法評(píng)估,例如用微調(diào)后的分類器。

此外,你可能還需要跟蹤一些應(yīng)用定制化指標(biāo),比如代碼正確性、安全漏洞、JSON 格式正確性等。

至于評(píng)估方式,并非一定要用 LLM,但多數(shù)情況下,標(biāo)準(zhǔn)解決方案都會(huì)采用 LLM。

如果能提取出正確答案(如解析 JSON),自然無(wú)需使用 LLM。正如之前所說(shuō),許多 LLM 提供商在評(píng)估代碼相關(guān)指標(biāo)時(shí),也會(huì)用單元測(cè)試。

需要說(shuō)明的是:用于評(píng)判的 LLM 并非總是絕對(duì)可靠,就像它們所評(píng)估的應(yīng)用一樣。但目前我沒(méi)有相關(guān)數(shù)據(jù)支持這一點(diǎn),你需要自行調(diào)研。

3.2 檢索增強(qiáng)生成(RAG)評(píng)估

在多輪對(duì)話評(píng)估的基礎(chǔ)上,我們?cè)賮?lái)看看 RAG 系統(tǒng)需要衡量哪些指標(biāo)。

評(píng)估 RAG 系統(tǒng)時(shí),需將流程拆分為兩部分:分別衡量檢索(Retrieval)和生成(Generation)的指標(biāo)。

LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

3.2.1 檢索環(huán)節(jié)評(píng)估

首先要評(píng)估檢索環(huán)節(jié):獲取的文檔是否與查詢匹配。

如果檢索環(huán)節(jié)得分低,可通過(guò)以下方式優(yōu)化系統(tǒng):

  • 制定更優(yōu)的分塊策略;
  • 更換嵌入模型(Embedding Model);
  • 加入混合搜索、重排序等技術(shù);
  • 用元數(shù)據(jù)過(guò)濾等。

評(píng)估檢索效果,既可以用依賴精選數(shù)據(jù)集的傳統(tǒng)指標(biāo),也可以用基于 LLM-as-a-judge 的無(wú)參考方法。

  • 先說(shuō)說(shuō)經(jīng)典的信息檢索(IR)指標(biāo),它們是最早出現(xiàn)的檢索評(píng)估指標(biāo)。使用這些指標(biāo)需要 “黃金答案(Gold Answers)”—— 即針對(duì)某個(gè)查詢,對(duì)每個(gè)文檔進(jìn)行排序。

    a.雖然可以用 LLM 構(gòu)建這類數(shù)據(jù)集,但評(píng)估時(shí)無(wú)需 LLM,因?yàn)閿?shù)據(jù)集中已有可對(duì)比的分?jǐn)?shù)。

    b.最知名的 IR 指標(biāo)包括 Precision@k(前 k 個(gè)結(jié)果的精確率)、Recall@k(前 k 個(gè)結(jié)果的召回率)和 Hit@k(前 k 個(gè)結(jié)果中是否有相關(guān)文檔)。

LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

    c.這些指標(biāo)分別衡量:獲取的相關(guān)文檔數(shù)量、基于黃金參考答案檢索到的相關(guān)文檔數(shù)量,以及結(jié)果中是否至少包含一個(gè)相關(guān)文檔。

  • 而 RAGAS、DeepEval 等較新的框架,則引入了無(wú)參考、LLM 評(píng)分式的指標(biāo),如 Context Recall(上下文召回率)和 Context Precision(上下文精確率)。
  • 這些指標(biāo)通過(guò) LLM 判斷:基于查詢,前 K 個(gè)結(jié)果中是否包含真正相關(guān)的文本塊。
  • 簡(jiǎn)單來(lái)說(shuō),就是判斷系統(tǒng)是否返回了與查詢相關(guān)的文檔,或者是否包含過(guò)多無(wú)關(guān)文檔,導(dǎo)致無(wú)法正確回答問(wèn)題。

構(gòu)建檢索評(píng)估數(shù)據(jù)集的方法有兩種:

  • 從真實(shí)日志中挖掘問(wèn)題,再由人工整理;
  • 借助 LLM 使用數(shù)據(jù)集生成器 —— 多數(shù)框架中都有這類工具,也有 YourBench 這樣的獨(dú)立工具。

若你想基于 LLM 搭建自己的數(shù)據(jù)集生成器,可參考以下示例:

# 生成問(wèn)題的提示語(yǔ)
qa_generate_prompt_tmpl = """
以下是上下文信息。
--------------------- 
{context_str} 
---------------------
根據(jù)上述上下文信息,且不依賴任何先驗(yàn)知識(shí),
基于上述上下文生成{num}個(gè)問(wèn)題和{num}個(gè)答案。...
"""

3.2.2 生成環(huán)節(jié)評(píng)估

再來(lái)看 RAG 系統(tǒng)的生成環(huán)節(jié):評(píng)估模型能否利用提供的文檔準(zhǔn)確回答問(wèn)題。

如果該環(huán)節(jié)表現(xiàn)不佳,可通過(guò)以下方式調(diào)整:

  • 優(yōu)化提示詞(Prompt);
  • 調(diào)整模型參數(shù)(如溫度系數(shù) temperature);
  • 更換模型;
  • 針對(duì)特定領(lǐng)域知識(shí)微調(diào)模型;
  • 強(qiáng)制模型通過(guò)思維鏈(CoT)模式推理;
  • 檢查模型的自我一致性等。

評(píng)估生成環(huán)節(jié)時(shí),RAGAS 框架的指標(biāo)很實(shí)用,包括 Answer Relevancy(答案相關(guān)性)、Faithfulness(忠誠(chéng)度)和 Noise Sensitivity(噪聲敏感度)。

LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

  • 答案相關(guān)性:判斷答案是否真正回應(yīng)了用戶問(wèn)題;
  • 忠誠(chéng)度:判斷答案中的每個(gè)斷言是否都有檢索到的文檔支持;
  • 噪聲敏感度:判斷少量無(wú)關(guān)上下文是否會(huì)導(dǎo)致模型輸出偏離正確方向。

以 RAGAS 為例,其評(píng)估第一個(gè)指標(biāo)(答案相關(guān)性)的方式可能是:將問(wèn)題、答案和檢索到的上下文輸入 LLM,讓 LLM 按 0-1 分打分,“1 分” 表示答案完全貼合問(wèn)題,最終可根據(jù)原始分?jǐn)?shù)計(jì)算平均值。

綜上,評(píng)估 RAG 系統(tǒng)需將其拆分為檢索和生成兩個(gè)環(huán)節(jié)。既可以用基于 IR 指標(biāo)的方法,也可以用基于 LLM 評(píng)分的無(wú)參考方法。

3.3 智能體(Agent)評(píng)估

最后要講的是智能體評(píng)估 —— 除了上述提到的輸出、對(duì)話和上下文評(píng)估,智能體還擴(kuò)展了新的評(píng)估指標(biāo)。

評(píng)估智能體時(shí),我們不僅關(guān)注輸出、對(duì)話和上下文,還要評(píng)估它的 “行動(dòng)能力”:

  • 能否完成任務(wù)或流程;
  • 完成效率如何;
  • 是否能在合適的時(shí)機(jī)調(diào)用正確的工具。

不同框架對(duì)這些指標(biāo)的命名可能不同,但核心要跟蹤的兩個(gè)指標(biāo)是 Task Completion(任務(wù)完成度)和 Tool Correctness(工具正確性)。

LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

  • 工具正確性:評(píng)估智能體是否為用戶查詢調(diào)用了正確的工具。

     測(cè)試時(shí)需要內(nèi)置包含真值的 “黃金腳本(Gold Script)”,但只需編寫一次,后續(xù)每次修改系統(tǒng)后都可復(fù)用。

  • 任務(wù)完成度:評(píng)估時(shí)需查看完整的操作軌跡和目標(biāo),按 0-1 分打分并給出理由,以此衡量智能體完成任務(wù)的效果。

此外,根據(jù)智能體的具體應(yīng)用場(chǎng)景,可能還需要測(cè)試前面提到的其他指標(biāo)。

需要注意的是:盡管已有不少定義好的指標(biāo),但不同應(yīng)用場(chǎng)景需求不同。了解常見指標(biāo)很有必要,但不要默認(rèn)它們就是最適合你應(yīng)用的評(píng)估指標(biāo)。

四、實(shí)用評(píng)估框架推薦

目前有很多框架可輔助評(píng)估工作,本文重點(diǎn)介紹幾個(gè)常用框架:RAGAS、DeepEval、OpenAI 的 Evals 庫(kù)和 MLFlow 的 Evals 庫(kù),分析它們的優(yōu)勢(shì)和適用場(chǎng)景。

LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

你可以在這個(gè)代碼倉(cāng)庫(kù)中找到我整理的所有評(píng)估框架列表。

此外,也可以使用一些框架專屬的評(píng)估系統(tǒng)(如 LlamaIndex),尤其適合快速原型開發(fā)。

  • OpenAI 和 MLFlow 的 Evals 更偏向 “附加工具”,而非獨(dú)立框架;
  • RAGAS 主要定位為 RAG 應(yīng)用的指標(biāo)庫(kù)(不過(guò)也提供其他指標(biāo));
  • DeepEval 可能是所有框架中功能最全面的評(píng)估庫(kù)。
  • LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

但需要說(shuō)明的是,這些框架都具備以下功能:

  1. 支持在自定義數(shù)據(jù)集上運(yùn)行評(píng)估;
  2. 可用于多輪對(duì)話、RAG 和智能體評(píng)估;
  3. 支持 LLM-as-a-judge;
  4. 允許設(shè)置自定義指標(biāo);
  5. 兼容持續(xù)集成(CI)流程。

正如前面提到的,它們的區(qū)別主要在功能全面性上:

LLM 應(yīng)用評(píng)估體系詳解:從多輪對(duì)話到 RAG 與 AI Agent 的落地評(píng)估-AI.x社區(qū)

  • MLFlow 最初是為評(píng)估傳統(tǒng)機(jī)器學(xué)習(xí)管道設(shè)計(jì)的,因此針對(duì) LLM 應(yīng)用的指標(biāo)數(shù)量較少;
  • OpenAI 的 Evals 框架非常輕量化,需要用戶自行設(shè)置指標(biāo),不過(guò)它提供了示例庫(kù)幫助入門;
  • RAGAS 提供了不少指標(biāo),且可與 LangChain 集成,方便運(yùn)行;
  • DeepEval 內(nèi)置功能豐富,甚至包含了 RAGAS 的指標(biāo)。

你可以在這個(gè) GitHub 倉(cāng)庫(kù)中查看上述框架的指標(biāo)對(duì)比表。

觀察這些框架提供的指標(biāo),能大致了解它們的功能覆蓋范圍。

需要注意的是:提供指標(biāo)的框架在命名上往往沒(méi)有統(tǒng)一標(biāo)準(zhǔn) —— 不同框架中名稱不同的指標(biāo),實(shí)際含義可能一致。

例如:

  • 一個(gè)框架中的 “忠誠(chéng)度(Faithfulness)”,可能和另一個(gè)框架中的 “ groundedness(扎根性)” 含義相同;
  • “答案相關(guān)性(Answer Relevancy)” 可能等同于 “響應(yīng)相關(guān)性(Response Relevance)”。

這種命名混亂給系統(tǒng)評(píng)估帶來(lái)了不必要的麻煩和復(fù)雜性。

不過(guò),DeepEval 的優(yōu)勢(shì)很突出:它提供了 40 多種指標(biāo),還推出了 G-Eval 框架,可幫助快速搭建自定義指標(biāo),是從 “想法” 到 “可運(yùn)行指標(biāo)” 最快的工具。

OpenAI 的 Evals 框架則更適合需要定制邏輯的場(chǎng)景,而非快速評(píng)估需求。

據(jù) DeepEval 團(tuán)隊(duì)介紹,自定義指標(biāo)是開發(fā)者最常搭建的功能。因此,不必糾結(jié)于 “哪個(gè)框架提供了什么指標(biāo)”—— 你的應(yīng)用場(chǎng)景是獨(dú)特的,評(píng)估方式也應(yīng)如此。

那么,不同場(chǎng)景該如何選擇框架呢?

  • 若需要針對(duì) RAG 管道的專用指標(biāo),且希望最小化配置工作,選 RAGAS;
  • 若需要功能全面、開箱即用的評(píng)估套件,選 DeepEval;
  • 若已在使用 MLFlow,或偏好內(nèi)置跟蹤和 UI 功能,MLFlow 是不錯(cuò)的選擇;
  • 若依賴 OpenAI 基礎(chǔ)設(shè)施,且需要靈活性,OpenAI 的 Evals 框架(盡管最精簡(jiǎn))更合適。

此外,DeepEval 還通過(guò)其 DeepTeam 框架提供 “紅隊(duì)測(cè)試(Red Teaming)” 功能,可自動(dòng)對(duì) LLM 系統(tǒng)進(jìn)行對(duì)抗性測(cè)試。其他框架也有類似功能,但可能不如 DeepEval 全面。

未來(lái),我計(jì)劃專門探討 LLM 系統(tǒng)的對(duì)抗性測(cè)試和提示詞注入問(wèn)題 —— 這是個(gè)很有意思的話題。

五、注意事項(xiàng)

數(shù)據(jù)集相關(guān)業(yè)務(wù)利潤(rùn)豐厚,因此現(xiàn)在我們能夠用其他 LLM 標(biāo)注數(shù)據(jù)或?yàn)闇y(cè)試打分,這是一個(gè)很好的發(fā)展階段。

但 LLM 評(píng)分器并非 “萬(wàn)能工具”,你搭建的評(píng)估體系可能會(huì)像其他 LLM 應(yīng)用一樣,存在不穩(wěn)定問(wèn)題。據(jù)網(wǎng)絡(luò)信息顯示,大多數(shù)團(tuán)隊(duì)和企業(yè)會(huì)每幾周進(jìn)行一次人工抽樣審核,以確保評(píng)估的真實(shí)性。

你為應(yīng)用搭建的指標(biāo)很可能是定制化的,盡管本文介紹了不少通用指標(biāo),但最終你或許還是需要自行開發(fā)適合自己的評(píng)估指標(biāo)。

不過(guò),了解這些標(biāo)準(zhǔn)指標(biāo)仍非常有必要。

希望本文能為你提供有價(jià)值的參考實(shí)現(xiàn)。

好了,這就是我今天想分享的內(nèi)容。


本文轉(zhuǎn)載自???玄姐聊AGI??  作者:玄姐

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
標(biāo)簽
已于2025-10-24 10:03:45修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
欧美成人激情免费网| 久久久久久久久久久久久久| 亚洲国产另类精品专区| 99国内精品久久久久久久软件| 免费成人美女女在线观看| 免费成人毛片| 一区二区三区四区在线免费观看 | 欧美国产先锋| 精品久久久久久久人人人人传媒| 农民人伦一区二区三区| 日本大臀精品| 蜜乳av一区二区三区| 久久精品成人欧美大片| 亚洲国产精品第一页| 成人免费网站观看| 国产欧美日韩另类一区| 91精品天堂| 天天干在线播放| 中国av一区| 91官网在线免费观看| 佐佐木明希av| 免费av在线电影| 国产专区综合网| 国产91精品久久久| 欧美性x x x| 国产精品极品国产中出| 欧美视频中文字幕| 欧美人成在线观看| 日本天堂在线观看| 99re8在线精品视频免费播放| 国产精品白嫩美女在线观看| 免费人成视频在线| 成人精品影视| 亚洲国产成人久久综合一区| 成人性生生活性生交12| 久久国产精品一区| 久久精品亚洲乱码伦伦中文| 91日韩在线视频| 亚洲黄网在线观看| 在线免费高清一区二区三区| 色偷偷88888欧美精品久久久| 91九色蝌蚪porny| 久久er热在这里只有精品66| 午夜精品福利视频网站| 男插女免费视频| 岛国最新视频免费在线观看| jlzzjlzz亚洲日本少妇| 亚洲专区在线视频| 中文字幕a级片| 午夜一区不卡| 久久人人爽人人| 欧美a在线播放| 亚洲警察之高压线| 亚洲国产成人久久综合| 在线观看欧美一区二区| 激情综合五月| 69堂精品视频| 午夜视频在线网站| 久久久加勒比| 欧美三级视频在线观看| 国产最新免费视频| а√天堂8资源在线| 亚洲精品日日夜夜| 国产成人免费高清视频| a级毛片免费观看在线| 成人免费小视频| 在线观看亚洲视频啊啊啊啊| 伊人免费在线| 国产精品女主播在线观看| 欧美亚洲爱爱另类综合| 你懂的在线播放| 久久久国产精品麻豆| 欧美一进一出视频| 精品影院一区| 国产精品亲子乱子伦xxxx裸| 日韩欧美99| 国产69精品久久app免费版| 2欧美一区二区三区在线观看视频| 成人18视频| 天天综合网天天综合| 94色蜜桃网一区二区三区| 九九99玖玖| 色吊丝在线永久观看最新版本| 97久久超碰国产精品| 欧美日韩在线精品一区二区三区| 国产在线视频你懂得| 国产亚洲短视频| 亚洲欧美成人一区| www.久久久久.com| 亚洲国产精品欧美一二99| 无码粉嫩虎白一线天在线观看| 黄色在线免费观看网站| 黑人精品xxx一区一二区| 福利视频免费在线观看| av电影一区| 欧美日韩aaaaaa| 中文字幕第六页| 要久久电视剧全集免费| 综合久久五月天| 希岛爱理中文字幕| aa级大片欧美三级| 国产精品久久一| www.97av| 久久在线免费观看| 亚洲精品一区二| 男插女视频久久久| 色综合色狠狠天天综合色| 一本色道久久亚洲综合精品蜜桃| 日韩一区二区三区精品视频第3页| 欧美xxxxx牲另类人与| 亚洲国产精品成人综合久久久| blacked蜜桃精品一区| 不卡毛片在线看| 亚洲天堂一区在线| 国产一区二区精品久久| 蜜桃传媒视频麻豆一区| 九七久久人人| 欧美日韩中文在线观看| 亚洲天堂av一区二区三区| 免费日韩一区二区三区| 俺去啦;欧美日韩| 可以在线观看av的网站| 极品美女销魂一区二区三区免费| 国产麻豆日韩| 久久99精品久久| 色婷婷国产精品| 国产伦精品一区二区三区妓女下载 | 久久精品99无色码中文字幕| 日韩成人免费在线视频| 久久国产精品72免费观看| 国产一区二区精品在线| 欧美猛烈性xbxbxbxb| 欧美午夜片欧美片在线观看| 奇米777在线| 青青草国产成人a∨下载安卓| 久久久久久久国产精品视频| 一区二区乱子伦在线播放| www.欧美日韩| 亚洲五码在线观看视频| jizzjizz少妇亚洲水多| 亚洲精品永久免费精品| 精品无码人妻一区二区三区品| 美女视频一区二区三区| 麻豆精品传媒视频| xxx性欧美| 欧美一区日本一区韩国一区| 九九热久久免费视频| 校园激情久久| 国产精品日韩欧美一区二区| 久草中文在线| 欧美日韩激情在线| 欧美a在线播放| 欧美a一区二区| 欧美日韩在线不卡一区| 9lporm自拍视频区在线| 91精品国产美女浴室洗澡无遮挡| 欧美成人另类视频| 日韩电影免费一区| 欧美精品成人一区二区在线观看| 1024在线看片你懂得| 日韩午夜精品电影| 四虎免费在线视频| 国产精选一区二区三区| 最近中文字幕免费mv| 国产精品日本一区二区三区在线 | 国产69精品久久久久99| 性猛交xxxx乱大交孕妇印度| 亚洲欧美经典视频| 五月六月丁香婷婷| 欧美国产专区| 国产精品一区二区你懂得| 欧美人与性动交α欧美精品济南到| 宅男在线国产精品| 久草网站在线观看| 成人小视频在线观看| 图片区小说区区亚洲五月| 欧美xxxhd| 亚洲天堂免费观看| 最近中文字幕在线视频| 国产精品久久一卡二卡| 亚洲视频一二三四| 欧美精品不卡| 国产伦精品一区二区三区视频免费| а√天堂中文资源在线bt| 精品无人国产偷自产在线| 狠狠狠狠狠狠狠| 26uuu另类欧美亚洲曰本| 天堂8在线天堂资源bt| 欧美色图婷婷| 国产精品999999| 看女生喷水的网站在线观看| 日韩一区二区三区四区五区六区| 久久久久久久国产视频| aa级大片欧美| 手机看片福利日韩| 中文av一区| 97久草视频| 888av在线视频| 亚洲一级一级97网| av小说天堂网| 一本色道**综合亚洲精品蜜桃冫| 短视频在线观看| 极品少妇一区二区三区精品视频| 日本一本中文字幕| 国产精品一区2区3区| 亚洲a∨日韩av高清在线观看| 成人免费一区二区三区牛牛| 夜夜躁日日躁狠狠久久88av| 国产精品免费无遮挡| 午夜欧美一区二区三区在线播放| 国产综合精品在线| 国产激情视频一区二区在线观看 | 啊v视频在线| 日韩三级高清在线| 无码一区二区三区| 亚洲激情五月婷婷| 波多野结衣有码| 毛片基地黄久久久久久天堂| 国产精品入口芒果| 日韩欧美网址| 精品国产一区二区三区免费| 日韩电影免费观看高清完整版在线观看 | 亚洲综合中文网| 香蕉久久a毛片| www.夜夜爱| 欧美大人香蕉在线| 蜜桃狠狠色伊人亚洲综合网站| 国产精品无码一本二本三本色| 欧美综合视频在线| 欧美色图天堂网| 全部毛片永久免费看| 亚洲欧洲精品成人久久奇米网| 一级日本黄色片| 日韩经典一区二区| 国自产拍偷拍精品啪啪一区二区| 欧美韩国日本在线观看 | 超碰10000| 国产综合久久久| 好吊色欧美一区二区三区四区 | av地址在线观看| 久久99国产精品久久| 成年丰满熟妇午夜免费视频| 日韩免费特黄一二三区| 欧美主播一区二区三区美女 久久精品人| 日韩在线亚洲| 成人黄色中文字幕| 成人国产精选| 国产精品久久久久久久9999| 欧美aa一级| 国内精品久久久久影院 日本资源| 成人性生交大片免费看午夜| 日韩精品中文字幕在线播放| 亚洲av无码片一区二区三区| 日韩视频一区二区| 国产精品自拍电影| 欧美日韩国产一级二级| 中文字幕在线天堂| 色婷婷狠狠综合| 啪啪小视频网站| 色婷婷综合久久久中文字幕| 日韩欧美成人一区二区三区| 精品国产福利视频| 国产成人亚洲精品自产在线| 亚洲高清免费视频| 国产精品自拍视频一区| 亚洲图片有声小说| 久一视频在线观看| 亚洲电影第三页| 日本一二三区不卡| 日韩欧美成人网| 91久久国产综合久久91| 欧美午夜在线一二页| 中文字幕欧美色图| 欧美三片在线视频观看| 亚洲一区在线观| 欧美精品九九99久久| 国产99久久九九精品无码免费| 精品视频免费在线| 91九色蝌蚪91por成人| 91精品国产一区二区三区蜜臀| 精品乱码一区内射人妻无码| 欧美欧美午夜aⅴ在线观看| 亚洲网站在线免费观看| 欧美一卡二卡三卡四卡| 欧美视频一二区| 精品夜色国产国偷在线| 在线免费看av| 美女精品视频一区| 1769免费视频在线观看| 毛片精品免费在线观看| 91九色porn在线资源| 日韩美女毛茸茸| 99精品美女视频在线观看热舞| 91免费版网站在线观看| 欧美电影在线观看免费| 色涩成人影视在线播放| 成人毛片免费看| 日本国产中文字幕| 久久久久久穴| 国产免费中文字幕| 99久久夜色精品国产网站| 调教驯服丰满美艳麻麻在线视频| 国产精品国产精品国产专区不蜜| 国产成人在线网址| 亚洲国产精品久久人人爱| 国产免费www| 日韩一区二区免费在线电影 | 日韩福利视频导航| 三日本三级少妇三级99| 91网站在线播放| 国产在线观看免费视频软件| 香蕉影视欧美成人| 国产精品传媒在线观看| 欧美一区二区三区视频| 欧美女v视频| 欧美巨乳美女视频| 国产亚洲精彩久久| 国产日韩精品久久| 99久久99久久精品国产片果冰| av免费看网址| 激情综合亚洲精品| 国产十八熟妇av成人一区| 国产精品色眯眯| 国产又大又黄视频| 日韩欧美区一区二| 色影院视频在线| 热99在线视频| 成人中文字幕视频| 中文字幕一区二区中文字幕| 国产欧美另类| 日韩av片专区| 国产女主播一区| 久久午夜免费视频| 欧美本精品男人aⅴ天堂| 婷婷五月在线视频| 国产精品第一视频| 天堂俺去俺来也www久久婷婷 | 性久久久久久久久久久久久久| 久久亚洲精品国产精品紫薇| 久久免费视频99| 日韩一区二区不卡| 日本不卡三区| 国产成人亚洲精品| 国产成人av| 日本久久精品一区二区| 久久综合九色综合97_久久久| 日韩高清精品免费观看| 亚洲国产成人av在线| wwwww亚洲| 国产欧美亚洲日本| 日韩视频精品在线观看| 色天使在线视频| 色婷婷一区二区三区四区| 成人三级黄色免费网站| 国产精品福利在线观看| 久久一区二区三区电影| 久久国产激情视频| 亚洲婷婷综合久久一本伊一区| 91tv国产成人福利| 欧美日产国产成人免费图片| 成人另类视频| 成人免费观看毛片| 国产欧美日韩三级| 国产精品怡红院| 欧美夫妻性生活xx| 蜜臀av一区| 天天操天天摸天天爽| 中文字幕一区二区三区乱码在线| 国产乱子伦精品无码码专区| 欧美高清视频在线| 色婷婷综合久久久久久| 欧美性猛交xxx乱久交| 亚洲图片激情小说| 免费看黄网站在线观看| 国产成人精品午夜| 99久久精品费精品国产| 午夜性福利视频| 欧美体内谢she精2性欧美| 日本在线www| 国产自产精品| 热久久一区二区| 日本少妇高清视频| 国产婷婷成人久久av免费高清| 精品视频在线一区二区在线| 日韩video| 久久精品视频网| 国产乱叫456在线| 91精品国产91久久久| 色狮一区二区三区四区视频| 中文字幕视频观看| 在线视频你懂得一区二区三区| 精品国产白色丝袜高跟鞋| 精品欧美一区二区在线观看视频| 蜜臀久久久99精品久久久久久| 久久精品国产亚洲AV无码男同| 亚洲网站视频福利| 大型av综合网站| 色www免费视频| 欧美性生交xxxxx久久久| 最近中文字幕免费mv2018在线|