如何基于 Arthur Bench 進行 LLM 評估？

作者：Luga Lee 2024-03-04 00:05:00

由于 LLM 的特性，其評估結果可能會受到不同配置和參數設置的影響。這意味著對 LLM 進行評估時，需要仔細選擇和配置模型，以確保其行為符合預期。

Hello folks，我是 Luga，今天我們來聊一下人工智能(AI)生態領域相關的技術 - LLM 評估。

一、傳統文本評估面臨的挑戰

近年來，隨著大型語言模型(LLM)的快速發展和改進，傳統的文本評估方法在某些方面可能已經不再適用。在文本評估領域，我們可能已經聽說過一些方法，例如基于“單詞出現”的評估方法，比如 BLEU，以及基于“預訓練的自然語言處理模型”的評估方法，比如 BERTScore。

盡管這些方法在過去一直非常出色，但隨著 LLM 的生態技術的不斷發展，它們顯得有點力不從心，無法完全滿足當前的需求。

隨著 LLM 的快速發展和改進，我們正在面對新的挑戰和機遇。LLM 的能力和表現水平不斷提高，這使得基于單詞出現的評估方法(如 BLEU)可能無法完全捕捉到 LLM 生成文本的質量和語義準確性。LLM 能夠生成更加流暢、連貫且語義豐富的文本，而傳統的基于單詞出現的評估方法則無法準確衡量這些方面的優勢。

此外，基于預訓練模型的評估方法(如 BERTScore)也面臨一些挑戰。盡管預訓練模型在許多任務上表現出色，但它們可能無法充分考慮到 LLM 的獨特特征以及其在特定任務上的表現。LLM 在處理特定任務時可能會展現出與預訓練模型不同的行為和性能，因此僅僅依賴基于預訓練模型的評估方法可能無法全面評估 LLM 的能力。

二、為什么需要 LLM 指導評估?以及帶來的挑戰 ?

通常來講，在實際的業務場景中，采用 LLM 指導評估這種方法最為價值的地方主要在于“速度”和“靈敏度”。

1.高效

首先，通常來說，實施速度更快。相比于以前的評估管道所需的工作量，創建 LLM 指導評估的首次實施相對較快且容易。對于 LLM 指導的評估，我們只需要準備兩件事情：用文字描述評估標準，并提供一些在提示模板中使用的示例。相對于構建自己的預訓練 NLP 模型(或微調現有的 NLP 模型)以用作評估器所需的工作量和數據收集量，使用 LLM 來完成這些任務更為高效。使用 LLM，評估標準的迭代速度要快得多。

2.敏感性

其次，LLM 通常更加敏感。這種敏感性可能帶來積極的方面，與預訓練的 NLP 模型和之前討論的評估方法相比，LLM 更能靈活地處理這些情況。然而，這種敏感性也可能導致 LLM 的評估結果變得非常不可預測。

正如我們之前討論的那樣，與其他評估方法相比，LLM 評估者更加敏感。將 LLM 作為評估器有許多不同的配置方法，根據所選擇的配置，其行為可能會有很大的差異。同時，另一個挑戰在于，如果評估涉及太多的推理步驟或需要同時處理太多的變量，LLM 評估者可能會陷入困境。

由于 LLM 的特性，其評估結果可能會受到不同配置和參數設置的影響。這意味著對 LLM 進行評估時，需要仔細選擇和配置模型，以確保其行為符合預期。不同的配置可能導致不同的輸出結果，因此評估者需要花費一定的時間和精力來調整和優化 LLM 的設置，以獲得準確和可靠的評估結果。

此外，當面對需要進行復雜推理或同時處理多個變量的評估任務時，評估者可能會面臨一些挑戰。這是因為 LLM 的推理能力在處理復雜情境時可能受限。LLM 可能需要進行更多的努力來解決這些任務，以確保評估的準確性和可靠性。

三、什么是 Arthur Bench ?

Arthur Bench 是一個開源的評估工具，用于比較生成文本模型 (LLM) 的性能。它可以用于評估不同 LLM 模型、提示和超參數，并提供有關 LLM 在各種任務上的性能的詳細報告。

Arthur Bench 的主要功能包括：Arthur Bench 的主要功能包括：

比較不同 LLM 模型：Arthur Bench 可以用于比較不同 LLM 模型的性能，包括來自不同供應商的模型、不同版本的模型以及使用不同訓練數據集的模型。
評估提示：Arthur Bench 可以用于評估不同提示對 LLM 性能的影響。提示是用于指導 LLM 生成文本的指令。
測試超參數：Arthur Bench 可以用于測試不同超參數對 LLM 性能的影響。超參數是控制 LLM 行為的設置。

通常而言，Arthur Bench 工作流程主要涉及如下階段，具體詳細解析如下所示：

1. 任務定義

在此階段，我們需要明確我們的評估目標，Arthur Bench 支持多種評估任務，包括：

問答：測試 LLM 對開放式、挑戰性或多義性問題的理解和回答能力。
摘要：評估 LLM 提取文本關鍵信息并生成簡潔摘要的能力。
翻譯：考察 LLM 在不同語言之間進行準確、流暢翻譯的能力。
代碼生成：測試 LLM 根據自然語言描述生成代碼的能力。

2. 模型選擇

在此階段，主要工作為篩選評估對象。Arthur Bench 支持多種 LLM 模型，涵蓋來自 OpenAI、Google AI、Microsoft 等知名機構的領先技術，如 GPT-3、LaMDA、Megatron-Turing NLG 等。我們可以根據研究需求選擇特定模型進行評估。

3. 參數配置

完成模型選擇后，接下來進行精細化調控工作。為了更精準地評估 LLM 性能，Arthur Bench 允許用戶配置提示和超參數。

提示：指引 LLM 生成文本的方向和內容，例如問題、描述或指令。
超參數：控制 LLM 行為的關鍵設置，例如學習率、訓練步數、模型架構等。

通過精細化配置，我們可以深入探索 LLM 在不同參數設置下的表現差異，獲得更具參考價值的評估結果。

4. 評估運行：自動化流程

最后一步，即借助自動化流程進行任務評估。通常情況下，Arthur Bench 提供自動化評估流程，只需簡單配置即可運行評估任務。它將自動執行以下步驟：

調用 LLM 模型并生成文本輸出。
針對特定任務，應用相應的評估指標進行分析。
生成詳細報告，呈現評估結果。

四、Arthur Bench 使用場景分析

作為一種快速、數據驅動的 LLM 評估的關鍵，Arthur Bench 主要提供如下解決方案，具體涉及：

1.模型選擇和驗證

模型選擇和驗證是人工智能領域中至關重要的關鍵步驟，對于確保模型的有效性和可靠性具有重要意義。在這個過程中，Arthur Bench 的角色非常關鍵。他的目標是為公司提供一個可靠的比較框架，通過使用一致的指標和評估方法，幫助他們在眾多大型語言模型(LLM)選項中做出明智的決策。

Arthur Bench 將運用他的專業知識和經驗來評估每個 LLM 選項，并確保使用一致的指標來比較它們的優勢和劣勢。他將綜合考慮諸如模型性能、準確性、速度、資源需求等因素，以確保公司能夠做出明智而明確的選擇。

通過使用一致的指標和評估方法，Arthur Bench 將為公司提供一個可靠的比較框架，使他們能夠全面評估每個 LLM 選項的優點和局限性。這將使公司能夠做出明智的決策，以最大程度地利用人工智能領域的快速發展，并確保他們的應用程序能夠獲得最佳的體驗效果。

2.預算和隱私優化

在選擇人工智能模型時，并非所有應用程序都需要最先進或最昂貴的大型語言模型(LLM)。在某些情況下，使用成本更低的人工智能模型也可以滿足任務需求。

這種預算優化的方法可以幫助公司在有限的資源下做出明智的選擇。而不必追求最昂貴或最先進的模型，而是根據具體需求選擇合適的模型。較為經濟實惠的模型可能在某些方面的性能略低于最先進的 LLM，但對于一些簡單或標準的任務來說，Arthur Bench 仍然能夠提供滿足需求的解決方案。

此外，Arthur Bench 強調將模型引入內部可以更好地控制數據隱私。對于涉及敏感數據或隱私問題的應用程序，公司可能更傾向于使用自己內部訓練的模型，而不是依賴外部的第三方LLM。通過使用內部模型，公司可以更好地掌握數據的處理和存儲，更好地保護數據隱私。

3.將學術基準轉化為現實世界的表現

學術基準是指在學術研究中建立的模型評估指標和方法。這些指標和方法通常是針對特定任務或領域的，能夠有效評估模型在該任務或領域的性能。

然而，學術基準并不總是能夠直接反映模型在現實世界中的表現。這是因為現實世界中的應用場景往往更加復雜，需要考慮更多因素，例如數據分布、模型部署環境等。

Arthur Bench 可以幫助將學術基準轉化為現實世界的表現。它通過以下方式實現這一目標：

提供一組全面的評估指標，涵蓋模型的準確性、效率、魯棒性等多個方面。這些指標不僅能夠反映模型在學術基準下的表現，也能反映模型在現實世界中的潛在表現。
支持多種模型類型，能夠對不同類型的模型進行比較。這使得企業能夠選擇最適合其應用場景的模型。
提供可視化分析工具，幫助企業直觀地了解不同模型的表現差異。這使得企業能夠更容易地做出決策。

五、Arthur Bench 特性分析

作為一種快速、數據驅動的 LLM 評估的關鍵，Arthur Bench 具有如下特性：

1.全套評分指標

Arthur Bench 擁有一整套評分指標，涵蓋了從總結質量到用戶體驗的各個方面。他可以隨時利用這些評分指標來對不同的模型進行評估和比較。這些評分指標的綜合運用可以幫助他全面了解每個模型的優勢和劣勢。

這些評分指標的范圍非常廣泛，包括但不限于總結質量、準確性、流暢性、語法正確性、上下文理解能力、邏輯連貫性等。Arthur Bench 將根據這些指標對每個模型進行評估，并將結果整合為一個綜合評分，以輔助公司做出明智的決策。

此外，如果公司有特定的需求或關注點，Arthur Bench 還可以根據公司的要求創建和添加自定義的評分指標。這樣以便能夠更好地滿足公司的具體需求，并確保評估過程與公司的目標和標準相符合。

2.本地版本和基于云的版本

對于那些更喜歡本地部署和自主控制的用戶，可以從 GitHub 存儲庫中獲取訪問權限，并將 Arthur Bench 部署到自己的本地環境中。這樣，大家可以完全掌握和控制 Arthur Bench 的運行，并根據自己的需求進行定制和配置。

另一方面，對于那些更傾向于便捷和靈活性的用戶，也提供了基于云的 SaaS 產品。大家可以選擇注冊，通過云端訪問和使用 Arthur Bench。這種方式無需繁瑣的本地安裝和配置，而是能夠立即享受到所提供的功能和服務。

3.完全開源

Arthur Bench 作為一個開源項目，在透明性、可擴展性和社區協作等方面展現出其典型的開源特點。這種開源性質為用戶提供了豐富的優勢和機會，使他們能夠更深入地了解項目的工作原理，并根據自身需求進行定制和擴展。同時，Arthur Bench 的開放性還鼓勵用戶積極參與社區協作，與其他用戶共同合作和發展。這種開放式的合作模式有助于推動項目的不斷發展和創新，同時，也為用戶創造了更大的價值和機遇。

總之，Arthur Bench 提供了一個開放且靈活的框架，使用戶能夠自定義評估指標，并且已經在金融領域得到廣泛應用。與 Amazon Web Services 和 Cohere 的合作進一步推動了該框架的發展，鼓勵開發人員為 Bench 創建新的指標，為語言模型評估領域的進步做出貢獻。

Reference ：

[1] https://github.com/arthur-ai/bench
[2] https://neurohive.io/en/news/arthur-bench-framework-for-evaluating-language-models/

責任編輯：趙寧寧來源：架構驛站

人工智能 LLM 評估

如何基于 Arthur Bench 進行 LLM 評估 ？