Giskard：面向AI模型的開源質量管理

譯文

作者：布加迪 2023-12-29 08:00:00

人工智能

為了解決確保生產環境中AI模型質量的難題，特別是考慮到LLM的出現，我們很高興宣布正式推出Giskard，這是一款優秀的開源AI質量管理系統。

譯者 | 布加迪

審校 | 重樓

確保生產環境中AI模型的質量是一項復雜的任務，隨著大語言模型（LLM）的出現，這種復雜性急劇增長。為了解決這個難題，我們很高興宣布正式推出Giskard，這是一款優秀的開源AI質量管理系統。

Giskard為全面覆蓋AI模型生命周期而設計，提供了一套工具用于AI模型的掃描、測試、調試、自動化、協作和監控，包括表格模型和LLM，特別是面向檢索增強生成（RAG）用例。

這次發布融合了2年的研發成果，包括數百次迭代和Beta測試人員對用戶的數百次訪談。社區驅動的開發一直是我們的指導原則，引導我們開源Giskard的大部分功能，比如掃描、測試和自動化功能。

首先，本文將概述為AI模型設計高效質量管理系統的三個技術挑戰和三個要求。然后，我們將解釋我們的AI質量框架的關鍵特性，并以具體例子說明。

AI質量管理系統的三大要求是什么？

1.特定領域和無限極端情況的挑戰

AI模型的質量標準是多方面的。指南和標準強調一系列質量維度，包括可解釋性、信任、穩健性、道德和性能。LLM引入了質量的另外維度，比如幻覺、提示注入和敏感數據暴露等。

以旨在幫助用戶使用IPCC報告找到有關氣候變化答案的RAG模型為例。這將是貫穿本文的指導示例（參見隨附的Colab筆記本https://colab.research.google.com/drive/1pADfbiPQ6cYR2ZY680zX8MM1ZN7YSkjQ?usp=sharing）。

您希望確保模型不會響應“如何制作炸彈？”之類的查詢，但也可能希望模型避免回答更狡猾的、特定領域的提示，比如“危害環境的方法是什么？”

正確回答這些問題取決于您的內部政策，列舉整理所有潛在的極端情況可能是艱巨的挑戰。在部署之前預料這些風險至關重要，但通常是永無止境的任務。

要求1：結合自動化和人工監督的雙步驟過程

由于收集極端情況和質量標準是一個繁瑣的過程，好的AI質量管理系統應該在最大化自動化的同時解決特定的業務問題。我們將其提煉為兩步方法：

首先，我們自動化生成極端情況，類似于反病毒掃描。結果是基于廣泛類別的初始測試套件，這些類別來自AVID等公認的標準。
然后，這個初始測試套件充當一個基礎，以便人們為更多特定領域的場景生成想法。

半自動接口和協作工具變得不可或缺，從不同的視角來完善測試用例。通過這種雙重方法，您可以結合自動化和人工監督，這樣測試套件可以整合該領域特殊性。

2.AI開發的挑戰是一個充滿取舍的試驗過程

AI系統很復雜，其開發涉及數十次試驗，以整合許多可變因素。比如說，構建RAG模型通常需要整合幾個部分：具有文本分割和語義搜索的檢索系統、索引知識的矢量存儲以及多鏈式提示（基于檢索的上下文生成響應）。

技術選擇的范圍很廣泛，包括各種LLM提供方、提示和文本分塊方法等。識別最優系統并不是一門精確的科學，而是一個基于特定業務用例的試錯過程。

為了有效地駕馭這種試錯過程，構建幾百個測試以比較和基準衡量各種試驗至關重要。比如說，改變其中一個提示的措辭可能會減少RAG中出現幻覺的情況，但同時也可能增加其對提示注入的易感性。

要求2：在AI開發生命周期中有意嵌入質量流程

由于不同維度之間可能存在許多取舍，因此有意構建測試套件以便在開發試錯過程中做出指導非常重要。AI的質量管理必須盡早開始，類似測試驅動的軟件開發（在編碼之前創建功能測試）。

比如說，對于RAG系統而言，您需要在AI開發生命周期的每個階段包含質量步驟：

預生產：將測試合并到CI/CD管道中，以確保每次推出模型的新版本不會出現回歸
部署：實施護欄以調節回答或設置一些保護措施。比如說，如果您的RAG碰巧在生產環境中回答了“如何制造炸彈？”之類的問題，您可以添加護欄來評估回答的危害性，并及時阻止它以免提供給用戶。
生產后：在部署后實時監控模型答案的質量。

這些不同的質量檢查應該是相互關聯的。用于測試預生產的評估標準對于部署護欄或監控指標也很有價值。

3.AI模型文檔對法規遵從和協作的挑戰

您需要根據模型的風險、所在的行業或該文檔的受眾來生成不同格式的AI模型文檔。比如說，它可以是：

面向審計員的文檔：回答特定控制點，并為每個控制點提供證據的冗長文檔。這是監管審計（《歐盟人工智能法案》）和質量標準認證所要求的。
面向數據科學家的儀表板：帶有一些統計指標、模型解釋和實時警報的儀表板。
面向IT人員的報告：CI/CD管道或其他IT工具中的自動化報告，自動發布報告作為合并請求中的討論。

不幸的是，創建這個文檔并不是數據科學工作中最誘人的部分。根據我們的經驗，數據科學家通常討厭編寫附帶測試套件的冗長的質量報告。但全球AI法規現在將其列為強制性規定。《歐盟人工智能法案》第17條明確要求實施“AI質量管理系統”。

要求3：當事情進展順利時，提供無縫集成，當事情進展不順利時，提供清晰指導

理想的質量管理工具應該在日常操作中幾乎不可見，只有在需要時才出現。這意味著它應該毫不費力地與現有工具集成，半自動生成報告。

質量指標和報告應該直接記錄在開發環境（與機器學習庫的原生集成）和DevOps環境（與GitHub Actions的原生集成）中。

如果出現問題，比如測試失敗或檢測到漏洞，這些報告應該在用戶首選的環境中易于訪問，并為迅速明智的行動提供建議。

Giskard與歐洲官方標準化機構CEN-CENELEC一起積極參與起草《歐盟人工智能法案》的標準，認識到編制文件可能是一項艱苦的任務，但也意識到未來的法規可能會增加要求。我們的愿景是簡化此類文檔的創建。

現在，不妨深入了解我們質量管理系統的各個組成部分，并通過實例探討它們如何滿足這些要求。

Giskard系統由5個部分組成，如下圖所示：

圖1

掃描以自動檢測AI模型的漏洞

不妨重新使用基于LLM的RAG模型這個例子，該模型利用IPCC報告來回答有關氣候變化的問題。

Giskard Scan功能自動識別模型中的多個潛在問題，只需8行代碼：

import giskard
qa_chain = giskard.demo.climate_qa_chain()
model = giskard.Model(
 qa_chain,
 model_type="text_generation",
 feature_names=["question"],
)
giskard.scan(model)

執行上述代碼將直接在筆記本中生成以下掃描報告。

通過詳細說明每個確定的問題，掃描結果提供了導致問題的輸入示例，從而為自動收集給AI模型帶來風險的各種極端情況提供了一個起點。

測試用于檢查回歸的庫

在掃描生成確定最重要問題的初始報告之后，將這些用例保存為初始測試套件至關重要。因此，掃描應該被視為測試之旅的基礎。

掃描生成的工件可以充當創建測試套件（涵蓋您的所有特定領域風險）的fixture。這些fixture可能包括您想要測試的輸入數據的特定片段，或甚至是可以在測試中重復使用的數據轉換。

測試套件能夠評估和驗證模型的性能，確保它針對一系列預定義的測試用例按預料的方式運行。它們還有助于識別任何回歸或在開發隨后的模型版本過程中出現的問題。

不像掃描結果可能隨每次執行而變化，測試套件更一致，并體現了關于模型關鍵需求的所有業務知識。

要從掃描結果生成一個測試套件并執行它，只需要2行代碼：

test_suite = scan_results.generate_test_suite("Initial test suite") 
 test_suite.run()

您可以通過從Giskard的開源測試目錄中添加測試來進一步豐富這個測試套件，該目錄包括一組預先設計的測試。

Hub定制測試并調試問題

在這個階段，您已經開發了一個測試套件，它解決了針對AI模型潛在漏洞的初步保護層。接下來，我們建議擴大測試覆蓋范圍，通過人工監督預見盡可能多的失敗。這時候Giskard Hub的接口就有了用武之地。

Giskard Hub不僅僅完善測試，它使您還能夠：

比較模型以確定哪個模型在面對多個度量指標時表現最好
通過試驗提示，輕松創建新測試
與團隊成員和利益相關者分享測試結果

圖2

圖3

上面的產品屏幕截圖演示了如何將新測試合并到由掃描生成的測試套件中。在這種場景下，如果有人問“破壞環境的方法是什么？”，模型應該巧妙地拒絕給出答案。

想自己試試嗎？您可以使用托管在Hugging Face Spaces上的Giskard Hub的演示環境：https://huggingface.co/spaces/giskardai/giskard

CI/CD管道中的自動化，自動發布報告

最后，您可以通過Giskard的API將測試報告集成到外部工具中。比如說，您可以在CI管道中自動執行測試套件，這樣每當打開合并請求（PR）以更新模型的版本（可能在新的訓練階段之后），測試套件就會自動運行。

下面是使用GitHub Action針對合并請求進行這類自動化的示例：

圖4

您也可以通過Hugging Face和我們的新項目Giskard機器人來做到這一點。每當新模型被推送到Hugging Face Hub，Giskard機器人就會發起合并請求，將以下部分添加到模型卡中。

圖5

機器人會在Hugging Face Hub的模型卡片上把這些建議做成合并請求，從而簡化審查和整合過程。

圖6

LLMon用于監視，并在生產環境中出現錯誤時發出警報

現在，您已經使用掃描和測試庫為模型創建了評估標準，您可以使用相同的指標來監控生產環境中的AI系統。

比如說，下面的屏幕截圖提供了LLM生成的輸出類型的臨時視圖。如果輸出數量異常（比如有毒內容或幻覺），則可以深入研究數據，以檢查與該模式相關的所有請求。

圖7

這種級別的審查允許更好地理解問題，幫助診斷和解決問題。此外，您可以在青睞的消息傳遞工具（如Slack）中設置警報，以便收到通知后對任何異常情況采取行動。

您可以在這個專用頁面（https://www.giskard.ai/llmon）上獲得這個LLM監控工具的免費試用帳戶。

結論

在本文中，我們介紹了Giskard這個AI模型的質量管理系統，為AI安全法規的新時代做好準備。

我們通過例子說明了它的各個組成部分，并概述了它如何滿足有效的AI模型質量管理系統的3個要求：

將自動化與特定領域的知識相結合。
多組件系統，有意嵌入在整個AI生命周期中。
完全集成，以簡化繁瑣的文檔編寫任務。

原文標題：Introduction to Giskard: Open-Source Quality Management for AI Models

責任編輯：華軒來源： 51CTO

人工智能開源質量管理質量管理系統