精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Giskard:面向AI模型的開源質量管理

譯文
人工智能
為了解決確保生產環境中AI模型質量的難題,特別是考慮到LLM的出現,我們很高興宣布正式推出Giskard,這是一款優秀的開源AI質量管理系統。

譯者 | 布加迪

審校 | 重樓

確保生產環境中AI模型的質量是一項復雜的任務,隨著大語言模型(LLM的出現,這種復雜性急劇增長。為了解決這個難題,我們很高興宣布正式推出Giskard,這是一款優秀的開源AI質量管理系統。

Giskard為全面覆蓋AI模型生命周期而設計,提供了一套工具用于AI模型的掃描、測試、調試、自動化、協作和監控,包括表格模型和LLM特別是面向檢索增強生成RAG用例。

這次發布融合了2年的研發成果,包括數百次迭代和Beta測試人員用戶的數百次訪談。社區驅動的開發一直是我們的指導原則,引導我們開源Giskard的大部分功能比如掃描、測試和自動化功能。

首先,本文將概述為AI模型設計效質量管理系統的技術挑戰和個要求。然后,我們將解釋我們的AI質量框架的關鍵特具體例子說明。

AI質量管理系統三大要求是什么

1.特定領域和無限極端情況的挑戰

AI模型的質量標準是多方面的。指南和標準強調一系列質量維度,包括可解釋性、信任、穩健性、道德和性能。LLM引入了質量的另外維度,比如幻覺、提示入和敏感數據暴露等。

在幫助用戶使用IPCC報告找到有關氣候變化答案RAG模型為例。這將是貫穿本文的指導示例參見隨附的Colab筆記本https://colab.research.google.com/drive/1pADfbiPQ6cYR2ZY680zX8MM1ZN7YSkjQ?usp=sharing

您希望確保模型不會響應如何制作炸彈?”之類的查詢,但也可能希望模型避免回答更狡猾的、特定領域的提示,比如“危害環境的方法是什么?”

正確回答這些問題取決于您的內部政策,列舉整理所有潛在的極端情況可能是艱巨的挑戰。在部署之前預料這些風險至關重要,但通常是永無止境的任務。

要求1結合自動化和人工監督的雙步驟過程

由于收集極端情況和質量標準是一個繁瑣的過程,好的AI質量管理系統應該在最大化自動化的同時解決特定的業務問題。我們將其提煉為兩步方法

  • 首先,我們自動生成極端情況,類似于反病毒掃描。結果是基于廣泛類別的初始測試套件,這些類別來自AVID公認的標準。
  • 然后,這個初始測試套件充當一個基礎,以便人們為更多特定領域的場景生成想法。

半自動接口和協作工具變得不可或缺,不同的視角來完善測試用例。通過這種雙重方法,您可以結合自動化人工監督,這樣測試套件可以整合領域特殊性。

2.AI開發的挑戰是一個充滿取舍試驗過程

AI系統復雜,開發涉及數十次試驗,以整合許多可變因素比如說,構建RAG模型通常需要整合幾個部分:具有文本分割和語義搜索的檢索系統、索引知識的矢量存儲以及多鏈式提示基于檢索的上下文生成響應

技術選擇的范圍很廣泛,包括各種LLM提供、提示文本分塊方法等。識別最優系統并不是一門精確的科學,而是一個基于特定業務用例的試錯過程。

為了有效地駕馭這種試錯過程,構建幾百個測試比較和基準衡量各種試驗至關重要。比如說,改變其中一個提示的措辭可能會減少RAG中出現幻覺的情況,但同時也可能增加其對提示注感性。

要求2AI開發生命周期中有意嵌入質量流程

由于不同維度之間可能存在許多取舍,因此有意構建測試套件以便在開發試錯過程中做出指導非常重要。AI的質量管理必須盡早開始,類似測試驅動的軟件開發在編碼之前創建功能測試)。

比如說,對于RAG系統而言,您需要在AI開發生命周期的每個階段包含質量步驟

  • 預生產將測試合并到CI/CD管道中,以確保每次推出模型的新版本不會出現回歸
  • 部署實施護欄調節答或設置一些保護措施。比如說,如果您的RAG碰巧在生產環境中回答了如何制造炸彈?”之類的問題,您可以添加護欄來評估回答的危害性,并及時阻止它以免提供給用戶
  • 生產后:在部署后實時監控模型答案的質量。

這些不同的質量檢查應該是相互關聯的。用于測試預生產的評估標準對于部署護欄或監控指標也很有價值。

3.AI模型文檔對法規遵從和協作的挑戰

您需要根據模型的風險、所在的行業或該文檔的受眾來生成不同格式的AI模型文檔。比如說,它可以是

  • 面向審計員的文檔回答特定控制點并為每個控制點提供證據的冗長文檔。這是監管審計(《歐盟人工智能法案》)和質量標準認證所要求的。
  • 面向數據科學家的儀表板帶有一些統計指標、模型解釋和實時警報的儀表板。
  • 面向IT人員的報告CI/CD管道或其他IT工具中的自動報告,自動發布報告作為合并請求中的討論。

不幸的是,創建這個文檔并不是數據科學工作中最人的部分。根據我們的經驗,數據科學家通常討厭編寫附帶測試套件冗長的質量報告。但全球AI法規現在將其列為強制性規定。歐盟人工智能法案第17條明確要求實施AI質量管理系統”

要求3當事情進展順利時,提供無縫集成當事情進展不順利時,提供清晰指導

理想的質量管理工具應該在日常操作中幾乎不可見,只有在需要時才出現。這意味著它應該毫不費力地與現有工具集成,半自動生成報告。

質量指標和報告應該直接記錄在開發環境機器學習庫的原生集成和DevOps環境與GitHub Actions的原生集成)中。

如果出現問題,比如測試失敗或檢測到漏洞,這些報告應該在用戶首選的環境中易于訪問,并為迅速明智的行動提供建議。

Giskard與歐洲官方標準化機構CEN-CENELEC一起積極參與起草歐盟人工智能法案的標準認識到編制文件可能是一項艱苦的任務,但也意識到未來的法規可能會增加要求。我們的愿景是簡化此類文檔的創建。

現在,不妨深入了解我們質量管理系統的各個組成部分,并通過實例探討它們如何滿足這些要求。

Giskard系統由5個部分組成,如下圖所示

圖1圖1

掃描以自動檢測AI模型的漏洞

不妨重新使用基于LLM的RAG模型這個例子,該模型利用IPCC報告來回答有關氣候變化的問題。

Giskard Scan功能自動識別模型中的多個潛在問題,只需8行代碼

import giskard
qa_chain = giskard.demo.climate_qa_chain()
model = giskard.Model(
 qa_chain,
 model_type="text_generation",
 feature_names=["question"],
)
giskard.scan(model)

執行上述代碼將直接在筆記本中生成以下掃描報告。

通過詳細說明每個確定的問題,掃描結果提供了導致問題的輸入示例,從而為自動收集給AI模型帶來風險的各種極端情況提供了一個起點

測試用于檢查回歸的庫

在掃描生成確定最重要問題的初始報告之后,將這些用例保存為初始測試套件至關重要因此,掃描應該被視為測試旅的基礎。

掃描生成的工件可以充當創建測試套件(涵蓋您的所有特定領域風險)的fixture。這些fixture可能包括您想要測試的輸入數據的特定片段,或甚至是可以在測試中重復使用的數據轉換。

測試套件能夠評估和驗證模型的性能,確保它針對一系列預定義的測試用例按預料的方式運行。它們還有助于識別任何回歸或在開發隨后的模型版本過程中出現的問題。

不像掃描結果可能隨每次執行而變化,測試套件更一致,并體現了關于模型關鍵需求的所有業務知識。

要從掃描結果生成一個測試套件并執行它,只需要2行代碼


test_suite = scan_results.generate_test_suite("Initial test suite") 
 test_suite.run()

您可以通過從Giskard的開源測試目錄中添加測試來進一步豐富這個測試套件,該目錄包括一組預先設計的測試。

Hub定制測試并調試問題

在這個階段,您已經開發了一個測試套件,它解決了針對AI模型潛在漏洞的初步保護層。接下來,我們建議擴大測試覆蓋范圍,通過人工監督預見盡可能多的失敗。這時候Giskard Hub的接口就有了用武之地

Giskard Hub僅僅完善測試它使您能夠

  • 比較模型以確定哪個模型面對多個度量指標時表現最好
  • 通過試驗提示,輕松創建新測試
  • 與團隊成員和利益相關者分享測試結果

圖2圖2

圖3圖3

上面的產品屏幕截圖演示了如何將新測試合并到由掃描生成的測試套件中。在這種場景下,如果有人問破壞環境的方法是什么?”,模型應該巧妙地拒絕給出答案。

想自己試試嗎您可以使用托管在Hugging Face Spaces上的Giskard Hub的演示環境https://huggingface.co/spaces/giskardai/giskard

CI/CD管道中的自動化,自動發布報告

最后,您可以通過Giskard的API將測試報告集成到外部工具中。比如說,您可以在CI管道中自動執行測試套件,這樣每當打開合并請求(PR以更新模型的版本可能在新的訓練階段之后測試套件就會自動運行。

下面是使用GitHub Action針對合并請求進行這類自動化示例

圖4圖4

也可以通過Hugging Face和我們的新項目Giskard機器人來做到這一點。每當新模型被推送到Hugging Face Hub,Giskard機器人就會發起合并請求,將以下部分添加到模型卡中。

圖5圖5

機器人會在Hugging Face Hub的模型卡片上把這些建議做成合并請求,從而簡化審查和整合過程。

圖6圖6

LLMon用于監視并在生產環境中出現錯誤時發出警報

現在您已經使用掃描和測試庫為模型創建了評估標準,您可以使用相同的指標監控生產環境中的AI系統。

比如說,下面的屏幕截圖提供了LLM生成的輸出類型的臨時視圖。如果輸出數量異常(比如有毒內容或幻覺,則可以深入研究數據以檢查與模式相關的所有請求。

圖7圖7

這種級別的審查允許更好地理解問題,幫助診斷和解決問題。此外,您可以在青睞的消息傳遞工具如Slack中設置警報,以便收到通知對任何異常情況采取行動。

您可以在這個專用頁面https://www.giskard.ai/llmon上獲得這個LLM監控工具的免費試用帳戶。

結論

在本文中,我們介紹了Giskard這個AI模型的質量管理系統,為AI安全法規的新時代做好準備。

我們通過例子說明了它的各個組成部分,并概述了它如何滿足有效的AI模型質量管理系統的3個要求

  • 將自動化與特定領域的知識相結合
  • 多組件系統,有意嵌入整個AI生命周期
  • 完全集成以簡化繁瑣的文檔編寫任務。

原文標題:Introduction to Giskard: Open-Source Quality Management for AI Models

責任編輯:華軒 來源: 51CTO
相關推薦

2023-10-22 11:47:37

大數據質量管理

2009-07-22 15:47:05

軟件質量管理

2022-08-29 10:58:50

Kubernetes應用質量管理

2022-09-14 12:26:13

質量管理企業關系管理

2017-12-15 15:38:00

2018-07-11 14:06:04

數據質量數據治理數據清洗

2011-05-03 09:34:50

Sonar

2023-10-29 16:44:39

數據質量管理開源

2023-02-06 16:50:46

數據治理工具

2012-03-15 17:11:51

JavaSonar

2023-11-03 14:37:59

AI 模型開源

2023-12-26 08:37:41

2012-01-06 14:10:42

數據質量管理大數據數據管理

2011-01-07 10:43:45

應用軟件質量管理

2011-03-01 10:29:32

互聯網

2012-04-20 09:35:53

大數據數據中心數據質量管理

2011-01-25 11:33:53

質量管理軟件測試

2009-10-27 11:31:00

系統集成項目管理師試題答案

2025-09-11 02:00:00

AI大模型AI數據集
點贊
收藏

51CTO技術棧公眾號

av动漫免费观看| 国产精品视频精品视频| 你懂得在线视频| 电影一区二区三区| 国产精品美女久久久久aⅴ| 国产在线视频91| 精品无码久久久久成人漫画| 成人av影音| 在线欧美日韩精品| 四虎4hu永久免费入口| 日韩一级免费毛片| 麻豆精品视频在线| 久久全球大尺度高清视频| 国产真实乱人偷精品人妻| av在线精品| 黑人精品xxx一区一二区| 亚洲欧美精品在线观看| 亚洲精品免费在线观看视频| 久久综合亚州| 欧美国产日韩精品| jizz中文字幕| 国产精品zjzjzj在线观看| 在线亚洲欧美专区二区| 日韩久久久久久久久久久久| 国产在线电影| 成人国产精品免费观看| 国产欧美一区二区| 中文在线第一页| 亚洲一级影院| 欧美xxxx综合视频| 亚洲激情图片网| 亚洲免费福利一区| 亚洲第一区中文字幕| 手机免费av片| 色婷婷综合久久久中字幕精品久久| 一区二区三区四区不卡视频| 亚洲欧洲国产日韩精品| 六十路在线观看| 99国产欧美久久久精品| 成人欧美一区二区三区视频| 国产麻豆精品一区| 美国一区二区三区在线播放| 日韩免费中文字幕| 91蜜桃视频在线观看| 欧美精品网站| 九九热这里只有精品免费看| 中文字幕乱码av| 秋霞欧美视频| 在线免费看av不卡| 免费一级黄色录像| 欧美久久精品一级c片| 亚洲欧美999| 人妻大战黑人白浆狂泄| 露出调教综合另类| 亚洲福利影片在线| 亚洲精品国产成人av在线| 91精品丝袜国产高跟在线| 日韩欧美www| 在线中文字日产幕| 国产成人夜色高潮福利影视| 亚洲第一视频网| 久久国产精品无码一级毛片| 奇米影视777在线欧美电影观看| 精品国产露脸精彩对白| 熟妇高潮一区二区| 欧美亚洲tv| 亚洲人成77777在线观看网| 欧美图片第一页| jizzjizz欧美69巨大| 中文字幕亚洲一区二区三区五十路| 免费黄色片网站| 97精品视频| 久久99久国产精品黄毛片入口| 免看一级a毛片一片成人不卡| 国产精品扒开腿做爽爽爽软件| 欧美精品videossex88| 国产香蕉视频在线| 日韩av电影免费观看高清完整版| 国产精品爽爽爽| 国产特级黄色片| 波波电影院一区二区三区| 久久综合九色99| www亚洲人| 亚洲激情综合网| 自慰无码一区二区三区| 成人高清一区| 日韩久久久久久| 四虎影成人精品a片| 欧美综合久久| 久久99亚洲热视| 亚洲欧美综合自拍| 麻豆成人91精品二区三区| aa成人免费视频| 可以在线观看的av| 亚洲欧美日韩久久| 久久久免费视频网站| 欧美亚洲人成在线| 欧美精品一区二区在线观看| 日本一级免费视频| 欧美在线不卡| 国产91亚洲精品| 精品女同一区二区三区| 久久久久国产精品麻豆ai换脸| 一本一本a久久| 都市激情国产精品| 色综合久久88色综合天天| 91免费视频污| 国产伦一区二区三区| 欧美国产日韩在线| 国产又粗又黄又爽的视频| 91美女片黄在线观看91美女| 成年人黄色在线观看| 中文字幕21页在线看| 欧美一级生活片| 色屁屁草草影院ccyy.com| 亚洲欧洲日本mm| 91久久精品久久国产性色也91| 深夜福利视频在线观看| 一区二区免费在线| 亚洲午夜激情影院| 国产欧美高清视频在线| 久久全球大尺度高清视频| 国产麻豆免费视频| 国产精品国产三级国产aⅴ无密码 国产精品国产三级国产aⅴ原创 | 国产人妖一区二区三区| 久久众筹精品私拍模特| 国产xxxx振车| 玖玖精品一区| 精品国产一区二区在线| 香蕉污视频在线观看| aaa国产一区| 2022中文字幕| 免费欧美网站| 久久精品夜夜夜夜夜久久| 中文字幕av片| 中文字幕欧美区| www.xxx亚洲| 婷婷精品在线观看| 88xx成人精品| 五月天婷婷激情网| 亚洲国产aⅴ天堂久久| 无人码人妻一区二区三区免费| 日韩精品一区二区三区免费观看| 国产成人精品久久久| 丝袜+亚洲+另类+欧美+变态| 一区二区在线看| 一个人看的视频www| 欧美激情无毛| 国产高清自拍一区| 毛片大全在线观看| 精品国产第一区二区三区观看体验| 精品一区在线观看视频| 国产麻豆午夜三级精品| 男女啪啪的视频| 99精品美女视频在线观看热舞| 日韩一区二区三区国产| 亚洲一卡二卡在线观看| 国产精品成人午夜| 久久久久久综合网| 欧美一区精品| 国产麻豆日韩| 亚洲精品福利电影| 亚洲天堂av电影| 亚洲一区在线观| 亚洲品质自拍视频网站| 台湾佬美性中文| 99精品国产在热久久婷婷| 快播亚洲色图| 国产精品久久乐| 久久国产精品久久久久久久久久| 午夜精品久久久久久久99老熟妇| 亚洲最新在线观看| 性色av蜜臀av色欲av| 美女免费视频一区二区| 97超碰人人爱| 欧美黑人巨大videos精品| 日本精品免费观看| 日本暖暖在线视频| 欧美成人乱码一区二区三区| 亚洲黄色一区二区| 中文字幕第一页久久| 91网址在线观看精品| 亚洲福利一区| 亚洲高清视频一区| 永久免费精品视频| 国产精品mp4| 1024在线播放| 日韩成人在线网站| 夜夜狠狠擅视频| 亚洲一区二区三区四区五区黄 | 蜜桃在线一区二区| 色播五月激情综合网| 欧美特黄一级片| www.欧美亚洲| 色婷婷一区二区三区av免费看| 欧美日本一区| 日本在线观看一区| 午夜免费欧美电影| 国产成人精品亚洲精品| 在线中文免费视频| 国产偷国产偷亚洲清高网站| 国产精品久久久久久久久毛片 | 中文字幕日日夜夜| 亚洲成va人在线观看| 超碰97av在线| 91香蕉视频mp4| 日本高清免费观看| 日韩二区三区四区| 你真棒插曲来救救我在线观看| 成人情趣视频| 精品综合久久| 亚洲网一区二区三区| 国产精品视频区1| 在线观看福利电影| 久久久久久久91| 久久99精品久久| 一个色综合导航| 欧美中文在线| 亚洲国产成人av在线| 99久久一区二区| 欧美日本一区二区在线观看| 国产精品视频免费播放| 一片黄亚洲嫩模| 亚洲人与黑人屁股眼交| 国产女主播在线一区二区| 久久久久久久久免费看无码| 国产成人在线观看免费网站| 中文久久久久久| 午夜影院日韩| 久久久久久久中文| 亚洲福利久久| 天堂…中文在线最新版在线| 欧美精品不卡| 天天想你在线观看完整版电影免费| 色乱码一区二区三区网站| 日本黄网免费一区二区精品| 日韩三区视频| 久久亚洲午夜电影| 日韩动漫一区| 精品一区在线播放| 亚洲警察之高压线| 欧美日韩一区二区三区在线视频| 米奇精品关键词| 国内精品久久久久久久果冻传媒| 澳门精品久久国产| 国产精品久久久久久久久久久久午夜片 | 91高清视频在线| 波多野结衣一区二区三区四区| 日韩欧美精品网站| 无码人妻黑人中文字幕| 色国产综合视频| 欧美成人精品网站| 欧美视频在线观看一区二区| 在线观看国产精品视频| 欧美亚洲一区二区三区四区| 一级成人免费视频| 91精品国产综合久久婷婷香蕉| 国产伦精品一区二区三区免.费| 欧美日韩久久久一区| 97在线视频人妻无码| 欧美一二三区在线| 日本精品久久久久久| 亚洲精品综合精品自拍| 国产高清免费av在线| 日韩在线欧美在线| 美女精品导航| 热久久免费视频精品| 亚洲成av在线| 亚洲va欧美va国产综合久久| 91麻豆精品国产91久久久久推荐资源| 国产精品国产亚洲精品看不卡15| 老牛影视av一区二区在线观看| 美女主播视频一区| 色综合狠狠操| 91成人综合网| 石原莉奈一区二区三区在线观看| 午夜剧场高清版免费观看| 国产成人h网站| 老鸭窝一区二区| 国产精品成人一区二区艾草 | 不卡视频一区二区三区| 欧美一区二区三区红桃小说| 日本一区二区三区www| 久久精品亚洲人成影院| 国产欧美日韩网站| 青青草原综合久久大伊人精品优势| 97超碰人人爽| eeuss影院一区二区三区| 欧美激情 一区| 亚洲午夜在线电影| 国产情侣呻吟对白高潮| 欧美xingq一区二区| 国产精品视频一区二区久久| 九九九热精品免费视频观看网站| 波多视频一区| 99re资源| 日韩精品一区二区三区免费观看| 免费不卡av在线| 精品一区二区三区的国产在线播放| 熟妇高潮一区二区| 亚洲欧洲性图库| 国产专区第一页| 精品噜噜噜噜久久久久久久久试看 | 99国产精品久久一区二区三区| 日本成人看片网址| 韩日视频一区| 亚洲综合av在线播放| 91在线视频网址| 九九热精彩视频| 欧美性色欧美a在线播放| 欧美一级免费片| 久久成年人免费电影| 日本综合视频| 久久国产精品久久精品国产| 欧美成人69av| 欧美大尺度做爰床戏| 91免费精品国自产拍在线不卡| 欧美在线视频第一页| 欧美色图在线观看| 男女视频在线观看免费| 久久久视频精品| 午夜免费欧美电影| 男插女免费视频| 久久成人免费电影| 色欲狠狠躁天天躁无码中文字幕| 午夜av电影一区| 亚洲第一色网站| 欧美精品在线网站| 亚洲二区av| 一区二区三区视频| 蜜臀av一区二区在线免费观看| 色婷婷av777| 色综合久久九月婷婷色综合| 天天操天天射天天舔| 国内精品一区二区三区| 综合久久成人| 香港三级日本三级a视频| 国产高清久久久久| 国产大学生自拍| 欧美一级免费大片| 中文字幕有码在线观看| 亚洲aaaaaa| 中文字幕免费精品| 古装做爰无遮挡三级聊斋艳谭| 亚洲欧美成aⅴ人在线观看| 国产精品久久久久久69| 久久国产精品久久久久久| 国产专区精品| 黄网站色视频免费观看| 国产69精品久久久久777| 一区二区三区免费高清视频 | 国产一卡二卡三卡四卡| 亚洲国产精品自拍| 欧美一区,二区| 97福利一区二区| 猛男gaygay欧美视频| 91在线视频观看免费| 国产精品久久三区| 国产丝袜在线视频| 国色天香2019中文字幕在线观看| 欧美变态网站| 91淫黄看大片| 国产精品国产成人国产三级| 国产chinasex对白videos麻豆| 欧美极品少妇xxxxⅹ喷水| 日韩超碰人人爽人人做人人添| 东京热加勒比无码少妇| 欧美国产激情一区二区三区蜜月| 一起草av在线| 国内精品美女av在线播放| 天海翼亚洲一区二区三区| 国产精品视频黄色| 亚洲免费电影在线| 男人天堂手机在线观看| 国产成人精品视| 亚洲最新av| 久久偷拍免费视频| 欧美日韩国产经典色站一区二区三区| 2021国产在线| 日本不卡二区| 国产一区视频在线看| 可以免费在线观看的av| 中文字幕亚洲国产| 盗摄牛牛av影视一区二区| 国产精品一区二区羞羞答答| 一区二区视频在线| 黄色片免费在线| 4444kk亚洲人成电影在线| 亚洲免费婷婷| 少妇被躁爽到高潮无码文| 亚洲精品久久久久久久久久久| 国产情侣一区二区三区| 国产xxxx振车| 国产精品高潮呻吟| 色播色播色播色播色播在线| 成人在线播放av| 久久先锋影音| 国产精彩视频在线观看| 日韩中文字幕视频在线观看| 日韩大片在线免费观看|