精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

如何測試大模型?

原創 精選
人工智能
盡管出現了驗證LLM應用的新技術,但這些技術都不易實施或提供確切的結果。目前,與RAG和LLM集成來構建應用程序可能相對容易,但與測試和支持改進工作相比,這僅僅是冰山一角。?

出品 | 51CTO技術棧(微信號:blog51cto)

圍繞使用AI助手減少手動工作、利用代碼生成器提高軟件開發者生產力和通過生成式AI進行創新,業界正掀起一股熱潮。這些商業機遇促使許多開發團隊構建知識庫,使用向量數據庫,并將大型語言模型(LLMs)嵌入到他們的應用中。

構建具有LLM功能的應用程序的一些通用用例包括搜索體驗、內容生成、文檔摘要、聊天機器人和客戶服務應用。行業實例包括在醫療保健領域開發患者門戶、在金融服務領域改善初級銀行家的工作流程,以及在制造業中為工廠的未來鋪平道路。

投資于LLMs的公司面臨一些初步挑戰,包括改進數據質量方面的數據治理、選擇LLM架構、解決安全風險以及制定云基礎設施計劃。

我更擔心的是組織如何計劃測試他們的LLM模型和應用。引起關注的問題包括一家航空公司兌現了其聊天機器人提供的退款、因版權侵權而引發的訴訟以及降低“幻覺”風險。

Roadz公司的聯合創始人兼首席運營官阿米特·杰恩(Amit Jain)表示:“測試LLM模型需要一種多方面的方法,這超出了技術嚴謹性的范疇。團隊應該進行迭代改進,并創建詳細的文檔,以記錄模型的開發過程、測試方法和性能指標。與研究社區合作,以基準測試和分享最佳實踐也是有效的。”

1.嵌入式大型語言模型(LLMs)的四種測試策略

開發團隊需要一套針對LLM的測試策略。在為嵌入在自定義應用中的LLMs制定測試策略時,可以考慮以下作為起點的實踐方法:

  • 創建測試數據以擴展軟件質量保證
  • 自動化模型質量和性能測試
  • 根據用例評估RAG質量
  • 制定質量指標和基準

2.創建測試數據以擴展軟件質量保證

大多數開發團隊不會創建通用的大型語言模型,而是為特定的最終用戶和使用場景開發應用。為了制定測試策略,團隊需要了解涉及的用戶角色、目標、工作流程和質量基準。“測試LLMs的首要要求是了解LLM應能夠解決的任務,”Mindbreeze的首席技術官Jakob Praher說,“對于這些任務,人們會構建測試數據集,以建立LLM性能的指標。然后,人們可以系統地優化提示或微調模型。”

例如,一個為客戶服務設計的大型語言模型可能包含一個包含常見用戶問題和最佳響應的測試數據集。其他LLM用例可能沒有直接評估結果的手段,但開發人員仍可以使用測試數據進行驗證。“測試LLM最可靠的方法是創建相關的測試數據,但挑戰在于創建此類數據集的成本和時間,”Solix Technologies的工程副總裁Kishore Gadiraju說,“與其他軟件一樣,LLM測試包括單元測試、功能測試、回歸測試和性能測試。此外,LLM測試還需要進行偏差、公平性、安全性、內容控制和可解釋性測試。”

Gadiraju分享了以下LLM測試庫和工具:

AI Fairness 360,一個開源工具包,用于檢查、報告和緩解機器學習模型中的歧視和偏見;

DeepEval,一個類似于Pytest但專用于LLM輸出單元測試的開源LLM評估框架;

Baserun,一個用于幫助調試、測試和迭代改進模型的工具;

Nvidia NeMo-Guardrails,一個為LLM輸出添加可編程約束的開源工具包。

IBM數據和人工智能部門的數據科學工具和運行時主管Monica Romila分享了企業在使用LLM時的兩個測試領域:

模型質量評估使用學術和內部數據集評估模型質量,用于分類、提取、摘要、生成和增強生成(RAG)等用例。

模型性能測試驗證模型的延遲(數據傳輸所用時間)和吞吐量(在特定時間段內處理的數據量)。

Romila表示,性能測試取決于兩個關鍵參數:并發請求的數量和生成的令牌數量(模型使用的文本塊)。“測試各種負載大小和類型,并將性能與現有模型進行比較,以查看是否需要更新,這一點很重要。”

DevOps和云架構師應考慮進行LLM應用程序的性能和負載測試所需的基礎設施要求。SADA解決方案工程部總經理Heather Sundheim表示:“為大型語言模型部署測試基礎設施涉及設置強大的計算資源、存儲解決方案和測試框架。自動化配置工具(如Terraform)和版本控制系統(如Git)在可重復部署和有效協作中發揮著關鍵作用,強調了平衡資源、存儲、部署策略和協作工具對于可靠LLM測試的重要性。”

3.根據用例評估RAG質量

提高LLM準確性的一些技術包括集中內容、用最新數據更新模型以及在查詢流程中使用RAG。RAG對于將LLM的強大功能與公司的專有信息相結合至關重要。

在典型的LLM應用中,用戶輸入提示,應用程序將其發送到LLM,然后LLM生成響應,應用程序再將響應發送回用戶。使用RAG時,應用程序首先將提示發送到信息數據庫(如搜索引擎或向量數據庫),以檢索相關和主題相關的信息。應用程序將提示和這種上下文信息發送到LLM,LLM用它來制定響應。因此,RAG將LLM的響應限制在相關和上下文信息范圍內。

Pryon公司的創始人兼首席執行官Igor Jablokov表示:“RAG更適用于企業級部署,在這些部署中,需要對源內容進行可驗證的歸因,尤其是在關鍵基礎設施中。”

研究表明,使用RAG與LLM一起可以減少幻覺并提高準確性。但是,使用RAG也增加了一個新組件,需要對其相關性和性能進行測試。測試的類型取決于評估RAG和LLM響應的難易程度,以及開發團隊能夠在多大程度上利用最終用戶的反饋。

我最近與Forethought公司的首席執行官Deon Nicholas就他公司用于生成式客戶支持AI的RAG評估選項進行了交流。他分享了三種不同的方法:

(1)黃金標準數據集,即針對查詢的正確答案的人類標注數據集,可作為模型性能的基準;

(2)強化學習,即在真實場景中測試模型,例如在用戶與聊天機器人交互后詢問其滿意度;

(3)對抗網絡,即訓練一個二級LLM來評估一級LLM的性能,這種方法通過不依賴人類反饋提供自動化評估。

Nicholas表示:“每種方法都有其取舍,需要在人類投入和忽略錯誤的風險之間取得平衡。最佳的系統會跨系統組件利用這些方法,以最小化錯誤并促進穩健的AI部署。”

4.制定質量指標和基準

一旦你有了測試數據、新的或更新的大型語言模型(LLM)以及測試策略,下一步就是根據既定的目標驗證質量。

ContractPodAi的首席產品官阿提娜·雷哈尼(Atena Reyhani)表示:“為確保開發出安全、可靠和值得信賴的人工智能,制定具體、可衡量的關鍵績效指標(KPIs)和建立明確的防護欄至關重要。需要考慮的一些標準包括準確性、一致性、速度和與特定領域用例的相關性。開發人員需要評估目標領域中的整個LLM生態系統和運營模型,以確保其能夠提供準確、相關且全面的結果。”

值得借鑒的一個工具是Chatbot Arena,它是一個開放的環境,用于比較LLM的結果。它采用Elo評級系統,這是一種常用于競技游戲排名玩家的算法,但在評估不同LLM算法或版本產生的響應時,它同樣奏效。

Immuta的研究副總裁喬·雷根斯伯格(Joe Regensburger)表示:“人類評估是測試的核心部分,特別是在將LLM強化以適應現實世界中出現的查詢時。Chatbot Arena是眾包測試的一個例子,這類人類評估者研究可以提供重要的反饋循環,以便整合用戶反饋。”

IBM數據與人工智能部門的羅米拉(Romila)分享了根據LLM的不同用例需要考慮的三個指標。

(1)F1分數是精確度和召回率的綜合得分,適用于LLM用于分類或預測的情況。例如,客戶支持LLM可以通過評估其推薦行動方案的準確性來進行評估。

(2)RougeL可用于測試RAG和LLM在摘要用例中的性能,但通常需要一個由人類創建的摘要作為基準來評估結果。

(3)sacreBLEU原本是一種用于測試語言翻譯的方法,現在也被用于對LLM響應進行定量評估,以及其他方法,如TER、ChrF和BERTScore。

一些行業有特定的質量和風險指標需要考慮。Aisera的產品管理和營銷副總裁Karthik Sj表示:“在教育領域,評估年齡適宜性和避免毒性內容至關重要,但在面向消費者的應用中,應優先考慮響應的相關性和延遲。”

模型部署后并不意味著測試結束,數據科學家應尋求最終用戶的反應、性能指標和其他反饋,以改進模型。Amplitude的工程副總裁兼首席信息安全官Dustin Pearce表示:“部署后,將結果與行為分析相結合變得至關重要,它提供了快速反饋和更清晰的模型性能衡量標準。”

為生產準備的一個重要步驟是在應用程序中使用特性開關。AI技術公司Anthropic、Character.ai、Notion和Brex在構建產品時都使用了特性開關,以便協作測試應用程序,逐步向大量用戶引入功能,并針對不同的用戶群體進行定向實驗。

盡管出現了驗證LLM應用的新技術,但這些技術都不易實施或提供確切的結果。目前,與RAG和LLM集成來構建應用程序可能相對容易,但與測試和支持改進工作相比,這僅僅是冰山一角。

想了解更多AIGC的內容,請訪問:

51CTO AI.x社區

http://m.jxzklqfsx.com/aigc/

責任編輯:武曉燕 來源: 51CTO技術棧
相關推薦

2024-04-16 16:14:01

人工智能LLMRAG

2025-10-24 16:12:25

2025-07-29 02:55:00

語言模型反向圖靈

2023-10-28 13:29:27

2024-01-19 16:56:04

軟件測試

2023-11-03 07:47:12

機器資源大模型:

2023-09-25 10:19:01

模型App開源

2024-05-29 10:31:52

2023-10-20 17:53:05

2023-11-03 15:28:28

AITestin云測

2025-04-01 09:54:09

AI算法大模型AI

2023-09-05 16:51:48

算力

2024-09-13 12:33:57

2023-10-27 07:49:33

AI大模型

2025-08-12 09:23:34

2023-09-13 14:45:14

性能測試開發
點贊
收藏

51CTO技術棧公眾號

9191国产精品| 视频一区二区三区在线观看| www.精品在线| 日本电影全部在线观看网站视频| 精品一区精品二区高清| 久久久久久91| www亚洲色图| 香蕉大人久久国产成人av| 欧美性猛交xxxxx免费看| 亚洲欧美国产精品桃花| 狠狠躁日日躁夜夜躁av| 日韩—二三区免费观看av| 欧美理论电影在线观看| 日本精品在线观看视频| 日韩视频一区二区三区四区| 日韩欧美亚洲成人| 无码毛片aaa在线| 可以在线观看的黄色| 国产精品123| 国产激情视频一区| 日本视频www| 欧美成人激情| 亚洲人在线观看| av免费观看不卡| 国产95亚洲| 在线中文字幕一区二区| 国产无限制自拍| 菠萝菠萝蜜在线观看| 久久久777精品电影网影网| a级国产乱理论片在线观看99| 中文字幕资源网| 久久精品卡一| 国内精品小视频| 九九热视频精品| 亚洲香蕉av| 日韩在线视频网| 精品一区二区三区蜜桃在线| 伊人久久大香线蕉无限次| 精品捆绑美女sm三区| 亚洲美女性囗交| 毛片毛片毛片毛| 日韩激情视频在线播放| 国产成人啪精品视频免费网| 九九免费精品视频| 天天影视欧美综合在线观看| 亚洲欧洲视频在线| 亚洲国产精品自拍视频| 精品少妇一区| 亚洲黄色片网站| 怡红院一区二区| 艳母动漫在线免费观看| 一区二区三区在线视频播放| 影音先锋久久久| 欧美日韩在线播放一区| 国产第一页视频| xxxxxx欧美| 国产精品大片免费观看| 欧美第一区第二区| 三级黄色片免费观看| 亚洲日日夜夜| 91精品国产色综合久久ai换脸 | 四虎影院在线播放| 国精产品一品二品国精品69xx | 久久激情免费视频| 亚洲女同中文字幕| 九九精品视频在线| 国产在线成人精品午夜| 在线视频观看日韩| 国产91av在线| 精品成人无码久久久久久| 日韩激情一二三区| 国产精品尤物福利片在线观看| 中文字幕永久在线观看| 精品一区二区三区欧美| 96国产粉嫩美女| 亚洲美女性生活| 91在线看国产| 视频一区二区在线观看| 国产色在线观看| 亚洲成人在线免费| 精品国产成人av在线免| 国产伊人久久| 精品少妇一区二区三区| 精品夜夜澡人妻无码av| 欧洲美女日日| 久久99久久亚洲国产| av黄色在线看| 麻豆国产欧美一区二区三区| 亚洲精品欧美极品| 四虎国产精品永远| 一区二区中文视频| 青青草精品视频在线| 综合在线影院| 精品久久国产97色综合| 亚洲码无人客一区二区三区| 亚洲综合激情在线| 欧美夜福利tv在线| 国产又黄又大又粗的视频| 成年人午夜久久久| 一本一生久久a久久精品综合蜜 | 日本道不卡免费一区| 九九热最新视频//这里只有精品 | 日韩精品成人一区二区三区| 91视频88av| 久久久久久久久亚洲精品| 国产精品福利一区二区三区| 国产精品无码电影在线观看| 成人午夜精品| 精品国产不卡一区二区三区| 纪美影视在线观看电视版使用方法| 欧美日本亚洲韩国国产| 国产精品综合久久久| 日日躁夜夜躁白天躁晚上躁91| 91精品国产品国语在线不卡| 日韩精品在线影院| 国产亚洲精品精品精品| 欧美午夜电影在线观看| 国产精品久久久| 久久综合久久色| 2019中文字幕免费视频| 黄色一区二区在线| 亚洲国产精品久久不卡毛片| 国产精品96久久久久久| 亚洲精品无遮挡| 国产精品区一区二区三区| 国产69精品久久久久999小说| 国产原创一区| 日韩精品中文字| 国产精品二区一区二区aⅴ| 久久精品久久99精品久久| 老牛影视免费一区二区| 久久五月精品中文字幕| 在线不卡a资源高清| 在线观看福利片| 一本一本久久| 国产欧美丝袜| 综合图区亚洲| 日韩欧美在线影院| 欧美老熟妇一区二区三区| 免费人成精品欧美精品| 欧美一区二区三区成人久久片 | 1024av视频| 奇米影音第四色| 国产精品一区二区3区| 日韩欧美一区二区视频| 99在线高清视频在线播放| www.在线视频.com| 欧美日韩午夜剧场| 你懂得在线视频| 亚洲青涩在线| 国产视频一区二区三区四区| 欧美hdxxxx| 欧美白人最猛性xxxxx69交| 私库av在线播放| 国产乱人伦偷精品视频免下载| 一道精品一区二区三区| 在线观看欧美| 欧美精品在线看| 国产不卡av在线播放| 一区二区成人在线视频| 韩国黄色一级片| 亚洲国产电影| 欧美二区在线看| 成人免费av电影| 日韩专区在线播放| 精品国产亚洲av麻豆| 亚洲午夜影视影院在线观看| 亚洲日本久久久| 国产一区二区三区久久| 欧美日韩日本网| 日韩黄色三级| 欧美激情乱人伦一区| 天天爱天天干天天操| 色婷婷亚洲精品| 成年人免费视频播放| 伦xxxx在线| 国模精品一区二区| 欧美挤奶吃奶水xxxxx| 亚洲人成欧美中文字幕| 中文字幕 亚洲视频| 中文字幕五月欧美| 丰满少妇一区二区三区专区| 亚洲综合中文| 777xxx欧美| 国产小视频自拍| 精品伊人久久久久7777人| 国产成人在线小视频| 奇米777国产一区国产二区| 国产精品福利在线观看| dj大片免费在线观看| 日韩激情视频在线播放| 一级日韩一级欧美| 亚洲一区日韩精品中文字幕| 亚洲最大成人网站| 国产综合色视频| 国产在线精品91| 91免费精品| 国内一区二区三区在线视频| 岛国一区二区| 高清欧美电影在线| 爱久久·www| 精品欧美一区二区在线观看| 99成人精品视频| 亚洲综合色视频| 欧美福利第一页| 成人免费视频视频在线观看免费| 欧美黑人又粗又大又爽免费| 永久91嫩草亚洲精品人人| 欧美精品久久久| 999精品视频在这里| 国产精品视频男人的天堂| 免费电影网站在线视频观看福利| 在线观看视频99| 日韩一区二区三区在线观看视频 | 精品无码av在线| 国产欧美精品一区| 中文字幕在线观看的网站| 国产精品一区二区无线| 中文字幕国内自拍| 鲁大师影院一区二区三区| 欧美一级视频在线播放| 我不卡伦不卡影院| 亚洲不卡1区| 精品丝袜久久| 国产精品视频免费一区二区三区| 伊人久久大香伊蕉在人线观看热v 伊人久久大香线蕉综合影院首页 伊人久久大香 | 国产精选一区| 精品国产乱码久久久久久88av | 成人做爰视频网站| 久久影院午夜片一区| av电影在线播放| 国产黄色精品视频| 日本高清一区二区视频| 欧美aaaaaa午夜精品| 国产乱子夫妻xx黑人xyx真爽| 影音先锋亚洲电影| av动漫在线播放| 中文一区一区三区免费在线观看| 亚洲一区二区三区免费观看| 国产探花一区在线观看| 欧美一级二级三级| 一本色道久久综合狠狠躁的番外| 久久日韩精品| 欧美人妖在线| 日韩aⅴ视频一区二区三区| 免费观看久久av| 欧美高清视频一区| 精品国产99| 午夜精品一区二区在线观看| 国产亚洲欧美日韩在线观看一区二区 | 精品视频一区在线| 日韩av资源网| 免费av在线一区二区| 在线日本制服中文欧美| 日本精品一区二区三区视频| 精品国产乱码久久久| 亚洲精品日韩在线观看| 久久一区二区中文字幕| 99精品一区二区三区的区别| 一本精品一区二区三区| 屁屁影院ccyy国产第一页| 精品动漫一区| 久草精品在线播放| 毛片av中文字幕一区二区| 欧洲在线免费视频| 成人污视频在线观看| 中文人妻一区二区三区| 国产片一区二区| 亚洲欧美卡通动漫| 亚洲综合视频在线观看| 国产又大又黄视频| 欧美伊人久久久久久久久影院 | 国产欧美综合一区| 欧美精品97| 97成人在线观看视频| 蜜桃精品在线观看| av电影中文字幕| 久久综合网色—综合色88| 黄色裸体一级片| 洋洋av久久久久久久一区| 日韩视频在线观看一区| 欧美三级中文字幕| 亚洲精品综合久久| 亚洲天堂av在线播放| 成人黄色网址| 欧美一级bbbbb性bbbb喷潮片| 欧美在线se| 精品免费一区二区三区蜜桃| 成人高清电影网站| 日韩在线观看a| 三级精品在线观看| 一二三区视频在线观看| 国产亚洲人成网站| 国产一级中文字幕| 欧美在线观看一二区| 亚洲春色一区二区三区| 国产一区二区三区视频| 日韩av毛片| 国产精品日韩专区| 久久久免费毛片| 美女在线免费视频| 日韩黄色免费电影| 精品1卡二卡三卡四卡老狼| 国产精品第四页| 国产精品777777| 欧美成人a∨高清免费观看| 北岛玲一区二区三区| 91av在线视频观看| 午夜电影一区| 中文字幕一区二区三区最新| 亚洲一区二区三区高清不卡| 色偷偷中文字幕| 国产精品视频免费| 好吊色在线视频| 亚洲经典中文字幕| 在线免费观看a视频| 国产精品视频免费观看www| 亚洲69av| 人妻av中文系列| 国产+成+人+亚洲欧洲自线| 精品在线观看一区| 在线影院国内精品| 免费在线黄色电影| 亚州国产精品久久久| 日韩精品久久久久久久软件91| 午夜一区二区三视频在线观看| 99热这里只有精品8| www日本在线观看| 国产精品第五页| 91成人国产综合久久精品| 亚洲性生活视频| 88xx成人免费观看视频库 | 又色又爽又黄18网站| 亚洲女同一区二区| 国产精品女同一区二区| 日韩在线视频观看| 色综合久久久| 亚洲一区美女| 久久精品99久久久| 青青青视频在线免费观看| 欧洲视频一区二区| 成年人在线视频免费观看| 国产精品第10页| 精品72久久久久中文字幕| 日韩av资源在线| 久久久精品国产99久久精品芒果| 好看的av在线| 亚洲精品小视频在线观看| 最新欧美色图| 日韩亚洲视频在线| 免费在线观看日韩欧美| 永久免费未视频| 欧美一区二区三区免费观看视频| 久操免费在线| 99re6热在线精品视频播放速度| 你懂的国产精品永久在线| 亚洲911精品成人18网站| 亚洲一区日韩精品中文字幕| 天天操天天操天天| 国产成人精品免费久久久久| 日韩成人精品一区| 中文字幕第一页在线视频| 亚洲三级电影网站| 亚洲黄色在线观看视频| 97香蕉超级碰碰久久免费的优势| 日韩av不卡一区| 在线免费观看av的网站| 亚洲天堂久久久久久久| 国产精品69页| 久久国产精品99精品国产| 日韩成人短视频| 日韩久久久精品| 免费在线小视频| 日韩三级电影网站| 精品一区精品二区高清| 国产一级av毛片| 亚洲人成毛片在线播放| 99re8精品视频在线观看| 欧美久久久久久久久久久久久久| 99久免费精品视频在线观看 | 一本色道88久久加勒比精品| 国产偷人妻精品一区| 欧美日韩一区二区三区视频| 尤物视频在线看| 久久精品第九区免费观看 | 免费看91视频| 日韩欧亚中文在线| 欧美成人三区| 久草精品电影| 久久福利视频一区二区| 日本三级黄色大片| 色婷婷综合成人av| 欧亚精品一区| 一级网站在线观看| 都市激情亚洲色图| 尤物在线网址| 亚洲一区二区精品在线| 91影院在线免费观看| 99精品在线视频观看| 浅井舞香一区二区|