精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

給大模型評分的基準靠譜嗎?Anthropic來了次大評估

人工智能 新聞
在大模型(LLM)盛行的當下,評估 AI 系統成為了重要的一環,在評估過程中都會遇到哪些困難,Anthropic 的一篇文章為我們揭開了答案。

現階段,大多數圍繞人工智能 (AI)對社會影響的討論可歸結為 AI 系統的某些屬性,例如真實性、公平性、濫用的可能性等。但現在面臨的問題是,許多研究人員并沒有完全意識到建立穩健可靠的模型評估是多么困難。當今許多現有的評估套件在各個方面的表現都很有限。

AI 初創公司 Anthropic 近日在其官方網站上貼出了一篇文章《評估 AI 系統所面臨的挑戰》。文中寫道,他們花了很長的時間來構建對 AI 系統的評估,從而更好地理解 AI 系統。

圖片

文章地址:https://www.anthropic.com/index/evaluating-ai-systems

本文主要從以下幾個方面展開討論:

  • 多項選擇評估(Multiple choice evaluations);
  • 利用第三方評估框架,如 BIG-bench 和 HELM;
  • 讓工作人員來衡量模型是有益的還是有害的;
  • 讓領域專家對相關威脅進行紅隊分析(red team);
  • 使用生成式 AI 來開發評估方法;
  • 與非營利組織合作,審核模型是否具有危害。

多項選擇評估面臨的挑戰

多項選擇評估看似簡單,其實不然。本文討論了模型在 MMLU(Measuring Multitask Language Understanding)和 BBQ(Bias Benchmark for QA)基準上的挑戰。

MMLU 數據集

MMLU 是一個包含 57 個多選問答任務的英文評測數據集,涵蓋數學、歷史、法律等,是目前主流的 LLM 評測數據集。準確率越高,意味著模型的能力越強。但本文發現使用 MMLU 存在四個挑戰:

1. 由于 MMLU 被廣泛使用,因而就不可避免的遇到這種情況,模型在訓練過程中更容易將 MMLU 數據納入進來。這和學生在考試前看到題目是一樣的 —— 這是作弊。

2. 對簡單的格式變化敏感,例如將選項從 (A) 更改為 (1),或者在選項和答案之間添加額外的空格,這些做法都可能導致評估準確率約有 5% 的浮動。

3. 一些開發人員有針對性的來提高 MMLU 分數,例如少樣本學習或思維鏈推理。因此,在比較各個實驗室的 MMLU 分數時必須非常小心。

4.MMLU 可能沒有經過仔細的校對 —— 有研究者在 MMLU 中發現了標簽錯誤或無法回答的例子。

由于上述問題,因而在進行這種簡單且標準化的評估時,有必要事先做出判斷和思考。本文表明,在使用 MMLU 中遇到的挑戰通常也適用于其他類似的多項選擇評估。

BBQ

多項選擇評估還可以衡量一些 AI 危害。具體而言,Anthropic 的研究者為了在自家模型 Claude 中衡量這些危害,他們使用了 BBQ 基準(用于評估模型對人群偏見的常用基準)。在將此基準與幾個類似的評估進行比較后,本文才確信 BBQ 提供了一個很好的衡量社會偏見的方法。這項工作花了他們幾個月的時間。

本文表示,實施 BBQ 比預期要困難得多。首先是找不到一個可用的 BBQ 開源實現,Anthropic 最好的工程師花了一個星期的時間來執行和測試評估。與 MMLU 中按照準確率評估不同,BBQ 中的 bias 得分需要細微差別和經驗來定義、計算和解釋。

BBQ bias 得分范圍從 - 1 到 1,其中 1 表示有明顯的刻板偏見,0 表示沒有偏見,-1 表示有明顯的反刻板偏見。在實現 BBQ 之后,本文發現一些模型 bias 得分為 0,這一結果也讓研究者感到樂觀,表明他們在減少有偏見的模型輸出方面取得了進展。

第三方評估框架

最近,第三方一直在積極開發評估套件。到目前為止,Anthropic 已經參與了其中的兩個項目:BIG-bench 和斯坦福大學的 HELM(Holistic Evaluation of Language Models)。盡管第三方評估看起來很有用,但這兩個項目都面臨新的挑戰。

BIG-bench

BIG-bench 包含 204 項評估,由 450 多名研究者合作完成,涵蓋從科學到社會推理的一系列主題。Anthropic 表示他們在使用這個基準時遇到了一些挑戰:為了安裝 BIG-bench,他們耗費了大量的時間。BIG-bench 不像 MMLU 那樣即插即用 —— 它甚至比使用 BBQ 更多的努力來實施。

BIG-bench 無法有效的擴展,想要全部完成 204 項評估具有很大的挑戰性。因而需要重新編寫,以便與使用的基礎設施很好地配合,工作量巨大。

此外,在實施過程中,本文發現評估中存在一些 bug,使用起來非常不便利,因此 Anthropic 的研究人員在這次實驗后放棄了它。

HELM:自上而下地策劃一組評估

BIG-bench 是一項「自下而上」的工作,任何人都可以提交任何任務,然后由一組專家組織者進行有限的審查。而 HELM 則采用「自上而下」的方法,由專家決定用什么任務評估模型。 

具體來說,HELM 在推理場景、含虛假信息場景等多個場景中評估模型,采用準確性、穩健性、公平性等標準指標。Anthropic 為 HELM 開發人員提供 API 訪問權限,以便在其模型上運行基準測試。

相比于 BIG-bench,HELM 有兩個優勢:1)它不需要進行大量的工程工作,2)可以依靠專家來選擇和解釋特定的高質量評估。

然而,HELM 也帶來了一些挑戰。適用于評估其他模型的方法不一定適用于 Anthropic 的模型,反之亦然。例如,Anthropic 的 Claude 系列模型經過訓練,遵循特定的文本格式,稱為 Human/Assistant 格式。Anthropic 內部評估其模型時會遵循這種特定格式。如果不遵循這種格式,Claude 有時就會給出不尋常的回答,從而使標準評估指標的結果不太可信。

此外,HELM 需要很長的時間才能完成,評估新模型可能需要幾個月的時間,并且需要與外部各方進行協調和溝通。

人工智能系統是為了與人進行開放式動態交互而設計的,那么如何對模型進行更接近現實應用的評估?

眾包人員進行 A/B 測試

目前,領域內主要(但不完全)依賴一種基本類型的人類評估 —— 在眾包平臺上進行 A/B 測試,人們在其中與兩個模型進行開放式對話,并從模型 A 或 B 中選擇響應更有幫助或更無害,根據模型的有用性或無害性對模型進行排名。這種評估方法的優點是與現實環境相對應,并允許對不同的模型進行排名。

然而,這種評估方法有一些局限性,實驗運行起來既昂貴又耗時。

首先,這種方法需要與第三方眾包平臺合作并為其付費,為模型構建自定義 Web 界面,為 A/B 測試人員設計詳細的說明,還要分析和存儲結果數據,并解決雇用眾包人員帶來的道德挑戰。

在無害性測試情況下,實驗還存在使人們接觸有害輸出的風險。人類評估的結果可能還會因人類評估者的特征存在很大差異,包括人類評估者的創造力水平、動機以及識別所測試系統潛在缺陷的能力。

此外,有用和無害之間存在固有的張力。系統可以通過提供無用的響應(例如「抱歉,我無法幫助您」)來降低有害性。

有用與無害之間的正確平衡是什么?什么指標數值表明模型足夠有用且無害?諸多問題需要領域內研究者做更多工作來找到答案。

了解更多內容,請參考原文章。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-07-25 13:10:54

大模型文心大模型百度

2020-11-09 09:28:49

WiFi 7WIFI6網絡

2025-01-10 10:30:00

大模型統計評估

2025-10-15 14:02:29

AI模型自動駕駛

2024-10-22 14:20:00

AI模型

2017-04-18 20:09:14

數據分析電影評分

2024-04-11 14:12:53

2019-03-21 12:10:56

騰訊管理年輕化

2014-02-11 09:25:09

2019-04-29 10:38:13

程序員AI輔助編程

2015-12-29 10:10:04

私有云虛擬化公共云

2012-10-22 11:14:05

SDNOpenFlow網絡管理

2023-05-08 15:36:50

模型AI

2013-12-30 16:22:40

Windows 9概念設計

2016-11-22 17:26:11

開源PowerShellLinux

2015-07-31 10:16:17

2021-01-12 14:24:26

Python開發大數據

2020-02-10 17:55:32

疫情模型靠譜

2024-05-27 12:45:53

2014-12-30 10:20:24

飛機WiFi
點贊
收藏

51CTO技術棧公眾號

麻豆视频在线观看免费| 久久久久久久九九九九| 成人性生活视频| 久久久91精品国产一区二区三区| 日本精品久久中文字幕佐佐木| 中文字幕一区二区三区人妻| 美女网站视频一区| 国产精品素人一区二区| 97久久天天综合色天天综合色hd| 久久久久久久久久一区二区三区| 久久大胆人体视频| 欧美综合欧美视频| wwwwww欧美| 九九热视频在线观看| 精品一区二区三区在线播放| 国模精品视频一区二区| 亚洲图片另类小说| 国产午夜久久av| 精品久久香蕉国产线看观看亚洲 | 91福利免费视频| 欧美激情aⅴ一区二区三区| 亚洲精品国产精品国自产在线| 欧美日韩亚洲自拍| 91探花在线观看| 国产精品视频在线看| 国产亚洲自拍偷拍| 97超视频在线观看| 久久激情综合| 欧美成人网在线| 微拍福利一区二区| 91成人短视频| 欧美剧情片在线观看| 欧美牲交a欧美牲交| caoporm免费视频在线| 久久久久久久电影| 国产一区二区三区黄| 国产精品探花视频| 美女mm1313爽爽久久久蜜臀| 97婷婷涩涩精品一区| 麻豆精品国产免费| 国产亚洲第一伦理第一区| 精品乱人伦一区二区三区| 亚洲精品国产一区二区三区| 日本一区免费网站| 欧美色另类天堂2015| 免费的一级黄色片| 黄色网址在线免费| 中文在线免费一区三区高中清不卡| 国产福利不卡| www.日本在线观看| 精品亚洲免费视频| 国产精品一区二区久久久| 免费看一级视频| 免费亚洲婷婷| 热久久这里只有精品| 日韩精品人妻中文字幕| 亚洲国产mv| 久久久久久18| 久久久久久久久久综合| 黑人一区二区三区四区五区| 久久99精品久久久久久青青91 | 欧美男gay| 亚洲欧美成人一区二区在线电影| 最近日本中文字幕| 日韩av不卡一区| 亚洲精品久久久久久久久| 国产女人18毛片水真多18| 成人资源在线| 亚洲成人中文字幕| 国产肉体xxxx裸体784大胆| 狼人精品一区二区三区在线| 日韩av在线电影网| 黄色短视频在线观看| 欧美色资源站| 亚洲欧美日韩精品久久奇米色影视| 日本黄色网址大全| 国产成人精品三级高清久久91| 亚洲欧美日韩一区二区三区在线| 中文字幕在线观看免费高清| 日韩片欧美片| 欧美xxxx14xxxxx性爽| 久草视频在线资源| 亚洲毛片在线| 国产精品成人v| 中文字幕人成人乱码亚洲电影| 久久精品国产精品青草| 96久久精品| 手机看片一区二区| 国产日韩在线不卡| 亚洲 欧洲 日韩| 午夜小视频在线观看| 亚洲国产成人av好男人在线观看| 黄色大片中文字幕| 素人一区二区三区| 日韩美女主播在线视频一区二区三区| 欧美在线一级片| 欧美日韩亚洲在线观看| 久久久精品日本| 国产网站在线看| 日韩电影免费在线看| 成人免费网视频| 日本黄色一区二区三区| 久久精品亚洲精品国产欧美| 黄频视频在线观看| 国产夫妻在线| 欧美日韩国产综合一区二区三区| 中文字幕人妻无码系列第三区| 国产无遮挡裸体免费久久| 国产午夜精品一区理论片飘花| 日韩一区二区不卡视频| 男人的天堂成人在线| 91免费人成网站在线观看18| 亚洲av电影一区| 亚洲欧洲av在线| 少妇无码av无码专区在线观看 | 国产精品啊啊啊| 欧洲成人在线视频| 国产超碰人人模人人爽人人添| 久久先锋资源网| 国产一级片91| 日韩毛片一区| 日韩乱码在线视频| 国产亚洲色婷婷久久99精品| 蜜乳av一区二区三区| 九九九九精品| 黄网页在线观看| 色www精品视频在线观看| 日本精品一二三区| 欧美高清在线| 国产福利视频一区二区| 日本黄色免费视频| 亚洲免费观看视频| www.涩涩涩| 国产成人短视频在线观看| 欧美国产一区二区三区| 一区二区三区精| 久久久久久久性| 国产v片免费观看| 亚洲性视频在线| 欧美另类老女人| 91九色蝌蚪91por成人| 久久精品视频免费| 黄色一级视频片| 一区二区三区免费在线看| 久久精品亚洲热| 伊人影院中文字幕| 欧美韩国日本不卡| 亚洲一二三区av| 九九久久婷婷| 国产成人综合精品在线| 人成在线免费视频| 欧美日韩中文在线| 国产制服丝袜在线| 亚洲视频大全| 蜜桃视频在线观看91| 黄色18在线观看| 欧美精品一区二区三区四区 | 欧美日韩亚洲成人| 国产激情视频网站| 亚洲综合社区| 日本一区视频在线播放| 日本成人片在线| 在线观看精品自拍私拍| 伊人久久亚洲综合| 日韩一区日韩二区| 91香蕉视频免费看| 亚洲午夜精品久久久久久app| 动漫一区二区在线| 激情图片在线观看高清国产| 亚洲成人激情在线观看| 圆产精品久久久久久久久久久| 97成人超碰视| 可以在线看的黄色网址| 精品国产乱码久久久久久蜜坠欲下 | 日韩精品视频网址| 欧美色一级片| 激情小说综合区| 成人影院网站| 中文字幕在线精品| 99在线精品视频免费观看20| 一区二区理论电影在线观看| 中国黄色片视频| 丝袜脚交一区二区| 五月天综合婷婷| 粉嫩的18在线观看极品精品| 97成人在线视频| 成人免费黄色网页| 欧美一区二区福利视频| 国产成人在线观看网站| 中文字幕免费观看一区| 午夜av中文字幕| 亚洲日韩视频| 欧美日韩一区在线播放| 亚洲精品伦理| 久久久人成影片一区二区三区观看 | 草美女在线观看| 国产一区二区三区久久精品| 国产毛片毛片毛片毛片| 午夜国产不卡在线观看视频| 正在播放国产对白害羞| 成人少妇影院yyyy| 爱情岛论坛成人| 国产综合自拍| 日韩在线观看电影完整版高清免费| 91成人小视频| 91高清视频免费| 暖暖日本在线观看| 亚洲精品视频免费在线观看| 国产日产亚洲系列最新| 色欧美片视频在线观看| 免费一级片在线观看| 久久久久久久免费视频了| 野花视频免费在线观看| 视频一区二区国产| 国产精品视频网站在线观看| 国产九一精品| 国内精品二区| 精品中文在线| 国产精品wwwwww| heyzo中文字幕在线| y97精品国产97久久久久久| 男人天堂综合| 欧美成人一区二区三区在线观看 | 国产精选在线观看91| 国产精品蜜月aⅴ在线| 亚州精品天堂中文字幕| 伊人影院在线视频| 少妇高潮久久久久久潘金莲| 亚洲 欧美 激情 小说 另类| 欧美一区二区免费观在线| 一区二区视频网站| 色视频成人在线观看免| 久久夜靖品2区| 一区二区视频在线| 三上悠亚在线观看视频| 中文字幕精品综合| 久久久久久久久久久久久久久| av综合在线播放| 久久发布国产伦子伦精品| 麻豆国产精品官网| 久久精品影视大全| 日韩福利电影在线观看| 国内外成人激情视频| 亚洲日本成人| 99热自拍偷拍| 99视频一区| 成年人午夜视频在线观看| 欧美日韩一视频区二区| 91看片淫黄大片91| 欧美国产综合| 成人在线播放网址| 亚洲特色特黄| 日日橹狠狠爱欧美超碰| 国产日韩一区| 50路60路老熟妇啪啪| 日韩激情在线观看| 亚洲第一中文av| 奇米色777欧美一区二区| 日本老熟妇毛茸茸| 日本强好片久久久久久aaa| 欧美激情精品久久久久久小说| 米奇777在线欧美播放| 国产亚洲天堂网| 久久久久久自在自线| 欧美在线观看视频网站| 青青草97国产精品免费观看 | 精品久久久久久久人人人人传媒 | 日韩av一级大片| 成人激情视频| 影音先锋亚洲视频| 综合视频在线| 国产在线播放观看| 国产精品美女久久久| 美女网站免费观看视频| 麻豆久久久久久久| 亚洲精品一二三四| jizz一区二区| 黄色片网站免费| 自拍偷拍国产精品| 国产亚洲欧美精品久久久www | 色妞一区二区三区| 制服丝袜中文字幕在线| 欧美精品激情在线观看| 亚洲天堂av影院| 国产精品福利片| 高清国产一区二区三区四区五区| 国产成人av一区二区三区| 亚洲人成网亚洲欧洲无码| 亚洲精品免费在线看| 欧美福利专区| 漂亮人妻被中出中文字幕| 看电视剧不卡顿的网站| 久久精品无码专区| 国产婷婷一区二区| 欧美人妻精品一区二区三区 | 2022国产精品视频| 成年人免费视频播放| 亚洲国产欧美在线| 中国女人真人一级毛片| 精品日韩一区二区三区免费视频| 青青视频在线观| 欧美成人午夜视频| 欧美大片免费高清观看| 91久久爱成人| 国产精品美女久久久久久不卡 | 自拍视频在线免费观看| 久久男人资源视频| 欧美亚洲人成在线| 精品欧美一区二区精品久久| 99久久这里只有精品| 国产网站免费在线观看| 国产精品99久| 黄色av片三级三级三级免费看| 精品福利樱桃av导航| 国产精品久久久久精| 亚洲免费av网址| 天堂av在线电影| 国产精品入口福利| 亚洲区小说区| 丁香花在线影院观看在线播放| 老司机午夜精品| 丰满少妇高潮一区二区| 夜夜夜精品看看| 88av在线视频| 亚洲视频日韩精品| 亚洲人成在线网站| 国产精品国产三级国产专区53| 97色伦图片97综合影院| 女人扒开屁股爽桶30分钟| 成人av免费观看| 成熟的女同志hd| 欧美日韩黄色影视| av免费在线一区二区三区| 青青精品视频播放| 色婷婷综合久久久久久| 欧美国产综合在线| 国产精品一区久久久久| 国产午夜手机精彩视频| 欧美日韩一级视频| 国产永久免费高清在线观看视频| 国内精品久久久| 一区二区三区欧洲区| 超碰97在线看| 国产精品一区二区在线播放| 看免费黄色录像| 欧美一区二区三区喷汁尤物| 免费观看在线午夜影视| 国产日韩欧美日韩大片| 欧洲杯半决赛直播| 欧美伦理片在线看| 国产三级三级三级精品8ⅰ区| 亚洲成人第一网站| 一区二区三区动漫| 素人一区二区三区| 一本一生久久a久久精品综合蜜| 青青草国产成人99久久| 黑人と日本人の交わりビデオ| 欧美丝袜丝nylons| 在线视频91p| 成人性生交xxxxx网站| 911精品美国片911久久久| 91网址在线观看精品| 亚洲免费高清视频在线| 精品久久国产视频| 久久久久久久久久久91| 欧美变态网站| 日韩欧美在线播放视频| 中文一区二区完整视频在线观看| 一级特黄录像免费看| 欧美理论电影在线观看| 91嫩草精品| 青青视频在线播放| 欧美激情一区二区三区全黄 | 久久99精品久久久久久动态图| 日韩国产第一页| 99在线精品视频免费观看软件| 亚洲精品二三区| 日本久久免费| 亚洲视频欧美在线| 国产一区二区精品久久| 日韩精品久久久久久久| 亚洲天堂2020| crdy在线观看欧美| 成人免费性视频| 26uuu久久综合| 一级片视频播放| 欧美精品久久久久久久久久| 亚欧洲精品视频在线观看| 日本人视频jizz页码69| 一区二区欧美国产| 四虎影视精品成人| 国产精品爽黄69天堂a| 综合激情一区| 精品少妇人妻一区二区黑料社区| 欧美日韩国产不卡| www555久久| 亚洲图片小说在线| 成人国产精品免费观看动漫| 高潮毛片又色又爽免费 | 国产精品自拍网|