精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

北大、西湖大學(xué)等開源「裁判大模型」PandaLM:三行代碼全自動(dòng)評(píng)估LLM,準(zhǔn)確率達(dá)ChatGPT的94%

人工智能 新聞
大模型誰(shuí)強(qiáng)誰(shuí)弱,用PandaLM比一比就知道了!

ChatGPT發(fā)布后,自然語(yǔ)言處理領(lǐng)域的生態(tài)徹底發(fā)生了變化,很多之前無(wú)法完成的問題都可以利用ChatGPT解決。

不過也帶來(lái)了一個(gè)問題:大模型的性能都太強(qiáng)了,光靠肉眼很難評(píng)估各個(gè)模型的差異

比如用不同的基座模型和超參數(shù)訓(xùn)練了幾版模型,從樣例來(lái)看性能可能都差不多,無(wú)法完全量化兩個(gè)模型之間的性能差距。

目前評(píng)估大語(yǔ)言模型主要有兩個(gè)方案:

1、調(diào)用OpenAI的API接口評(píng)估。

ChatGPT可以用來(lái)評(píng)估兩個(gè)模型輸出的質(zhì)量,不過ChatGPT一直在迭代升級(jí),不同時(shí)間對(duì)同一個(gè)問題的回復(fù)可能會(huì)有所不同,評(píng)估結(jié)果存在無(wú)法復(fù)現(xiàn)的問題。

2、人工標(biāo)注

如果在眾包平臺(tái)上請(qǐng)人工標(biāo)注的話,經(jīng)費(fèi)不足的團(tuán)隊(duì)可能無(wú)力負(fù)擔(dān),也存在第三方公司泄露數(shù)據(jù)的情況。

為了解決諸如此類的「大模型評(píng)估問題」,來(lái)自北京大學(xué)、西湖大學(xué)、北卡羅來(lái)納州立大學(xué)、卡內(nèi)基梅隆大學(xué)、MSRA的研究人員合作開發(fā)了一個(gè)全新的語(yǔ)言模型評(píng)估框架PandaLM,致力于實(shí)現(xiàn)保護(hù)隱私、可靠、可復(fù)現(xiàn)及廉價(jià)的大模型評(píng)估方案。

圖片

項(xiàng)目鏈接:https://github.com/WeOpenML/PandaLM

提供相同的上下文,PandaLM可以比較不同LLM的響應(yīng)輸出,并提供具體的理由。

為了證明該工具的可靠性和一致性,研究人員創(chuàng)建了一個(gè)由大約1000個(gè)樣本組成的多樣化的人類標(biāo)注測(cè)試數(shù)據(jù)集,其中PandaLM-7B的準(zhǔn)確率達(dá)到了ChatGPT的94%評(píng)估能力

三行代碼用上PandaLM

當(dāng)兩個(gè)不同的大模型對(duì)同一個(gè)指令和上下文產(chǎn)生不同響應(yīng)時(shí),PandaLM旨在比較這兩個(gè)大模型的響應(yīng)質(zhì)量,并輸出比較結(jié)果,比較理由以及可供參考的響應(yīng)。

比較結(jié)果有三種:響應(yīng)1更好,響應(yīng)2更好,響應(yīng)1與響應(yīng)2質(zhì)量相似。

比較多個(gè)大模型的性能時(shí),只需使用PandaLM對(duì)其進(jìn)行兩兩比較,再匯總兩兩比較的結(jié)果進(jìn)行多個(gè)大模型的性能排名或畫出模型偏序關(guān)系圖,即可清晰直觀地分析不同模型間的性能差異。

PandaLM只需要在「本地部署」,且「不需要人類參與」,因此PandaLM的評(píng)估是可以保護(hù)隱私且相當(dāng)廉價(jià)的。

為了提供更好的可解釋性,PandaLM亦可用自然語(yǔ)言對(duì)其選擇進(jìn)行解釋,并額外生成一組參考響應(yīng)。

圖片

在項(xiàng)目中,研究人員不僅支持使用Web UI使用PandaLM以便于進(jìn)行案例分析,為了方便使用,還支持三行代碼調(diào)用PandaLM對(duì)任意模型和數(shù)據(jù)生成的文本評(píng)估。

圖片

考慮到現(xiàn)有的許多模型、框架并不開源或難以在本地完成推理,PandaLM支持利用指定模型權(quán)重生成待評(píng)估文本,或直接傳入包含待評(píng)估文本的.json文件。

用戶只需傳入一個(gè)包含模型名稱/HuggingFace模型ID或.json文件路徑的列表,即可利用PandaLM對(duì)用戶定義的模型和輸入數(shù)據(jù)進(jìn)行評(píng)估。下面是一個(gè)極簡(jiǎn)的使用示例:

圖片

為了能讓大家靈活的運(yùn)用PandaLM進(jìn)行自由評(píng)測(cè),研究人員也將PandaLM的模型權(quán)重公布在了huggingface網(wǎng)站上,可以通過以下命令加載PandaLM-7B模型:

圖片

PandaLM的特點(diǎn)

可復(fù)現(xiàn)性

因?yàn)镻andaLM的權(quán)重是公開的,即使語(yǔ)言模型的輸出有隨機(jī)性,當(dāng)固定隨機(jī)種子之后,PandaLM的評(píng)價(jià)結(jié)果仍可始終保持一致。

而基于在線API的模型的更新不透明,其輸出在不同時(shí)間有可能很不一致,且舊版模型不再可訪問,因此基于在線API的評(píng)測(cè)往往不具有可復(fù)現(xiàn)性。

自動(dòng)化、保護(hù)隱私性和開銷低

只需本地部署PandaLM模型,調(diào)用現(xiàn)成的命令即可開始評(píng)估各種大模型,不需像雇傭?qū)<覙?biāo)注時(shí)要時(shí)刻與專家保持溝通,也不會(huì)存在數(shù)據(jù)泄露的問題,同時(shí)也不涉及任何API費(fèi)用以及勞務(wù)費(fèi)用,非常廉價(jià)。

評(píng)估水平

為了證明PandaLM的可靠性,研究人員雇傭了三個(gè)專家進(jìn)行獨(dú)立重復(fù)標(biāo)注,創(chuàng)建了一個(gè)人工標(biāo)注的測(cè)試集。

測(cè)試集包含50個(gè)不同的場(chǎng)景,每個(gè)場(chǎng)景中又包含若干任務(wù)。這個(gè)測(cè)試集是多樣化、可靠且與人類對(duì)文本的偏好相一致的。測(cè)試集的每個(gè)樣本由一個(gè)指令和上下文,以及兩個(gè)由不同大模型生成的響應(yīng)共同組成,并由人類來(lái)比較這兩個(gè)響應(yīng)的質(zhì)量。

篩除了標(biāo)注員之間有較大差異的樣本,以確保每個(gè)標(biāo)注者在最終測(cè)試集上的IAA(Inter Annotator Agreement)接近0.85。值得注意的是,PandaLM的訓(xùn)練集與創(chuàng)建的人工標(biāo)注測(cè)試集無(wú)任何重疊。

圖片

這些被過濾的樣本需要額外的知識(shí)或難以獲取的信息來(lái)輔助判斷,這使得人類也難以對(duì)它們進(jìn)行準(zhǔn)確標(biāo)注。

經(jīng)過篩選的測(cè)試集包含1000個(gè)樣本,而原始未經(jīng)過濾的測(cè)試集包含2500個(gè)樣本。測(cè)試集的分布為{0:105,1:422,2:472},其中0表示兩個(gè)響應(yīng)質(zhì)量相似,1表示響應(yīng)1更好,2表示響應(yīng)2更好。以人類測(cè)試集為基準(zhǔn),PandaLM與gpt-3.5-turbo的性能對(duì)比如下:

圖片

可以看到,PandaLM-7B在準(zhǔn)確度上已經(jīng)達(dá)到了gpt-3.5-turbo 94%的水平,而在精確率,召回率,F(xiàn)1分?jǐn)?shù)上,PandaLM-7B已于gpt-3.5-turbo相差無(wú)幾。

因此,相比于gpt-3.5-turbo而言,可以認(rèn)為PandaLM-7B已經(jīng)具備了相當(dāng)?shù)拇竽P驮u(píng)估能力。

除了在測(cè)試集上的準(zhǔn)確度,精確率,召回率,F(xiàn)1分?jǐn)?shù)之外,還提供了5個(gè)大小相近且開源的大模型之間比較的結(jié)果。

首先使用了相同的訓(xùn)練數(shù)據(jù)對(duì)這個(gè)5個(gè)模型進(jìn)行指令微調(diào),接著用人類,gpt-3.5-turbo,PandaLM對(duì)這5個(gè)模型分別進(jìn)行兩兩比較。

下表中第一行第一個(gè)元組(72,28,11)表示有72個(gè)LLaMA-7B的響應(yīng)比Bloom-7B的好,有28個(gè)LLaMA-7B的響應(yīng)比Bloom-7B的差,兩個(gè)模型有11個(gè)響應(yīng)質(zhì)量相似。

圖片

因此在這個(gè)例子中,人類認(rèn)為L(zhǎng)LaMA-7B優(yōu)于Bloom-7B。下面三張表的結(jié)果說明人類,gpt-3.5-turbo與PandaLM-7B對(duì)于各個(gè)模型之間優(yōu)劣關(guān)系的判斷完全一致。

圖片

總結(jié)

PandaLM提供了除人類評(píng)估與OpenAI API評(píng)估之外的第三條評(píng)估大模型的方案,PandaLM不僅評(píng)估水平高,而且評(píng)估結(jié)果可復(fù)現(xiàn),評(píng)估流程自動(dòng)化,保護(hù)隱私且開銷低。

未來(lái),PandaLM將推動(dòng)學(xué)術(shù)界和工業(yè)界關(guān)于大模型的研究,使得更多人受益于大模型的發(fā)展。

責(zé)任編輯:張燕妮 來(lái)源: 新智元
相關(guān)推薦

2018-11-14 10:01:30

谷歌開源機(jī)器學(xué)習(xí)

2023-05-08 15:36:50

模型AI

2023-11-08 08:38:43

2020-10-09 08:31:00

AI

2023-05-04 09:39:16

AI模型

2020-11-20 17:03:11

AI 數(shù)據(jù)人工智能

2023-09-25 10:04:37

模型AI

2024-08-02 13:14:51

2025-06-03 08:22:00

模型評(píng)估視頻

2023-10-26 08:40:15

模型隱私推理

2019-11-20 15:01:55

開源技術(shù) 趨勢(shì)

2016-03-17 11:44:34

漏洞掃描全自動(dòng)安全漏洞掃描器

2019-01-10 14:49:14

開源技術(shù) 工具包

2025-07-21 09:05:00

模型AI芯片

2018-06-12 07:15:18

阿里巴巴技術(shù)語(yǔ)音識(shí)別

2024-06-18 14:01:17

2024-04-15 11:48:09

2024-11-18 09:50:00

模型訓(xùn)練

2023-02-03 12:50:29

ChatGPTAI數(shù)據(jù)集

2016-01-27 13:37:53

機(jī)器學(xué)習(xí)數(shù)據(jù)模型算法
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

久久精品小视频| 国产乱子轮xxx农村| 久久99久久久| 97成人资源| 欧美一区不卡| 色94色欧美sute亚洲线路二 | 超碰一区二区| 国产精品福利一区| 国产aaa精品| 一级特级黄色片| 欧美性video| 91综合在线| 欧美伊人久久久久久久久影院 | 一级特黄特色的免费大片视频| 欧美福利在线播放网址导航| 一区二区三区中文字幕| 91精品久久久久久久| 日本欧美一区二区三区不卡视频| 黑人巨大精品欧美一区二区桃花岛| 国产精品欧美一级免费| 美女av一区二区三区 | 亚洲成人a级网| mm131午夜| 国产肥老妇视频| 午夜久久福利| 伊人久久久久久久久久久久久 | 老女人性淫交视频| 精品国产三区在线| 一区二区视频在线| 亚洲啪啪av| av黄色免费在线观看| 成人福利一区| 五月天精品一区二区三区| 国产一区免费在线观看| 亚洲精品男人天堂| 一区二区美女| 欧美天天综合网| 国产深夜男女无套内射| 免费黄色在线视频网站| 玖玖精品视频| 丝袜美腿亚洲一区二区| 色男人天堂av| 91超碰在线| 久久久国际精品| 国产精自产拍久久久久久| 午夜精品一区二区三级视频| 国产精品免费99久久久| 欧美日韩综合在线免费观看| 米仓穗香在线观看| 色哟哟中文字幕| 日韩黄色片在线观看| 色偷偷综合社区| 真实乱视频国产免费观看 | 欧美永久精品| 久久国产精品久久久久| 欧美成人777| 理论片一区二区在线| 91久久一区二区| 欧美日韩在线中文| 国产欧美黑人| 91尤物视频在线观看| 国产精品一区二区久久| 国产情侣小视频| 欧美激情aⅴ一区二区三区| www国产精品视频| 国产精品一级无码| 免费观看成人性生生活片| 亚洲精品五月天| 欧美日韩国产精品一卡| 99久久精品国产成人一区二区 | 免费男同深夜夜行网站| 国产丝袜在线| 亚洲午夜电影在线观看| 性高潮久久久久久久久| 可以免费观看的毛片| 日本不卡的三区四区五区| 欧美高清视频一区二区| 亚洲av成人无码久久精品| 91综合久久爱com| 亚洲国产精品大全| 中文字幕免费高清| 91久久国产| 亚洲香蕉成视频在线观看| av电影中文字幕| 久久香蕉精品香蕉| 亚洲区在线播放| 中文字幕在线视频播放| 国产精品久久久久久久久久久久久久久| 都市激情亚洲色图| 妺妺窝人体色www看人体| 日韩美女网站| 国产欧美精品国产国产专区| 激情小说网站亚洲综合网| 国产精品爽爽久久久久久| 久久欧美肥婆一二区| 国产精品你懂得| 夜夜爽妓女8888视频免费观看| 奇米影视一区二区三区| 1区1区3区4区产品乱码芒果精品| 成人午夜精品视频| 久久精品人人| 日本精品中文字幕| 国产乱色精品成人免费视频| 成人av午夜影院| 国产另类第一区| 亚洲国产精品suv| 国产精品一品视频| 91在线中文字幕| 国产免费久久久| 94色蜜桃网一区二区三区| 亚洲人成网站在线观看播放| 51漫画成人app入口| 欧美日韩高清一区二区| 成年网站在线播放| 久久影视精品| 欧美电影影音先锋| 97人人模人人爽人人澡| 免费成人结看片| 亚洲人成在线电影| 欧美黄色免费看| 捆绑紧缚一区二区三区视频| 国产精品中文在线| 亚洲人成色777777老人头| 91蜜桃视频在线| 欧洲精品码一区二区三区免费看| 极品白浆推特女神在线观看 | 蜜臀久久99精品久久久久久| 国内久久视频| 久久免费视频这里只有精品| 国产乡下妇女做爰毛片| 日韩一级网站| 欧美综合国产精品久久丁香| 青青草视频在线观看免费| 国产成人精品免费一区二区| 国产精品美女xx| 男人资源在线播放| 亚洲影院在线观看| 国产天堂视频在线观看| 亚洲最大网站| 亚洲国产福利在线| 免费在线视频一区二区| 国产一区欧美二区| 国外成人在线视频网站| 女同视频在线观看| 日韩欧美成人午夜| 瑟瑟视频在线观看| 91久久国产| 成人免费观看a| 亚洲精品久久久久久久久久| 日韩一区有码在线| 精品国产一区二区三区无码| 国产精品美女久久久久| 久久九九亚洲综合| 国产美女www爽爽爽视频| 中文字幕一区二区在线播放| 2025韩国理伦片在线观看| 欧美一区电影| 欧美激情第一页xxx| 精品久久久免费视频| www一区二区| 欧美成人免费高清视频| 国产成人高清| 国产女同一区二区| 国产激情在线视频| 色综合久久综合网97色综合 | 亚洲欧洲午夜一线一品| 亚洲第一网站在线观看| 国产一区二区三区免费| 亚洲五码在线观看视频| 日韩08精品| 国产亚洲人成网站在线观看| 亚洲免费视频二区| 中文字幕日韩一区| 美女日批在线观看| 日本一本不卡| 91精品国产91久久久久久| 91禁在线观看| 亚洲欧美另类综合偷拍| 在线精品视频播放| 久久三级视频| 一级黄色录像免费看| 写真福利精品福利在线观看| 中文字幕亚洲国产| 男人天堂av在线播放| 国产aⅴ综合色| 午夜精品久久久久久久无码| 日韩欧美激情电影| 国产91|九色| 亚洲精品字幕在线观看| 欧美日韩综合视频| 天堂久久久久久| 一区在线免费观看| 999国产在线| 韩日成人影院| 欧美日韩ab片| 国产av精国产传媒| 欧美日韩免费网站| 强制高潮抽搐sm调教高h| 不卡的电视剧免费网站有什么| 成人性做爰aaa片免费看不忠| 校花撩起jk露出白色内裤国产精品| 美女av一区二区三区| 日本天堂影院在线视频| 亚洲h动漫在线| 少妇伦子伦精品无吗| 久久久久久婷| 毛片在线视频观看| 精品久久亚洲| 欧洲午夜精品久久久| 国产精品剧情| 亚洲性猛交xxxxwww| 亚洲精品免费在线观看视频| 在线观看一区日韩| 天美传媒免费在线观看| 免费成人在线影院| 亚洲一区二区三区精品视频| 九色丨蝌蚪丨成人| 亚洲www在线| 78精品国产综合久久香蕉| 最近2019好看的中文字幕免费| 欧美熟妇另类久久久久久不卡| 亚洲高清久久久| 丰满少妇xbxb毛片日本| 在线播放一区| 小说区视频区图片区| 欧美日韩激情在线一区二区三区| 国产美女被下药99| 成人影院大全| 911国产网站尤物在线观看| 在线xxxx| 日韩黄色在线免费观看| 成人毛片一区二区三区| 图片区小说区区亚洲影院| 免费看一级一片| 日韩毛片一二三区| 天堂а√在线中文在线鲁大师| 国产美女视频一区| 依人在线免费视频| 欧美日韩免费观看一区=区三区| 国产一区福利视频| 中文久久电影小说| 日韩免费av在线| 欧美亚洲日本精品| 色偷偷9999www| gogogo高清在线观看免费完整版| 欧美一区二区三区系列电影| 日韩激情在线播放| 亚洲国产视频一区二区| 久草免费在线观看视频| 亚洲综合无码一区二区| 久久久久久av无码免费网站| 91免费精品国自产拍在线不卡| 美女又爽又黄免费| a美女胸又www黄视频久久| 午夜久久久精品| 日本午夜精品一区二区三区电影| 欧美性猛交久久久乱大交小说 | 东京干手机福利视频| 精品美女被调教视频大全网站| 你懂的国产在线| 亚洲欧美日韩电影| 69xx绿帽三人行| 亚洲一区二区视频在线观看| 福利一区二区三区四区| 欧美性高潮床叫视频| 在线观看你懂的网站| 欧美日韩国产在线观看| 99热这里只有精品1| 精品国产伦一区二区三区观看体验| av首页在线观看| 欧美日韩精品二区第二页| 国产强被迫伦姧在线观看无码| 日韩精品一区二区三区中文不卡| 日韩在线观看视频一区二区三区| 精品视频偷偷看在线观看| 99久久精品国产一区色| 日韩精品一区二区三区三区免费| 三级网站免费观看| 国产一区二区激情| 182tv在线播放| 91黄色8090| 亚洲人成网站在线在线观看| 国产精品mp4| 日韩伦理av| 久久精品国产成人| 91制片在线观看| 国产精品福利小视频| 久久九九精品视频| 久久精品国产第一区二区三区最新章节 | 天天干天天草天天| 国产精品夜夜爽| 成人免费网站黄| 亚洲免费观看高清完整版在线观看 | 91在线视频九色| 91在线成人| 亚洲最大av网| 国产成人av| 久久久久99精品成人片| 青青草国产精品97视觉盛宴| 野战少妇38p| 国产精品久久久久久一区二区三区 | 亚洲第一天堂| 亚洲欧洲免费无码| 99视频一区| 91亚洲一区二区| 久久久www免费人成精品| 美女视频黄免费| 欧美精品成人一区二区三区四区| 五月天婷婷社区| 欧美成人激情在线| 国产精品久久久久久久久免费高清 | 一级特黄aaa| 精品偷拍各种wc美女嘘嘘| av网站在线看| 国产日韩欧美视频在线| 亚洲第一论坛sis| 日本一本中文字幕| 国产在线不卡一卡二卡三卡四卡| 人人妻人人藻人人爽欧美一区| 亚洲一区自拍偷拍| 国产日韩精品suv| 中文字幕欧美在线| 日韩大尺度黄色| 国产精品十八以下禁看| 欧美电影在线观看免费| 国产资源在线免费观看| 国产精品一区二区久久精品爱涩| 刘亦菲国产毛片bd| 在线精品视频一区二区| 欧美巨乳在线| 69视频在线播放| 美女一区2区| 97超碰人人澡| 首页亚洲欧美制服丝腿| 中文字幕无码人妻少妇免费| 久久综合九色综合久久久精品综合 | 性色av一区二区三区四区| 日韩av在线免费观看一区| 国产精品186在线观看在线播放| 久久久久久久久国产精品| 成人av观看| 久久久99国产精品免费| 在线视频亚洲| 亚洲精品中文字幕在线播放| 亚洲大片精品永久免费| 六月婷婷综合网| 国内久久久精品| 精品少妇3p| 国产99久久九九精品无码| 91蝌蚪porny| 天天干在线播放| 亚洲一级免费视频| 亚洲日本在线观看视频| 91超碰在线电影| 狠狠色狠狠色综合日日tαg| 精品无码av一区二区三区| 亚洲一二三区视频在线观看| 三级网站在线看| 国产91色在线免费| 成人激情视频| 中文字幕在线视频一区二区三区| 99久久国产综合精品女不卡| 日韩欧美性视频| 91精品国产综合久久小美女| 人成在线免费视频| 国产成人激情小视频| 日韩极品一区| 三级网站免费看| 亚洲高清免费视频| 国产在线观看高清视频| 国产日韩精品综合网站| 午夜精品网站| 少妇按摩一区二区三区| 亚洲一区二区精品视频| 天天操天天插天天射| 国产激情久久久久| 亚洲欧洲中文字幕| 鲁一鲁一鲁一鲁一av| 亚洲视频在线一区| 中文字幕乱码人妻二区三区| 日韩av在线天堂网| 日本一道高清亚洲日美韩| 日本丰满大乳奶| av不卡在线播放| 国产精品51麻豆cm传媒| 欧美国产日韩视频| 国产精品欧美在线观看| 亚洲一二区在线观看| 亚洲va欧美va天堂v国产综合| 激情小视频在线观看| 亚洲一区国产精品| 另类av一区二区| 免费三级在线观看| 精品香蕉在线观看视频一| 外国成人毛片| 在线精品亚洲一区二区| 免费精品视频在线| 高h视频免费观看| 亚洲天堂色网站| 国产精东传媒成人av电影|