精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

UC伯克利發布大語言模型排行榜!Vicuna奪冠,清華ChatGLM進前5

人工智能 新聞
萬萬沒想到,現在大語言模型們也要像王者榮耀/LoL/Dota這些游戲里的玩家一樣打排位賽了!據說,那些閉源模型們很快也會被拉出來溜溜。

最近,來自LMSYS Org(UC伯克利主導)的研究人員又搞了個大新聞——大語言模型版排位賽!

顧名思義,「LLM排位賽」就是讓一群大語言模型隨機進行battle,并根據它們的Elo得分進行排名。

然后,我們就能一眼看出,某個聊天機器人到底是「嘴強王者」還是「最強王者」。

劃重點:團隊還計劃把國內和國外的這些「閉源」模型都搞進來,是騾子是馬溜溜就知道了?。℅PT-3.5現在就已經在匿名競技場里了)

圖片

匿名聊天機器人競技場長下面這樣:

很明顯,模型B回答正確,拿下這局;而模型A連題都沒讀懂……

圖片

項目地址:https://arena.lmsys.org/

在當前的排行榜中,130億參數的Vicuna以1169分穩居第一,同樣130億參數的Koala位列第二,LAION的Open Assistant排在第三。

清華提出的ChatGLM,雖然只有60億參數,但依然沖進了前五,只比130億參數的Alpaca落后了23分。

相比之下,Meta原版的LLaMa只排到了第八(倒數第二),而Stability AI的StableLM則獲得了唯一的800+分,排名倒數第一。

團隊表示,之后不僅會定期更新排位賽榜單,而且還會優化算法和機制,并根據不同的任務類型提供更加細化的排名。

圖片

目前,所有的評估代碼以及數據分析均已公布。

拉著LLM打排位

在這次的評估中,團隊選擇了目前比較出名的9個開源聊天機器人。

每次1v1對戰,系統都會隨機拉兩個上場PK。用戶則需要同時和這兩個機器人聊天,然后決定哪個聊天機器人聊的更好。

可以看到,頁面下面有4個選項,左邊(A)更好,右邊(B)更好,一樣好,或者都很差。

當用戶提交投票之后,系統就會顯示模型的名稱。這時,用戶可以繼續聊天,或者選擇新的模型重新開啟一輪對戰。

不過,團隊在分析時,只會采用模型是匿名時的投票結果。在經過差不多一周的數據收集之后,團隊共收獲了4.7k個有效的匿名投票。

圖片

在開始之前,團隊先根據基準測試的結果,掌握了各個模型可能的排名。

根據這個排名,團隊會讓模型去優先選擇更合適的對手。

然后,再通過均勻采樣,來獲得對排名的更好總體覆蓋。

在排位賽結束時,團隊又引入了一種新模型fastchat-t5-3b。

以上這些操作最終導致了非均勻的模型頻率。

圖片

每個模型組合的對戰次數

從統計數據來看,大多數用戶所用的都是英語,中文排在第二位。

圖片

排名前15的語言的對戰次數

評估LLM,真的很難

自從ChatGPT爆火之后,經過指令跟隨微調的開源大語言模型如雨后春筍一般大量涌現??梢哉f,幾乎每周都有新的開源LLM在發布。

但問題是,評估這些大語言模型非常難。

具體來說,目前用來衡量一個模型好不好的東西基本都是基于一些學術的benchmark,比如在一個某個NLP任務上構建一個測試數據集,然后看測試數據集上準確率多少。

然而,這些學術benchmark(如HELM)在大模型和聊天機器人上就不好用了。其原因在于:

1. 由于評判聊天機器人聊得好不好這件事是非常主觀的,因此現有的方法很難對其進行衡量。

2. 這些大模型在訓練的時候就幾乎把整個互聯網的數據都掃了一個遍,因此很難保證測試用的數據集沒有被看到過。甚至更進一步,用測試集直接對模型進行「特訓」,如此一來表現必然更好。

3. 理論上我們可以和聊天機器人聊任何事情,但很多話題或者任務在現存的benchmark里面根本就不存在。

圖片

那如果不想采用這些benchmark的話,其實還有一條路可以走——花錢請人來給模型打分。

實際上,OpenAI就是這么搞的。但是這個方法明顯很慢,而且更重要的是,太貴了……

為了解決這個棘手的問題,來自UC伯克利、UCSD、CMU的團隊發明了一種既好玩又實用的全新機制——聊天機器人競技場(Chatbot Arena)。

相比而言,基于對戰的基準系統具有以下優勢:

  • 可擴展性(Scalability)

當不能為所有潛在的模型對收集足夠的數據時,系統應能擴展到盡可能多的模型。

  • 增量性(Incrementality)

系統應能夠使用相對較少的試驗次數評估新模型。

  • 唯一順序(Unique order)

系統應為所有模型提供唯一順序。給定任意兩個模型,我們應該能夠判斷哪個排名更高或它們是否并列。

Elo評分系統

Elo等級分制度(Elo rating system)是一種計算玩家相對技能水平的方法,廣泛應用在競技游戲和各類運動當中。其中,Elo評分越高,那么就說明這個玩家越厲害。

比如英雄聯盟、Dota 2以及吃雞等等,系統給玩家進行排名的就是這個機制。

舉個例子,當你在英雄聯盟里面打了很多場排位賽后,就會出現一個隱藏分。這個隱藏分不僅決定了你的段位,也決定了你打排位時碰到的對手基本也是類似水平的。

而且,這個Elo評分的數值是絕對的。也就是說,當未來加入新的聊天機器人時,我們依然可以直接通過Elo的評分來判斷哪個聊天機器人更厲害。

具體來說,如果玩家A的評分為Ra,玩家B的評分為Rb,玩家A獲勝概率的精確公式(使用以10為底的logistic曲線)為:

圖片

然后,玩家的評分會在每場對戰后線性更新。

假設玩家A(評分為Ra)預計獲得Ea分,但實際獲得Sa分。更新該玩家評分的公式為:

圖片

1v1勝率

此外,作者還展示了排位賽中每個模型的對戰勝率以及使用Elo評分估算的預測對戰勝率。

結果顯示,Elo評分確實可以相對準確地進行預測

圖片

所有非平局A對B戰斗中模型A勝利的比例

圖片

在A對B戰斗中,使用Elo評分預測的模型A的勝率

作者介紹

「聊天機器人競技場」由前小羊駝作者機構LMSYS Org發布。

該機構由UC伯克利博士Lianmin Zheng和UCSD準教授Hao Zhang創立,目標是通過共同開發開放的數據集、模型、系統和評估工具,使每個人都能獲得大型模型。

圖片

Lianmin Zheng

Lianmin Zheng是加州大學伯克利分校EECS系的博士生,他的研究興趣包括機器學習系統、編譯器和分布式系統。

Hao Zhang

Hao Zhang目前是加州大學伯克利分校的博士后研究員。他將于2023年秋季開始在加州大學圣地亞哥分校Hal?c?o?lu數據科學研究所和計算機系擔任助理教授。

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-05-16 13:32:23

模型排行

2024-05-30 14:23:00

2023-04-04 13:17:00

GPUCMU開源

2023-04-07 09:28:31

模型訓練

2023-08-05 13:45:46

模型AI

2023-05-26 14:10:00

模型AI

2023-03-31 13:55:00

模型智能

2025-01-22 15:21:00

2023-05-26 17:20:29

模型工具

2021-05-06 23:11:20

編程語言數據Python

2024-11-26 13:40:00

2025-04-18 08:42:52

模型推理AI

2024-02-19 13:46:04

多模態信息LWMtoken

2024-12-02 08:20:00

2023-12-16 09:49:18

2024-03-04 08:15:00

2017-02-10 09:45:00

編程語言排行榜Scratch

2025-10-11 15:55:08

AI模型數據

2024-09-23 14:46:27

2015-04-14 14:37:06

編程語言4月編程語言排行
點贊
收藏

51CTO技術棧公眾號

久久亚洲精品中文字幕| 国产精品久久久精品四季影院| 久久大胆人体| 懂色av一区二区三区蜜臀| 欧美成人精品在线观看| 国产欧美视频一区| 在线看片福利| 中文字幕一区av| 亚洲最大的网站| 国产一级二级三级视频| 婷婷成人综合| 欧美色老头old∨ideo| 吴梦梦av在线| 无码国产色欲xxxx视频| 日韩成人一级片| 久久精品久久久久| 国产激情视频网站| 成人国产精品入口免费视频| 亚洲尤物在线视频观看| 欧美不卡在线一区二区三区| 中文字幕欧美人妻精品一区蜜臀| 亚洲精品tv久久久久久久久久| 精品国产青草久久久久福利| 999香蕉视频| 超碰在线caoporen| 99久久精品国产观看| 国产精品露脸自拍| 精品少妇久久久久久888优播| 女人丝袜激情亚洲| 日韩欧美亚洲另类制服综合在线| 凹凸国产熟女精品视频| 国产激情在线| 国产色综合一区| 99中文视频在线| 亚洲天堂狠狠干| 99热在线精品观看| 久久亚洲精品国产亚洲老地址| 欧美无人区码suv| 高清一区二区三区av| 黑人巨大精品欧美一区免费视频| 一区二区三区四区五区视频| 天堂中文在线观看视频| 国产久卡久卡久卡久卡视频精品| 青青久久av北条麻妃黑人| 538精品在线观看| 日本一区二区在线看| 日韩黄在线观看| 亚洲精品激情视频| 精品国产一区二| 欧美日本国产一区| 色一情一乱一伦一区二区三区日本| 国产丝袜精品丝袜| 亚洲精品va在线观看| 午夜精品区一区二区三| 日本一二三区在线视频| 成人av网站免费观看| 国产日韩欧美电影在线观看| 黄色在线免费观看| 韩日视频一区| 欧美高清在线观看| 午夜国产福利一区二区| 久久久9色精品国产一区二区三区| 亚洲美女av在线播放| 亚洲激情 欧美| jizz18欧美18| 欧美成人三级在线| 国产裸体视频网站| 亚洲大奶少妇| 欧美大片一区二区| 波多野结衣三级视频| 美女精品久久| 日韩一区二区三区免费看| 亚洲一区二区偷拍| 视频亚洲一区二区| 日韩精品一区二| www.四虎在线| 国产一区二区在线视频你懂的| 日韩欧美的一区| 国产乱淫av麻豆国产免费| 国产在线一区不卡| 欧美一级xxx| 一二三区视频在线观看| 人人干视频在线| 国产永久av在线| 亚洲国产电影在线观看| 亚洲 日韩 国产第一区| 69视频在线观看| 国产精品福利一区二区三区| 亚洲va久久久噜噜噜久久狠狠 | 国产精品乱子乱xxxx| 亚洲精品综合网| 99国产精品99久久久久久| 国产成人一区二区三区免费看| 天天操天天干天天爱| 26uuu欧美| 日韩亚洲视频| 麻豆免费在线视频| 国产欧美精品在线观看| 亚洲自拍偷拍二区| 最新av在线播放| 亚洲免费在线观看| 大j8黑人w巨大888a片| 亚洲一区资源| 欧美高清视频www夜色资源网| 亚洲AV无码久久精品国产一区| 日韩一级淫片| 亚洲免费一级电影| 国产在线免费看| 亚洲特色特黄| 国产精品久久久久久久久久三级| 伊人网综合在线| 成人在线视频一区| 视频在线99re| av在线不卡免费| 在线观看日产精品| 涩视频在线观看| 狠狠综合久久av一区二区蜜桃| xxx一区二区| 男人的天堂一区二区| 蜜臀91精品一区二区三区| 成人免费看片网址| 在线播放麻豆| 欧美视频在线免费| 亚洲天堂一区二区在线观看| 欧美日韩一区二区三区四区不卡 | 精品人妻午夜一区二区三区四区| 成人动漫一区二区| 一区二区三区av在线| sm性调教片在线观看| 欧美午夜不卡在线观看免费| www.欧美com| 色777狠狠狠综合伊人| 久久久久国产视频| 96亚洲精品久久久蜜桃| www成人在线观看| 黄色网在线视频| 成人在线视频观看| 欧美岛国在线观看| 国产18无套直看片| 亚洲视频大全| 国产精华一区| 最新国产露脸在线观看| 欧美日韩一区二区三区不卡| 法国伦理少妇愉情| 激情综合电影网| 99在线免费观看视频| 老司机午夜在线| 在线视频欧美精品| 久久无码人妻精品一区二区三区 | 国产精品资源在线观看| 日韩欧美亚洲日产国| 中文字幕人成乱码在线观看 | 丰满大乳国产精品| 亚洲日本丝袜连裤袜办公室| 美女一区二区三区视频| 国产精品羞羞答答在线观看| 91精品国产色综合久久不卡98| 国产av无码专区亚洲av麻豆| 国产精品久久久久7777按摩| 国产自偷自偷免费一区 | 色综合咪咪久久| 亚洲一区二区中文字幕在线观看| 日韩理论电影中文字幕| 88国产精品欧美一区二区三区| 人人妻人人澡人人爽人人欧美一区| 一区二区三区四区在线免费观看 | 国产美女视频一区| 神马影院午夜我不卡影院| caoporn视频在线| 亚洲精品在线观看视频| 久久精品亚洲无码| 成人av片在线观看| 成人在线免费观看av| 日韩精品免费一区二区三区竹菊| 97精品国产91久久久久久| 免费国产黄色片| 亚洲国产日日夜夜| 人妻av一区二区| 国产精品久久久久久模特| 精品欧美日韩在线| 最近高清中文在线字幕在线观看1| 日韩高清有码在线| 亚洲色成人www永久网站| 欧美国产综合色视频| 一级做a免费视频| 一区二区三区国产精华| 99一区二区| 午夜影院一区| 在线看国产精品| 国产女18毛片多18精品| 亚洲国产欧美在线| 蜜桃无码一区二区三区| 麻豆久久久久久久| 潘金莲一级淫片aaaaaa播放1| 亚洲精选av| 午夜精品久久久久久久99黑人 | 国产日韩欧美一区二区三区四区| 女厕盗摄一区二区三区| 国产一区二区三区毛片| 97人妻精品一区二区三区动漫| 亚洲精品亚洲人成人网| 国产又粗又猛又色| 美日韩一区二区三区| 黑人巨大国产9丨视频| 好吊妞视频这里有精品| 欧美激情一区二区三区久久久| 五月婷婷免费视频| 欧美日韩国产电影| 欧美bbbbbbbbbbbb精品| 国产精品欧美极品| 日本黄色录像片| 美女网站在线免费欧美精品| 久久成人福利视频| 日韩一区电影| 精品国产乱码久久久久久蜜柚| 国产一区二区主播在线| 欧美精品xxx| 日本www在线| 亚洲高清一二三区| 国产精品欧美久久久久天天影视| 午夜精品久久久久久久久| www久久久久久久| 国产乱码字幕精品高清av| 国产a级片网站| 小处雏高清一区二区三区| 成人三级视频在线观看一区二区| 日韩精品三区| 欧美日韩成人在线播放| 在线播放日本| 亚洲欧美在线免费| 精品人妻一区二区三区换脸明星| 午夜激情久久久| 成人在线观看免费完整| 久久久久99精品国产片| 久久久久久久久久久影视| 久久久999| 激情五月婷婷六月| 九九久久婷婷| 国产欧美日韩一区| 国产精品高清一区二区| 日本精品一区二区三区在线播放视频| 中文av资源在线| 日韩中文在线不卡| 激情小视频在线观看| 亚洲精品720p| 国产 欧美 自拍| 欧美一级日韩免费不卡| 亚洲视屏在线观看| 色婷婷久久久综合中文字幕| 国产精品18p| 伊人色综合久久天天人手人婷| 中文字幕第24页| 国产午夜精品久久久久久免费视 | 看一级黄色录像| 99久久影视| 在线视频一区观看| 999国产精品永久免费视频app| 日韩av电影免费播放| 久久99免费视频| 清纯唯美一区二区三区| 亚欧洲精品视频在线观看| 久久99精品久久久久久久青青日本 | 93久久精品日日躁夜夜躁欧美| 亚洲精品成人无码毛片| 狠狠狠色丁香婷婷综合久久五月| 少妇一级淫免费放| 美国毛片一区二区三区| 亚洲欧美激情网| 久久成人久久爱| 欧美xxxxxbbbbb| 国产**成人网毛片九色| 午夜影院福利社| 国产麻豆日韩欧美久久| 精产国品一区二区三区| 国产福利一区二区三区视频在线 | 亚洲手机视频| av7777777| 日韩在线一区二区| 中文字幕亚洲欧洲| 国产精品一二二区| 国产婷婷在线观看| 久久久五月婷婷| 五月激情四射婷婷| 亚洲人吸女人奶水| 精品深夜av无码一区二区老年| 亚洲成人av电影| jizz国产在线观看| 宅男噜噜噜66一区二区66| 亚洲卡一卡二卡三| 亚洲另类图片色| 日本最新在线视频| 欧美激情女人20p| www.日韩| 92国产精品视频| 精品久久对白| 日韩一区二区三区高清| 亚洲91视频| 免费一级特黄特色毛片久久看| 久久一二三四| 成人性生交视频免费观看| 99视频精品在线| 粉嫩精品久久99综合一区| 国产精品丝袜一区| 91麻豆免费视频网站| 亚洲成av人片在线| 久久久久久av无码免费看大片| 欧美日产在线观看| 色一情一乱一乱一区91av| 亚洲午夜色婷婷在线| 97超碰资源站在线观看| 青青久久av北条麻妃海外网| 国产精品视频一区二区三区综合 | 在线播放日韩精品| 18视频在线观看网站| 日韩美女在线播放| 欧美一级片网址| 免费国产一区二区| 婷婷综合五月| 国模无码视频一区二区三区| 激情综合色丁香一区二区| 少妇毛片一区二区三区| 亚洲激情中文1区| 91麻豆精品在线| 亚洲国产精品热久久| 欧美精品hd| 日本精品在线视频 | 亚洲专区在线视频| 欧洲激情视频| 免费成人在线视频网站| 国产乱理伦片在线观看夜一区| 久久亚洲无码视频| 亚洲国产sm捆绑调教视频| 91中文字幕在线视频| 国产亚洲精品美女久久久久| 久草在线新免费首页资源站| 国产中文字幕91| 欧美一区自拍| av在线播放亚洲| 国产丶欧美丶日本不卡视频| 女人裸体性做爰全过| 色综合久久中文综合久久97| 亚洲精品97久久中文字幕无码| 日韩视频第一页| 影音成人av| 日韩欧美一区二区三区四区 | 久久99精品久久久久久琪琪| aaaa欧美| 亚洲 国产 欧美一区| 日韩国产精品大片| 中文字幕丰满孑伦无码专区| 亚洲国产成人av| 日本波多野结衣在线| 久久久久亚洲精品国产| 一区二区中文字幕在线观看| 五月天综合婷婷| 国产精品综合在线视频| 久久99久久99精品免费看小说| 欧美日韩一级二级三级| p色视频免费在线观看| 国产极品精品在线观看| 综合干狼人综合首页| 116极品美女午夜一级| 成人高清伦理免费影院在线观看| 日韩影院一区二区| 日韩一区二区在线播放| wwwav在线| 不卡一卡2卡3卡4卡精品在| 国产精品分类| 国产伦精品一区二区三区88av| 亚洲综合一二区| 黄色成人一级片| 欧美一区亚洲一区| 国产精品一国产精品| 91热这里只有精品| 国产精品美日韩| 国产成人av免费看| 欧美精品videossex88| 九色丨蝌蚪丨成人| 黄色动漫在线免费看| 26uuu精品一区二区三区四区在线| 日韩精品久久久久久免费| 精品99一区二区| 日韩在线免费电影| 亚洲中国色老太| 欧美资源在线| 黄色录像二级片| 日韩毛片在线观看| 欧美日韩卡一| 欧美日韩在线中文| 亚洲色大成网站www久久九九| 少妇一级淫片免费看| 国产精品人成电影| 亚洲欧洲午夜| 欧美美女性生活视频| 亚洲精品电影在线| 日本国产亚洲| 成人免费观看毛片| 一区二区三区精品| 2017亚洲天堂1024| 久久精品国产一区二区三区不卡|