精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

UC伯克利LLM準(zhǔn)中文排行榜來了!GPT-4穩(wěn)居第一,國人開源RNN模型沖進(jìn)前六

人工智能 新聞
現(xiàn)在大語言模型們也要像王者榮耀/LoL/Dota這些游戲里的玩家一樣打排位賽了!

前段時間,來自LMSYS Org(UC伯克利主導(dǎo))的研究人員搞了個大新聞——大語言模型版排位賽!

這次,團(tuán)隊不僅帶來了4位新玩家,而且還有一個(準(zhǔn))中文排行榜。

  • OpenAI GPT-4
  • OpenAI GPT-3.5-turbo
  • Anthropic Claude-v1
  • RWKV-4-Raven-14B(開源)

毫無疑問,只要GPT-4參戰(zhàn),必定是穩(wěn)居第一。

不過,出乎意料的是,Claude不僅超過了把OpenAI帶上神壇的GPT-3.5位列第二,而且只比GPT-4差了50分。

相比之下,排名第三的GPT-3.5只比130億參數(shù)的最強(qiáng)開源模型Vicuna高了72分。

而140億參數(shù)的「純RNN模型」RWKV-4-Raven-14B憑借著卓越的表現(xiàn),超越一眾Transformer模型排到了第6——除Vicuna模型外,RWKV在與所有其他開源模型的非平局比賽中贏得了超過50%的比賽。

圖片

此外,團(tuán)隊還分別制作了「僅英語」和「非英語」(其中大部分是中文)這兩個單獨的排行榜。

可以看到,不少模型的排位都出現(xiàn)了明顯的變化。

比如,用更多中文數(shù)據(jù)訓(xùn)練的ChatGLM-6B確實表現(xiàn)更好,而GPT-3.5也成功超越Claude排到了第二的位置。

圖片

本次更新的主要貢獻(xiàn)者是盛穎、Lianmin Zheng、Hao Zhang、Joseph E. Gonzalez和Ion Stoica。

盛穎是LMSYS Org的3個創(chuàng)始人之一(另外兩位是Lianmin Zheng和Hao Zhang),斯坦福大學(xué)計算機(jī)科學(xué)系的博士生。

她也是之前爆火的、可以在單GPU上可以跑175B模型推理的系統(tǒng)FlexGen的一作,目前已獲8k星。

圖片

論文地址:https://arxiv.org/abs/2303.06865

項目地址:https://github.com/FMInference/FlexGen

個人主頁:https://sites.google.com/view/yingsheng/home

「開源」VS「閉源」

在社區(qū)的幫助下,團(tuán)隊共收集了13k條匿名投票,并且有了一些有趣的發(fā)現(xiàn)。

專有與開源的差距

在三個專有模型中,Anthropic的Claude模型比GPT-3.5-turbo更受用戶歡迎。

而且,Claude在與最強(qiáng)大的GPT-4競爭時,也表現(xiàn)得非常有競爭力。

從下面這個勝率圖來看,GPT-4和Claude之間的66場非平局比賽中,Claude贏得了32場(48%)比賽。

圖片

所有非平局A vs B對戰(zhàn)中,模型A勝利的比例

然而,其他開源模型與這三個專有模型之間,依然存在著很大的差距。

特別是,GPT-4以1274的Elo分?jǐn)?shù)領(lǐng)跑排行榜。這比榜單上最好的開源替代——Vicuna-13B——要高出近200分。

在去掉平局后,GPT-4在與Vicuna-13B對戰(zhàn)時贏得了82%的比賽,甚至在與前一代GPT-3.5-turbo對戰(zhàn)時贏得了79%的比賽。

然而,值得注意的是,排行榜上的這些開源模型通常具有比專有模型更少的參數(shù),范圍在30億 - 140億之間。

實際上,最近在LLM和數(shù)據(jù)策劃方面的進(jìn)展使得使用較小模型取得顯著性能改進(jìn)成為可能。

谷歌的最新PaLM 2就是一個很好的例子:我們知道PaLM 2在使用較小模型大小時,比其前一代實現(xiàn)了更好的性能。

因此,團(tuán)隊對開源語言模型迎頭趕上充滿樂觀。

GPT-4在何時會「翻車」?

在下圖中,用戶提出了一個需要仔細(xì)推理和規(guī)劃的棘手問題。雖然Claude和GPT-4提供了類似的答案,但Claude的回應(yīng)稍微好一些。

然而,由于采樣的隨機(jī)性,團(tuán)隊發(fā)現(xiàn)這種情況并不能總能復(fù)刻。有時GPT-4也能像Claude一樣給出相同的順序,但在這次生成試驗中失敗了。

另外,團(tuán)隊注意到,當(dāng)使用OpenAI API和ChatGPT接口時,GPT-4的行為略有不同,這可能是由于不同的提示、采樣參數(shù)或其他未知因素導(dǎo)致的。

圖片

用戶更喜歡Claude而不是GPT-4的一個例子

在下圖中,盡管Claude和GPT-4都具有驚人的能力,但它們?nèi)栽谔幚磉@類復(fù)雜的推理問題上掙扎。

圖片

一個用戶認(rèn)為Claude和GPT-4都錯了的例子

除了這些棘手的情況,還有許多并不需要復(fù)雜推理或知識的簡單問題。

在這種情況下,像Vicuna這樣的開源模型可以與GPT-4表現(xiàn)相當(dāng),因此我們可能可以使用稍微弱一些(但更小或更便宜)的大型語言模型(LLM)來替代像GPT-4這樣更強(qiáng)大的模型。

Elo分?jǐn)?shù)的變化

自從三個強(qiáng)大的專有模型參與以來,聊天機(jī)器人競技場的競爭從未如此激烈。

由于在與專有模型對戰(zhàn)時,開源模型輸?shù)袅瞬簧俦荣悾虼怂鼈兊腅lo分?jǐn)?shù)都有所下降。

最后,團(tuán)隊還計劃開放一些API,讓用戶可以注冊自己的聊天機(jī)器人來參加排位賽。

責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2023-05-04 14:55:02

模型AI

2023-05-26 14:10:00

模型AI

2024-03-25 08:30:00

AI數(shù)據(jù)

2023-06-15 14:00:00

研究模型

2024-11-26 13:40:00

2024-04-07 00:45:00

開源模型

2023-05-31 16:15:51

模型圖像

2024-05-30 14:23:00

2024-02-19 13:46:04

多模態(tài)信息LWMtoken

2018-05-27 17:37:20

薪資IT行業(yè)工資

2024-12-18 07:20:00

2024-05-06 07:00:00

編程語言開發(fā)

2024-12-02 08:20:00

2023-11-14 07:47:42

IGN擴(kuò)散模型

2023-07-15 23:54:57

GPT-4AI谷歌

2023-04-07 09:28:31

模型訓(xùn)練

2024-01-29 10:31:00

AI模型

2025-04-18 08:42:52

模型推理AI

2023-09-27 12:56:56

AI模型

2023-07-01 13:27:55

點贊
收藏

51CTO技術(shù)棧公眾號

国产精品一区二区日韩| 日韩电影在线免费| 久久久久亚洲av片无码下载蜜桃| 97国产在线观看| 精品伊人久久久久7777人| 少妇av在线播放| 国产a级片免费看| 欧美日韩亚洲天堂| 蜜桃在线一区| 国产黄色录像片| 日韩av电影在线播放| 成人动漫一区二区三区| 大地资源网3页在线观看| 日韩欧美亚洲天堂| 日韩欧美不卡一区| 亚洲成人最新网站| 国产巨乳在线观看| 亚洲综合av一区| 欧洲精品视频在线观看| 西瓜成人精品人成网站| 免费av网站在线| 久久久久久欧美精品色一二三四| 一区二区三区成人| 亚洲成人黄色| 日韩免费一级片| 国产一区二区三区色淫影院| 亚洲综合激情另类小说区| 日韩三级不卡| 日韩精品一区二区在线播放| 高清视频一区| 日韩欧美在线网址| 日韩在线中文| 一起草av在线| 男女激情免费视频| 亚洲欧美制服中文字幕| 久久亚洲视频| 国产精品实拍| 在线观看国产网站| 国产97人人超碰caoprom| 国产精品护士白丝一区av| 午夜精品久久久久久毛片| 久久精品免费在线| 久久久综合亚洲91久久98| 欧美午夜影院一区| 亚洲视频狠狠| 欧美人体大胆444www| 亚洲激情在线看| 久久久久久久国产精品视频| 国产精品久久综合| 亚洲伊人影院| 国产熟女一区二区丰满| 日本一本二本在线观看| 欧美精品一二区| 国产亚洲制服色| 日韩在线黄色| 蜜桃91麻豆精品一二三区| 激情网站五月天| 欧美最猛黑人xxxx黑人猛叫黄| 国产精品网站在线观看| 校花撩起jk露出白色内裤国产精品| 91久久国语露脸精品国产高跟| 久久久亚洲精品无码| 久久久久久国产免费| 亚洲日本在线视频观看| 国产精品99久久| aⅴ在线视频男人的天堂| 91精品人妻一区二区三区| 欧美日韩一级视频| 色狼人综合干| 日韩一级片免费观看| 国内av免费观看| 99久久国产免费免费| 日韩精品一区二区三区中文精品| 精品一区二区三区av| 国产不卡精品在线| 国产乱码一区二区| 亚洲 自拍 另类 欧美 丝袜| 亚洲尤物视频网| 日韩精品一区二区三区视频播放 | 中文字幕在线导航| 国产精品视频免费观看www| 欧美在线观看一区二区| 狠狠色狠狠色合久久伊人| 免费一级欧美片在线观看网站| a天堂视频在线| 黄色污在线观看| 午夜欧美一区二区三区免费观看| 日日骚久久av| 欧美日韩国产一区在线| 青青草97国产精品免费观看| 欧美成人精品一级| 婷婷开心激情网| 男女激烈动态图| 亚洲视频视频在线| 亚洲精品高清视频在线观看| 亚洲福利电影| 亚洲香蕉久久| 精品欧美不卡一区二区在线观看| 极品尤物一区二区| 日韩精品 欧美| 成人网址在线观看| 亚洲欧美在线看| 亚洲乱码中文字幕| 免费成人美女在线观看.| 国产精品99久久免费观看| 国产美女性感在线观看懂色av| 九九视频在线免费观看| 久久国产这里只有精品| 国严精品久久久久久亚洲影视| 精品国偷自产在线视频99| 黄网站色欧美视频| 成人午夜看片网址| 欧美第十八页| 色综合视频一区二区三区日韩| 欧美男男同志| 无码人妻av一区二区三区波多野| 亚洲中文字幕无码一区| 日韩xxxx视频| 国产伦精品一区二区三区免| 欧美午夜美女看片| 亚洲欧美日韩视频二区| 动漫视频在线一区| 性欧美猛交videos| 狠狠人妻久久久久久综合麻豆| 好吊色视频在线观看| 精品人妻人人做人人爽夜夜爽| 精品少妇人妻av一区二区| 成人国产精品久久久| 日韩在线观看免费全| 欧美精品在线视频| 亚洲一线二线三线久久久| 粉嫩aⅴ一区二区三区四区五区| 黄色亚洲大片免费在线观看| 国产精品网站在线看| 香蕉伊大人中文在线观看| 国产亚洲依依| 国产视频一区二区三| 黄网在线观看视频| 美国一级黄色录像| 制服下的诱惑暮生| 欧美 国产 日本| 国产精品av免费| 久久久久久久久久久久久9999| 国产精品久久久久久一区二区| 久久精品99久久香蕉国产色戒| 欧美电影免费观看完整版| 色av成人天堂桃色av| 亚洲激情校园春色| 成人av激情人伦小说| 欧美中文字幕精在线不卡| 国产丝袜在线| 国产黄色在线播放| 欧美熟妇另类久久久久久不卡| 亚洲婷婷综合网| 天堂网一区二区三区| 九九热视频在线免费观看| 18禁裸乳无遮挡啪啪无码免费| 中日韩av在线播放| 久久久精品麻豆| 99精品视频在线看| 欧美日韩一区二区在线免费观看| 91亚洲精品国产| 欧美a级黄色大片| 三级网在线观看| 国产在线无码精品| 韩国黄色一级大片| 国产免费一区二区三区四在线播放| 美脚丝袜一区二区三区在线观看| 国产伦理一区二区三区| 国产久一道中文一区| 99在线观看视频网站| 成人av资源网| 国产一区二区精品在线| 欧美日韩在线一二三| 牛人盗摄一区二区三区视频| 欧洲精品一区色| 亚洲成人a**址| 久久久久免费精品国产| 精品亚洲永久免费精品| 在线看国产精品| 久久夜色撩人精品| 久久久爽爽爽美女图片| 97超级碰碰碰| 国产一区二区丝袜高跟鞋图片| 成人a在线视频| 精品无人乱码一区二区三区的优势 | 一级毛片久久久| 久久人体av| 亚洲国产欧美国产第一区| 卡一精品卡二卡三网站乱码 | 不卡影院一区二区| 中文字幕 日韩 欧美| 久久久国产精品久久久| 日本护士做爰视频| 人与动物性xxxx| 日产精品久久久| 国产青青草视频| 国产永久免费高清在线观看视频| 麻豆tv入口在线看| 自由日本语热亚洲人| 伊人久久亚洲| 91精品国产自产在线观看永久∴ | 日韩精品极品在线观看播放免费视频| 一区二区三区高清在线| 国产亚洲短视频| 亚洲第一av色| 欧美成人video| 久久精品91久久久久久再现| 国产精品久久久久久久久久| 狠狠干一区二区| 精品无码一区二区三区爱欲| 日韩不卡的av| 2021亚洲天堂| 空姐吹箫视频大全| 欧美人与性动交α欧美精品济南到 | 性xxxxbbbb| 大菠萝精品导航| 国产精品zjzjzj在线观看| 亚洲高清免费| 91天堂素人约啪| 欧美怡红院视频| 中文在线不卡视频| 亚洲va国产va天堂va久久| 无码人妻精品一区二区三区99v| 成人不卡免费视频| 91porn在线视频| 日韩一卡二卡在线| 欧美粗大gay| 欧美岛国激情| 北岛玲一区二区三区四区| 天天综合色天天综合| 亚洲欧美日韩在线高清直播| 色婷婷久久一区二区三区麻豆| 欧美mv日韩mv| 国产成人精彩在线视频九色| 亚洲一区影院| 中国黄色片视频| 亚洲天堂网视频| cao在线视频| 午夜精品一区二区三区国产| 成人在线一区二区三区| 一本久道久久综合中文字幕| 精品国产一区二区三区久久狼黑人 | 欧美日韩国产美女| 国内精品模特av私拍在线观看| 日韩av一区二区三区美女毛片| 中文字幕第六页| 一级做a爰片久久毛片16| 中文在线а√天堂| 欧美日韩三级| 亚洲四区在线观看| 国产亚洲日本欧美韩国| 成人在线观看av| www.色.com| 国产精品亚洲欧美在线播放| 中韩乱幕日产无线码一区| 亚洲国产高清一区| 亚洲一二三四区| 欧美高清videos高潮hd| 中文字幕第一页亚洲| 懂色av蜜臀av粉嫩av永久| 欧美日韩免费做爰大片| 欧美三级自拍| 91丨porny丨中文| 日韩精品一区二区三区第95| 看片网站欧美日韩| 91久久亚洲| 亚洲精品高清在线观看| 久久久不卡影院| 国产视频亚洲精品| 欧洲精品亚洲精品| 在线精品视频播放| 国产99久久九九精品无码免费| 精品久久在线| 久久99精品久久久久久国产越南| 91久久精品一区二区三| 欧美日韩黑人| 午夜精品毛片| 国产精品久线观看视频| 国产白丝精品91爽爽久久| 日韩写真欧美这视频| 黄色99视频| 欧美性受xxxx黑人| 国产中文字幕在线免费观看| 欧美激情第四页| 天堂在线观看av| 日韩理论在线| 五月天婷婷综合| av在线天堂网| 精品国产av 无码一区二区三区| 国产精品超碰| 91精品婷婷国产综合久久竹菊| 国产精品蜜臀在线观看| 7777女厕盗摄久久久| av在线网址观看| 无人区在线高清完整免费版 一区二| 免费精品视频| 欧美老女人第四色| 久久久久久高清| 欧美日韩人妻精品一区二区三区 | 亚洲欧美综合v| 杨幂一区欧美专区| www成人在线| 国产一精品一av一免费爽爽| 国产一区二区免费电影| 亚洲欧美激情一区二区三区| 男同在线观看| 亚洲国产三级| 91麻豆精品国产| 免费成人深夜夜行网站视频| 中文字幕一级片| 免费电影一区二区三区| 亚洲一本大道在线| 成人激情视频在线观看| 久久久视频6r| 巨胸喷奶水www久久久免费动漫| 久久久久国产精品免费免费搜索| 欧美亚洲激情在线| 九色porny自拍视频| 中文在线а√天堂| 国产欧美日韩一区二区三区在线观看| 欧美一区深夜视频| 人与嘼交av免费| 国产一区影院| 亚洲最快最全在线视频| 99久久久久国产精品免费| 国产在线不卡精品| 极品颜值美女露脸啪啪| 国产精品白丝av嫩草影院| 欧美日韩性视频| 色综合久久久久久久久五月| 影音先锋国产资源| 久久精品久久久| 日韩经典第一页| 免费一区二区三区在线观看 | 葵司免费一区二区三区四区五区| 亚洲三级黄色在线观看| 三级a三级三级三级a十八发禁止| 男人的天堂在线视频免费观看| 国产美女一区二区| 欧美与黑人午夜性猛交久久久| 亚洲图片第一页| 日韩有码一区| 欧美成人a在线| 五月天丁香花婷婷| 欧美影视资讯| 疯狂蹂躏欧美一区二区精品| 偷拍盗摄高潮叫床对白清晰| 日韩有码电影| 成人av影院在线| 91色精品视频在线| 亚洲午夜无码久久久久| 国产欧美日本| 国内精品模特av私拍在线观看| 色欲人妻综合网| 91欧美国产| zzjj国产精品一区二区| 大胸美女被爆操| 精品美女视频| 国产亚洲人成a一在线v站| www在线观看免费视频| 亚洲日本三级| 亚洲欧美一区二区精品久久久 | av在线私库| 精品国产31久久久久久| 国产老熟妇精品观看| bl在线肉h视频大尺度| 精品日韩美女的视频高清| 欧美高清视频在线观看| 国产精品丝袜一区二区| 综合久久十次| 久久人人看视频| 天天做天天爱夜夜爽| 免费在线观看不卡| 亚洲精品免费网站| 日韩在线视频免费| 久久精品无码一区二区三区| 亚洲一区尤物| 国产福利电影在线播放| 在线看日韩精品电影| 91极品视频在线观看| 日本免费精品| 亚洲韩国青草视频| 情侣偷拍对白清晰饥渴难耐| 欧美激情第8页| 国产97在线播放| 精品国产黄色片| 国产人成一区二区三区影院| 资源网第一页久久久| 成人爽a毛片免费啪啪| 777xxx欧美| 欧美自拍偷拍网| 国产日韩综合| 国产精品12| 网友自拍视频在线| 在线观看中文字幕不卡| 亚洲成年人av| 黑人一区二区三区四区五区| 国产精品成人一区二区| 午夜成人免费影院|