精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

谷歌PaLM 2弱爆:LLM大排名屈居第六,準中文倒數第二|UC伯克利排行榜新鮮榜出爐

人工智能 新聞
這次「LLM排位賽」,谷歌PaLM 2也被拉上溜了溜。然而,實測表現卻讓人大跌眼鏡。

由UC伯克利主導的「LLM排位賽」又雙叒更新了!

這次,最新榜單又迎來新的玩家,PaLM 2(也是就Bard)、Claude-instant-v1,MosaicML MPT-7B,以及Vicuna-7B。

圖片

值得一提的是,即便是平價版的Claude模型,Elo得分也趕超了ChatGPT。

但有一位選手的表現,卻出乎意料得拉跨——谷歌PaLM 2屈居第六,排在了Vicunna-13B之后。

圖片

4月24日-5月22日數據

PaLM 2(Bard)排位大比拼

谷歌PaLM 2發布以來,根據論文的測試,其部分性能已經超過了GPT-4。

圖片

而它的具體表現如何?

來自LMSYS Org的研究人員通過Google Cloud Vertex AI的API接口,將PaLM 2添加到Chatbot Arena,并以代碼名為chat-bison@001進行聊天調優。

在過去的兩周,PaLM 2已經與16個聊天機器人,進行了大約1800次的匿名比拼,目前排名第六。

從排行榜中可以看出,PaLM 2的排名高于所有其他開源聊天機器人,除了Vicuna-13B。

Vicuna-13B的ELO評分,比PaLM 2高出12分(Vicuna 1054 vs. PaLM 2 1042)。就ELO等級而言,這幾乎是個平局。

另外,研究者從PaLM 2的競技場數據中注意到了以下有趣的結果。

PaLM 2與前4名玩家對戰表現較好, 即GPT-4,Claude-v1,ChatGPT,Claude-moment-v1。而且,它與Vicuna的比賽中也贏了53%的比賽。

然而,PaLM 2與較弱的模型對弈時,表現較差。

在PaLM 2參加的所有比賽中,有21.6%的比賽輸給了GPT-4、Claude-v1、GPT-3.5-turbo、Claude-instant-v1其中之一。

作為參考,GPT-3.5-turbo只有12.8%的比賽輸給了這些聊天機器人。

圖片

三大缺陷

簡而言之,研究人員發現,與評估過的其他模型相比,Google Cloud Vertex API現有的PaLM 2存在以下缺陷:

- PaLM 2受到更嚴格的監管,影響了它回答一些問題的能力

- 多語言能力有限

- 推理能力不如人意

更嚴格的監管

與用戶的對話中,PaLM 2遇到不確定或不愿回答的問題時,與其他模型相比,更有可能放棄回答。

粗略估計,在所有的配對戰中,PaLM 2因為拒絕回答問題而輸掉了20.9%比賽。尤其是,有30.8%比賽輸給了不是Top 4的模型。

這也能夠解釋,為什么PaLM 2經常輸給排行榜上較弱的聊天機器人。

同時,也反映出聊天機器人競技場方法論的一個缺陷,因為隨意用戶更有可能因為微妙的不準確回答,而懲罰棄權行為。

下面,研究者提供幾個失敗的案例,說明PaLM 2如何輸給弱聊天機器人。

另外,研究者注意到,有時很難明確規定LLM監管的邊界。在提供的PaLM 2版本中,看到了一些不受歡迎的趨勢:

- PaLM 2拒絕許多角色扮演問題,即使用戶要求它模擬Linux終端或編程語言解釋器。

- 有時PaLM 2拒絕回答簡單且無爭議的事實問題。

下面列舉了幾個PaLM 2拒絕回答問題的例子:

「人類真的登月了嗎?」

圖片

「為什么天空是藍的?」

圖片

多語言能力有限

PaLM 2傾向于不回答非英語問題,包括用漢語、西班牙語和希伯來語等流行語言編寫的問題。

研究者稱,無法使用當前的PaLM 2版本重現「PaLM 2技術報告」中演示的幾個多語言示例。

此外,UC伯克利研究人員還分別計算了僅考慮英語和非英語對話時所有模型的Elo評分。

結果證實,在非英語排行榜上,PaLM 2排名第16。

圖片

推理能力很弱

研究人員稱,并沒有發現PaLM 2有著強大的推理能力。

一方面,它似乎可以檢測問題是否是「純文本」的,并且傾向于拒絕回答不是純文本的問題,例如編程語言、調試和代碼解釋中的問題。

另一方面,與其他聊天機器人相比,PaLM 2在一些入門級推理任務上表現不佳。

連1+2是不是等于3這么簡單問題,竟答錯了...

圖片

圖片

刪除非英語和拒絕對話后的Elo評分

研究人員刪除所有非英語對話和PaLM 2沒有提供答案的所有對話,并使用過濾后的數據計算每個模型重新排位之后——

PaLM 2躍升至第五名,不過還是沒有超越ChatGPT。

而這個排名也代表了PaLM 2在競技場中的假設上限。

圖片

參數更小的模型競爭力強

研究者觀察到幾個參數較小的模型,包括vicuna-7B和mpt-7b-chat,在排行榜上排名還相對靠前。

與巨量參數大型模型相比,這些較小的模型同樣表現良好。

由此,研究人員推測,高質量的預訓練,以及微調數據集比模型規模更重要。

然而,較大的模型在更復雜的推理任務,或回答更細微的問題時仍有可能表現得更好。

因此,在預訓練和微調階段管理高質量的數據集,似乎是縮小模型規模的同時,保持模型高質量的關鍵方法。

Claude-v1與Claude-instant-v1

另外,Claude-instant-v1是針對低延遲、高吞吐量用例進行優化的版本。

在排位賽中,Claude-instant-v1的水平實際上非常接近GPT-3.5-turbo(1153 vs.1143)。

可以看到,Claude和Claude-instant之間的評分差距似乎小于GPT-4和GPT-3.5-turbo之間的差距。

局限性

聊天機器人排位賽主要是對基于LLM(Large Language Model)的聊天機器人進行「真實環境」的基準測試。

這意味著,用戶提供的投票數據和在投票過程中生成的提示-回答,反映的就是聊天機器人在正常的人機交互中的表現。

這可能與LLM研究文獻中的很多基準測試結果不符,后者傾向于描述如zero-shot、復雜推理等長尾能力。

因此,目前的排位賽在反映聊天機器人之間的長尾能力差異方面存在限制。

作者介紹

本次評測主要由LMSYS Org的Hao Zhang,Lianmin Zheng,Wei-Lin Chiang,Ying Sheng和Ion Stoica完成。

圖片

責任編輯:張燕妮 來源: 新智元
相關推薦

2023-05-16 13:32:23

模型排行

2023-05-04 14:55:02

模型AI

2024-05-30 14:23:00

2022-06-08 13:50:41

AI專業排行

2012-06-19 14:23:04

云計算中國

2018-03-21 09:51:29

數據庫排行榜Oracle

2020-06-12 15:26:51

網絡速度移動網絡下載

2024-02-19 13:46:04

多模態信息LWMtoken

2020-01-16 15:19:52

APP下載抖音

2020-08-13 11:55:33

編程語言JavaPython

2020-11-06 00:41:50

編程語言PythonJava

2023-10-31 15:23:16

開源

2023-11-14 07:47:42

IGN擴散模型

2022-12-14 07:28:31

2011-11-03 11:02:00

瀏覽器排行榜

2021-05-08 23:24:56

編程語言CPython

2025-06-03 08:38:00

2024-03-25 08:30:00

AI數據

2013-08-23 09:41:19

2019-09-09 14:53:29

編程語言PythonJava
點贊
收藏

51CTO技術棧公眾號

午夜欧美精品| 免费动漫网站在线观看| 一区二区中文| 精品久久久久久久人人人人传媒 | 日韩高清一级| 在线视频一区二区三| 一区中文字幕在线观看| 黑人乱码一区二区三区av| 丝袜亚洲另类丝袜在线| 综合久久五月天| 国产原创剧情av| 成人久久网站| 亚洲综合清纯丝袜自拍| 日韩国产一区久久| 欧美 日韩 人妻 高清 中文| 日韩av午夜在线观看| 欧美第一黄色网| 免费观看a级片| 丁香综合av| 欧美日本韩国一区| 亚洲熟妇av日韩熟妇在线| 欧美成人hd| 久久精品欧美一区二区三区麻豆| 97人人澡人人爽| 最近中文字幕在线观看视频| 中文亚洲免费| 久久免费少妇高潮久久精品99| 自拍偷拍第9页| 欧美精品一区二区三区精品| 亚洲风情亚aⅴ在线发布| 午夜大片在线观看| 国精品产品一区| 欧美性猛交xxxx黑人| www.在线观看av| 超碰在线无需免费| 国产精品毛片a∨一区二区三区| 久草一区二区| 天天干,夜夜操| 成人综合在线网站| 亚洲综合第一页| 91在线视频国产| 久久电影一区| 91高清视频免费| 日本熟妇乱子伦xxxx| 亚洲午夜电影| 久久久久久久成人| 国产系列精品av| 88国产精品视频一区二区三区| 丝袜美腿精品国产二区| 免费一级黄色录像| 北条麻妃国产九九九精品小说| 日韩精品一区二区视频| 人人妻人人澡人人爽人人精品| 国产精品sss在线观看av| 精品国产免费一区二区三区四区| 免费高清视频在线观看| 涩涩屋成人免费视频软件| 91精品国产aⅴ一区二区| 亚洲视频在线不卡| 视频国产精品| 精品国产不卡一区二区三区| 日本性生活一级片| 日韩理论电影中文字幕| 亚洲欧美日韩第一区| 91成年人网站| 欧美性感美女一区二区| 久久精品福利视频| 校园春色 亚洲| 激情偷拍久久| 欧美在线激情网| 亚洲午夜无码久久久久| 久久成人麻豆午夜电影| 亚洲www在线| 亚洲精品一级片| xfplay精品久久| 亚洲国产激情一区二区三区| 免费大片在线观看www| 一区二区三区视频在线看| 免费在线看黄色片| 午夜影院在线观看国产主播| 欧美在线视频全部完| 不卡的在线视频| 18国产精品| 亚洲欧洲在线播放| 久久国产高清视频| 日韩视频精品在线观看| 国产精品黄页免费高清在线观看| 中文区中文字幕免费看| 精品亚洲国产成人av制服丝袜 | 一本久道中文无码字幕av| 久久久久黄色| 欧美精品一区二区三区久久久| 日韩一级视频在线观看| 999久久久国产精品| 国内偷自视频区视频综合| 国语对白做受69按摩| 国产精品一级片| 欧美一区二区在线| 亚洲男同gay网站| 日本韩国欧美在线| 国产成人精品一区二区三区在线观看| 亚洲欧美成人vr| 欧美裸体xxxx极品少妇| 无码视频一区二区三区| 国产99久久久国产精品免费看 | 欧美性色xo影院| www.午夜av| 狠狠人妻久久久久久| 狠狠色丁香久久综合频道| 欧美又大又硬又粗bbbbb| 日韩伦理一区| 日韩精品一区二区三区swag| 亚洲专区区免费| 国产精品99视频| 欧美一区二区三区免费视| 亚洲精品一区二区二区| 粉嫩在线一区二区三区视频| 久久久久久九九| 日本精品在线| 色哟哟一区二区| 亚洲中文字幕无码一区| 99热在线成人| 国产精品91久久久久久| 午夜视频在线播放| 亚洲线精品一区二区三区| 亚洲欧美偷拍另类| 九色成人国产蝌蚪91| 午夜精品久久久久久久白皮肤 | 91青青草免费在线看| 不卡在线视频| 一本大道久久a久久综合婷婷 | 久久久久九九视频| 成年女人18级毛片毛片免费| 国产电影一区| 久久久999成人| 中文字幕一区2区3区| 国产三级精品视频| 欧美成人黑人猛交| 免费av一区| 日韩女优人人人人射在线视频| 亚洲AV无码精品国产| 亚洲免费视频成人| 伊人成人免费视频| 亚洲一级毛片| 亚洲影院在线看| www视频在线看| 91精品国产91久久久久久一区二区| 日本综合在线观看| 天堂影院一区二区| 日韩欧美精品在线不卡| 日韩欧美一区二区三区免费观看| 日韩av影院在线观看| 日本少妇xxxx动漫| 91免费国产在线观看| 国产午夜福利视频在线观看| 亚洲品质自拍| 久久精品国产亚洲高清剧情介绍| xvideos成人免费中文版| 欧美一区二区三区久久久| 国产日韩v精品一区二区| 久久久久久久片| 日韩在线欧美| 91亚洲午夜在线| 日本在线视频www鲁啊鲁| 日韩欧美国产综合| 日本五十路女优| 欧美日韩三级| 精品一区二区三区视频日产| 东京一区二区| 曰本色欧美视频在线| 中文字幕 欧美激情| 中文字幕日本不卡| 初高中福利视频网站| 黄色亚洲在线| 久久伦理网站| 久久精品97| 九九热精品视频国产| 少妇高潮一区二区三区99小说| 日韩欧美第一页| 国产一二三四视频| 丰满岳乱妇一区二区三区| 中文字幕日本最新乱码视频| 日韩理论片av| 国产一区免费在线| 97成人超碰| 欧美精品xxx| 电影av在线| 欧美mv日韩mv国产网站app| 国内免费精品视频| 亚洲中文字幕在线观看| 亚洲欧美一区二区三区久本道91 | 永久555www成人免费| 日韩特级黄色片| 国产精品久线在线观看| 亚洲成a人无码| 日韩激情一二三区| 日本香蕉视频在线观看| 欧美人妖在线| 肥熟一91porny丨九色丨| 亚洲成人一区在线观看| 中文字幕日韩av电影| 嫩草影院一区二区| 91精品在线麻豆| 国产又粗又爽视频| 一区二区三区在线视频免费观看| 美女久久久久久久久久| 国产成人午夜视频| 午夜在线观看av| 天堂在线视频免费观看| 天天av天天翘天天综合网| 免费看一级黄色| 99国产精品久久久久久久久久久| 亚洲一区精品视频在线观看| 亚洲欧美网站| 日韩视频在线视频| 亚洲乱码电影| 亚洲成人网上| 九九亚洲视频| 久久艳妇乳肉豪妇荡乳av| 136福利精品导航| 亚洲综合中文字幕68页| 久久女人天堂| 国产精品高潮粉嫩av| av免费不卡国产观看| 另类美女黄大片| av电影在线播放高清免费观看| 免费欧美在线| 国产女主播av| 91日韩欧美| 亚洲免费高清视频在线| 丝袜老师办公室里做好紧好爽| 亚洲欧美亚洲| 久久最新免费视频| 欧美国产一区二区三区激情无套| 欧美一区1区三区3区公司| 精品日产乱码久久久久久仙踪林| 5566av亚洲| 日本精品一区二区三区在线观看视频| 国产主播精品在线| 亚洲国产综合在线观看| 国产日韩欧美视频| 羞羞视频在线观看一区二区| 国产精品免费小视频| 欧美色片在线观看| 国产精品成人一区二区| av亚洲一区二区三区| 国产97在线|亚洲| 欧美性理论片在线观看片免费| 日韩av电影免费观看高清| 欧美日韩电影免费看| 国产www精品| 青青热久免费精品视频在线18| 国产成人亚洲精品| 日本一区二区电影| 国产精品com| 欧美高清xxx| 成人夜晚看av| 91综合久久爱com| 精品福利影视| 国产伦一区二区三区| 亚洲精品日韩在线观看| 91久久高清国语自产拍| 黄频视频在线观看| 欧美日韩蜜桃| 免费黄色福利视频| 免费在线观看不卡| 日韩成人av免费| 国产成人av一区| 国产高清自拍视频| 久久久精品中文字幕麻豆发布| 亚洲无人区码一码二码三码的含义| 国产亚洲一区二区在线观看| 五月婷婷婷婷婷| 洋洋av久久久久久久一区| 日韩精品视频播放| 欧美亚洲综合另类| 国产www免费观看| 日韩av中文字幕在线免费观看| 久草视频视频在线播放| 久久精品中文字幕免费mv| 免费毛片在线看片免费丝瓜视频| 57pao成人国产永久免费| 福利一区二区| 国产一区免费在线| 久久中文字幕av| 97在线国产视频| 免费观看久久久4p| 国产精品91av| 欧美国产精品v| 欧美另类视频在线观看| 日本韩国一区二区| 亚洲AV无码精品国产| 亚洲视频精品在线| av片在线观看网站| 国产成人亚洲精品| 国产精品自在线拍| 亚洲巨乳在线观看| 亚洲美女一区| 国产一级免费大片| 久久久一区二区| 国产一级在线播放| 欧美系列一区二区| 天天干天天摸天天操| 久久精品国产2020观看福利| 日本蜜桃在线观看视频| 亚洲精品免费一区二区三区| 亚洲女娇小黑人粗硬| 国产av熟女一区二区三区| 青青草成人在线观看| 中文字幕a在线观看| 亚洲人成7777| 波多野结衣视频网址| 亚洲精品国偷自产在线99热| 九色porny在线| 国产精品久久综合av爱欲tv| 国产精品午夜av| 久久免费一级片| 美腿丝袜亚洲三区| 亚洲人成人无码网www国产 | 日韩精品中文字| 欧美1—12sexvideos| 91色精品视频在线| 日韩电影二区| 国产熟人av一二三区| 91美女片黄在线观看| 日韩久久久久久久久| 精品日韩欧美一区二区| 看黄网站在线| 国产精品自产拍在线观看中文| 欧美激情在线免费| jizzjizz国产精品喷水| 成人免费福利片| 久久久久久国产精品免费播放| 欧美精品久久天天躁| 成人h小游戏| 国产精品久久久久久久久久三级| 色狠狠久久av综合| www.爱色av.com| 99精品视频一区二区三区| 亚洲一区欧美在线| 亚洲精品不卡在线| 涩涩视频网站在线观看| 久久亚洲综合网| 日日夜夜精品视频免费| brazzers精品成人一区| 色婷婷久久综合| 国产大学生校花援交在线播放| 国产精品69精品一区二区三区| 精品国产一区二区三区久久久樱花 | 免费在线稳定资源站| 欧美重口另类videos人妖| 美女久久99| 密臀av一区二区三区| 中文一区二区在线观看| 一区二区美女视频| zzijzzij亚洲日本成熟少妇| 国产一区二区三区黄网站| 蜜臀在线免费观看| 丁香婷婷综合色啪| 日韩三级一区二区三区| 亚洲免费电影一区| 激情久久一区二区| 最新视频 - x88av| 成人一二三区视频| 精品人妻一区二区三区免费看 | 三级中文字幕在线观看| 青娱乐一区二区| 蜜桃视频一区二区三区| 国产精品精品软件男同| 精品国产一区二区三区久久久蜜月| 啊啊啊久久久| 色综合视频二区偷拍在线| 韩国av一区二区三区在线观看| 久久精品波多野结衣| 亚洲乱码国产乱码精品精天堂| 国产日本久久| 阿v天堂2018| 国产农村妇女毛片精品久久麻豆| 亚洲天堂一二三| 欧美精品videosex牲欧美| 欧美精品一区二区久久| 91丨porny丨九色| 欧美性xxxxx| 成人在线网址| 女女同性女同一区二区三区91| 久久精品久久精品| 久久久久久久99| 在线精品高清中文字幕| 一区二区三区免费在线看| 欧美 国产 小说 另类| 亚洲男人的天堂在线aⅴ视频| 五月婷婷狠狠干| 91麻豆国产精品| 另类天堂av| 亚洲欧美一区二区三区四区五区| 亚洲欧美日韩精品| 91蜜桃臀久久一区二区| 8x8x最新地址| 婷婷国产在线综合| 91中文在线|