精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Llama-2首個全方位評測,國內(nèi)外開源模型大比拼

人工智能 新聞
我們在拿到Llama-2的系列開源模型后,通過OpenCompass對它進行了全方位的評測。

進入2023年7月,大語言模型(LLM)的發(fā)展進入了新階段,開源成為一個火熱的主題

  • 7月6日,上海人工智能實驗室與商湯科技等聯(lián)合發(fā)布了書生·浦語開源體系(https://github.com/InternLM),不僅開源了書生·浦語的輕量版本(InternLM-7B),還率先開源了從數(shù)據(jù)、訓練到評測的全鏈條工具體系,并提供完全免費的商用許可;
  • 7月14日,智譜科技開放ChatGLM2-6B免費商用;
  • 7月19日,Meta開源了性能更強的Llama-2,也提供了更加寬松的商用許可。

面對語言模型的新一波開源浪潮,圖靈獎得主Yann Lecun在推特上評價:

This is going to change the landscape of the LLM market.

圖片

可是,開源模型的表現(xiàn)是否可以當?shù)闷饦I(yè)界的熱切期待?

我們在拿到Llama-2的系列開源模型后,通過OpenCompass對它進行了全方位的評測(https://opencompass.org.cn)

Llama-2有多強

Llama-2相比Llama-1有不少技術(shù)層面的改進,從而帶來了模型性能、推理效率以及安全性等方面的有效提升。具體而言,重要的改進有以下幾點:

  • 模型架構(gòu)上使用Group-Query-Attention(GQA)來提高模型推理效率,語境長度從2K增加一倍到4K。
  • 預訓練語料從1.4T tokens增加到2T tokens。
  • 在監(jiān)督微調(diào)(SFT)階段更加注重數(shù)據(jù)集質(zhì)量,使用更少但質(zhì)量更高的SFT數(shù)據(jù)相比使用百萬量級的公開SFT數(shù)據(jù),效果顯著提升。
  • 引入了三項安全訓練技術(shù)Supervised Safety Fine-Tuning、Safety RLHF、Safety Context Distillation 提升模型的安全性。

相比前代性能大增,仍難媲美ChatGPT

那么,Llama-2的整體能力究竟如何呢?

雖然在官方技術(shù)報告中已經(jīng)展示了在20個左右數(shù)據(jù)集上的測試結(jié)果,但評價能力維度仍然有限,對比的模型也還不夠全面。

這里我們借助開源評測工具OpenCompass,對Llama-2發(fā)布的各個模型在40多個評測集上進行了全方位的評測,從學科、語言、知識、理解、推理五大維度綜合衡量大模型的能力。

結(jié)果可以總結(jié)為以下的雷達圖:

圖片

下表列出Llama、Llama-2、以及ChatGPT在幾個有代表性評測集上的表現(xiàn):

圖片

更全面和詳細的評測結(jié)果數(shù)字請參看https://opencompass.org.cn。

相比上代模型全面提升:

從綜合能力角度,Llama-2-70B(綠色)相比于Llama-1-65B(紫色)更勝一籌,在語言、知識、推理、理解、學科等各個能力維度相比Llama-1都有明顯提升。比如綜合考試集MMLU上從63.71提升到69.75,GSM8K 上從54.51提升到63.46。

對話和基座模型基本持平:

經(jīng)過微調(diào)和對齊的模型Llama-2-70B-Chat(黃色)相比基座模型Llama-2-70B(綠色),綜合能力基本持平,在語言、推理和理解上相比基座有性能提升,在學科綜合能力和知識能力上略有下降。比如翻譯評測集Flores和代碼評測集HumanEval上,Chat模型分別有超過40%和20%的相對提升,而在MMLU和TrivialQA上則有大約10%的相對降低。

離ChatGPT仍有較大差距:

相比ChatGPT-0613(藍色)Llama-2-70B-Chat(黃色)仍需繼續(xù)追趕,尤其在推理能力、理解能力、和學科綜合能力上差距還比較明顯。其中數(shù)學評測集MATH和代碼評測集HumanEval的差距都超過了一倍。

中文能力短板明顯

在Llama的訓練語料中,中文占比較小,微調(diào)階段也沒有針對中文進行調(diào)優(yōu),所以當前Llama-2-Chat在中文問題上仍顯不足。

一個典型的表現(xiàn)就是給定中文問題時,模型還是會以英文回答。

為了對Llama-2的中英文能力有更深入的理解,我們選取了OpenCompass中的中英文數(shù)據(jù)集進行分別分析。

圖片

結(jié)果顯示:

  • Llama-2在英語語言能力、知識水平和理解能力上已經(jīng)較為接近ChatGPT。
  • Llama-2在中文能力上全方位遜色于ChatGPT。這一結(jié)果表明,Llama-2本身作為基座模型直接支持中文應用并不是一個特別優(yōu)秀的選擇
  • 推理能力上,不管中英文,Llama-2距離ChatGPT仍然存在較大差距。由此可見,對于大模型來說,推理能力提升的難度比基礎語言能力提升的難度要高得多。

安全對齊讓模型過度謹慎

Llama-2的一大特色是它在訓練過程中采用了比較完善的安全對齊方案,在價值對齊和安全性上有較大提升。

但在測試中我們也發(fā)現(xiàn),Llama-2的安全性和模型能力的平衡沒有做得特別好,模型非常謹小慎微,對于很多常見問題都拒絕回復

圖片

國內(nèi)模型不落下風

近幾個月,國內(nèi)大模型發(fā)展迅速,多個企業(yè)和科研機構(gòu)都發(fā)布了各自的大模型,其中不乏千億參數(shù)的大模型。

那么國內(nèi)大模型和Llama-2相比,究竟表現(xiàn)如何呢?很多朋友都關心這個問題。

重量級模型的對比

國內(nèi)機構(gòu)發(fā)布的70B或者更高量級的模型普遍尚未開源,很多模型只通過內(nèi)測API提供有限服務,因此我們還很難獲得對很多國產(chǎn)模型的全量評測數(shù)據(jù)。

在OpenCompass上,由上海人工智能實驗室和商湯科技聯(lián)合多所高校發(fā)布的千億參數(shù)書生·浦語模型(InternLM-104B)已經(jīng)有了全面的評測結(jié)果。

基于這個結(jié)果,我們比較了書生·浦語ChatGPTLlama-2的性能:

在重量級模型的對比中,書生·浦語表現(xiàn)優(yōu)秀,在大部分主流評測集上領先于Llama-2以及ChatGPT。具體而言,在43個評測集中,InternLM-104B在34個評測集中超越ChatGPT,在41個評測集上超越Llama-2-70B。

中文考試大幅領先:

在中文考試評測集CEval和高考評測集GAOKAO-Bench上,InternLM-104B都大幅超過Llama2-70B。

語言能力略有優(yōu)勢:

在中英文的基礎語言任務上,包括字詞理解,成語習語,翻譯等評測集上,InternLM-104B都有優(yōu)勢,其中中文評測集上差距更大。

閱讀理解“書生”名副其實:

在中英文的各類閱讀理解評測集上,InternLM-104B均表現(xiàn)出明顯的優(yōu)勢,從文本段中總結(jié)和理解關鍵信息的能力更勝一籌。

推理能力技高一籌:

在常識推理、數(shù)學推理、綜合推理的各種數(shù)據(jù)集上,InternLM-104B都有比較穩(wěn)定的發(fā)揮,相比Llama2-70B有一定優(yōu)勢。

知識問答平分秋色:
在BoolQ,CommonSenseQA,TrivialQA,NaturalQuestion等知識問答評測集上,兩個模型表現(xiàn)相當,可見知識水平?jīng)]有明顯差異。

代碼能力互有勝負:

InternLM-104B和Llama2-70B的代碼能力不相上下,HumanEval和 MBPP兩個數(shù)據(jù)集上互有勝負。

輕量級模型的對比

重量級賽道上你追我趕,在7B量級的輕量級賽道上,開源模型的競爭也十分活躍。

在眾多國內(nèi)開源模型之中,百川智能發(fā)布的Baichuan-7B、清華大學和智譜AI發(fā)布的ChatGLM2-6B、上海人工智能實驗室發(fā)布的InternLM-7B等優(yōu)秀模型廣受業(yè)界關注。

我們把這些國內(nèi)模型和Llama-2-7B進行了全方位評測對比:

圖片

下表列出了這幾個7B量級模型在幾個有代表性評測集上的表現(xiàn):

圖片

結(jié)果顯示:Llama-2在知識能力上有明顯優(yōu)勢。

但在學科、語言、推理和理解能力上,InternLM和ChatGLM2都已經(jīng)超越了Llama-2,而且InternLM的領先優(yōu)勢十分明顯。

免費商用形成星火之勢

幾個月前Llama的開源引爆了社區(qū),讓眾多開發(fā)者和研究者受益匪淺,衍生出整個羊駝家族,但遺憾的是其協(xié)議限制商用,將企業(yè)拒之門外。

7月6日,世界人工智能大會上,書生浦語開源體系正式發(fā)布,開源了InternLM-7B并提供免費商用許可。

之后,ChatGLM2-6B和Llama2等開源模型相繼推進免費商用,順應了發(fā)展潮流和社區(qū)呼聲。

信開源社區(qū)的星星之火將對產(chǎn)業(yè)形成燎原之勢,進一步降低大模型落地應用的門檻。

責任編輯:張燕妮 來源: 量子位
相關推薦

2014-09-25 14:29:03

測評郵箱APP

2014-01-07 17:08:02

Java開源框架

2011-01-19 11:10:30

2010-03-18 14:54:46

主流無線技術(shù)

2015-05-15 09:22:36

JavaScript編輯器大比拼

2021-03-02 09:00:00

開源框架技術(shù)

2010-07-14 13:38:51

Perl開發(fā)工具

2020-08-04 17:06:40

Merging Rebasing Git

2017-09-10 14:29:03

眼力

2010-05-28 11:09:51

SVN功能

2011-11-08 10:29:44

2010-08-25 16:12:34

職場

2021-03-15 21:07:17

IT行業(yè)薪酬薪水

2010-09-08 15:41:28

SIP協(xié)議棧

2023-05-26 15:53:48

MidjourneyAI圖像

2023-11-14 09:00:00

向量數(shù)據(jù)庫ChromaMilvus

2024-06-07 12:46:11

2018-10-25 14:08:07

KubernetesGoogle

2011-04-01 09:18:01

MRTGCactiZabbix
點贊
收藏

51CTO技術(shù)棧公眾號

www.激情网| 91久久国产自产拍夜夜嗨| 波多野结衣 在线| 欧美aaaaaa| 亚洲一区中文在线| 欧美日韩一区二区视频在线观看| 中文字幕在线观看欧美| 亚洲私人影院| 中文字幕欧美在线| 国产xxxx视频| 伊人久久大香| 精品国产乱码久久久久久虫虫漫画| 视频一区二区三区免费观看| 亚洲成人一级片| 蜜臀91精品一区二区三区| 欧美激情一级欧美精品| 99国产精品无码| 欧美成人专区| 日韩欧美国产一区在线观看| 能看的毛片网站| а√天堂中文在线资源8| 亚洲欧美一区二区视频| 日本精品一区二区三区高清 久久| 国产黄色一区二区| 美国毛片一区二区三区| 5566日本婷婷色中文字幕97| 欧美成人三级在线观看| 日韩中文在线电影| 精品亚洲va在线va天堂资源站| 永久av免费在线观看| 成人免费毛片嘿嘿连载视频…| 精品久久久久久| 日韩视频一二三| 91女主播在线观看| 日本一二三不卡| 欧美日韩精品免费观看| 手机看片国产1024| 成人一级视频在线观看| 91精品国自产在线观看 | 精品欧美国产一区二区三区| 99亚洲精品视频| 91高清在线视频| 中文字幕乱码久久午夜不卡| 欧美午夜视频在线| 三级视频网站在线| 2024国产精品视频| 精品一卡二卡三卡四卡日本乱码 | 亚洲乱码av中文一区二区| 日本少妇一级片| 一区二区三区亚洲变态调教大结局| 欧美精品乱人伦久久久久久| 国产精品久久久毛片| 成人免费毛片嘿嘿连载视频…| 色嗨嗨av一区二区三区| 成人黄色片视频| 欧美三级精品| 91激情在线视频| 天天碰免费视频| 欧美日韩国产网站| 欧美唯美清纯偷拍| www.com久久久| 国产在线不卡一区二区三区| 欧美一区二区在线观看| 91av免费观看| 久久久久久毛片免费看| 日韩国产精品视频| 国产成人av一区二区三区不卡| 国产99精品| 日日骚久久av| 中文字幕手机在线观看| 一区福利视频| 日韩av第一页| 又骚又黄的视频| 韩国成人在线视频| 国产欧美日韩综合一区在线观看 | 亚洲国产精品成人久久综合一区 | 国产三级av在线播放| 欧美理论视频| 久久影视电视剧免费网站| 唐朝av高清盛宴| 伊人激情综合| 国产精品国产三级国产aⅴ9色| 中文字幕视频免费观看| 国产盗摄精品一区二区三区在线| 高清国产在线一区| 涩爱av在线播放一区二区| 国产清纯白嫩初高生在线观看91 | 亚洲丝袜美腿一区| 亚洲色图五月天| 中国毛片直接看| 在线视频精品| 成人字幕网zmw| 视频一区二区免费| 国产精品高潮呻吟| 97视频久久久| 日本一区二区三区中文字幕| 精品久久人人做人人爽| 男人的天堂av网| 亚洲一级影院| 国产精品欧美一区二区| 免费国产羞羞网站视频| 中文字幕不卡在线观看| 97视频在线免费| 欧美视频精品| 亚洲精品一区二三区不卡| 久久爱一区二区| 欧美一级久久| 不卡视频一区| 日本最新在线视频| 欧美视频中文字幕在线| 成人高清在线观看视频| 国产一区二区电影在线观看| 欧美黑人极品猛少妇色xxxxx| 免费视频网站在线观看入口| 成人午夜视频福利| 国产精品夜夜夜爽张柏芝| 裤袜国产欧美精品一区| 精品精品国产高清一毛片一天堂| 国产伦精品一区二区三区视频女| 99xxxx成人网| 懂色中文一区二区三区在线视频| 香蕉视频国产在线观看| 日韩欧美国产高清91| 亚洲日本久久久| 欧美三级第一页| 91在线免费视频| 午夜在线观看视频| 欧美综合天天夜夜久久| 国内精品久久99人妻无码| 一区在线视频观看| 成人免费视频网站| 五月婷婷视频在线观看| 91麻豆精品国产91久久久| 激情五月深爱五月| 久久人人精品| 日韩电影免费观看在| 在线免费看h| 日韩精品小视频| 久久精品视频日本| 懂色一区二区三区免费观看| 97在线免费视频观看| 综合在线影院| 国产一区二区三区直播精品电影| 香蕉影院在线观看| 久久日韩精品一区二区五区| 国产亚洲欧美在线视频| 青青草原在线亚洲| 欧美性视频在线| 黄色在线小视频| 色综合天天综合色综合av| 中文字幕在线播放视频| 亚洲自啪免费| 日韩精品无码一区二区三区| 精品日韩视频| 色偷偷亚洲男人天堂| 一二区在线观看| 亚洲人成精品久久久久| 久久久久无码国产精品一区李宗瑞 | 麻豆国产一区二区| 国产高潮呻吟久久久| 亚洲91网站| 97国产精品视频人人做人人爱| 性感美女福利视频| 91九色02白丝porn| 免费在线观看a级片| 国产成人午夜视频| 亚洲 欧美 日韩 国产综合 在线| 天堂av一区二区三区在线播放| 欧美在线视频观看| 在线免费观看黄色网址| 91精品一区二区三区在线观看| 久久久久久国产精品视频| 成人av在线观| 欧洲av无码放荡人妇网站| 日本一区二区在线看| 亚洲va久久久噜噜噜| 国产啊啊啊视频在线观看| 国产婷婷成人久久av免费高清| 亚洲午夜在线播放| 一区二区三区色| 精品无码在线视频| 捆绑调教美女网站视频一区| 4444在线观看| 伊人久久大香线蕉综合网站| 成人在线小视频| 国产精品yjizz视频网| 一区二区三区精品99久久| av观看在线免费| 色系网站成人免费| a级片在线观看免费| 久久久久久免费网| 亚洲熟女乱综合一区二区| 午夜在线一区二区| 日本精品福利视频| 国产伦精品一区二区三区视频 | 亚洲精品老司机| 实拍女处破www免费看| 国产做a爰片久久毛片| 欧美色图另类小说| 国户精品久久久久久久久久久不卡| 欧美日韩国产精品一卡| 999久久久久久久久6666| 国产精品久久久久久av下载红粉| 波多野结衣中文在线| 少妇激情综合网| 五十路在线观看| 日韩一二在线观看| 最新国产中文字幕| 欧美日韩国产在线看| 久艹视频在线观看| 国产精品美女一区二区在线观看| 国产夫妻性爱视频| 成人一级片网址| 日韩欧美中文视频| 麻豆精品蜜桃视频网站| aaaaaa亚洲| 99精品热6080yy久久| 福利在线小视频| 日韩精品免费| 欧美综合激情| 婷婷综合福利| 精品国产乱码一区二区三区四区 | 日韩精品极品在线观看播放免费视频| 国产女主播福利| 欧美日韩亚州综合| 亚洲精品91天天久久人人| 亚洲h动漫在线| 欧美精品一区二区蜜桃| 中文字幕一区二| 精品一区二区在线观看视频| 久久综合丝袜日本网| 国产视频久久久久久| 国产91精品入口| 极品人妻一区二区| 国产曰批免费观看久久久| 天天看片天天操| 日韩精品乱码免费| 人妻少妇被粗大爽9797pw| 亚洲美女视频在线免费观看 | 日本乱码一区二区三区不卡| 久久久久久国产精品久久| 男女在线视频| 海角国产乱辈乱精品视频| 国产羞羞视频在线播放| 欧美激情成人在线视频| 免费男女羞羞的视频网站在线观看 | 欧美日韩一区二区三区免费看| 艳妇乳肉豪妇荡乳av无码福利| 在线免费观看日本欧美| 精品乱码一区内射人妻无码 | 亚洲国产老妈| 米仓穗香在线观看| 欧美日韩亚洲一区| 日韩中文字幕在线免费| 亚洲美女黄色| 欧美三级午夜理伦三级| 日韩在线a电影| 日韩成人精品视频在线观看| 国产美女在线精品| 国产国语老龄妇女a片| 97久久精品人人做人人爽| 91视频免费观看网站| 欧美经典一区二区| 久久精品一区二区三区四区五区| 一区二区在线观看视频| 日韩熟女精品一区二区三区| 欧美性色视频在线| 一区二区视频在线免费观看| 69p69国产精品| 特级丰满少妇一级aaaa爱毛片| 亚洲欧美一区二区三区四区| 日本中文字幕电影在线免费观看| 欧美成人黑人xx视频免费观看| www在线观看黄色| 国产精品免费一区二区三区都可以| 欧美天堂在线| 国产高清一区视频| 国产91精品对白在线播放| 潘金莲一级淫片aaaaaa播放1| 激情久久久久| 日韩精品无码一区二区三区免费| 精品一区二区日韩| 折磨小男生性器羞耻的故事| 久久精品男人天堂av| 日韩视频中文字幕在线观看| 精品国产乱码久久久久久虫虫漫画 | www.超碰在线观看| 天天综合日日夜夜精品| 亚洲最大成人在线视频| 亚洲成avwww人| 天堂中文а√在线| 久久男人资源视频| 五月天色综合| 麻豆精品传媒视频| 欧美/亚洲一区| 久久九九国产视频| 国v精品久久久网| 91成人精品一区二区| 亚洲成人av中文| 国产尤物视频在线观看| 亚洲精品视频播放| 影音先锋在线播放| 国产精品视频自拍| 欧美激情影院| 日本高清视频免费在线观看| 久久男女视频| 中文字幕一区三区久久女搜查官| 亚洲人成在线播放网站岛国 | 澳门成人av网| 成人片在线免费看| 99久久婷婷| av在线无限看| 久久综合网色—综合色88| 国产第100页| 日韩午夜在线观看| 麻豆传媒在线免费| 国产精品高潮呻吟久久av黑人| 巨人精品**| 精品久久久久久无码中文野结衣| 九色综合国产一区二区三区| 成人黄色免费网址| 日韩欧美国产一区二区| 黄色小视频免费观看| 欧美大奶子在线| 91成人短视频在线观看| 先锋在线资源一区二区三区| 久久九九99| 欧美黑人欧美精品刺激| 婷婷丁香激情综合| 风流老熟女一区二区三区| 欧美福利视频在线| 亚洲不卡视频| 国产一区二区四区| 成人一区在线观看| 国产精品第56页| 精品美女在线观看| 久久香蕉一区| 国产高清精品一区二区三区| 黄色亚洲免费| 高清中文字幕mv的电影| 亚洲乱码一区二区三区在线观看| 国产免费无遮挡| 久久成人av网站| 精品一区二区三区四区五区| 警花观音坐莲激情销魂小说| 国产精品自拍毛片| 国产亚洲精品女人久久久久久| 日韩女优电影在线观看| 蜜臀av国内免费精品久久久夜夜| www.成人av.com| 亚洲黄网站黄| jizz欧美性20| 91久久精品一区二区二区| 超碰在线影院| 91久久综合亚洲鲁鲁五月天| 伊人色**天天综合婷婷| 人妻av一区二区三区| 天天av天天翘天天综合网色鬼国产 | 国精产品一区二区三区有限公司| 四虎影视永久免费在线观看一区二区三区| 日韩av在线播放中文字幕| 18精品爽国产三级网站| 制服丝袜亚洲精品中文字幕| 精精国产xxxx视频在线中文版 | 国产精品成人一区| 99久久精品网| 50一60岁老妇女毛片| 欧美性xxxx18| 欧美精品videos另类| av资源站久久亚洲| 欧美在线综合| 天天色影综合网| 亚洲国产欧美一区二区三区同亚洲| 亚洲精品成人图区| 在线免费观看成人网| 岛国av在线一区| 波多野结衣高清视频| 欧美成人自拍视频| 天堂资源在线亚洲| jizz18女人| 亚洲h精品动漫在线观看| 成年人在线观看| 99影视tv| 美女在线观看视频一区二区| 久草视频在线资源站| 亚洲精品视频二区| 伊人久久大香线蕉av超碰| 国产1区2区在线| 亚洲一卡二卡三卡四卡无卡久久| 黄色毛片在线看| 国产不卡一区二区三区在线观看| 日韩成人av影视| 国产乡下妇女做爰视频| 日韩中文字幕免费| 亚洲v天堂v手机在线| 人妻激情偷乱视频一区二区三区| 欧美亚洲国产怡红院影院| 成人三级小说| 欧美性视频在线播放| 久久久久久久久伊人|