精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

全面的中文大語言模型評測來啦!香港中文大學研究團隊發(fā)布

人工智能 新聞
近期的一系列中文大模型的評測研究陸續(xù)呈現(xiàn),盡管極大地推進了中文大語言模型理解,但仍然有一些關(guān)鍵的研究問題需要關(guān)注和討論。

ChatGPT 的一聲號角吹響了2023年全球大語言模型的競賽。

2023年初以來,來自工業(yè)界和研究機構(gòu)的各種大語言模型層出不窮,特別值得一提的是,中文大語言模型也如雨后春筍般,在過去的半年里不斷涌現(xiàn)。

與此同時,和如何訓練大語言模型相比,另一些核心的難題同時出現(xiàn)在學術(shù)界和產(chǎn)業(yè)界的面前:究竟應(yīng)該如何理解和評價中文大語言模型的能力?在中文和英文大模型的理解和評測上又應(yīng)該有什么聯(lián)系與區(qū)別?

帶著問題的思考,我們發(fā)現(xiàn),近期的一系列中文大模型的評測研究陸續(xù)呈現(xiàn),盡管極大地推進了中文大語言模型理解,但仍然有一些關(guān)鍵的研究問題需要關(guān)注和討論。

想要準確全面地理解和評測中文大語言模型,這些問題亟須解決:

  • 評測數(shù)據(jù)與指標的選擇需要更加全面。傳統(tǒng)的自動評測工作往往基于數(shù)量有限的考試題或部分開源數(shù)據(jù)集,采用的評測指標大多只關(guān)注廣義的準確率。數(shù)據(jù)的選擇不夠豐富多樣,指標上也忽視了魯棒性、公平性等在模型應(yīng)用中很重要的其他維度。而人工評測大模型因高昂的人力成本,在數(shù)據(jù)與指標的選擇上更受制約。
  • 不一致的評測過程容易損害評測結(jié)果的可比性。提示(prompt)模板、超參數(shù)、數(shù)據(jù)預(yù)處理等環(huán)節(jié)都會對模型最終的結(jié)果有直接影響。
  • 難以避免的數(shù)據(jù)污染(data contamination)風險讓評測對比難上加難。隨著訓練語料不斷擴大,模型在訓練過程中見過考試題和開源數(shù)據(jù)集的可能性也不斷升高。

針對這些挑戰(zhàn),有研究團隊已經(jīng)給出了自己的探索與方案。

近日,EMNLP 2023的論文結(jié)果公布。來自香港中文大學計算機科學與工程學系的王歷偉助理教授研究團隊的CLEVA: Chinese Language Models EVAluation Platform 被EMNLP 2023 System Demonstrations 錄取。

據(jù)CLEVA項目負責人王歷偉教授介紹,CLEVA是其帶領(lǐng)的港中文語言和視覺實驗室(CUHK LaVi Lab)聯(lián)合上海人工智能實驗室合作研究的全面的中文大語言模型評測方法。

值得一提的是,CLEVA目前已經(jīng)被全球前沿的英文大語言模型評測體系-斯坦福大學的HELM 評測體系認可和接入!

目前,用戶已經(jīng)可以通過斯坦福的HELM評測平臺來調(diào)用和測試CLEVA的中文大模型評測。“能得到國際前沿大模型評測研究團隊的認可,是對我們研究工作的極大鼓勵。” LaVi實驗室的同學自豪地說。

CLEVA:全面的中文評測

全面的大語言模型評測離不開海量的數(shù)據(jù)和完整的評測指標。CLEVA目前覆蓋 31個任務(wù)(11個應(yīng)用評估+20個能力評測),囊括目前最多的來自84個數(shù)據(jù)集的370K個中文測試樣本。中文測試樣本數(shù)是過往同類工作最大值的四倍,讓大語言模型在不同任務(wù)上的能力都完整地呈現(xiàn)出來。

指標上,CLEVA不僅關(guān)注過往評測中大家最在乎的準確性(Accuracy),還借鑒了HELM在英文評測中的做法,針對中文評測設(shè)計了魯棒性(Robustness)、公平性(Fairness)、效率(Efficiency)、校準與不確定性(Calibration and Uncertainty)、偏見與刻板印象(Bias and Stereotypes)和毒性(Toxicity)的指標。另外,CLEVA還引入了多樣性(Diversity)隱私性(Privacy)評測,幫助人們做出綜合的判斷。這對大模型應(yīng)用至關(guān)重要。

標準的評測流程

在使用大模型時,人們經(jīng)常發(fā)現(xiàn)大模型對提示等細節(jié)變化不夠魯棒。不同的提示模版會帶來較明顯的差異。過往的大模型評測很多只提供了評測數(shù)據(jù),并沒有提供或只提供了一兩個提示模版,而這直接導(dǎo)致不同工作得到的評測結(jié)果不直接可比。

CLEVA為每一個評測任務(wù)準備了一組多個提示模版。所有模型用同樣一組提示模版進行統(tǒng)一評測,不僅可以更公平比較模型能力,還可以通過不同模版帶來的性能差異分析一個模型對提示模版的敏感程度,指導(dǎo)模型的下游應(yīng)用。

更可信的評測結(jié)果

隨著大模型訓練用的語料越來越龐大,數(shù)據(jù)污染的風險也與日俱增。數(shù)據(jù)污染會使模型測試結(jié)果不可信,很難公平地體現(xiàn)出模型的能力。如何盡量減輕數(shù)據(jù)污染的問題,之前的中文評測工作還沒有針對這一問題給出充分的探索和方案。

CLEVA通過多種方法在評測開始之前就主動降低數(shù)據(jù)污染帶來的風險。從源頭上,33.98%的測試數(shù)據(jù)是CLEVA新采集構(gòu)造的。更關(guān)鍵的是,CLEVA基于規(guī)模最大的中文測試數(shù)據(jù),在每輪評測時都會通過不重復(fù)采樣得到一個全新的測試集。每一輪測試集在經(jīng)過多種數(shù)據(jù)增強策略的調(diào)整后,才用來評測大模型,進一步緩解數(shù)據(jù)污染的風險。

如何進行CLEVA 評測?

CLEVA已經(jīng)評測了23個目前最有影響力的中文大模型,還會持續(xù)用更多的數(shù)據(jù)和指標,評測更多的模型。對大模型評測感興趣的研究團隊,可以通過CLEVA網(wǎng)站提交和對接評測后續(xù)的進展。詳細的教程請參考CLEVA官方網(wǎng)頁或GitHub repo。

對于CLEVA已經(jīng)具有的評測需求,CLEVA還提供了清晰好用的網(wǎng)絡(luò)界面進行操作。用戶可以用可交互的可視化工具,仔細對比不同模型在不同任務(wù)和評測指標上的差異。在申請權(quán)限后,用戶可以讓自己感興趣的模型通過網(wǎng)絡(luò)接口跟CLEVA進行交互,只需按幾次鼠標即可開始一次全面評測,十分便利。

“團隊很努力地做了很久的CLEVA,不僅僅是研究上的理解加深,細節(jié)上也在不斷打磨,不斷優(yōu)化。在此過程中,非常感謝上海人工智能實驗室的合作與支持。” CLEVA 團隊在提起打造這個研究工作的時候,能感覺出來研究積累的力量。

大模型能力的認知和評測需要學術(shù)界和工業(yè)界的共同關(guān)注

筆者也了解到,學術(shù)界和工業(yè)界對大模型能力評測關(guān)注的角度也有一些區(qū)別與聯(lián)系。

王歷偉教授,在2020年加入香港中文大學任助理教授之前,已經(jīng)在北美有數(shù)年的工業(yè)界工作經(jīng)驗。他也曾作為商湯科技大語言模型“商量SenseChat”的技術(shù)總負責人,帶領(lǐng)團隊于2023年4月,發(fā)布最早的國內(nèi)中文大語言模型的代表之一,“商量SenseChat”。

圖片

王歷偉

當他提起學術(shù)界和工業(yè)界關(guān)注大模型評測的角度的區(qū)別和聯(lián)系的時候,說道:“工業(yè)界的大模型會不僅僅關(guān)注模型的基本通用能力,還會關(guān)注大模型如何服務(wù)垂直場景和垂直產(chǎn)業(yè),所以評測能力會更加在場景中具象化;而學校或者研究機構(gòu)則更適合從基本的模型理解能力、認知能力、通用智能等角度來理解和評測大模型。”

針對大模型評測領(lǐng)域的許多開放問題,王歷偉教授提到,短期內(nèi)他的港中文研究團隊會持續(xù)關(guān)注的幾點:

“第一,就是進一步優(yōu)化解決數(shù)據(jù)污染的辦法。CLEVA 通過增加新數(shù)據(jù)和采樣的方式減少數(shù)據(jù)污染的可能。但是未來應(yīng)該可以通過新的數(shù)據(jù)生成范式來構(gòu)造更多的評測數(shù)據(jù)。”

“第二,就是目前評測工作還存在很多需要提高的方面,比如應(yīng)該如何定義推理(reasoning)?應(yīng)該如何評價推理的過程,而不僅僅是簡單地看推理的結(jié)果?再比如,針對什么是智能的理解問題上,應(yīng)該如何跨學科地合作,來設(shè)計新的問題,來檢驗大模型的智能。當然還有很多方面,比如AI 安全問題,如何評價幻覺問題,等等。”

“第三,多模態(tài)場景下的涌現(xiàn)能力和純語言學習下有哪些不同?我們有十年左右的vision+language 研究經(jīng)驗和積累。CUHK LaVi Lab在不斷加強大語言模型和多模態(tài)大模型的各個課題研究的同時,也會不斷探索多模態(tài)場景下的大模型的能力認知和評測。”

“對大模型能力認知和評測的研究本身,也一定會幫助研究團隊理解和加強持續(xù)提高大模型的能力。”

責任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-07-14 08:47:00

AI視覺模型

2023-08-30 13:23:00

模型訓練

2023-10-29 22:25:23

模型AI

2025-06-26 09:13:22

2025-09-27 22:33:21

2024-04-07 09:00:00

數(shù)據(jù)模型

2012-06-21 22:15:34

思科

2025-11-13 08:47:43

2023-10-09 12:36:08

人工智能數(shù)據(jù)

2025-06-20 14:37:59

模型AI圖像生成

2025-04-03 09:25:53

2022-11-01 13:48:08

參數(shù)方法

2025-01-15 10:28:21

2025-06-19 08:49:00

2025-08-18 08:55:00

AI模型自動化

2025-06-03 09:16:00

2023-10-04 09:20:04

模型訓練

2025-04-27 09:27:00

AI數(shù)據(jù)視頻

2025-04-09 09:41:43

點贊
收藏

51CTO技術(shù)棧公眾號

亚洲美女自拍偷拍| 欧美在线一级va免费观看| 图片区乱熟图片区亚洲| а_天堂中文在线| 成人黄色大片在线观看 | 久久一区中文字幕| 北条麻妃99精品青青久久| 美女久久久久久久久| 中文字幕日本一区二区| 一个色妞综合视频在线观看| 精品综合久久| 国产色片在线观看| 久久久国产精品一区二区中文| 久久精品这里热有精品| 国产乱了高清露脸对白| 电影中文字幕一区二区| 狠狠躁夜夜躁人人爽超碰91| av中文字幕av| 91这里只有精品| 99视频超级精品| 亚洲aaa激情| 亚洲无码精品一区二区三区| 欧美另类女人| 日韩在线视频免费观看| 国产高清自拍视频| 欧美一区在线观看视频| 欧美视频一二三区| 97在线免费公开视频| 欧美黑人xx片| 自拍偷拍国产亚洲| 亚洲国产激情一区二区三区| 视频二区在线| 成人激情av网| www国产亚洲精品| 亚洲性生活大片| 老司机精品久久| 欧美另类精品xxxx孕妇| 成人免费视频入口| 欧美精品系列| 一区二区欧美日韩视频| 免费在线观看成年人视频| 99国产精品久久一区二区三区| 欧美亚洲精品一区| 日本a√在线观看| 小早川怜子影音先锋在线观看| 亚洲午夜免费电影| 国产精品va在线观看无码| av片在线观看| 一区二区在线观看av| eeuss中文| 欧美jizz18性欧美| 亚洲欧美综合网| 在线视频福利一区| 色开心亚洲综合| 中文字幕日韩欧美一区二区三区| 手机成人在线| 91精品国产91久久久久游泳池| 国产欧美一区二区精品仙草咪| 久久精品国产第一区二区三区最新章节| 亚洲精品一区二区三区四区| 成人性生交大片免费看中文| 国产精品一区免费观看| 人人妻人人玩人人澡人人爽| a亚洲天堂av| 玖玖玖精品中文字幕| 日本人妖在线| 中文字幕乱码久久午夜不卡 | 亚洲黑丝一区二区| 国内偷自视频区视频综合| 日本中文字幕免费| 欧美一级网站| 国产精品久久97| 在线观看国产精品视频| 狠狠狠色丁香婷婷综合久久五月| 91色视频在线导航| 丰满人妻一区二区三区免费视频| 成人免费看黄yyy456| 国产在线精品一区| 国产小视频在线观看| 国产精品短视频| 国产成人亚洲综合无码| av在线最新| 欧美在线影院一区二区| 天天久久综合网| 国产精东传媒成人av电影| 亚洲精品自拍视频| 天堂av免费在线| 亚洲高清网站| 国产精品免费网站| 性一交一乱一伧老太| 91麻豆.com| 亚洲欧美丝袜| 成人性生交大片免费看在线播放| 欧美日韩一区二区三区| 天堂在线一区二区三区| 香蕉久久夜色精品国产使用方法 | 日韩精品专区在线影院重磅| 一女三黑人理论片在线| 99热在线成人| 91精品国产高清久久久久久91 | 精品国产一区二区三区忘忧草| 亚洲欧美在线不卡| 99欧美视频| 青草热久免费精品视频| 精品人妻一区二区三区蜜桃| 国产视频在线观看一区二区三区 | 丰满大乳少妇在线观看网站| 色999日韩国产欧美一区二区| 亚洲精品在线网址| 亚洲伊人春色| 亚州精品天堂中文字幕| 97精品久久人人爽人人爽| 91片在线免费观看| 亚洲精品天堂成人片av在线播放| 成人黄色图片网站| 亚洲精品999| 欧美日韩在线视频免费播放| 免费成人在线网站| 国内外成人免费视频| caopen在线视频| 在线精品亚洲一区二区不卡| 娇妻高潮浓精白浆xxⅹ| 真实国产乱子伦精品一区二区三区| 4k岛国日韩精品**专区| 国产成人无码www免费视频播放| 亚洲国产精品精华液ab| 国产极品美女高潮无套久久久| 一区二区三区视频播放| 理论片在线不卡免费观看| 最新中文字幕免费| 91蜜桃在线观看| 一二三四视频社区在线| 美女久久精品| 久久久久北条麻妃免费看| 在线观看你懂的网站| 久久久久久97三级| 国产淫片免费看| 久久男人av| 97在线视频精品| 欧美一级淫片免费视频魅影视频| 综合电影一区二区三区| 亚洲三级在线观看视频| 五月婷婷六月综合| 91久久久亚洲精品| а√天堂8资源在线官网| 欧美欧美欧美欧美首页| 999久久久国产| 久久99精品久久久| 在线天堂一区av电影| 九九久久国产| 日韩亚洲一区二区| 999免费视频| 亚洲丝袜精品丝袜在线| 污免费在线观看| 欧美日韩精品| 国产精品久久久久免费| 电影k8一区二区三区久久| 亚洲精品乱码久久久久久按摩观| 亚洲精品国产精品乱码| 久久亚洲捆绑美女| 15—17女人毛片| 国产精品久久久久蜜臀| 999热视频| sm久久捆绑调教精品一区| 亚洲另类欧美自拍| 青青国产在线视频| 国产精品久久夜| 真实乱偷全部视频| 日韩香蕉视频| 天堂√在线观看一区二区| 日本午夜免费一区二区| 欧美日韩国产91| 亚洲 另类 春色 国产| 日本黄色一区二区| 欧美激情精品久久久久久免费| 国产精品一级片| 自慰无码一区二区三区| 精品一区电影| 亚洲自拍中文字幕| 天堂在线中文网官网| 中文字幕无线精品亚洲乱码一区| 国产精品怡红院| 香蕉乱码成人久久天堂爱免费| 免费a级黄色片| 精品一区二区三区不卡| 免费av手机在线观看| 成人免费看片39| 爱情岛论坛亚洲入口| 一级毛片久久久| 久久久精品国产亚洲| 亚洲 欧美 激情 另类| 欧美日韩一级黄| 日本三级欧美三级| 国产欧美综合色| 人妻换人妻a片爽麻豆| 水野朝阳av一区二区三区| 色哟哟免费网站| 奇米色欧美一区二区三区| 亚洲一区二区三区四区在线播放| 亚洲一级少妇| 久久夜色撩人精品| 精品久久久久一区二区三区| 日韩你懂的在线观看| 久久亚洲精品石原莉奈| 一卡二卡三卡日韩欧美| 国产精品www爽爽爽| 成人精品免费网站| 制服丝袜中文字幕第一页| 另类国产ts人妖高潮视频| 99视频精品全部免费看| 精品理论电影| 精品欧美一区二区在线观看视频 | 久久久久久婷| 日韩一级特黄毛片| 日韩成人a**站| 激情一区二区三区| 亚洲视频精选| 91综合免费在线| 精品三区视频| 欧美中文在线字幕| 黄页网站在线观看免费| 久久影视免费观看| yw在线观看| 国产午夜一区二区| 亚洲av成人精品一区二区三区在线播放| 欧美一级高清片| 一区二区国产欧美| 欧美中文字幕一区二区三区亚洲| 日韩 欧美 中文| 亚洲高清免费一级二级三级| 老女人性淫交视频| 亚洲日本一区二区| 麻豆网址在线观看| 国产精品美日韩| 一级二级黄色片| 国产精品入口麻豆原神| 欧美成人另类视频| 中文字幕免费在线观看视频一区| 无码 人妻 在线 视频| 久久婷婷色综合| 中文在线观看免费视频| 成人a免费在线看| 性猛交╳xxx乱大交| 国产成人av福利| 久久久男人的天堂| 国产成人无遮挡在线视频| 三级黄色片免费看| 国产一区91精品张津瑜| 欧美性受xxxx黒人xyx性爽| 国产在线国偷精品产拍免费yy| 亚洲精品永久视频| 国产最新精品免费| 中国男女全黄大片| 国产黑丝在线一区二区三区| 第一页在线视频| www.亚洲免费av| 无码人妻精品一区二区三应用大全| 91玉足脚交白嫩脚丫在线播放| 亚洲成人日韩在线| 中文字幕av一区二区三区免费看| 国产精品酒店视频| 亚洲日本丝袜连裤袜办公室| 精品在线视频免费观看| 五月婷婷久久综合| 亚洲国产av一区二区三区| 欧美午夜精品一区二区三区| 国产乱码一区二区| 精品免费视频一区二区| 在线观看xxx| 最新国产成人av网站网址麻豆| 免费大片黄在线观看视频网站| 欧美精品在线第一页| a'aaa级片在线观看| 日韩美女福利视频| 91麻豆精品国产91久久久更新资源速度超快| 国产综合香蕉五月婷在线| 亚洲一区二区三区免费| 欧美精品尤物在线| 99视频精品全部免费在线视频| 996这里只有精品| 性娇小13――14欧美| 黄色片视频在线| 高清不卡一区二区在线| 国产福利短视频| 中文字幕一区二区三区av| 国产奶水涨喷在线播放| 在线精品视频一区二区三四| www日本高清| 亚洲无av在线中文字幕| 中文字幕有码在线观看| 日韩av大片在线| 亚洲一区有码| 玖玖玖精品中文字幕| 你懂的一区二区| 动漫av免费观看| 顶级嫩模精品视频在线看| 一级黄色录像毛片| 亚洲电影中文字幕在线观看| 老熟妇一区二区三区啪啪| 精品欧美黑人一区二区三区| 99re在线视频| 4k岛国日韩精品**专区| 欧美大片91| 性欧美精品一区二区三区在线播放 | 亚洲狼人综合| 久久综合九色综合久99| 影音先锋成人在线电影| 北条麻妃在线一区| 成人黄色小视频在线观看| 日本精品在线免费观看| 一本大道av一区二区在线播放| www.久久伊人| 日韩在线视频观看正片免费网站| 黑人精品一区| 国产伦精品一区二区三区视频免费 | 色综久久综合桃花网| 涩涩涩在线视频| 国产精品久久波多野结衣| 久久久人成影片免费观看| 黑人粗进入欧美aaaaa| 91蝌蚪porny成人天涯| 精品午夜福利视频| 日韩欧美激情在线| 成人黄视频在线观看| 国产精品三级美女白浆呻吟| 亚洲区小说区| 免费看又黄又无码的网站| 成人综合婷婷国产精品久久| 永久免费看片直接| 欧美日韩精品一区二区三区| 成人综合影院| 国产精品99久久久久久久久久久久 | avtt天堂在线| 欧美人动与zoxxxx乱| 香蕉视频在线播放| 国产精品久在线观看| 国内精品久久久久久久影视简单 | 免费日韩一级片| 亚洲第一区第一页| 国产在线美女| 九九99玖玖| 午夜宅男久久久| 素人fc2av清纯18岁| 色综合久久中文字幕综合网| 欧美色视频免费| 日本精品视频在线观看| 亚州av日韩av| 精品国产成人av在线免| 久久久精品国产免大香伊 | 欧美一区二区女人| 中文字幕伦理免费在线视频| 不卡一区二区三区四区五区| 激情欧美一区| 中文字幕在线观看的网站| 日本乱人伦aⅴ精品| 自拍视频在线| 91成人免费在线观看| 国语精品一区| 一级国产黄色片| 色婷婷精品大在线视频| av男人的天堂在线| 成人日韩在线电影| 午夜久久tv| 中国一级特黄录像播放| 日韩欧美第一页| 1769在线观看| www.久久久| 性xx色xx综合久久久xx| 日本女人性生活视频| 欧美一区二区三区在线观看视频| 激情网站在线| 欧美日本国产精品| 久久97超碰国产精品超碰| 青娱乐国产在线视频| 日韩精品在线免费观看| 国产精品4hu.www| 日本高清视频免费在线观看| 99久久精品国产一区二区三区| 无码视频在线观看| 久久国产精品电影| 亚瑟一区二区三区四区| 手机免费看av网站| 天天操天天干天天综合网| 91网在线播放| 国产高清精品一区二区| 视频一区在线视频| 国产盗摄一区二区三区在线| 日韩精品在线视频观看| 玖玖玖电影综合影院| 黄在线观看网站| 亚洲欧美综合色| 欧美精品少妇| 91在线观看网站| 奇米影视在线99精品| 国产精品1000| 日韩一级裸体免费视频| 神马香蕉久久| 日韩av成人网| 欧美日韩国产高清一区二区| 免费毛片b在线观看|