精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

67個主題,11528 個問題,全新中文大模型多任務基準CMMLU發布

人工智能 新聞
如何評估大模型(LLM)的語言能力和知識儲備一直備受學術界和工業界的關注。

MBZUAI,上海交通大學,微軟亞洲研究院合作完成了一個全面的中文大模型基準——CMMLU。

它涵蓋了 67 個主題,涉及自然科學、社會科學、工程、人文、以及常識等,可以全面地評估大模型在中文知識儲備和語言理解上的能力。他們測試了近 20 個先進的大模型包括最新的 GPT4,ChatGLM2 和 Baichuan-7B 等,發現大多數現有模型的難以達到 50%準確率,而隨機準確率為 25%。

圖片圖片

  • 論文地址:https://arxiv.org/abs/2306.09212
  • 數據和評估代碼:https://github.com/haonan-li/CMMLU

本文所提出的 CMMLU,這是一個全新全面的中文評估數據集,旨在專門評估 LLM 在中文語言和文化背景下的高級知識和推理能力。

CMMLU 涵蓋了 67 個主題(如圖 1 所示),從小學到大學或專業水平。包括自然科學,以及人文和社會科學領域的學科,更包含了許多具有中國特色的內容,比如 「中國飲食文化」,「名族學」,「中國駕駛規則」等等。研究團隊已完全公開了數據,社區可以自由方便地利用和評估他們的模型在是否適用于以中國為核心的中文人群。完整的學科列表、每個學科測試的概念數量以及問題和答案長度的統計信息均在論文中提供。

圖片圖片

為了更深入地了解 LLM 處理中文知識的能力,研究進行了全面的分析實驗。研究首先研究模型在各個學科上的表現。所有模型在不同學科上的表現存在不平衡,人文社科學科得分相對較高,而中國特定主題和自然科學得分較低。為了進一步研究這個問題,研究探索了思路鏈提示詞(Chain-of-Thought)和少樣本示例(Few-shot)對于幫助模型理解任務和提高推理能力的有效性。此外,團隊研究了模型大小對性能的影響,分析了問題長度與難度之間的關系,并探索了現有語言模型尚未有效解決的兩種特定問題類型。

CMMLU 測試基準

數據收集

CMMLU 數據集包含 11,528 個問題,涵蓋了 67 個學科。每個學科至少有 105 個問題,研究將其分 為包含 5 個問題的訓練樣本集(few-shot development set),以及包含超過 100 個問題的測試集(test set)。

數據格式

數據集中的每個問題都是一個包含 4 個選項的單選題,圖 2 是一個附加了提示的示例。對于數學公式、化學式和一些其他數學表達式,他們使用約一半的 Latex 和一半的純文本的混合方式,其中只有在一個表達式被廣泛使用且不易產生歧義時,才允許使用純文本(由注釋者判斷)。例如,水的化學式可以寫為純文本 「H2O」,或者使用 Latex 格式「 $H_{2}O$」。

實驗

為了在中文語境下提供現有開源 LLM 在語言理解方面的概覽,研究評估約 20 個不同規模、語言方向和階段(預訓練或微調)的先進 LLM,并且分析了它們在這個以知識為中心的基準測試上的性能,并研究了可能影響 LLM 性能的幾個因素。

實驗設置

研究的目標是評估 LLM 在預訓練和 / 或微調過程中所利用的知識。對于開源模型,研究遵循 MMLU 的方法獲取提示后的下一個標記的概率,并在 A’、B’、C’和 D’中選擇概率最高的選項作為模型的選擇。對于 ChatGPT 等非開源模型,研究生成輸出并使用一系列正則表達式提取模型的選擇。如果正則表達式沒有匹配到任何內容,他們會隨機選擇 A’、B’、C’、D’中的一個選項作為答案,以進行模型間的公平比較。研究對零樣本(不輸入示例)和少樣本(輸入少量示例)的設置都進行了實驗。

提示詞

研究使用短語 「以下是關于 [主題] 的單項選擇題,請直接給出正確答案的選項」引入每個問題。對于零樣本評估,研究直接在提示后呈現問題。對于少樣本評估,他們在問題之前提供多達 5 個帶有答案的示例。提示以短語「答案是:」結尾,如圖 2 中的示例所示。如果帶有少樣本示例的文本長度超過模型的最大長度,他們會動態刪除最長的(按子標記計算)示例。(最新榜單請看 github)

圖片圖片

主要結果

表格 1 顯示了在 five-shot 設置下一些模型的性能。可以看出:GPT4 是整體性能最佳的模型,準確度達到 70.95%;在中文特定的 LLM 中,ChatGLM2-6B 模型規模最小卻展現出最佳的整體性能,Baichuan-7B 僅次于 ChatGLM2。

從學科類型的角度來看,相對于 STEM 學科,所有模型在人文學科、社會科學和其他學科中表現出更好的性能,他們認為這是由于 STEM 主題的固有難度所致。此外,雖然所有模型在中國特定類別中的表現相對較弱,略微超過其在 STEM 學科中的表現,但明顯落后于其他類別。

圖片圖片

研究將中文模型 ChatGLM 與多語模型 ChatGPT 在每個學科上進行了比較,并對學科進行了分類,并在圖 3 中呈現了結果。具體的數值結果請在論文中查閱。

從圖中可以看出,模型的性能并不平衡,雖然在某些學科(如世界歷史)表現出色,但在其他學科(如數學)中表現較差。研究團隊觀察到,對于 ChatGLM 和 ChatGPT 來說,古漢語和大學精算學是最具挑戰性的學科,其結果接近隨機。而法律與道德基礎則是兩個模型中最容易的學科之一。

在大多數情況下,ChatGPT 的性能明顯優于 ChatGLM。比如說對于機器學習和計算機安全,ChatGPT 的準確度幾乎是 ChatGLM 的兩倍。然而,在中國特定類別中,ChatGLM 的性能明顯接近 ChatGPT。它甚至在中國歷史和高中政治中的表現超過了 ChatGPT。他們認為這是因為與 ChatGPT 相比,ChatGLM 在特別是中國特定類別中遇到了不同的數據來源。這些發現表明,為了適應具有不同語言背景的用戶,找到適合的數據來源對于多語種 LLM 非常重要。

分析

為了全面了解 LLM 在不同條件下的性能,該研究探究了三個可能提升模型性能的因素和三個可能 降低模型性能的因素。對于大多數分析,他們使用了前 3 個多語種模型:ChatGPT、Falcon-40B、LLaMA-65B,以及前 2 個中文模型:ChatGLM-6B 和 BatGPT-15B。

圖片

 (具體分析細節請參看論文)

(1) 使用逐步思考的提示詞:

研究將提示從 「請直接給出正確答案的選項」修改為 「逐步分析并選出正確答案」。結果呈現在表格 2 中,所有子類別的細分結果請查閱論文。

圖片圖片

研究發現,對于沒有進行微調的模型(LLaMA 和 Falcon),使用逐步思考的提示并沒有 明顯提高 STEM 和整體準確度。而對于進行了微調的模型(在表格 2 的第一部分),中文導向的模型(ChatGLM 和 BatGPT)的整體性能下降了約 3%,ChatGPT 的性能也略微下降了 0.2%。這些結果表明,逐步思考的提示確實有助于這些模型回答與 STEM 相關的問題。

(2) 增加輸入示例的數量: 

圖 4 展示了使用不同模型在不同數量少樣本示例的平均準確率。明顯可以看出,當提供一些示例時,大多數模型的性能有所提高。盡管隨著示例數量的增加可能會出現波動,但整體趨勢顯示出性能的提升。然而,對于 ChatGLM 和 BLOOMZ 模型,0-shot 設置的性能優于少樣本設置。研究團隊推測這是因為這些模型已經通過預訓練或微調過程廣泛利用了類似的問題和答案對,已經具備了全面理解問題的能力,不需要示例的支持 [3]。

(3) 在同一模型系列中使用更大尺寸的模型:

圖片圖片

研究使用 LLaMA 系列模型的四個不同規模進行了考察:7B、13B(訓練于 1.0T tokens)、30B、65B(訓練于 1.4T tokens)。這些模型的 0-shot 和 5-shot 設置的整體準確率如圖 5 所示。從結果中,研究團隊觀察到隨著模型規模近似翻倍,準確率穩定增加約 5 個百分點。是否有可能擁有 500B 參數的 LLaMA 模型可以達到與 ChatGPT 相當的性能水平?而最近的研究表明,具有更少參數但使用高質量訓練數據的模型可以達到與一些更大模型(Falcon-40B 對比 LLaMA-65B)相當甚至更好的結果 [1]。如何高效地進一步提升 LLM 的性能仍然是一個未解決的問題。

圖片

(4) 長度較長的問題: 

研究將模型的真實標簽置信度(四個選項中的 softmax)視為問題難度的估計,并在圖 6 中比較了 Falcon-40B 的問題難度與問題長度之間的關系。研究進行了回歸分析,發現問題長度與真實標簽置信度之間的相關性略微正相關。

圖片

 (5) 含有否定詞的問題:

先前的研究指出語言模型可能在處理否定句時遇到困難 [2]。為了研究該問題在中文語境中是否存在,本文比較了不同模型在包含否定詞和不包含否定詞的問題子集上的性能。結果在表格 3 中展示。

所有模型在包含否定詞的問題上的表現相對較差,強調了大型語言模型的這一常見限制。有趣的是,在沒有進行微調的模型上,少樣本示例緩解了否定問題的性能下降。這使研究團隊推斷,這些模型(LLaMA-65B 和 Falcon-40B) 在預訓練過程中已經獲得了相當多的知識。隨后的指導性微調或通過人類反饋進行強化學習可以幫助它們有效地解決否定問題。

圖片圖片

(6) 含有子選項的問題:

在各種中文考試中,有一種典型的問題類型稱為 「子選項問題」。這些問題包括一個主要陳述和多個子選項,并詢問子選項的數量、順序或選擇,需要模型具備更深層的推理和推斷能力(見圖 7 中的示例)。表格 4 顯示了評估結果。

所有這些 LLM 在子選項問題上的表現較弱。ChatGPT 在子選項問題上的性能顯著下降約 20%,而其他模型的下降范圍在 5% 至 15% 之間。對比多語言模型和中文定向模型,子選項問題與其他問題之間的性能差距較大超過 10%,后者性能差距在 10% 以下。這也許是因為訓練數據中的這種情況在中文語言中更為常見。

結論

本文介紹了 CMMLU,這是一個具有開創性意義的基準測試,旨在評估中文多任務語言理解能 力。研究的實驗發現揭示了現有大型語言模型中存在的改進機會。通過廣泛的分析,研究確定了影響模型性能的幾個因素,并提出了改進 LLM 的可行方向。研究團隊相信。他們的基準數據集和分析洞察力將使研究人員能夠有效評估和設計中文 LLM。

更多的研究內容可以查閱原始論文。

責任編輯:張燕妮 來源: PaperWeekly
相關推薦

2024-11-04 12:48:12

2024-12-11 13:30:00

2013-08-13 14:39:29

多任務下載

2022-09-28 15:34:06

機器學習語音識別Pytorch

2024-02-02 21:53:58

AI訓練

2024-08-14 14:06:01

2024-07-15 07:52:00

2022-12-12 10:35:00

2015-07-14 16:15:22

2022-06-13 10:43:11

谷歌模型學者

2022-06-08 06:38:00

iPadOS 16SafariiCloud

2012-05-18 13:26:11

HTC

2023-12-08 07:48:42

GPT模型時間序列

2025-10-15 14:02:29

AI模型自動駕駛

2025-01-22 16:57:32

字節跳動豆包大模型

2025-07-17 09:21:11

2023-07-05 09:57:11

2021-04-21 15:22:40

機器人人工智能系統
點贊
收藏

51CTO技術棧公眾號

黄色网页在线播放| 欧美brazzers| 国产精品调教| 欧洲一区二区av| 五月天综合婷婷| 天天干天天爱天天操| 日韩国产欧美在线播放| 久热精品在线视频| 亚洲天堂网一区二区| 激情久久99| 亚洲成人免费在线观看| 亚洲欧洲国产精品久久| 亚洲欧美另类视频| 免费成人av在线播放| 午夜精品三级视频福利| 99re6热在线精品视频| 国产区精品视频在线观看豆花| 欧美亚州韩日在线看免费版国语版| 欧美这里只有精品| 日本免费在线观看| 91蜜桃在线观看| 91精品网站| 中文字幕一区二区人妻痴汉电车| 欧美精品偷拍| 色偷偷av一区二区三区| 内射中出日韩无国产剧情| 美女久久精品| 欧美美女直播网站| 日本成年人网址| 91超碰在线播放| 1区2区3区精品视频| 欧美一区激情视频在线观看| 丰满少妇一级片| 九九精品视频在线看| 日韩美女中文字幕| 日韩精品成人在线| 狠狠色综合网| 毛片精品免费在线观看| 亚洲女人久久久| 成人影院在线| 亚洲最大在线视频| 少妇精品一区二区三区| 国内自拍欧美| 精品国产一区a| 精品人妻二区中文字幕| **欧美日韩在线| 欧美日本国产视频| 玖玖爱视频在线| 日韩电影精品| 欧美日韩国产在线观看| 蜜臀av免费观看| 久久久久毛片| 欧美另类videos死尸| 污网站免费在线| 亚洲一区导航| 欧美一区二区私人影院日本| 狠狠操狠狠干视频| 国产欧美日韩电影| 精品日韩在线一区| 艳妇乳肉豪妇荡乳xxx| 成人h动漫精品一区二区器材| 日韩精品一区二区三区三区免费 | 亚洲区免费视频| 天堂综合网久久| 亚洲欧美国产制服动漫| 97人妻精品一区二区免费| 久久99国产成人小视频| 亚洲免费成人av电影| 无码少妇精品一区二区免费动态| 成人在线免费观看视频| www.欧美三级电影.com| 日韩精品一区二区亚洲av性色 | 男人添女人荫蒂免费视频| 超碰在线资源| 欧美日韩在线视频一区| 精品免费国产一区二区| 成人激情视屏| 欧美一区二区视频在线观看2020| 激情av中文字幕| 亚洲美女15p| 色阁综合伊人av| 美女福利视频在线观看| 99国产精品久久久久久久| 国产精品av在线播放| 国产精品久久久久久久久毛片 | 欧美日韩亚洲综合在线| 黄色一级片免费播放| 成人激情自拍| 亚洲午夜性刺激影院| 亚洲熟女毛茸茸| 亚洲欧洲午夜| 国产精品欧美日韩久久| 国产熟女一区二区三区五月婷| 成人午夜大片免费观看| 日韩欧美一区二区三区四区 | 亚洲免费在线视频一区 二区| 久久国产午夜精品理论片最新版本| 女生影院久久| 欧美一级二级三级蜜桃| 国产夫妻性爱视频| 色中色综合网| 欧美一级电影久久| 亚洲一级视频在线观看| 成人精品在线视频观看| 亚洲高清不卡一区| 色在线视频观看| 欧美一区二区三区男人的天堂| 超碰97人人干| 狠狠88综合久久久久综合网| 国产精品999999| 成人爽a毛片一区二区| 日本一区二区三区免费乱视频| 毛片在线视频观看| 国产精品蜜月aⅴ在线| 精品对白一区国产伦| 三级全黄做爰视频| 日韩有码一区二区三区| 国产精品久久亚洲| 黄色国产网站在线播放| 色一区在线观看| 大桥未久恸哭の女教师| 精品视频高潮| 亚洲欧美日韩视频一区| 日韩精品国产一区二区| 国内精品免费在线观看| 三级三级久久三级久久18| 黄色aa久久| 精品少妇一区二区三区免费观看| 亚洲人与黑人屁股眼交| 葵司免费一区二区三区四区五区| 国产精品裸体一区二区三区| 蜜桃视频在线观看www社区| 色婷婷综合久色| 亚洲蜜桃精久久久久久久久久久久| 欧美日本在线| 98国产高清一区| 国产成人l区| 欧美日韩卡一卡二| 九九九视频在线观看| 国产日韩一区二区三区在线播放| 国产99在线播放| 羞羞电影在线观看www| 欧美久久久影院| 久久午夜精品视频| 日韩中文欧美在线| 日韩欧美视频一区二区三区四区| 在线手机中文字幕| 亚洲欧美另类国产| 在线永久看片免费的视频| 91捆绑美女网站| 成年人午夜视频在线观看| 欧美激情影院| 欧美亚洲国产视频小说| 日韩美女一级视频| 精品女厕一区二区三区| 中文字幕天堂av| 亚洲毛片播放| 欧美日韩在线精品| 97精品国产综合久久久动漫日韩| 亚洲夜晚福利在线观看| 亚洲怡红院av| 亚洲日本在线天堂| 色姑娘综合天天| 欧美午夜电影在线观看 | 精品久久久中文字幕人妻| 亚洲乱码国产乱码精品精可以看 | 久久91亚洲精品中文字幕奶水| 99在线精品视频免费观看20| 一区二区国产视频| 你懂得在线视频| 天堂精品中文字幕在线| 亚洲欧洲在线一区| 日韩视频1区| 91大神福利视频在线| 国产乱子伦三级在线播放| 欧美疯狂做受xxxx富婆| 国产一级片免费看| 久久久久久久精| 中文字幕亚洲影院| 亚洲国产清纯| 天堂√在线观看一区二区| 国产精品一区二区精品| 午夜精品久久久久久久99黑人 | 久久影视电视剧免费网站| 亚洲乱码精品久久久久..| 欧美午夜激情小视频| 亚洲女同二女同志奶水| 成人免费视频播放| 久久久精品麻豆| 国自产拍偷拍福利精品免费一| 老牛影视免费一区二区| 日韩五码电影| 97视频免费在线看| 日本福利在线| 日韩精品在线观| 国产女同91疯狂高潮互磨| 精品日韩美女的视频高清| 亚洲怡红院在线观看| 99久久亚洲一区二区三区青草| 三级a三级三级三级a十八发禁止| 欧美三级黄美女| 日韩三级电影免费观看| 第四色在线一区二区| 国产精品自产拍在线观看| 182在线视频观看| 日韩中文字幕精品| 天堂成人在线| 日韩欧美国产系列| 性色av一区二区三区四区| 五月天视频一区| 少妇被躁爽到高潮无码文| 国产亚洲午夜高清国产拍精品| 一区二区三区人妻| 久久精品国产99国产精品| 成年人视频观看| 亚洲网址在线| 福利在线小视频| 久久精品国产www456c0m| 久久久久se| 国产一区二区三区亚洲| 91午夜在线播放| 国产一区二区主播在线| 38少妇精品导航| 成人性生交大片免费看在线播放| 菠萝蜜影院一区二区免费| 免费在线视频一级不卡| 成人黄色av网址| 久久久国产精品x99av| 黄视频在线观看免费| 亚洲经典中文字幕| 丁香六月天婷婷| 日韩欧美一区二区久久婷婷| 91片黄在线观看喷潮| 欧美亚洲免费在线一区| 在线观看日本网站| 精品国产精品自拍| 日韩黄色精品视频| 亚洲国产aⅴ天堂久久| 免费一级全黄少妇性色生活片| 亚洲欧洲无码一区二区三区| 亚洲av毛片基地| 国产日韩欧美a| 一级特黄曰皮片视频| 欧美激情中文不卡| 欧洲av一区二区三区| 久久精品欧美一区二区三区不卡| aaaaa级少妇高潮大片免费看| 99re热视频精品| 日韩av无码一区二区三区不卡| 成人av电影在线网| 波多野结衣影院| 99久久久国产精品免费蜜臀| 在线精品一区二区三区| 91老司机福利 在线| 一区二区欧美在线| www久久久久久| 欧美大片国产精品| 日本美女一级视频| 亚洲丁香久久久| 亚洲aaa在线观看| 亚洲免费av电影| av成人手机在线| 久久精品国亚洲| 欧美xxxx免费虐| 91av免费观看91av精品在线| 电影网一区二区| 国产精品一区av| 精品视频国内| 久久er99热精品一区二区三区 | 色吧亚洲视频| 91精品国产91久久久久久密臀| 亚洲精品少妇一区二区| 日韩视频不卡| 男人搞女人网站| 国产精品影视网| 久久一区二区电影| 国产精品天干天干在观线| 久久久久亚洲AV成人| 午夜精品久久久久久久久久| 精品成人无码久久久久久| 欧美日韩国产高清一区二区三区| а√天堂资源在线| 亚洲国产精品第一区二区三区| 在线观看污视频| 夜久久久久久| 中文字幕av不卡在线| 国产a久久麻豆| 国产熟妇久久777777| 亚洲欧美偷拍卡通变态| 中国一级免费毛片| 欧美军同video69gay| 人妻一区二区三区四区| 亚洲天堂av电影| 丝袜综合欧美| 国产不卡av在线免费观看| 日韩成人视屏| 欧美性大战久久久久| 综合精品一区| 超碰av在线免费观看| 国产不卡一区视频| 69精品无码成人久久久久久| 一区二区免费视频| 国产偷人爽久久久久久老妇app| 欧美成人性战久久| www.av在线| 97视频国产在线| 精品国产亚洲一区二区三区大结局 | 国产亚洲精品女人久久久久久| 日本久久精品电影| 成人午夜精品福利免费| 久久精品国产免费观看| 毛片无码国产| 国产欧美日韩伦理| 一本一道久久a久久精品蜜桃| 免费激情视频在线观看| heyzo一本久久综合| 国产日韩欧美在线观看视频| 在线观看免费亚洲| 免费福利在线观看| 性色av一区二区三区在线观看| 久久国产精品美女| 一级二级三级欧美| 日韩国产高清影视| 波多野结衣a v在线| 午夜激情综合网| 亚洲乱色熟女一区二区三区| 精品国产欧美一区二区三区成人 | 色婷婷一区二区三区四区| 国产 欧美 精品| 九九精品在线视频| 欧洲一区在线| 中文字幕日韩精品一区二区| 美腿丝袜亚洲色图| av男人的天堂av| 色av成人天堂桃色av| 三级做a全过程在线观看| 国产亚洲精品资源在线26u| 我和岳m愉情xxxⅹ视频| 婷婷丁香久久五月婷婷| 日韩有码第一页| 国内揄拍国内精品| 国内露脸中年夫妇交换精品| 毛片av在线播放| 粉嫩av亚洲一区二区图片| 欧美成人精品欧美一级私黄| 日韩欧美在线一区二区三区| 毛片av在线| 91色精品视频在线| 91精品推荐| 精产国品一二三区| 亚洲综合免费观看高清完整版在线| 性做久久久久久久久久| 欧美另类第一页| 国偷自产av一区二区三区| 欧美三级一级片| 久久久久久毛片| 国产精品第六页| 日韩一区二区久久久| 99久久久国产| 日韩中文字幕在线不卡| 国产.精品.日韩.另类.中文.在线.播放| 国产黄色片在线免费观看| 精品国产乱码久久| 综合毛片免费视频| 亚洲精品一区二区三区四区五区| 捆绑调教一区二区三区| 国产精品丝袜一区二区| 精品乱人伦小说| 国产精欧美一区二区三区蓝颜男同| 欧美一区二区视频在线| 精品一区二区影视| 国产亚洲精品码| 亚洲女人天堂成人av在线| 精品176极品一区| 成人在线免费观看网址| 97se亚洲国产综合自在线| 69视频免费看| 九色精品美女在线| 国产伦乱精品| 亚洲另类第一页| 亚洲综合色在线| 国产视频三级在线观看播放| 成人网在线观看| 只有精品亚洲| 久久夜色撩人精品| 亚洲精品66| 欧美二区在线视频| 18成人在线视频| 午夜在线视频免费| 国产日韩精品电影| 亚洲精品字幕| 人人澡人人澡人人看| 日韩av在线精品| 亚洲欧美一级| 国产a级一级片| 一区二区三区日韩欧美精品| 丝袜+亚洲+另类+欧美+变态| 成人免费视频网| 羞羞答答国产精品www一本| 一级黄色录像视频|