精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

MMLU-Pro:新的 LLM 評估基準

發布于 2024-7-8 08:04
瀏覽
0收藏

一、背景

上一篇文章(???LLM 評估匯總:真的吊打 LLaMA-3,媲美 GPT-4 嗎???)我們簡單匯總了一些常見的 LLM 評估指標,以及在收集這些指標時遇到的問題。最近在看 [2405.19327] MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series 時發現其提到了 MMLU-Pro 評估集,之前沒有接觸到,與此同時又正好看到了對應的 Paper,這里簡單進行介紹。MAP-Neo 和 MMLU-Pro 的部分作者是相同的。

對應的 Paper:[2406.01574] MMLU-Pro: A More Robust and Challenging Multi-Task Language Understanding Benchmark

對應的數據集:TIGER-Lab/MMLU-Pro · Datasets at Hugging Face

對應的 Leaderboard:MMLU Pro - a Hugging Face Space by TIGER-Lab

二、摘要

在 LLM 的發展歷程中,MMLU 這樣的基準測試在推動 AI 在不同領域的語言理解和推理方面起到關鍵作用。然而,隨著模型的不斷改進,這些基準測試的性能開始趨于穩定,辨別不同模型能力的差異變得越來越困難。

因此作者創建了 MMLU-Pro,這是一個增強的數據集,旨在集成更具挑戰性、以推理為主的問題,并將多項選擇的選項從 4 個擴展到 10 個,以此來擴展廣泛使用的 MMLU 基準。作者從 MMLU中刪除了不重要問題和噪聲問題。

實驗表明,與 MMLU 相比,MMLU-Pro 進一步降低了不同模型的精度指標,還擴大了差距,各個模型的 MMLU-Pro 精度指標相比 MMLU 下降 16%-33%;此外,也在不同的提示下表現出更高的穩定性。通過測試 24 中不同風格的 Prompt,模型分數對 Prompt 變化的敏感性從 MMLU 的 4%-5% 下降到 MMLU-Pro 的 2%。最后,作者發現使用 CoT(思維鏈) 推理與直接回答相比,模型在 MMLU-Pro 上取得了更好的性能,這與原始 MMLU 中的表現形成鮮明對比,表明 MMLU-Pro 包含更復雜的推理問題。

三、引言

3.1 指標區分度

我們在之前的文章中梳理了各種 LLM 評估指標,可以發現很多模型在 MMLU,GSM-8K,BBH,HellaSwag 和 ARC-C 上的指標已經很高,尤其是 Top 的模型。如下圖所示,其中 MMLU、HellaSwag,ARC-C 以及 GSM-8K 尤其明顯,很多指標都到了 90 左右:

MMLU-Pro:新的 LLM 評估基準-AI.x社區

3.2 評估穩定性

在 DeepSeek-V2([2405.04434] DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model)中,作者使用內部評估工具進行評估,其部分指標和其它論文中看到的不一致,有些甚至差距很大,這也就導致很難進行公平的比較。出現這種問題很可能是配置未對齊,比如使用了不同的 Prompt:

MMLU-Pro:新的 LLM 評估基準-AI.x社區

四、MMLU-Pro 數據集

4.1 概述

如下圖 Figure 3 所示,新的 MMLU-Pro 數據集包含 14 個子集,總共 12032 個問題,左圖為各個子集的占比。右圖為各個數據集的來源,可以看出,56.5% 的問題來源于原始的 MMLU 數據集,然后又從 STEM Website、TheoremQA 和 Scibench 中收集了一部分數據。

MMLU-Pro:新的 LLM 評估基準-AI.x社區

3.2 數據集構建

MMLU-Pro 數據集的收集過程如下圖 Figure 2 所示,主要包含如下幾個步驟:

MMLU-Pro:新的 LLM 評估基準-AI.x社區

3.2.1 Initial Filtering

原始的 MMLU 數據集包含 57 個主題,作者將其合并到 14 個。然后使用 8 個小模型來評估(LLaMA2-7B、LLaMA2-7B-Chat、LLaMA2-13B、LLaMA2-13B-Chat、Mistral-7B、Gemma-7B、Yi-6B 和 Yi-6B-Chat),如果超過 4 個模型回答正確,則認為相應的問題太簡單,從數據集刪除。經過該步驟總共過濾掉 5886 個問題,具體如下圖 Table 4 所示:

MMLU-Pro:新的 LLM 評估基準-AI.x社區

3.2.2 Question Collection and Integration

為了擴充數據集,作者從 STEM Website(Index of /subjects)、TheoremQA 和 SciBench 中收集了一部分數據。然后使用 GPT-4 Turbo 對上述數據進行了整理,以便與 MMLU 中過濾的數據保持一致,同時作者也進行了必要的人工校驗,以刪除 GPT-4 Turbo 處理異常的問題。

3.2.3 Option Augmentation

上述問題都是多項選擇題,有 4 個選項。作者使用 GPT-4 Turbo 對問題進行了擴展,將 4 個選項擴展為 10 個選項。這些新增的選項也具有一定的迷惑性,可以幫助識別模型的推理能力,降低模型猜對的可能性,因此也使得評估更加魯棒。此外,作者也進一步通過實驗驗證,使用 GPT-4 Turbo 來擴展并不會使得這個評估對 GPT-4 Turbo 更有利。

3.2.4 Expert Review

Expert Review 包含兩個階段:

  • 驗證答案的正確性,并刪除不適合作為多項選擇題的問題,或者缺乏必要文本信息的問題,比如包含圖片,表格。
  • 使用 Gemini-1.5-Pro 重新評估所有答案選項來識別 false negative,也就是正確答案被標記為錯誤答案的情況。并且會使用人類專家來嚴格審查這些問題。

如下圖 Table 1 所示為篩選出來的問題:

  • Incorrect Answer:答案錯誤的情況。主要來源為 MMLU 中本身答案是錯誤,以及 STEM Website 中錯誤提取。
  • False Negative Options:這個問題主要來源為將單個答案問題轉換為 4 個選項,以及 4 個選項進一步擴展為 10 個選項的階段。通過專家 Review 會刪除 False Negative 的選項,因此最終 83% 的問題有 10 個選項,17% 的問題選項少于 10 個,平均有 9.47 個選項。
  • Bad Questions:比如不包含文本信息,缺乏文本信息,或者開放性問題。?

MMLU-Pro:新的 LLM 評估基準-AI.x社區

如下圖 Table 5 所示為最終問題的分布:

MMLU-Pro:新的 LLM 評估基準-AI.x社區

五、實驗

5.1 Few-Shot CoT 評估

如下圖 Table 2 所示,作者基于提出的 MMLU-Pro 評估了常見的 LLM(除了 Gemini-1.5 Pro 和 Gemini-1.5-Flash 為 0-shot 外,其它都是 5-shot,并且都用了 CoT)。可以看出,閉源模型相比開源模型還是有比較明顯的優勢,其中 GPT-4o 性能最優,而在開源模型中,LLaMA-3-70B-Instruct 性能最優:

MMLU-Pro:新的 LLM 評估基準-AI.x社區

5.2 與 MMLU 對比

如下圖 Figure 4 所示,作者對比了同樣模型在 MMLU-Pro 和 MMLU 上的指標。可以看出在 MMLU-Pro 上的精度明顯低于 MMLU,并且在 MMLU-Pro 上的區分度更大,這也證明 MMLU-Pro 更加有挑戰:

MMLU-Pro:新的 LLM 評估基準-AI.x社區

如下圖所示為我們收集到的一些對比數據:

MMLU-Pro:新的 LLM 評估基準-AI.x社區

5.3 不同 Prompt 的影響

如下圖 Figure 5 所示,作者進一步在 MMLU 和 MMLU-Pro 上驗證了不同 Prompt 對評估結果的影響,可以看出在 MMLU-Pro 上的評估差異更小,也證明其評估集更加魯棒:

MMLU-Pro:新的 LLM 評估基準-AI.x社區

5.3 CoT 的影響

如下圖 Table 3 所示,作者進一步在 MMLU 和 MMLU-Pro 上驗證了直接問答以及使用 CoT 的差異,可以看出,在 MMLU-Pro 上使用 CoT 和不使用 CoT 的差異更大,可以證明 MMLU-Pro 數據集需要更強的推理能力:

MMLU-Pro:新的 LLM 評估基準-AI.x社區

六、參考鏈接

  1. ???https://arxiv.org/abs/2405.19327???
  2. ???https://arxiv.org/abs/2406.01574???
  3. ???https://huggingface.co/datasets/TIGER-Lab/MMLU-Pro???
  4. ???https://huggingface.co/spaces/TIGER-Lab/MMLU-Pro???
  5. ???https://arxiv.org/abs/2405.04434???
  6. ???https://stemez.com/subjects???

本文轉載自 ??AI閑談??,作者: AI閑談

收藏
回復
舉報
回復
相關推薦
aaaaaav| 女女百合国产免费网站| 国产美女www| 欧美韩日一区| 日韩午夜在线观看| www黄色日本| 欧洲不卡av| 粉嫩一区二区三区性色av| 91干在线观看| 性生交大片免费全黄| 色综合久久中文| 欧美日韩大陆一区二区| 黄色一级在线视频| 免费**毛片在线| 91原创在线视频| 成人国内精品久久久久一区| 日韩精品乱码久久久久久| 成人精品亚洲| 亚洲国产成人精品女人久久久 | 青青成人在线| www.日韩高清| 看电视剧不卡顿的网站| 午夜免费久久久久| 动漫性做爰视频| 国产一区二区三区四区五区传媒| 欧美大片在线观看一区| 日本黄大片一区二区三区| 蜜桃视频动漫在线播放| 亚洲精品免费一二三区| 水蜜桃亚洲精品| 色播色播色播色播色播在线 | 亚洲最大福利视频网| 国产一级片av| 国产精品老牛| 久久免费视频网站| 欧美被狂躁喷白浆精品| 国产精品精品国产一区二区| 亚洲日本欧美日韩高观看| 美女又爽又黄免费| 亚洲三级av| 91精品国产黑色紧身裤美女| 91精品无人成人www| 欧洲亚洲两性| 日韩欧美极品在线观看| 91猫先生在线| 成人福利视频| 一本一道综合狠狠老| 日本十八禁视频无遮挡| 国产第一页在线| 亚洲午夜免费福利视频| 免费cad大片在线观看| av片在线观看免费| 亚洲人成电影网站色mp4| 亚洲日本欧美在线| 成人午夜在线观看视频| 欧美国产精品v| 先锋影音日韩| 日韩欧美小视频| 国产精品国产三级国产| 一区二区三区四区五区视频| 国产大学生校花援交在线播放| 青青操视频在线| 欧美电影一区| 日韩中文在线中文网三级| 91视频免费在观看| 日韩欧美大片| 麻豆国产精品va在线观看不卡 | 日本黄色一区二区三区| youjizz久久| 精品久久蜜桃| 你懂的免费在线观看视频网站| 久久综合色一综合色88| 日韩精品伦理第一区| 第九色区av在线| 中文字幕一区二区5566日韩| 欧美日韩一级在线| 青草在线视频| 日韩欧美在线字幕| 亚洲欧美日韩一级| 欧美另类中文字幕| 亚洲的天堂在线中文字幕| 国产男女猛烈无遮挡a片漫画| 日韩中文av| xvideos成人免费中文版| 校园春色 亚洲| 亚洲伦理一区| 国产精品久久久久久久9999| 国产日韩欧美视频在线观看| 波多野结衣中文一区| 热re99久久精品国99热蜜月| 香蕉视频网站在线观看| 亚洲午夜在线观看视频在线| 北条麻妃69av| 国产免费区一区二区三视频免费 | 97人人做人人人难人人做| 亚洲精品国产手机| 久久久综合精品| 国产手机视频在线观看| 中文字幕在线免费观看视频| 欧美男女性生活在线直播观看| 美女被爆操网站| 国产精品一国产精品| 欧美日韩国产第一页| 亚洲 欧美 日韩 在线| 国产精品一区二区你懂的| 久久一区二区三区欧美亚洲| 老司机精品视频在线观看6| 性做久久久久久久免费看| 中文字幕av不卡在线| 福利片一区二区| 日韩一区二区av| 日韩视频在线观看一区| 国产精品综合在线视频| 日韩欧美视频一区二区| 高清精品在线| 欧美一区二区三区免费视频| 一区二区三区四区免费| 激情欧美日韩一区| 91欧美精品成人综合在线观看| 日韩资源在线| 亚洲图片自拍偷拍| 亚洲天堂av一区二区三区| 九九久久成人| 97香蕉久久超级碰碰高清版| 99re只有精品| 中文字幕一区二区三区视频| 日本精品久久久久中文字幕| 精品国产影院| 久久久久亚洲精品成人网小说| 91tv国产成人福利| 国产日韩精品久久久| 中文字幕9999| 水蜜桃色314在线观看| 亚洲人成网站在线在线观看| 亚洲午夜女主播在线直播| 国产午夜精品无码一区二区| 国产乱码精品一区二区三| 亚洲一区二区在线看| 亚洲欧美在线成人| 亚洲欧美日韩中文在线| 天堂网中文字幕| 91玉足脚交白嫩脚丫在线播放| 日韩五码在线观看| a看欧美黄色女同性恋| 色综合视频网站| 99产精品成人啪免费网站| 国产精品电影院| 色噜噜狠狠一区二区| 日本久久一二三四| 国产日韩av在线| 美女羞羞视频在线观看| 欧美日韩一级黄| 国产精品麻豆一区| 久久国产视频网| 中文字幕一区二区三区有限公司| jizzyou欧美16| 视频在线一区二区| 亚洲中文字幕在线观看| 中文字幕一区二区三区不卡| а 天堂 在线| 欧美在线观看天堂一区二区三区| 97碰碰视频| av在线最新| 亚洲男人天堂视频| 亚洲午夜无码久久久久| 国产精品久久一级| 女教师高潮黄又色视频| 亚洲福利电影| 欧美久久电影| 精品美女一区| 欧美人成在线视频| 婷婷在线观看视频| 在线亚洲高清视频| 91杏吧porn蝌蚪| 成人动漫中文字幕| 久久久久久久久久福利| 色喇叭免费久久综合网| 亚洲一区二区三区久久| 乱馆动漫1~6集在线观看| 亚洲人成电影在线播放| 国产精品国产精品国产专区| 亚洲一级不卡视频| 中文字幕国产综合| 精品中文字幕一区二区小辣椒| 男人添女人下部视频免费| 女同另类激情重口| 国产精品视频一区二区高潮| 最新日本在线观看| 日韩精品在线免费观看| 97人妻精品一区二区三区视频 | 久久久久久久久久久久久久av| 国产午夜亚洲精品不卡| 黄色片免费网址| 午夜一区不卡| 一级黄色录像免费看| 欧美日韩直播| 成人www视频在线观看| av丝袜在线| 久久精品国产91精品亚洲| 欧美天堂在线视频| 欧美男同性恋视频网站| 国产无遮挡呻吟娇喘视频| 成人免费小视频| 偷拍女澡堂一区二区三区| 国产一区亚洲一区| 欧美女人性生活视频| 欧美日韩国产综合网| 日产精品高清视频免费| 成人另类视频| 成人福利在线视频| 深夜成人福利| 91国产一区在线| 在线观看中文| www.亚洲成人| jizz在线免费观看| 日韩精品极品视频| 狠狠综合久久av一区二区| 欧美日韩黄色影视| 精品国产乱子伦| 精品国产精品三级精品av网址| 国产97免费视频| 国产欧美日韩在线观看| 国内精品久久99人妻无码| 国产成人免费视频网站| 亚洲美女爱爱视频| 日欧美一区二区| 国产乱子夫妻xx黑人xyx真爽| 欧美私人啪啪vps| 永久免费网站视频在线观看| 婷婷亚洲最大| 一区二区不卡在线观看| 欧美日韩一区二区三区视频播放| 久久av免费一区| 卡通动漫精品一区二区三区| 97超级碰碰| 清纯唯美激情亚洲| 91久久精品日日躁夜夜躁国产| 丁香久久综合| 国产精品毛片a∨一区二区三区|国| 日韩av影片| 欧美一区亚洲一区| 韩国成人动漫| 日韩av高清不卡| 唐人社导航福利精品| 欧美专区在线播放| 澳门成人av网| 国产成人精品久久| 78精品国产综合久久香蕉| 国产精品91免费在线| 欧美成a人片在线观看久| 国产精品成人国产乱一区| 日韩中文影院| 国产精品亚洲片夜色在线| 国产91亚洲精品久久久| 国产欧美日韩视频| 国产免费区一区二区三视频免费 | 38少妇精品导航| 在线最新版中文在线| 青青草一区二区| 亚洲伦乱视频| 91色精品视频在线| 日本高清精品| 久久婷婷国产综合尤物精品| 国产成人调教视频在线观看| 亚洲国产精品久久久久婷婷老年| 色小子综合网| 妺妺窝人体色www看人体| 中国女人久久久| 手机在线看福利| 久久69国产一区二区蜜臀| 国产裸体视频网站| 91丨九色porny丨蝌蚪| 天天躁夜夜躁狠狠是什么心态| 国产精品久久99| 免费视频一二三区| 色综合久久中文字幕| 中文字字幕在线观看| 日韩欧美第一区| 免费成人av电影| 久久久久北条麻妃免费看| 国产色婷婷在线| 日本欧美国产在线| 爱情电影网av一区二区| 国产亚洲欧美一区二区| av一区二区在线播放| 可以在线看黄的网站| 夜夜嗨一区二区| 欧美男女交配视频| 成人h版在线观看| 日本成人免费在线观看| 亚洲成人av一区二区| 18国产免费视频| 亚洲福利视频在线| 日韩av中文| 91高清免费视频| 国产精品亚洲欧美日韩一区在线 | 亚洲成人二区| 国产超级av在线| 国产一区二区三区久久久| 日韩 中文字幕| 亚洲久草在线视频| 波多野结衣高清在线| 精品国产成人系列| 精品欧美色视频网站在线观看| 69国产精品成人在线播放| 欧美亚洲综合视频| 欧美精品免费观看二区| 国产真实久久| 不卡中文字幕在线观看| 久久久久久久久久久久久女国产乱 | 国产精品美女久久久久高潮| 国产成人愉拍精品久久| 91精品国产丝袜白色高跟鞋| 精品乱码一区二区三四区视频| 欧美—级高清免费播放| 亚洲精品伦理| 欧美日韩一区在线视频| 一本色道88久久加勒比精品| 精品人妻一区二区三| 欧美国产日韩精品免费观看| 999这里只有精品| 精品成人免费观看| 91麻豆一二三四在线| 国产欧美日韩精品在线观看| 深爱激情综合网| 18岁网站在线观看| 成人精品视频.| 精品少妇一二三区| 欧美一二三四在线| 26uuu亚洲电影在线观看| 91美女高潮出水| 99九九热只有国产精品| 999在线观看| 中文字幕av一区二区三区免费看| 天堂在线免费观看视频| 精品视频中文字幕| 忘忧草在线日韩www影院| 精品乱子伦一区二区三区| 99精品国产一区二区青青牛奶| 亚洲欧洲日韩综合| 亚洲精品视频在线| 国产不卡精品视频| 欧美日韩国产123| 国产福利一区二区精品秒拍| www.av91| 成人av电影在线| 尤物视频在线观看国产| 亚洲加勒比久久88色综合| sm捆绑调教国产免费网站在线观看 | 每日在线更新av| 91麻豆免费视频| 国产伦精品一区二区三区视频网站| 精品一区精品二区| 黄色亚洲网站| 神马影院午夜我不卡| 美腿丝袜亚洲三区| 国产午夜精品理论片在线| 欧美一区二区在线看| 久久香蕉av| 精品日产一区2区三区黄免费 | 亚洲sss视频在线视频| 视频一区二区免费| 日本亚洲欧洲色α| 青草国产精品| 亚洲成人av免费观看| 亚洲国产综合色| 激情福利在线| 成人国产精品日本在线| 亚洲夜间福利| 国产成人av一区二区三区不卡| 欧美色成人综合| 在线电影福利片| 欧美xxxx黑人又粗又长精品| 青青青伊人色综合久久| www欧美com| 日韩av网址在线| 欧美成人一二区| 女人帮男人橹视频播放| 国产亚洲va综合人人澡精品| 国产美女主播在线观看| 性欧美xxxx| 国产精品久久天天影视| 黄色在线免费播放| 欧美亚洲日本国产| 色屁屁www国产馆在线观看| 欧美成ee人免费视频| 久久99国产精品久久99果冻传媒| 国产一级做a爱免费视频| 亚洲人成电影网站色xx| 精品久久亚洲| 无码人妻丰满熟妇区五十路百度| 国产精品成人一区二区三区夜夜夜| 亚洲AV无码精品自拍| 国产99在线|中文| 欧美日韩免费| 久久一级免费视频| 亚洲国产成人精品久久| 中文字幕成人| 成年人视频在线免费| 亚洲一区二区三区在线看|