精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

達摩院發布大模型測試基準:GPT-4勉強及格,其他模型悉數落敗

人工智能 新聞
阿里巴巴達摩院多語言 NLP 團隊發布了首個多語言多模態測試基準 M3Exam,共涵蓋 12317 道題目。

隨著大模型的發展,尤其是近來各種開源大模型的發布,如何對各種模型進行充分并且準確的評估變得越來越重要。其中一個越來越受到認可的方向就是利用人類考題來檢驗模型,從而可以測試模型的知識及推理能力。例如對于英文模型,MMLU 已經被廣泛用來評估模型在多個學科上的表現。類似的,最近中文社區也涌現了例如 C-Eval 以及 GAOKAO 這種利用中文試題來測試模型,特別是中文模型的表現。

這樣的測試基準對于促進模型的發展起著至關重要的作用,然而對于多語言 / 多模態大模型,相應的評測依然是一片空白。由此,阿里巴巴達摩院多語言 NLP 團隊發布了首個多語言多模態測試基準 M3Exam 以推動此類評測的發展,論文和數據代碼已公開:

圖片圖片

  • 論文:https://arxiv.org/pdf/2306.05179.pdf
  • 數據 & 代碼:https://github.com/DAMO-NLP-SG/M3Exam

背景

傳統的 NLP 任務已經越來越難充分測試大語言模型的真正效果,在這樣的背景下,利用人類考題來檢驗模型已經逐漸成為了測試大模型的一個常見做法。例如 MMLU 數據集涵蓋了多個學科,被廣泛用來測試各種模型,GPT-4 也將其作為一個重要的測試基準。類似地,最近一個月我們也看到了中文上的類似嘗試例如 C-Eval 和 GAOKAO,將各類 / 高考的中文試題匯總起來用以測試中文大模型。

然而目前的測試基準都僅有英文或者加上中文問題,盡管許多模型涌現 / 宣稱有多語言的效果,模型的多語言能力無法得到充分測試。此外,多模態類問題,也即涉及圖片的考題也往往在構建過程中被忽略。這導致了多語言 / 多模態大模型的效果無法被準確衡量。為了彌補這一空白,我們構建了 M3Exam - 一個利用人類考題構建的多語言、多模態、多級別的測試基準,共涵蓋 12317 道題目。

圖片圖片

正如名字所示,M3Exam 有三個特征:

  • Multilingual 多語言:我們綜合考慮語言特點、資源高低、文化背景等多個因素,挑選了 9 個國家對應的語言,涵蓋英文、中文、意大利語、葡萄牙語、越南語、南非荷蘭語、斯瓦希里語、泰語、爪哇語,所有問題均來自于對應國家的官方試題。
  • Multimodal 多模態:我們同時考慮純文字以及帶圖片的題目,并且認真處理了所有圖片從而方便模型進行處理。
  • Multilevel 多階段:我們考慮三個重要的教育階段:小升初、初升高、高中畢業,并且從對應階段的官方考試取得題目,使得可以比較不同階段對應的不同智力要求下,模型的表現差異。

多語言測試

我們選取了多種開源、閉源模型來測試它們的多語言能力,結果如圖所示:

圖片圖片

可以看到雖然許多模型的英文效果不錯(比如 Claude 和 ChatGPT 都可以達到 75% 左右),但平均而言效果均不佳。GPT-4 是唯一一個可以超過 60% 準確率的模型,而 ChatGPT 也只能達到 57% 的準確率。從語言的角度看,在低資源或者非拉丁字符語言比如泰語、爪哇語上,即使是 GPT-4 也只能達到 50+% 的準確率。這顯示目前大部分模型的能力仍然是集中體現在英文上,多語言能力仍然有待提高。

我們同樣可以看到,來自于各個國家本土的問題更加充分地測試出了模型的多語言能力。例如 GPT-4 的 report 里將 MMLU 翻譯成了多個語言,在不同語言的翻譯試題上取得了較好的結果。但是如果用真實場景下的問題,這迫使模型必須學習到每個語言,甚至是其背后對應的文化背景知識,才能解答。例如上圖中給的例子,斯瓦希里語涉及到一個諺語的填空;泰語則涉及到泰國本地常見的自然景觀特點:

圖片圖片

可以看到,即使是根據準確的翻譯(上圖的英文翻譯由泰語母語者提供),但沒有對應的語言、文化常識也無法作答,體現出對模型多語言能力的充分測試。

多模態測試

我們也選取了多個多模態大模型并對其進行測試,包括 Fromage, OpenFlamingo, BLIP-2, InstructBLIP,結果如下圖所示:

圖片圖片

可以看到,大部分模型表現都很糟糕,甚至沒有模型可以超過 50% 的準確率。即使跟相近參數量的 Flan-T5 模型相比(Flan-T5 并沒有拿圖片當作輸入),多模態模型基本沒有體現出優勢。

進一步檢查我們發現,可能是因為現有的多模態測試數據都比較簡單,例如 VQA 中往往只是對圖片的某一方面進行簡單提問。而人類考題往往涉及到對圖片更復雜的理解,例如數理類考試中需要注意到圖片的數字細節。下圖給了一個具體問題以及各個模型的輸出:

圖片圖片

可以看到所有模型均回答錯誤。為了進一步檢驗模型對圖片理解的程度,我們額外構造了一個 prompt 讓模型對圖片的各種細節進行描述(上圖右邊),可以看到所有模型都無法準確描述出圖片里標注的角度 65 度,所以自然無法解答出圖中的反射角是多少度。

多層級測試

在數據構造過程中,我們選取了三個重要的考試階段,即小升初、初升高、高中升大學。值得注意的是我們發現即使各個國家的教育體系各有差異,但基本都有相應的教育階段。不同的教育階段往往對應著在不同國家,大家對相應年齡段人群所期待的智力水平。這樣的劃分給我們提供了用不同教育階段的問題來觀察模型效果的角度。結果匯總如下圖所示:

圖片圖片

可以看到出人意料的是,從較低的教育階段到更高階段,模型效果并沒有呈現顯著下降。奇怪的是基本所有模型都在中等階段的問題上表現最好。然而對于人類來說,例如在中國,如果能在高考中得到 70% 左右的正確率,解決小學考題應該是輕而易舉的事情,然而對模型來說似乎并不如此。

這個觀察給我們帶來的啟發是,不斷用更困難的數據去測試模型不一定能最大限度衡量出模型的差異。如果想要可靠地在實際生活中使用模型,例如用于 AI 教育,研究為什么模型會在基礎問題上犯錯可能更有價值。

結語

這篇文章介紹了我們新創建的測試基準 M3Exam,目標是可以為多語言 / 多模態大模型的評價提供一個可靠的基準。從目前的測試結果我們可以看出,雖然不少模型在高資源語言例如英文甚至中文上已經可以取得還不錯的效果,但在多語言情況下絕大部分模型的效果都差強人意。多模態模型的效果則更難令人滿意,顯示目前的多模態模型還只能對圖片的簡單特征進行捕捉,而無法捕捉更精確的細節。我們期待 M3Exam 未來可以幫助相關模型的開發迭代,從而將大模型的便利帶給所有語言的使用者以及更豐富的使用場景。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-06-15 13:45:41

模型AI

2025-05-23 08:47:00

2024-04-01 08:00:00

AI模型

2023-12-18 15:16:47

數據模型

2024-04-23 13:37:00

數據訓練

2023-05-08 10:14:07

模型AI

2023-08-24 13:59:57

模型數據

2023-03-16 18:10:00

模型AI

2024-01-30 21:18:57

模型智能CMMLU

2023-08-11 13:15:35

ChatGPTMBTIGPT-4

2024-03-28 14:26:51

人工智能

2023-07-12 16:10:48

人工智能

2023-12-26 08:17:23

微軟GPT-4

2023-06-05 12:32:48

模型論文

2024-07-18 12:56:29

2023-12-04 12:56:08

AI數據

2023-05-29 09:29:52

GPT-4語言模型

2023-04-09 16:17:05

ChatGPT人工智能

2024-04-19 14:52:13

MetaGPT-4模型

2024-01-16 12:31:13

OpenAIGLM-4大模型
點贊
收藏

51CTO技術棧公眾號

香蕉视频999| 精品不卡在线| 免费在线观看a级片| 日韩精品一级| 精品成人国产在线观看男人呻吟| 久久久久久久有限公司| 中文字幕乱码无码人妻系列蜜桃| 99成人在线视频| 欧美xxxx老人做受| 日本三区在线观看| 亚洲羞羞网站| 91麻豆123| 亚洲一区二区三区久久| 久久精品视频5| 亚洲色图88| 亚洲精品在线视频| 色男人天堂av| 黄色精品视频| 精品二区三区线观看| 亚洲精品一区二区三| 国产成人手机在线| 久久99精品国产91久久来源| 国产91精品久久久久久| 青青操国产视频| 波多野结衣的一区二区三区| 亚洲成人网在线| 亚洲欧美自拍另类日韩| 中文字幕在线高清| 亚洲综合男人的天堂| 亚洲看片网站| 久久99久久| 99视频精品免费视频| 91免费福利视频| 超碰在线97观看| 国产精品视区| 午夜精品久久久久久久男人的天堂| 久久精品国产亚洲AV成人婷婷| 国产一区丝袜| 精品va天堂亚洲国产| 91人妻一区二区三区| 欧美成人福利| 欧美日韩一区二区欧美激情| 国产女女做受ⅹxx高潮| 成人免费观看在线观看| 亚洲美腿欧美偷拍| 国产四区在线观看| 国产在线高潮| 综合久久给合久久狠狠狠97色| 欧美三级电影在线播放| 熟妇人妻系列aⅴ无码专区友真希 熟妇人妻av无码一区二区三区 | 66久久国产| 中文字幕日韩av综合精品| www.自拍偷拍| 免费久久精品| 国产小视频91| 在线观看国产精品一区| 夜夜躁狠狠躁日日躁2021日韩| 日韩av影片在线观看| 无码成人精品区在线观看| 永久免费精品视频| 精品国产欧美一区二区| 色哟哟无码精品一区二区三区| 国产一区 二区| 欧美一区二区三区免费视频 | 一区二区三区四区免费视频| h网站在线免费观看| 欧美国产视频在线| 亚洲制服欧美久久| 成人影院在线观看| 一区二区激情视频| 成人免费性视频| 国产盗摄——sm在线视频| 黄网动漫久久久| 北条麻妃在线一区| 亚洲综合av一区二区三区| 欧美日韩一级二级| 在线免费观看av网| 高潮按摩久久久久久av免费| 日韩av网站在线| 舐め犯し波多野结衣在线观看| 成人在线免费观看视频| 久久五月天综合| 国产一国产二国产三| 国产一级一区二区| 国产精品久久久久国产a级| 在线播放一级片| 国产精品66部| 久久天堂国产精品| 在线a免费看| 亚洲一区二区精品3399| 亚洲人成无码www久久久| 国产91在线精品| 日韩欧美综合在线| 欧美特级黄色录像| 大胆日韩av| 性欧美办公室18xxxxhd| 姑娘第5集在线观看免费好剧| 国产一区中文字幕| 欧美一区二区综合| 中文字幕在线播放网址| 欧美视频精品一区| 激情久久综合网| 亚洲国产合集| 欧美伦理91i| 精品人妻一区二区三区潮喷在线| 国模少妇一区二区三区| 久久国产精品一区二区三区四区 | 中文字幕不卡在线| 2019日韩中文字幕mv| 久久久人成影片一区二区三区在哪下载 | 精品视频久久久| 三上悠亚作品在线观看| 久久黄色网页| 国产91视觉| 在线播放麻豆| 色乱码一区二区三区88| 麻豆短视频在线观看| 色综合蜜月久久综合网| 97香蕉超级碰碰久久免费软件 | 精品久久人人做人人爽| 狂野欧美性猛交| 亚洲综合不卡| 国产a一区二区| 黄色免费在线看| 欧洲一区二区三区在线| 在线免费观看a级片| 综合久久婷婷| 国产日韩精品一区二区| 久草视频在线看| 亚洲超碰精品一区二区| 青娱乐国产精品视频| 日韩久久久久| 国产经典一区二区| 人妻夜夜爽天天爽| 尤物在线观看一区| 天天影视色综合| japanese国产精品| 国产999精品久久久| 天堂a√中文在线| 亚洲大尺度视频在线观看| 日本美女久久久| 2023国产精品久久久精品双| 国产日韩在线一区| 人人干在线视频| 精品视频色一区| 91视频免费看片| 青青国产91久久久久久| 水蜜桃一区二区| 日韩制服一区| 在线成人一区二区| 中国女人一级一次看片| 国产精品视频一二| 日本 片 成人 在线| 日韩久久电影| 成人夜晚看av| 69成人在线| 欧美电影免费提供在线观看| 欧美黑人一级片| 成人免费视频caoporn| 日本精品久久久久久久久久| aaa国产精品视频| 久久久噜久噜久久综合| 神宫寺奈绪一区二区三区| 精品成人av一区| 亚洲码无人客一区二区三区| 日本午夜精品视频在线观看| 亚洲精品免费在线看| 精品成人18| 久久久免费精品视频| 水中色av综合| 欧美午夜一区二区三区| 青花影视在线观看免费高清| 国产成人啪午夜精品网站男同| 久久av综合网| 视频国产一区| 成人xxxxx| 黄页网站在线| 亚洲色图日韩av| 91高潮大合集爽到抽搐| 亚洲精品videosex极品| 国产麻豆剧传媒精品国产av| 久久久精品性| 在线视频一区观看| 国产66精品| 国产精品18久久久久久麻辣| 黄av在线播放| 日韩激情片免费| 又骚又黄的视频| 亚洲尤物在线视频观看| www.中文字幕av| 国产一区激情在线| 各处沟厕大尺度偷拍女厕嘘嘘| 日韩免费在线| 狠狠干一区二区| 精品九九久久| 国内久久久精品| 亚洲视频tv| 亚洲高清久久久久久| 在线观看视频二区| 无吗不卡中文字幕| 免费看特级毛片| 337p粉嫩大胆色噜噜噜噜亚洲| 国产精品人人爽人人爽| 狠狠入ady亚洲精品经典电影| 日本不卡二区| 91精品入口| 国产欧美中文字幕| 日韩精品av| 久久91精品国产91久久久| 久青草国产在线| 欧美成人女星排名| 伊人免费在线观看高清版| 红桃视频成人在线观看| 久久r这里只有精品| 中文字幕第一区二区| 国产精品无码毛片| 国产精品综合网| 欧美婷婷精品激情| 欧美一级网站| 男人天堂av片| 欧美在线亚洲| 国产91av视频在线观看| 欧州一区二区| 麻豆成人av| 精品中国亚洲| 福利视频久久| 视频国产精品| 91中文在线视频| 欧美美女被草| 国产精品啪视频| 亚洲四虎影院| 国产盗摄xxxx视频xxx69| 国产无遮挡裸体视频在线观看| 免费成人高清视频| 欧美另类一区| 久久夜夜久久| 国产精品盗摄久久久| 毛片电影在线| 韩国一区二区电影| 好久没做在线观看| 久久av中文字幕| 黄色网址在线免费播放| 日韩中文在线不卡| 亚洲熟女一区二区三区| 国产在线成人| 老司机激情视频| 欧美另类女人| 国产精品视频一二三四区| 亚洲香蕉av| 中文字幕色呦呦| 亚洲欧美伊人| 国产一级做a爰片久久毛片男| 久久在线电影| 熟妇熟女乱妇乱女网站| 久久精品青草| 日韩精品一区二区三区电影| 久久久久久美女精品 | 亚洲一区二区三区国产| 久操免费在线视频| 亚洲五码中文字幕| 国产精品1000| 天天综合色天天综合色h| 日本道在线观看| 一本久道中文字幕精品亚洲嫩| 一级黄色在线视频| 日本韩国精品在线| 亚洲天堂网在线观看视频| 欧美喷水一区二区| 国产色片在线观看| 精品人在线二区三区| 午夜影院免费体验区| 伊人精品在线观看| 国产黄色在线观看| 欧美激情女人20p| 成人美女黄网站| 国产精品偷伦免费视频观看的| 四虎国产精品成人免费影视| 91手机在线视频| 精品亚洲自拍| 亚洲精品欧美精品| 激情欧美丁香| 天天碰免费视频| 国产麻豆精品theporn| 亚洲一级Av无码毛片久久精品| 91小视频在线| 美国精品一区二区| 亚洲永久精品大片| 日日夜夜狠狠操| 4hu四虎永久在线影院成人| 亚洲女人18毛片水真多| 国产午夜精品一区理论片飘花| 岛国中文字幕在线| 国产91精品久| 国产一区二区三区| 欧美福利精品| 欧美日韩亚洲一区三区| 国产熟人av一二三区| 国产酒店精品激情| 在线观看福利片| 樱桃国产成人精品视频| 日韩精品一区不卡| 日韩欧美黄色影院| av资源种子在线观看| 欧美极品欧美精品欧美视频| 欧美gay视频| 91精品国产综合久久久久久丝袜| 色综合www| 日本精品福利视频| 奇米精品一区二区三区在线观看| 蜜桃色一区二区三区| 国产精品久久久久婷婷二区次| 日韩毛片在线视频| 6080午夜不卡| 欧美日韩国产亚洲沙发| 久久99视频免费| 粉嫩av一区二区三区四区五区 | 亚洲综合欧美激情| 91在线国产观看| 青青草原在线免费观看视频| 欧美午夜精品久久久久久超碰 | 亚洲色图日韩av| 久草在线中文最新视频| 亚洲综合视频1区| 欧美日韩色图| 午夜精品久久久内射近拍高清| 成人免费av在线| 国产又黄又爽又无遮挡| 欧美日韩激情在线| 国产一区二区影视| 欧美专区福利在线| 久久porn| 国产资源在线免费观看| 国产精品正在播放| 韩国一级黄色录像| 欧美日韩黄色影视| aⅴ在线视频男人的天堂 | 日韩欧美成人一区二区三区| 日韩欧美你懂的| 国产最新在线| 91视频九色网站| 亚洲女同另类| 久久精品一卡二卡| 亚洲卡通动漫在线| www视频在线| 欧美国产乱视频| 9l亚洲国产成人精品一区二三 | 巨乳诱惑日韩免费av| 日本丰满少妇裸体自慰| 精品久久久中文| 日韩av地址| 日本亚洲欧美成人| 你微笑时很美电视剧整集高清不卡| 欧美v在线观看| 久久免费午夜影院| 国产一区二区视频网站| 国产亚洲视频在线观看| 成人福利片在线| 中文字幕欧美日韩一区二区| 精品制服美女久久| 中文字幕av免费在线观看| 精品日韩av一区二区| 牛牛精品一区二区| 日本一区二区三区四区高清视频 | 亚洲精选视频免费看| 精品人妻午夜一区二区三区四区 | 国产一区二区精彩视频| 欧美一区二区视频在线观看2020 | 性猛交xxxx乱大交孕妇印度| 欧美日韩第一视频| 韩国精品福利一区二区三区| 亚洲中文字幕无码专区| 国产日韩欧美精品电影三级在线| 亚洲一卡二卡在线| 免费不卡在线观看av| 国内视频在线精品| 黄色成人免费看| 亚洲男帅同性gay1069| 免费观看黄一级视频| 日本午夜在线亚洲.国产| 国产精品伦理久久久久久| 亚洲一区二区三区四区av| 日韩欧美成人精品| 日本不卡不卡| 精品国产一区二区三区久久久久久| 欧美中文字幕| 尤物在线免费视频| 亚洲大胆人体视频| av成人免费| 一卡二卡三卡视频| 欧美激情综合五月色丁香小说| 国产美女自慰在线观看| 97人人做人人爱| 久久精品av| 东京热av一区| 欧美午夜不卡视频| 九色91在线| 中文字幕剧情在线观看一区| 91丨porny丨首页| 国产美女精品视频国产| 欧美一级片一区|