精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型權(quán)威測(cè)試被曝翻車!更偏袒GPT-4等閉源模型,連提示詞都區(qū)別對(duì)待

人工智能 新聞
此前MMLU原始版本早已經(jīng)被各家大模型刷爆了,誰考都是高分,對(duì)前沿模型已經(jīng)沒有了區(qū)分度。

大模型權(quán)威測(cè)試,翻車了?!

HuggingFace都在用的MMLU-PRO,被扒出評(píng)測(cè)方法更偏向閉源模型,被網(wǎng)友直接在GitHub Issue提出質(zhì)疑。

圖片

此前MMLU原始版本早已經(jīng)被各家大模型刷爆了,誰考都是高分,對(duì)前沿模型已經(jīng)沒有了區(qū)分度

號(hào)稱更強(qiáng)大、更具挑戰(zhàn)線性多任務(wù)語言基準(zhǔn)MMLU-Pro,成了業(yè)界對(duì)大模型性能的重要參考。

但結(jié)果沒想到的是,現(xiàn)在有人扒出其在采樣參數(shù)、系統(tǒng)提示和答案提取等方面設(shè)置不公平,存在一些令人震驚的差異。

隨便對(duì)系統(tǒng)提示詞做了個(gè)小修改,直接將開源陣營的Llama-3-8b-q8的性能提高了10分?!

圖片

emmm……就問大模型跑分到底還能不能信了?

被扒偏向閉源模型

這是源于Reddit上一位ML/AI愛好者的意外發(fā)現(xiàn)。

還特意做了個(gè)免責(zé)聲明,自己只是感興趣,并不是ML研究員(Doge)

圖片

出于好奇想了解它是如何工作的,于是檢查了原始repo中的代碼以及每個(gè)模型使用的提示和響應(yīng)。

不看不知道,一看嚇一跳。

首先,他們不會(huì)對(duì)所有模型使用相同的參數(shù)。

圖片

其次,給每個(gè)大模型的Prompt差別也挺大啊喂?!

跟GPT-4o說:

您是知識(shí)專家,您應(yīng)該回答多選題,得出最終答案為「答案是 ….」

跟GPT-4說:

以下是有關(guān){主題}的選擇題(含答案)。請(qǐng)逐步思考,然后在最后以 “答案是 (X) ”作為輸出。

……
圖片

更離譜的是Claude3,沒有系統(tǒng)提示詞?!!!

此外,這位網(wǎng)友還發(fā)現(xiàn),模型必須按照指令輸出準(zhǔn)確的短語和格式,這點(diǎn)至關(guān)重要。

否則,模型的答案就不會(huì)被認(rèn)可,而是會(huì)為模型隨機(jī)生成一個(gè)答案。

于是乎他進(jìn)行了一個(gè)小小的測(cè)試。

通過調(diào)整系統(tǒng)提示,來強(qiáng)調(diào)格式的重要性,結(jié)果模型分?jǐn)?shù)顯著提高。

比如給llama-3-8b-q8說了這些話,結(jié)果它在一些類別中得分提高了10分以上。

圖片

作為一名知識(shí)淵博的專家,你的任務(wù)是回答只有一個(gè)正確答案的多項(xiàng)選擇題。清楚地解釋你對(duì)每道題的思考過程,提供全面、逐步的推理,說明你是如何得出最終答案的。如果沒有一個(gè)選項(xiàng)完全符合,請(qǐng)選擇最接近的一個(gè)。用準(zhǔn)確的短語和格式結(jié)束每個(gè)回答至關(guān)重要: 答案是 (X),其中 X 代表字母選項(xiàng),即使選擇最接近的選項(xiàng)也是如此。

此外對(duì)各個(gè)模型答案提取regex也不一樣。

圖片

此事一出,大家一片嘩然。他去團(tuán)隊(duì)GitHub頁面底下反應(yīng),也得到了官方回復(fù)。

官方回應(yīng):對(duì)結(jié)果影響不超過1%

大概有這么幾個(gè)意思。

首先,關(guān)于采樣參數(shù)和系統(tǒng)提示,我們建議使用我們 git 倉庫中的 evaluate_from_api.py 和 evaluate_from_local.py,因?yàn)檫@些設(shè)置與我們論文中報(bào)告的結(jié)果一致。

至于像那些閉源模型的結(jié)果,因?yàn)槭遣煌献髡咄瑫r(shí)運(yùn)行的,所以會(huì)有些細(xì)微差別。

不過他們表示,有進(jìn)行抽樣測(cè)試,發(fā)現(xiàn)對(duì)結(jié)果的影響很小,不超過 1%。

另外,他們?cè)谡撐闹羞€強(qiáng)調(diào)了 MMLU-Pro 的魯棒性,因此從節(jié)約成本的角度出發(fā),我們選擇了不重新運(yùn)行所有項(xiàng)目。

對(duì)于答案提取regex問題,團(tuán)隊(duì)承認(rèn):這的確是一個(gè)重要問題。

因?yàn)橄?GPT-4o 和 Gemini 這樣的高性能模型來說,影響微乎其微。但對(duì)于較小規(guī)模的模型來說,影響可能會(huì)更大。

他們正計(jì)劃引入召回率更高的答案提取詞法,并將相應(yīng)地進(jìn)行標(biāo)準(zhǔn)化和重新提取答案。

此前還被爆出MMLU-Pro以數(shù)學(xué)為主

今年5月,來自滑鐵盧大模型老虎實(shí)驗(yàn)室陳文虎團(tuán)隊(duì)推出MMLU-Pro版。

當(dāng)時(shí)強(qiáng)調(diào)它主要有這些特點(diǎn):

1、隨機(jī)猜測(cè)的空間更小。Pro版使用 10 個(gè)選項(xiàng)而不是 4 個(gè)選項(xiàng)。

2、更復(fù)雜:MMLU-Pro 添加了更多不同學(xué)科的大學(xué)水平問題,共計(jì)12K個(gè)問題。

3、MMLU-Pro 更穩(wěn)健,對(duì)不同提示的敏感度更低。

結(jié)果 GPT-4o(71%)實(shí)際上比 GPT-4-turbo(62%)提高了 9%在原始 MMLU 上,改進(jìn)只有 2% 左右。

圖片

但使用之后發(fā)現(xiàn),有人反饋說MMLU-Pro以數(shù)學(xué)能力為主,但此前MMLU的價(jià)值在于知識(shí)和推理。

很多問題都需要多步驟的思維鏈CoT推理來解決應(yīng)用數(shù)學(xué)問題。

這樣的話對(duì)大模型來說太難了,大部分都集中在低端,這樣評(píng)估也就沒有意義。

圖片

好了對(duì)于這件事你怎么看呢?

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2023-08-27 12:54:59

GPT-4神秘版本Code

2023-06-05 12:32:48

模型論文

2010-04-25 23:11:23

負(fù)載均衡設(shè)置

2023-09-02 20:19:10

2012-12-14 11:00:02

VDI桌面虛擬化

2023-07-05 09:57:11

2023-06-08 08:09:43

2024-01-30 20:08:07

谷歌GPT-4Bard

2024-06-17 07:46:01

2023-08-11 13:15:35

ChatGPTMBTIGPT-4

2023-11-13 19:35:12

訓(xùn)練數(shù)據(jù)

2009-04-01 14:38:36

聯(lián)通勞務(wù)正式工

2024-06-24 17:45:16

2024-04-25 16:56:14

GPT-4大模型人工智能

2015-02-12 09:29:48

2025-03-11 08:42:04

2023-06-27 13:37:17

谷歌AI

2023-12-26 08:17:23

微軟GPT-4

2023-02-02 14:16:39

GPT-4微軟
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

国产日本欧美一区| 亚洲大尺度美女在线| 亚洲免费av网| www.com在线观看| 久久综合影视| 欧美巨大黑人极品精男| 波多野吉衣中文字幕| 精品国产乱码久久久久久樱花| 婷婷国产在线综合| 国产日韩视频在线播放| 四虎在线视频| 国产精品一品视频| 国产精品爽爽爽| 九九热在线视频播放| 午夜激情久久| 亚洲人成毛片在线播放| 亚洲成人福利视频| 久久久加勒比| 日韩欧中文字幕| 人妻激情另类乱人伦人妻| 成人免费在线电影| 91在线精品一区二区| 999久久久| 一级爱爱免费视频| 久久一区二区三区四区五区| 久久久爽爽爽美女图片| 国产午夜手机精彩视频| 欧美在线电影| 亚洲人成伊人成综合网久久久| 69xxx免费视频| 国产95亚洲| 欧美视频中文一区二区三区在线观看 | av大片在线免费观看| 亚洲性色视频| 欧美久久精品午夜青青大伊人| 色综合久久88色综合天天提莫| 久久久香蕉视频| av成人 com a| 国产欧美精品日韩区二区麻豆天美| 成人18视频| 在线国产视频一区| 日韩专区视频| 欧美日韩一级二级| 丁香五月网久久综合| 久久久久久久久久成人| 伊人久久精品| 一本一道波多野结衣一区二区| 国产日韩在线精品av| 男人的天堂一区| 中文字幕免费高清在线观看| 天堂在线中文| 国产一区二区三区四区五区入口| 97**国产露脸精品国产| 91插插插影院| 女人让男人操自己视频在线观看| 亚洲综合激情另类小说区| 国产精品视频久| 国产亚洲精品成人a| 免费a级毛片在线播放| 亚洲天天综合| 黑人巨大精品欧美一区二区免费| 日韩av高清| 日韩激情在线播放| 欧美gay视频| 免费视频最近日韩| 欧美一区二区三区免费观看视频| 91精品网站| 欧美午夜精品一区二区| 天天干天天爽天天操| 色香欲www7777综合网| 亚洲大奶少妇| 91精品精品| 一区二区影院| 国产精品亚洲人成在99www| 青草视频在线免费直播| 亚洲精品国产成人久久av盗摄| 免费的一级黄色片| 欧美一级鲁丝片| 日本高清不卡视频| 国产美女视频免费看| 日韩最新av| 日韩精品极品视频免费观看| 色一情一交一乱一区二区三区| 日韩美女一区二区三区在线观看| 久久中文字幕在线| 欧美a∨亚洲欧美亚洲| 欧美a一区二区| 国产不卡一区二区三区在线观看 | 亚洲国产日韩欧美在线图片 | 色偷偷在线观看| 国产欧美一区二区精品久导航| 中文字幕av导航| 美女扒开腿让男人桶爽久久软| 欧美在线免费视屏| 四虎成人免费视频| 久久国产成人精品| 69影院欧美专区视频| 国产一区二区在线不卡| av亚洲精华国产精华精华| 色999日韩自偷自拍美女| 牛牛在线精品视频| 欧美日韩高清不卡| 无码人妻aⅴ一区二区三区 | 欧美经典一区二区| 久久综合久久久久| www.一区| 日韩av中文字幕在线| 开心激情五月网| 亚洲一区二区免费看| 91麻豆蜜桃| 少妇视频一区二区| 亚洲成人精品女人久久久| 不卡av在线网| 在线视频91| 综合久久2023| 精品国产乱码久久久久久久久| 综合 欧美 亚洲日本| 一道本一区二区| 51国偷自产一区二区三区的来源| 国产人成在线观看| 天天av天天翘天天综合网色鬼国产| 欧美三级午夜理伦三级富婆| 亚洲动漫在线观看| 欧美激情va永久在线播放| 一级黄在线观看| 国产欧美日韩综合精品一区二区 | 国产a级黄色片| 亚洲国产一区二区三区在线播放| 国产精品 欧美在线| 天堂av网在线| 精品久久香蕉国产线看观看亚洲 | 久久久久久久久国产| 91中文字幕在线视频| 国产精品无码永久免费888| 日本成年人网址| 精品深夜福利视频| 久久免费观看视频| 免费观看的毛片| 尤物视频一区二区| 男人女人拔萝卜视频| 亚洲激情久久| 亚洲一区二区三区四区在线播放| 在线免费观看黄色| 欧美在线色视频| 欧美午夜激情影院| 麻豆国产精品官网| 一区二区三区在线视频看| 欧美爱爱视频| www.亚洲一区| 国产剧情精品在线| 亚洲激情图片qvod| 日韩中文字幕在线观看视频| 成人午夜精品| 亚洲精品美女免费| 日韩av片在线播放| av不卡一区二区三区| 少妇人妻大乳在线视频| 好吊妞视频这里有精品| 久久久久久久久综合| 国产不卡av在线| a天堂中文字幕| 国产精品日韩精品欧美精品| 久久人人97超碰人人澡爱香蕉| 第一福利在线视频| 国产婷婷97碰碰久久人人蜜臀| 色婷婷av国产精品| 久久久精品日韩欧美| 久久精品国产成人| 日韩av免费播放| 国产精品国产馆在线真实露脸| 中文av字幕在线观看| 午夜欧美精品| 久久国产日韩欧美| 国产亚洲欧美日韩精品一区二区三区| 最近日韩中文字幕中文| 国产99对白在线播放| 欧美日韩国产精品一区二区三区四区| 精品国产av无码| 久久av资源网| 日本国产中文字幕| 天海翼精品一区二区三区| 国产精品十八以下禁看| 肉肉视频在线观看| 国产亚洲精品久久| 午夜精品久久久久久久99| 欧美性色xo影院| 久草福利资源在线| 99国产精品国产精品毛片| 日本人69视频| 亚洲精品社区| 亚洲一区3d动漫同人无遮挡| 成人福利免费在线观看| 国产精品久久久久久影视| 欧美另类tv| 国产亚洲人成网站在线观看| 亚洲欧美另类综合| 欧美亚洲愉拍一区二区| 久久精品国产av一区二区三区| 中文字幕精品一区二区三区精品| 中文字幕18页| 精品一区二区三区免费视频| 精品中文字幕av| 欧美视频官网| 亚洲精品在线视频观看| 亚洲动漫精品| 国产精品一区二区在线观看| 亚洲精品大全| 日韩av片电影专区| 不卡av免费观看| 久久精品国产欧美激情| 国产一级片在线| 精品国产91洋老外米糕| 国产免费av电影| 色综合久久99| 日韩精品视频免费播放| 亚洲三级在线免费观看| 国产免费嫩草影院| 国产亚洲精品bt天堂精选| 国产在线不卡av| 国产风韵犹存在线视精品| 久久久久xxxx| 免费精品视频最新在线| 国产a级片免费观看| 亚洲人成免费| 女人帮男人橹视频播放| 午夜欧美精品| 欧美极品少妇无套实战| 欧美激情日韩| 国产在线无码精品| 影视一区二区| 亚洲国产精品影视| 亚欧美无遮挡hd高清在线视频| 手机成人在线| 禁果av一区二区三区| 欧洲一区二区日韩在线视频观看免费 | 一区视频在线看| 波多野结衣与黑人| 午夜精品网站| 久草免费福利在线| 伊人久久综合| 欧美成人三级在线视频| 亚洲国产网站| 乱妇乱女熟妇熟女网站| 亚洲主播在线| 少妇人妻互换不带套| 天堂久久久久va久久久久| 久久久久久久片| 人人狠狠综合久久亚洲| 国模私拍视频在线观看| 国产一区二区三区观看| 久久久久久无码精品人妻一区二区| 国产精品中文字幕日韩精品| 亚洲AV无码久久精品国产一区| 国产成人精品免费| 免费a v网站| 91看片淫黄大片一级在线观看| 加勒比一区二区| 国产免费观看久久| 男人av资源站| 夜夜操天天操亚洲| av大片在线免费观看| 欧美亚洲一区三区| 国产免费视频一区二区三区| 欧美videos中文字幕| 天天操天天爱天天干| 亚洲欧美另类人妖| 日韩在线免费电影| 欧美成人一二三| 老司机深夜福利在线观看| 日本久久中文字幕| 一级欧美视频| 精品一区久久久| 成人精品影院| 国产一区 在线播放| 亚洲综合国产| 污污网站在线观看视频| 国产成人午夜片在线观看高清观看| 美女扒开腿免费视频| 国产网红主播福利一区二区| 国产成人av免费在线观看| 亚洲国产裸拍裸体视频在线观看乱了| 91丝袜一区二区三区| 欧美精品在线视频| 神马电影在线观看| 久久精品国产亚洲一区二区| 日日夜夜天天综合入口| 国产97人人超碰caoprom| 国产一区二区三区| 蜜桃传媒视频第一区入口在线看| 婷婷伊人综合| 日本不卡在线观看视频| 国产麻豆一精品一av一免费| 成人乱码一区二区三区av| 亚洲视频每日更新| 日韩在线播放中文字幕| 欧美xxxx老人做受| 日本中文字幕视频在线| 日本aⅴ大伊香蕉精品视频| 欧美成人精品午夜一区二区| 欧美在线视频一区二区三区| 国模一区二区三区| 亚洲午夜精品一区| 久久久久久久久久久99999| 久久久综合久久久| 欧美人动与zoxxxx乱| 少妇激情av一区二区| 欧美高清videos高潮hd| 国产91欧美| 欧美一区二区综合| 狠狠爱成人网| 波多野结衣免费观看| 国产女主播一区| 久久久久亚洲av成人毛片韩| 日韩视频免费观看高清在线视频| 无遮挡动作视频在线观看免费入口| 91精品国产91| 99国产精品久久一区二区三区| 9999在线观看| 美女一区二区久久| 国产高潮呻吟久久| 狠狠爱在线视频一区| 欧美视频xxx| 欧美高跟鞋交xxxxhd| 精品国产亚洲一区二区三区在线| 亚洲 国产 日韩 综合一区| 六月婷婷一区| 男生裸体视频网站| 婷婷夜色潮精品综合在线| 日本激情视频网站| 欧美另类xxx| 欧美专区一区| 成人小视频在线观看免费| 国产成人综合在线观看| 天天干中文字幕| 欧美一级二级三级乱码| 国产剧情在线| 147欧美人体大胆444| 在线观看国产精品入口| 亚洲av无码久久精品色欲| 一区二区三区在线视频播放| 精品久久久无码中文字幕| 欧美成人三级视频网站| 91成人福利| 国产精品videossex国产高清| 粉嫩蜜臀av国产精品网站| 精品一区二区三区四| 精品电影一区二区| 97蜜桃久久| 欧美福利精品| 视频一区二区欧美| 性少妇xx生活| 欧美日韩大陆在线| www.久久ai| 成人资源视频网站免费| 一区二区三区福利| 国产美女永久免费无遮挡| 欧美日韩精品免费| 搞黄网站在线观看| 国产精品初高中精品久久| 亚洲欧美成人| 蜜桃av免费在线观看| 欧美一卡2卡三卡4卡5免费| 大香伊人久久| 欧美高清性xxxxhd| 韩国视频一区二区| 日韩视频免费观看高清| 亚洲一级免费视频| 二区三区精品| 99爱视频在线| 国产精品超碰97尤物18| www夜片内射视频日韩精品成人| 午夜精品久久久久久久99热浪潮| 九九视频精品全部免费播放| 亚洲最大天堂网| 午夜伊人狠狠久久| 国产小视频在线| 91免费综合在线| 国产精品外国| 你懂得在线观看| 日韩av综合网站| 日韩在线激情| 啊啊啊一区二区| 亚洲欧洲三级电影| 熟妇人妻av无码一区二区三区| 国产精品日韩在线一区| 黄色成人在线网址| 波多野结衣家庭教师在线观看| 亚洲精品一区二区三区影院| 精品久久毛片| 日日摸日日碰夜夜爽无码| 国产精品久久久久久久第一福利| 蜜臀久久99精品久久久| 国产精品久久久久久久av电影| 极品日韩av| 久草福利资源在线| 亚洲女同精品视频| 成人av综合网| 国产999免费视频| 一本到一区二区三区| 久久免费电影|