精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型走捷徑「刷榜」?數(shù)據(jù)污染問題值得重視

人工智能 新聞
近日,我們關(guān)注到朋友圈和知乎社區(qū)對(duì)大模型「刷榜」這一問題的討論越來越多。特別是,知乎一篇帖子:如何評(píng)價(jià)天工大模型技術(shù)報(bào)告中指出很多大模型用領(lǐng)域內(nèi)數(shù)據(jù)刷榜的現(xiàn)象?引起了大家的討論。

生成式 AI 元年,大家的工作節(jié)奏快了一大截。

特別是,今年大家都在努力卷大模型:最近國內(nèi)外科技巨頭、創(chuàng)業(yè)公司都在輪番推出大模型,發(fā)布會(huì)一開,個(gè)個(gè)都是重大突破,每一家都是刷新了重要 Benchmark 榜單,要么排第一,要么第一梯隊(duì)。

在興奮于技術(shù)進(jìn)展速度之快后,很多人發(fā)現(xiàn)似乎也有些不對(duì)味:為什么排行榜第一人人有份?這是個(gè)什么機(jī)制?

于是乎,「刷榜」這個(gè)問題也開始備受關(guān)注。

近日,我們關(guān)注到朋友圈和知乎社區(qū)對(duì)大模型「刷榜」這一問題的討論越來越多。特別是,知乎一篇帖子:如何評(píng)價(jià)天工大模型技術(shù)報(bào)告中指出很多大模型用領(lǐng)域內(nèi)數(shù)據(jù)刷榜的現(xiàn)象?引起了大家的討論。

鏈接:https://www.zhihu.com/question/628957425

多家大模型刷榜機(jī)制曝光

該研究來自昆侖萬維的「天工」大模型研究團(tuán)隊(duì),他們上個(gè)月底把一份技術(shù)報(bào)告發(fā)布在了預(yù)印版論文平臺(tái) arXiv 上。

論文鏈接:https://arxiv.org/abs/2310.19341

論文本身是在介紹 Skywork-13B,這是天工的一個(gè)大型語言模型(LLM)系列。作者引入了使用分段語料庫的兩階段訓(xùn)練方法,分別針對(duì)通用訓(xùn)練和特定領(lǐng)域的增強(qiáng)訓(xùn)練。

和往常有關(guān)大模型的新研究一樣,作者表示在流行的測(cè)試基準(zhǔn)上,他們的模型不僅表現(xiàn)出色,而且在很多中文的分支任務(wù)上取得了 state-of-art 水平(就是業(yè)內(nèi)最佳)。

重點(diǎn)是,該報(bào)告還驗(yàn)證了下很多大模型的真實(shí)效果,指出了一些其他一些國產(chǎn)大模型存在投機(jī)取巧的嫌疑。說的就是這個(gè)表格 8:

圖片

在這里,作者為了驗(yàn)證目前業(yè)內(nèi)幾個(gè)常見大模型在數(shù)學(xué)應(yīng)用問題基準(zhǔn) GSM8K 上的過擬合程度,使用 GPT-4 生成了一些與 GSM8K 形式上相同的樣本,人工核對(duì)了正確性,并讓這些模型在生成的數(shù)據(jù)集,和 GSM8K 原本的訓(xùn)練集、測(cè)試集上比了比,計(jì)算了損失。然后還有兩個(gè)指標(biāo):

圖片

Δ1 作為模型訓(xùn)練期間潛在測(cè)試數(shù)據(jù)泄漏的指標(biāo),較低的值表明可能存在泄漏。沒有用測(cè)試集訓(xùn)練,那數(shù)值應(yīng)該為零。

圖片

Δ2 衡量數(shù)據(jù)集訓(xùn)練分割的過度擬合程度。較高的 Δ2 值意味著過擬合。如果沒有用訓(xùn)練集訓(xùn)練過,那數(shù)值應(yīng)該為零。

用簡(jiǎn)單的話來解釋就是:如果有模型在訓(xùn)練的時(shí)候,直接拿基準(zhǔn)測(cè)試?yán)锩娴摹刚骖}」和「答案」來當(dāng)學(xué)習(xí)資料,想以此來刷分,那么此處就會(huì)有異常。

好的,Δ1 和 Δ2 有問題的地方,上面都貼心地以灰色突出顯示了。

網(wǎng)友對(duì)此評(píng)論道,終于有人把「數(shù)據(jù)集污染」這個(gè)公開的秘密說出來了。

也有網(wǎng)友表示,大模型的智力水平,還是要看 zero-shot 能力,現(xiàn)有的測(cè)試基準(zhǔn)都做不到。

圖:截圖自知乎網(wǎng)友評(píng)論

在作者與讀者中互動(dòng)中,作者也表示,希望「讓大家更理性看待刷榜這個(gè)事情,很多模型和 GPT4 的差距還很大」。

圖:截圖自知乎文章 https://zhuanlan.zhihu.com/p/664985891

數(shù)據(jù)污染問題值得重視

其實(shí),這并不是一時(shí)的現(xiàn)象。自從有了 Benchmark,此類問題時(shí)常會(huì)有發(fā)生,就像今年 9 月份 arXiv 上一篇極具嘲諷意味的文章標(biāo)題指出的一樣 Pretraining on the Test Set Is All You Need。

除此之外,最近人民大學(xué)、伊利諾伊大學(xué)香檳分校一個(gè)正式研究同樣指出了大模型評(píng)估中存在的問題。標(biāo)題很扎眼《Don't Make Your LLM an Evaluation Benchmark Cheater》:

論文鏈接:https://arxiv.org/abs/2311.01964

論文指出,當(dāng)前火熱的大模型領(lǐng)域讓人們關(guān)心基準(zhǔn)測(cè)試的排名,但其公平性和可靠性正在受到質(zhì)疑。其中主要的問題就是數(shù)據(jù)污染和泄露,這樣的問題可能會(huì)被無意識(shí)地觸發(fā),因?yàn)槲覀冊(cè)跍?zhǔn)備預(yù)訓(xùn)練語料庫時(shí)可能不知道未來的評(píng)估數(shù)據(jù)集。例如,GPT-3 發(fā)現(xiàn)預(yù)訓(xùn)練語料庫中包含了 Children's Book Test 數(shù)據(jù)集,LLaMA-2 的論文曾提到提取了 BoolQ 數(shù)據(jù)集中的上下文網(wǎng)頁內(nèi)容。

數(shù)據(jù)集是需要很多人花費(fèi)大量精力收集、整理和標(biāo)注的,優(yōu)質(zhì)的數(shù)據(jù)集如果優(yōu)秀到能被用于評(píng)測(cè),那自然也有可能會(huì)被另一些人用于訓(xùn)練大模型。

另一方面,在使用現(xiàn)有基準(zhǔn)進(jìn)行評(píng)估時(shí),我們?cè)u(píng)測(cè)的大模型的結(jié)果大多是通過在本地服務(wù)器上運(yùn)行或通過 API 調(diào)用來獲得的。在此過程中,沒有嚴(yán)格檢查任何可能導(dǎo)致評(píng)估績(jī)效異常提高的不當(dāng)方式(例如數(shù)據(jù)污染)。

更糟糕的是,訓(xùn)練語料庫的詳細(xì)組成(例如數(shù)據(jù)源)通常被視為現(xiàn)有大模型的核心「秘密」。這就更難去探究數(shù)據(jù)污染的問題了。

也就是說,優(yōu)秀數(shù)據(jù)的數(shù)量是有限的,在很多測(cè)試集上,GPT-4 和 Llama-2 也不一定就沒問題。比如在第一篇論文中提到的 GSM8K,GPT-4 在官方 technical report 里提到過使用了它的訓(xùn)練集。

你不是說數(shù)據(jù)很重要嗎,那么用「真題」刷分的大模型,性能會(huì)不會(huì)因?yàn)橛?xùn)練數(shù)據(jù)更優(yōu)秀而變得更好呢?答案是否定的。

研究人員實(shí)驗(yàn)發(fā)現(xiàn),基準(zhǔn)泄漏會(huì)導(dǎo)致大模型跑出夸張的成績(jī):例如 1.3B 的模型可以在某些任務(wù)上超越 10 倍體量的模型。但副作用是,如果我們僅使用這些泄露的數(shù)據(jù)來微調(diào)或訓(xùn)練模型,這些專門應(yīng)試的大模型在其他正常測(cè)試任務(wù)上的表現(xiàn)可能會(huì)受到不利影響。

因此作者建議,以后研究人員在評(píng)測(cè)大模型,或是研究新技術(shù)時(shí)應(yīng)該:

  • 使用更多來自不同來源的基準(zhǔn),涵蓋基本能力(例如文本生成)和高級(jí)能力(例如復(fù)雜推理),以全面評(píng)估 LLM 的能力。
  • 在使用評(píng)估基準(zhǔn)時(shí),在預(yù)訓(xùn)練數(shù)據(jù)和任何相關(guān)數(shù)據(jù)(例如訓(xùn)練和測(cè)試集)之間執(zhí)行數(shù)據(jù)凈化檢查非常重要。此外,還需要報(bào)告評(píng)估基準(zhǔn)的污染分析結(jié)果作為參考。如有可能,建議公開預(yù)訓(xùn)練數(shù)據(jù)的詳細(xì)組成。
  • 建議應(yīng)采用多樣化的測(cè)試提示來減少提示敏感性的影響。在基準(zhǔn)數(shù)據(jù)和現(xiàn)有預(yù)訓(xùn)練語料庫之間進(jìn)行污染分析,提醒任何潛在的污染風(fēng)險(xiǎn)也很有意義。為了進(jìn)行評(píng)估,建議每次提交都附有一份特殊的污染分析報(bào)告。

最后想說,好在這個(gè)問題開始逐漸引起大家的關(guān)注,無論是技術(shù)報(bào)告、論文研究還是社區(qū)討論,都開始重視大模型「刷榜」的問題了。

對(duì)此,你有什么看法與有效建議呢?

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2025-06-11 08:59:21

2024-04-08 13:29:52

2021-04-26 09:58:24

OneDNS

2013-01-10 13:27:32

iOS刷榜Android

2023-11-16 12:36:00

AI數(shù)據(jù)

2024-09-12 14:46:03

2021-04-13 15:54:07

大數(shù)據(jù)人工智能技術(shù)

2021-11-02 21:24:32

人工智能走捷徑機(jī)器學(xué)習(xí)

2015-06-25 15:51:56

數(shù)據(jù)中心綠色化

2012-08-08 09:29:41

App Store刷榜

2012-11-02 09:29:38

2025-04-15 08:00:00

LMArenaLlama 4大模型

2020-09-29 09:58:30

網(wǎng)絡(luò)安全安防行業(yè)技術(shù)

2024-10-17 14:10:00

模型訓(xùn)練

2014-02-10 09:22:41

2013-01-31 16:28:26

App Store刷榜應(yīng)用商店

2012-03-08 15:49:15

2021-04-19 21:16:18

大數(shù)據(jù)大數(shù)據(jù)動(dòng)向

2025-11-04 15:53:44

AI模型數(shù)據(jù)

2012-01-16 10:41:25

安全互聯(lián)網(wǎng)IT部門
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

丰满少妇被猛烈进入| 国产mv久久久| 国产精品嫩草影院8vv8| 国产尤物视频在线| 日韩av一区二区三区四区| 夜夜嗨av一区二区三区四区| 视频免费1区二区三区| 国产成人天天5g影院在线观看| 精品一二三四区| 久久中文字幕在线视频| 欧美一区二区免费在线观看| 51精品在线| 中文字幕成人在线观看| 91人人爽人人爽人人精88v| 久久精品这里只有精品| 超碰cao国产精品一区二区| 欧美午夜女人视频在线| 在线一区日本视频| 成人久久久精品国产乱码一区二区 | 精品美女视频在线观看免费软件| 国产一区二区三区美女| 日本精品免费观看| 成年人一级黄色片| 国产成人三级| 精品三级av在线| 欧洲av无码放荡人妇网站| 麻豆传媒在线完整视频| 久久精品视频一区二区三区| 不卡的av一区| 中文字幕一区二区人妻| 国产精品一二| 欧美激情免费观看| 亚洲综合第一区| 亚洲综合图色| 亚洲国产精品免费| 黑人性生活视频| 色成人综合网| 欧美三级一区二区| 999精品网站| 黄色免费在线观看网站| 欧美国产精品中文字幕| 欧美日韩国产精品一区二区| 一级黄色大片网站| 亚洲性视频h| 欧美超级免费视 在线| aaaaa一级片| 欧洲亚洲一区二区三区| 亚洲福利影片在线| 性农村xxxxx小树林| 精品国产一区二| 91精品国产色综合久久久蜜香臀| 牛夜精品久久久久久久| 日本精品另类| 一本久久精品一区二区| 国产精品333| 在线免费看h| 大伊人狠狠躁夜夜躁av一区| 无码粉嫩虎白一线天在线观看| 亚洲区欧洲区| 亚洲一区影音先锋| 久久手机在线视频| 超碰97免费在线| 亚洲一区av在线| 青春草国产视频| 77thz桃花论族在线观看| 午夜欧美在线一二页| 久色视频在线播放| 成av人片在线观看www| 日本一区二区三区在线不卡| 日韩高清三级| 无遮挡动作视频在线观看免费入口| 国产精品欧美精品| 在线看无码的免费网站| 日韩三级影院| 亚洲综合一区二区精品导航| 91丨porny丨探花| 中文字幕在线免费观看视频| 欧美性感美女h网站在线观看免费| 又大又硬又爽免费视频| av成人福利| 在线观看免费视频综合| 日本xxxx黄色| 1204国产成人精品视频| 精品视频久久久久久| www色com| 欧美女激情福利| 97在线视频免费观看| 久久久久香蕉视频| 亚洲一区图片| 国产欧美韩国高清| 亚洲婷婷久久综合| 美女视频一区二区三区| 成人片在线免费看| 久久久久国产精品嫩草影院| 亚洲欧洲av在线| 成人免费性视频| 成人在线视频播放| 宅男噜噜噜66一区二区66| 亚洲一区二区三区四区av| 国产成人澳门| 精品国产乱码久久久久久夜甘婷婷 | 蜜臀av性久久久久蜜臀aⅴ | 国产黄色片av| 久久久精品国产99久久精品芒果 | 午夜久久久久久久久久一区二区| 亚洲不卡中文字幕无码| 国产精品久久久久77777丨| 精品国产成人系列| 337人体粉嫩噜噜噜| 欧美黄色aaaa| 日本伊人精品一区二区三区介绍| 国产高清免费在线观看| 成人av在线网| 亚洲一区二区在线看| 欧美aaa免费| 欧美日韩国产片| 久久中文字幕人妻| 亚洲九九视频| 国产成人av网址| 午夜免费福利视频| 国产精品视频麻豆| 久久美女福利视频| 国产伦精品一区二区三区在线播放 | 91影院未满十八岁禁止入内| youjizz在线播放| 亚洲一二三四久久| 日韩中文字幕免费在线| 麻豆成人入口| 日韩一区二区久久久| 亚洲精品国产无码| 懂色av一区二区三区蜜臀| 日本午夜精品一区二区| 日韩电影免费看| 亚洲国产天堂久久综合网| 欧美三级小视频| 精品一区二区三区免费毛片爱| 日本一区视频在线观看| 少妇淫片在线影院| 亚洲激情第一页| 免费在线观看日韩| 国产黄色精品视频| 中文字幕一区二区三区四区五区人| 亚洲成av在线| 国产一区二区三区在线播放免费观看 | 五月天久久比比资源色| 欧美日韩久久婷婷| 国产精品久久久久蜜臀| 国产成人精品一区二区三区| 西西人体44www大胆无码| 亚洲mv在线观看| 日韩亚洲欧美成人| 麻豆传媒一区二区| 97人人在线视频| 亚洲电影av在线| 国产一级视频在线观看| 激情文学综合丁香| 欧美性受xxxx黑人猛交88| 成人在线啊v| 久精品免费视频| 亚洲不卡免费视频| 亚洲一区二区三区中文字幕| 亚洲性图第一页| 激情欧美日韩| 久久精品久久精品国产大片| 国内精彩免费自拍视频在线观看网址 | 亚洲午夜色婷婷在线| 国产成人免费观看视频| 26uuu国产一区二区三区| 日本一区二区黄色| 俺要去色综合狠狠| 国产精品主播视频| 91麻豆一二三四在线| 精品国精品国产尤物美女| 亚洲国产精一区二区三区性色| 成人在线一区二区三区| 成人综合视频在线| 图片婷婷一区| 国产精品1区2区在线观看| 色欧美激情视频在线| 日韩欧美国产综合| 久久夜色精品亚洲| caoporen国产精品视频| 国产v亚洲v天堂无码久久久| 婷婷亚洲五月色综合| 91中文字精品一区二区| 天堂中文av在线资源库| 日韩在线小视频| 亚洲天堂网在线观看视频| 一区二区三区美女视频| 中国黄色a级片| 麻豆成人91精品二区三区| 无颜之月在线看| 成人盗摄视频| 国产精品女人久久久久久| 日本在线观看大片免费视频| 亚洲视频精品在线| 精品国产乱码一区二区三 | 国产精品欧美一区喷水| 美女露出粉嫩尿囗让男人桶| 噜噜噜91成人网| av中文字幕av| 精品av一区二区| 99在线观看视频网站| 国产超碰精品| 欧美极品少妇xxxxⅹ免费视频| 国产中文字幕在线观看| 欧美日韩免费视频| 亚洲免费在线观看av| 亚洲男人的天堂在线观看| 中文字幕被公侵犯的漂亮人妻| 九色综合狠狠综合久久| 男人的天堂99| 极品中文字幕一区| 欧美aaa在线观看| 人人香蕉久久| 91手机在线观看| 欧美天堂一区二区| 欧美最猛性xxxxx亚洲精品| 日本一本在线免费福利| 日韩在线视频一区| 国产午夜精品一区理论片| 666欧美在线视频| 亚洲精品无码久久久久| 欧美视频一区二区三区…| 午夜精品一区二区三区视频| 欧美激情一区二区在线| 自拍偷拍中文字幕| av一二三不卡影片| 日韩精品――色哟哟| 国模娜娜一区二区三区| 青青草原国产在线视频| 免费视频一区二区| 黄色a级片免费| 亚洲欧美日本国产专区一区| 国产av人人夜夜澡人人爽麻豆| 91精品国产调教在线观看| 亚洲三区在线| 色爱综合网欧美| 亚洲欧美电影在线观看| 日韩精品dvd| 亚洲高清资源综合久久精品| 欧美日韩黑人| 午夜一区二区三区| 欧美亚洲精品在线| 视频一区视频二区视频三区高| 国产99亚洲| 欧美日韩成人一区二区三区| 亚洲人成精品久久久 | 欧美性猛交xxxx黑人| 欧美成人综合色| 亚洲精品成a人| 久草网站在线观看| 18欧美亚洲精品| 日韩欧美综合视频| 18成人在线视频| 国产乱国产乱老熟300| 亚洲国产精品嫩草影院| 日韩av电影网址| 亚洲激情综合网| 精品无码av在线| 狠狠色狠色综合曰曰| 草莓视频18免费观看| 欧美色图天堂网| 99久久精品国产成人一区二区| 日韩欧美国产成人一区二区| 黑人乱码一区二区三区av| 日韩精品一区二区三区四区 | 一区国产精品| 亚洲精品电影| 18禁裸男晨勃露j毛免费观看| 中文国产一区| 中文字幕第36页| 国产精品一区二区三区乱码| 日韩va在线观看| 丁香亚洲综合激情啪啪综合| 日本一区二区三区网站| 国产午夜亚洲精品理论片色戒| 成年人看的免费视频| 一区二区三区四区国产精品| 欧美日韩精品一区二区三区视频播放| 亚洲主播在线播放| chinese国产精品| 欧美三级视频在线观看| 成人免费一级视频| 亚洲欧美国内爽妇网| 欧美天天影院| 97视频在线免费观看| 欧美黑人粗大| 亚洲综合成人婷婷小说| 久久av导航| 日韩中文不卡| 精品99视频| 高潮一区二区三区| 91在线免费播放| 影音先锋男人资源在线观看| 午夜久久电影网| 黄色一区二区视频| 日韩欧美视频在线| 欧美日本韩国一区二区| www.日韩视频| 国模套图日韩精品一区二区| 亚洲精品欧美日韩| 欧美色图激情小说| 欧美精品久久久久久久久久久| 麻豆免费看一区二区三区| 三级视频网站在线观看| 国产精品久久久久一区二区三区共| 日本一二三区不卡| 91麻豆精品国产91久久久久| 头脑特工队2在线播放| 久久精品中文字幕一区| 中文字幕这里只有精品| 波多野结衣久草一区| 久久精品青草| 中文字幕永久视频| 91网站视频在线观看| 九九视频免费观看| 欧美美女一区二区三区| 日本黄在线观看| 国内精品久久久久影院优| 四虎地址8848精品| 视频一区三区| 久久久人人人| 三级男人添奶爽爽爽视频| 国产精品久久一级| 中文字幕二区三区| 亚洲福利影片在线| 波多野结衣在线高清| 亚洲影院色在线观看免费| 成人午夜av| 成人三级视频在线播放 | 欧美一区二区三区小说| 最新av网站在线观看| 日本一区二区三区四区视频| 在线日韩成人| www.一区二区.com| 狠狠色2019综合网| 天天爽天天爽天天爽| 欧美色图一区二区三区| av免费在线一区二区三区| 国产精品极品美女在线观看免费 | 亚洲男人天堂网站| bbw在线视频| 精品无码久久久久久久动漫| 日韩一级大片| 亚洲天堂美女视频| 日韩欧美大尺度| 猫咪在线永久网站| 国产精品av电影| 日韩精品一区二区三区免费观影 | 亚洲一区二区四区| 国内外成人在线| 一区二区视频免费看| 欧美一区二区三区免费大片| av毛片在线免费| caoporen国产精品| 激情视频一区| 亚洲熟女乱综合一区二区三区| 亚洲电影一级黄| 欧洲毛片在线| 国产精品视频一区二区三区四 | 伊人22222| 久久久电影免费观看完整版| 亚洲精品a区| 毛片在线视频播放| 久久久久亚洲综合| 日本久久综合网| 在线观看精品自拍私拍| 亚洲一区av| 大陆av在线播放| www久久精品| 亚洲精品无码久久久久| 久久国产精品影片| 久久精品国产亚洲5555| 国产97色在线 | 日韩| 亚洲同性gay激情无套| 好吊色一区二区| 国产精品电影一区| 亚洲在线久久| 免费看黄色aaaaaa 片| 欧美性xxxxxxxx| 91cn在线观看| 免费毛片一区二区三区久久久| 麻豆91精品视频| 日韩欧美国产亚洲| 丝袜一区二区三区| 91九色鹿精品国产综合久久香蕉| 国产女大学生av| 国产精品蜜臀av| 深夜福利在线看| 国产免费一区视频观看免费| 午夜日韩福利| 亚洲天堂网一区二区| 欧美精品乱人伦久久久久久| 欧美高清另类hdvideosexjaⅴ| 欧美在线播放一区二区| 国产成人在线电影| 波多野结衣电影在线播放| xxxxx91麻豆| 伊人久久大香线蕉av不卡|