精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

68頁論文再錘大模型競技場!Llama4發布前私下測試27個版本,只取最佳成績

人工智能
具體來看這項研究,它收集了243個模型的200+萬場競技場battle,并結合私人真實測試,通過模擬實驗確定了不同情況下對模型排名的影響。

大模型競技場的可信度,再次被錘。

最近一篇名為《排行榜幻覺》(The Leaderboard Illusion)的論文在學術圈引發關注。

圖片圖片

它指出,如今被視為LLM領域首選排行榜的Chatbot Arena,存在諸多系統問題。比如:

  • 少數大廠可以私下測試多個模型版本,Llama4在發布前甚至測了27個版本,然后只公開最佳表現。
  • 數據訪問不平等,專有模型獲得的用戶反饋數據顯著多于開源模型。
  • 試用Arena數據訓練,可提升模型性能高達112%
  • 205個模型被悄悄靜默棄用,遠超過官方列出的47個。

大神卡帕西也站出來表示,他個人也察覺出了一些異樣。

有一段時間,Claude-3.5是我覺得最好用的模型,但是在競技場中排名很低。當時我在網上也看到了類似的反饋。

圖片圖片

對于最新質疑,大模型競技場官方Lmrena.ai已經給出回應:

  • 確實幫助廠商進行測試,最后發布最受歡迎的版本;
  • 但這不代表競技場有偏見,排行榜反映數百萬人類的個人真實偏好。

圖片圖片

快速刷榜不符合模型進步實際情況

具體來看這項研究,它收集了243個模型的200+萬場競技場battle,并結合私人真實測試,通過模擬實驗確定了不同情況下對模型排名的影響。

圖片圖片

主要挖掘出了4方面問題。

圖片圖片

第一,私人測試和有選擇性的結果報告。

少數大模型廠商(如Meta、Google、Amazon)被允許私下測試多個模型變體,并只公開最佳表現的版本。

比如,Meta在Llama 4發布前曾私下測試27個變體,加上多模態、代碼等榜單,Meta可能一共測試過43個變體。

圖片圖片

這種“最佳N選1”策略導致排名膨脹。

例如,當測試5個變體時,期望分數增加了約20分;當測試20個變體時,增加了約40分;當測試50個變體時,增加了約50分。

圖片圖片

研究團隊認為,當多個大模型廠商采用這種策略時,他們實際上是在相互競爭各自變體分布的最大值,而非真實的模型能力。

我們觀察到,像Google、OpenAI和xAI在短時間內輪番霸榜,表明他們都在采用類似的策略。

例如,2024年11月期間,Google的Gemini (Exp 1114)、OpenAI的ChatGPT-4o (20241120)和Google的Gemini (Exp 1121)在一周內先后占據榜首。類似地,2025年3月4日,OpenAI的GPT-4.5和xAI的Grok-3同一天爭奪榜首位置。

這種排行榜的快速變化不太可能反映真實的技術進步,因為開發和完善一個全新的基礎模型通常需要數月時間。

相反,這很可能是多個大模型廠商同時使用“最佳N選1”策略的結果,每個提供商都試圖優化自己變體池中的最大值。

此外,團隊還發現大模型廠商可以撤回表現不好的模型。

圖片

第二,數據訪問不平等。專有模型獲得的用戶反饋數據顯著多于開源模型。

圖片圖片

Google和OpenAI分別獲得了約19.2%和20.4%的所有測試數據,而全部83個開放權重模型僅獲得約29.7%的數據。

圖片圖片

第三,大模型廠商使用競技場數據進行訓練,排名可以顯著提升。

我們觀察到,將競技場訓練數據比例從0%增加到70%,在ArenaHard上的勝率從23.5%提高到了49.9%,實現了一倍多的增長。

這還是一個保守估計,因為部分提供商擁有數據訪問優勢。

第四,研究發現,許多模型被”靜默棄用”(減少采樣率至接近0%)。

在243個公開模型中,有205個被靜默棄用,遠超過官方列出的47個。這種做法特別影響開源和開放權重模型,會導致排名不可靠。

圖片圖片

在提出問題后,研究團隊還給出了5點改進建議:

  • 禁止提交后撤回分數
  • 限制每個提供商的非正式模型數量
  • 公平應用模型棄用政策,所有模型一視同仁
  • 實施公平采樣方法
  • 提高模型棄用透明度,即時通知被淘汰模型

這項研究由Cohere團隊、普林斯頓大學、斯坦福大學等機構研究人員共同提出。

其中Cohere也是一家大模型廠商,由Transformer作者Aidan Gomez等人創辦,推出了Command R+系列模型。

“競技場不應該是唯一基準參考”

大模型競技場誕生2年來,因為機制的特殊性,其參考價值越來越高,大廠發模型也必來這里打榜,甚至是將未發布模型提前在此預熱造勢。

它最大的優勢在于基于人類偏好評估,用戶可以在同一平臺上同時運行多個聊天機器人模型,如GPT-4、ChatGPT-3.5等,并針對相同的問題或任務進行比較分析,可以更直觀感受不同模型的差異。

最近一段時間,由于Llama4刷榜風波,給競技場的可信度也造成了一定影響。

圖片圖片

對于這篇質疑論文,官方現在已做出回應。反駁了一些問題:

  • LMArena模擬的缺陷:圖7/8中的模擬存在問題。這就像說:NBA球員的平均三分命中率是35%。斯蒂芬·庫里擁有NBA球員最高的三分命中率42%。這不公平,因為他來自NBA球員的分布,而所有球員都有相同的潛在平均水平。
  • 數據不實:文章中的許多數據并不反映現實:請參閱幾天前發布的博客了解來自不同提供商測試模型數量的實際統計數據。例如,開放模型占比為40%,而非文章聲稱的8.8%!
  • 112%性能提升的誤導性說法:這一說法基于LLM評判基準而非競技場中的實際人類評估。
  • 政策并非“不透明”:我們設計并公開分享了政策,且這一政策已存在一年多。
  • 模型提供商并非只選擇“最佳分數披露”:任何列在公共排行榜上的模型都必須是向所有人開放且有長期支持計劃的生產模型。我們會繼續使用新數據對模型進行至少一個月的測試。這些要點一直在我們的政策中明確說明。
  • 展示非公開發布模型的分數毫無意義:對于通過API或開放權重不公開可用的預發布模型顯示分數沒有意義,因為社區無法使用這些模型或自行測試。這會違反我們一年多前就制定的政策。我們制定該政策正是為了明確這一規則:如果模型在排行榜上,它應該可供使用。
  • 模型移除不平等或不透明的說法不實:排行榜旨在反映社區興趣,對最佳AI模型進行排名。我們也會淘汰不再向公眾開放的模型,這些標準在我們與社區進行私人測試的整個期間都已在政策中公開說明。

至于情況到底如何,可能還要等子彈飛一會兒。

不過這倒是也給AI社區提了個醒,或許不能只參考一個榜單了。

卡帕西就給出了一個備選項:OpenRouter。

OpenRouter可以提供一個統一API接口來訪問使用不同模型,而且更加關注實際使用案例。

盡管在多樣性和使用量上還不夠優秀,但我認為它有很大潛力。

參考鏈接:
[1]https://arxiv.org/abs/2504.20879
[2]https://x.com/karpathy/status/1917546757929722115
[3]https://x.com/lmarena_ai/status/1917492084359192890

責任編輯:武曉燕 來源: 量子位
相關推薦

2025-04-14 09:06:00

2025-07-11 08:41:21

2024-05-31 14:23:15

2025-04-09 03:33:00

2012-05-31 14:20:14

2025-04-08 08:50:00

AI模型測試

2024-04-23 07:00:00

2025-02-28 08:40:00

2024-07-24 12:40:44

2022-06-13 10:43:11

谷歌模型學者

2025-04-07 09:35:00

Meta模型開源

2024-10-16 15:07:57

2024-04-22 08:40:00

LLM模型開源

2025-02-06 12:10:00

2024-06-20 14:04:17

2025-04-29 10:39:46

2025-06-06 14:23:48

谷歌模型AI

2024-08-05 13:15:28

2024-03-08 13:02:56

Claude 3GPT-4Opus
點贊
收藏

51CTO技術棧公眾號

91精品福利在线一区二区三区 | 色在线免费观看| 懂色av中文一区二区三区 | 九九视频在线观看| 日韩高清一区| 欧美午夜激情在线| 三级三级久久三级久久18| 中文字幕资源网| 欧美区一区二| 亚洲二区中文字幕| 中文久久久久久| 久久免费电影| 91亚洲精品久久久蜜桃网站 | 成人av影院在线| 国产精品女视频| 久久久国产精品人人片| 欧美禁忌电影| 日韩欧美国产高清| 日韩精品视频一二三| 丰满大乳少妇在线观看网站| 国产欧美日韩久久| 国产精品日韩高清| 亚洲无码久久久久| 国产亚洲精品自拍| 欧美精品情趣视频| 东京热无码av男人的天堂| 国产乱人伦精品一区| 欧美精品一二三| 国产精品97在线| 午夜伦理在线视频| 中文字幕亚洲电影| 日韩和欧美的一区二区| 亚洲av激情无码专区在线播放| 国产精品入口| 欧美精品九九久久| 久久久久亚洲av片无码| 黄页免费在线观看视频| 亚洲欧洲成人在线| 成人午夜电影久久影院| 成人女保姆的销魂服务| 国产真人无遮挡作爱免费视频| 精品成人国产| 久久99国产综合精品女同| 中文字幕求饶的少妇| 综合国产视频| 亚洲久久久久久久久久| 精品一区二区三区四区五区六区| 99tv成人影院| 538prom精品视频线放| 黄色aaa级片| 欧美大片免费| 一本色道亚洲精品aⅴ| 激情深爱综合网| av在线资源| 亚洲18色成人| 欧美精品久久久久久久免费| 少女频道在线观看高清 | 波多野结衣视频一区二区| 亚洲图片你懂的| 中日韩在线视频| 欧洲日本在线| 一色屋精品亚洲香蕉网站| 亚洲高清在线播放| 生活片a∨在线观看| 国产精品二三区| 一本色道久久综合亚洲二区三区| 999在线视频| 中文字幕一区二区三中文字幕| 亚洲巨乳在线观看| 免费**毛片在线| 一区二区成人在线视频| 国产尤物av一区二区三区| 超碰在线网站| 亚洲一区二区欧美激情| 男女猛烈激情xx00免费视频| 久热在线观看视频| 欧美日韩一二三四五区| www黄色av| 最新日韩一区| 欧美一区二区视频在线观看2020| 国产美女视频免费看| 成人av在线播放| 欧美mv日韩mv| 精品一区二区视频在线观看| 亚洲一二av| 日韩av在线不卡| 影音先锋制服丝袜| 欧美一区二区三区另类| 97在线观看免费| 精人妻无码一区二区三区| 免费人成在线不卡| 5566中文字幕一区二区| 日韩电影免费| 国产精品嫩草久久久久| 91黄色在线看| 丝袜美腿一区| 欧美一区三区二区| 国产精品九九九九九| 国产69精品久久久久久久久久| 激情视频极品美女日韩| 91久色porny| 日韩欧美亚洲在线| 伊人222成人综合网| 精品久久久久久久久中文字幕 | 人人澡人人添人人爽一区二区| 亚洲亚洲精品在线观看| 不要播放器的av网站| 国产精品国产亚洲精品| 日韩久久午夜影院| 91久久国产综合| 午夜一区二区三区不卡视频| 久久精视频免费在线久久完整在线看| 久久亚洲AV无码| 日韩国产欧美视频| 欧洲成人免费aa| 一本大道伊人av久久综合| www.性欧美| 免费观看中文字幕| 国模冰冰炮一区二区| 日韩亚洲欧美成人一区| 亚洲欧美va天堂人熟伦| 日韩视频免费| aaa级精品久久久国产片| 国产爆初菊在线观看免费视频网站| 一级中文字幕一区二区| 97超碰人人爽| 波多野结衣一区| 欧美孕妇性xx| 人妻视频一区二区三区| 国产乱码精品一区二区亚洲| 97超碰欧美中文字幕| 中文字幕日韩精品久久| 欧美大片免费观看网址| 日韩av在线免播放器| 男女免费视频网站| 国产一区二区在线看| 日韩欧美国产二区| 黄色成人免费网| 日韩电影第一页| 日本一级淫片色费放| 国产乱子伦视频一区二区三区| 少妇特黄a一区二区三区| 东京一区二区| 亚洲精品视频久久| 亚洲男人的天堂在线视频| 成人免费精品视频| 免费在线黄网站| 高清一区二区| 欧美成在线视频| 国产精品国产av| 国产精品色在线观看| 欧美成年人视频在线观看| 欧美精品一区二区三区中文字幕 | 欧美少妇精品| 日韩电影免费观看中文字幕| 日韩精品一区三区| jvid福利写真一区二区三区| 久久视频这里有精品| 欧美亚视频在线中文字幕免费| 国内精品视频在线| 神马久久久久| 色综合天天综合网天天狠天天| 水蜜桃av无码| 日韩精品一级二级| 亚洲欧洲免费无码| 91精品福利观看| 欧美日本中文字幕| 蜜桃久久一区二区三区| 精品久久久免费| 性少妇bbw张开| 日本欧美韩国一区三区| 99亚洲精品视频| 亚洲日本va午夜在线电影| 国语自产在线不卡| 欧美777四色影视在线| 欧洲国内综合视频| 国产第一页浮力| 成人av在线看| 熟妇人妻无乱码中文字幕真矢织江| 日韩精品2区| 亚洲伊人成综合成人网| 99爱在线观看| 在线观看日韩专区| 午夜精品一区二区三| 欧美日韩中文字幕| 国产视频123区| 国产xxx精品视频大全| 日本网站免费在线观看| 激情黄产视频在线免费观看| 亚洲欧美激情四射在线日| 一级片视频免费| 亚洲午夜日本在线观看| 国产精品高清无码在线观看| 久久精品99国产国产精| 欧美又粗又长又爽做受| 欧美色女视频| 国产嫩草一区二区三区在线观看| 欧美va在线观看| 欧美黑人巨大精品一区二区| 久久这里精品| 欧美不卡123| 毛片在线免费播放| 亚洲一区在线免费观看| 国产18无套直看片| 成人午夜激情影院| 日本黄色福利视频| 亚洲欧美激情诱惑| 成人高清dvd| 欧美色婷婷久久99精品红桃| 91偷拍精品一区二区三区| 午夜欧美巨大性欧美巨大| 九九热99久久久国产盗摄| 黄色国产在线| 亚洲国产精品嫩草影院久久| 亚洲熟妇av乱码在线观看| 精品免费在线观看| 青娱乐国产盛宴| 国产精品免费视频一区| 四虎永久免费影院| 成人免费视频视频| 中文字幕成人免费视频| 久久蜜桃精品| av日韩一区二区三区| 综合天堂av久久久久久久| 日韩高清国产一区在线观看| 西野翔中文久久精品国产| 不卡的av一区| 24小时成人在线视频| 国产成人免费av| 中文字幕在线高清| 欧美精品久久久久久久| 18+激情视频在线| www.欧美免费| av网站无病毒在线| 一本色道久久88综合亚洲精品ⅰ | 国产一级二级三级视频| 国产精品久线观看视频| 午夜精产品一区二区在线观看的| 波多野结衣精品在线| 国产乱淫av麻豆国产免费| 国产在线精品免费| 毛片毛片毛片毛| 久久精品国产第一区二区三区| 日韩欧美黄色大片| 久久精品91| 激情六月丁香婷婷| 视频一区二区国产| 青青草av网站| 久久99久久久欧美国产| 日日干夜夜操s8| 激情五月婷婷综合| 一级黄色大片儿| 国产福利一区在线| 国产在线a视频| 成人一区二区在线观看| 亚洲色图欧美日韩| 91婷婷韩国欧美一区二区| 给我免费观看片在线电影的| av一二三不卡影片| 大又大又粗又硬又爽少妇毛片 | 久久一日本道色综合久久| 超碰网在线观看| 日韩精品91亚洲二区在线观看| 亚洲一二三区av| 激情图区综合网| 国产老头和老头xxxx×| 成人三级伦理片| 成人乱码一区二区三区av| 中文字幕欧美日本乱码一线二线 | 成人6969www免费视频| 亚洲激情一区二区三区| 91超碰成人| 久久久久久久久久网| 久久av一区二区三区| 亚洲第一狼人区| 国产成人综合亚洲网站| 国产美女视频免费观看下载软件| 久久综合九色综合欧美98| 国产一级淫片久久久片a级| 亚洲视频在线一区观看| 日韩成年人视频| 在线日韩一区二区| 国产强伦人妻毛片| 亚洲一区二区3| 制服.丝袜.亚洲.中文.综合懂色| 在线免费观看成人短视频| 一区二区三区亚洲视频| 亚洲大胆人体视频| fc2在线中文字幕| 欧美美女18p| 午夜久久中文| 国产欧美精品久久久| 欧洲大片精品免费永久看nba| 国产一区再线| 成人激情开心网| 无码人妻精品一区二区蜜桃网站| 久久国产福利| 日韩欧美色视频| 久久综合色综合88| 1024手机在线视频| 日本高清不卡aⅴ免费网站| 国产精品玖玖玖| 精品国产99国产精品| 尤物网在线观看| 91av在线播放| 日韩视频在线直播| 天堂社区 天堂综合网 天堂资源最新版| 一区二区三区在线| 超碰影院在线观看| 国产激情一区二区三区四区| av电影网站在线观看| 亚洲r级在线视频| aa视频在线免费观看| 亚洲人成电影在线观看天堂色| a视频在线观看| 国产精品久久久久久久久久三级 | 日本大胆在线观看| 91精品国产综合久久香蕉最新版 | 日韩h在线观看| 国产一二区在线| 国产精品久久不能| 日韩免费电影在线观看| 中文字幕在线中文| 久久精品99国产国产精| 成人激情五月天| 日韩欧美国产骚| 高h放荡受浪受bl| 日韩精品最新网址| 天堂中文а√在线| 国产精国产精品| 亚洲男人都懂第一日本| 男的插女的下面视频| 国产精品一区二区免费不卡| 国产视频123区| 欧美日韩一区在线观看| 国产精品四虎| 日本高清久久天堂| 蜜桃一区二区| 97国产精东麻豆人妻电影| 成人免费视频网站在线观看| 久久久久久久九九九九| 欧美一卡在线观看| 免费av不卡| 成人性生交大片免费看小说| 日韩一区二区在线免费| 欧美成人黄色网址| 亚洲国产精品av| 国产一级片一区二区| 伊人伊成久久人综合网站 | 成人h猎奇视频网站| 日本久久一二三四| 伊人国产在线视频| 最新国产の精品合集bt伙计| 97超碰人人模人人人爽人人爱| 中文字幕亚洲一区二区三区| 本网站久久精品| 亚洲国产成人不卡| 精品一区在线看| 国产男女猛烈无遮挡在线喷水| 欧美精品视频www在线观看| 久热国产在线| 成人91视频| 亚洲一区观看| 精品无人区无码乱码毛片国产| 欧美最猛性xxxxx直播| 在线观看免费高清完整| 国产主播在线一区| 欧美二区视频| 国产亚洲色婷婷久久99精品91| 亚洲国产精品久久人人爱 | 91视频91自| 亚洲精品一区二三区| 色999日韩欧美国产| 九色精品蝌蚪| 2018日日夜夜| 国产欧美精品日韩区二区麻豆天美| 波多野结衣二区三区| 久久韩剧网电视剧| 波多野结衣欧美| 日韩视频在线免费看| 国产精品二三区| 蜜桃在线一区二区| 日韩av男人的天堂| 国产精品久久观看| 91视频在线免费| 日本道免费精品一区二区三区| 久久99精品久久久久久野外| 成人av网站观看| 丝瓜av网站精品一区二区| 紧身裙女教师波多野结衣| 亚洲第一男人av| 欧美成人一二区| 亚洲人成无码网站久久99热国产| 国产亚洲欧美日韩俺去了| 国产美女主播在线观看| 欧美在线中文字幕| 欧美精品1区| 亚洲理论片在线观看| 精品免费国产一区二区三区四区| 三上悠亚一区二区|