精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Llama 4遭競技場背刺!實錘用特供版刷榜,2000+對戰記錄公開

人工智能
Meta對我們平臺政策的理解與我們對模型提供商的期待存在偏差——Meta本應明確標注"Llama-4-Maverick-03-26-Experimental"是經過人類偏好優化的定制模型。

Llama 4真要被錘爆了,這次是大模型競技場(Chatbot Arena)官方親自下場開懟:

競技場上,Meta提供給他們的是特供版!

以下是競技場背后lmarena.ai團隊的原話:

我們注意到社區對Llama-4最新版本在Arena平臺的發布存在疑問。為確保完全透明,現公開2000余組模型對戰數據供公眾審閱,包含用戶提示詞、模型回復及用戶偏好數據(鏈接詳見下一條推文)。

初步分析表明,模型回復風格與語氣是重要影響因素(詳見風格控制排名),我們正在進行更深入的分析!(比如表情符號控制?)

此外,我們即將在Arena平臺上線Llama-4-Maverick的HuggingFace版本,排行榜結果將稍后公布

Meta對我們平臺政策的理解與我們對模型提供商的期待存在偏差——Meta本應明確標注"Llama-4-Maverick-03-26-Experimental"是經過人類偏好優化的定制模型

為此,我們正在更新排行榜政策,以強化對公平性、可復現性評估的承諾,避免未來再出現此類混淆。

總結一下就是:

  • 公開對戰數據,正分析排名受影響因素
  • 譴責Meta未明確標注模型版本導致評測混淆
  • 后續:上線Llama-4-Maverick的HuggingFace版、更新排行榜政策

官方下場表態后,Llama 4和Meta的路人緣進一步下降。

圖片圖片

2000+輪對戰記錄完整公開

來看看lmarena.ai公開的模型對戰記錄詳情。

圖片圖片

首先來看網友實測時對Llama 4抱怨較大的代碼生成任務。

競技場中Llama-4-Maverick-03-26-Experimental版本生成代碼的表現的確是OK的。

prompt:

create me fun web based game that i can just run the code and works(幫我創建一個有趣的網頁游戲,我只需運行代碼就能玩)

圖片圖片

Llama-4-Maverick-03-26-Experimental對戰加拿大AI初創公司Cohere的command-a-03-2025

上文lmarena.ai調查表示“模型回復風格與語氣是重要影響因素”,從對戰數據中的確可以看出Llama-4-Maverick-03-26-Experimental的回復中會增加如"A very nice and very direct request!" "That’s it!  ""Happy gaming!"等展示友好的語句以及表情包。

圖片圖片

運行兩個模型生成的代碼。

command-a-03-2025生成的小游戲是移動鼠標控制綠色籃子接住橙色小球,看效果顯然有bug,小球直接穿過籃子,分數也沒有變動:

圖片圖片

Llama-4-Maverick-03-26-Experimental生成的小游戲玩法是移動鼠標控制紅色方塊,點擊四處移動的藍色圓點+10分,點擊黑色炸彈-10分,每局游戲30秒。

可以正常運行,計分也比較準確:

圖片圖片

這局command-a-03-2025輸的不冤。

另外,之所以展示Llama-4-Maverick-03-26-Experimental和command-a-03-2025的對比,是因為有網友發現Llama 4聲稱的關鍵創新“interleaved no-RoPE attention”和command-a的如出一轍:

圖片圖片

再看一個起標題的任務,prompt:

I will give a congress talk “On Naevi” — naevi are benign melanocytic lesions which are markers and every so often also precursors of melanoma. Do you have suggestions for a short and succinct title for my presentation(我將在一個學術會議上作關于“痣”的演講——痣是黑素細胞良性病變,可作為黑色素瘤的標志物,有時甚至是其前驅病變。您能否為我的演講推薦一個簡潔有力的標題?)

Llama-4-Maverick-03-26-Experimental對戰的是claude-3-5-sonnet-20241022。

對比來看,claude-3-5-sonnet-20241022的回復言簡意賅,直接給出5個標題:

圖片圖片

Llama-4-Maverick-03-26-Experimental的回復更為詳細。

不僅會提供情緒價值,如A very timely and relevant topic!  Congrats on getting the slot at congress, by the way!(選題非常應景且切合實際!恭喜拿下大會報告機會),而且從不同角度分別提供了幾個標題:

圖片圖片

這還沒完,Llama-4-Maverick-03-26-Experimental還會貼心地指出選擇標題時需要考慮的因素以及它自己選擇的top 3標題。

圖片圖片

最后再來隨機看一道中文題目:

prompt:

解析一下這部微小說 題目 自駕游 當年我自駕游 不小心壓死了一頭羊 羊的主人好熱情 宰了羊給我們吃 還送我們到火車站 在回來的路上 看著火車外的風景 真的好感人

圖片圖片

對戰o3-mini,Llama-4-Maverick-03-26-Experimental再次展現出超長輸出的特點,故事分析完了還拆解了作者為啥要這樣設計,作者本人可能都沒想這么多(doge):

圖片圖片

對戰數據看下來,Llama-4-Maverick-03-26-Experimental的排名會這么高,也不奇怪。

此前網友質疑Llama-4-Maverick-03-26-Experimental刷票的可能性降低。

圖片圖片

Llama 4深陷“造假”丑聞

如開頭所述,Llama 4被lmarena.ai站出來抨擊的原因,是因為測試排名和實際表現不符。

在大模型競技場中,Llama 4得分1417,不僅大大超越了此前Meta自家的Llama-3-405B(提升了149分),還成為史上第4個突破1400分的模型。

而且跑分超越了DeepSeek-V3,直接成為榜單上排名第一的開源模型。

圖片圖片

但沒過多久,人們就發現Llama 4的實際表現相當拉胯,一時間差評如潮,甚至還被做成了表情包。

圖片圖片

比如經典“氛圍編程”小球反彈測試,小球直接穿過墻壁掉了下去。

圖片圖片

其它跑分方面,到了各種第三方基準測試中,情況也大多直接逆轉,排名掉到了末尾。

圖片圖片

并且從Meta GenAI負責人Ahmad Al-Dahle的推文當中也能看懂,競技場中的Llama 4,確實是一個特殊版本。

圖片圖片

而在最新的推文中,Ahmad表示Llama 4絕對沒有使用測試集進行訓練,表現存在差異的原因是還需要穩定的部署。

圖片圖片

對于這一解釋,有人并不買賬,直言這種現象在其他模型當中從未見過。

圖片圖片

Meta的支持者則表示,希望表現不佳真的是供應商的問題所致。

圖片圖片

大模型競技場,還能信嗎?

被卷入這次旋渦的不僅是Llama 4和背后的Meta,涉及到的大模型競技場也引起了人們的廣泛討論。

畢竟Llama 4的“造假”風波就是發生在競技場上,所以也自然有人質疑起了榜單的權威性。

有人指出,競技場的偏差不只體現在Llama 4被高估上,還有Claude 3.7的表現被低估了。

圖片圖片

當然,官方快速回應并公開了測試中的細節,這個做法獲得了網友的肯定,說明至少在態度和透明度上是說得過去的。

圖片圖片

但也有人認為,無論官方態度端不端正,Llama 4事件說明這種“人類評價AI”的方法,本身已經不適用了。

人們日常生活中的問題,幾乎所有領先模型都能完美解答,誰還會去認真投票,這個基準已經過時了。

圖片圖片

有人補充說,“人類偏好”不是評價高級大模型能力的可靠標準,產生較大偏差是正常的。

圖片圖片

還有人表示,從官方發布的消息來看,lmarena.ai自己都不清楚自己的基準。

這名網友解釋,特調版Llama 4獲得用戶投票的原因并非lmarena.ai所說的“表情符號”,而是因為更具親和力。

圖片圖片

當然也有人提了些建設性的意見,比如更改ELO評分的算法,或者啟用強制風格轉換。

圖片圖片

但總之,無論是迭代改進還是另辟蹊徑,都是時候更新對大模型的評價方式了。

參考鏈接:[1]https://x.com/lmarena_ai/status/1909397817434816562

[2]https://x.com/Ahmad_Al_Dahle/status/1909302532306092107

[3]https://huggingface.co/spaces/lmarena-ai/Llama-4-Maverick-03-26-Experimental_battles

責任編輯:武曉燕 來源: 量子位
相關推薦

2025-04-08 08:50:00

AI模型測試

2012-05-31 14:20:14

2025-07-11 08:41:21

2024-11-19 14:40:00

AI技術

2025-04-14 09:06:00

2025-05-06 01:45:00

大模型Llama4版本

2025-06-06 14:23:48

谷歌模型AI

2025-04-07 09:35:00

Meta模型開源

2013-09-12 11:17:02

2025-02-17 12:24:43

2024-07-29 15:37:17

AI訓練

2021-02-18 23:31:42

Starlink通信擴張

2024-05-31 14:23:15

2025-04-15 08:00:00

LMArenaLlama 4大模型

2024-11-21 12:09:26

2024-04-22 08:40:00

LLM模型開源

2014-10-31 15:43:02

華為智慧

2025-02-18 15:09:07

2022-04-12 18:35:03

元宇宙

2013-03-22 14:08:14

智能手表IT巨頭競技場
點贊
收藏

51CTO技術棧公眾號

青青影院一区二区三区四区| 中文精品99久久国产香蕉| 欧美乱做爰xxxⅹ久久久| 性猛交富婆╳xxx乱大交天津| 影音先锋久久久| 亚洲欧洲中文天堂| 日本一二三区在线| 亚洲精品一区| 亚洲视频在线观看三级| 国产一区高清视频| 中文字幕理论片| 亚洲午夜一级| 中文在线不卡视频| 久久久久久久穴| 黄页免费欧美| 精品电影在线观看| 久久久国产精华液999999| 人妻无码中文字幕| 精品一区二区在线看| 91爱视频在线| 中文字幕人妻一区二| 美腿丝袜亚洲图片| 欧美久久久久中文字幕| 日韩avxxx| 色www永久免费视频首页在线 | 黄色精品在线看| 亚洲一区高清| 噜噜噜在线观看播放视频| 国产精品一二三在| 国产精品视频久久久久| 亚洲免费在线观看av| 国内视频精品| 久久夜色精品国产| 日韩电影免费看| 尤物tv在线精品| 91精品国产色综合久久不卡电影| 久久久亚洲国产精品| 麻豆传媒视频在线观看免费| 国产日产欧美一区二区视频| 精品一区二区国产| 精品久久久久久中文字幕动漫 | 欧美激情五月| 色吧影院999| 久久精品无码一区| 日日狠狠久久偷偷综合色| 精品奇米国产一区二区三区| 中文字幕12页| 青草综合视频| 欧美日韩午夜在线| 自拍偷拍21p| 天然素人一区二区视频| 一本久久精品一区二区| 可以看毛片的网址| 波多野在线观看| 亚洲国产欧美日韩另类综合 | 欧美尤物美女在线| 亚洲国产精品传媒在线观看| 日韩一区二区电影在线观看| 黄色片视频在线观看| 久久久久久**毛片大全| 欧美一级二级三级九九九| 日韩欧美电影在线观看| 久久亚洲捆绑美女| 欧美一区二区三区四区夜夜大片 | 亚洲av无码不卡| 日韩在线一区二区| 国产精品免费网站| 91国在线视频| 国产美女精品在线| 成人一区二区在线| 亚洲 精品 综合 精品 自拍| 久久亚洲二区三区| 四虎影院一区二区三区| 精精国产xxxx视频在线| 一区二区三区成人在线视频| 免费无码毛片一区二三区| 天堂av在线网| 91成人免费电影| 国产成人在线综合| 粉嫩的18在线观看极品精品| 日韩av在线免费看| 亚洲女优在线观看| 亚洲人体av| 韩剧1988免费观看全集| 久草视频一区二区| 国产中文字幕精品| 国产日韩二区| 国产片在线观看| 亚洲精品日产精品乱码不卡| 毛片在线视频播放| 免费污视频在线一区| 日韩欧美在线观看一区二区三区| 精品无码人妻少妇久久久久久| 日韩大尺度在线观看| 色琪琪综合男人的天堂aⅴ视频| 国产日韩欧美在线观看视频| 亚洲毛片网站| 国产免费久久av| 蜜桃久久一区二区三区| 国产免费观看久久| 久久在线中文字幕| 久久91超碰青草在哪里看| 日韩一区二区视频| 国产熟妇久久777777| 一区二区三区中文| 日韩免费精品视频| 亚洲奶汁xxxx哺乳期| 久久夜色精品国产噜噜av| 老司机午夜免费福利视频| 日韩毛片免费观看| 亚洲精品在线观看视频| 欧美一区二区三区粗大| 国产综合网站| 国产精品视频自在线| 天天干视频在线| 亚洲欧美二区三区| 国产第一页视频| 视频一区在线| 最新91在线视频| 国产一级片毛片| 成人国产在线观看| 日本三级中文字幕在线观看| 国产一区二区主播在线| 欧美精品一区二区三区在线| 天海翼在线视频| 日韩成人免费在线| 免费av在线一区二区| 黄网站在线观| 欧美一卡二卡在线| 99久久99久久精品免费看小说. | 性欧美激情精品| 国产视频在线观看免费| 国产欧美日韩精品a在线观看| 男人的天堂狠狠干| 日韩欧美激情电影| 久久最新资源网| 夜夜嗨aⅴ一区二区三区| 国产午夜精品理论片a级大结局 | 激情黄产视频在线免费观看| 日韩女优av电影| 天天鲁一鲁摸一摸爽一爽| 免费在线观看精品| 色一情一乱一伦一区二区三区| 精精国产xxxx视频在线播放| 亚洲第一区在线观看| 久久久精品国产sm调教网站| 国产精品中文字幕一区二区三区| 一区二区av| 黄色成人在线观看网站| 日韩在线视频观看| 一级黄色片在线播放| 国产精品美日韩| 91制片厂毛片| 婷婷亚洲综合| 亚洲影院色在线观看免费| 黄色av电影在线观看| 777奇米四色成人影色区| 午夜爽爽爽男女免费观看| 九色|91porny| 日本天堂免费a| 大奶在线精品| 77777亚洲午夜久久多人| 色欲av伊人久久大香线蕉影院| 亚州成人在线电影| av网站免费在线播放| 久久午夜精品一区二区| 日韩精品资源| 亚洲我射av| 久久91亚洲精品中文字幕| 黄色av中文字幕| 欧美丝袜美女中出在线| 综合 欧美 亚洲日本| 精品午夜久久福利影院| 成人av在线播放观看| 美日韩黄色大片| 国产精品福利在线观看| 顶级网黄在线播放| 精品999在线播放| 999视频在线| 亚洲天堂av老司机| 2一3sex性hd| 日韩—二三区免费观看av| 最新av在线免费观看| 成人动态视频| 国产精品福利片| 免费av不卡在线观看| 亚洲欧美激情一区| 国产乱人乱偷精品视频a人人澡| 亚洲一区二区欧美激情| 亚洲a v网站| 国产一区二区三区黄视频| 日本中文字幕亚洲| 久久亚洲成人| 精品无人区一区二区三区竹菊| 91福利精品在线观看| 欧美日韩不卡合集视频| 国产系列电影在线播放网址| 欧美一区二区日韩一区二区| 日韩不卡视频在线| 亚洲人妖av一区二区| 超碰97在线资源站| 国产一区在线看| 人妻内射一区二区在线视频| 欧美黄在线观看| 日本公妇乱淫免费视频一区三区| 日韩欧美中文字幕一区二区三区| 欧美自拍视频在线| 日韩123区| 上原亚衣av一区二区三区| 日韩一级片免费观看| 欧美夫妻性生活| 国产精品久久久久久人| 亚洲午夜精品一区二区三区他趣| 91社区视频在线观看| 99国产欧美另类久久久精品| 樱花草www在线| 日韩和欧美一区二区| 欧美日韩不卡在线视频| 亚洲色图88| 一区二区三区欧美成人| 国内亚洲精品| 久久精品国产第一区二区三区最新章节 | 深夜福利视频网站| 日韩一区和二区| 亚洲 小说区 图片区| 欧美网站在线观看| 色播视频在线播放| 亚洲最新视频在线观看| 97在线观看免费高| 中文一区二区在线观看| 中文字幕一区二区人妻在线不卡| 成人午夜在线免费| 白丝校花扒腿让我c| 国产美女精品一区二区三区| 日日躁夜夜躁aaaabbbb| 久久精品30| 男人添女人下面高潮视频| 在线日本成人| 丁香六月激情婷婷| 精品96久久久久久中文字幕无| 777久久精品一区二区三区无码 | 国产 日韩 亚洲 欧美| 亚洲精品少妇| 午夜免费福利小电影| 亚洲精品黄色| jizzjizz国产精品喷水| 国产日韩欧美一区| 亚洲乱码中文字幕久久孕妇黑人| 亚洲黄色精品| 欧美亚洲日本一区二区三区| aa国产精品| 99色精品视频| 日韩精品一卡二卡三卡四卡无卡| 国产黄色特级片| 青青草伊人久久| av中文字幕网址| 极品少妇一区二区| 欧美高清精品一区二区| 国产成人精品免费网站| youjizz.com日本| 99精品久久免费看蜜臀剧情介绍 | 国产午夜亚洲精品不卡| www色com| 亚洲人成精品久久久久久| 欧洲猛交xxxx乱大交3| 亚洲国产一二三| 国产成人亚洲精品自产在线| 欧美日韩中文字幕在线视频| 激情视频网站在线观看| 欧美人动与zoxxxx乱| 国产特级黄色片| 亚洲福利视频网| 国内三级在线观看| 久久精品国产视频| 国产盗摄精品一区二区酒店| 日本aⅴ大伊香蕉精品视频| a成人v在线| av在线不卡观看| 亚洲bt欧美bt精品777| 亚洲狠狠婷婷综合久久久| 欧美激情第二页| 18禁男女爽爽爽午夜网站免费 | 亚洲熟女乱综合一区二区| av中文字幕一区| 日韩精品电影一区二区三区| 亚洲免费观看高清完整版在线观看 | 搡老岳熟女国产熟妇| 亚洲色图五月天| 中文在线观看免费| 日本高清不卡的在线| 精品一区二区三区视频在线播放| 激情视频一区二区| 久久国产精品亚洲人一区二区三区 | 亚洲香蕉网站| 国产超碰在线播放| 国产传媒日韩欧美成人| 日本少妇高潮喷水xxxxxxx| 亚洲欧美日韩精品久久久久| 黄色在线免费观看| 日韩一区二区三区在线| 国产免费视频在线| 国模精品系列视频| av日韩久久| 欧美日韩一区在线播放| 国产精品啊啊啊| 8x8x最新地址| 91丨九色丨国产丨porny| 丁香花五月激情| 欧美在线观看视频在线| 色香蕉在线视频| 欧美巨乳美女视频| 青草综合视频| 天堂社区 天堂综合网 天堂资源最新版| 欧美日韩亚洲一区在线观看| 天天干天天综合| 2欧美一区二区三区在线观看视频| 日韩女优一区二区| 精品视频全国免费看| 免费a级毛片在线观看| 高清欧美一区二区三区| 国产不卡精品| 在线视频91| 免费精品视频在线| 亚洲a v网站| 色哟哟一区二区在线观看| 四虎永久在线精品免费网址| 欧美日韩国产91| 亚洲一区二区av| 亚洲精品一区二区三区樱花| 久久精品91| 这里只有久久精品| 色综合一区二区| 欧洲亚洲在线| 欧美一级电影久久| 男人的天堂久久| 黄色一级片播放| 91在线观看视频| 亚洲男人第一av| 日韩h在线观看| 免费在线小视频| 精品久久久久久综合日本| 亚洲黄色毛片| 亚洲第九十七页| 精品欧美aⅴ在线网站| 午夜av免费在线观看| 4388成人网| 亚洲资源网你懂的| 男女啪啪网站视频| 中文字幕国产一区| 91亚洲视频在线观看| 久久伊人精品天天| 日韩欧美另类中文字幕| 日韩精品在线中文字幕| 波多野结衣亚洲一区| 91视频免费网址| 国产一区二区三区丝袜| 激情久久一区二区| 亚洲色图国产| 2022国产精品| 亚洲精品一区二区在线看| 在线观看视频在线观看| 亚洲已满18点击进入久久| 亚洲黄色a级片| 亚洲18私人小影院| 色综合中文网| 奇米视频7777| 亚洲专区一二三| 色窝窝无码一区二区三区| 青青在线视频一区二区三区| av一区二区高清| 午夜一级免费视频| 亚洲一区二区三区激情| 天堂中文字幕在线| 国产精品久久av| 综合一区av| 中文字幕丰满孑伦无码专区| 欧美日韩另类一区| 亚洲丝袜一区| 免费亚洲精品视频| 久久超碰97人人做人人爱| 精品肉丝脚一区二区三区| 亚洲精品在线观看www| 日韩免费在线电影| 欧美日韩福利在线| yw.尤物在线精品视频| 日韩av在线电影网| 成人看片在线观看| 五月天在线免费视频| 99r国产精品| 一级做a爱片性色毛片| 国模吧一区二区三区| 欧美日韩有码| 麻豆tv在线观看| 欧美系列日韩一区| 国产美女情趣调教h一区二区| 日韩成人av网站| 成人一区在线看| 在线视频免费观看一区| 91精品国产电影| 亚洲网色网站|