精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

高中生用「我的世界」評測SOTA模型!Claude暫時領先,DeepSeek緊隨其后

人工智能 新聞
AI頻頻刷新基準測試紀錄,卻算不清「strawberry」里到底有幾個字母r,在人類看來很簡單的問題卻頻頻出錯。這種反差促使創意測評興起,例如由一名高中生開發的MC-Bench,用Minecraft方塊「競技場」模式評價AI能力。這種新的測評范式,或許更貼合人類對AI直觀、創造性能力的實際期待。

「strawberry中有多少個r」和「在LSAT法學考試中獲得88分」哪個更難?

對于現如今的LMMs來說,通過各種人類「聽著就頭痛,看又看不懂」的基準測試似乎已是家常便飯。

比如DeepSeek-R1發布時在6大基準測試(包含AIME、MMLU、MATH-500等)中超過o1取得領先。

圖片

但是對于人類來說依靠直覺和下意識就能回答的問題,LLM們似乎集體有點「發懵」。

很難理解OpenAI的GPT-4能夠在LSAT考試中獲得第88百分位的成績,但卻無法數清楚「strawberry」中有多少r。

除了復雜的基準測試,另外一種評價模型好壞的方式就是「競技場模式」。

比如可以在Chatbot Arena進行上提問投票,選出面對相同問題時的「最佳模型」。

圖片

但是這種依靠Chat模式的評測依然不太直觀,于是各種各樣的創意評測就誕生了。

創意評測的魅力

圖片

Minecraft Benchmark(或 MC-Bench)像一個競技場,在一對一的挑戰中針對相同提示生成Minecraft作品。

「對決雙方」由用戶投票選擇哪個模型做得更好。

并且只有在投票后才能看到每個Minecraft建筑是由哪個AI制作的。

目前MC-Bench的榜單上,Claude3.7暫時領先,deepseek-r1位列第5,但是考慮到DeepSeek-R1的發布時間,Claude3.7、GPT-4.5和Gemini2.0都相當于是「新一代」的模型了,期待DeepSeek-R2出來后的榜單!

圖片

像MC-Bench這樣的創意評測,優勢非常明顯:普通人也能輕松參與,像「選美」一樣簡單直接。

創造MC-Bench項目的僅僅是一名高中生Adi Singh,在將Minecraft用于AI評測這件事情上,Adi Singh覺得Minecraft的價值不在游戲本身。

而是作為有史以來最暢銷的電子游戲,即使對于沒玩過Minecraft游戲的人來說,仍然可以選擇自己更喜歡的「方塊樣子」。

MC-Bench是合作開發的,除了Adi Singh外,貢獻者還有7位,包括了「提示詞創意官」、技術主管和開發者們。

圖片

并獲得了Anthropic、Google和阿里巴巴等公司的技術支持。

圖片

傳統LLM評測:嚴肅認真但未必管用

傳統的AI基準測試技術被證明不足,主要體現在以下幾個方面:

  • 主場優勢 (Overfitting to benchmarks):傳統的 AI 基準測試往往基于特定類型的任務設計,這些任務對 AI 模型來說相對固定且簡單,這種過擬合就像一名「只會背題」的學生。
  • 測試任務過于狹窄:傳統的測試任務多集中于單一維度的能力評估,如語言理解、邏輯推理、數學計算。
  • 缺乏真實環境與開放性:傳統的基準測試通常使用高度抽象化或理論化的環境,而這些環境往往不能反映現實世界中問題的開放性和不確定性。
  • 難以衡量通用性與泛化能力:傳統 AI 基準測試往往無法有效衡量模型的通用性或泛化能力。

因此AI構建者正在轉向更有創意的方法來評估Gen-AI模型的能力。

AI開發者們表示,我們也想玩點「新鮮的」。

圖片

MC-Bench的本質是在測試AI模型的文本理解和編碼能力。

通過類似Chatbot Arena的方式來進行模型評比。

圖片

對于為何選擇游戲,選擇Minecraft,Adi Singh覺得「游戲可能只是一種測試能動性推理的媒介,比現實生活更安全,也更適合測試目的,因此在我看來更為理想」。

從Adi Singh個人網站來看,他對于使用Minecraft方塊進行AI評測應該是「蓄謀已久」,Adi Singh展示很多利用大模型生成Minecraft方塊的精彩案例。

比如,gpt-4.5根據提示「構建一艘在云層中飛行的蒸汽朋克風格飛艇」。

圖片

再比如,claude-3.7-sonnet有一個令人印象非常深刻的Minecraft模型,根據提示「韓國友誼之鐘」生成。

圖片

并且,社區成員對MC-Bench的評價也很高。

圖片

比如目前就職于OpenAI的基礎研究員Aidan McLaughlin,對Minecraft Bench給予了很高的評價:你應該密切關注MC-Bench!

Aidan McLaughlin同時給出了他認為最佳的人工智能基準應具有: 

  • 審計數據的樂趣 (與其他所有基準測試都不同) 
  • 測試真正關心的功能 (代碼、美學、意識) 
  • 甚至可以辨別頂級型號之間的性能差異

圖片

游戲測評AI似乎依然是「主流創意」

在Claude 3.7 Sonnet發布時說過,模型降低了在數學、競賽和編程方面的特化程度,有「更好」的思考能力。

那么如何評測新模型的「思考」能力呢?

答案就是游戲《寶可夢》,這不是開玩笑。

Claude通過配備了透過程序來操控游戲的特定「按鈕」。

甚至還在Twitch上直播了Claude玩游戲的全過程,可以看到它如何學習、思考并采取行動。

圖片

不論是傳統的基準測試,還是類似MC-Bench的創意測試。

對于生成式AI的能力評測,目前依然沒有一個「一勞永逸」的標準。

傳統基準測試的評估結果多采用單一的客觀分數(如準確率),忽視了人類實際感受和主觀評價的維度。

在生成式AI中,美學感知、創造力、直觀性往往更加重要,但這些因素很難在傳統的標準化測試中體現出來。

也許類似MC-Bench這樣的創意評測會給未來的AI評測帶來新的「范式」。

而新的AI評測「范式」也許會加速推動AI的發展。

責任編輯:張燕妮 來源: 新智元
相關推薦

2019-07-04 15:57:16

數據安全互聯網

2009-09-29 17:42:56

2010-03-31 10:11:08

多核

2024-08-19 08:45:00

開源模型

2009-05-20 09:02:53

IT職業培訓就業高中生

2020-12-09 13:59:15

神經網絡AI算法

2025-03-21 13:05:18

模型評測基準

2023-06-20 18:33:00

DOM框架React

2011-04-19 09:40:31

2020-10-11 20:40:58

編程語言PythonJava

2025-06-09 15:26:53

ChatGPTGPT-4o4o-mini

2009-04-14 15:30:25

2009-08-10 17:08:52

計算機專業就業IT培訓

2025-03-07 12:04:07

2024-09-29 13:24:41

2021-03-24 10:15:18

人工智能機器學習技術

2010-01-29 10:24:17

2015-10-20 17:40:42

2021-01-14 16:25:18

iPhone 7服務器開發者
點贊
收藏

51CTO技術棧公眾號

婷婷亚洲婷婷综合色香五月| 欧美一性一乱一交一视频| 亚洲一二区在线观看| 亚洲国产精品精华素| 国产成人8x视频一区二区| 欧美孕妇与黑人孕交| 欧美性生给视频| 欧美激情15p| 欧美精品日韩一区| 欧美国产亚洲一区| 精品51国产黑色丝袜高跟鞋| 99v久久综合狠狠综合久久| 国产免费一区二区三区在线观看 | 人妻激情偷乱视频一区二区三区| av在线播放资源| 亚洲欧洲日韩一区二区三区| 激情欧美一区二区三区中文字幕| 亚洲视频久久久| 在线亚洲自拍| 久久91精品国产91久久久| 国产人妻大战黑人20p| 6080亚洲理论片在线观看| 91福利区一区二区三区| 日本aa在线观看| 超碰国产在线| 91美女蜜桃在线| 97久久人人超碰caoprom欧美| 小泽玛利亚一区二区三区视频| 亚洲国产第一| 欧美日韩福利在线观看| 亚洲欧美日韩第一页| 色天下一区二区三区| 精品日韩欧美在线| 亚洲综合123| 国产精品蜜月aⅴ在线| 色婷婷久久综合| 国产精品久久中文字幕| 女人天堂av在线播放| 综合久久久久久| 一区二区不卡在线观看| 第一页在线观看| 国产日韩亚洲欧美综合| 欧美精品中文字幕一区二区| 隣の若妻さん波多野结衣| 国模无码大尺度一区二区三区| 国产精品夜间视频香蕉| 欧美性受xxx黑人xyx性爽| 日韩av中文在线观看| 国产97在线|亚洲| 中文字幕一区在线播放| 西西人体一区二区| 51久久精品夜色国产麻豆| 日韩三级视频在线播放| 亚洲国产专区| 9.1国产丝袜在线观看| 亚洲视频免费播放| 亚洲久久一区二区| 81精品国产乱码久久久久久| 国产69精品久久久久久久久久| 亚洲激情女人| 2019中文字幕在线观看| 国产又黄又粗又爽| 日韩成人免费在线| 国产中文字幕亚洲| av免费在线不卡| 成人精品免费网站| 久久国产精品 国产精品| 青青青免费视频在线2| 国产日韩欧美亚洲| 最近看过的日韩成人| 成a人片在线观看| 亚洲一区二区三区四区在线免费观看 | 国产精品视频一区二区三区经| 国精产品乱码一区一区三区四区| 99r国产精品| 日韩一区二区三区资源| 91高清在线视频| 一区在线播放视频| 日韩一级性生活片| 日韩成人av电影| 欧美精品亚洲二区| 污片免费在线观看| 欧美日韩在线二区| 欧美激情视频在线免费观看 欧美视频免费一| www.色小姐com| 亚洲免费中文| 91久久国产婷婷一区二区| 国产极品999| 久久久精品国产99久久精品芒果| 伊人狠狠色丁香综合尤物| 日韩av毛片| 在线观看免费亚洲| 古装做爰无遮挡三级聊斋艳谭| 欧美久久香蕉| 日韩在线中文视频| www日韩精品| 久久er99精品| 久久久久se| 激情影院在线观看| 欧美视频免费在线| 午夜免费一级片| 蜜桃国内精品久久久久软件9| 日韩性生活视频| 日产欧产va高清| 国产在线精品一区二区三区不卡| 精品伊人久久大线蕉色首页| 国产色在线观看| 在线视频国内自拍亚洲视频| 精品国产乱码久久久久夜深人妻| av一区二区在线观看| 久久久久久高潮国产精品视| 亚洲午夜激情视频| 97精品视频在线观看自产线路二| 波多野结衣三级在线| 人在线成免费视频| 欧美成人福利视频| 国产三级精品三级观看| 快she精品国产999| 精品一卡二卡三卡四卡日本乱码 | 婷婷亚洲综合| 日韩av三级在线观看| 亚洲精品福利网站| 中文字幕人成不卡一区| 国产天堂在线播放| 免费电影一区二区三区| 国a精品视频大全| av网站免费大全| 亚洲欧洲日韩一区二区三区| 538任你躁在线精品免费| 一区二区三区视频免费观看| 久久久久久午夜| 欧美性猛交xxxxxx富婆| www.中文字幕av| 9国产精品视频| 黄色99视频| 国产高清视频色在线www| 欧美大片拔萝卜| 久久久无码精品亚洲国产| 国产一区高清在线| 在线看无码的免费网站| yy6080久久伦理一区二区| 国产一区二区三区丝袜| 国产一级片av| 日本一区二区三区国色天香| 少妇激情一区二区三区| 精品国产乱码久久久| 国产国产精品人在线视| 九色视频在线观看免费播放| 色欧美88888久久久久久影院| 天堂久久久久久| 亚洲综合社区| 欧洲av一区| 高清av一区| 日韩少妇与小伙激情| 国产精品嫩草影院桃色| 亚洲一区在线免费观看| 国产白袜脚足j棉袜在线观看 | 亚洲人成精品久久久久久| 999久久久精品视频| 亚洲中无吗在线| 成人免费91在线看| 超碰资源在线| 亚洲人午夜精品免费| 在线不卡免费视频| 亚洲日本在线a| 韩国av中国字幕| 国产深夜精品| 天堂av一区二区| 免费欧美网站| 538国产精品一区二区免费视频| 日韩私人影院| 欧美群妇大交群中文字幕| 91久久国产综合| 成人黄色一级视频| 动漫av免费观看| 欧美1区3d| 狠狠久久综合婷婷不卡| 成人黄色免费观看| 欧美老女人性视频| 九色在线播放| 欧美一级生活片| 亚洲熟女综合色一区二区三区| 欧美激情自拍偷拍| 午夜视频在线免费看| 免费在线日韩av| 欧美精品一区二区性色a+v| 国产精品久久久网站| 国产精品wwww| av伦理在线| 日韩中文字幕在线观看| 色哟哟国产精品色哟哟| 欧美日韩国产一区二区三区地区| 久久国产在线视频| 国产欧美一区二区精品性色 | 久久一夜天堂av一区二区三区| 性生活免费在线观看| 一区视频在线看| 亚洲综合视频一区| 日本韩国欧美超级黄在线观看| 91精品国产自产在线观看永久| 2021中文字幕在线| 久久久国产精品亚洲一区| 深夜福利在线观看直播| 欧美一区二区网站| 日批视频免费观看| 欧美日韩日本国产| 黄色在线观看免费| 国产精品国产三级国产普通话99| 中文字幕一区三区久久女搜查官| 黄色精品一二区| 别急慢慢来1978如如2| 99在线精品免费视频九九视| 一级黄色片播放| 奇米影视亚洲| 欧美日韩日本网| 91精品视频一区二区| 一区二区三区高清在线| 中文字幕一二三四区| 国产91对白在线观看九色| 免费看黄色一级大片| 亚洲韩日在线| 欧美美女黄色网| 国产精品久久占久久| 欧洲亚洲一区| 亚洲第一二三区| 国产精品免费一区二区| 国产日韩在线观看视频| 国产精品视频白浆免费视频| 亚洲优女在线| 91精品国产高清自在线看超| 丁香花在线电影| 久久91亚洲人成电影网站| 麻豆传媒视频在线观看| 日韩亚洲欧美中文高清在线| 91ph在线| 色偷偷av一区二区三区| 国产高清视频在线观看| 亚洲少妇中文在线| 久久免费看视频| 色婷婷综合网| 高清av免费一区中文字幕| 成人午夜888| 91久久精品美女| 韩国一区二区三区视频| 亚洲淫片在线视频| 精品一区二区三区中文字幕视频 | 成人黄色免费网站| 国产成人精品免费视频| 香蕉成人av| 国产精品福利在线| 日韩精品第二页| 147欧美人体大胆444| 中文字幕日韩在线| 激情小说网站亚洲综合网| 婷婷国产精品| 色综合视频二区偷拍在线| 欧美国产美女| 三级在线免费观看| 亚洲高清激情| 九色在线视频观看| 奇米888四色在线精品| 亚洲一区二区三区观看| 国产麻豆91精品| 中文字幕精品视频在线| 97久久超碰国产精品| 无码人妻丰满熟妇啪啪欧美| 国产精品久久久久久久久久免费看| 激情五月激情综合| 亚洲图片有声小说| 亚洲图片在线视频| 91.com视频| 午夜av免费观看| 中文字幕久久久av一区| 1stkiss在线漫画| 69精品小视频| 97久久精品一区二区三区的观看方式| 97神马电影| 亚洲国产最新| 国产精品亚洲天堂| 亚洲日本免费| 亚洲 欧美 另类人妖| 国产成人一区在线| a级片在线观看| 亚洲欧美日韩综合aⅴ视频| 国产女同在线观看| 欧美日韩中文字幕一区| 欧美视频xxx| 丝袜亚洲欧美日韩综合| 丁香花视频在线观看| 国产精品欧美风情| 国产精品色在线网站| 亚洲午夜精品一区二区| 在线日韩av| 三上悠亚在线一区| 91亚洲精品久久久蜜桃网站| 日本伦理一区二区三区| 精品久久久久久久久久久| 一区二区美女视频| 精品亚洲国产视频| av中文字幕在线观看| 国产高清视频一区三区| av综合网站| 正在播放一区二区三区| 久久亚洲风情| 无码人妻精品一区二区三区99不卡| 国产欧美日韩另类视频免费观看| 免费中文字幕视频| 欧美日本乱大交xxxxx| 日本一二三区在线视频| 欧美国产日韩一区| 成人综合网站| 日本日本精品二区免费| 亚洲精品四区| 中文字幕在线视频一区二区| 日本一区二区三区免费乱视频| 97免费在线观看视频| 91精品国产综合久久久久| 浮生影视网在线观看免费| 91精品国产91久久久久福利| 韩国三级大全久久网站| 综合视频在线观看| 久久精品国产免费| 国产伦精品一区二区三区视频女| 欧美日韩免费一区| 国产成人无码www免费视频播放| 精品国产一区二区三区在线观看 | 91jq激情在线观看| 91精品在线看| 欧美3p在线观看| 狠狠躁狠狠躁视频专区| 久久九九国产精品| 五月婷婷亚洲综合| 精品无码久久久久久国产| 久草在线视频资源| 国产富婆一区二区三区| 欧美福利影院| 宇都宫紫苑在线播放| 亚洲精品亚洲人成人网在线播放| 成人黄色片在线观看| 亚洲香蕉成人av网站在线观看| 成人软件在线观看| 日本一区二区精品视频| 久久一区激情| 懂色av蜜桃av| 欧洲精品一区二区| 香蕉视频网站在线观看| 91久久精品国产91久久性色| 国产精品88久久久久久| 伊人精品视频在线观看| 亚洲老妇xxxxxx| 性欧美一区二区三区| 久久久久亚洲精品成人网小说| 亚洲91网站| 国产极品尤物在线| 91视频精品在这里| 久久人人爽人人爽人人片av免费| 在线看片第一页欧美| 看片一区二区| 色哺乳xxxxhd奶水米仓惠香| 国产1区2区3区精品美女| av资源吧首页| 亚洲欧美国产高清va在线播| 欧美aaa视频| 一级特黄录像免费播放全99| 国产精品正在播放| 日本少妇久久久| 亚洲色图色老头| 天天综合在线观看| 日韩成人三级视频| 91丨porny丨中文| 在线观看免费视频a| 欧美成人精品在线视频| 老司机成人在线| 天天干天天综合| 亚洲最大成人网4388xx| 天堂v视频永久在线播放| 国产精品久久国产精品99gif| 久久久国产精品| 亚洲 欧美 日韩在线| 在线观看视频一区| av片哪里在线观看| 久久久久久国产精品一区| 免费视频一区二区| 久久精品99国产精| 在线观看欧美日韩| 国产suv精品一区| 不卡的av中文字幕| 亚洲成年人网站在线观看| h网站在线免费观看| 福利视频一区二区三区| 青青草国产精品97视觉盛宴| 青草草在线视频| 中文日韩在线视频| 国产精品丝袜在线播放| 污污的视频免费| 欧美日韩精品二区| 国产三区视频在线观看| 欧美日韩一区在线播放| 国产激情一区二区三区| 在线免费观看av片|