精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-4o舉步維艱、Claude 3.7險勝,《超級馬里奧》成為了檢驗大模型的新試金石?

人工智能 新聞
最近,加州的一家實驗室 Hao labs 推出了「GamingAgent」項目,這是一項測試 AI 性能的新方法,專為實時動作游戲而構建。

一直以來,AI 領域的研究者都喜歡讓模型去挑戰那些人類熱衷的經典游戲,以此來檢驗 AI 的「智能程度」。

例如,在 Atari 游戲、圍棋(如 AlphaGo)或《星際爭霸》等環境中,游戲規則明確,邊界清晰,研究者可以精確控制變量(如難度、初始狀態、隨機性等),確保實驗的可重復性。而 AlphaGo 的勝利能直接證明其策略能力,是因為游戲的勝負、得分或任務完成度也天然提供了直觀的評估標準(如勝率、通關時間、得分高低),無需設計復雜的評價指標。

此前,有開發者用 AI 挑戰過經典之作《神奇寶貝》。這個游戲的畫風雖然簡單,但是身為策略游戲,其中包含的角色、屬性、戰術、體系等,都讓人類玩家感到「入門容易精通難」。一開始,AI 沒有任何的知識和經驗,只能夠隨機按下按鈕。但在五年的模擬游戲時間里,它在經歷中習得了更多能力。最終,AI 能夠抓住寶可夢,進化它們,并擊敗了道館館主。

當我們以為這已經算是高難度的時候,《超級馬里奧兄弟》再次刷新了大模型性能測試基準的上限。

最近,加州的一家實驗室 Hao labs 推出了「GamingAgent」項目,這是一項測試 AI 性能的新方法,專為實時動作游戲而構建。

項目地址:https://github.com/lmgame-org/GamingAgent

團隊采用了《超級馬里奧兄弟》等平臺游戲與《2048》、《俄羅斯方塊》等益智游戲,作為不同 AI 模型的試驗場。

圖片

GPT-4o 表現

圖片

Claude-3.7 表現

這是 Claude 3.7 在《俄羅斯方塊》中的表現:

Claude 3.7 表現最好

GPT-4o 舉步維艱

這次的一系列實驗并不是通過 1985 年版的《超級馬里奧兄弟》完成的,而是通過包含 GamingAgent 的模擬器完成的。

實驗室發現,這種獨特的游戲環境迫使每個模型設計復雜的操作和游戲策略,從而能夠考驗出它們的適應能力和解決問題的能力。

GamingAgent 模擬器為 AI 提供基本指令和游戲截圖,指令類似于:「如果附近有障礙物或敵人,請向左移動 / 跳躍以躲避。」然后 AI 通過 Python 代碼生成輸入,從而控制馬里奧。

在下圖的演示中,是四個大模型挑戰超級馬里奧兄弟 1-1 級的結果。Anthropic 的 Claude 3.7 表現最好,其次是 Claude 3.5。遺憾的是,谷歌的 Gemini 1.5 Pro 和 OpenAI 的 GPT-4o 表現不佳。

圖片

有趣的是,盡管 OpenAI 的 GPT-4o 等推理模型在大多數基準測試中總體表現更好,但在這種實時游戲場景中的表現卻不佳。這是因為推理模型的決策過程較慢,通常需要幾秒鐘才能確定如何行動。

另一方面,非推理模型在超級馬里奧兄弟游戲中表現更佳,因為時機就是一切,可以決定成敗。一秒鐘也能導致安全跳過和墜落然后「Game Over」之間的差別。

使用《超級馬里奧兄弟》之類的游戲來對 AI 進行基準測試并不是一個新想法。但畢竟游戲具備一些抽象性質,而且與現實世界的挑戰相比來說相對簡單,領域內的很多專家對其能否確定技術發展程度的價值表示擔憂。

換言之,上述測試未必能說明 Claude 3.7 和 GPT-4o 哪個更強大。

Andrej Karpathy 最近就陷入了「評估危機」:「我真不知道現在應該關注什么(AI)指標。簡而言之,我的反應是,我真的不知道這些模型現在有多好。」

截屏2025-03-07 10.57.00.png

而對于不斷推出的前沿模型來說,如何判斷性能更是個難題。

截屏2025-03-07 11.08.05.png

AI 的「評估危機」

我們該如何衡量大模型的性能提升?

與此同時,有業內人士從另外一個維度提出了對大模型性能提升方向的質疑。

 Hugging Face 的聯合創始人兼首席科學官 Thomas Wolf 周四在 X 平臺發文,表達了對 AI 未來的深切憂慮。他擔心在缺乏根本性研究突破的情況下,人工智能將淪為「服務器上的好好先生」。在他看來,當前的人工智能發展路徑難以培養出真正具備創造性思維的系統 —— 那種能夠摘取諾貝爾桂冠的突破性思考能力。

image.png

「人們常犯的錯誤是把牛頓或愛因斯坦簡單地視為優等生的放大版,仿佛天才只是把成績靠前的學生線性延伸出來的結果,」Wolf 寫道,「在數據中心里打造一個愛因斯坦,我們需要的不是一個萬事通,而是一個敢于提出前人未曾想到或不敢發問的問題的系統。」

這一觀點與 OpenAI 首席執行官奧特曼(Sam Altman)的說法形成鮮明對比,后者在今年早些時候撰文稱「超級智能」能「極大加速科學發現」。同樣,Anthropic 公司首席執行官 Dario Amodei 也預測,AI 將助力大多數癌癥的治療方案研發。

Wolf 認為當下 AI 的問題在于:它不能通過連接原本不相關的事實來創造新知識。即使擁有互聯網上的海量信息,現今的 AI 主要只是在填補人類已有知識之間的空白。

包括前谷歌工程師弗朗索瓦?喬萊(Fran?ois Chollet)在內的一些人工智能專家也表達了類似的觀點,他們認為 AI 雖能記憶推理模式,但難以針對全新情境產生真正的「新推理」。

Wolf 認為,AI 實驗室目前打造的只是「極其聽話的學生」,而非科學革命的締造者。當今的 AI 不被鼓勵質疑或提出可能與訓練數據相悖的想法,這使其僅能回答已知范圍內的問題。

「在數據中心里打造一個愛因斯坦,關鍵在于培養一個能提出前人未曾想到的問題的系統,」沃爾夫強調,「一個當所有教科書、專家和常識都持相反觀點時,仍會問『如果大家都錯了呢?』的系統。」

Wolf 指出,AI 領域的「評估危機」是問題的癥結所在。目前評估 AI 進步的標準大多由具有明確、顯而易見的「封閉式」答案的問題構成。

作為解決之道,Wolf 建議行業轉向能夠評估 AI 是否具備「大膽的反常規思考」、基于「微弱線索」提出普適性建議,以及提出能開辟「研究新徑」的「非顯而易見問題」的能力標準。

他承認,確定這種評估標準的具體形式是個難題,但認為這值得投入精力。

「科學的精髓在于提出正確問題并挑戰既有知識的能力,」Wolf 總結道,「我們不需要一個靠常識拿 A+ 的學生,而需要一個能看到并質疑所有人都忽略之處的 B 等生。」

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-03-04 08:40:00

AI游戲訓練

2013-03-19 09:54:26

公有云遷移云遷移工具亞馬遜Web服務

2012-03-27 14:22:25

云計算云安全

2025-08-06 05:00:00

2025-01-14 13:20:56

2025-04-08 02:26:00

2011-10-24 15:51:12

英特爾移動ARM

2013-01-13 11:26:20

Ubuntu手機系統Ubuntu手機

2024-09-06 13:00:29

2024-06-21 09:58:38

2018-01-10 07:08:18

寬帶運營商民營資本

2017-04-16 18:28:25

人工智能

2025-08-07 14:05:40

OpenAI大模型開源

2024-05-20 08:20:00

OpenAI模型

2024-06-21 09:51:17

2024-06-05 13:09:26

2024-06-28 18:13:05

2018-11-20 09:57:01

谷歌云計算開發者

2013-12-10 13:27:09

云計算

2024-11-04 08:40:00

點贊
收藏

51CTO技術棧公眾號

成人免费av资源| 欧美日韩国产传媒| 亚洲国产日韩精品| 欧美久久电影| 在线免费看毛片| 91精品一区二区三区综合| 精品久久久久av影院| 97在线播放视频| 欧美边添边摸边做边爱免费| 国产mv日韩mv欧美| 国产成人jvid在线播放| 国产人妻精品一区二区三区不卡| 免费萌白酱国产一区二区三区| 欧洲一区二区三区在线| 日本久久高清视频| 日韩一区av| 黑人巨大精品欧美黑白配亚洲| 午夜精品福利电影| 亚洲一级理论片| 精品av导航| 欧美一区二区网站| 不要播放器的av网站| 精品黄色免费中文电影在线播放| a级高清视频欧美日韩| 国产精品美女久久久久久免费| 久久久久久国产精品免费播放| 成人网18免费网站| 日韩国产高清视频在线| 亚洲女人在线观看| 欧洲一级精品| 狠狠躁天天躁日日躁欧美| 一级黄色片播放| freemovies性欧美| 91麻豆精品视频| 国产精品久久久久久久久婷婷| 中文字幕+乱码+中文| 国产一区二区三区成人欧美日韩在线观看 | 成人羞羞视频在线看网址| 亚洲大胆人体在线| 日本成人在线免费| 国产成年精品| 在线播放一区二区三区| 婷婷丁香激情网| 欧美三级网址| 色综合天天综合网国产成人综合天| 成人在线国产视频| 波多野结衣久久| 亚洲高清久久久| 又大又硬又爽免费视频| 国产在线拍揄自揄拍视频| 亚洲精品乱码久久久久久日本蜜臀| 亚洲一卡二卡三卡四卡无卡网站在线看| 人成免费电影一二三区在线观看| av一区二区久久| 国产精品综合久久久久久| 午夜久久久久久噜噜噜噜| 国产一区二区视频在线播放| 成人网中文字幕| 国产精品久久久久久免费| 精品无人码麻豆乱码1区2区| 成人激情视频在线| 99久久精品国产一区色| 国产成人日日夜夜| 国产精品日韩一区二区三区| 日本人妻熟妇久久久久久 | 国产一区福利视频| 欧性猛交ⅹxxx乱大交| 不卡欧美aaaaa| 久久大片网站| 岛国在线大片| 中文字幕制服丝袜一区二区三区| 三级网在线观看| 四虎av在线| 午夜精品久久久久久久99樱桃| 青青草视频在线免费播放| 手机在线理论片| 欧美综合在线视频| √天堂资源在线| 国产精品香蕉| 亚洲欧美在线免费| 日本裸体美女视频| 国产精品sm| 2024亚洲男人天堂| 中文字幕视频在线播放| 国产真实乱子伦精品视频| 国产精品免费一区二区三区四区| 天天干天天操av| 中文字幕精品三区| 大地资源网在线观看免费官网| 国产又色又爽又黄刺激在线视频| 欧美日韩亚洲一区二| 人人干人人干人人| 在线日韩成人| 亚洲午夜激情免费视频| 四虎884aa成人精品| 1024日韩| 成人黄色片网站| 黄片毛片在线看| 国产欧美日本一区视频| 国产日韩欧美大片| 亚洲人体视频| 日韩三级.com| 免费人成又黄又爽又色| 欧美a级片网站| 日av在线播放中文不卡| 国产色视频在线| 久久久欧美精品sm网站| 中文字幕日韩精品无码内射| 国产免费不卡| 精品国产免费视频| 性爱在线免费视频| 午夜在线播放视频欧美| 91免费看蜜桃| 丝袜美腿美女被狂躁在线观看| 性欧美疯狂xxxxbbbb| 欧美一级xxxx| 国产在视频线精品视频www666| 欧美高跟鞋交xxxxxhd| 欧美性受xxx黑人xyx性爽| 不卡的av电影在线观看| 先锋影音男人资源| 日本肉肉一区 | 九七久久人人| 欧美性生活影院| av无码av天天av天天爽| 国产精品99一区二区| 成人黄色大片在线免费观看| 成年人在线观看| 一本一道波多野结衣一区二区| 欧美激情一区二区三区p站| 99久久这里只有精品| 国产精品久久97| 精品无吗乱吗av国产爱色| 性感美女极品91精品| 无码国产精品一区二区高潮| 999国产精品视频| 国产精品女人久久久久久| 人操人视频在线观看| 精品成人久久av| a级片在线观看视频| 欧美视频成人| 成人欧美一区二区三区黑人免费| www免费在线观看| 制服丝袜亚洲播放| 男人在线观看视频| 久久99久国产精品黄毛片色诱| 性欧美videosex高清少妇| 肉色欧美久久久久久久免费看| 亚洲国产女人aaa毛片在线| 欧美极品aaaaabbbbb| 国产精品资源在线| 久久久久久久久久久久久国产| 欧美激情福利| 久久婷婷国产麻豆91天堂 | 国产精品综合一区二区三区| 超碰在线免费观看97| www.久久99| 欧美老女人性生活| 成人午夜免费在线观看| 亚洲国产成人tv| 国产精品jizz| 日本在线播放一区二区三区| 亚洲国产欧美日韩| 午夜精品久久久久久毛片| 精品国产一区二区在线| 91国在线视频| 一区二区视频在线看| 欧美xxxx日本和非洲| 国产精品日本| 天天人人精品| 激情不卡一区二区三区视频在线| 色综合视频网站| 少妇喷水在线观看| 色www精品视频在线观看| 手机免费观看av| 国产精品一二三四| 日韩欧美国产免费| 日韩成人激情| 国产精品一区二区三区在线观| 中文字幕在线高清| 最近2019年中文视频免费在线观看| 国产精品久久久久久久久久久久久久久久 | 深夜av在线| 一区二区在线免费视频| 国产精品久久影视| 亚洲国产wwwccc36天堂| 美女脱光内衣内裤| 国产中文字幕一区| 精品中文字幕av| 欧美国产一区二区三区激情无套| 91免费版网站在线观看| 日本三级一区| 久久精品人人做人人爽| 天天操天天射天天舔| 欧美日韩高清一区二区不卡| 久草国产在线观看| 国产网红主播福利一区二区| 亚洲综合在线一区二区| 久久天堂成人| 日韩精品一区二区三区四 | www国产免费| 精品成人影院| 国产精品久久精品视| 福利精品一区| 57pao精品| 在线观看av免费| 中日韩午夜理伦电影免费| 午夜精品小视频| 欧美电影在线免费观看| 少妇太紧太爽又黄又硬又爽| 亚洲欧美一区二区久久| av永久免费观看| 91玉足脚交白嫩脚丫在线播放| 亚洲欧美天堂在线| 日本不卡视频一二三区| 极品粉嫩国产18尤物| 欧美岛国激情| 日韩av电影免费在线| 九九热播视频在线精品6| 91免费福利视频| 最新日韩一区| 欧美中文在线字幕| av男人的天堂在线观看| 裸体女人亚洲精品一区| av在线播放网站| 亚洲精品小视频在线观看| 空姐吹箫视频大全| 91精品国产综合久久久久久久| а中文在线天堂| 日韩欧亚中文在线| 91久久国产视频| 亚洲午夜在线视频| 麻豆视频在线观看| 亚洲免费在线视频| 国产一二三区精品| 亚洲色图在线播放| 99鲁鲁精品一区二区三区| 中文一区二区完整视频在线观看 | 亚洲欧美另类小说视频| 国产日韩精品中文字无码| 日本一区二区免费在线| 成人片黄网站色大片免费毛片| 成人免费观看男女羞羞视频| 性生交大片免费看l| 粉嫩一区二区三区在线看| a级大片免费看| 国产成人午夜视频| 国产白袜脚足j棉袜在线观看| 国产69精品久久久久777| 在线观看一区二区三区视频| 国产成人av一区二区三区在线| 国产chinesehd精品露脸| 国产传媒日韩欧美成人| 女人扒开双腿让男人捅| 成人丝袜高跟foot| 国产激情视频网站| 久久综合九色综合欧美就去吻| 玖草视频在线观看| 国产欧美一区二区三区沐欲| 少妇精品无码一区二区免费视频| 日本一区二区成人在线| 亚洲色图27p| 亚洲另类一区二区| 日本特黄特色aaa大片免费| 欧美日韩免费一区| 无码一区二区三区在线观看| 欧美视频一区二区| 99久久精品国产色欲| 亚洲福利小视频| 你懂的好爽在线观看| 一区二区在线免费视频| 亚洲奶水xxxx哺乳期| 456国产精品| 巨大黑人极品videos精品| 91免费看蜜桃| 最近国产精品视频| 宅男在线精品国产免费观看| 午夜亚洲福利| 美女av免费在线观看| 美女一区二区三区| 性高潮久久久久久| 2021国产精品久久精品| 午夜国产福利视频| 亚洲成人综合网站| 正在播放亚洲精品| 日韩视频免费观看高清完整版 | 最近中文字幕在线免费观看| 欧美一区二区视频在线观看2020 | 国产一区二区网| 人人爽香蕉精品| 国产69视频在线观看| 欧美国产日韩精品免费观看| 九九久久免费视频| 在线影院国内精品| 亚洲精品久久久狠狠狠爱| 亚洲石原莉奈一区二区在线观看| 在线观看中文| 国产精品亚洲片夜色在线| 黄色欧美在线| 免费成人深夜夜行网站视频| 国产欧美一级| 国产精品嫩草69影院| 国产精品免费网站在线观看| 欧美精品亚洲精品日韩精品| 91麻豆精品91久久久久同性| 欧美日韩影视| 欧美激情一二区| 欧美男女视频| 日韩精品国内| 亚洲激情专区| 亚洲黄色av片| 久久久久国产成人精品亚洲午夜| 日韩va亚洲va欧美va清高| 在线免费精品视频| 亚洲欧美日韩动漫| 欧美激情高清视频| 亚洲毛片在线免费| 四虎永久国产精品| 久久精品卡一| 国产极品一区二区| 一区二区三区国产| 91丨porny丨在线中文 | 国产美女精品在线观看| 99国产精品一区二区| 狠狠热免费视频| 久久综合网色—综合色88| 国产一级片免费| 日韩欧美国产高清| 国产美女av在线| 成人欧美一区二区三区在线| 欧美日韩在线观看视频小说| 无码人妻丰满熟妇区毛片| 不卡影院免费观看| 日韩成人免费观看| 亚洲国产91精品在线观看| 欧美大胆的人体xxxx| 91视频婷婷| 欧美精品午夜| 国产精久久久久| 亚洲综合色噜噜狠狠| 亚洲精品97久久中文字幕| 九九九热精品免费视频观看网站| 精品国产乱码一区二区三区| 中文字幕中文字幕在线中心一区| 久久成人18免费观看| www.xx日本| 日韩一区二区三区免费观看| 91在线中文| 俄罗斯精品一区二区三区| 好吊视频一区二区三区四区| 亚洲一区二区三区三州| 亚洲摸摸操操av| 狠狠综合久久av一区二区| 97精品视频在线观看| 老牛精品亚洲成av人片| 亚洲人精品午夜射精日韩| 91麻豆国产自产在线观看| 午夜精品一区二| 日韩在线免费视频| 精品国产亚洲一区二区在线观看| 国产 国语对白 露脸| 成人动漫一区二区三区| 99久热在线精品996热是什么| 亚洲女人初尝黑人巨大| 三级成人黄色影院| 在线国产伦理一区| 国产精品亚洲专一区二区三区| 精品少妇久久久| 亚洲美女av电影| 免费成人毛片| www.九色.com| 久久夜色精品国产欧美乱极品| 性色av一区二区三区四区| xxxxx成人.com| 精品自拍偷拍| 中文字幕永久视频| 亚洲精品国产品国语在线app| 日韩一级免费毛片| 国产精品久久久av| 欧美午夜电影在线观看 | 91视频在线免费| 色综合久久中文字幕| 免费av网站在线观看| 国产精品日韩二区| 美女mm1313爽爽久久久蜜臀| 唐朝av高清盛宴| 亚洲欧美日韩高清| 国产精品一级在线观看| 黄色国产一级视频| 中文字幕色av一区二区三区| 少妇一区二区三区四区| 国产精品久久久久高潮| 激情欧美一区| 亚洲一级理论片| 亚洲免费小视频| 欧洲精品99毛片免费高清观看 | 国产亚洲欧洲黄色| 亚洲小说春色综合另类电影| 久久综合久久色| 亚洲国产精品视频|