精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

全球頂級模型集體0分,AI終極大考人類5分鐘秒殺!Keras之父戳破AGI神話

人工智能 新聞
AI界「智商大考」ARC-AGI-2重磅出爐了!一個人類用5分鐘輕松解開的謎題,卻讓最頂尖LLM全線崩盤得分掛零,o3更是從曾經76%暴跌至4%。它正式宣告,人類還未實現AGI。

時隔6年,ARC-AGI-2正式推出!

一大早,Keras之父Fran?ois Chollet官宣了全新迭代后的ARC-AGI-2,再次拉高了AI「大考」的難度。

圖片

這些對人類再簡單不過的題目,LLM最先敗北,先上結果:

基礎大模型(GPT-4.5、Claude 3.7 Sonnet、Gemini 2 ),全部得0分。 

CoT推理模型(Claude Thinking、R1、o3-mini),得分也不過4%。

圖片

相較之下,2024年ARC Prize冠軍模型(53.5%)卻在新版本考試中,成績僅剩3.5%。

OpenAI的o3-low模型也從75.7%驟降至4%。而且,每項任務成本效率也是o3-low和o1-pro最高,達到200美金。

圖片

相反,在ARC-AGI-2里的每個任務,都至少有兩名人類能在兩次嘗試內成功解決。

ARC-AGI-2的出世,證明了「人類尚未實現AGI」!

圖片

現場400人實測,普通人無訓練能拿下60%準確率,10人小組能達到100%

初代ARC-AGI(2019年),曾在去年揭示了AI重大轉變,LLM從「純記憶」向「測試時推理」的進化。

許多之前一眼就看透的問題,在ARC-AGI-2中,至少需要幾分鐘的深思熟慮——人類測試者平均需要5分鐘才能解題。

最新ARC-AGI-2,恰恰暴露了當前AI三大短板:符號解釋、組合推理、上下文規則應用。

這些皆需要LLM在測試時,展現真正的適應能力,具備靈活應對新問題的「流體智力」,而不是靠預訓練數據「硬背」過關。

值得一提的是,2025年ARC獎本周將在Kaggle平臺上線,總獎金高達100萬美元。

今年的競賽在去年基礎上再加碼,計算資源翻倍,旨在推動開源項目發展,助力打造能戰勝ARC-AGI-2的系統。

AI「大考」難度進階,AGI夢碎?

其他AI基準測試,基本都聚焦于測試「博士以上水平」的技能,來考察超越人類的能力或專業知識。

但ARC-AGI關注的是對人類相對容易,對AI卻困難重重的任務。

這樣一來,就能精準定位那些不會因為規模擴大就自動消失的能力差距。

ARC獎將此融入對AGI的衡量標準:對人類容易、對AI困難的任務之間的差距,即「人機差距」。

當這個差距變為零,也就是不存在能難倒AI的任務時,我們就實現了AGI。

圖片

要彌補這些能力差距,需要全新的見解和思路。ARC-AGI不只是衡量AGI的進展,更重要的是激勵研究人員探索新思路。

AI系統在不少特定領域(如圍棋、圖像識別)已超越人類。但這些只是狹隘、專門的能力。

「人機差距」揭示了AGI所欠缺的部分:高效獲取新技能的能力。

ARC-AGI-2登場,基礎LLM掛零

今日正式發布的ARC-AGI-2基準測試,在對人類難度不變的前提下,極大提高了對AI的難度挑戰。

在一項有400人參與的對照研究中,ARC-AGI-2的每個任務,都至少有兩名參與者能在兩次或更少的嘗試內解決。

這和給AI設定的規則一致,每個任務AI都有兩次嘗試機會。

與ARC-AGI-1類似,ARC-AGI-2采用「兩次嘗試通過(pass@2)」的評估體系,因為部分任務存在顯著的模糊性,需要兩次猜測來消除歧義,同時也用于排查數據集中可能無意出現的模糊或錯誤之處。

經過人類測試,相較于ARC-AGI-1,作者對ARC-AGI-2任務質量更具信心。

以下是ARC-AGI-2的官方更新內容:

  • 所有評估集(公開、半私有、私有)的任務數量從100個增加至120個。
  • 剔除了評估集中易受暴力搜索破解的任務,即2020年原始Kaggle競賽中已被解決的所有任務。
  • 開展人類測試,以校準評估集難度,確保任務獨立同分布,并驗證至少有兩名人類可在兩次嘗試內解決任務,這與對AI的要求一致。
  • 根據研究成果,設計了新任務來挑戰AI推理系統,涵蓋符號解釋、組合推理、上下文規則等多個方面。

2019年推出的ARC-AGI-1,主要是為了挑戰深度學習,尤其是防止模型單純「記憶」訓練數據集。

圖片

ARC-AGI包含一個訓練數據集和多個評估集,其中私有評估集用于2024年ARC獎競賽。訓練集的作用是讓模型學習解決評估集中任務所需的核心知識。

為了完成評估集中的任務,AI必須展現出適應全新任務的能力。

打個比方,訓練集就像是教你認識小學算術符號,而評估集則要求用這些符號知識去解代數方程。你不能靠死記硬背得出答案,必須把知識靈活運用到新問題上。

ARC-AGI-2對AI的要求更高,要想戰勝它,必須具備高度的適應性和高效性。

下面是ARC-AGI-2的示例任務,滿足兩個條件:一是至少有兩名人類能在兩次嘗試內解決;二是所有前沿AI推理系統都無法解決。

符號解釋

前沿AI推理系統在處理需要賦予符號超出視覺模式意義的任務時,表現欠佳。

系統能進行對稱性檢查、鏡像、變換,甚至識別連接元素,但就是無法理解符號本身的語義。

圖片

組合推理

AI推理系統在處理需要同時應用多個規則,或者應用相互關聯規則的任務時,困難重重。

相反,要是任務只有一兩條全局規則,這些系統就能發現并運用規則。

圖片

上下文規則應用

AI推理系統在面對需根據上下文靈活應用規則的任務時,也會陷入困境。

它們往往只關注表面模式,無法理解背后的選擇原則。

圖片

兩人組隊拿滿分,o3僅4%

ARC-AGI-2由以下數據集構成:

圖片

校準指的是這些任務具有獨立同分布(IDD)特性。理論上,在公開、半私有和私有評估集上,未出現過擬合情況的分數應具有直接可比性。

為收集相關數據,在嚴格受控的環境下,對400多位人類進行了測試。

接下來幾周,公開任務的人類可解性數據將與ARC-AGI-2論文一同發布。

對所有公開的AI系統重新評估,ARC-AGI-2起始分數如下:

圖片

帶*的分數,是根據目前收集到的部分結果,還有o1-pro的定價估算出來的。完整結果一出來,馬上會公布。

所有分數均按照「兩次嘗試通過(pass@2)」標準,且基于半私有評估集得出(ARC-AGI-1人類小組和ARChitects除外,分別基于公開評估集和私有評估集)。

人類小組的效率計算基于115-150美元的到場費用,外加解決每個任務獎勵5美元。

對成本進行了優化以提升到場率(實際到場率為注冊人數的70%)。盡管人類智能成本效率的極限可能在每個任務2-5美元區間,但基于實際收集的數據,報告中每個任務17美元。

等OpenAI o3 low/high的API開放,將對其正式版本進行測試。

用從ARC-AGI-1轉到ARC-AGI-2的任務進行預估,o3-low得分約為4%,如果計算量特別大(每個任務數千美元),o3-high得分有望達到15-20%。

智能并非僅是能力

從現在開始,所有ARC-AGI的報告都將附帶一項效率指標。

首先選擇成本作為指標,因為在對比人類與AI性能時,成本具有最直接的可比性。

智能并非僅是解決問題和獲取高分的能力。獲取和運用這些能力的效率,是智能的關鍵要素。

核心問題不僅在于「AI能否掌握解決任務的技能?」,更在于「以怎樣的效率或成本來掌握?」

圖片

前沿AI系統在ARC-AGI-1與ARC-AGI-2上的得分

僅靠規模遠遠不夠

在資源與搜索時間不受限的情況下,暴力搜索最終能夠解決ARC-AGI問題。

但這絕非真正的智能。智能在于高效地找到解決方案,而非盲目窮舉。

關注效率是ARC-AGI的核心原則。

明確量化智能的成本,要求解決方案不僅展示能力,更要展現對資源的高效利用,這才是AGI的本質。

全新的ARC-AGI排行榜頁面將從分數和成本兩個維度同步呈現。

圖片

截至2025年3月24日,ARC-AGI新排行榜同時展示分數與效率

本周競賽盛大開啟!

隨著ARC-AGI-2的發布,2025年ARC Prize重磅回歸!競賽將于3月至11月期間在Kaggle平臺舉辦。

競賽設有12.5萬美元的保底進展獎,以及高達70萬美元的大獎,團隊得分超過85%即可解鎖!

此外,還有17.5萬美元的獎項待后續公布細則。

Kaggle競賽規則禁止使用互聯網API,每次提交僅可使用約50美元的計算資源。

為獲取獲獎資格,參賽者需在競賽結束時開源解決方案。

去年的競賽成果斐然,超過1500支團隊踴躍參與,產出了40篇極具影響力的研究論文。

獲獎研究人員提出的創新理念已在AI行業得到廣泛應用。

責任編輯:張燕妮 來源: 新智元
相關推薦

2012-06-28 10:26:51

Silverlight

2025-08-27 09:06:27

2020-10-26 10:18:55

百度EasyDL

2023-07-12 14:45:38

2022-12-16 09:55:50

網絡架構OSI

2009-03-23 09:07:04

2021-04-30 16:23:58

WebRTC實時音頻

2020-09-14 11:30:26

HTTP3運維互聯網

2021-01-29 11:43:53

SSHLinux命令

2025-02-24 08:36:00

2021-03-12 09:45:00

Python關聯規則算法

2020-12-17 10:00:16

Python協程線程

2020-11-23 16:23:59

CSS設計技術

2011-07-11 09:58:52

2010-11-03 11:01:05

求職面試

2009-11-26 11:19:52

NIS服務器

2021-01-29 11:25:57

Python爬山算法函數優化

2020-05-15 07:30:08

黑客Thunderbolt漏洞

2020-02-17 13:45:27

抓取代碼工具

2021-03-23 15:35:36

Adam優化語言
點贊
收藏

51CTO技術棧公眾號

夜夜亚洲天天久久| 久久激情五月激情| 亚洲视频在线观看免费| 午夜两性免费视频| 免费电影视频在线看| 久久久久久久久久久99999| 成人乱色短篇合集| 西西44rtwww国产精品| 日韩欧美国产精品综合嫩v| 欧美一级艳片视频免费观看| 欧美色图另类小说| 黄网站视频在线观看| 91美女视频网站| 亚洲bt欧美bt日本bt| 亚洲另类在线观看| 欧美~级网站不卡| 国产亚洲精品成人av久久ww| 少妇极品熟妇人妻无码| 91九色综合| 亚洲.国产.中文慕字在线| 亚洲成人自拍视频| 天堂91在线| 国产精品综合久久| 国产精品入口日韩视频大尺度| 国产一级特黄a高潮片| 97在线精品| 亚洲欧美中文另类| 污污内射在线观看一区二区少妇| 成人噜噜噜噜| 欧美日韩免费观看一区三区| av免费观看大全| 中文字幕在线播放网址| 国产精品二三区| 日韩免费av一区二区三区| 人妻va精品va欧美va| 国产一区二区三区日韩 | 国产精品成人在线视频| 欧美日韩一区二区三区四区不卡 | 日韩午夜免费| 美女性感视频久久久| 一级免费黄色录像| 色综合咪咪久久网| 尤物精品国产第一福利三区| 国产全是老熟女太爽了| 日本午夜精品| 日韩精品一区二区视频| 波多野结衣影院| 国产精品白丝av嫩草影院| 日韩欧美一区在线| 麻豆tv在线观看| 日本免费一区二区视频| 91精品国产综合久久久久久久| 特级丰满少妇一级| 精品自拍视频| 欧美久久免费观看| 亚洲成人手机在线观看| 国产视频网站一区二区三区| 欧美一卡二卡三卡| 久久久久亚洲av成人网人人软件| 伊人www22综合色| 精品国产免费一区二区三区香蕉| 亚洲精品鲁一鲁一区二区三区| 亚洲三级av| 精品国产乱码久久久久久1区2区| 妖精视频一区二区| 秋霞在线一区| 伊人av综合网| 久久免费看少妇高潮v片特黄| 在线电影一区二区| 国模私拍视频一区| 国产午夜麻豆影院在线观看| 日韩成人精品视频| 91日本在线观看| 性生交生活影碟片| 99国产一区二区三精品乱码| 久久艹中文字幕| 最新av网站在线观看| 亚洲视频1区2区| 免费不卡av在线| 欧美成a人片在线观看久| 欧美日韩一区在线| 国产91在线免费观看| 欧美日韩一区二区三区四区不卡| 亚洲人成在线电影| 国产性生活大片| 亚洲区一区二| 国产精品精品视频一区二区三区| 国产精品久久久久毛片| av资源网一区| 亚洲精品在线免费| 91美女主播在线视频| 色94色欧美sute亚洲线路二| 亚洲无在线观看| 九九热精品视频在线观看| xxx成人少妇69| 日韩精品视频播放| 激情综合色综合久久| 国产一区精品视频| √新版天堂资源在线资源| 亚洲国产精品久久久久秋霞影院| 毛葺葺老太做受视频| 一区二区三区欧洲区| 亚洲丝袜一区在线| 久久亚洲精品大全| 蜜桃传媒麻豆第一区在线观看| 97se亚洲综合| 在线播放麻豆| 色综合久久精品| 制服.丝袜.亚洲.中文.综合懂| 久久99国内| 久久久亚洲福利精品午夜| 中国一级片黄色一级片黄| 成人免费毛片高清视频| 在线观看免费91| 中文字幕色婷婷在线视频| 日韩一区和二区| 国产亚洲精品熟女国产成人| 亚洲免费激情| 成人av男人的天堂| av在线播放国产| 欧美午夜在线观看| 中文字幕一区二区三区人妻不卡| 中文精品久久| 成人网在线免费观看| 国产高清视频在线观看| 精品福利在线看| 特黄特色免费视频| 欧美影院一区| 91免费视频网站| 在线视频婷婷| 欧美在线不卡视频| 国产一二三四五区| 久久黄色网页| 久久av一区二区三区亚洲| 成年人视频免费在线播放| 日韩一区二区免费视频| 成年人二级毛片| 麻豆精品一区二区综合av| 色播亚洲婷婷| 99久久er| 中文字幕日韩欧美| 中文字幕一区二区三区波野结 | 精品国产乱码久久久久久牛牛 | 国产精品资源| 国产在线视频欧美一区二区三区| 欧洲一区二区三区| 这里只有精品视频在线观看| 网爆门在线观看| 麻豆精品在线视频| 亚洲美女网站18| 日本久久二区| 久久成人精品一区二区三区| a网站在线观看| 亚洲一区在线播放| 男插女视频网站| 欧美精品18| 国产精品中出一区二区三区| av丝袜在线| 亚洲美女av在线| 九九热最新视频| 中文字幕日韩一区二区| 911av视频| 精品福利av| 好吊妞www.84com只有这里才有精品| 91超碰在线免费| 亚洲美女喷白浆| 中文字幕无线码一区| 最新国产成人在线观看| 黑人巨大猛交丰满少妇| 在线成人欧美| 欧美日韩亚洲免费| 亚洲影视资源| 欧美激情啊啊啊| 久草在线青青草| 欧美日韩国产小视频在线观看| 国产精品免费人成网站酒店| 国产成人精品1024| 欧美 激情 在线| 欧美黄色录像片| 国产伦精品一区二区三区四区免费 | 豆花视频一区二区| 琪琪亚洲精品午夜在线| 无遮挡的视频在线观看| 欧美成人精品二区三区99精品| 日韩av一区二区在线播放| 久久久不卡影院| 中文字幕 日韩 欧美| 激情久久久久| 亚洲精品免费在线看| 超碰97久久| 国产精品久久久久久久久久三级 | 性高潮久久久久久| 美女精品一区| 成年丰满熟妇午夜免费视频| 亚洲婷婷丁香| 91手机在线观看| 中文另类视频| 欧美激情喷水视频| 国产精品久久久久一区二区国产 | 后进极品白嫩翘臀在线播放| 亚洲男人的天堂在线| 91精品国产乱码久久| 欧美日韩在线另类| 日本高清一二三区| 国产亚洲精品免费| 精品视频站长推荐| 国产美女精品在线| 国产三级三级三级看三级| 亚洲精品1234| 精品91一区二区三区| 国产成人三级| 国产伦理久久久| 国产麻豆一区| 日本久久久a级免费| 欧美aaaaaaa| 日韩一区二区在线视频| 久久精品国产亚洲a∨麻豆| 欧美大片在线观看一区| 亚洲综合免费视频| 日韩欧美国产视频| 日产欧产va高清| 亚洲精品你懂的| 人妻一区二区视频| 9色porny自拍视频一区二区| 天天爽夜夜爽视频| 久久se精品一区精品二区| 国产精品-区区久久久狼| 亚洲国产婷婷| 国产精品国产三级国产专区51| 久久密一区二区三区| 欧美高清一区二区| 神马香蕉久久| 国产日韩久久| 欧美绝顶高潮抽搐喷水合集| 91网免费观看| 91成人精品在线| 97人人模人人爽人人少妇| 成人综合日日夜夜| 91精品国产高清| 免费毛片在线看片免费丝瓜视频| 色哟哟网站入口亚洲精品| chinese偷拍一区二区三区| 亚洲欧美综合精品久久成人| 日韩精品123| 亚洲精品久久视频| 天堂在线资源网| 亚洲国产日韩欧美在线动漫| 超碰福利在线观看| 日韩精品专区在线影院重磅| 国产女人爽到高潮a毛片| 欧美情侣在线播放| 亚洲视频一区在线播放| 欧美日韩亚洲综合在线 | 日韩丰满少妇无码内射| 久久人人97超碰com| 欧美色图亚洲激情| 久久精品人人爽人人爽| 精品人妻中文无码av在线| 国产日产精品1区| 国产精品理论在线| 一区免费观看视频| 女性裸体视频网站| 一区二区在线观看av| 久久久久香蕉视频| 午夜精品福利一区二区三区av | 免费成人深夜夜行p站| 91啪亚洲精品| 亚洲精品国产一区黑色丝袜 | 日韩精品专区在线影院重磅| 免费av一级片| 日韩黄色av网站| 国产精品久久久久一区二区国产| 在线观看欧美成人| 主播国产精品| 777精品视频| 精品三区视频| 亚洲自拍偷拍区| 欧美wwwsss9999| 四虎永久国产精品| 亚洲一区二区三区无吗| 波多野结衣之无限发射| 日韩vs国产vs欧美| √天堂资源在线| 99久久精品免费看| 亚洲午夜久久久久久久国产| 中文字幕人成不卡一区| 国产精品1000| 日韩理论电影院| 欧美不卡视频一区发布| 国产丝袜视频在线播放| 欧美专区在线播放| 日韩国产大片| 国产乱码精品一区二区三区中文| 一本色道久久综合亚洲精品酒店| 亚洲一卡二卡三卡| 亚洲韩日在线| 黄色片视频在线| 成人夜色视频网站在线观看| 中文字幕 自拍| 一区二区三区精品| 久久久精品毛片| 日韩欧美一级精品久久| 久久经典视频| 欧美劲爆第一页| 日本电影久久久| 蜜桃视频日韩| 欧美成人首页| 欧美伦理片在线看| 丁香五精品蜜臀久久久久99网站 | 中文字幕777| 精品日韩一区二区| 日本视频在线免费观看| 欧洲成人免费aa| 99精品国产高清一区二区麻豆| 亚洲成人网上| 国产精品亚洲综合久久| 国产精品探花在线播放| 国产亚洲综合性久久久影院| 国产在线视频第一页| 欧美日本国产视频| 九色在线视频蝌蚪| 久久免费视频在线观看| 国产精品va视频| 亚洲mv在线看| 视频一区二区中文字幕| 在线黄色免费网站| 亚洲一区二区三区中文字幕在线| 亚洲一二区视频| 伊人久久男人天堂| 成人福利视频| 国产日韩一区欧美| 欧美特黄一区| 午夜影院免费版| 亚洲人成小说网站色在线| 日韩xxx视频| 亚洲最大在线视频| 另类专区亚洲| 精品一区2区三区| 黄色国产精品| 女王人厕视频2ⅴk| 亚洲免费资源在线播放| 国产又大又粗又长| 日韩亚洲欧美中文高清在线| 国产成人精品一区二区三区免费| 欧美精品一区三区在线观看| 国产精品婷婷| 中文字幕第3页| 婷婷久久综合九色国产成人 | 亚洲精品一区二区三区在线观看| av超碰免费在线| 91影院未满十八岁禁止入内| 午夜精品久久久久99热蜜桃导演| 在线观看日本www| 亚洲免费观看高清完整 | 精品视频久久久久久久| 成人bbav| 精品国产免费人成电影在线观...| 亚洲电影av| 久久久久9999| 欧美性色xo影院| 色视频免费在线观看| 日本欧美一级片| 精品国产不卡| 久热精品在线观看视频| 亚洲欧美日韩久久精品| 国产富婆一级全黄大片| 欧美激情在线观看| 日本亚洲不卡| 亚洲国产精品毛片av不卡在线| 国产人成亚洲第一网站在线播放| 在线免费观看一区二区| 久久精品免费电影| 我要色综合中文字幕| 久久综合久久网| 91美女视频网站| 中日韩av在线| 久久视频精品在线| 国产精品丝袜在线播放| 人妻熟女一二三区夜夜爱| 国产喷白浆一区二区三区| 国产精品久久久久久免费免熟| 欧美激情第99页| 九九在线高清精品视频| 中文字幕在线综合| 亚洲一区二区三区在线播放| 色哟哟在线观看| 国产在线精品播放| 激情欧美丁香| 在线观看亚洲大片短视频| 日韩欧美一级二级| 欧美momandson| 992tv成人免费观看| 99精品欧美一区二区三区综合在线| 欧美黄色一级大片| 欧美肥老妇视频| 精品国产一区一区二区三亚瑟| 992kp免费看片| 色系网站成人免费| 日本动漫理论片在线观看网站| 欧美高清视频一区|