精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

懸賞800萬的超難測試集,被GPT-4o實現新SOTA,準確率已達50%

人工智能
在已公布的60萬美元中,有50萬美元(約360萬人民幣)的大獎,獲獎隊伍不超過五個,獎給最先在ARC-AGI上達到85%準確率的團隊。

GTP-4o挑戰懸賞八百萬的超難數據集,實現SOTA!

數據集當中包含了各種類型的圖形推理題目,被挑戰發起者預言“大模型很難完成”。

圖片圖片

結果短短一周之內,這一挑戰就被一位博主Ryan Greenblatt完成了一半,準確率達50%;而此前的SOTA僅為34%。

針對自己的成果,Ryan發了一個表情包表示:

只要有更多的樣本,大模型的能力就能獲得提升。

圖片圖片

成果發布后,Ryan所在機構CEO Bucket Shlegeris稱贊他是世界級的語言模型推理專家,用了很多精致技巧讓模型的表現提高到了這樣的程度。

圖片圖片

要知道,挑戰的發起方此前開出了最高50萬美元(約360萬人民幣)、總計110萬美元(約798萬人民幣)的巨額賞金。

但有人預計,有60%的概率在未來一年內就會有人獲得獎項,甚至現有的模型加上一些提示技巧就能實現。

圖片圖片

這也與Ryan的想法不謀而合,不過Ryan估計的概率更高些,是70%。

圖片圖片

然而按照規則,想得獎的話,方法必須是開源的,而Ryan用的是GPT,所以可能與獎金無緣了。

不過,Ryan用到的的方法,還是值得我們了解一下的。

讓GPT編寫海量程序

Ryan挑戰的測試集名為ARC-AGI,題目帶有色塊的網格陣列,大模型需要觀察每道題目中3個輸入/輸出示例,然后根據規律填充新的空白網格。

圖片圖片

當然,實際測試中的問題,會比上面的例子復雜得多。

圖片圖片

首先,Ryan根據網格大小是否發生變化,把測試集中的問題細分成了兩類。

圖片圖片

對于每個問題,Ryan都會把網格以圖像和ASCII字符兩種方式輸入給GPT-4o。

其中,ASCII字符包括以下內容:

  • 每個位置的顏色和坐標
  • 每種顏色出現的所有位置坐標,并按連通分量分組
  • 將連通分量(形狀)按其左上角位置歸一化到原點后的表示
  • 輸入輸出網格之間不同顏色的變化及其位置

對于后面需要修正的程序,還會把實際輸出與期望輸出的的差異(ASCII字符形式)一并輸入給模型。

根據前面不同的分類,Ryan會用不同的少樣本提示詞指示GPT-4o,提示詞中包含這三項指令:

  • 分步推理和解釋每個例子中的轉換規則
  • 思考如何將推理得到的規則實現為代碼
  • 實際編寫對應的Python代碼

對每個問題,Ryan會從GPT-4o的回答中采樣約5000個完成結果,對程序進行篩選與修正。

采樣得到的完成結果首先會被轉化為Python程序并在測試用例上運行,然后選出在所有例子上都正確的程序。

接著,在剩余的程序中,Ryan設計了一個漢明距離度量方式,并據此從中選出最有希望的12個。

對這12個程序,Ryan會讓GPT-4o嘗試修正其中的錯誤 ,首先用少樣本提示詞要求模型獲取實際輸出與期望輸出差異,然后對每個待修正的程序再采樣約3000個完成結果。

最后,Ryan會選擇經過篩選和修正后能正確解決所有例子的3個程序,如果符合要求的程序少于3個,則會使用一些啟發式規則選出剩余的程序。

實際操作中,Ryan使用了多個不同的少樣本提示詞分別進行了上述過程,獲得了多組候選程序,并在所有組的正確程序中進行多數投票,選出出現頻率最高的3個作為最終結果。

此外,Ryan還使用了一些額外的策略,比如在訓練集和測試集的不相交子集上進行迭代優化,通過局部搜索等方法尋找更好的提示詞等

同時,他還引入了一些額外的規則,比如拒絕輸出與輸入完全相同的解,從而更好地篩選出有用的程序。

最終,Ryan的方法在ARC-AGI公開測試集上達到了50%的準確率,成為了新的SOTA,此前的SOTA為34%,而在訓練集(難度低于測試集)的一個子集上,該方法達到了72%的準確率。

不過Ryan同時指出,GPT-4o的視覺能力依然有待提高,同時還存在編程、長上下文和指令遵循能力不足,以及緩存空間不夠等問題,如果這些問題能夠被解決,將顯著提高Ryan所用方法的效果。

那么,ARC Prize究竟是一項怎樣的挑戰?

85%準確率可瓜分360萬獎金

這項ARC Prize,由零代碼SaaS平臺Zapier聯創Mike Knoop和谷歌資深工程師Fran?ois Chollet發起并出資。

項目顧問則包括GitHub前CEO Nat Friedman、前Y-Combinator合伙人Daniel Gross,以及瑞士企業家Pascal Kaufmann。

官方指出,現有的大多數AI基準測試都在衡量模型的“技能”,但“技能”并不等于“智力”,并表示“智力”指的是有效獲取新技能的能力。他們認為,“智力”型的任務對人類很簡單,但對于AI來說很難實現。

為此,活動方選擇了一套測試數據集,也就是Ryan挑戰的ARC-AGI,旨在評判大模型的“智力”,或者說“AGI能力”,并激發人們對于新算法和架構的探索,而不是單純增加數據規模。

該數據集出現的時間是在2019年,去年有300個團隊進行了嘗試,今年的挑戰則于6月11日開啟。

按照規則,參賽者需要在這個數據集上取得更高的準確率,同時提交者必須將自己編寫的代碼完全開源,使用的第三方工具也至少要有允許共享的開源許可。

圖片圖片

在Ryan之前,已經提交的方案中最高的準確率為34%,而官方設置的“成功”標準,也是他們預估的人類水平,為85%。

圖片圖片

大賽一共設置了110萬美元的獎金,目前已公布標準的獎項共計60萬美元,還有50萬美元的評獎方式等待官宣。

在已公布的60萬美元中,有50萬美元(約360萬人民幣)的大獎,獲獎隊伍不超過五個,獎給最先在ARC-AGI上達到85%準確率的團隊。

還有高分獎五名,將獲得5000-25000美元不等的獎勵,共計5萬美元。

此外還有一項論文獎,會頒發給能夠幫助人們了解如何在ARC-AGI上實現更好表現的團隊,冠亞軍獎分別獲得45000和5000美元。

圖片圖片

參考鏈接:
[1]https://redwoodresearch.substack.com/p/getting-50-sota-on-arc-agi-with-gpt[2]https://arcprize.org/[3]https://x.com/liron/status/1800643034263990432

責任編輯:武曉燕 來源: 量子位
相關推薦

2024-06-20 10:43:15

2025-05-26 08:33:00

2024-08-02 13:14:51

2025-05-06 15:32:23

模型AI測試

2025-04-15 08:01:12

2025-11-14 13:40:55

GPT-4oAI模型

2025-07-25 09:31:34

2024-05-20 08:20:00

OpenAI模型

2024-06-12 11:50:23

2025-03-31 08:44:00

GPT-4o模型技術

2024-06-05 08:29:35

2024-06-27 12:45:30

2024-12-06 14:19:50

2024-05-17 09:35:55

GPT-4o模型OpenAI

2024-05-21 12:23:17

2024-10-17 13:30:00

2023-11-20 21:56:04

AI推理

2025-04-08 02:26:00

2024-05-14 11:29:15

點贊
收藏

51CTO技術棧公眾號

久久一区欧美| 成人女同在线观看| 日韩精品电影在线观看| 色阁综合伊人av| 中文av一区二区三区| 888av在线| 国产福利一区在线| 欧美中文字幕在线视频| 国产小视频你懂的| 粉嫩av一区二区| 欧洲亚洲国产日韩| 成人在线观看毛片| 免费福利在线视频| 国产精品资源在线观看| 日本一欧美一欧美一亚洲视频| 国产一二三av| 欧美网色网址| 91精品国产综合久久精品图片 | 奇米影视888狠狠狠777不卡| 麻豆一区二区三| 高清在线视频日韩欧美| 免费成人深夜天涯网站| 极品束缚调教一区二区网站 | 免费电影一区二区三区| 日韩一级精品视频在线观看| 日本在线视频www| 日韩电影免费观看| 国产精品色哟哟网站| 国产主播一区二区三区四区| 国产精品-色哟哟| 视频一区二区三区中文字幕| 久久久久久91| 欧美性生交大片| 免费观看不卡av| 亚洲精品91美女久久久久久久| 手机av在线免费| 日韩在线免费| 丁香五六月婷婷久久激情| 国产精品免费看久久久无码| 欧美r级在线| 日本一区二区三区久久久久久久久不| 国产乱码精品一区二区三区不卡| 国产伦理吴梦梦伦理| 首页亚洲欧美制服丝腿| 欧美一区二三区| 日韩黄色一级大片| 极品少妇一区二区三区| 久久精品成人一区二区三区| 免费成人深夜天涯网站| 欧美精品久久久久久| 国产丝袜一区视频在线观看| 国产精品无码电影| 一区二区三区四区视频免费观看| 欧美一区二区性放荡片| 涩多多在线观看| 久久久国产精品入口麻豆| 欧美电影在线免费观看| av在线免费看片| 亚洲欧美久久精品| 欧美一区二区三区不卡| 被黑人猛躁10次高潮视频| 久久久久九九精品影院| 精品国产一区二区在线观看| 激情av中文字幕| 97久久精品| 69sex久久精品国产麻豆| 手机在线不卡av| 粉嫩绯色av一区二区在线观看| 亚洲a在线播放| 99精品久久久久久中文字幕| 国产在线精品免费av| 成人女保姆的销魂服务| 午夜精品久久久久久久96蜜桃| 国产麻豆成人精品| 成人免费视频视频在| 亚洲狼人综合网| 播五月开心婷婷综合| 久久一区二区三区av| 国产人成在线视频| 国产精品乱码一区二区三区软件| 亚洲美女搞黄| mm1313亚洲国产精品美女| 一区二区日韩av| 成年人午夜免费视频| 中文在线最新版地址| 欧美视频日韩视频| 手机在线播放av| 欧美偷窥清纯综合图区| 亚洲性生活视频在线观看| 天天色天天综合| 很黄很黄激情成人| 欧洲成人免费视频| 91亚洲国产成人精品一区| 久久91精品国产91久久小草| 痴汉一区二区三区| 黄色电影免费在线看| 最新不卡av在线| 亚洲人成无码网站久久99热国产| 二区三区不卡| 欧美一区二区私人影院日本| 黄色污在线观看| 99久久亚洲精品| 97视频在线看| 国产又粗又猛视频| www国产成人免费观看视频 深夜成人网| 神马欧美一区二区| 91精品国产黑色瑜伽裤| 欧美剧情片在线观看| 日本wwww色| 精品国产99| 久久久最新网址| 一级黄色大片免费| 91啪九色porn原创视频在线观看| 日本特级黄色大片| 456亚洲精品成人影院| 精品嫩草影院久久| 波多野结衣欲乱| 亚洲日本国产| 18成人在线| 尤物网在线观看| 欧美色播在线播放| 白丝校花扒腿让我c| 五月久久久综合一区二区小说| 欧美一级视频在线观看| 国产福利免费视频| 国产精品嫩草影院av蜜臀| 日韩精品xxxx| 成午夜精品一区二区三区软件| 日韩中文第一页| 无码人妻久久一区二区三区不卡| 粉嫩13p一区二区三区| 中文字幕中文字幕在线中一区高清 | 首页国产精品| 欧美专区日韩视频| 色婷婷综合视频| 一区二区三区中文免费| jizz大全欧美jizzcom| 国产精品探花在线观看| 欧美一级淫片播放口| 手机看片一区二区| 午夜精品福利一区二区三区蜜桃| xxxx视频在线观看| 欧美日本二区| αv一区二区三区| 中文字幕有码在线观看| 欧美日韩精品欧美日韩精品一综合| 97超碰在线免费观看| 亚洲成人原创| 精品999在线观看| 国产在线观看www| 亚洲精品成a人在线观看| 国产午夜福利精品| 播五月开心婷婷综合| 久久黄色片视频| 日韩极品少妇| 欧美中在线观看| 国产1区2区3区在线| 欧美这里有精品| 国产wwwwxxxx| 狠狠久久亚洲欧美| 国产又粗又长又爽视频| eeuss国产一区二区三区四区| 欧美激情一区二区三区高清视频| 亚洲精品一区二区三区蜜桃| 亚洲国产乱码最新视频| 中文字幕在线永久| 模特精品在线| 天堂社区 天堂综合网 天堂资源最新版| 日韩精品免费观看视频| xxxx性欧美| 精品国产伦一区二区三区| 亚洲一区二区三区不卡国产欧美 | 久久综合999| 亚洲五月天综合| 久久精品影视| 国产精品久久久久免费| 裤袜国产欧美精品一区| 少妇激情综合网| www.超碰在线.com| 欧美日韩国产色| 精品无码人妻一区二区免费蜜桃| 麻豆一区二区三| 欧美精品卡一卡二| 免费看av成人| 亚洲a级在线播放观看| 麻豆视频在线观看免费网站黄| 亚洲欧洲第一视频| 国产免费黄色大片| 精品日本高清在线播放| 久久免费手机视频| 成人网男人的天堂| 国产wwwxx| 激情综合视频| 亚洲人成网站在线播放2019| 99re6热只有精品免费观看| 欧美最猛性xxxx| av观看在线| 亚洲视频在线免费看| 国产黄色美女视频| 91久久线看在观草草青青| 久久免费看少妇高潮v片特黄| 99精品视频在线播放观看| 国产日韩欧美久久| 亚洲在线国产日韩欧美| mm131午夜| 精品视频99| 国产欧美日本在线| 在线成人免费| 国产精品7m视频| heyzo高清国产精品| 色偷偷噜噜噜亚洲男人| 五月婷婷丁香花| 欧美一区二区三区视频免费 | 看电视剧不卡顿的网站| www.com毛片| 欧美日韩一区二区国产| 天堂一区二区三区| 久久最新网址| 精品久久久久亚洲| 在线日韩成人| 亚洲最大成人网色| 国产日本久久| 国产精品电影在线观看| www.综合网.com| 久久久www成人免费精品| 国产一级网站视频在线| 日韩av在线精品| 亚洲国产精彩视频| 欧美一区二区三区四区久久| 怡春院在线视频| 91福利资源站| 免费看一级视频| 欧美日韩亚洲高清| 日本在线视频免费观看| 亚洲精品福利视频网站| www.97视频| 国产精品久久777777| a资源在线观看| 欧美经典一区二区| 日本美女xxx| 欧美韩日一区二区三区四区| 亚洲成人网在线播放| 久久久久久久综合狠狠综合| 久久国产精品无码一级毛片| 99免费精品视频| 中文在线永久免费观看| 暴力调教一区二区三区| jlzzjizz在线播放观看| 99re热这里只有精品免费视频| 污污污www精品国产网站| 成人亚洲精品久久久久软件| 中文字幕第九页| www.亚洲色图.com| a天堂视频在线观看| 99久久99久久精品免费看蜜桃| 久久久久久久无码| 久久精品人人爽人人爽| 日韩免费成人av| 中文字幕一区二区三区不卡| 久久免费看少妇高潮v片特黄| 亚洲精品国产无套在线观| 免费中文字幕视频| 污片在线观看一区二区| 国产精品777777| 欧美影院精品一区| 国产精品区在线观看| 欧美成人福利视频| 五月婷中文字幕| 亚洲网址你懂得| 黄网站免费在线观看| 欧美人与物videos| 日本不卡网站| 国产精品欧美久久久| 91嫩草国产线观看亚洲一区二区| 97久草视频| 午夜精品福利影院| 亚洲资源在线网| 亚洲午夜精品久久久久久app| 人妻熟妇乱又伦精品视频| 日本vs亚洲vs韩国一区三区二区 | 久久国产色av免费观看| 蜜臀a∨国产成人精品| 亚洲黄色片免费看| 99re6这里只有精品视频在线观看| 瑟瑟视频在线观看| √…a在线天堂一区| 日本中文字幕在线免费观看| 在线影院国内精品| 国产xxxxxx| 亚洲欧美日韩国产中文| 超碰在线caoporn| **欧美日韩vr在线| 亚洲欧美综合久久久久久v动漫| 成人av蜜桃| 伊人春色精品| 国产欧美久久久久| 免费高清在线一区| 久久久高清视频| 国产精品欧美精品| 日韩免费视频网站| 欧美精品一级二级| 青青草视频在线免费观看| 久久成人精品一区二区三区| 无码小电影在线观看网站免费 | 中文字幕欧美人妻精品一区| 精品在线观看免费| 91精彩刺激对白露脸偷拍| 亚洲精品高清在线观看| 伊人久久国产精品| 日韩的一区二区| 日韩三级免费| 成人美女av在线直播| 欧美热在线视频精品999| 国产一二三区在线播放| 久国产精品韩国三级视频| 9.1成人看片免费版| 亚洲一级电影视频| av中文字幕播放| 少妇激情综合网| se01亚洲视频| 久久久久久高清| 亚洲精品字幕| 大尺度在线观看| 亚洲免费av网站| 国产男人搡女人免费视频| 日韩av在线最新| 高清电影在线免费观看| 亚洲www在线观看| 91精品一区国产高清在线gif| 日本激情视频在线| 国产亚洲婷婷免费| 精品人妻一区二区三区免费看| 精品捆绑美女sm三区| 97超碰在线公开在线看免费| 国产日韩欧美在线看| 精品理论电影在线| 成人免费毛片播放| 国产亚洲综合色| 青青视频在线免费观看| 亚洲乱码国产乱码精品精| 亚洲黄色免费av| 乱色588欧美| 美女久久一区| 女人又爽又黄免费女仆| 色狠狠综合天天综合综合| 免费成人av电影| 国产精品久久久久久av福利软件| 亚洲精品**不卡在线播he| 六月丁香激情网| 91视视频在线观看入口直接观看www | 97超碰色婷婷| 神马香蕉久久| 人妻丰满熟妇av无码区app| 久久精品人人做人人爽人人| 国产三级理论片| 日韩在线视频观看正片免费网站| 久久免费影院| 中文字幕乱码免费| 大美女一区二区三区| 99久在线精品99re8热| 亚洲欧美日韩高清| 成人av色网站| av磁力番号网| 成人精品一区二区三区四区| 日韩av男人天堂| 亚洲欧美中文字幕| 国产一区精品福利| 红桃一区二区三区| 成人av在线电影| 国产亚洲欧美日韩高清| 日韩亚洲一区二区| 99re91这里只有精品| 97av视频在线观看| 国产精品灌醉下药二区| 精品人妻一区二区三区日产乱码| 国产69精品久久久| 精品理论电影在线| 极品人妻一区二区| 色综合久久综合中文综合网| 99视频在线观看地址| 18成人在线| 久久一区二区三区超碰国产精品| 欧美大片xxxx| 日韩激情在线视频| 不卡精品视频| 黑人糟蹋人妻hd中文字幕| 中文字幕一区二区三区色视频| 日韩中文字幕综合| 国产精品美女免费| 影音先锋亚洲精品| 成人黄色短视频| 亚洲激情视频在线播放| a一区二区三区亚洲| av网站在线观看不卡| 亚洲三级小视频| 九色视频成人自拍| 国产精品日韩一区二区| 久久精品国产色蜜蜜麻豆| 青青草成人av| 久久中国妇女中文字幕|