精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-4o攻破ARC-AGI無法被挑戰的神話!71%準確率成新SOTA

發布于 2024-6-21 13:00
瀏覽
0收藏

ARC-AGI是唯一可以用來衡量通用人工智能進展的基準,創造者Fran?ois Chollets曾經擲下豪言——


「它不可能輕易被擊敗!」


為了測試這一點,他于2020年在 Kaggle(Google LLC旗下的數據科學競賽平臺)上主辦了首屆ARC-AGI競賽。


獲勝團隊icecuber在測試集上僅取得了21%的成功率,這個成績強有力地證明了Fran?ois的斷言是正確的。


此后幾年,來自世界各地的挑戰者不斷刷新這個紀錄,但進展緩慢。ARC-AGI似乎成為了一座不可跨越的高山。


可是這周二,ARC-AGI基準無法被挑戰的神話被GPT-4o撼動了!GPT-4o以在公共測試集50%、在訓練集的保留子集71%的準確率成為了新的SOTA!

GPT-4o攻破ARC-AGI無法被挑戰的神話!71%準確率成新SOTA-AI.x社區

ARC-AGI上周被大肆宣傳為LLM無法解決的基準。這個說法激發了我親愛的同事Ryan Greenblatt的斗志,因此他上周試圖用 LLMs 來解決這個問題。Ryan在一組示例中獲得了 71% 的準確率,而人類的準確率為 85%;這(GPT-4o)是SOTA。

GPT-4o攻破ARC-AGI無法被挑戰的神話!71%準確率成新SOTA-AI.x社區

這個消息也迅速登上了HN熱搜榜。

GPT-4o攻破ARC-AGI無法被挑戰的神話!71%準確率成新SOTA-AI.x社區

值得一提的是,今年Mike Knoop、Fran?ois和Lab42聯手創建了2024年ARC獎,獎金池超過110萬美元。


為了完成這個挑戰,Ryan放棄了一個星期的項目,設計了很多花哨的技巧,爭取了高性能:


訓練集:71% vs. 人類基線 85%

測試集:51% vs. 之前的 SOTA 34%(人類基線未知)


但遺憾的是,此提交不符合 ARC-AGI 獎項和主要排行榜的資格,因為它使用閉源模型和過多的運行時計算。


可能Ryan會提交到私人排行榜中吧。


什么是ARC-AGI?

ARC-AGI的數據集由視覺問題組成,輸入輸出示例是由彩色單元格組成的網格,任務是猜測從輸入到輸出的轉換規律,然后補全缺失的網格。

GPT-4o攻破ARC-AGI無法被挑戰的神話!71%準確率成新SOTA-AI.x社區

看起來很簡單對吧,就像是小學的奧數題,讓GPT-4o來解決也并不困難。


不過,公共測試集中的任務要難得多,對于人類來說,也會有些棘手,但并非不可解決。

每一項ARC-AGI任務都是經過人工驗證的,包括公共測試集,確保ARC-AGI的所有任務都可以由人類解決。


畢竟這是一個通用人工智能基準,如果連人類自己都難倒了,那拿去測試LLM也說不過去。


據報道,亞馬遜土耳其機器人( Amazon Mechanical Turk,MTurk) 訓練分布的人類基線是85%,但沒有針對公開測試集的人類基線,不過我們已知的是,公開測試集更難,那么針對公開測試集的人類基線應該會更低。


Ryan給出了測試集中的一些代表性的問題,以及他基于GPT-4o的解決方案是否回答正確。

問題1:

GPT-4o攻破ARC-AGI無法被挑戰的神話!71%準確率成新SOTA-AI.x社區

問題2:

GPT-4o攻破ARC-AGI無法被挑戰的神話!71%準確率成新SOTA-AI.x社區

問題3:

GPT-4o攻破ARC-AGI無法被挑戰的神話!71%準確率成新SOTA-AI.x社區

從Ryan給出的這3個例子中可以看出,GPT-4o答對了三分之一。(跟小編的勝率一樣,前2個圖密密麻麻,沒看出個所以然來…)

怎么讓GPT-4o做到的

Ryan的解決方案的主要思路非常簡單:讓GPT-4o生成約8000個嘗試實現轉換的python程序,選擇一個在所有示例(通常有 3 個示例)中都正確的程序,然后提交該函數應用于額外測試輸入時產生的輸出。


Ryan以圖像和各種ASCII表示形式向GPT-4o展示了該問題。


這種方法在本質上與AlphaCode中應用的方法類似,在AlphaCode中,一個模型會生成數百萬個試圖解決編程問題的完成項,然后對這些完成項進行匯總,以確定要提交的內容。

從更高層次上來解釋,Ryan使用的方法是:


  • 向GPT-4o介紹ARC-AGI 的問題,并為問題中的每個網格提供圖像表示法和各種文本表示法。
  • 指導GPT-4o推理背后的規律,進一步推理如何用代碼實現轉換,最后用代碼實現。
  • 使用幾次提示以及幾個精心手寫的分步推理示例來實際讓GPT-4o有效地進行此推理。生成的提示通常長度約為30k個token(包括圖像)。
  • 從GPT-4o中抽取大量的完成樣本(每個問題約5000個)。
  • 針對每個問題選取最有希望的12個補全,然后通過向GPT-4o展示該程序在示例中的實際輸出,并要求GPT-4o修改代碼使其正確,從而嘗試修復每個補全。
  • 然后,根據對正確示例程序的多數投票結果,選出3個提交程序。


概括來說,Ryan通過足夠長的、精雕細琢的少樣本提示,生成許多可能的Python程序,從大約5k個猜測中,使用示例選出最佳猜測,然后進行調試。


除了對訓練集進行迭代外,Ryan還對公共測試集的100個問題子集進行了少量迭代。


在這里介紹的所有結果都是在不重疊的公共測試集的另一個子集上計算得出的。


訓練集和測試集不是獨立的,而且測試集的難度更大,因此使用測試集的子集進行迭代有助于快速更好地了解問題隨難度的變化。


不幸的是,這些測試集不是獨立同分布(Independent Identically Distribution,IID):這使得迭代變得更加困難和混亂。


關于方法的更多細節,以及完整的解決方案,可以參閱項目的GitHub:

GPT-4o攻破ARC-AGI無法被挑戰的神話!71%準確率成新SOTA-AI.x社區

??https://github.com/rgreenblatt/arc_draw_more_samples_pub??

采樣每增加一倍,精度提高3%

?

如果有更多的采樣,性能會有所提高嗎?


答案是會的!


縮放Python采樣數量可以可靠地提高性能,每增加一倍,精度提高3%。


而且這距離AlphaCode使用的數百萬個樣本還很遠!

GPT-4o攻破ARC-AGI無法被挑戰的神話!71%準確率成新SOTA-AI.x社區

GPT-4o存在的非推理弱點

  • GPT-4o看不清楚。GPT-4o在網格上的視力很糟糕,當被要求描述一個較大的網格中的內容時,它通常無法正確「看清」輸入,并陳述有關某些位置的顏色或存在的形狀的錯誤事實。
  • GPT-4o不太擅長編碼(特別是對于此類幾何操作問題),并且經常犯一些簡單的錯誤,例如差一錯誤(Off-by-one error,OBOE)。
  • 當上下文中的token超過32k時,其性能會下降。

消除這些非推理弱點將顯著提高解決方案的性能,而這些問題似乎很可能通過規模化(scalling)來解決。

距離ARC-AGI大獎還有多遠?

如何才能達到ARC-AGI所設定的85%的大獎目標呢?

GPT-4o攻破ARC-AGI無法被挑戰的神話!71%準確率成新SOTA-AI.x社區

Ryan做出了非常「數據化」的預測。


70% 的可能性:一個由3名頂尖ML工程師組成的團隊,通過微調GPT-4o(包括 SFT 和 RL)、1000萬美元的計算量和1年的時間,可以使用 GPT-4o 超越MTurk 85%的人類基線(簡單訓練集)。


35% 概率:在上述同等條件下,公共測試集上的概率也可達85%。目前還不清楚哪些人在測試集上的表現 >=85%,盡管這對于聰明的人來說可能并不難。

80% 的概率:下一代多模態大模型(例如 GPT-5)將能夠大幅提高 ARC-AGI 的性能。

LLM有學習能力嗎


Ryan引用了Fran?ois Chollets的一段話——

如果你是對的(LLMs可以進行情境學習),那么,LLMs在ARC謎題上會表現得很好,因為 ARC 謎題并不復雜。你不需要認真思考它,它們實際上對人類來說非常明顯。

即使是孩子也可以做到,但LLMs不能。即使 LLMs 的知識比你多100,000倍,仍然做不到。ARC唯一的特殊之處在于它的設計初衷就是為了抵制記憶。這是 LLM性能的巨大障礙。

如果仔細觀察LLMs,很明顯他們并沒有真正即時合成新程序來解決他們面臨的任務。

Ryan則認為,LLMs在進行上下文學習時實際上做了一些相關的「學習」。

盡管整體性能非常弱,遠遠不如人類(否則他就不需要在他的解決方案中抽取數千個樣本),但這仍然是一種學習。


「我的觀點并不是說GPT-4o相對于人類來說是聰明的,但我確實認為它是具有『智能』的。」


本文轉自AI生成未來 ,作者:庸庸 喬楊


原文鏈接:??https://mp.weixin.qq.com/s/0JPpSSk6kqgz6FEdzJwNuQ??

收藏
回復
舉報
回復
相關推薦
国产一级特黄a大片免费| 国产一级精品aaaaa看| 亚洲av毛片基地| 黄色成人小视频| 亚洲欧洲综合另类| 国产一区再线| 一本一道精品欧美中文字幕| 中文无码久久精品| 亚洲精品一区二区三区婷婷月| 浓精h攵女乱爱av| 日本aa在线| 久久婷婷久久一区二区三区| 国产精品视频区1| 国产午夜福利精品| 久久福利影院| 亚洲激情在线观看| 一区二区三区四区毛片| 美女网站在线看| 国产精品看片你懂得| 国产乱码精品一区二区三区日韩精品| 在线观看中文字幕av| 亚洲一级网站| 久久国产精品电影| 欧美丰满美乳xxⅹ高潮www| 日韩欧美中文字幕一区二区三区| 色综合久久88色综合天天| 天天综合五月天| 欧洲亚洲精品视频| 懂色av一区二区三区蜜臀| 国产欧美va欧美va香蕉在线| 亚洲另类在线观看| 伊人成人在线| 欧美黄色片在线观看| 国产传媒视频在线| 久操成人av| 亚洲黄页网在线观看| 毛毛毛毛毛毛毛片123| av成人在线看| 色婷婷综合久久久| 国内自拍在线观看| heyzo高清国产精品| 伊人婷婷欧美激情| 性欧美18一19内谢| 欧美私人网站| 国产精品国产自产拍高清av王其 | 欧美精品在线观看91| 美女脱光内衣内裤| 在线看成人短视频| 日韩精品视频在线播放| 日韩Av无码精品| 成人线上播放| 亚洲国产日韩欧美在线图片| 性猛交╳xxx乱大交| 欧美久久一区二区三区| 91精品国产91久久久久久最新毛片| xx欧美撒尿嘘撒尿xx| 高清av一区| 欧美色图片你懂的| 日韩一区二区三区久久| 久久久久久一区二区三区四区别墅| 欧洲视频一区二区| 乌克兰美女av| **欧美日韩在线| 717成人午夜免费福利电影| 天天看片天天操| 99久热在线精品视频观看| 欧美一区日韩一区| 香蕉在线观看视频| 欧美人妖在线观看| 亚洲无限av看| 久久久久亚洲AV成人无在 | 国产99久久精品| 国产精品久久久久久免费观看| 一区二区视频播放| 国产一级精品在线| 国产精品久久久久久久久久久久冷| 噜噜噜久久,亚洲精品国产品| 成人短视频下载| 欧美国产一区二区在线| 美女毛片在线看| 亚洲欧美在线aaa| 成人午夜免费在线视频| 国产精品论坛| 欧美午夜精品一区| 一起草最新网址| 秋霞蜜臀av久久电影网免费| 亚洲一区二区福利| 麻豆成人在线视频| 久久一区激情| 96精品久久久久中文字幕| 成人久久久精品国产乱码一区二区| 99久久精品国产麻豆演员表| 水蜜桃一区二区| 日韩精品亚洲人成在线观看| 狠狠躁夜夜躁久久躁别揉| 色综合手机在线| 视频一区中文字幕精品| 亚洲欧美日韩一区二区在线| 精品无码一区二区三区蜜臀| 亚洲视频高清| 国产精品视频公开费视频| 国产综合视频在线| 日本一区二区不卡视频| www.日本在线视频| 久久xxx视频| 精品国精品自拍自在线| www.日本高清视频| 亚洲经典在线| 91九色视频在线| 可以在线观看的av网站| 亚洲精品国产精华液| 精品久久久噜噜噜噜久久图片 | 丰满大乳少妇在线观看网站| 91电影在线观看| 美国黄色一级视频| 久久在线免费| 日本国产欧美一区二区三区| www.五月激情| 国产精品国产三级国产aⅴ中文| 久久av综合网| 91丨精品丨国产| 在线观看精品自拍私拍| 青青草免费观看视频| 国产a区久久久| 欧美日韩在线免费观看视频| 日韩国产网站| 日韩成人在线视频网站| 久久久国产精品人人片| 久久成人免费网站| 日韩亚洲视频| 欧美色网一区| 日韩精品在线看| 欧美成人aaaaⅴ片在线看| 国产一区二区伦理| 亚洲春色综合另类校园电影| 精品国产免费人成网站| 亚洲精品ady| 国语对白一区二区| 国产一区二区三区精品欧美日韩一区二区三区| 日本午夜精品电影| av有声小说一区二区三区| 亚洲男人av电影| 国产又大又黄又粗| 91农村精品一区二区在线| 男人添女人下部高潮视频在观看| 亚洲电影一区| 欧美精品生活片| 亚洲精品一区二区三区新线路| 中文字幕一区二区三区在线观看| 五月婷婷丁香色| 欧美hentaied在线观看| 国产在线观看91精品一区| 日本不卡不卡| 777欧美精品| 91高清免费观看| 国产一区 二区 三区一级| 中文字幕の友人北条麻妃| 日韩中文字幕无砖| 久久久噜噜噜久久久| 日本波多野结衣在线| 五月天丁香久久| 亚洲一区二区三区蜜桃| 日精品一区二区三区| 日韩资源av在线| 久久精品97| 久久精品中文字幕免费mv| va婷婷在线免费观看| 亚洲午夜激情av| 香蕉视频黄色在线观看| 日韩精品一级二级| eeuss中文| 风间由美性色一区二区三区四区 | 久久综合九色综合久99| 欧洲亚洲两性| 按摩亚洲人久久| 丰满人妻一区二区三区四区53 | 中文字幕在线观看免费| 成人免费在线视频观看| 美女露出粉嫩尿囗让男人桶| 欧美一级久久| 国产成人精品免费看在线播放| 一区二区亚洲视频| 日韩免费中文字幕| 成人黄色网址| 亚洲欧洲视频在线| 国产强被迫伦姧在线观看无码| 亚洲一区二区三区四区中文字幕| 国产激情在线免费观看| 蜜臀99久久精品久久久久久软件| 神马午夜伦理影院| 免费观看不卡av| 91久久国产精品| 伊人久久在线| 另类少妇人与禽zozz0性伦| 性xxxxbbbb| 欧美电影一区二区三区| 日韩精品久久久久久久酒店| 中文字幕免费观看一区| 中文字幕第3页| 美女脱光内衣内裤视频久久影院| 日本一本中文字幕| 日韩欧美自拍| 另类欧美小说| 亚洲一区二区三区在线免费| 国产精品成熟老女人| 国产亚av手机在线观看| 色妞一区二区三区| 婷婷色在线观看| 日韩一区二区三区免费看| av片免费观看| 亚洲18色成人| 日韩视频中文字幕在线观看| 久久精品视频网| 蜜臀aⅴ国产精品久久久国产老师| 日本免费新一区视频| 亚洲熟妇无码另类久久久| 99久久精品网站| 奇米888一区二区三区| 另类ts人妖一区二区三区| 91中文精品字幕在线视频| 经典三级一区二区| 欧美一级片在线播放| 国产丝袜在线观看视频| 久久综合伊人77777蜜臀| av在线二区| 亚洲免费成人av电影| 香蕉av一区二区三区| 欧美精品一区二| av加勒比在线| 欧美日韩国产高清一区二区三区 | 欧美一级一区二区| 亚洲午夜激情视频| 欧美性生交片4| 亚洲国产av一区二区三区| 精品国产91久久久久久| 久久精品第一页| 亚洲主播在线播放| 九九热国产精品视频| 亚洲激情欧美激情| 久久久久亚洲AV成人| 亚洲色图欧洲色图婷婷| 91传媒免费观看| 亚洲欧洲成人自拍| 日本在线一级片| 综合欧美亚洲日本| 极品魔鬼身材女神啪啪精品| 国产精品久久久久9999吃药| 福利视频第一页| 国产精品乱人伦| 99自拍视频在线| 亚洲免费观看高清完整版在线观看熊 | 亚洲自拍偷拍视频| 国产精品国产三级在线观看| 91丝袜美腿美女视频网站| 成人激情久久| 91精品黄色| 欧美日韩一区二区三区四区不卡| 国产视频99| 少妇久久久久| 日本不卡一区| 色中色综合网| 中文字幕一区二区三区四区五区人| 国产精品黑丝在线播放| 色乱码一区二区三区熟女| 国产伊人精品| www.浪潮av.com| 日韩成人av影视| 一级做a免费视频| 高清国产一区二区| 亚洲av无码一区二区三区观看| 久久久久久久电影| 羞羞在线观看视频| 亚洲一区二区偷拍精品| 天码人妻一区二区三区在线看| 欧美午夜电影一区| 99精品国产99久久久久久97| 欧美精品一区二区不卡 | 久久精子c满五个校花| 阿v天堂2014| 一区二区视频在线| 国产精品一区无码| 欧美精品日韩精品| 天天爱天天干天天操| 中文字幕精品一区二区精品| 色操视频在线| 国产97免费视| 日韩区一区二| 日本精品免费| 欧美日韩久久| 999精品视频在线| 成人精品视频一区二区三区尤物| 亚洲 小说 欧美 激情 另类| 亚洲人午夜精品天堂一二香蕉| 午夜精品久久久久久久久久久久久蜜桃| 欧美性生交xxxxxdddd| 国产精品一区二区三区在线免费观看| 亚洲精品一区二区三区99| 成人免费在线电影| 久久男人av资源网站| 日韩黄色三级在线观看| 黑人巨大精品欧美一区二区小视频| 日韩欧美一区二区三区免费看| 成人一对一视频| 精品一区二区影视| 性色av蜜臀av色欲av| 亚洲精品久久7777| 中文字幕在线播放不卡| 亚洲精品美女免费| 性欧美videoshd高清| 国产精品久久久久久久久久免费| 福利欧美精品在线| 中文字幕日韩一区二区三区 | 538国产精品一区二区在线| 91麻豆精品| 日韩和欧美的一区二区| 日韩亚洲国产欧美| 一个人看的视频www| 国产精品免费网站在线观看| 国产精品第9页| 日韩欧美中文字幕一区| 日本欧美在线视频免费观看| 日本一区二区三区在线播放| 国产一区二区三区亚洲| 久久久久亚洲av无码专区喷水| 蜜臀99久久精品久久久久久软件| 亚洲国产欧美视频| 亚洲成人av免费| 亚洲国产精品二区| 欧美国产激情18| 精品一区二区三区在线观看视频| 日本一区免费| 日韩av在线播放中文字幕| 人妻少妇精品视频一区二区三区| 亚洲一卡二卡三卡四卡| 国产成人精品亚洲精品色欲| 精品国产欧美成人夜夜嗨| 日本美女久久| 亚洲日本欧美在线| 另类人妖一区二区av| 少妇太紧太爽又黄又硬又爽小说| 欧美四级电影网| 成人在线观看网站| 国产精品日韩av| 成人观看网址| 久久精品视频一区二区| 国产精品爱久久久久久久| 国产中文字幕久久| 国产蜜臀97一区二区三区| 亚洲天堂一区在线观看| 亚洲激情视频在线| 天堂在线中文网官网| 久久精品国产综合精品| 国产精品丝袜xxxxxxx| 一本色道综合久久欧美日韩精品| 天天综合色天天综合色h| 天天射天天色天天干| 欧美一级bbbbb性bbbb喷潮片| 日韩大片在线免费观看| 波多野结衣乳巨码无在线| 91在线观看一区二区| 少妇高潮av久久久久久| 亚洲天堂av电影| a成人v在线| 美国av在线播放| 福利视频网站一区二区三区| 国产精品99无码一区二区| 亚洲精品国产精品国自产观看浪潮| 黄色在线网站噜噜噜| 欧美精品一区在线| 麻豆精品一区二区| 色在线观看视频| 亚洲国产精品成人va在线观看| 久热在线观看视频| 欧美中日韩免费视频| 精品一区二区三区欧美| 黄色一级免费视频| 精品亚洲一区二区三区在线播放 | 国产成人精品亚洲| 精品国模在线视频| www.爱久久| 国产情侣av自拍| 亚洲手机成人高清视频| 国产 欧美 自拍| 国产精品1区2区在线观看| 围产精品久久久久久久| 青青草视频网站| 欧美日韩精品免费观看视频| 日本色护士高潮视频在线观看| 久久国产主播精品| 精品中文字幕一区二区| 国产在线视频第一页| 亚洲新中文字幕| 午夜精品在线| 91激情视频在线| 亚洲资源在线观看| 午夜视频成人| 久久爱av电影| 国产精品自拍毛片| 小泽玛利亚一区二区三区视频| 九九九久久国产免费|