精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-5慘遭零分打臉,頂級(jí)AI全軍覆沒!奧特曼AI博士級(jí)能力神話破滅

人工智能 新聞
頂級(jí)大模型在AAI提出的FormulaOne基準(zhǔn)集體翻車:三層難度遞進(jìn),GPT-5進(jìn)階題僅約4%正確,最深層零分;Grok 4、o3 Pro全部失手。該基準(zhǔn)以圖上MSO邏輯與動(dòng)態(tài)規(guī)劃生成問題,貼近路徑規(guī)劃等現(xiàn)實(shí)優(yōu)化,旨在衡量超越競(jìng)賽編程的算法推理深度。

奧特曼在GPT-5的發(fā)布會(huì)上曾說過一個(gè)結(jié)論。

「以后每個(gè)人的兜里都有一個(gè)博士級(jí)AI隨時(shí)隨地的提供建議」。

GPT-5的發(fā)布后也被全球的瘋狂實(shí)測(cè),API使用量暴增。

當(dāng)然,有些討論重點(diǎn)關(guān)注的是「還我GPT-4o」這種情緒化的能力方面。

但重點(diǎn)是,奧特曼一直強(qiáng)調(diào),GPT-5有「博士級(jí)」推理能力。

這事兒,真的靠譜嗎?

這不,一個(gè)叫FormulaOne的硬核測(cè)試,就讓世界上這些最頂級(jí)的模型「現(xiàn)了原形」。

FormulaOne題目分三關(guān),一關(guān)比一關(guān)難。

論文地址:https://arxiv.org/pdf/2507.13337

結(jié)果呢?有點(diǎn)扎心了。

基礎(chǔ)題,AI們還算頂?shù)米。_率還可以,唯一一個(gè)GPT-5能接近50%。

可到了進(jìn)階題,畫風(fēng)突變。

就算是GPT-5,也只做對(duì)了4%。其他模型更是慘不忍睹。

至于最難的「最深層問題」部分?所有模型,全軍覆沒。直接交了白卷,全部零分。

FormulaOne測(cè)試基準(zhǔn)給自己取名字叫做:超越競(jìng)賽編程的算法推理深度測(cè)量。

這是由一家名為AAI的公司出品的,他們的官網(wǎng)是:doubleai.com。

公司是由Mobileye聯(lián)合創(chuàng)始人、希伯來大學(xué)教授Amnon Shashua發(fā)起的科研向AI創(chuàng)業(yè)公司,2023年8月在耶路撒冷成立,長(zhǎng)期「半隱身」。

Amnon Shashua曾于2020年榮獲丹·大衛(wèi)獎(jiǎng)(Dan David Prize)人工智能領(lǐng)域的獲獎(jiǎng)?wù)撸⒂?022年被汽車名人堂(Automotive Hall of Fame)評(píng)為移動(dòng)創(chuàng)新者。

1999年,Shashua聯(lián)合創(chuàng)立了Mobileye,該公司于2014年成為以色列歷史上規(guī)模最大的IPO。

2017年,公司被Intel以153億美元收購(gòu)。

2022年,公司再次于納斯達(dá)克證券交易所上市。

AI必須硬核

現(xiàn)在的AI離真正的專家,到底還有多遠(yuǎn)?

真正的專家,那可是要解決硬核難題的,他們是推動(dòng)科學(xué)邊界的人。

所以,得給AI上點(diǎn)真正的強(qiáng)度了。

目前的基準(zhǔn)測(cè)試往往無法完整描繪出人工智能理解的深度。

盡管最近取得了一些顯著成就,例如OpenAI在CodeForces上獲得了2724的評(píng)分,或是在國(guó)際信息學(xué)奧林匹克競(jìng)賽中獲得金牌。

但這些成績(jī)?nèi)匀谎谏w了一個(gè)令人清醒的現(xiàn)實(shí):為這些競(jìng)賽磨煉出的技能,并不能涵蓋解決大規(guī)模現(xiàn)實(shí)世界研究問題所需的全部推理能力。

例如優(yōu)化全球供應(yīng)鏈、管理大規(guī)模電網(wǎng)、設(shè)計(jì)具有彈性的網(wǎng)絡(luò)基礎(chǔ)設(shè)施等任務(wù)要困難多個(gè)數(shù)量級(jí),它們所需的算法洞察力遠(yuǎn)遠(yuǎn)超出了典型競(jìng)技編程的范疇。

FormulaOne包含220個(gè)新穎的、基于圖的動(dòng)態(tài)編程問題。這些問題分為三個(gè)類別,從適中的難度到研究級(jí)別的難度不等。

FormulaOne是一個(gè)處于圖論、邏輯和算法交叉點(diǎn)的基準(zhǔn)測(cè)試,完全在前沿模型的訓(xùn)練分布范圍內(nèi)。

這些問題極具挑戰(zhàn)性,需要一系列推理步驟,涉及拓?fù)浜蛶缀味床臁?shù)學(xué)知識(shí)、組合考慮、精確實(shí)現(xiàn)等。

FormulaOne具有三個(gè)關(guān)鍵特性。

  • 第一,它具有商業(yè)價(jià)值,與實(shí)際的大規(guī)模優(yōu)化問題相關(guān),例如路徑規(guī)劃、調(diào)度和網(wǎng)絡(luò)設(shè)計(jì)中出現(xiàn)的問題。
  • 第二,它生成自圖上的單一二階(Monadic Second-Order,MSO)邏輯這一高度表達(dá)的框架,為大規(guī)模自動(dòng)問題生成鋪平了道路——非常適合構(gòu)建強(qiáng)化學(xué)習(xí)(RL)環(huán)境。
  • 第三,許多問題與理論計(jì)算機(jī)科學(xué)的前沿以及其中的核心猜想密切相關(guān),例如強(qiáng)指數(shù)時(shí)間假設(shè)(Strong Exponential Time Hypothesis,SETH)。

為什么模型在「deepest」(最深層)任務(wù)上會(huì)出現(xiàn)概念崩潰,即使它們?cè)谒惴ň幊谈?jìng)賽中達(dá)到了超越人類頂尖選手的水平?

「deepest」層級(jí)的問題需要非常深入的推理能力,而這是現(xiàn)有模型根本無法做到的。

FormulaOne可能需要一種定性不同的方法,正通過一個(gè)實(shí)時(shí)排行榜評(píng)估框架與社區(qū)分享它。

FormulaOne中的問題都很簡(jiǎn)潔,僅由一兩句話組成,任何本科生都能理解,但解決這些問題卻需要?jiǎng)?chuàng)造力和深入的推理。

雖然這些問題通常很容易描述,但它們的解決方案遠(yuǎn)非顯而易見。這一大類問題的可解性由一個(gè)Courcelle提出的算法元定理所保證,該定理大致表述為:

對(duì)于每個(gè)足夠樹狀的圖,任何可在一種表達(dá)能力強(qiáng)的形式邏輯——單子二階(MSO)邏輯中定義的問題,都可以通過一個(gè)動(dòng)態(tài)規(guī)劃算法來求解,該算法的運(yùn)行時(shí)間與圖的階數(shù)成線性關(guān)系。

FormulaOne中的問題源自一個(gè)單一的無限族:圖上的單階二階(MSO)邏輯。

簡(jiǎn)單來說,這些問題就是圖上的自然動(dòng)態(tài)規(guī)劃問題。 

雖然許多問題在一般情況下是NP難的,但在「樹狀」圖上它們變得易于處理。

在這種情況下,這些問題可以通過一種線性時(shí)間的動(dòng)態(tài)規(guī)劃算法來解決——該算法在一個(gè)稱為「bags」的小圖窗口上進(jìn)行操作。

「包」是使用一種稱為樹分解的結(jié)構(gòu),它將圖的頂點(diǎn)組織成一系列重疊的集合,這些集合本身以樹的形式排列。

然后,算法可以遍歷這個(gè)包(bag)樹,使用動(dòng)態(tài)規(guī)劃逐塊解決該問題。

此過程包括設(shè)計(jì)一個(gè)「狀態(tài)」,用以概括包中部分解決方案的所有必要信息,并定義當(dāng)頂點(diǎn)被引入、遺忘或包被合并時(shí),該狀態(tài)如何轉(zhuǎn)換。

「最深層」級(jí)別問題難在哪里

那么,是什么讓「最深層」級(jí)別的難度遠(yuǎn)高于「淺層」級(jí)別呢?換句話說,如何解釋前沿模型在這些問題上的崩潰?

是因?yàn)閿?shù)據(jù)不足嗎?還是因?yàn)樵趧?dòng)態(tài)規(guī)劃方面的專業(yè)知識(shí)水平較低?

不,前沿模型最近在算法編程競(jìng)賽和奧林匹克競(jìng)賽中已經(jīng)達(dá)到了頂尖人類水平,而動(dòng)態(tài)規(guī)劃(DP)正是這類競(jìng)賽中的關(guān)鍵技術(shù)之一。

相反,像CodeForces中的競(jìng)賽題目通常是這樣構(gòu)建的:一個(gè)人想出一個(gè)非常巧妙的技巧(或者可能兩個(gè)),然后圍繞這個(gè)技巧設(shè)計(jì)一個(gè)問題。

一旦參賽者理解了這個(gè)技巧,通常很快就能寫出一個(gè)簡(jiǎn)短的解決方案。對(duì)于「淺層」階段來說,情況某種程度上也是如此。

相比之下,現(xiàn)實(shí)世界的問題,以及「更深」和「最深」階段的問題,通常涉及多個(gè)不確定的步驟,并且沒有任何簡(jiǎn)單的捷徑可循。

設(shè)計(jì)一個(gè)正確且高效的動(dòng)態(tài)規(guī)劃程序很難。

關(guān)鍵在于每個(gè)包所存儲(chǔ)的信息——「狀態(tài)」。

狀態(tài)設(shè)計(jì)既是一門藝術(shù),也是一門科學(xué)。

狀態(tài)必須足夠豐富,以便在我們從一個(gè)包過渡到下一個(gè)包時(shí)能夠進(jìn)行更新,但同時(shí)又必須足夠簡(jiǎn)潔,以確保計(jì)算上的可行性。 

模型傾向于急切地過度承諾;做出過早且不可逆的決策,而這些決策的無效性往往要到很久之后才會(huì)顯現(xiàn)出來。

隨著不確定性的增加,這種情況會(huì)變得更加明顯。

事實(shí)上,這僅僅是模型所犯的一系列分類錯(cuò)誤之一。

為了幫助理解模型的優(yōu)勢(shì)與不足,每個(gè)FormulaOne問題都由一系列標(biāo)簽進(jìn)行標(biāo)注,代表其核心思想。

那么要突破這個(gè)新基準(zhǔn)需要什么?

雖然GPT-5在「更深」層級(jí)上顯示出一些進(jìn)展跡象,但這種進(jìn)展非常有限,而在「最深」層級(jí)上則完全沒有進(jìn)展。

這可能可以解釋為一種「信號(hào)缺失」,因?yàn)樵凇缸钌睢箤蛹?jí)的問題中存在太多不確定點(diǎn)和需要做出的決策,要讓所有這些都正確對(duì)齊變得異常困難——以至于傳統(tǒng)的訓(xùn)練技術(shù)都失效了。


責(zé)任編輯:張燕妮 來源: 新智元
相關(guān)推薦

2025-09-23 09:13:37

2024-08-12 12:40:40

2025-09-15 09:13:00

2025-09-08 18:08:28

AIClockBenchAGI

2025-07-16 09:18:06

2025-07-07 08:42:00

大模型AIChatGPT

2025-08-15 12:50:19

2025-08-08 09:29:29

2020-09-09 11:32:41

Android漏洞應(yīng)用安全

2024-01-22 13:57:00

模型訓(xùn)練

2024-09-13 12:34:54

2014-10-13 10:04:42

2025-08-08 09:22:40

2018-05-24 14:01:47

服務(wù)器英特爾高通

2025-10-15 09:02:25

2025-08-08 08:19:45

2009-12-03 10:33:27

2025-08-20 09:02:00

2025-09-18 12:41:22

2025-06-09 08:30:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

三级黄色在线视频| 中文字幕无人区二| 黄网页免费在线观看| 国模娜娜一区二区三区| 欧美疯狂做受xxxx高潮| 人妻无码一区二区三区| 亚洲精品自拍| 色综合亚洲欧洲| www国产免费| 福利在线播放| 成人av免费观看| 国产欧美日韩亚洲精品| 黑人巨茎大战欧美白妇| 日本黄色三级视频| 美女在线一区二区| 2019中文字幕在线观看| 澳门黄色一级片| 精品国产成人| 日韩成人中文字幕| 免费高清视频在线观看| 91国拍精品国产粉嫩亚洲一区 | 熟女少妇内射日韩亚洲| 豆花视频一区二区| 欧美一级日韩一级| 一本一道久久a久久精品综合| 最新中文字幕一区| 欧美日韩国产探花| x99av成人免费| 中文字幕 91| 成人欧美大片| 欧美日韩国产精品一区二区不卡中文| 黄色录像特级片| 午夜免费福利在线观看| 国产亚洲1区2区3区| 国产欧美欧洲| 成人免费公开视频| 国产精品一区专区| 91色视频在线观看| 国产精品特级毛片一区二区三区| 日产国产欧美视频一区精品| 69精品小视频| 精品成人无码一区二区三区| 少妇久久久久| 亚洲精品色婷婷福利天堂| 久久人妻少妇嫩草av无码专区| 99a精品视频在线观看| 日韩视频一区二区三区在线播放 | 国产成+人+综合+亚洲欧美| 色悠悠亚洲一区二区| 日本精品一区二区三区四区| 中文字幕成在线观看| 欧美性xxxxx极品| 91免费视频网站在线观看| 中文在线免费二区三区| 色一情一乱一乱一91av| 成人性视频欧美一区二区三区| 成人黄色免费短视频| 欧美激情一区在线观看| 日本精品一区二区三区不卡无字幕| 亚洲欧美日韩精品永久在线| av一区二区三区在线| 九九九九九精品| 中文字字幕在线中文乱码| 日本视频免费一区| 国产日韩精品在线观看| 国产按摩一区二区三区| 中文在线一区| 国产精品www| 国产精品九九九九九九| 影音先锋日韩资源| 日本精品久久久久久久| 中文在线观看av| 国产尤物一区二区在线| 国产精品久久一区二区三区| 色哟哟在线观看| 国产精品乱人伦| 久久久久国产精品视频| 国产天堂在线| 亚洲人123区| 九一国产精品视频| se69色成人网wwwsex| 欧美一区在线视频| 中国极品少妇videossexhd| 国产一区二区三区网| 亚洲精品一区二区三区精华液| chinese麻豆新拍video| 日韩欧美精品一区| 亚洲 日韩 国产第一| 午夜精品久久久久久久蜜桃| 国产很黄免费观看久久| 久久综合毛片| www.欧美日本韩国| 色综合婷婷久久| 熟妇女人妻丰满少妇中文字幕| 亚洲婷婷丁香| 精品少妇v888av| 黄色网址中文字幕| 成人一级视频在线观看| 亚洲精品国产一区| jzzjzzjzz亚洲成熟少妇| 亚洲乱码中文字幕综合| 超碰97人人射妻| 国产激情综合| 亚洲午夜av久久乱码| 免费中文字幕av| 日韩在线第七页| 18性欧美xxxⅹ性满足| 国产绿帽刺激高潮对白| 久久久久国色av免费看影院| 日本一区高清在线视频| 色呦呦呦在线观看| 一区二区三区中文在线| 久久久久免费精品| 老牛影视av一区二区在线观看| 精品国产一区二区三区久久狼5月| 好吊妞视频一区二区三区| 国产伦理精品不卡| 夜夜春亚洲嫩草影视日日摸夜夜添夜| 蜜桃av在线| 日韩精品一区二区三区视频播放 | 手机亚洲第一页| 亚洲宅男天堂在线观看无病毒| 中文字幕国产免费| 精品视频免费| 国产不卡av在线| 波多野结衣在线电影| 成人毛片在线观看| 免费观看亚洲视频| 在线视频成人| 爱福利视频一区| 伊人网中文字幕| 日本一区二区三区四区| 黑鬼大战白妞高潮喷白浆| 欧美精品国产白浆久久久久| 国内精品400部情侣激情| 亚洲卡一卡二卡三| 亚洲一区二区免费视频| 国产老头和老头xxxx×| 一区二区在线| 亚洲最大福利视频网站| 国产视频在线播放| 日韩一区二区影院| 欧美日韩激情在线观看| 东方aⅴ免费观看久久av| 日韩中文字幕在线不卡| 2023国产精华国产精品| 欧美激情videos| 无码国产色欲xxxx视频| 精品国产精品自拍| 黄色正能量网站| 午夜在线精品偷拍| 日本10禁啪啪无遮挡免费一区二区| 中文一区一区三区高中清不卡免费| 精品伊人久久97| www.久久视频| 中文字幕不卡在线观看| 亚洲网中文字幕| 激情91久久| 精品日本一区二区| 川上优的av在线一区二区| 一本久久精品一区二区| 老司机精品免费视频| 国内欧美视频一区二区| 久久综合亚洲精品| 窝窝社区一区二区| 国产精品美女无圣光视频| 最新真实国产在线视频| 欧美一级在线视频| 国产成人愉拍精品久久| 久久精品在这里| 亚洲妇熟xx妇色黄蜜桃| 激情综合激情| 翔田千里亚洲一二三区| 国产高清精品二区| 2019亚洲日韩新视频| 中国日本在线视频中文字幕| 日韩一级精品视频在线观看| 久久久午夜影院| 国产精品国产精品国产专区不蜜| 久草福利在线观看| 日日欢夜夜爽一区| 黄色网在线视频| 色棕色天天综合网| 亚洲最大av网| 丝袜美腿一区| 九九久久久久久久久激情| 看电影就来5566av视频在线播放| 欧美日韩一二三区| 日本免费观看视| 国产精品久线观看视频| 欧美自拍资源在线| 92久久精品一区二区| 一区二区三区在线观看动漫| 精品无码在线视频| 麻豆91在线播放免费| 国产精品久久久久77777| 蜜芽在线免费观看| 欧美在线不卡一区| 久久久精品99| 国产精品色婷婷| 国产伦精品一区三区精东| 老司机午夜精品| 看av免费毛片手机播放 | 热re99久久精品国99热蜜月| 久久国产精品免费一区二区三区| 日本精品视频在线| 国产羞羞视频在线播放| 日韩美女一区二区三区四区| 五月婷婷六月婷婷| 激情av一区二区| 人妻少妇精品一区二区三区| 国产欧美在线观看一区| 国产一级免费片| 国产美女视频91| 狠狠操狠狠干视频| 老妇喷水一区二区三区| 每日在线观看av| 欧美日韩精品免费观看视频完整| 亚洲午夜精品久久久久久浪潮| 亚洲品质自拍| 国产一区二区三区高清视频| 久久99成人| 91精品综合视频| 欧美videos粗暴| 国产精品久久久久久中文字| 中日韩脚交footjobhd| 91精品国产91久久久久| 丁香影院在线| 欧美激情按摩在线| 日韩三级免费| 欧美丰满片xxx777| 伊人福利在线| 欧美男插女视频| 欧洲成人综合网| 欧美日韩xxx| 日本一级理论片在线大全| 蜜月aⅴ免费一区二区三区| 欧洲美女少妇精品| 久久精品国产亚洲精品2020| 色视频在线免费观看| 中文字幕精品www乱入免费视频| 蜜桃视频在线观看视频| 亚洲人永久免费| 国产一二三区在线| 在线国产精品视频| 视频免费一区| 美日韩丰满少妇在线观看| 在线观看操人| 久久久久久成人| 久久影院午夜精品| 青青青国产精品一区二区| 亚洲wwww| 91精品在线影院| 亚洲精品一区二区三区在线| 国产精品免费一区二区三区在线观看| 97人人澡人人爽91综合色| 国产一区再线| 国产午夜一区| 在线看无码的免费网站| 亚洲欧美亚洲| 97干在线视频| 麻豆精品91| 超碰超碰在线观看| 国产麻豆视频精品| 欧美日韩人妻精品一区在线| 久久久久88色偷偷免费| 羞羞在线观看视频| 亚洲图片欧美视频| 日韩欧美在线观看免费| 欧美久久久久久久久久| 国产香蕉视频在线| 在线视频国内一区二区| 国产精品久久久久久无人区 | 污视频在线观看免费网站| 国产91在线|亚洲| 日本新janpanese乱熟| 久久精品久久精品| 日本久久久久久久久久| 国产色产综合色产在线视频| 国产精品嫩草影院俄罗斯| 久久久精品国产99久久精品芒果| 日韩黄色中文字幕| 一区二区三区自拍| 欧美国产一级片| 91精品国产91久久综合桃花| 日韩欧美在线观看一区二区| 日韩视频精品在线| 天堂av在线| 亚洲精品免费网站| 色综合中文网| 蜜臀av色欲a片无码精品一区 | 富二代精品短视频| 中文字幕在线一| 日韩精品在线免费观看| 久草资源在线| 欧亚精品中文字幕| 亚洲高清999| 91啪国产在线| 九一成人免费视频| 777久久精品一区二区三区无码 | 国产成人av在线| 99香蕉久久| 亚洲综合激情五月| 久久亚洲一区| 国产黑丝一区二区| 亚洲免费资源在线播放| 探花国产精品一区二区| 亚洲国产精品成人精品| 国产素人视频在线观看| 国产精品人成电影| 亚洲国产合集| 六月婷婷激情综合| 国产在线不卡一区| a级黄色免费视频| 国产精品短视频| 黄色免费av网站| 精品国产一区二区三区久久久蜜月| 91免费在线| 日本精品一区二区三区在线| 风间由美中文字幕在线看视频国产欧美| 亚洲人体一区| 日韩精品久久久久久| 大黑人交xxx极品hd| 亚洲va欧美va国产va天堂影院| av观看在线免费| 久久久精品国产亚洲| 日本免费成人| 亚洲欧洲在线一区| 日日夜夜免费精品| 国产肥白大熟妇bbbb视频| 欧美日韩国产限制| 天天综合天天色| 97人洗澡人人免费公开视频碰碰碰| 亚洲精品午夜| 国产色一区二区三区| 丁香激情综合五月| 日产欧产va高清| 日韩av在线一区| 午夜伦理福利在线| 欧美国产一二三区| 老司机精品导航| 日本一级免费视频| 欧美影院一区二区| 1区2区3区在线观看| 国产欧美一区二区三区久久人妖 | 欧美一区免费看| 亚洲欧洲日产国码av系列天堂| 欧美18—19sex性hd| 欧美日韩一区二区三区在线观看免| 免费亚洲一区| 国产一级久久久久毛片精品| 欧美伊人久久久久久久久影院| av电影在线播放高清免费观看| 国产欧美精品日韩精品| 91精品综合| www.啪啪.com| 欧美性高潮床叫视频| 国产青青草在线| 国产一区玩具在线观看| 综合一区二区三区| 亚洲精品久久一区二区三区777| 五月激情综合网| 国产日韩精品在线看| 91日本在线观看| 亚洲高清免费| 精品一区二区三区蜜桃在线| 欧美疯狂做受xxxx富婆| www中文字幕在线观看| 麻豆成人在线播放| 久久成人免费网| 中文字幕第28页| 亚洲午夜精品久久久久久性色 | 欧美裸体bbwbbwbbw| 新版中文在线官网| 免费影院在线观看一区| 激情综合色播五月| 国产成人无码精品久在线观看 | 免费av不卡在线观看| 久久久久久九九九九| 精品一区二区在线看| 日韩不卡视频在线| 一区二区欧美亚洲| 99这里只有精品视频| 成人黄色一区二区| 一区二区三区在线看| 国产在线观看网站| 99re资源| 日本视频一区二区三区| 国产精品成人国产乱| 中国china体内裑精亚洲片| 91麻豆精品激情在线观看最新| 亚洲中文字幕久久精品无码喷水| 亚洲欧美另类在线| 精品成人一区二区三区免费视频| 亚洲自拍小视频免费观看| 日韩国产欧美在线观看| 久久9999久久免费精品国产| 中文国产成人精品久久一| 国产一区丝袜| 亚洲制服在线观看|