精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

為何AI“瓶頸論”是一場認知錯覺:基于METR與GDPval的趨勢分析

發(fā)布于 2025-11-21 00:28
瀏覽
0收藏

?核心觀點

當前輿論場中彌漫的“AI泡沫論”與“瓶頸論”,本質(zhì)上是線性思維與指數(shù)級技術(shù)演進之間的認知錯覺。這正如疫情初期的誤判:人們往往因當下的微小瑕疵(模型出錯、幻覺)而無視了底層能力的指數(shù)級爬升。

基于兩份最新的權(quán)威評估報告,我們必須重新校準對AI進程的預(yù)期。核心結(jié)論非常直接:Scaling Law并未失效,AI正在以驚人的速度突破工業(yè)界應(yīng)用的臨界點。

一、雙重證據(jù)驗證:從“代碼深度”到“行業(yè)廣度”

評估AI進步不能僅靠感性的聊天體驗,需要引入量化指標。兩份不同維度的報告均指向了同一個指數(shù)增長趨勢。

1. 深度驗證:METR報告(軟件工程領(lǐng)域的長程自主性)

METR專注于衡量AI完成長周期任務(wù)的能力。

  • 核心指標:模型自主完成軟件工程任務(wù)的持續(xù)時長。
  • 數(shù)據(jù)趨勢:清晰的指數(shù)增長。此前Sonnet 3.7已能以50%成功率完成1小時時長的任務(wù)。
  • 最新驗證:包括 Grok 4、Opus 4.1、GPT-5 在內(nèi)的新一代模型,不僅驗證了此前的預(yù)測曲線,甚至略微超出了趨勢線,目前已具備自主完成超過2小時復(fù)雜任務(wù)的能力。

2. 廣度驗證:OpenAI GDPval評估(全行業(yè)經(jīng)濟價值)

為了排除“過擬合”嫌疑,GDPval將測試范圍擴大至經(jīng)濟層面。

  • 樣本規(guī)模:覆蓋9大行業(yè)、44種職業(yè),由資深專家(平均14年經(jīng)驗)設(shè)計的1320個盲測任務(wù)。
  • 核心發(fā)現(xiàn):
  • 最新模型(如GPT-5)已極其逼近人類專家水平。
  • 競品優(yōu)勢:OpenAI誠實地披露了競爭對手 Claude Opus 4.1 的表現(xiàn),指出其已超越趨勢線,幾乎達到了行業(yè)專家水準。這既證明了趨勢的普適性,也體現(xiàn)了良性競爭的格局。

二、激進但可信的未來推演(2026-2027)

基于上述指數(shù)曲線的保守外推,未來兩年的時間表比大多數(shù)所謂“專家”的預(yù)測更為緊迫。我們即將迎來AI融入實體經(jīng)濟的關(guān)鍵奇點:

  • 2026年中期(時長突破):模型將具備自主完成整整一個工作日(8小時)任務(wù)的能力。這意味著AI不再是輔助工具,而是獨立的數(shù)字勞動力。
  • 2026年底(能力突破):至少有一款模型將在廣泛的行業(yè)中,正式達到人類專家水平。
  • 2027年底(全面超越):AI將在許多任務(wù)上頻繁超越行業(yè)資深專家。

三、專家的冷思考:警惕“古德哈特定律”

雖然總體趨勢樂觀,但報告也提出了一個關(guān)鍵警示:并非所有高分模型都具備實戰(zhàn)價值。

部分模型(如提及的 Grok 4 和 Gemini 2.5 Pro)雖然在公開的基準測試中分數(shù)亮眼,但在上述深度的能力評估中表現(xiàn)明顯滯后。這驗證了古德哈特定律(Goodhart's law):當某個指標成為目標時,它就不再是一個好的指標。

為何AI“瓶頸論”是一場認知錯覺——基于METR與GDPval的趨勢分析

當前圍繞AI進步以及所謂“泡沫”的討論,讓我聯(lián)想起Covid-19疫情暴發(fā)初期的那幾個星期。彼時,盡管基于指數(shù)趨勢的外推,全球疫情爆發(fā)的時機與規(guī)模早已昭然若揭,但政界人士、新聞記者及大多數(shù)公共評論者仍將其視為遙不可及的可能性或局限于特定區(qū)域的現(xiàn)象。

類似這種令人費解的情形,如今正在AI的能力演進和進一步突破上重演。大家關(guān)注到AI現(xiàn)在已能編寫程序、設(shè)計網(wǎng)站等,但因為其過程中常有出錯或方向偏差,便武斷地推論出:AI永遠無法達到人類水平,或者只會帶來微不足道的影響。然而,就在短短幾年前,讓AI完成這些任務(wù)還完全是科幻范疇!或者,他們僅憑連續(xù)體驗兩個模型版本,在對話中未察覺到顯著差異,就斷言AI正在觸及性能上限,認為擴展(Scaling)的效用已然終結(jié)。

METR

準確評估AI的進步難度極高,通常需要同時具備AI專業(yè)知識和對特定應(yīng)用領(lǐng)域的深入理解。幸運的是,有一些機構(gòu)專注于AI能力衡量,例如METR。我們可以參考他們近期發(fā)布的研究報告《Measuring AI Ability to Complete Long Tasks》(衡量AI完成長周期任務(wù)的能力),該研究量化了模型自主完成軟件工程任務(wù)所能持續(xù)的時長:

為何AI“瓶頸論”是一場認知錯覺:基于METR與GDPval的趨勢分析-AI.x社區(qū)

我們能夠觀察到清晰的指數(shù)增長趨勢,其中Sonnet 3.7表現(xiàn)最為出色,能以50%的成功率完成最長達1小時的任務(wù)。

然而截至目前,Sonnet 3.7已經(jīng)發(fā)布了7個月,這與METR研究中聲稱的倍增周期恰好一致。我們能否以此來驗證METR的結(jié)論是否仍然成立呢?

答案是肯定的!事實上,METR在其研究網(wǎng)站上持續(xù)維護著一張實時更新的圖:

為何AI“瓶頸論”是一場認知錯覺:基于METR與GDPval的趨勢分析-AI.x社區(qū)

我們看到最新模型,如Grok 4、Opus 4.1和GPT-5等已被添加進來,位于圖的右上角區(qū)域。這不僅證明了此前的預(yù)測完全成立,這些新模型的實際表現(xiàn)甚至略微超越了原有趨勢,目前已能自主完成超過2小時的任務(wù)!

GDPval

有人可能會提出合理的質(zhì)疑:不能僅憑軟件工程任務(wù)的表現(xiàn)就將其外推至整個經(jīng)濟層面,畢竟這類任務(wù)是AI實驗室工程師最熟悉的,可能在某種程度上存在對測試集的“過擬合”現(xiàn)象。

值得慶幸的是,還有另一項完全不同的研究——OpenAI最近發(fā)布的GDPval,該評估覆蓋了9個行業(yè)共計44個職業(yè):

為何AI“瓶頸論”是一場認知錯覺:基于METR與GDPval的趨勢分析-AI.x社區(qū)

評估任務(wù)由平均擁有14年從業(yè)經(jīng)驗的行業(yè)資深專家提供,每個職業(yè)包含30個任務(wù),總計1320個任務(wù)。評分采用盲測方式,直接對比人類與模型提供的解決方案,支持給出明確的偏好判斷或判定為平局。

這項評估同樣揭示了相似的指數(shù)趨勢,最新的GPT-5已極其接近人類專家的表現(xiàn)水平:

為何AI“瓶頸論”是一場認知錯覺:基于METR與GDPval的趨勢分析-AI.x社區(qū)

你可能會認為這張圖看起來似乎開始趨于平穩(wěn),但這很可能主要是因為GPT-5的產(chǎn)品定位更偏向消費級。好在OpenAI還納入了其他模型進行對比[1],我們看到更早發(fā)布的Claude Opus 4.1表現(xiàn)出顯著的優(yōu)勢,已領(lǐng)先于此前的趨勢,幾乎達到了行業(yè)專家的水平!

為何AI“瓶頸論”是一場認知錯覺:基于METR與GDPval的趨勢分析-AI.x社區(qū)

在此特別值得贊揚OpenAI,他們發(fā)布了一項顯示競爭對手模型大幅領(lǐng)先于自家模型的評估結(jié)果,這體現(xiàn)了難能可貴的誠信,以及對實現(xiàn)有益AI結(jié)局的真正關(guān)注!

展望

在歷經(jīng)多年、跨越多個行業(yè)持續(xù)展現(xiàn)出指數(shù)級性能提升的大背景下,如果這些進步會突然停止,那將是極其反常的現(xiàn)象。相反,即便我們采取相對保守的外推方式,這些趨勢也表明2026年將成為AI大規(guī)模融入經(jīng)濟的關(guān)鍵年份:

  • 到2026年中期,模型將能夠自主完成整整一個工作日(8小時工作日)的任務(wù)。
  • 2026年底之前,至少將有一款模型在眾多行業(yè)中達到人類專家水平。
  • 到2027年底,模型將在許多任務(wù)上頻繁超越行業(yè)專家。

這聽起來或許過于簡單化,但事實證明,沿著圖上的直線進行外推,往往比大多數(shù)“專家”——甚至比多數(shù)真實領(lǐng)域的專家——所能給出的未來圖景更為準確!

另外值得注意的是,Grok 4和Gemini 2.5 Pro在這些評估中的表現(xiàn)明顯落后,盡管它們在發(fā)布時曾在眾多基準測試中宣稱達到了當時的最佳水平。這再次提醒我們,必須警惕古德哈特定律(Goodhart's law)的潛在影響!

參考資料:Schrittwieser, Julian. 2025. “Failing to Understand the Exponential, Again.” Julian Schrittwieser Blog, September 27, 2025. https://www.julian.ac/blog/2025/09/27/failing-to-understand-the-exponential-again/.

本文轉(zhuǎn)載自?????Andy730?????,作者:常華

收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
奇米777欧美一区二区| 久久久加勒比| 久久综合色婷婷| 国产精品美女免费看| 日韩va亚洲va欧美va清高| 97se亚洲| 欧美在线制服丝袜| 日韩一级性生活片| 3p视频在线观看| 不卡的av在线| 成人久久久久久| 波多野结衣视频网站| 天天色天天射综合网| 日韩精品免费综合视频在线播放 | 久久99导航| 97成人在线观看| 噜噜噜在线观看免费视频日韩| 久久人体大胆视频| 最近中文字幕在线mv视频在线| 欧美影院精品| 欧美日韩在线综合| 国产午夜伦鲁鲁| 欧美24videosex性欧美| 中国色在线观看另类| 久久99九九| 亚洲精品一级片| 久久精品国产亚洲高清剧情介绍| 欧美在线精品免播放器视频| 久草资源在线视频| 一区二区三区四区电影| 色偷偷亚洲男人天堂| 精品国产av无码| 久久99国产精品久久99大师| 欧美xxxx在线观看| 亚洲国产综合av| 久久亚洲资源中文字| 欧美中文字幕一区二区三区 | 成人看的视频| 亚洲精品成人久久电影| www.啪啪.com| jizz18欧美18| 精品久久免费看| 中文字幕乱码在线人视频| 国产不卡精品在线| 欧美久久久久久蜜桃| 亚洲国产高清av| 91在线亚洲| 欧美性猛片aaaaaaa做受| 国产精品免费成人| 超碰aⅴ人人做人人爽欧美| 亚洲成人一区二区在线观看| 91黄色在线看| 国产伦子伦对白在线播放观看| 亚洲图片自拍偷拍| 久久久久久久久久久99| 国产夫妻在线播放| 欧美性猛xxx| 久久久久免费精品| 日韩成人免费av| 日韩亚洲欧美高清| 亚洲国产精品第一页| 国产精品久久久网站| 亚洲国产精品视频在线观看| 波多野结衣 在线| 日中文字幕在线| 超碰成人久久| 正在播放亚洲1区| 欧美老女人性生活视频| 日韩系列欧美系列| 久久香蕉国产线看观看网| 日韩国产第一页| 你懂的一区二区| 久久久噜噜噜久久久| av资源免费观看| 日韩成人av影视| 成人av在线网址| 亚洲精品中文字幕成人片| 91美女精品福利| 亚洲精品影院| 成人超碰在线| 在线日韩av片| 日本一本在线视频| 不卡av电影在线| 欧美aa在线| 欧美专区日韩专区| gogo亚洲国模私拍人体| 欧美黑人巨大videos精品| 亚洲色图欧美制服丝袜另类第一页| 欧美性受xxxx黑人| 黄色日韩在线| 国产精品久久久久久久电影 | 蜜乳av另类精品一区二区| 国产精品视频内| 国产男男gay体育生白袜| 北条麻妃一区二区三区| 四虎一区二区| 91色在线看| 精品视频一区 二区 三区| 亚洲乱妇老熟女爽到高潮的片| 最新精品国偷自产在线| 欧美成人精品激情在线观看| 中文字幕一区二区人妻电影| 国产精品小仙女| 日韩高清av电影| 成人影院在线视频| 91精品国产美女浴室洗澡无遮挡| 免费成人深夜夜行p站| 香蕉视频国产精品 | 国产午夜久久av| 亚洲跨种族黑人xxx| 极品盗摄国产盗摄合集| 日韩在线观看一区二区| 成人在线视频网址| 欧美被日视频| 色就色 综合激情| 日本黄色免费观看| 午夜久久tv| 91精品久久久久久| 国产在线电影| 欧美日韩国产在线| 日韩女优在线视频| 欧美激情精品久久久六区热门| 国产精品美女午夜av| 欧美视频免费一区二区三区| 亚洲高清视频中文字幕| 国产性生活一级片| 色中色综合网| 国产精品视频1区| 欧美视频免费一区二区三区| 日本一区二区免费高清| 亚洲大片在线观看| 青青草精品在线| 久久久精品久久久久久96| 国产精品天天狠天天看| 国产免费av高清在线| 色综合久久中文字幕综合网| 超碰男人的天堂| 影音先锋中文字幕一区| 99re6在线| 日本欧美电影在线观看| 日韩精品一区国产麻豆| 久草国产在线视频| 国产成人精品aa毛片| 丰满人妻一区二区三区53号| 国产亚洲字幕| 欧美多人爱爱视频网站| 性一交一乱一色一视频麻豆| 一区二区三区美女视频| 久久无码专区国产精品s| 欧美特黄视频| 精品国产91亚洲一区二区三区www| 男女羞羞视频在线观看| 精品999在线播放| 国产成人在线播放视频| 2024国产精品| 国产一级不卡毛片| 日韩精品四区| 亚洲一区二区中文| 国产精品—色呦呦| 日韩电影免费观看在线观看| 国产黄色免费观看| 日本一区二区在线不卡| 99re精彩视频| 欧美视频二区| 欧美日韩大片一区二区三区 | 色国产精品一区在线观看| 日本成人午夜影院| 国产综合久久久久久鬼色| 国产 欧美 日本| 奇米777国产一区国产二区| 日本免费久久高清视频| 992tv免费直播在线观看| 91精品国产综合久久久久| 国产精品第二十页| 久久久国际精品| 深爱五月综合网| 亚洲精选成人| 亚洲视频电影| 精品欠久久久中文字幕加勒比| 国产精品第一页在线| 中文字幕伦理免费在线视频 | 9色国产精品| 欧美连裤袜在线视频| 色999韩欧美国产综合俺来也| 欧美成人精品在线播放| 天堂在线中文资源| 欧美日韩国产不卡| 国产精品2020| 国产精品久久久久四虎| 中国黄色片视频| 日本少妇一区二区| 成人国产在线看| japanese国产精品| 国产精品入口免费| 国产一区精品福利| 68精品久久久久久欧美| 韩国av网站在线| 亚洲精品午夜精品| www.av网站| 色噜噜狠狠成人网p站| 久久久久久久蜜桃| 亚洲欧洲日产国码二区| 无码人妻精品一区二区三区温州 | 丰满大乳奶做爰ⅹxx视频| 精品综合久久久久久8888| 欧美 日韩精品| 国产精品大片免费观看| 亚洲乱码国产乱码精品天美传媒| 欧美成人午夜77777| 91在线视频导航| 日韩在线免费| 91av成人在线| 九色91在线| 久久视频免费观看| 丝袜美腿美女被狂躁在线观看| 亚洲激情在线观看| www.日日夜夜| 欧美另类高清zo欧美| 精品成人无码久久久久久| 亚洲成av人在线观看| 欧美日韩精品在线观看视频| 欧美国产欧美综合| 国产精品1000部啪视频| 97se亚洲国产综合在线| 国产成人精品综合久久久久99 | 欧美手机在线观看| 国产日韩欧美a| 中文字幕av网址| 台湾佬成人网| 91福利精品视频| 天天干在线播放| 午夜国产不卡在线观看视频| 青娱乐免费在线视频| 亚洲人精品午夜| 久久国产波多野结衣| 中文字幕一区二区三中文字幕| 中文字幕在线观看免费高清| 国产亚洲自拍一区| 99久久久无码国产精品性 | 国产精品视频在| 亚洲国产精品高清| 日本免费www| 国产精品久久久久三级| 国产麻豆a毛片| 中文字幕日本不卡| 国产麻豆视频在线观看| 亚洲人吸女人奶水| 欧美黑人一级片| 午夜精品久久久久久| 青青国产在线观看| 色94色欧美sute亚洲线路二| 国产伦精品一区二区三区视频我| 91黄色激情网站| 亚洲天堂自拍偷拍| 91精品国产综合久久久久久久久久 | 欧美无砖专区一中文字| 姑娘第5集在线观看免费好剧| 欧美色男人天堂| 夜夜爽8888| 日韩区在线观看| 色丁香婷婷综合久久| 亚洲人成电影网| 麻豆传媒在线免费看| 欧美日本啪啪无遮挡网站| 多野结衣av一区| 国产成人福利视频| 婷婷激情成人| 国产伦精品一区二区三区四区视频 | 欧美男人天堂网| 69久久99精品久久久久婷婷| 亚洲精品一区二区三区四区| 亚洲女同精品视频| 麻豆tv入口在线看| 欧美激情视频网址| 国产超碰精品| 91久久国产自产拍夜夜嗨| 精品在线网站观看| 亚洲精品一区二区三区四区五区 | 日韩专区一区二区| 亚洲美女在线看| 五月婷婷在线视频| 国内成人精品一区| 91综合国产| 国产中文一区二区| 欧美电影一二区| 免费看又黄又无码的网站| 蜜臀久久99精品久久久久久9| 又色又爽又黄18网站| 国产日韩欧美精品在线| 欧美黄色免费看| 91福利社在线观看| 狠狠躁日日躁夜夜躁av| 中文字幕亚洲欧美日韩高清| 黄色小说在线播放| 国产精品天天狠天天看| 乱中年女人伦av一区二区| 自拍偷拍亚洲色图欧美| 免费视频一区| 美女日批在线观看| 中国色在线观看另类| 成人免费区一区二区三区| 欧美精选午夜久久久乱码6080| 无码精品视频一区二区三区| 久久香蕉国产线看观看av| 欧美momandson| 国产精品一区二区三区在线观| 欧美gayvideo| chinese少妇国语对白| 成人午夜又粗又硬又大| 欧美视频一区二区在线| 色先锋aa成人| 婷婷综合激情网| 久久国产精品亚洲| 国产精品久久久久77777丨| 久久久久网址| 亚洲经典在线| 日韩高清一二三区| 亚洲日本在线视频观看| 亚洲香蕉在线视频| 亚洲图片制服诱惑| 九九精品调教| 91福利视频导航| 国产精品久久久久蜜臀| 91日韩视频在线观看| 久久久久国色av免费看影院| 五月婷婷中文字幕| 亚洲国产精品一区二区三区| 欧美xxx黑人xxx水蜜桃| 97超碰人人模人人爽人人看| 希岛爱理av一区二区三区| 一区二区三区国产免费| 国产亚洲精品aa午夜观看| 中文在线第一页| 日韩精品免费观看| 国模套图日韩精品一区二区| 就去色蜜桃综合| 久久久蜜桃一区二区人| 少妇久久久久久久久久| 在线一区二区三区做爰视频网站| 能在线看的av| 国产成人精品久久二区二区91| 国产探花在线精品| 99草草国产熟女视频在线| 中文字幕乱码日本亚洲一区二区| 中文字幕在线播放日韩| 亚洲国产精品久久不卡毛片| 天天干天天操天天做| 国产视频亚洲色图| 日韩欧美一级大片| 精品国产欧美一区二区五十路 | 精品视频123区在线观看| 色哟哟免费在线观看| 国产主播在线一区| 欧美日韩成人| 水蜜桃av无码| 91成人免费网站| 午夜伦全在线观看| 91传媒在线免费观看| 亚洲国内自拍| 无码一区二区三区在线| 欧美伊人久久大香线蕉综合69| 欧美另类极品| 成人免费视频视频在| 中文亚洲字幕| 粉嫩精品久久99综合一区| 91精品国模一区二区三区| 黄视频在线免费看| 日韩电影天堂视频一区二区| 国内精品国产三级国产a久久| 69av.com| 亚洲女人天堂视频| 91国产一区| 热99这里只有精品| 国产精品看片你懂得| 超碰在线人人干| 日本高清不卡的在线| 国产精品久久久久久久免费观看| 人妻激情偷乱视频一区二区三区| 岛国av在线不卡| 免费a级人成a大片在线观看| 国产一级精品aaaaa看| 日韩高清电影一区| 国产一级一片免费播放| 一个色综合导航| 99re8这里有精品热视频8在线 | 国产性生活免费视频| 久久久亚洲综合| www.麻豆av| 国产精品极品在线| 亚洲调教视频在线观看| 少妇太紧太爽又黄又硬又爽小说| 日韩精品一区二| 国产福利一区二区三区在线播放| 97超碰在线人人| 国产农村妇女毛片精品久久麻豆 | 欧洲亚洲免费视频| 欧美一区二区三区久久精品茉莉花 | 国产成人亚洲综合| 怡红院精品视频在线观看极品| 色噜噜噜噜噜噜|