AI被嚴重低估!AlphaGo締造者罕見發(fā)聲:2026年AI自主上崗8小時
AlphaGo、AlphaZero的核心作者——Julian拋出了一個尖銳的比喻:人們今天對AI的態(tài)度,很像當初面對新冠疫情早期的反應。
Julian的意思很直接:我們正在嚴重低估AI的進展。
圖片
很多人還在笑它寫錯代碼,抱怨它沒法替代人類;但在實驗室里,研究者早已看到另一幅景象——AI已經(jīng)能獨立完成幾個小時的復雜任務,并且還在按指數(shù)速度進化。
這就是他決定站出來發(fā)聲的原因:公眾的認知,和前沿的現(xiàn)實,之間至少隔著一個世代的落差。
圖片
科學家不忍再沉默:AI為何被大眾低估?
Julian Schrittwieser的名字,或許不像馬斯克、奧特曼那樣家喻戶曉,但在AI圈,他是響當當?shù)拇嬖凇?/p>
圖片
作為AlphaGo、AlphaZero、MuZero的核心作者之一,他親歷了AI從「圍棋科幻」到「現(xiàn)實碾壓」的全過程。
也正因如此,當他在個人博客寫下那段話時,格外刺耳:
人們注意到AI還會犯錯,就急著下結論:它永遠不可能達到人類水準,或者影響有限??蓜e忘了——就在幾年前,讓AI寫程序、設計網(wǎng)站還完全是科幻!
在他看來,今天的輿論氛圍有點荒謬。
大眾盯著模型出錯的細節(jié),就斷言「AI不過如此」;記者拿兩代模型的閑聊對比,覺得「沒啥變化」,就認定「進步停滯」;政策討論里,AI被當成遙遠的、虛浮的「泡沫」。
然而,實驗室里的研究者看到的,卻是另一幅畫面:AI的能力曲線正在以指數(shù)型躍升。
Julian bluntly指出,公眾與前沿之間的認知差距,至少滯后了一個世代。
他之所以站出來發(fā)聲,不是為了渲染危機,而是為了提醒:如果連科學家眼前清晰可見的趨勢都被忽視,真正的臨界點到來時,我們幾乎沒有準備。
指數(shù)曲線下的震撼,AI「獨立上班」的時間在翻倍
Julian提出的第一個關鍵證據(jù),來自一家專門研究模型能力的機構——METR (Model Evaluation and Threat Research)。
他們的思路很直白:不再只看模型答題對錯,而是衡量它們能自主完成多長時間的真實任務。
在今年早些時候的研究里,METR給出的答案是:Claude 3.7 Sonnet能在約1小時長度的軟件工程任務中保持50%的成功率。
圖片
這意味著,它已經(jīng)具備獨立撐起一段「實打實的工作時長」的能力。
Julian指出,更令人震驚的是——這條曲線呈現(xiàn)出指數(shù)增長趨勢,每7個月翻一倍。
Sonnet 3.7已經(jīng)是7個月前的模型,正好對應METR統(tǒng)計出的翻倍周期。
他隨即給出最新的對照:在METR官網(wǎng)更新的圖表里,可以看到Grok 4、Claude Opus 4.1、GPT-5已經(jīng)排在右上角。
圖片
Julian博文引用的METR數(shù)據(jù),橫軸為時間,縱軸為可完成任務的時長。可以看到GPT-5、Opus 4.1已經(jīng)突破兩小時大關。
它們不再是「1小時工作」,而是能夠支撐超過2小時的任務。指數(shù)并沒有放緩,反而略超預期。
這條線的含義不止是「2小時」,而是它所暗示的外推未來:
如果趨勢不變,2026年年中,模型將能連續(xù)完成8小時工作;再往后,2027年,模型可能在不少復雜任務上超越人類專家。
Julian的意思很明確:你也許不必喜歡這種預測,但忽視它的代價極高。
跨行業(yè)評測:AI已逼近人類專家
如果說METR的研究證明了AI在軟件工程任務上的「時間地平線」不斷拉長,那么另一項研究——OpenAI的GDPval則把這個趨勢帶進了現(xiàn)實經(jīng)濟。
GDPval的設計非常直接:找來44個職業(yè)、9大行業(yè)的任務,每個職業(yè)挑選30個真實工作樣本,總共1320項任務。
圖片
GDPval任務覆蓋9大行業(yè),44個職業(yè),模型表現(xiàn)已與人類差距極小。Claude Opus 4.1在多個維度甚至領先GPT-5。
這些任務由平均14年經(jīng)驗的行業(yè)專家設計,再交給模型去完成,最后由盲評打分:只看結果,不看作者是誰。
Julian在博文里寫道:
最新的結果顯示,GPT-5在許多職業(yè)任務上已經(jīng)接近人類水準。更令人意外的是,Claude Opus 4.1(發(fā)布時間甚至早于 GPT-5),在GDPval上的表現(xiàn)顯著優(yōu)于GPT-5,幾乎追平了行業(yè)專家。
這不是某個孤立benchmark的「漂亮成績」,而是在跨越法律、金融、工程、醫(yī)療、創(chuàng)意等行業(yè)的真實檢驗中,AI開始逼近人類平均水平。
圖片
OpenAI GDPval評測結果(2024–2025)??v軸為模型在真實職業(yè)任務中的勝率(對比有多年經(jīng)驗的行業(yè)專家),深色為純勝率,淺色為勝或平局??梢钥吹紾PT-5已逼近「行業(yè)專家水平線」。
更值得注意的是:OpenAI在這份報告中,并沒有刻意凸顯自家模型,反而坦誠承認友商Claude的表現(xiàn)更好。
圖片
Julian特別稱贊這一點,認為這是行業(yè)少見的「科研誠信」:
在追求安全和有益結果時,比拼輸贏反而不是最重要的。
當然,GDPval的設計也并非完美。
Julian也提醒,許多任務依然相對「整潔」(messy程度不高),沒有模擬長周期、多輪反饋的復雜工作環(huán)境。
但即便如此,趨勢已經(jīng)足夠說明問題——AI不只是能寫點小程序,而是在真實的職業(yè)場景里,正一步步靠近甚至超越人類。
質疑聲出現(xiàn):趨勢真的可靠嗎?
在Julian的博文下,不少讀者認同「AI沒有泡沫」,但也有人提出尖銳的質疑。
其中,Atharva Raykar的評論獲得了高贊。他指出:
把AI的進展直接類比成指數(shù)曲線,其實很危險。疫情的指數(shù)傳播有明確機制支撐,而AI的提升并不是必然的。
圖片
他的觀點是:AI的進步更像是摩爾定律,靠整個行業(yè)不斷疊加創(chuàng)新與工程突破。
如果沒有推理模型等關鍵節(jié)點的突破,能力曲線可能早就「撞墻」。所以,單純外推曲線,未必能保證未來必然繼續(xù)加速。
Atharva還提到另一個問題:評測任務不夠「messy」。
METR的任務平均「復雜度得分」只有3/16,相當于結構清晰的小型工程任務;而現(xiàn)實世界中的軟件項目、科研探索,往往在7–16的區(qū)間,遠比benchmark混亂。
也就是說,現(xiàn)在的評測結果可能高估了AI在真實世界中的適用性。
Julian在后續(xù)回復中承認了這些提醒的合理性,但也強調:
我類比的重點并不是AI一定會像病毒傳播那樣加速,而是公眾和決策層正在忽視已經(jīng)發(fā)生的增長。
短期(1–2 年)的趨勢依然很清晰——在這種尺度上,外推往往比專家預測更靠譜。
在他看來,問題的關鍵不是曲線未來是否會「拐彎],而是:如果趨勢真的繼續(xù),而社會卻沒有準備,那代價將會極其沉重。
未來是替代,還是百倍增幅的協(xié)作?
Julian 在文章的最后給出了他最具沖擊力的預測:
2026年中,至少有一款頂級模型能連續(xù)自主完成8小時的工作任務——這意味著它不再只是一個「對話工具」,而是能真正以「全職員工」的形式參與工作流。
2026年底,在多個行業(yè)任務中,會有模型的表現(xiàn)正式達到人類專家的平均水平。
2027年之后,在不少垂直任務里,AI的表現(xiàn)將頻繁超越專家,并逐步成為生產(chǎn)力的主力。
這不是科幻,而是從當前曲線直接外推出的「保守版本」。
Julian直言,忽視這種趨勢,比過度擔憂更危險。
但他同時也強調,AI的未來不一定意味著「替代」。在他設想的畫面里,更有可能出現(xiàn)的是這樣一種場景:
人類依舊是指揮者,但身邊會有幾十個、上百個超強助手。人機協(xié)作下的效率提升,不是1倍,而是10倍、100倍。
這種模式不僅能避免大規(guī)模失業(yè)的恐慌,還可能釋放前所未有的創(chuàng)造力。
科研、設計、醫(yī)療、法律、金融……幾乎所有行業(yè)都會因此重組。
Julian把這種可能性稱為 「更安全、更有益的道路」:讓AI成為超強工具,而不是對手。
這幅未來圖景令人震撼:或許在不遠的2026或2027,你不是被AI取代,而是帶著一支「AI 團隊」去上班。
Julian的提醒,其實很簡單:我們正在低估AI。
不是說它完美無缺,而是它的曲線比多數(shù)人想象的更快、更陡。
按照當前的趨勢,2026或許就是關鍵轉折點——AI可能不再是「實驗室的奇觀」,而是走進每一個普通行業(yè),真正改寫經(jīng)濟的底層邏輯。
這不是危言聳聽,而是一個事實:未來兩三年內(nèi),我們都將直面一個被低估的臨界點。
而當那一刻到來時,每個人都要回答同一個問題:你會抵抗、觀望,還是率先和你的AI團隊并肩上崗?
參考資料:
https://x.com/polynoamial/status/1972167347088904371
https://www.julian.ac/blog/2025/09/27/failing-to-understand-the-exponential-again/
































