別再問什么工作被AI取代!Karpathy直指本質:你的工作「可驗證」嗎?
如果說PC時代的革命,是讓每個人都能「用上計算機」,那么大模型時代的革命,則是第一次讓計算機自己學會「寫程序」。
從軟件1.0到軟件2.0,人類不再負責窮舉規(guī)則,而是只需給出一個清晰的目標,讓神經(jīng)網(wǎng)絡在巨大的可能性空間中試錯、迭代、收斂。
在這場悄然進行的范式躍遷中,一個新的判斷標準浮出水面:一項任務能否被 AI 接管,不再取決于它是否機械重復,而取決于它是否滿足「可重置、可高效試錯、可自動獎勵」這三條準則。
最近,Karpathy分享了關于AI對經(jīng)濟影響的有趣對話。

計算范式躍遷
如果回到1980年代,個人計算機剛剛出現(xiàn),你要預測其對就業(yè)市場的影響,最需要關注的任務/工作流程是否固定,是否遵循指定的簡單規(guī)則機械地進行信息處理,例如打字員,速記員等。
這是在因為那個時代,開發(fā)者必須手動編寫程序,為此他需要知道程序中的每一步要做什么。
這一時代出現(xiàn)的軟件1.0,只能自動化可以明確定義的信息處理流程。
如果你只知道達成一個任務的目標,但卻說不出該如何達到,那在AI成熟之前,這樣依靠經(jīng)驗或直覺的任務將無法進行通過編程自動化。
而到了機器學習,尤其是大模型技術成熟之后,開發(fā)者只需要指定信息處理的最終目標(例如分類精度、獎勵函數(shù)),并通過梯度下降搜索可能性空間,就可以找到在目標上表現(xiàn)良好的神經(jīng)網(wǎng)絡。

在這個新的編程范式(軟件2.0)下,開發(fā)者不需要預先知道程序中每一步要怎么做。
因此,要判斷一個任務能否被自動化,最具有預測性特征變成了可驗證性。
如果一個任務是可驗證的,那么它可以通過強化學習進行優(yōu)化,并且可以訓練神經(jīng)網(wǎng)絡,在該任務上表現(xiàn)出色。
什么樣的任務是可驗證,有下面3條標準,分別是
1.環(huán)境可重置(可以開始新的嘗試)
2.試錯成本低(可以進行大量嘗試)
3.可獎勵(存在某種自動過程來獎勵任何特定的嘗試)
3條都滿足,AI便能像圍棋少年日復一日打譜——只是它的「一天」,是百萬局自我對弈。
不同于AI被比作各種歷史先例,如電力、工業(yè)革命等,Karpathy給出的類比是將AI視為一種新的計算范式(Software 2.0)。

軟件1.0和2.0都是關于數(shù)字信息處理的自動化,區(qū)別只是自動化的范圍。
相比將AI與工業(yè)革命類比,這無疑是一種直指內核的直覺增強器。
AI「快車道」高可驗證性任務
有了可驗證這樣一個可操作、可檢驗、可落地的評估框架,就能明白為何Copilot能寫代碼卻編不出《百年孤獨》,為何AlphaFold能預測蛋白結構卻當不了院士——
答案不在算力多強,而在任務本身的「可驗證性」。
舉例來說,不論是下象棋,下圍棋,還是在星際爭霸這樣的多人實時戰(zhàn)略游戲中獲勝,都滿足可驗證性的三條判別標準,因此已經(jīng)被AI逐個擊破、
在代碼生成與修復上,當前大模型超越了普通程序員,這同樣是因為編程任務具有可驗證性:解釋器可檢查語法正確性,單元測試可自動驗證邏輯正確性,靜態(tài)分析工具可檢測潛在bug,性能優(yōu)化時也有內存占用,CPU時間等明確的指標。

除此之外,看看當下AI取得突破的應用場景,例如數(shù)學證明,結構化信息提取,問答與事實核查(Jeopardy類的常識問答)等,都是有明確的評價指標的,可實時打分,且答錯也影響不大。
而那些AI表現(xiàn)得還可以的任務,則是在可驗證性的3條標準中,有部分滿足。
例如機器翻譯,的確存在一些測試算法用的金標準,但語義流暢性,跨文化的語義遷移難以量化,需人工校準,不存在能自動打分的獎勵體系,因此機器翻譯的也只是能準確,卻難以言辭優(yōu)美典雅。
另一個部分可驗證的例子是,使用Alphafold進行蛋白質結構預測。
雖然蛋白結構可通過實驗(如冷凍電鏡)最終驗證,但計算過程本身不可實時獎勵,環(huán)境無法重置,只能依賴對已有數(shù)據(jù)庫的監(jiān)督學習,這導致Alphafold還不能完全取代實驗方法。
低可驗證性任務
人類的「護城河」,還是暫時的喘息?
至于Karpathy列出的難以驗證的任務,AI也表現(xiàn)較差。
例如,小說創(chuàng)作中什么是「好故事」?并無客觀標準。
在戰(zhàn)略決策,例如選創(chuàng)業(yè)方向、并購判斷等問題上,反饋延遲數(shù)年,不可重置。當前有嘗試將AI用于心理咨詢,但療效受主觀感受影響,同樣難以量化。在這些任務上。
目前,AI還完全無法達到可接受的水平。
按照可驗證性這一標準,CEO將難以被人工智能取代。
CEO的工作更具主觀性,他們需要在很長時間內做出數(shù)百個決策。雖然這項工作可以有可衡量的回報(最大化股東價值),但它不可重置(CEO不能撤銷他們的決策并重新開始)也不高效(公司運行迭代數(shù)百次將花費太長時間)。
不過,可驗證性低的任務中,也有一部分可以被外包給AI,例如科學研究中的可驗證部分是文獻檢索、數(shù)據(jù)可視化、論文語法校對,這些任務現(xiàn)在已經(jīng)逐漸交由AI完成。
而難以驗證的的部分,例如確定研究方向,給出原創(chuàng)的實驗方案等,由于「重要性」,「創(chuàng)新」由共同體長期共識決定,這些子任務上則應當由人來執(zhí)行。

了解了Karpathy的洞見,下次有人問起AI會不會取代人類時,你就可以指出只要一項任務還不滿足可驗證的3條指標,那AI肯定做不好,若3條指標中有部分不滿足,那AI的表現(xiàn)也難以超越人類。
而這意味著在未來十年,最大的職業(yè)風險不在于你做什么工作,而在于你的工作能否被拆解出足夠多的「可重置-高效-可獎勵」子任務。
在「軟件2.0時代」,人類的價值不再是執(zhí)行者,變成了「創(chuàng)造意義」(例如在小說中設計人物弧光,升華主題),以及「架構設計」(例如為企業(yè)運營創(chuàng)立更多維度更全面的評估標準)。
當AI在可驗證的高原上疾馳,人類的使命,便是不斷為它點亮下一座燈塔,并永遠守護那片不可驗證的、屬于驚奇、猶疑與自由的深海。



























