17萬(wàn)白領(lǐng)崗消失！Scale AI最新研究：AI僅動(dòng)用了3%實(shí)力

2025-11-07 08:37:27

人工智能新聞

AI卷走飯碗，17萬(wàn)大軍一夜失業(yè)。別慌，Scale AI新作一錘定音：全球六大頂尖AI，現(xiàn)在能自動(dòng)處理的事情連3%都不到。

12萬(wàn)大學(xué)畢業(yè)生，擠破頭競(jìng)逐17000個(gè)崗位。

七分之一的機(jī)會(huì)，竟是AI堵死了就業(yè)出路。不僅如此，白領(lǐng)也成為了重災(zāi)區(qū)。

作為美國(guó)第二大雇主，亞馬遜周二的一份內(nèi)部郵件，讓14000崗位一夜消失，然而更大的血腥裁員還在路上。

整個(gè)行業(yè)，正經(jīng)歷著前所未有的震蕩。近期，多家巨頭相繼公布裁員計(jì)劃，被削減的崗位總數(shù)高達(dá)17萬(wàn)。

這場(chǎng)「失業(yè)海嘯」的背后，AI成為了罪魁禍?zhǔn)住?/span>

全世界看到的是：Z世代畢業(yè)沒(méi)出路，辦公室白領(lǐng)紛紛被替代，唯有「水管工」一類技能崗位相安無(wú)事。

但這些擔(dān)憂，到底是杞人憂天，還只是假象？

來(lái)自Scale AI和Center for AI Safety最新研究，一句話戳破了真相：

雖然AI很聰明，但還不夠?qū)嵱谩Ｄ壳埃珹I自動(dòng)化率還不到3%。

值得一提的是，論文參與者中，還有Alexandr Wang本尊，曾在Scale AI期間完成的研究。

論文地址：https://www.remotelabor.ai/paper.pdf

6000小時(shí)，14萬(wàn)美金真實(shí)工作

最新研究中，提出了一個(gè)全新基準(zhǔn)——遠(yuǎn)程勞動(dòng)指數(shù)（RLI），重點(diǎn)評(píng)估AI在真實(shí)世界中端到端的性能。

過(guò)去幾年，頂尖實(shí)驗(yàn)室的AI在各種基準(zhǔn)上「開(kāi)掛」。

這一亮眼成績(jī)讓人們一度誤以為，當(dāng)前AI離AGI只有一步之遙。但現(xiàn)實(shí)呢？

這些基準(zhǔn)大多是短任務(wù)、明確規(guī)則的學(xué)術(shù)題，與真實(shí)工作還相差著十萬(wàn)八千里。GPT-5距離AGI終點(diǎn)，也僅實(shí)現(xiàn)了58%。

真正有經(jīng)濟(jì)價(jià)值的遠(yuǎn)程工作，往往具備跨領(lǐng)域、長(zhǎng)周期、高標(biāo)準(zhǔn)等特點(diǎn)。

遠(yuǎn)程勞動(dòng)指數(shù)（RLI），就是為了填補(bǔ)這一空白而生。

它收錄了來(lái)自遠(yuǎn)程勞動(dòng)力市場(chǎng)的真實(shí)項(xiàng)目，覆蓋了游戲開(kāi)發(fā)、產(chǎn)品設(shè)計(jì)、建筑、數(shù)據(jù)分析、視頻動(dòng)畫等領(lǐng)域。

下圖左，展示了TOP 7工作領(lǐng)域。

圖片

這些項(xiàng)目難度跨度大，有的成本高達(dá)1萬(wàn)美元，完成時(shí)間超100個(gè)小時(shí)。

RLI全部數(shù)據(jù)，都來(lái)自真實(shí)自由職業(yè)者的歷史訂單。總計(jì)超6000小時(shí)的真實(shí)工作量，總價(jià)值超14萬(wàn)美元。

如下是，RLI數(shù)據(jù)的收集過(guò)程，經(jīng)過(guò)了嚴(yán)格的篩選和清洗。一開(kāi)始，研究人員選取了64大領(lǐng)域。

經(jīng)過(guò)初篩，他們確定了43個(gè)符合條件的領(lǐng)域，分兩個(gè)階段來(lái)獲取項(xiàng)目：

1 從自由職業(yè)平臺(tái)獲取

2 從長(zhǎng)尾項(xiàng)目獲取

然后，研究團(tuán)隊(duì)又招募了358名自由職業(yè)者，擁有經(jīng)過(guò)認(rèn)證Upwork賬戶，并且是目標(biāo)領(lǐng)域的專家。

平均而言，他們?cè)赨pwork平臺(tái)上已工作 2,341 小時(shí)，完成過(guò)89個(gè)項(xiàng)目，總收入達(dá)23,364美元。

為此，團(tuán)隊(duì)從這些自由職業(yè)者中，收集了550個(gè)初始項(xiàng)目，最終篩選出包含240個(gè)項(xiàng)目的RLI數(shù)據(jù)集。

相較于先前同類基準(zhǔn)，RLI復(fù)雜性和多樣性，更貼近真實(shí)自由職業(yè)市場(chǎng)的工作形態(tài)。

如下圖左顯示，人類完成RLI項(xiàng)目平均耗時(shí)，與Upwork平臺(tái)真實(shí)數(shù)據(jù)分布高度吻合；

右圖說(shuō)明了，既有基準(zhǔn)主要集中在軟件工程、網(wǎng)絡(luò)調(diào)研寫作類任務(wù)，而真實(shí)遠(yuǎn)程勞動(dòng)力市場(chǎng)工種，遠(yuǎn)超這一范疇。

數(shù)據(jù)集建好了，接下來(lái)就是頂尖AI真槍實(shí)戰(zhàn)了。不過(guò)，在此之前，又該用什么指標(biāo)去衡量其性能？

主要包括以下四大指標(biāo)：自動(dòng)化率、Elo評(píng)分、項(xiàng)目收益、自動(dòng)化通縮。

在評(píng)估流程中，針對(duì)每個(gè)RLI項(xiàng)目，研究團(tuán)隊(duì)都會(huì)對(duì)AI交付成果進(jìn)行檢驗(yàn)——

既要與人類黃金標(biāo)準(zhǔn)交付成果進(jìn)行比對(duì)，也要根據(jù)項(xiàng)目簡(jiǎn)報(bào)中的要求核查缺陷，最終判定該AI成果在真實(shí)自由職業(yè)場(chǎng)景中，是否會(huì)被采納為合格工作產(chǎn)物。

那么，每個(gè)頂尖大模型的真實(shí)戰(zhàn)績(jī)?nèi)绾危?/span>

你的飯碗，暫時(shí)保住了！

實(shí)驗(yàn)中，研究團(tuán)隊(duì)拉來(lái)了，全球六大頂尖大模型和智能體參戰(zhàn)，分別進(jìn)行了定量和定性分析。

自動(dòng)化率3%，已是極限

在定量分析中，主要采用了「絕對(duì)指標(biāo)」和「相對(duì)指標(biāo)」進(jìn)行了評(píng)估。

相較于人類基準(zhǔn)，評(píng)估的核心結(jié)論是——

當(dāng)前AI智能體在執(zhí)行RLI中，具有經(jīng)濟(jì)價(jià)值的項(xiàng)目方面，能力十分有限。

所有受評(píng)估的模型中，絕對(duì)性能普遍不佳，其中最高的自動(dòng)化率，Manus也僅為2.5%。

為了衡量不同模型間相對(duì)性能，研究人員采用配對(duì)比較法來(lái)計(jì)算Elo評(píng)分。

結(jié)果發(fā)現(xiàn)，各模型間的相對(duì)性能正在穩(wěn)步提升，且排名總體上反映出新一代的前沿模型比舊模型表現(xiàn)更好。

世界知識(shí)不夠，無(wú)法校驗(yàn)錯(cuò)誤

在定性分析中，團(tuán)隊(duì)主要探究了當(dāng)前AI系統(tǒng)的局限性，以及自動(dòng)化率低的原因。

通過(guò)對(duì)約400份評(píng)估進(jìn)行分析后，AI交付成果被拒的原因，主要?dú)w結(jié)為以下幾類：

1. 技術(shù)與文件完整性問(wèn)題：許多失敗源于基礎(chǔ)技術(shù)問(wèn)題，比如生成了損壞或空文件，或交付的文件格式不正確、無(wú)法使用。

2. 交付成果不完整或存在缺陷：AI頻繁提交不完整的作品，比如缺少關(guān)鍵組件、視頻內(nèi)容被截?cái)嗷蛭刺峁┰此夭摹?/span>

3. 質(zhì)量問(wèn)題：即便AI生成了完整的交付成果，其質(zhì)量也往往很差，達(dá)不到專業(yè)標(biāo)準(zhǔn)。

4. 不一致性：當(dāng)使用AI生成工具時(shí)，AI完成的交付成果在不同文件之間時(shí)，常表現(xiàn)出不一致性。

如下表2所示，是各類問(wèn)題在交付成果中，出現(xiàn)的比例。

不過(guò)，在一小部分項(xiàng)目中，AI的交付成果可以媲美甚至超越人類的成果。

這類項(xiàng)目，主要集中在創(chuàng)意領(lǐng)域，特別是音頻、圖像相關(guān)的任務(wù)，此外還包括寫作和數(shù)據(jù)檢索/網(wǎng)絡(luò)爬蟲。

此前，「AGI定義」一文中，曾指出了AI在世界知識(shí)、記憶力、視聽(tīng)能力等能力上有所缺陷。

AI智能體所表現(xiàn)出的許多失敗，恰恰都源于這些能力的不足。

比如，由于AI無(wú)法核驗(yàn)并修正自身工作中的錯(cuò)誤，尤其是，在建筑、游戲開(kāi)發(fā)和網(wǎng)頁(yè)開(kāi)發(fā)這類需要復(fù)雜交互和視聽(tīng)效果驗(yàn)證的項(xiàng)目中。

與之相對(duì)，AI模型的成功案例大多也集中在，當(dāng)前其技能發(fā)展更為成熟的領(lǐng)域。

比如，Claude 4.5 Sonnet在簡(jiǎn)單web視覺(jué)化任務(wù)中，做的要比人類交付成果更好。

圖片

再比如，AI還可以利用圖像生成工具，解決了RLI中的部分營(yíng)銷項(xiàng)目。

RLI最新研究，告訴所有人一個(gè)事實(shí)：AI離取代人類復(fù)雜勞動(dòng)，還差得很遠(yuǎn)。

責(zé)任編輯：張燕妮來(lái)源：新智元

AI 模型數(shù)據(jù)