17萬(wàn)白領(lǐng)崗消失!Scale AI最新研究:AI僅動(dòng)用了3%實(shí)力
12萬(wàn)大學(xué)畢業(yè)生,擠破頭競(jìng)逐17000個(gè)崗位。
七分之一的機(jī)會(huì),竟是AI堵死了就業(yè)出路。不僅如此,白領(lǐng)也成為了重災(zāi)區(qū)。
作為美國(guó)第二大雇主,亞馬遜周二的一份內(nèi)部郵件,讓14000崗位一夜消失,然而更大的血腥裁員還在路上。

整個(gè)行業(yè),正經(jīng)歷著前所未有的震蕩。近期,多家巨頭相繼公布裁員計(jì)劃,被削減的崗位總數(shù)高達(dá)17萬(wàn)。
這場(chǎng)「失業(yè)海嘯」的背后,AI成為了罪魁禍?zhǔn)住?/span>


全世界看到的是:Z世代畢業(yè)沒(méi)出路,辦公室白領(lǐng)紛紛被替代,唯有「水管工」一類技能崗位相安無(wú)事。
但這些擔(dān)憂,到底是杞人憂天,還只是假象?
來(lái)自Scale AI和Center for AI Safety最新研究,一句話戳破了真相:
雖然AI很聰明,但還不夠?qū)嵱谩D壳埃珹I自動(dòng)化率還不到3%。

值得一提的是,論文參與者中,還有Alexandr Wang本尊,曾在Scale AI期間完成的研究。

論文地址:https://www.remotelabor.ai/paper.pdf
6000小時(shí),14萬(wàn)美金真實(shí)工作
最新研究中,提出了一個(gè)全新基準(zhǔn)——遠(yuǎn)程勞動(dòng)指數(shù)(RLI),重點(diǎn)評(píng)估AI在真實(shí)世界中端到端的性能。
過(guò)去幾年,頂尖實(shí)驗(yàn)室的AI在各種基準(zhǔn)上「開(kāi)掛」。
這一亮眼成績(jī)讓人們一度誤以為,當(dāng)前AI離AGI只有一步之遙。但現(xiàn)實(shí)呢?

這些基準(zhǔn)大多是短任務(wù)、明確規(guī)則的學(xué)術(shù)題,與真實(shí)工作還相差著十萬(wàn)八千里。GPT-5距離AGI終點(diǎn),也僅實(shí)現(xiàn)了58%。
真正有經(jīng)濟(jì)價(jià)值的遠(yuǎn)程工作,往往具備跨領(lǐng)域、長(zhǎng)周期、高標(biāo)準(zhǔn)等特點(diǎn)。
遠(yuǎn)程勞動(dòng)指數(shù)(RLI),就是為了填補(bǔ)這一空白而生。
它收錄了來(lái)自遠(yuǎn)程勞動(dòng)力市場(chǎng)的真實(shí)項(xiàng)目,覆蓋了游戲開(kāi)發(fā)、產(chǎn)品設(shè)計(jì)、建筑、數(shù)據(jù)分析、視頻動(dòng)畫等領(lǐng)域。
下圖左,展示了TOP 7工作領(lǐng)域。
圖片
這些項(xiàng)目難度跨度大,有的成本高達(dá)1萬(wàn)美元,完成時(shí)間超100個(gè)小時(shí)。
RLI全部數(shù)據(jù),都來(lái)自真實(shí)自由職業(yè)者的歷史訂單。總計(jì)超6000小時(shí)的真實(shí)工作量,總價(jià)值超14萬(wàn)美元。

如下是,RLI數(shù)據(jù)的收集過(guò)程,經(jīng)過(guò)了嚴(yán)格的篩選和清洗。一開(kāi)始,研究人員選取了64大領(lǐng)域。
經(jīng)過(guò)初篩,他們確定了43個(gè)符合條件的領(lǐng)域,分兩個(gè)階段來(lái)獲取項(xiàng)目:
1 從自由職業(yè)平臺(tái)獲取
2 從長(zhǎng)尾項(xiàng)目獲取
然后,研究團(tuán)隊(duì)又招募了358名自由職業(yè)者,擁有經(jīng)過(guò)認(rèn)證Upwork賬戶,并且是目標(biāo)領(lǐng)域的專家。
平均而言,他們?cè)赨pwork平臺(tái)上已工作 2,341 小時(shí),完成過(guò)89個(gè)項(xiàng)目,總收入達(dá)23,364美元。
為此,團(tuán)隊(duì)從這些自由職業(yè)者中,收集了550個(gè)初始項(xiàng)目,最終篩選出包含240個(gè)項(xiàng)目的RLI數(shù)據(jù)集。

相較于先前同類基準(zhǔn),RLI復(fù)雜性和多樣性,更貼近真實(shí)自由職業(yè)市場(chǎng)的工作形態(tài)。
如下圖左顯示,人類完成RLI項(xiàng)目平均耗時(shí),與Upwork平臺(tái)真實(shí)數(shù)據(jù)分布高度吻合;
右圖說(shuō)明了,既有基準(zhǔn)主要集中在軟件工程、網(wǎng)絡(luò)調(diào)研寫作類任務(wù),而真實(shí)遠(yuǎn)程勞動(dòng)力市場(chǎng)工種,遠(yuǎn)超這一范疇。

數(shù)據(jù)集建好了,接下來(lái)就是頂尖AI真槍實(shí)戰(zhàn)了。不過(guò),在此之前,又該用什么指標(biāo)去衡量其性能?
主要包括以下四大指標(biāo):自動(dòng)化率、Elo評(píng)分、項(xiàng)目收益、自動(dòng)化通縮。
在評(píng)估流程中,針對(duì)每個(gè)RLI項(xiàng)目,研究團(tuán)隊(duì)都會(huì)對(duì)AI交付成果進(jìn)行檢驗(yàn)——
既要與人類黃金標(biāo)準(zhǔn)交付成果進(jìn)行比對(duì),也要根據(jù)項(xiàng)目簡(jiǎn)報(bào)中的要求核查缺陷,最終判定該AI成果在真實(shí)自由職業(yè)場(chǎng)景中,是否會(huì)被采納為合格工作產(chǎn)物。

那么,每個(gè)頂尖大模型的真實(shí)戰(zhàn)績(jī)?nèi)绾危?/span>
你的飯碗,暫時(shí)保住了!
實(shí)驗(yàn)中,研究團(tuán)隊(duì)拉來(lái)了,全球六大頂尖大模型和智能體參戰(zhàn),分別進(jìn)行了定量和定性分析。
自動(dòng)化率3%,已是極限
在定量分析中,主要采用了「絕對(duì)指標(biāo)」和「相對(duì)指標(biāo)」進(jìn)行了評(píng)估。
相較于人類基準(zhǔn),評(píng)估的核心結(jié)論是——
當(dāng)前AI智能體在執(zhí)行RLI中,具有經(jīng)濟(jì)價(jià)值的項(xiàng)目方面,能力十分有限。
所有受評(píng)估的模型中,絕對(duì)性能普遍不佳,其中最高的自動(dòng)化率,Manus也僅為2.5%。

為了衡量不同模型間相對(duì)性能,研究人員采用配對(duì)比較法來(lái)計(jì)算Elo評(píng)分。
結(jié)果發(fā)現(xiàn),各模型間的相對(duì)性能正在穩(wěn)步提升,且排名總體上反映出新一代的前沿模型比舊模型表現(xiàn)更好。

世界知識(shí)不夠,無(wú)法校驗(yàn)錯(cuò)誤
在定性分析中,團(tuán)隊(duì)主要探究了當(dāng)前AI系統(tǒng)的局限性,以及自動(dòng)化率低的原因。
通過(guò)對(duì)約400份評(píng)估進(jìn)行分析后,AI交付成果被拒的原因,主要?dú)w結(jié)為以下幾類:
1. 技術(shù)與文件完整性問(wèn)題:許多失敗源于基礎(chǔ)技術(shù)問(wèn)題,比如生成了損壞或空文件,或交付的文件格式不正確、無(wú)法使用。
2. 交付成果不完整或存在缺陷:AI頻繁提交不完整的作品,比如缺少關(guān)鍵組件、視頻內(nèi)容被截?cái)嗷蛭刺峁┰此夭摹?/span>
3. 質(zhì)量問(wèn)題:即便AI生成了完整的交付成果,其質(zhì)量也往往很差,達(dá)不到專業(yè)標(biāo)準(zhǔn)。
4. 不一致性:當(dāng)使用AI生成工具時(shí),AI完成的交付成果在不同文件之間時(shí),常表現(xiàn)出不一致性。
如下表2所示,是各類問(wèn)題在交付成果中,出現(xiàn)的比例。

不過(guò),在一小部分項(xiàng)目中,AI的交付成果可以媲美甚至超越人類的成果。
這類項(xiàng)目,主要集中在創(chuàng)意領(lǐng)域,特別是音頻、圖像相關(guān)的任務(wù),此外還包括寫作和數(shù)據(jù)檢索/網(wǎng)絡(luò)爬蟲。
此前,「AGI定義」一文中,曾指出了AI在世界知識(shí)、記憶力、視聽(tīng)能力等能力上有所缺陷。
AI智能體所表現(xiàn)出的許多失敗,恰恰都源于這些能力的不足。

比如,由于AI無(wú)法核驗(yàn)并修正自身工作中的錯(cuò)誤,尤其是,在建筑、游戲開(kāi)發(fā)和網(wǎng)頁(yè)開(kāi)發(fā)這類需要復(fù)雜交互和視聽(tīng)效果驗(yàn)證的項(xiàng)目中。

與之相對(duì),AI模型的成功案例大多也集中在,當(dāng)前其技能發(fā)展更為成熟的領(lǐng)域。
比如,Claude 4.5 Sonnet在簡(jiǎn)單web視覺(jué)化任務(wù)中,做的要比人類交付成果更好。
圖片
再比如,AI還可以利用圖像生成工具,解決了RLI中的部分營(yíng)銷項(xiàng)目。

RLI最新研究,告訴所有人一個(gè)事實(shí):AI離取代人類復(fù)雜勞動(dòng),還差得很遠(yuǎn)。

































