看似加速,實(shí)則拖慢:AI 寫(xiě)代碼讓開(kāi)發(fā)者效率倒退19%
美國(guó)METR研究所完成了一項(xiàng)針對(duì)AI編程工具影響的實(shí)驗(yàn)研究。他們發(fā)現(xiàn),經(jīng)驗(yàn)豐富的開(kāi)源開(kāi)發(fā)者在使用AI編程工具時(shí),完成任務(wù)的時(shí)間平均增長(zhǎng)了19%。
圖片
這與開(kāi)發(fā)者自己的感知完全相反。畢竟,參與研究的開(kāi)發(fā)者普遍都相信,AI將提升他們的效率。
在任務(wù)開(kāi)始前,他們預(yù)測(cè)AI能讓自己提速24%。可現(xiàn)實(shí)數(shù)據(jù)冷冷地指出:AI讓他們“看似飛快,實(shí)則拖慢”。
圖片
圖注:當(dāng)研究參與者可以使用像 Cursor Pro 這樣的AI工具時(shí),任務(wù)實(shí)際上耗時(shí)增加了19%。
研究團(tuán)隊(duì)通過(guò)隨機(jī)對(duì)照實(shí)驗(yàn)(RCT),在真實(shí)環(huán)境中測(cè)試AI工具的使用效果。值得一提的是,這是目前公認(rèn)的衡量因果關(guān)系最嚴(yán)格的方法。
實(shí)驗(yàn)如何進(jìn)行?
圖片
圖注:實(shí)驗(yàn)設(shè)計(jì)。在分配條件前定義任務(wù),通過(guò)屏幕錄制驗(yàn)證執(zhí)行情況,并利用專家與開(kāi)發(fā)者的預(yù)測(cè)衡量預(yù)期與實(shí)際結(jié)果的差距。
實(shí)驗(yàn)共追蹤了16名高級(jí)開(kāi)發(fā)者,這些開(kāi)發(fā)者在各自的開(kāi)源項(xiàng)目中完成了246個(gè)實(shí)際任務(wù),任務(wù)涵蓋復(fù)雜模塊的開(kāi)發(fā)與修復(fù),工作負(fù)載真實(shí)而具體。
每個(gè)任務(wù)被隨機(jī)分配到兩個(gè)組:一組使用AI工具,另一組不使用。
AI組開(kāi)發(fā)者主要使用的是Cursor Pro,集成了Claude 3.5和Claude 3.7 Sonnet等主流大模型。
開(kāi)發(fā)者在整個(gè)過(guò)程中錄屏,并記錄完成每個(gè)任務(wù)所花費(fèi)的時(shí)間。為了剔除任務(wù)難度差異的干擾,研究人員采用了統(tǒng)計(jì)方法,引入開(kāi)發(fā)者對(duì)任務(wù)時(shí)間的預(yù)估值作為參考。
換句話說(shuō),他們不僅測(cè)量“花了多長(zhǎng)時(shí)間”,還測(cè)量“比預(yù)期多了多少”。
圖片
最終結(jié)果顯示:AI用戶完成任務(wù)的平均用時(shí)比非AI用戶長(zhǎng)出19%。
諷刺的是,哪怕在任務(wù)完成后,那些用過(guò)AI的開(kāi)發(fā)者仍然堅(jiān)信,自己“節(jié)省了20%的時(shí)間”。
即便現(xiàn)實(shí)已經(jīng)反轉(zhuǎn),他們依然覺(jué)得自己在加速。
研究者指出,這種“快感錯(cuò)覺(jué)”可能來(lái)自AI協(xié)助下的新型流程分布。研究結(jié)果表明,AI并沒(méi)有真正提升核心產(chǎn)出環(huán)節(jié)的效率,只是重新分配了注意力和勞動(dòng)方式。
具體來(lái)說(shuō),當(dāng)AI工具被啟用后,開(kāi)發(fā)者在“主動(dòng)編碼”上的時(shí)間反而減少了。
他們花了更多時(shí)間在提示設(shè)計(jì)、AI產(chǎn)出審查、等待響應(yīng)、閑置,以及理解生成內(nèi)容上。
研究顯示,開(kāi)發(fā)者不是在寫(xiě)代碼,而是在“與AI溝通如何寫(xiě)代碼”。這種交互過(guò)程看起來(lái)很“充實(shí)”,但最終產(chǎn)出并不一定更快。
圖片
圖注:在使用AI的情況下,開(kāi)發(fā)者減少了編碼和查找信息的時(shí)間,更多時(shí)間用于與AI交互和等待
對(duì)新項(xiàng)目或快速原型開(kāi)發(fā),AI確實(shí)能提供幫助。但在面對(duì)成熟的大型項(xiàng)目,特別是開(kāi)源社區(qū)中常見(jiàn)的、結(jié)構(gòu)復(fù)雜、規(guī)則隱含、質(zhì)量要求高的工程時(shí),AI反而成為新的負(fù)擔(dān)。
它需要大量的補(bǔ)充說(shuō)明、更頻繁的審查,甚至還會(huì)引發(fā)語(yǔ)義誤解。
開(kāi)發(fā)者不再是在解決問(wèn)題,而是在解釋問(wèn)題、矯正AI、并試圖相信AI有幫助。
此外,開(kāi)發(fā)者的“心理節(jié)奏”也發(fā)生了變化。他們頻繁切換任務(wù):提示生成、回顧產(chǎn)出、人工修正、重復(fù)嘗試,這種流程非常碎片化。
當(dāng)一個(gè)人忙于各種小動(dòng)作時(shí),他自然會(huì)覺(jué)得自己很“快”。但數(shù)據(jù)不會(huì)說(shuō)謊:他只是“動(dòng)了很多”,并沒(méi)有“前進(jìn)很遠(yuǎn)”。
還有哪些發(fā)現(xiàn)?
METR的研究不僅揭示了AI工具在實(shí)際工作中的真實(shí)效率,還對(duì)目前主流AI評(píng)估體系提出了質(zhì)疑。
他們指出,當(dāng)前業(yè)界廣泛采用的基準(zhǔn)測(cè)試,如SWE-Bench和RE-Bench,存在嚴(yán)重偏差。這些測(cè)試通常是人工設(shè)置的小型題目,情境孤立,完全不反映真實(shí)項(xiàng)目的復(fù)雜性。
開(kāi)發(fā)者在其中只需解決一小段代碼問(wèn)題,不用考慮上下文、不用和團(tuán)隊(duì)協(xié)作,也沒(méi)有歷史遺留負(fù)擔(dān)。
這種測(cè)試環(huán)境高度理想化,與開(kāi)源項(xiàng)目、企業(yè)代碼庫(kù)、或大型框架開(kāi)發(fā)的日常工作完全不同。
于是,我們就得到了一個(gè)錯(cuò)誤的結(jié)論:AI表現(xiàn)得非常強(qiáng)大。
而METR的隨機(jī)對(duì)照實(shí)驗(yàn),則是在現(xiàn)實(shí)中運(yùn)行、在項(xiàng)目中嵌入、在流程中測(cè)量。研究人員將AI直接部署到開(kāi)發(fā)者的真實(shí)任務(wù)中,不干預(yù)流程,只記錄結(jié)果。
這是對(duì)“AI助力”的最直接檢驗(yàn)。
而且,這種實(shí)驗(yàn)還能揭示“感知偏差”:即人們?cè)谑褂肁I之后,對(duì)效果的主觀判斷如何偏離客觀現(xiàn)實(shí)。這才是真正有價(jià)值的測(cè)試方法。
所以,如果AI讓人“覺(jué)得自己更快”,卻“實(shí)際上更慢”,那么其價(jià)值評(píng)估將被全面高估。
企業(yè)、教育機(jī)構(gòu)、平臺(tái)服務(wù)商,乃至政策制定者,都可能被誤導(dǎo)。
研究還暗示,AI工具的價(jià)值可能不是“提高效率”,而是“改造流程”。它改變了工作的節(jié)奏、重構(gòu)了問(wèn)題表達(dá)方式、干擾了注意力分配。
地址:https://metr.org/Early_2025_AI_Experienced_OS_Devs_Study.pdf






















