首個AI軟件工程師上線！已通過公司面試搶程序員飯碗，華人創始團隊手握10塊IOI金牌

作者：機器之心 2024-03-13 12:29:36

官方發的推特說，Devin 不僅通過了一家業內領先的人工智能公司的面試，在自由職業平臺 Upwork 上也能成功接單，完成單主要求的工作。

前段時間，英偉達 CEO 黃院士發出驚人言論：「都別學編程了，以后交給 AI 就行了，以后人人都是軟件工程師。」當時還有很多人反對，說「AI 永遠不會取代程序員。」沒想到，首個人工智能軟件工程師 Devin 一發布，程序員的飯碗可能真要被 AI 端走了。

在 SWE-Bench 基礎測試中，無需人類協助，Devin 就可以解決 13.86% 的問題。而目前的 SOTA 模型，在沒有人類幫忙的情況下，只能完成 1.96% 的任務。

僅從評測結果看，Devin 解決真實世界軟件問題的能力要遠好于當前的 GPT-4 和 Claude 等模型。

官方發的推特說，Devin 不僅通過了一家業內領先的人工智能公司的面試，在自由職業平臺 Upwork 上也能成功接單，完成單主要求的工作。也就是說，Devin 不僅是橫掃基礎測試的「做題家」，在就業市場里也有人為它的工作能力買賬。

難道繼 Sora 讓「現實世界」不存在了之后，Devin 也要讓「軟件工程」不存在了嗎？

Devin 現在還未對外開放，但已經有開發人員和產品人員用上了。測試過的網友表示，以前一直用人工智能輔助編碼，但一直失敗。直到昨天，他給 Devin 了一個簡單的 HTML 頁面，讓它提取選擇器，這個 GPT-4-turbo 、Claude、Groq 、LLama2 都沒完成的任務，Devin 只用了大約 10 秒就搞定了。

源自 https://news.ycombinator.com/item?id=39679787

Devin 的評論區的畫風，也是哀嚎一片：

當然，對這種說法，也有網友并不買賬，認為這是夸大宣傳。

所以，這位來搶程序員「飯碗」的 AI 軟件工程師的本事到底有多大呢？

首位 AI 軟件工程師

真要搶程序員飯碗？

要知道，雖然現在市面上的一系列大模型都有編程能力，但大多數都采用了單行代碼補全或者單個函數生成的方式。想生成完整的程序，還需要設計 prompt 逐步「調教」。

而對 Devin 來說，你只需要向它提要求，坐等其成就可以了。

Devin 配備了包括 shell、代碼編輯器和瀏覽器在內的常見開發工具，這些都在一個沙盒化的計算環境中 —— 這些都是人類軟件工程師完成工作所需的一切。

根據自然語言提示自動寫代碼、生成完整的程序并上線只是 Devin 的基操，它可以自動規劃并執行需要數千個決策的復雜任務。

例如請它在幾個不同的 API 上對 Llama 的表現進行基礎測試，它首先制定了一個逐步解決問題的計劃：

在完成項目的過程中，它使用了瀏覽器為 API 留檔，以便它可以閱讀并學習如何插入這些 API：

遇到意外的錯誤時，Devin 決定先「print」出來，再根據日志中的錯誤決定如何修復 bug：

最后，它為你構建了一個完整的可視化網站：

Devin 能自動完成如此復雜的規劃，得益于其背后的 Cognition AI 在長期推理和規劃方面的進展，這使它能夠在每一步回憶相關的上下文，隨時間學習，并修復錯誤。

Devin 擁有積極的協作的能力，它能實時報告進度，接受反饋，并根據需要調整，還能適應成熟的代碼庫，修改前輩留下的 bug。

自主學習，從完全陌生的知識學習使用不熟悉的技術，也是 Devin 所擅長的。

你給它一篇新博客，講的是如何運行 ControlNet on Modal，生成帶文字的圖像：

它不僅能迅速從中學會所需的代碼，沒過兩秒，工作就自動幫你完成了：

在 Upwork 接的單里，Devin 被要求編寫并調試運行計算機視覺模型的代碼。

Devin 甚至能夠訓練和微調自己的 AI 模型，看來 AI 的生命快要在此刻完成閉環了。僅通過一個 GitHub 倉庫的鏈接，Devin 就微調了一個大型語言模型。

總體來看，與其他具有編程能力的大模型，Devin 不僅輔助編程或提供代碼片段，它能夠獨立支持一整個項目，而不僅僅是輔助或提供代碼片段的建議。相比于「副駕駛」的角色，Devin 更接近于一個獨立工作者。而 Cognition AI 聲稱 Devin 實現了在 AI 領域被稱為「理解」的突破，這意味著它能夠不僅是在預測下一個單詞或代碼行應該輸出什么，而是更像在思考如何解決問題的總體方法。

而 Devin 的技術路徑，CognitionAI 并還未公開，只是簡要地提到，Cognition AI 的團隊發現了將大型語言模型（LLM）如 OpenAI 的 GPT-4 與強化學習技術結合的獨特方法。這種方法可能是他們技術突破的關鍵點。

看到 Devin 的 Demo 后，剛從 OpenAI 離職的 AI 大牛 Andrej Karpathy 發表了一些獨到的見解。在他看來，自動化軟件工程的發展將類似于自動化駕駛，是一個人工智能做的越來越多，而人類的工作越來越少，但仍提供監督的過程。

Devin 可能是通向未來，人類在更高層級進行抽象監督的過程中一環，在這個過程中仍有很多問題需要解決。例如，人工智能部分以及用戶界面 / 用戶體驗部分都有很多工作要做。人類如何提供監督他們如何引導人工智能走向不同的路徑？他們如何調試出錯的地方？代碼編輯器的設計有可能需要大幅改變。

CognitionAI 簡介

整個 Cognition AI 團隊由 10 人組成，包括獲得過 10 枚國際比賽金牌的運動編碼者。

不少網友感嘆，這太瘋狂了。

這支團隊的成員在編程競賽中獲得的成就和對問題解決的獨特方法。其中三位創始人信息如下：

從左到右分別為 Steven Hao、Scott Wu、Walden Yan，圖源：https://www.bloomberg.com/news/articles/2024-03-12/cognition-ai-is-a-peter-thiel-backed-coding-assistant

Scott Wu - 首席執行官 (CEO)：Scott 是團隊的領導者，和他的兄弟 Neal Wu 一起，自青少年時期就開始參加并經常獲勝于國際編程比賽，曾連續三年攬獲 IOI 金牌，這些比賽提升了他們的編程能力。Scott 的背景和對算法問題的深入理解為 Cognition AI 的開發提供了獨特的視角。

Scott Wu 曾連續三年獲得 IOI 金牌

Steven Hao - 首席技術官 (CTO)：Steven之前是Scale AI的頂尖工程師，Scale AI是一家估值很高的初創公司，專注于幫助訓練AI系統。

Walden Yan - 首席產品官 (CPO)：Walden 直到最近還在哈佛大學上學，他請求將他在學校的狀態留作模糊，大概率是想「輟學創業」。

Walden Yan 在哈佛就讀期間，曾在一年級時獲得第 32 屆 IOI 金牌

除了這三位核心成員，還有一位 Neal Wu，他是 Scott Wu 的兄弟，他也在 Cognition AI 工作。Wu 兄弟因其編程才華在全球范圍內享有盛譽，他們自青少年時期起就在國際編碼比賽中競爭并常獲勝利，這些比賽經驗幫助他們在編程和解決問題方面擁有獨特的方法。

責任編輯：張燕妮來源：機器之心

AI 訓練