一舉擊敗Claude Code！微軟提出代碼生成黑科技：一鍵直出36K行代碼

作者：新智元 2025-10-09 03:22:00

自然語言規劃的模糊性讓倉庫生成屢屢翻車。微軟RPG用圖譜取代文字，節點代表功能與文件，邊標注依賴與接口。基準顯示，功能創新率11-13%，代碼通過率69.7%，遠超Claude Code，為大規模AI開發鋪平道路。

近年來，大模型寫代碼的能力突飛猛進。在函數級、文件級上，生成已相當可靠；開發者一句描述就能得到完整函數或模塊。

但當視野擴展到整個倉庫時，難題隨之而來：數十上百文件、類與函數之間交織著復雜依賴，要從抽象描述落到完整倉庫，始終充滿挑戰。

現有方法多依賴自然語言規劃來決定「做什么、怎么做」。這種方式雖直觀，卻天生模糊、缺乏結構，難以長程穩定地追蹤依賴。

結果就是兩類常見失效：要么功能提案不全，難以覆蓋需求；要么實現過程漂移，接口和模塊邊界逐漸錯亂。

論文地址：https://arxiv.org/abs/2509.16198

為解決這一問題，微軟提出了Repository Planning Graph (RPG)，以結構化圖譜替代脆弱的文字規劃，把功能、文件、依賴和數據流統一在一張藍圖中，從而讓倉庫生成首次具備可控、可擴、可驗證的基礎。

Repository Planning Graph (RPG)是一種結構化表征，它把倉庫生成的全過程統一到一張圖里。

RPG的節點可以是功能目標、文件、類或函數，邊則顯式標注接口調用、依賴關系和數據流動。

這種設計既能回答「要實現什么」（提案層），也能回答「如何實現」（實現層），從而保證高層意圖與底層實現的一致性。

圖片

ZeroRepo流程概覽：(A)提案級構建：將用戶需求轉化為功能圖譜；(B)實現級構建：進一步細化為文件結構和數據流，形成Repository Planning Graph (RPG)；(C)圖驅動生成：沿拓撲順序遍歷RPG，逐步生成完整倉庫。

在此基礎上，研究團隊提出了ZeroRepo框架。ZeroRepo從用戶的自然語言描述出發，分三步逐步構建RPG并在其指導下生成代碼：

ZeroRepo不再讓模型「即興發揮」，而是先把用戶的自然語言需求落到RPG上，逐步長成一張功能圖譜。

它依托一個龐大的功能樹去檢索和拼接節點，比如「用戶登錄」「購物車管理」「支付處理」，像搭積木一樣組合成完整藍圖。

這樣，系統不但覆蓋了所有關鍵功能，還能保證結構清晰、層次合理。

有了功能藍圖，還需要明確每個模塊「落地到哪里」。

ZeroRepo會把功能節點繼續展開，寫成具體的文件、接口和數據流，并一一標注進RPG。以「支付處理」為例，它會被拆解成payment_service.py、api/payment_api.py等文件，并明確依賴訂單與庫存模塊的輸出。

這樣，模塊間的邊界和依賴被牢牢固定，再也不會在生成過程中走偏。

最后，ZeroRepo按照RPG的拓撲順序推進代碼生成。每實現一個文件或函數，就會先生成測試用例，再寫函數體，并把結果回寫到RPG中。

這形成了「生成—驗證—更新」的閉環。

整個過程像是沿著藍圖施工：有規劃、有校驗，倉庫規模不斷擴展，但始終保持接口對齊、結構穩定。

為全面評估倉庫級生成能力，他們構建了全新基準RepoCraft。

圖片

RepoCraft評估準確性的任務的整體數據收集流程

不同于以往依賴現成倉庫或提供詳盡文檔的設置，RepoCraft不提供完整架構藍圖，還涵蓋6個真實項目、共1052個任務：

scikit-learn，pandas，requests，django，statsmodels，sympy。

真正考察模型從模糊需求到結構化實現的能力。

圖片

RepoCraft基準上的不同智能體框架與模型性能對比（Gold Projects 代表真實世界的倉庫）

功能覆蓋與規模：覆蓋率達81.5%，比最強基線Claude Code高27.3個點；還能生成超100個新功能（創新率11–13%），遠超其他方法。生成倉庫平均36K行代碼、445K tokens，是Claude Code的3.9倍、其他方法的64倍，復雜度接近人工項目。
正確性與一致性：代碼通過率為69.7%，比Claude Code高35.8個點，接近人工項目上限（81%）。RPG的結構化約束有效保證了模塊邊界和接口設計的一致性，使生成結果更穩定、更貼近設計初衷。

圖片