一舉擊敗Claude Code!微軟提出代碼生成黑科技:一鍵直出36K行代碼
近年來,大模型寫代碼的能力突飛猛進。在函數級、文件級上,生成已相當可靠;開發者一句描述就能得到完整函數或模塊。
但當視野擴展到整個倉庫時,難題隨之而來:數十上百文件、類與函數之間交織著復雜依賴,要從抽象描述落到完整倉庫,始終充滿挑戰。
現有方法多依賴自然語言規劃來決定「做什么、怎么做」。這種方式雖直觀,卻天生模糊、缺乏結構,難以長程穩定地追蹤依賴。
結果就是兩類常見失效:要么功能提案不全,難以覆蓋需求;要么實現過程漂移,接口和模塊邊界逐漸錯亂。

論文地址:https://arxiv.org/abs/2509.16198
為解決這一問題,微軟提出了Repository Planning Graph (RPG),以結構化圖譜替代脆弱的文字規劃,把功能、文件、依賴和數據流統一在一張藍圖中,從而讓倉庫生成首次具備可控、可擴、可驗證的基礎。
從需求到倉庫的統一藍圖
Repository Planning Graph (RPG)是一種結構化表征,它把倉庫生成的全過程統一到一張圖里。
RPG的節點可以是功能目標、文件、類或函數,邊則顯式標注接口調用、依賴關系和數據流動。
這種設計既能回答「要實現什么」(提案層),也能回答「如何實現」(實現層),從而保證高層意圖與底層實現的一致性。
圖片
ZeroRepo流程概覽:(A)提案級構建:將用戶需求轉化為功能圖譜;(B)實現級構建:進一步細化為文件結構和數據流,形成Repository Planning Graph (RPG);(C)圖驅動生成:沿拓撲順序遍歷RPG,逐步生成完整倉庫。
在此基礎上,研究團隊提出了ZeroRepo框架。ZeroRepo從用戶的自然語言描述出發,分三步逐步構建RPG并在其指導下生成代碼:
第一步:提案級構建
ZeroRepo不再讓模型「即興發揮」,而是先把用戶的自然語言需求落到RPG上,逐步長成一張功能圖譜。
它依托一個龐大的功能樹去檢索和拼接節點,比如「用戶登錄」「購物車管理」「支付處理」,像搭積木一樣組合成完整藍圖。
這樣,系統不但覆蓋了所有關鍵功能,還能保證結構清晰、層次合理。
第二步:實現級構建
有了功能藍圖,還需要明確每個模塊「落地到哪里」。
ZeroRepo會把功能節點繼續展開,寫成具體的文件、接口和數據流,并一一標注進RPG。以「支付處理」為例,它會被拆解成payment_service.py、api/payment_api.py等文件,并明確依賴訂單與庫存模塊的輸出。
這樣,模塊間的邊界和依賴被牢牢固定,再也不會在生成過程中走偏。
第三步:圖驅動生成
最后,ZeroRepo按照RPG的拓撲順序推進代碼生成。每實現一個文件或函數,就會先生成測試用例,再寫函數體,并把結果回寫到RPG中。
這形成了「生成—驗證—更新」的閉環。
整個過程像是沿著藍圖施工:有規劃、有校驗,倉庫規模不斷擴展,但始終保持接口對齊、結構穩定。
實證ZeroRepo:從藍圖到真實倉庫
為全面評估倉庫級生成能力,他們構建了全新基準RepoCraft。
圖片
RepoCraft評估準確性的任務的整體數據收集流程
不同于以往依賴現成倉庫或提供詳盡文檔的設置,RepoCraft不提供完整架構藍圖,還涵蓋6個真實項目、共1052個任務:
scikit-learn,pandas,requests,django,statsmodels,sympy。
真正考察模型從模糊需求到結構化實現的能力。
圖片
RepoCraft基準上的不同智能體框架與模型性能對比(Gold Projects 代表真實世界的倉庫)
- 功能覆蓋與規模:覆蓋率達81.5%,比最強基線Claude Code高27.3個點;還能生成超100個新功能(創新率11–13%),遠超其他方法。生成倉庫平均36K行代碼、445K tokens,是Claude Code的3.9倍、其他方法的64倍,復雜度接近人工項目。
- 正確性與一致性:代碼通過率為69.7%,比Claude Code高35.8個點,接近人工項目上限(81%)。RPG的結構化約束有效保證了模塊邊界和接口設計的一致性,使生成結果更穩定、更貼近設計初衷。
圖片
ZeroRepo利用Qwen3-Coder-480B-A35B-Instruct在機器學習庫上搭建數據流動和函數依賴示意圖
- 復雜依賴與協同:以Qwen 3 Coder生成的結果來看,RPG不僅清晰組織了文件層次和模塊流程,還顯式捕捉了跨模塊調用與反饋依賴,使復雜關系能夠被穩妥管理,倉庫在復雜度提升的同時仍保持整體協調。
圖片
ZeroRepo隨規劃迭代次數增長功能數量(左圖)和代碼數量增長情況
ZeroRepo在功能數與代碼規模上都展現出近乎線性的增長趨勢。
隨著迭代次數增加,RPG引導的規劃讓新功能和新增代碼能夠穩步擴展,而不是像基線方法那樣在早期就陷入停滯。
這樣的線性擴展能力證明他們具備支撐大規模倉庫持續開發的潛力。
圖片
RPG在智能體定位任務中的加速效果對比(wo/G表示無全局信息)
此外,RPG提供的全局結構視角顯著提升了代理的倉庫理解與定位能力,使其能夠更快地追蹤依賴、定位問題并完成模塊集成,從而加速整個開發流程。
總結與展望
ZeroRepo展示了結構化圖譜在倉庫生成中的獨特價值:它不僅提升了功能覆蓋率、代碼規模和正確性,還解決了長期困擾自然語言規劃的模糊與漂移問題,使自動化倉庫生成首次逼近真實的軟件開發過程。
未來,研究團隊計劃進一步拓展RPG的適用范圍,包括支持多輪需求變更下的交互式開發、跨倉庫的協同演化,以及與現有工程工具鏈的深度融合。

































