快手新模型登頂開源編程模型榜首!超越Qwen3-Coder等模型 原創
今天,快手Kwaipilot團隊開源了KAT-Dev-72B-Exp模型,該模型在軟件開發能力評測基準SWE-Bench Verified上取得了74.6%的卓越性能,創造了開源模型的新紀錄。
?

?
此次登頂不僅超越了此前表現優異的Qwen3-Coder等強大的開源模型,還表現出對標頂尖閉源模型的實力。
?
SWE-Bench是全球公認的軟件工程基準測試,要求模型真實理解代碼庫、修復錯誤并實現功能。KAT-Dev-72B-Exp的優異表現,證明了其在處理復雜編程任務上的強大能力。
?
在技術創新方面,該模型基于快手自研的SeamlessFlow工業級強化學習框架,通過創新的數據平面架構實現了訓練邏輯與Agent的完全解耦。這種設計成功支持了多智能體和在線強化學習等復雜場景。
?

【數據平面的序列圖】
?
針對復雜Agent場景的技術挑戰,團隊創新性地引入Trie Packing機制,并對訓練引擎進行了重構優化,使模型能夠高效地在共享前綴軌跡上開展訓練。通過難度感知的策略優化,實現了探索與利用的平衡,這讓模型在編程領域展現出強大的能力。
?
值得注意的是,這次登頂的模型是KAT-Coder模型的強化學習實驗版本。這表明快手的模型迭代策略正在取得實質性進展,通過持續的技術優化,不斷突破性能瓶頸。
?
此前,阿里開源的Qwen3-Coder曾引發廣泛關注。Qwen3-Coder是千問系列模型中首個采用混合專家MoE架構的代碼模型,總參數達480B,激活35B參數。在SWE-Bench評測中,Qwen3-Coder取得了開源最佳效果,可媲美Claude4。
?
然而,不到3個月的時間,快手新模型就以74.6%的解決率實現了對Qwen3-Coder的超越。這一突破不僅體現在數字上的提升,更反映了訓練方法和架構優化的進步。
?
從技術路線上看,阿里Qwen3-Coder專注于Agent能力的提升,特別擅長解決多步驟的長任務。而快手KAT系列則采用了更為全面的訓練方法,覆蓋了從基礎能力到復雜任務的多個層面。
?
根據技術資料顯示,KAT系列模型經歷了多個訓練階段的精細優化。
?
在Mid-Training階段,團隊增強了模型與“LLM-as-Agent”相關的全方位能力,包括工具調用能力、多輪交互能力、編碼知識注入等。這種全面的基礎能力建設為后續優化奠定了堅實基礎。
?
監督微調階段則策劃了八種任務類型和八種編程場景,確保模型的泛化能力和綜合能力。這種細致入微的任務設計,使模型能夠適應各種復雜的編程環境。
?

?
特別值得一提的是強化微調階段的創新。團隊在強化學習流程的基礎上,額外引入多個ground truth用于軌跡探索的指導。這種方法從直接給定絕對reward更新為衡量rollout樣本和ground truth之間的相對差異,給了強化學習更穩定和更準確的獎勵信號。
?
隨著KAT-Dev-72B-Exp的開源,代碼大模型的競爭將進入新的階段。從快手的技術布局來看,其創新的訓練方法和架構設計,為行業提供了新的發展思路。
?
這種技術突破將促使更多企業加大在AI編程領域的投入。同時,開源模型與閉源模型的競爭格局也可能發生變化,更多企業可能會選擇開源路線以擴大生態影響力。
?
從應用前景看,高性能編程模型不僅將提升開發效率,還可能改變軟件開發的本質。隨著模型能力的不斷提升,未來可能會出現全新的人機協作編程模式。
快手KAT-Dev-72B-Exp的登頂,是國產AI編程模型發展的一個重要里程碑。
?
隨著技術的不斷進步,更多優秀的國產模型不斷涌現,并推動整個行業向更高水平發展。在這個過程中,開源共享的精神將繼續發揮關鍵作用,助力全球AI技術的普及與提升。
?
對于開發者而言,現在正是探索和利用這些先進技術的良機。無論是參與開源項目,還是基于這些模型構建應用,都將為個人成長和行業進步創造新的價值。

















