GLM-4.5:推理、編程與Agent能力的全面突破
GLM-4.5核心特性概覽:
?MoE 架構
?混合推理模型
?總參數 355B(激活參數 32B)
?GQA + 部分 RoPE
?多 Token 預測
?Muon 優化器 + QK 歸一化
?22T Token 訓練語料
?Slime RL 基礎設施
?原生工具調用
圖片
圖片
模型架構與預訓練:GLM-4.5 總參數規模達 355B(激活參數 32B),采用更深但更窄的模型設計,通過增加層數和 96 個注意力頭來優化推理能力。輕量版 GLM-4.5-Air 為 106B 參數(激活參數 12B)。
圖片
訓練語料庫規模達 22T Token,其中包含 15T 通用數據和 7T 代碼/推理專用數據。采用分組查詢注意力(GQA)+ 部分旋轉位置編碼(RoPE)來提升長上下文處理效率和推理任務準確性。
中期訓練的關鍵作用: "與早期在大規模通用文檔上進行預訓練不同,這些階段采用中等規模的領域特定數據集,包括指令數據。"
其他設計亮點:多 Token 預測(MTP):支持推測解碼,實現更快的推理速度。;Muon 優化器 + QK 歸一化:提升大批量訓練的穩定性和可擴展性。
Slime RL 基礎設施
?支持agent強化學習的異步推出與訓練分離
?混合精度推出(FP8 推理,BF16 訓練)提升效率
圖片
后訓練流程:
?在推理和agent場景上進行監督微調
?針對推理(含課程學習)和agent任務(信息檢索問答和代碼執行)的強化學習
?專家蒸餾以整合專業技能
圖片
整體性能表現:GLM-4.5 總排名第三,GLM-4.5 Air 排名第六。
agent能力:這是個令人興奮的結果!GLM-4.5 提供 128K 上下文長度和原生函數調用能力,性能可媲美 Claude 4 Sonnet!
測試時擴展:GLM-4.5 在 BrowseComp 上的測試時擴展準確率呈現健康的增長曲線。
推理性能:GLM-4.5 在多個推理基準測試中表現極具競爭力。這種穩定的性能表現尤為重要,因為統一各種能力是很難做到的。
編程能力:雖未達到 Claude 4 Opus 或 o3 的水平,但仍極具競爭力,明顯優于 DeepSeek-R1-0528,與 Kimi-K2 處于同一水準。
帕累托前沿分析:"GLM-4.5 和 GLM-4.5-Air 相比同等規模的模型展現出卓越性能,在性能-規模權衡邊界上實現了最優效率。"
真實場景表現:GLM-4.5 在真實開發場景中的agent編程表現令人印象深刻,相比 Kimi K2 和 Qwen-3 Code 的勝率表現亮眼。
其他能力特性
原生工具調用:通過集成函數調用和agent規劃,工具調用成功率達 90.6%。
全棧開發agent:通過類似 Claude Code 的界面實現多輪agent編程,支持前端/后端開發、幻燈片制作和產出物生成。
本文轉載自?????AI帝國?????,作者:無影寺

















