智譜終于發布GLM-4.5技術報告,從預訓練到后訓練,細節大公開
就在上個月底,智譜放出重磅炸彈 —— 開源新一代旗艦模型 GLM-4.5 以及輕量版 GLM-4.5-Air。其不僅首次突破性地在單個模型中實現了推理、編碼和智能體能力的原生融合,還在 12 項全球公認的硬核測試中取得了全球第三的綜合成績。這個成績在所有國產模型和開源模型中均排名第一!

消息一出,瞬間刷屏社交網絡:官方推文的瀏覽量突破 120 萬, GLM-4.5 模型更是連續 7 天登頂 Hugging Face 趨勢榜單,引發海內外 AI 圈熱議。

社交平臺上,研究者與開發者紛紛點贊,不斷分享 GLM-4.5 系列在各類基準上的最新測試成績。

就在熱度持續升溫之際,OpenAI 也開源了備受期待的 gpt-oss 系列模型。網友第一時間將它與 GLM-4.5 放到一起比拼,而后者的整體表現依舊鋒芒畢露。

這時,愛學習的讀者自然會問:GLM-4.5 是怎么煉成的?雖然智譜此前在技術博客里披露過部分細節,但大家一直期待的完整技術報告遲遲未見。

今天,這一懸念終于揭曉 ——GLM-4.5 的技術報告已正式發布。報告不僅詳述了 GLM-4.5 的預訓練與后訓練細節,還介紹了為其打造的開源強化學習(RL)框架 slime,它兼具靈活性、效率與可擴展性,可為模型高效 RL 訓練保駕護航。

- 報告標題:GLM-4.5: Agentic, Reasoning, and Coding (ARC) Foundation Models
- 報告鏈接:https://arxiv.org/abs/2508.06471
- GitHub:https://github.com/zai-org/GLM-4.5
- Hugging Face:https://huggingface.co/zai-org/GLM-4.5
GLM-4.5 技術報告也被 Hugging Face 用戶投票為今天的「#1 Paper of the day」。

下面我們就來看一看這個國產第一大模型究竟是如何煉成的,但在此之前,我們需要了解智譜為什么做出了這樣一個決定:將智能體、推理、代碼能力統一到一個單一模型中。
為何「大一統」智能體、推理、代碼?
大語言模型(LLM)正在迅速進化 —— 從通用知識庫邁向通用問題求解器,其最終目標是在廣泛領域內達到人類級認知水平,這不僅僅需要特定任務中達到專家水平,更需要在復雜問題求解、泛化能力和自我改進等方面實現統一突破。
隨著 LLM 越來越深入地融入現實世界場景,提升實際生產力和解決復雜專業任務的關鍵在于發展出更多核心能力。智譜研究團隊認為,衡量 AGI 的第一性原理,是在不損失原有能力的前提下融合更多通用智能能力。
衡量真正通才模型的標準應包括以下三項相互關聯的關鍵能力:
- 與外部工具和現實世界互動的智能體(Agentic)能力;
- 在數學和科學等領域解決多步驟問題的復雜推理(Reasoning)能力;
- 應對現實世界軟件工程任務的高級代碼(Coding)能力。
這三項能力可合稱為 ARC 能力。
然而,現有模型仍然算不上真正的通才模型。盡管 OpenAI 的 o1/o3 和 Anthropic 的 Claude Sonnet 4 等 SOTA 專有模型在數學推理或代碼修復等特定 ARC 領域展現了突破性性能,但仍未有一個同時在上述所有三個領域均表現卓越的強大開源模型。
GLM-4.5 正在為此努力,力求在一個模型中集成所有這些不同的能力。GLM-4.5 采用了混合推理模式:復雜推理和智能體任務采用思考模式,即時響應采用非思考模式。
GLM-4.5 是如何「練」成的?
模型架構
GLM-4.5 采用了 MoE(混合專家)架構,這種架構能夠顯著提升訓練和推理時的計算效率。
更具體而言,智譜在 MoE 層采用了 loss-free balance 路由和 sigmoid gate 機制。與 DeepSeek-V3 和 Kimi K2 的設計思路不同,他們選擇了「瘦高」的模型結構 —— 減少模型的寬度(包括隱藏維度和路由專家的數量),同時增加模型的深度(層數)。他們發現:更深的模型在推理能力上表現更加出色。
在自注意力機制方面,他們采用了 partal RoPE 的分組查詢注意力(Grouped-Query Attention)。另外,他們將注意力頭的數量增加到了一般模型的 2.5 倍(在 5120 的隱藏維度下使用 96 個注意力頭)。有意思的是,雖然增加注意力頭的數量并沒有讓訓練 loss 更低,但在 MMLU 和 BBH 等推理基準測試中,GLM-4.5 的表現卻得到了穩定提升。

GLM-4.5 系列模型架構,參數數量包含 MTP 層的參數,但不包含詞嵌入和輸出層的參數。
GLM-4.5 使用了 Muon 優化器,這個優化器不僅能加快模型收斂速度,還能在更大的 Batch Size 下相比 AdamW 保持更好的收斂效果,從而提升訓練效率。
他們還引入了 QK-Norm 技術來提升注意力 logit 的數值穩定性。GLM-4.5 還加入了 MTP(Multi Token Predition)層,用于在推理階段實現推測解碼,進一步提升推理效率。
預訓練和中期訓練
GLM-4.5 經歷了幾個訓練階段。在預訓練期間,GLM-4.5 首先在 15T token 的通用預訓練語料庫上訓練,然后在 7T token 的代碼和推理語料庫上訓練。預訓練后,他們引入了中期訓練來進一步提升 GLM-4.5 在專有領域上的性能。

GLM-4.5 的預訓練和中期訓練,采用多階段訓練方案,并將序列長度從 4K 擴展至 128K。
GLM-4.5 的預訓練數據來源于網頁、社交媒體、書籍、論文和代碼倉庫,并針對不同來源設計了優化處理流程。
預訓練分為兩個階段,第一階段主要使用一般網頁文檔,第二階段重點上采樣編程、數學和科學相關的高質量數據,從而兼顧高頻知識、長尾知識覆蓋以及推理能力的提升。
中期訓練階段旨在在預訓練基礎上進一步增強推理能力和智能體能力,采用中等規模的領域特定數據集和指令數據,主要包括以下三個環節:
- 代碼倉庫級訓練:將同一倉庫的代碼文件拼接,學習跨文件依賴,并引入經過模型篩選的 GitHub issue、PR 和 commit,以提升軟件工程能力。并將序列長度擴展到 32K。
- 合成推理數據訓練:收集來自網頁和書籍的數學、科學、編程相關問答數據,并用推理模型生成推理過程,從而強化模型的推理能力。
- 長上下文與智能體訓練:將序列長度從 32K 擴展到 128K,上采樣長文檔,并加入大規模合成的智能體軌跡數據,以提升長文本處理和多步交互能力。
在預訓練階段,最大序列長度保持為 4096,而在中期訓練階段,最大序列長度從 32768 擴展至 131072。在預訓練階段,研究團隊未采用 best-fit packing,因為隨機截斷可以作為對預訓練文檔的數據增強策略。在中期訓練階段,他們應用了 best-fit packing,以避免截斷推理過程或倉庫級別的代碼。
基于 slime 的大模型強化學習
為了支持 GLM-4.5 這樣的大模型進行高效的強化學習(RL)訓練,智譜設計、開發并開源了 slime。這是一個在靈活性、效率和可擴展性方面都表現卓越的 RL 框架。該框架已經發布了一些時日了,并已經在 GitHub 上收獲了近 1200 star。

- 開源地址:https://github.com/THUDM/slime
具體而言,slime 由三個核心模塊組成:
- 訓練(Megatron),處理主要的訓練過程,從 Data Buffer 讀取數據,并在訓練結束后將參數同步到 rollout 模塊;
- rollout(SGLang + Router),生成新的數據,包括獎勵和驗證器輸出,并將其寫入 Data Buffer;
- Data Buffer,作為橋接模塊,管理提示詞初始化、自定義數據和 rollout 生成策略。

slime 旨在解決強化學習中的常見瓶頸,并針對復雜的智能體任務做了優化:
- 靈活的混合訓練架構: slime 的核心優勢在于其多功能的混合架構。它既支持同步、集中式訓練(適合推理和通用強化學習訓練),也支持分布式、異步訓練模式。這種異步模式對于 Agentic RL 至關重要,因為在這類場景中,數據生成往往是一個緩慢的外部過程。通過將訓練與數據收集解耦,可以確保訓練 GPU 始終保持滿負荷運行,最大化硬件利用率。
- 面向智能體的解耦設計: Agentic RL 經常面臨環境交互時延遲高且分布長尾的問題,這嚴重限制了訓練吞吐量。為此,slime 實現了完全解耦的基礎架構,將環境交互引擎與訓練引擎分離。這兩個組件在不同的硬件上獨立運行,將數據生成的瓶頸轉化為可并行化的非阻塞過程。這種設計是加速長序列智能體任務的關鍵。
- 混合精度加速數據生成: 為了進一步提升吞吐量,slime 采用混合精度推理來加速環境交互。它使用 FP8 精度進行數據生成(Rollout),同時在模型訓練中保留 BF16 精度以確保訓練穩定性。這種技術在不影響訓練質量的前提下,大幅提升了整體訓練速度。
這種整體化的設計使得 slime 能夠無縫集成多個智能體框架,支持各種任務類型,并通過統一而強大的接口高效管理長序列環境交互。
增強智能體能力的后訓練
后訓練對 LLM 至關重要,模型通過自主探索和積累經驗來不斷優化策略。強化學習是突破模型能力邊界的關鍵步驟。
GLM-4.5 不僅整合了 GLM-4-0414 的通用能力和 GLM-Z1 的推理能力,還重點提升了智能體能力,包括智能體編程、深度搜索和通用工具使用。
訓練過程首先在精選的推理數據和合成的智能體場景數據上進行監督微調,然后通過專門的強化學習階段分別訓練專家模型。
- 推理能力訓練:智譜完整的 64K 上下文長度上進行單階段強化學習,采用基于難度的課程學習來進行多階段 RL。為了確保訓練穩定性,智譜引入了改進的技術:使用動態采樣溫度來平衡探索與利用,以及在 STEM 問題上使用自適應裁剪來保證策略更新的穩定性。
- 智能體任務訓練: 訓練聚焦于兩個可驗證的任務:基于信息檢索的問答和軟件工程任務。智譜開發了可擴展的策略來合成基于搜索的問答對,方法是通過人工參與的內容提取和選擇性地模糊網頁內容。編程任務則通過在真實軟件工程任務上基于執行結果的反饋來驅動。
雖然強化學習訓練只針對有限的可驗證任務,但獲得的能力提升可以遷移到相關領域,比如通用工具使用能力。最后,他們通過專家蒸餾將這些專門技能整合起來,使 GLM-4.5 在各項任務上都具備全面的能力。
更多技術細節,請查看 GLM-4.5 技術報告原文。
效果怎么樣?
智譜在 12 個基準上評估了 GLM-4.5 在 ARC(智能體、推理和代碼)任務上的表現,具體包括:MMLU-Pro、AIME 24、MATH-500、SciCode、GPQA、HLE、LCB(2407-2501)、SWE-Bench Verified、Terminal-Bench、TAU-Bench、BFCL V3、BrowseComp。
智能體任務
研究團隊在 TAU-bench 和 BFCL-v3(Berkeley Function Calling Leaderboard v3)上測量了其工具調用能力,在 BrowseComp 上測量了其作為網頁瀏覽智能體的能力。
在 TAU-bench 上,GLM-4.5 的表現優于 Gemini 2.5 Pro,并且接近 Claude Sonnet 4;在 BFCL V3 上,GLM-4.5 在所有基線模型中取得了最高的總體得分;在 BrowseComp 上,OpenAI o3 的表現明顯優于其他模型,而 GLM-4.5 的表現接近 o4-mini,并顯著優于 Claude Opus 4。

推理
研究團隊在七個基準上評估了 GLM-4.5 的推理能力,這些基準包括 MMLU-Pro、AIME 24、MATH 500、SciCode、GPQA、Humanity’s Last Exam(HLE)以及 LiveCodeBench(LCB)。
對于 AIME 和 GPQA 基準,他們分別展示了 32 次和 8 次采樣的平均準確率(Avg@32、Avg@8),以減輕結果的隨機性波動。答案驗證由一個 LLM 自動完成。對于 HLE 基準,僅評測了基于文本的問題,正確性由 GPT-4o 判定。他們還使用 Artificial Analysis 提出的智能指數(intelligence index),計算了上述七個基準的平均推理性能。
結果顯示,GLM-4.5 在 AIME 24 和 SciCode 基準上超過了 OpenAI o3。在整體平均表現上,GLM-4.5 優于 Claude Opus 4,并接近 DeepSeek-R1-0528。

代碼
為了衡量 GLM-4.5 解決真實世界代碼任務的能力,研究團隊在兩個具有挑戰性的基準 SWE-bench Verified 和 Terminal-Bench 上進行了評測。
在 SWE-bench Verified 上,GLM-4.5 的表現優于 GPT-4.1 和 Gemini-2.5-Pro。在 Terminal-Bench 上,GLM-4.5 超過了 Claude Sonnet 4。

整體而言,在代碼任務上,GLM-4.5 算得上是 Claude Sonnet 4 最有力的競爭對手。
除此之外,研究團隊還對 GLM-4.5 的通用能力、安全、在真實世界的實際表現(包括通用聊天、Coding Agent、邏輯推理和翻譯)等方面進行了評估。詳情請查看 GLM-4.5 技術報告原文。
寫在最后
隨著這份技術報告的發布,GLM-4.5 的「幕后故事」終于完整呈現。從架構設計到訓練方法,再到為其量身打造的 RL 框架 slime,智譜不僅交出了性能成績單,也公開了實現路徑。
對關注國產開源大模型的人來說,這不僅是一份報告,更是一把洞察未來研發方向的鑰匙。































