編輯 | 云昭
出品 | 51CTO技術棧(微信號:blog51cto)
今天凌晨,智譜新開源了自家的最強模型 GLM 4.5。
從官方發(fā)布了的博客看,這次發(fā)布聚焦在了三項能力:推理、coding 和 Agentic 任務。
圈里一些朋友反饋看,說它拿下了新一輪的卷王寶座,小編反而覺得 GLM 這次發(fā)布沒那么簡單,有幾項新的功能,可以說市面上僅此一家。
這里還是先“省流”地的說幾點官方公開的功能亮點,然后就開始實測一波。
在智能體任務基準測試中,GLM 4.5 拿下了媲美 Claude 4 Sonnet 相媲美的成績。尤其在函數(shù)調(diào)用方面,超過了 K2 和 Qwen3,登頂?shù)谝弧?/p>
此外,全棧開發(fā)能力也非常強悍,開發(fā)環(huán)境中的交互能力也拿到了第一。
第三點,GLM 4.5 自帶的 AI PPT 功能非常與眾不同,可以結合 HTML 代碼和圖像搜索插件,逐頁制作演示文稿,設計感碾壓市面上的產(chǎn)品。
先說Highlight
對于大模型側(cè)而言,智譜也是一個 AGI 的忠實擁躉。這次的 GLM 4.5,這次的重點是治理于將大模型的研發(fā)往前推進一步:解決真實世界中的實際問題。
圖片
具體思路就是:
我們現(xiàn)在有很多模型,有的擅長寫代碼,有的擅長數(shù)學,有的擅長推理,卻沒有一個能在所有任務中都做到最優(yōu)表現(xiàn)。
GLM-4.5 正是在努力解決這個問題:統(tǒng)一多種能力于一體?;诖耍亲V團隊圍繞這個命題,將 GLM-4.5 與 OpenAI、Anthropic、Google DeepMind、xAI、阿里巴巴、Moonshot 和 DeepSeek 的多個模型進行對比,在12個基準測試中涵蓋:
- Agentic(智能體類任務)3項
- Reasoning(推理任務)7項
- Coding(編程任務)2項
最后做了整體評估。綜測結果顯示:
1、工具調(diào)用成功率登頂:GLM-4.5 達到 90.6%,超越 Claude-Sonnet(89.5%)、Kimi K2(86.2%)和 Qwen3-Coder(77.1%)。
2、GLM-4.5 在 命令行模擬任務 Terminal-Bench 中拿下第一,展示其在開發(fā)環(huán)境中具備一定交互式控制能力。
3、在 SWE-bench 是編程實戰(zhàn)測試中,GLM-4.5 與 Claude Sonnet 不分伯仲,顯著領先 GPT-4.1。
4、Agentic Coding 勝率數(shù)據(jù):GLM-4.5 對比 Kimi K2 的 52 項任務勝率為 53.9%,對 Qwen3-Coder 勝率為 80.8%,表現(xiàn)強勢。

上面,這一堆數(shù)字可能大家現(xiàn)在都免疫了。所以小編在實測了之后,總結了下 GLM 4.5 的亮點功能。大家不妨一看:
- 支持多種工具協(xié)作開發(fā):可無縫對接 Claude Code、RooCode、CodeGeex 等插件,實現(xiàn)端到端開發(fā)。
- 全棧開發(fā)能力強:從前端頁面、美觀 UI 到后端部署,GLM-4.5 生成的界面功能性與美學兼顧,符合人類審美。
- PPT / 海報生成能力強:GLM-4.5 結合 HTML 代碼和圖像搜索插件,可以生成帶有設計感的完整演示文稿。
- 多輪交互式開發(fā):提供基礎項目骨架后,用戶只需“加需求”,模型就能自動拓展功能并調(diào)試。
實測效果究竟如何?
先說一個實測感受,就是 GLM 4.5 執(zhí)行任務是真慢,但慢的理由是值得的。
因為它真的要比其他市面上的大模型,可以把我們實際工作生活中的復雜任務做出非常 amazing 效果。
出于篇幅關系,小編做了兩個能力方面的用例實戰(zhàn)。
一個是全棧開發(fā)能力方面。因為小編看到一些官網(wǎng)上舉的一些例子:賽博功德計數(shù)器、夢幻三消小游戲什么的,感覺有些太幼稚了。
圖片
所以索性還是圍繞小編目前籌劃的播客站點,想了一個測試題目:
幫我設計一個射雕三部曲的播客選題的站點,要求:
1、界面是金庸武俠風格
2、背景有羽毛緩慢飄動
3、自行發(fā)揮各個板塊
然后,GLM 4.5 就開始干活了,思考過程非常清晰:先搞清楚用戶的意圖目的,并根據(jù)我的要求,拆解規(guī)劃了自己要完成的任務:
圖片
非常與眾不同的是,GLM 4.5 給出了非常系統(tǒng)的項目設計,逐項任務進行拆解,進而逐項實現(xiàn),沒想任務之間的劃分可以說做到了相當程度的解耦,完成一項之后,就在待辦事項中劃掉一項。
可以說,已經(jīng)非常 Agentic 了。
圖片
所以說,具備這種思路的大模型,目前小編是第一次看到,驚艷到了。
此處略去各種感嘆號,直接讓大家看下最后的效果。

第二個實測的例子,更然小編折服了。最近小編一直想看《南京照相館》,題材很應景,主演們:劉昊然、王傳君等也都是小編一直感冒的演員。只是一直沒有時間去看,所以干脆讓 GLM 4.5 幫我先看看影評,做個解說PPT介紹一下了。
圖片
結果等了十幾分鐘后,PPT的界面效果出來之后,小編的瞳孔開始地震了。
設計感的確很給力,而且每個畫面的布局、圖文之間的混排,非常人性。
當劉昊然那張 C 位照片的透明封面出來之后,小編心想:這 AI PPT 界真的要變天了。
圖片
原理上,GLM 4.5 調(diào)用了四個工具來完成 AI PPT 的任務,Web Search、Slides Maker、WorkSpace、Image Search。
通過網(wǎng)頁代碼和圖像搜索結合的方式,可以說是準確度和設計感已經(jīng)超過小編本人的 PPT 水平了。
最后可以直接在 Chat 界面預覽,也可以導出 PDF 文件。給大家看看效果。

小編反正是徹底愛上了。雖然生成速度有些慢!
GLM 4.5 背后的技術公開
這次,智譜也 open 了這一次升級背后的 Trick。
首先在架構方面,更深的模型和更多的注意力頭可以帶來更佳的推理能力。
GLM-4.5 系列中,智譜團隊在 MoE 層中使用了 無損負載均衡路由和 Sigmoid 門控機制。
智譜團隊基于實驗發(fā)現(xiàn),更深的模型具有更強的推理能力。
所以,與 DeepSeek-V3 和 Kimi K2 的策略不同,他們選擇減少模型寬度(即隱藏層維度與被路由專家數(shù)量),增加模型深度(即層數(shù))。
此外,在自注意力部分,GLM 4.5 還引入了 Grouped-Query Attention,并結合了 部分位置旋轉(zhuǎn)編碼(Partial RoPE)。同時,團隊還將注意力頭的數(shù)量提升到常規(guī)的 2.5 倍(即在 5120 的隱藏維度下使用 96 個頭)。
雖然直覺上注意力頭數(shù)量的提升并未降低訓練損失(loss),但研究人員觀察到它顯著提升了模型在 MMLU、BBH 等推理類基準測試中的表現(xiàn)。
優(yōu)化器方面,智譜團隊采用了 Muon 優(yōu)化器,具有更快的收斂速度與更強的超大批次容忍能力。
另外,在 GLM-4.5 和 GLM-4.5-Air 中,我們都加入了 MTP(多 Token 預測)層,以在推理階段支持推測式解碼。
其次,數(shù)據(jù)方面,GLM 4.5 采用了多階段訓練的方法:
- 首先在 15 萬億 token 的通用預訓練語料上訓練;
- 隨后追加訓練 7 萬億 token 的代碼與推理類語料;
- 在預訓練之后,引入額外的任務增強階段,用以提升模型在關鍵下游任務中的表現(xiàn)。
官方博客中介紹,這些階段主要使用中等規(guī)模的領域?qū)S脭?shù)據(jù)集,包括指令調(diào)優(yōu)數(shù)據(jù)。
第三,強化學習階段,智譜還開發(fā)了一套大模型強化學習框架:slime。目的是使RL訓練階段具備出色的靈活性、效率與可擴展性。
slime 的核心創(chuàng)新包括:
1、靈活的混合訓練架構。對于傳統(tǒng)推理類任務而言,可同時支持同步協(xié)同訓練;對于智能體類任務優(yōu)化而言,可支持解耦異步訓練模式。
值得注意的是,在異步模式下,訓練與數(shù)據(jù)生成完全解耦,顯著提高 GPU 利用率,避免算力空轉(zhuǎn)。
2、智能體友好的解耦式設計。智能體訓練常因環(huán)境交互延遲長、分布不穩(wěn)定而拖慢訓練。
slime 可將 rollout(環(huán)境交互)與訓練邏輯徹底分離、并行處理,有效突破性能瓶頸。
3、 混合精度加速數(shù)據(jù)生成。使用高效的 FP8 格式 快速生成數(shù)據(jù),同時在訓練主循環(huán)中保留 BF16 以確保穩(wěn)定性。這樣可以大幅提升生成速率,同時保障訓練質(zhì)量。
通過這些設計,slime 能無縫集成多種 agent 框架、支持多樣任務,并高效管理長時間跨度的訓練流程。
智譜GLM4.5是如何做到統(tǒng)一多項能力的?
重點技巧來了,正如上文所說, GLM-4.5 這款面模型追求的是讓一款模型同時具備優(yōu)秀的推理、編程、通用工具調(diào)用的能力,智譜在開源模型的同時,把這項核心技術也第一時間公開了。
據(jù)悉,GLM 4.5 整合了下面幾項能力:
- 來自 GLM-4-0414 的通用能力
- 來自 GLM-Z1 的推理能力
- 進一步強化了智能體能力,包括:
智能體編程(Agentic Coding)
深度搜索(Deep Search)
通用工具調(diào)用能力(General Tool-Using)
而這個整合階段則發(fā)生在 RL 階段。他們把流程也公開了:
第一步:有監(jiān)督微調(diào)。基于精選的推理數(shù)據(jù)與合成的智能體場景,進行微調(diào)。
第二步:專用 RL 訓練階段。
- 對于推理任務,使用64K 長上下文輸入,結合 難度分級課程表(curriculum),效果優(yōu)于傳統(tǒng)逐步調(diào)度。
動態(tài)溫度采樣,兼顧探索與收斂
自適應梯度裁剪,用于 STEM 類問題的策略穩(wěn)定更新
并引入兩項改進技術:
- 對于智能體任務,研究人員專注于兩個可驗證任務:
其一是開發(fā)可擴展的 QA 生成策略,其二是編程任務則通過真實代碼執(zhí)行反饋驅(qū)動強化學習更新。其中專供的典型場景包括:
基于人類參與抽取網(wǎng)頁內(nèi)容
結合內(nèi)容遮蔽技術合成搜索類問答
信息檢索型問答(QA)
軟件工程任務(SWE)
此外,GLM 4.5 團隊指出,盡管 RL 階段針對的是有限任務,但其帶來的提升可以遷移到通用能力,如 tool-use。
最后,通過專家蒸餾,就可以把這些專業(yè)能力集成進主模型,賦予 GLM-4.5 全面的智能體能力。
寫在最后
在短短幾周內(nèi),最佳開源模型的桂冠頻繁上新,先是 Kimi-K2 ,然后是 Qwen3,而今天,GLM 4.5 繼續(xù)刷新榜單,拿下 Agentic 時代的 開源 SOTA!
智譜,總在每一波大的大模型發(fā)展節(jié)奏中,找到自己的發(fā)展路徑。這一次 Agentic 時代,再一次用獨有的實力證明:OpenAI 不是唯一正確,做通用的 AGI,智譜團隊有著非常自信的發(fā)展路徑,比如這次 AI PPT 的功能,就與其他產(chǎn)品的路線非常不同;再比如 MoE 架構方面的優(yōu)化,新的強化學習階段的統(tǒng)一多項專有能力的過程,也是非常厲害的。
好了,大家也可以去試試了,重申:模型是開源免費的,但API是要錢的。
嘗鮮地址:https://chat.z.ai/

































