逆天!舊Mac上能run千億參數SOTA!效果驚人:一次生成游戲,0修改!網友:別被大模型敘事帶偏了(附指南) 原創
編輯 | 伊風
出品 | 51CTO技術棧(微信號:blog51cto)
起猛了,連老電腦都能跑智譜家新一代的 SOTA 模型了!
一篇來自技術人 Simon Willison(Python 知名 Web 框架 Django 的共同創始人)的實測文章,在 Hacker News 上引發熱議:
“我 2.5 年高齡的舊筆記本,現在不僅能在本地跑千億參數模型,甚至還能用它寫出一款完整的 JavaScript 太空入侵者游戲。”
圖片

這個模型,正是昨天新鮮出爐的 GLM-4.5 系列。
雖然不像 Qwen Coder 那樣專門為編程打造,但根據官方基準測試, GLM-4.5在代碼生成上的表現已經逼近 Claude Sonnet 4,屬于真正意義上“會寫代碼的大模型”。
圖片
Simon 所用的,是其中參數最少的版本 GLM-4.5 Air:
參數量依然高達 1060 億,原始模型體積高達 205.78GB。
為了讓它能在普通高配筆記本上也能運行,開發者 Ivan Fioravanti 特地制作了一個 3bit、僅 44GB 的量化版本,專為 MLX 框架優化,剛好能在 64GB 內存的 MacBook Pro 上跑起來。
模型地址:https://huggingface.co/mlx-community/GLM-4.5-Air-3bit
這意味著更多普通開發者,也能在本地運行一個千億參數級的模型了。
Simon 的感嘆也很直接:
本地跑大模型的拐點,真的來了!
他回憶道:
“兩年前我剛試用 LLaMA,從沒想過同一臺筆記本,有朝一日能流暢運行像 GLM 4.5 Air、Mistral 3.2 Small、Gemma 3、Qwen 3 這些擁有強大能力的模型。”
一臺不算新的筆記本 + 一個免費開源模型,就能跑出完整游戲代碼。
那么,Simon 是如何在有限算力下實現這一切的?繼續往下看。
1.一次生成完整游戲,無需修改!3bit 模型的實戰表現令人驚艷
即使被壓縮到 3bit、僅 44GB,GLM-4.5 Air 依然保留了完整的 1060 億參數——這也是它能跑出完整 JavaScript 游戲的底氣所在。
作者給出的提示詞相當簡潔:
寫一個實現《太空侵略者》游戲的 HTML 和 JavaScript 頁面
模型思考片刻后,生成了一段完整的代碼,結構清晰、邏輯自洽
開頭的系統提示也很“專業”:
<think>用戶想讓我用 HTML、CSS 和 JavaScript 創建一個《太空侵略者》游戲。我需要實現以下功能:
玩家飛船:能左右移動并發射子彈
敵方入侵者:成編隊移動并反擊
分數追蹤 生命值/健康系統
游戲結束條件 [...]
接著就是完整的 HTML 與 JS 代碼,直接可運行,不用修改一行。
調試輸出如下:
- 提示詞:14 tokens,生成速度 14.095 tokens/s
- 生成內容:4193 tokens,生成速度 25.564 tokens/s
- 峰值內存占用:47.687 GB
這個速度在本地部署模型中相當優秀,接近一些云端托管模型的實際表現(尤其考慮到官方所給的速度數據通常是在零延遲的理想環境下測得)。
內存使用上接近 48GB,意味著一臺 64GB 內存的機器可穩穩支持——對本地推理來說,已經非常親民。
作為對比,2024 年中發布的 LLaMA 3.1 70B 在推理階段通常需要 350GB–500GB 的 GPU 顯存,加上 64GB–128GB 的系統內存,幾乎是“服務器級別的門檻”。
作者還測試了一個彩蛋級 benchmark——用這個 3bit 小模型生成一張“騎自行車的鵜鶘”的 SVG 圖像。提示詞是:
“生成一張鵜鶘騎自行車的 SVG 圖像”
生成效果雖然有些“抽象主義”,但不難看出這是一只“云朵風格”的鵜鶘,騎著一輛結構稍微殘缺了些但能看懂的自行車。
這說明,盡管精度遠不及“滿血版 GLM?4.5”,但本地模型在多模態生成上依然具備可操作性。
上圖為本地跑的GLM-4.5 Air生圖,下圖為GLM-4.5滿血版生圖??
圖片
2.指南:作者是如何運行GLM-4.5 Air模型的
用的是 mlx-lm 庫的主分支(因為需要包含對 GLM4 MoE 的支持),通過 uv 啟動:
復制
uv run \
--with 'https://github.com/ml-explore/mlx-lm/archive/489e63376b963ac02b3b7223f778dbecc164716b.zip' \
python
在 Python 解釋器里,用標準的 MLX 模型運行方式:
復制
from mlx_lm import load, generate
model, tokenizer = load("mlx-community/GLM-4.5-Air-3bit")
模型權重會下載到本地 ~/.cache/huggingface/hub/models--mlx-community--GLM-4.5-Air-3bit 文件夾,總計 44GB。
然后:
復制
prompt = "Write an HTML and JavaScript page implementing space invaders"
messages = [{"role": "user", "content": prompt}]
prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True)
response = generate(
model, tokenizer,
prompt=prompt,
verbose=True,
max_tokens=8192
)
這樣模型就在本地運行了。
3.網友:別被大模型敘事帶偏了!低估了舊硬件 + 量化的潛力
作者Simon 總結說:
回顧一下,幾乎所有 2025 年發布的新模型都在大幅增強編程能力——而這條路線,已經結出碩果——這些本地模型現在真的非常強大。
還是兩年前的那臺筆記本,但它不再是 LLaMA 1 的試驗田,而是能穩定跑起 GLM 4.5 Air、Mistral 3.2 Small、Gemma 3、Qwen 3 等擁有強大智能的新一代模型。
這背后,正是現代量化技術的快速成熟:
GPTQ、AWQ、乃至 3bit group-wise quantization 等量化方式,如今都已非常穩定。在推理任務中精度損失極小,卻能帶來成倍的資源節省。
在 Hacker News 上,一位網友犀利指出了當前“Scaling 敘事”的局限:
我認為我們嚴重低估了現有硬件在這個領域的潛力。
我擔心,“痛苦教訓(bitter lesson)” 和“計算效率邊界”的敘事,把很多聰明人引導到了追求規模的方向,而忽視了探索革命性新方法。現在的模型其實非常低效。
我們可以在訓練后大幅壓縮權重的精度,模型依然能跑,比如生成什么“騎自行車的鵜鶘圖”。
圖片
另一位網友補充總結了這種“默認更大更好”的慣性:
一旦你內化了“痛苦教訓”——也就是“更多數據 + 更大計算 = 更好性能”這個邏輯后,你就不再思考,如何在計算受限的環境里榨出最強表現了。
圖片
4.寫在最后:開源模型的發展速度和質量遠超預期
智譜的 GLM-4.5,再次把開源模型的能力上限推高了一大截。
如今網友們的“整活自由”,正是這波模型狂飆帶來的副作用。一個網友的留言,精準地講出了許多技術人的共同心聲:
“開源模型的發展速度和質量,完全超出我預期。
還記得 ChatGPT 上線那會兒,市面上最強的開源模型不過是 GPT-J 和 GPT-NeoX,用起來很痛苦——prompt 必須寫得像講故事一樣非常精細,不然模型根本不理你。
后來 LLaMA 模型‘被泄露’,一切就變了。量化模型、微調方法、LoRA、Alpaca 接踵而至。再到 Mistral、Qwen、Gemma、Deepseek、GLM、Granite……
圖片
現在的開源模型,也許距離最強閉源模型還有 6 個月的差距——但別忘了,它們已經能在普通筆記本上本地運行,甚至支持微調。這一切的變化,只用了短短兩年。
評論區最多的感慨就是:真沒想到,2025 年我們能在筆記本上玩到這個水平的 AI。
你有嘗試本地部署模型嗎?
如果讓你選一個任務來測試本地大模型,你會想讓它做什么?歡迎在評論區聊聊~
參考鏈接:
1.https://news.ycombinator.com/item?id=44723316
2.https://simonwillison.net/2025/Jul/29/space-invaders/
本文轉載自??51CTO技術棧??,作者:伊風

















