逆天!舊Mac上能run千億參數SOTA!效果驚人:一次生成游戲，0修改！網友：別被大模型敘事帶偏了(附指南）原創

51CTO技術棧

發布于 2025-7-30 15:09

瀏覽

0收藏

編輯 | 伊風

出品 | 51CTO技術棧（微信號：blog51cto）

起猛了，連老電腦都能跑智譜家新一代的 SOTA 模型了！

一篇來自技術人 Simon Willison（Python 知名 Web 框架 Django 的共同創始人）的實測文章，在 Hacker News 上引發熱議：

“我 2.5 年高齡的舊筆記本，現在不僅能在本地跑千億參數模型，甚至還能用它寫出一款完整的 JavaScript 太空入侵者游戲。”

逆天!舊Mac上能run千億參數SOTA!效果驚人:一次生成游戲，0修改！網友：別被大模型敘事帶偏了(附指南）-AI.x社區圖片

逆天!舊Mac上能run千億參數SOTA!效果驚人:一次生成游戲，0修改！網友：別被大模型敘事帶偏了(附指南）-AI.x社區

這個模型，正是昨天新鮮出爐的 GLM-4.5 系列。

雖然不像 Qwen Coder 那樣專門為編程打造，但根據官方基準測試， GLM-4.5在代碼生成上的表現已經逼近 Claude Sonnet 4，屬于真正意義上“會寫代碼的大模型”。

逆天!舊Mac上能run千億參數SOTA!效果驚人:一次生成游戲，0修改！網友：別被大模型敘事帶偏了(附指南）-AI.x社區圖片

Simon 所用的，是其中參數最少的版本 GLM-4.5 Air：

參數量依然高達 1060 億，原始模型體積高達 205.78GB。

為了讓它能在普通高配筆記本上也能運行，開發者 Ivan Fioravanti 特地制作了一個 3bit、僅 44GB 的量化版本，專為 MLX 框架優化，剛好能在 64GB 內存的 MacBook Pro 上跑起來。

模型地址：https://huggingface.co/mlx-community/GLM-4.5-Air-3bit

這意味著更多普通開發者，也能在本地運行一個千億參數級的模型了。

Simon 的感嘆也很直接：

本地跑大模型的拐點，真的來了！

他回憶道：

“兩年前我剛試用 LLaMA，從沒想過同一臺筆記本，有朝一日能流暢運行像 GLM 4.5 Air、Mistral 3.2 Small、Gemma 3、Qwen 3 這些擁有強大能力的模型。”

一臺不算新的筆記本 + 一個免費開源模型，就能跑出完整游戲代碼。

那么，Simon 是如何在有限算力下實現這一切的？繼續往下看。

1.一次生成完整游戲，無需修改！3bit 模型的實戰表現令人驚艷

即使被壓縮到 3bit、僅 44GB，GLM-4.5 Air 依然保留了完整的 1060 億參數——這也是它能跑出完整 JavaScript 游戲的底氣所在。

作者給出的提示詞相當簡潔：

寫一個實現《太空侵略者》游戲的 HTML 和 JavaScript 頁面

模型思考片刻后，生成了一段完整的代碼，結構清晰、邏輯自洽

開頭的系統提示也很“專業”：

<think>用戶想讓我用 HTML、CSS 和 JavaScript 創建一個《太空侵略者》游戲。我需要實現以下功能：

玩家飛船：能左右移動并發射子彈
敵方入侵者：成編隊移動并反擊
分數追蹤生命值/健康系統
游戲結束條件 [...]

接著就是完整的 HTML 與 JS 代碼，直接可運行，不用修改一行。

調試輸出如下：

提示詞：14 tokens，生成速度 14.095 tokens/s
生成內容：4193 tokens，生成速度 25.564 tokens/s
峰值內存占用：47.687 GB

這個速度在本地部署模型中相當優秀，接近一些云端托管模型的實際表現（尤其考慮到官方所給的速度數據通常是在零延遲的理想環境下測得）。

內存使用上接近 48GB，意味著一臺 64GB 內存的機器可穩穩支持——對本地推理來說，已經非常親民。

作為對比，2024 年中發布的 LLaMA 3.1 70B 在推理階段通常需要 350GB–500GB 的 GPU 顯存，加上 64GB–128GB 的系統內存，幾乎是“服務器級別的門檻”。

作者還測試了一個彩蛋級 benchmark——用這個 3bit 小模型生成一張“騎自行車的鵜鶘”的 SVG 圖像。提示詞是：

“生成一張鵜鶘騎自行車的 SVG 圖像”

生成效果雖然有些“抽象主義”，但不難看出這是一只“云朵風格”的鵜鶘，騎著一輛結構稍微殘缺了些但能看懂的自行車。

這說明，盡管精度遠不及“滿血版 GLM?4.5”，但本地模型在多模態生成上依然具備可操作性。

上圖為本地跑的GLM-4.5 Air生圖，下圖為GLM-4.5滿血版生圖??

逆天!舊Mac上能run千億參數SOTA!效果驚人:一次生成游戲，0修改！網友：別被大模型敘事帶偏了(附指南）-AI.x社區圖片

2.指南：作者是如何運行GLM-4.5 Air模型的

用的是 mlx-lm 庫的主分支（因為需要包含對 GLM4 MoE 的支持），通過 uv 啟動：

復制

uv run \
  --with 'https://github.com/ml-explore/mlx-lm/archive/489e63376b963ac02b3b7223f778dbecc164716b.zip' \
  python

在 Python 解釋器里，用標準的 MLX 模型運行方式：

復制

from mlx_lm import load, generate
model, tokenizer = load("mlx-community/GLM-4.5-Air-3bit")

模型權重會下載到本地 ~/.cache/huggingface/hub/models--mlx-community--GLM-4.5-Air-3bit 文件夾，總計 44GB。

然后：

復制

prompt = "Write an HTML and JavaScript page implementing space invaders"
messages = [{"role": "user", "content": prompt}]
prompt = tokenizer.apply_chat_template(messages, add_generation_prompt=True)

response = generate(
    model, tokenizer,
    prompt=prompt,
    verbose=True,
    max_tokens=8192
)

這樣模型就在本地運行了。

3.網友：別被大模型敘事帶偏了！低估了舊硬件 + 量化的潛力

作者Simon 總結說：

回顧一下，幾乎所有 2025 年發布的新模型都在大幅增強編程能力——而這條路線，已經結出碩果——這些本地模型現在真的非常強大。

還是兩年前的那臺筆記本，但它不再是 LLaMA 1 的試驗田，而是能穩定跑起 GLM 4.5 Air、Mistral 3.2 Small、Gemma 3、Qwen 3 等擁有強大智能的新一代模型。

這背后，正是現代量化技術的快速成熟：

GPTQ、AWQ、乃至 3bit group-wise quantization 等量化方式，如今都已非常穩定。在推理任務中精度損失極小，卻能帶來成倍的資源節省。

在 Hacker News 上，一位網友犀利指出了當前“Scaling 敘事”的局限：

我認為我們嚴重低估了現有硬件在這個領域的潛力。

我擔心，“痛苦教訓（bitter lesson）” 和“計算效率邊界”的敘事，把很多聰明人引導到了追求規模的方向，而忽視了探索革命性新方法。現在的模型其實非常低效。

我們可以在訓練后大幅壓縮權重的精度，模型依然能跑，比如生成什么“騎自行車的鵜鶘圖”。

逆天!舊Mac上能run千億參數SOTA!效果驚人:一次生成游戲，0修改！網友：別被大模型敘事帶偏了(附指南）-AI.x社區圖片

另一位網友補充總結了這種“默認更大更好”的慣性：

一旦你內化了“痛苦教訓”——也就是“更多數據 + 更大計算 = 更好性能”這個邏輯后，你就不再思考，如何在計算受限的環境里榨出最強表現了。

逆天!舊Mac上能run千億參數SOTA!效果驚人:一次生成游戲，0修改！網友：別被大模型敘事帶偏了(附指南）-AI.x社區圖片

4.寫在最后：開源模型的發展速度和質量遠超預期

智譜的 GLM-4.5，再次把開源模型的能力上限推高了一大截。

如今網友們的“整活自由”，正是這波模型狂飆帶來的副作用。一個網友的留言，精準地講出了許多技術人的共同心聲：

“開源模型的發展速度和質量，完全超出我預期。

還記得 ChatGPT 上線那會兒，市面上最強的開源模型不過是 GPT-J 和 GPT-NeoX，用起來很痛苦——prompt 必須寫得像講故事一樣非常精細，不然模型根本不理你。

后來 LLaMA 模型‘被泄露’，一切就變了。量化模型、微調方法、LoRA、Alpaca 接踵而至。再到 Mistral、Qwen、Gemma、Deepseek、GLM、Granite……

逆天!舊Mac上能run千億參數SOTA!效果驚人:一次生成游戲，0修改！網友：別被大模型敘事帶偏了(附指南）-AI.x社區圖片

現在的開源模型，也許距離最強閉源模型還有 6 個月的差距——但別忘了，它們已經能在普通筆記本上本地運行，甚至支持微調。這一切的變化，只用了短短兩年。

評論區最多的感慨就是：真沒想到，2025 年我們能在筆記本上玩到這個水平的 AI。

你有嘗試本地部署模型嗎？

如果讓你選一個任務來測試本地大模型，你會想讓它做什么？歡迎在評論區聊聊~

參考鏈接：

1.https://news.ycombinator.com/item?id=44723316

2.https://simonwillison.net/2025/Jul/29/space-invaders/

本文轉載自??51CTO技術棧??，作者：伊風

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

SOTA

大模型

參數

贊

回復

舉報

回復

51CTO

51CTO博客

51CTO學堂

逆天!舊Mac上能run千億參數SOTA!效果驚人:一次生成游戲，0修改！網友：別被大模型敘事帶偏了(附指南）原創

1.一次生成完整游戲，無需修改！3bit 模型的實戰表現令人驚艷

2.指南：作者是如何運行GLM-4.5 Air模型的

3.網友：別被大模型敘事帶偏了！低估了舊硬件 + 量化的潛力

4.寫在最后：開源模型的發展速度和質量遠超預期

參考鏈接：

目錄

51CTO

51CTO博客

51CTO學堂

逆天!舊Mac上能run千億參數SOTA!效果驚人:一次生成游戲，0修改！網友：別被大模型敘事帶偏了(附指南） 原創

1.一次生成完整游戲，無需修改！3bit 模型的實戰表現令人驚艷

2.指南：作者是如何運行GLM-4.5 Air模型的

3.網友：別被大模型敘事帶偏了！低估了舊硬件 + 量化的潛力

4.寫在最后：開源模型的發展速度和質量遠超預期

參考鏈接：

目錄

逆天!舊Mac上能run千億參數SOTA!效果驚人:一次生成游戲，0修改！網友：別被大模型敘事帶偏了(附指南）原創