Qwen新模型直逼Claude4!可拓展百萬上下文窗口,33GB本地即可運行
開源編程模型的天花板,要被Qwen3-Coder掀翻了。
今天凌晨,Qwen3-Coder-Flash也重磅開源!
圖片
“甜品級”的size,但完全“大餐”級的性能。
- 多編程任務超越頂級開源模型,僅略遜于閉源的Claude Sonnet-4、GPT-4.1等。
- 原生上下文窗口支持256k token,可延長拓展至1 million token。
- 33GB內存(即中端筆記本)可運行。
啥概念?
相當于GPT-4.1級別的能力,還能讓你本地使用!

有人實測,在蘋果M4 Max上通過mlx-lm運行Qwen3-Coder-Flash,每秒可生成4467個token,相當快。
圖片
還有人已經火速推出了量化版本,顯存不夠的童鞋可以來下載使用。
圖片
林俊旸也發推表示,這是一個綠色低碳極速版coding模型。
我想這將是本地編程的最好選擇。
圖片
筆記本上就能跑出好效果
Qwen3-Coder-Flash是Qwen3-Coder的精簡版,都是非推理模型。
- 采用MoE架構,30億參數總量,激活參數3.3億。
- 原生上下文窗口支持256k token,通過YaRN等可延長至一百萬token上下文,適合大型代碼庫和復雜多文件工程。
- 針對Qwen Code、Cline、Roo Code、Kilo Code等平臺進行優化。
- 無縫支持函數調用和agent工作流。
主要強調了Agent方面的能力:
- Agentic Coding(智能體編程)
- Agentic Browser Use(智能體瀏覽器使用)
- Agentic Tool Use(智能體工具調用)
有博主在M2 Macbook Pro上用量化版Qwen3-Coder-Flash( 24.82GB 6bit MLX版)做的游戲,運行效果很不錯。
圖片
而且提示詞也很短,就一句話:
Write an HTML and JavaScript page implementing space invaders.
這意味著訓練數據中可能存在大量相關或者類似任務,才能讓模型一次就能輸出非常好的效果。
博主在首次嘗試后,感覺飛船發射的子彈太快了,所以想要讓它降速一點。
由于他使用的Open WebUI沒有類似于Claude Artifacts的工具調用的功能,這意味著模型需要重新輸出一個完整結果,實測表明它確實可以做到。
此外他還實測了生成鵜鶘騎自行車,每秒60個tokens,不過效果有點問題。
圖片
但u1s1,最近Qwen的開源節奏實在是太快了,更新模型一籮筐:
- Qwen3-Embedding
- Qwen-Vlo
- Qwen-TTS
- Qwen3-235B-A22B
- Qwen3-Coder
- Qwen-MT
- Qwen3-235B-A22B-Thinking-2507
- Qwen3-30B-A3B-Instruct-2507
- ……
而且都開源了,還提出了很多小顯存友好的方案。
開源之光的title在國產模型這里競爭格外激烈啊(doge)
圖片
最后,Qwen3-Coder-Flash體驗方式如下,感興趣的同學快去體驗吧!
QwenChat:chat.qwen.ai
魔搭社區:https://www.modelscope.cn/models/Qwen/Qwen3-Coder-30B-A3B-Instruct
HF:https://huggingface.co/Qwen/Qwen3-Coder-30B-A3B-Instruct



































