楊植麟回復:Kimi K2訓練用的H800!但“只花了460萬美元”嘛…
Kimi K2 Thinking訓練真的只花了460萬美元?楊植麟親自帶隊,月之暗面創始團隊出面回應了。
這不是官方數據。訓練成本很難計算,因為其中很大一部分用于研究和實驗。

他們還透露訓練使用了配備Infiniband的英偉達H800,GPU數量也比巨頭的少,但充分利用了每一張卡。

但不管怎樣,Kimi K2模型憑借自身實力和低成本,正在硅谷引發一場“用腳投票”的遷移大潮。
投資人Chamath Palihapitiya透露他的新公司將AI負載遷移到Kimi K2,因為它性能更強,價格也便宜得多。

云端開發平臺Vercel CEO也分享了內部測試結果,稱Kimi K2比閉源模型快5倍,準確率還高50%。

Claude Code用戶也在相互傳授把模型改成Kimi K2的設置方法。

特別是Kimi K2 Thinking 被爆料只花了460萬美元訓練,比年初引發轟動的DeepSeek V3(爆料約560萬美元)還要低。
先不論這個數字是否準確,總之是讓硅谷陷入一陣反思。
當免費或極低成本的開源模型能提供同等甚至更優的性能時,閉源巨頭的高估值,還合理嗎?
也有另一面的輿論是:或者該重估月之暗面了。
Kimi是如何做到的?
技術社區的分析指出,Kimi K2 Thinking巧妙地繼承并優化了現有開源成果,特別是在架構上與DeepSeek模型一脈相承。
團隊將MoE層的專家數量從DeepSeek的256個增加到384個以增強模型的知識容量,同時將每次推理激活的參數量從約370億減少到320億來降低推理成本。詞匯表從129k擴大到160k,并減少了MoE之前的密集前饋網絡塊,進一步優化計算效率。

更關鍵的是工程創新。Kimi K2使用了團隊自研的MuonClip優化器,能在訓練過程中自動穩定梯度。
得益于此優化器,Kimi K2在長達15.5萬億token的訓練過程中實現了”零訓練崩潰”,無需人為干預重啟,在資金和設備相對有限的情況下也能可靠地訓練超大規模模型。

模型還采用了量化感知訓練(QAT)方案,實現了原生INT4精度推理。這種方法在訓練階段就讓模型適應低精度環境,在大幅降低計算資源消耗、提升推理速度約2倍的同時,將性能損失降至最低。
直面硅谷開發者,月之暗面團隊首次公開”答疑”
在此背景下,月之暗面團隊在Reddit最活躍的AI社區LocalLLaMA進行了一場長達3小時的“回答一切”(Ask Me Anything)活動,吸引了近200條提問和數千條互動。
答疑的三位主力是楊植麟、周昕宇和吳育昕——月之暗面的三位聯合創始人,其中那個“4494”就是楊植麟。
核心信息總結如下:
當被問及下一代架構時,團隊解釋了最新實驗性混合注意力機制KDA(Key-Dependent Attention)的優勢,還透露有可能用在下一代K3中。
在同等預訓練和強化學習的條件下,采用NoPE MLA的KDA混合模型性能優于采用RoPE的完整MLA模型,不僅能獲得更高的基準測試分數,而且速度更快、效率更高。
歷史上,混合注意力很難擊敗完全注意力,特別是在長輸入和長輸出任務上。KDA在各方面都顯示出性能提升,包括長鏈思維的RL場景,同時保持了線性注意力的效率。相關想法很可能會在K3中采用。

有關未來開發計劃,團隊還透露:
- 很快就能體驗到類似Claude Code的Kimi Code產品
- 正在開發視覺語言(VL)模型,但VL數據的獲取和訓練需要時間,所以優選擇發布文本模型
- 之前嘗試過1M上下文窗口,但當時的服務成本太高,未來會重新考慮更長的上下文窗口。
- 承認目前K2 Thinking的思考過長、效率較低,下一版會把“簡化思考過程”寫進獎勵函數。
Q:為什么Kimi不像其他模型那樣過度夸贊用戶?
團隊解釋這是整理數據時的刻意設計。
Q:Kimi獨特的寫作風格從何而來?
解釋說這是預訓練和后訓練共同作用的結果:預訓練編碼了相關的先驗知識,而后訓練則添加了一些品味。看到不同的RL配方如何產生不同的口味是很有趣的。
此外團隊還無保留的回答了一些結束細節問題:

最后,關于下一代K3何時到來,團隊還開了個小玩笑:





























