離GPT-5最近的一次!中國1萬億參數開源巨獸突然爆火
昨天,月之暗面發布全新模型Kimi K2 Thinking,一上線就擠爆了服務器。
思考,是它的核心賣點,自稱是開源的「思考Agent模型」。

它同樣采用了MoE架構,總參數約1萬億,每次激活約320億,上下文256K token。
在各大基準測試中,Kimi K2 Thinking性能表現亮眼。
尤其是,在BrowseComp、HLE測試中,實力完全碾壓GPT-5、Claude Sonnet 4.5。

在Tau2 Bench Telecom基準測試中,K2 Thinking位列第一。

最關鍵的是,在無人干預情況下,K2 Thinking可連續調用200-300次工具。
國外研究者Nathan Lambert 稱它為:「開源模型距閉源前沿最近的一次?!?/span>
這句話在技術圈廣為流傳,人們也開始重新審視這款模型。


不只是聊天工具,K2 Thinking更像是一個會自己推理、自己動手的智能體。
一款真正會思考的模型
Kimi K2 Thinking沒有強調算力更大,而是強調更會「思考」。
這些配置讓它在處理長文本、復雜任務時能維持更穩定的推理過程。
蘋果大牛Awni Hannun測試后驚嘆道:
1萬億參數,只用2臺M3 Ultra芯片的Mac電腦即可流暢運行,而且int4壓縮后性能幾乎無損。

通過mlx-lm并行技術,它生成了大約3500個token,速度每秒15個token。

但真正讓人關注的,是它的「思考能力」。
如前所述,K2 Thinking可以在一次任務中連續執行200到300次工具調用,全程無需人工干預。
有網友實測「工具調用」,立即制作出如下的數學和物理講解動畫。

不同于其他模型的胡編亂造,它在面對復雜問題時,會自己拆解步驟、搜索信息、調用外部工具、再整合結果。
團隊把這種機制稱為「交替思考」——模型在「思考」和「執行」之間循環往復,讓推理更連貫。
K2 Thinking在性能上的表現也很亮眼。
在Humanity’s Last Exam(HLE)和 BrowseComp(網頁搜索綜合能力)任務上,成績已經接近甚至超過GPT-5和Claude Sonnet 4.5。

Kimi K2 Thinking與GPT-5、Claude Sonnet 4.5在多項基準測試中的表現
除了推理表現,它在工程落地上也做了不少優化。
K2使用量化感知訓練(QAT) 對MoE模塊進行INT4權重量化,在保證性能的同時,將生成速度提升了約兩倍。
除了推理和搜索任務,K2 Thinking在編碼、工具使用、數學推理等更細分的測試中表現也很突出。
在SWE-bench、LiveCodeBench、GPQA-Diamond等任務上,它的成績已經超過DeepSeek、GPT-4 Turbo等多個主流模型,顯示出更強的「執行力」。

Kimi K2 Thinking在多項編程與數學任務中的表現對比
這意味著,K2 Thinking的測試成績就是它在真實環境下的表現,而非理想化打分。
它目前已經在kimi.com上線,并開源API和模型權重,開發者可以直接試用。
從實驗室到真實場景,這個模型的「思考能力」明顯超過了現有的其他模型。
智能體編碼一流,300次工具調用
這一次,月之暗面沒再讓模型停留在論文里。
K2 Thinking不是展示品,而是一臺真正能被人用起來的智能體。
發布當天,團隊同步上線了 kimi.com聊天模式、開放了API 接口,還在Hugging Face公布了完整權重。

https://huggingface.co/moonshotai/Kimi-K2-Thinking?utm_source
開發者不需要等待內測邀請,也不用注冊繁瑣流程,任何人都能直接使用。
K2 Thinking的從訓練開始,到優化,再到上線,周期不到半年。
在這個動輒以年為單位更新的大模型時代,這個速度意味著它已具備完整的工程化能力。
打開kimi.com,就能直接體驗到K2 Thinking的思考過程。
與一般聊天模型不同,它在生成答案前,會清晰地展示自己的推理鏈。

此外,研究人員特別提到,K2 Thinking在軟件和編碼任務上進步顯著。
它在 SWE-Multilingual測試中得分61.1% ,在SWE-Bench Verified測試中得分71.3%,在Terminal-Bench測試中得分47.1%。
這無疑證明了,該模型在HTML、React等方面的任務上有了很明顯的進步。
寫代碼前,先寫計劃
當用戶輸入「分析我發給你的CSV文件,并生成圖表來支持你的分析」時,K2不會直接輸出代碼。
他會先列出自己的行動方案:首先,加載數據集,接下來,篩選數據集,然后,分析內容,調用繪圖庫,最終生成結果。

有了行動方案,它才會逐步生成代碼,執行、驗證、修正。
如果出錯,它會提示「正在重新規劃」,然后自動嘗試新方案。整個過程,都能在屏幕上看到。

最終,我們能得到K2生成的數據分析圖表。



僅僅調用14次python,就能生成這樣完美的可視化圖表、準確的統計數據以及包含詳細分析的交互網頁。
私人定制行程:比管家還靠譜
你是否想過擁有一個完美管家?那K2可以滿足你的需求。
你只要提出你的需求,比如「我的預算是1000美元,給我規劃我的演唱會之旅」。
輸入之后,K2就會像一位盡職盡責的管家,詢問你的喜好、目的、工作安排,甚至查閱你的谷歌郵件。

之后,他開始搜索,查機票、看演唱會場次,甚至會考慮到演唱會附近的餐廳。簡直比管家還貼心!

最后,結合各方數據,交出最適合你的演唱會計劃。
而做到這些,僅僅調用了17次工具!很難想象如果親自做計劃,要耗時多久。
一針見血的數學講解員
除了長段的提示詞,短短幾句話,K2 Thinking也能完美運行。
比如,對它說「解釋二維梯度下降」。
它就能調用工具,以最直觀、形象的方式向你作出解釋:
藍色的等高線越靠近中心,函數值越??;黃色的路徑是優化算法從起點到最優點的下降軌跡;紅色小箭頭表示梯度(?f)的方向;黃色點表示當前的模型參數位置,它沿著梯度的反方向移動。

配合上動圖,一目了然。
觸手可及的「細胞戰」
不僅僅是數學,K2 Thinking甚至進軍生物學領域!
你只要輸入「做一個可以調節免疫參數的病毒模擬程序」,就可以得到一個可交互的病毒仿真系統。

紅藍兩種粒子在屏幕上相互追逐、碰撞、吞噬。拖動滑塊,就能調整病毒復制率、免疫細胞數量。
對于Kimi K2 Thinking真實表現,你怎么看?



































