剛剛，馬斯克Grok 4.1低調發布！通用能力碾壓其他一切模型

作者：機器之心 2025-11-18 09:11:48

就在剛剛，xAI 宣布，Grok 4.1 已經向所有用戶開放，可以在 Grok 官網、X 以及 iOS 和 Android 應用中使用。

幾乎毫無預兆，馬斯克人工智能公司 xAI 發布了最新模型 Grok 4.1。

就在剛剛，xAI 宣布，Grok 4.1 已經向所有用戶開放，可以在 Grok 官網、X 以及 iOS 和 Android 應用中使用。

Grok 4.1將立即在 Auto 模式中推送，并可在模型選擇器中手動選擇。

此次，Grok 4.1 將在真實世界可用性方面帶來顯著提升，尤其是在創造力、情感互動和協作交互方面表現出色。Grok 4.1 對細微意圖的感知能力更強，與用戶對話更加吸引人，整體人格也更連貫，同時完全保留了前代模型強大的智能與可靠性。

馬斯克在 x 上宣傳一波自家模型。

為實現這些提升，xAI 在支撐 Grok 4 的同一套大規模強化學習基礎設施上進一步優化了模型的風格、個性、助人性和對齊性。并且，為了優化這些不可直接驗證的獎勵信號，xAI 開發了全新的方法，能夠利用前沿的智能體式推理模型作為獎勵模型，從而可以大規模自主評估并迭代輸出結果。

與此前的線上生產模型相比，Grok 4.1 在對比評估中有 64.78% 的概率被用戶偏好選擇。

接下來看 Grok 4.1 的能力特征。

SOTA 通用能力

Grok 4.1 在盲測的人類偏好評估中樹立了全新的標桿。

在 LMArena 的 Text Arena 排行榜上，Grok 4.1 的推理模式（代號：quasarflux）以 1483 的 Elo 分數位居總榜首位，領先最高的非 xAI 模型整整 31 分。

Grok 4.1 的非推理模式（代號：tensor）無需使用思維 token 便能即時響應，在排行榜上以 1465 Elo 分數位居第二。即便不啟用推理，Grok 4.1 也超越了其他所有模型在啟用完整推理配置下的表現。

與 Grok 4 相比，Grok 4.1 的整體表現實現了大幅超越，前者此前的總排名僅為第 33 名。

情感智能

為了評估模型在個性與人際互動能力方面的進展，xAI 在 EQ-Bench3 上對 Grok 4.1 進行了測試。

EQ-Bench 是一個由大語言模型評判的測試，用于評估主動情緒智能，包括情緒理解、洞察力、同理心以及人際交往技能。測試集包含 45 個具有挑戰性的角色扮演場景，其中大多數由預先編寫的三輪對話提示組成。該基準通過多項標準驗證模型的回答質量，以評估模型表現。此外，它還通過成對對比的方式，為排行榜中的每個模型計算歸一化的 Elo 分數。

xAI 使用官方基準倉庫運行測試，并報告評分細則（rubric score）與歸一化 Elo 分數。所有分數均在遵循基準要求的條件下計算：使用默認采樣參數、指定的評判模型（Claude Sonnet 3.7），并且不添加 system prompt。

結果顯示，Grok 4.1 的推理模式和非推理模式位居榜單前兩名。