剛剛,馬斯克Grok 4.1低調發布!通用能力碾壓其他一切模型
幾乎毫無預兆,馬斯克人工智能公司 xAI 發布了最新模型 Grok 4.1。
就在剛剛,xAI 宣布,Grok 4.1 已經向所有用戶開放,可以在 Grok 官網、X 以及 iOS 和 Android 應用中使用。

Grok 4.1將立即在 Auto 模式中推送,并可在模型選擇器中手動選擇。

此次,Grok 4.1 將在真實世界可用性方面帶來顯著提升,尤其是在創造力、情感互動和協作交互方面表現出色。Grok 4.1 對細微意圖的感知能力更強,與用戶對話更加吸引人,整體人格也更連貫,同時完全保留了前代模型強大的智能與可靠性。

馬斯克在 x 上宣傳一波自家模型。
為實現這些提升,xAI 在支撐 Grok 4 的同一套大規模強化學習基礎設施上進一步優化了模型的風格、個性、助人性和對齊性。并且,為了優化這些不可直接驗證的獎勵信號,xAI 開發了全新的方法,能夠利用前沿的智能體式推理模型作為獎勵模型,從而可以大規模自主評估并迭代輸出結果。
與此前的線上生產模型相比,Grok 4.1 在對比評估中有 64.78% 的概率被用戶偏好選擇。

接下來看 Grok 4.1 的能力特征。
SOTA 通用能力
Grok 4.1 在盲測的人類偏好評估中樹立了全新的標桿。
在 LMArena 的 Text Arena 排行榜上,Grok 4.1 的推理模式(代號:quasarflux)以 1483 的 Elo 分數位居總榜首位,領先最高的非 xAI 模型整整 31 分。
Grok 4.1 的非推理模式(代號:tensor)無需使用思維 token 便能即時響應,在排行榜上以 1465 Elo 分數位居第二。即便不啟用推理,Grok 4.1 也超越了其他所有模型在啟用完整推理配置下的表現。
與 Grok 4 相比,Grok 4.1 的整體表現實現了大幅超越 ,前者此前的總排名僅為第 33 名。

情感智能
為了評估模型在個性與人際互動能力方面的進展,xAI 在 EQ-Bench3 上對 Grok 4.1 進行了測試。
EQ-Bench 是一個由大語言模型評判的測試,用于評估主動情緒智能,包括情緒理解、洞察力、同理心以及人際交往技能。測試集包含 45 個具有挑戰性的角色扮演場景,其中大多數由預先編寫的三輪對話提示組成。該基準通過多項標準驗證模型的回答質量,以評估模型表現。此外,它還通過成對對比的方式,為排行榜中的每個模型計算歸一化的 Elo 分數。
xAI 使用官方基準倉庫運行測試,并報告評分細則(rubric score)與歸一化 Elo 分數。所有分數均在遵循基準要求的條件下計算:使用默認采樣參數、指定的評判模型(Claude Sonnet 3.7),并且不添加 system prompt。
結果顯示,Grok 4.1 的推理模式和非推理模式位居榜單前兩名。

以下示例展示了 Grok 4.1 對情緒類提示的回應方式:

創意寫作
xAI 還在 Creative Writing v3 基準測試上評估了 4.1 系列模型的表現。
在該基準中,模型需要針對 32 個不同的寫作提示生成回答,并進行 3 輪迭代。與 EQ-Bench 類似,評分同時基于評分細則(rubrics)和模型對戰的歸一化 Elo 分數進行計算。
結果顯示,Grok 4.1 的推理模式和非推理模式位居基準測試第二和第三名,僅次于早期 GPT 5.1。

以下示例展示了 Grok 4.1 在創意寫作提示下的回答方式:

減少幻覺
配備搜索工具的 Fast(非推理)模型能夠提供即時答案,但由于推理深度受限、工具調用次數有限,它們更容易出現事實性錯誤。
在 Grok 4.1 的后訓練過程中,xAI 著重降低了信息查詢類提示的事實幻覺。隨后,xAI 在抽樣的生產環境信息查詢提示中觀察到了幻覺率的顯著下降。
xAI 使用來自生產流量的真實信息查詢請求,按類別分層抽樣評估模型幻覺率。同時,也評測了 FActScore —— 一個包含 500 個關于不同人物的傳記類問題的公共基準測試。

更多 Grok 4.1 的技術細節請參閱模型卡:

模型卡地址:https://data.x.ai/2025-11-17-grok-4-1-model-card.pdf
官方博客:https://x.ai/news/grok-4-1#silent-rollout-november-114-2025




































