馬斯克Grok 4 Fast首發霸榜!2.5倍速秒殺GPT-5,成本暴降98%直追Gemini
Grok 4 Fast官宣上線,馬斯克再次兌現了承諾!
它首次將推理/非推理「雙模式」合一,支持200萬上下文,直接刷爆性價比SOTA。

推理測試中,Grok 4 Fast直接碾壓前代Grok 3 Mini,尤其是數學、編碼性能大增。

基準測試顯示,Grok 4 Fast Reasoning登頂了擴展版NYT Connections Benchmark(紐約時報連線謎題基準測試,共759道題)。
Grok 4則排名第2,xAI在這個項目上展現了絕對的統治力。
對此,馬斯克自豪地表示,這就是進展!

Grok 4 Fast Reasoning不僅擊敗了自家大哥Grok 4,也將GPT-5、o3-pro、Gemini 2.5 Pro、DeepSeek和Qwen 3等一眾模型斬于馬下。
Grok 4發布之后,基本上xAI一月一迭代,速度堪稱驚人。
25/1成本,堪比Gemini 2.5 Pro
技術博客中,介紹了Grok 4 Fast所具備的四大核心優勢:
- 行業SOTA級性價比
- 最強網頁與X平臺搜索能力
- 支持200萬token的超長上下文
- 創新統一架構:單模型融合推理與非推理雙模式
基于大規模RL技術,xAI團隊將Grok 4 Fast智能密度推向了極致。
實測表明,新模型性能直逼Grok 4,但平均節省了40%推理token的消耗,成本直降98%。

Grok 4 Fast不僅在NYT Connections Benchmark上表現出色,在著名的Artificial Analysis Intelligence Index(AA智能指數)上同樣表現不俗。
它以大約25分之一的成本就實現了Gemini 2.5 Pro級別的智能!
Grok 4 Fast是一個將reasoning和non-reasoning融合統一的模型。

在推理模式下,Grok 4 Fast Reasoning在AA智能指數上取得了60分的亮眼成績,與Gemini 2.5 Pro和Claude 4.1 Opus相當。
低于此前發布的Grok 4和GPT-5(high)。

在編碼評測中,Grok 4 Fast表現尤為出色,在他們的LiveCodeBench榜單上登頂第一,甚至超越其體量更大的自家大哥Grok 4。
成本方面Grok 4 Fast也挺有優勢:輸入0.2美元每百萬Tokens,輸出0.5美元每百萬Tokens。而且輸出效率很高。

Artificial Analysis在對Grok 4 Fast的預發布API進行基準測試時,發現它的速度驚人非常迅速,達到了每秒344個輸出Token——約為 OpenAI GPT-5 API的2.5倍。端到端時延僅3.8秒,是目前最快的前沿模型。


Grok 4 Fast的發布延續了這個趨勢:獲取AI智能的成本正在快速下降。
在過去一年半里,獲取GPT-4級別智能的成本已下降約500倍;而且隨著智能前沿不斷被推進,獲取成本仍在持續走低。

原生工具調用
通過端到端工具使用RL訓練,Grok 4 Fast特別擅長智能判斷,何時調用代碼執行、網頁瀏覽等工具。
舉個栗子,在搜索時,它可以像人類一樣流暢地瀏覽網頁和X平臺,并用實時數據增強查詢結果——
自動跳轉鏈接、解析X上圖文視頻內容,并以閃電速度整合信息得出結論。
可以看出,Grok 4 Fast基準測試中,工具調用、深度研究等能力上完勝Grok 4。

現在,通過API即可調用推理/非推理Grok 4 Fast,每100萬token價格再創新低。

什么是NYT Connections Benchmark?
NYT Connections Benchmark(紐約時報連線謎題基準測試)的核心源于《紐約時報》推出的益智游戲「Connections」,后被轉化為評估大語言模型「語義關聯與分類推理能力」的重要基準。

地址:https://github.com/lechmazur/nyt-connections/
其核心邏輯與原始游戲一致:給定16個看似無關聯的詞語,AI需從語義、邏輯或常識維度,將它們精準劃分成4組(每組4個詞),且每組需符合一個明確的「潛在關聯主題」(例如不同類型的水果、計算機硬件部件、經典文學角色等)。

而此次Grok 4 Fast參加的「擴展版」在基礎規則上進一步提升難度——每個謎題額外增加多達4個「技巧詞」(即易混淆、可能同時貼合多個主題的干擾詞),更考驗AI排除干擾、精準捕捉深層語義關聯的能力。
舉兩個栗子。大家感受一下難度。


在擴展版上模型的排名如下圖,xAI一家占據前兩名。

為排除LLM的訓練數據中包含答案的可能性,基準方還僅對最新增加的100道謎題進行了測試。
結果依然是xAI家的Grok 4、Grok 4 Fast Reasoning排名前兩位,只不過這次大哥終于排第一了。

看來Grok 4 Fast Reasoning在智能上確實有兩下子,結合其速度快、價格低的優勢,很有可能成為開發者的新寵。





































