馬斯克開始瘋狂劇透Grok 5了

2025-09-19 09:10:00

剛剛ARC-AGI榜單官宣出現新SOTA，用的還是Grok 4+程序合成技術微調。

馬斯克的Grok 5偷偷藏不住了。

剛剛ARC-AGI榜單官宣出現新SOTA，用的還是Grok 4+程序合成技術微調。

好小汁，啥時候開始Grok都彎道超車了？OpenAI、Anthropic、谷歌一眾明星模型都被壓一頭。

一石激起千層浪，網友紛紛發問，那等Grok5出來，豈不是……

馬斯克也隨即出來回應：

我現在認為Grok 5能達到AGI。

順便附贈了一堆有關Grok 5的爆料。

馬斯克瘋狂劇透Grok 5

這事還得從Grok 4超越預期的表現說起，發布才兩個月就登上多個榜單第一的寶座，而就在剛剛，ARC Prize發布了兩個最新的ARC-AGI榜單SOTA方案：

先簡單介紹一下ARC-AGI排行榜，其旨在評估AI解決復雜難題的能力，類似于人類的智力測試，從而反映LLM的推理能力。

測試任務包含v1和v2版本，v2需要LLM完成更多的多步驟推理，一般來說，即使是最優秀的LLM也只能在v2中獲得16%的準確率。

GPT-5在二者上的得分依次是65.7%和9.9%，Claude Opus 4的得分是35.7%和8.6%，而Grok 4則是66.7%和16%。

Jeremy Berman的新方案則是在Grok 4基礎上，用英語替代了傳統的Python，最終得分來到79.6%和29.44%。

Eric Pang則在Jeremy的工作上，設計了一個受DreamCoder啟發、LLM輔助的程序合成系統，能夠通過從不斷擴展的程序庫中學習來解決越來越難的任務。

雖然得分沒有進一步升高（77.1%和26%），但是成功讓每個任務的平均費用得以下降（v1：8.42美元→2.56美元；v2：30.4美元→3.97美元）。

當問及兩位作者選擇Grok 4的理由，他們均表示，這是他們測試下來效果最好的模型。

當中所體現出的AGI潛力，也讓馬斯克感到自豪，隨即透露了一系列有關Grok 5的消息。

老馬表示，這才只是Grok 4，而Grok 5將很有可能達成AGI。

而這個可能性也許能達到10%或者更高，要知道他此前并不認為Grok版本會出現AGI。

與此同時，他表示Grok 5將會在幾周之內開始訓練。

加上此前他曾表示Grok 5將在今年年底前推出，或許我們將在不久后見證新的“LLM怪物”誕生。

所以為什么老馬能對Grok 5抱以如此強烈的信心呢？

歸根結底，是馬斯克在Grok訓練中投入之深。

據悉，Grok 5將擁有較之前代更多的訓練數據。

Grok 4的訓練量是Grok 2的100倍、Grok 3的10倍，而Grok 5則只會更多。

馬斯克擁有一整套的最新真實數據收集體系，其中xAI可以為其提供最新的直接數據，特斯拉可以定期利用FSD和攝像頭捕獲圖像從而生成數據，而擎天柱機器人也能從現實世界中生成大量數據。

可以說，馬斯克在當下數據為王的時代，最不缺的就是數據。

此外，xAI在硬件資源上也投入頗多，目標在5年內完成相當于5000萬臺H100 GPU同等算力的部署。

其專門為Grok系列打造的超級計算集群Colossus，已經部署了約23萬張GPU。其中包括3萬張NVIDIA GB200（基于Nvidia的Blackwell架構），將會持續為Grok提供強大的算力支持。

不過Grok 5究竟能否真正實現AGI，網友們對此也提出了質疑：畢竟要成為AGI靠的可不僅僅是數據和馬斯克的聲明，一切還得看成品。

所以究竟誰才是能吃到第一只AGI螃蟹的AI公司，且讓我們拭目以待。

責任編輯：張燕妮來源：量子位