AI智能體是否能預測未來？字節跳動seed發布FutureX動態評測基準

2025-09-01 09:10:00

最近，一場專門考驗 AI「預言」能力的考試——FutureX 動態評測基準正式發布。它由字節跳動 Seed 團隊聯合斯坦福大學 Jose Blanchet 教授團隊、復旦大學邱錫鵬教授團隊、普林斯頓大學王夢迪教授團隊共同打造，讓 Grok-4、GPT、Gemini 等模型齊聚預測未來的考場。

你有沒有想過，AI 不僅能記住過去的一切，還能預見未知的未來？

想象一下，讓 AI 預測下周的股價、下個月的票房冠軍、甚至下屆世界杯的贏家……這聽起來像科幻片，但如今，它已經成為現實中一場「極限挑戰」。

發布后 Elon Musk 轉發，并評價該任務為「智能的真正度量」，推特瀏覽量過千萬。

過去的 AI 評測，總被詬病像「開卷默寫」。題目是固定的，答案是已知的，提前「背好書」，就能輕松拿高分。這更像一場記憶力競賽，而不是真正的智力考驗。

FutureX 則改變了這一邏輯——它讓 AI 預測的是尚未發生的未來，完全避免了數據污染／泄漏的可能，可以真實反映 AI 智能體的規劃、搜索、復雜推理決策等能力。

每周，系統會自動從全球 195 多個高質量信息源中，篩選出 500 個新的預測任務，涵蓋經濟、科技、體育等各個領域。從預測一部新電影的首周票房，到判斷一場關鍵體育賽事的勝者，所有題目在 AI 作答時都沒有「標準答案」。

預測未來從來不是簡單的猜測，而是對信息搜集、趨勢分析、風險判斷等綜合能力的終極考驗。FutureX 將任務劃分為四個難度層級，如同為 AI 智能體設置的「段位考核」：

這些任務并非憑空設計，而是基于 195 個精選自 2000 多個網站的高質量信息源，覆蓋經濟、科技、體育等多個領域，完全對接真實世界的復雜場景。

為了實現對未來事件的動態評估，FutureX 構建了一套完全閉環的自動化系統：

那么，在這場史無前例的「未來考試」中，誰拔得頭籌？（數據統計自 7 月 20 日至 8 月 14 日）

核心發現：

Grok-4 暫時領跑，GPT 和 Gemini 緊隨其后。 在所有模型中，Grok-4 的綜合表現最為突出，拔得頭籌。緊隨其后的是 GPT-4o-mini 和 Gemini-2.5-flash Deep Research。字節跳動Seed系列模型也展現了不俗的實力。
AI 智能體距離人類專家仍有差距。 表現最好的 Grok-4 在 L4（高波動開放任務）上的準確率只有不到 20%，大部分 agents 的準確率只有不到 10%，仍明顯落后于人類預測。
預測未來是推理和搜索的結合。 在簡單選擇題上，不依賴工具的基礎 LLM 表現驚人，比如 DouBao-Seed1.6-Thinking 甚至超過部分帶搜索功能的智能體；但到了復雜任務，能實時調用工具的智能體優勢立刻顯現，說明「聯網搜索」是 AI 應對復雜預測的必備技能。

為了搞清楚「預測」到底比「搜索」難多少，研究團隊做了一個對比實驗：

結果發現：Grok-4 在開啟「馬后炮模式」時，憑借強大的搜索能力，準確率可以輕松達到很高的水平。然而，一旦切換到「神預言模式」，準確率便斷崖式下跌。

這個對比一針見血地指出：搜索信息只是 AI 的基本功，真正的難點在于如何在信息不完整、充滿不確定性的情況下，進行高質量的推理和判斷。這才是「預測」的精髓，也是 AI 最需要突破的瓶頸。

為什么預測未來如此之難？研究發現，三大核心能力至關重要：

簡單來說，強大的搜索力和思考力缺一不可。這正是 FutureX 希望推動 AI 發展的核心方向。

FutureX 的探索僅僅是一個開始。我們的研究揭示了當前 AI 智能體在邁向真正實用的道路上，必須克服的核心挑戰：如何在信息爆炸、充滿不確定性的真實世界中，像人類專家一樣進行思考、推理和決策。

我們堅信，FutureX 有潛力成為推動 LLM 智能體發展的關鍵引擎。通過提供一個公平、動態且極具挑戰性的評估平臺，我們希望能激勵學術界和工業界的研究者們，共同開發出能夠在高風險、高復雜度真實場景中，比肩甚至超越人類頂尖分析師的下一代 AI 智能體。

責任編輯：張燕妮來源：機器之心