AI智能體是否能預測未來?字節跳動seed發布FutureX動態評測基準
你有沒有想過,AI 不僅能記住過去的一切,還能預見未知的未來?
想象一下,讓 AI 預測下周的股價、下個月的票房冠軍、甚至下屆世界杯的贏家……這聽起來像科幻片,但如今,它已經成為現實中一場「極限挑戰」。
最近,一場專門考驗 AI「預言」能力的考試——FutureX 動態評測基準正式發布。它由字節跳動 Seed 團隊聯合斯坦福大學 Jose Blanchet 教授團隊、復旦大學邱錫鵬教授團隊、普林斯頓大學王夢迪教授團隊共同打造,讓 Grok-4、GPT、Gemini 等模型齊聚預測未來的考場。

- 論文標題:FutureX: An Advanced Live Benchmark for LLM Agents in Future Prediction
- 項目主頁:https://futurex-ai.github.io/
- 技術報告:https://huggingface.co/papers/2508.11987
- 數據:https://huggingface.co/datasets/futurex-ai/Futurex-Online
發布后 Elon Musk 轉發,并評價該任務為「智能的真正度量」,推特瀏覽量過千萬。

不考「記憶」考「遠見」,FutureX 是什么?
過去的 AI 評測,總被詬病像「開卷默寫」。題目是固定的,答案是已知的,提前「背好書」,就能輕松拿高分。這更像一場記憶力競賽,而不是真正的智力考驗。
FutureX 則改變了這一邏輯——它讓 AI 預測的是尚未發生的未來,完全避免了數據污染/泄漏的可能,可以真實反映 AI 智能體的規劃、搜索、復雜推理決策等能力。
每周,系統會自動從全球 195 多個高質量信息源中,篩選出 500 個新的預測任務,涵蓋經濟、科技、體育等各個領域。從預測一部新電影的首周票房,到判斷一場關鍵體育賽事的勝者,所有題目在 AI 作答時都沒有「標準答案」。

未來預測有多難?FutureX 的四層「進階試煉」
預測未來從來不是簡單的猜測,而是對信息搜集、趨勢分析、風險判斷等綜合能力的終極考驗。FutureX 將任務劃分為四個難度層級,如同為 AI 智能體設置的「段位考核」:

這些任務并非憑空設計,而是基于 195 個精選自 2000 多個網站的高質量信息源,覆蓋經濟、科技、體育等多個領域,完全對接真實世界的復雜場景。

自動化評測體系,FutureX 是怎么構建的?
為了實現對未來事件的動態評估,FutureX 構建了一套完全閉環的自動化系統:
- 每天自動抓取值得預測的未來事件;
- 在事件發生之前調度 23 個主流 LLM/ 智能體進行預測;
- 在事件發生之后抓取事件結果進行評分。

最新排行榜:誰在預測未來的賽道上領跑?
那么,在這場史無前例的「未來考試」中,誰拔得頭籌?(數據統計自 7 月 20 日至 8 月 14 日)

核心發現:
- Grok-4 暫時領跑,GPT 和 Gemini 緊隨其后。 在所有模型中,Grok-4 的綜合表現最為突出,拔得頭籌。緊隨其后的是 GPT-4o-mini 和 Gemini-2.5-flash Deep Research。字節跳動Seed系列模型也展現了不俗的實力。
- AI 智能體距離人類專家仍有差距。 表現最好的 Grok-4 在 L4(高波動開放任務)上的準確率只有不到 20%,大部分 agents 的準確率只有不到 10%,仍明顯落后于人類預測。
- 預測未來是推理和搜索的結合。 在簡單選擇題上,不依賴工具的基礎 LLM 表現驚人,比如 DouBao-Seed1.6-Thinking 甚至超過部分帶搜索功能的智能體;但到了復雜任務,能實時調用工具的智能體優勢立刻顯現,說明「聯網搜索」是 AI 應對復雜預測的必備技能。

AI 的「神預言」vs「馬后炮」:差距有多大?
為了搞清楚「預測」到底比「搜索」難多少,研究團隊做了一個對比實驗:
- 事前預測(神預言模式): 在事件發生前,預測結果。
- 事后搜索(馬后炮模式): 在事件發生后,去網上查找并回答結果。
結果發現:Grok-4 在開啟「馬后炮模式」時,憑借強大的搜索能力,準確率可以輕松達到很高的水平。然而,一旦切換到「神預言模式」,準確率便斷崖式下跌。

這個對比一針見血地指出:搜索信息只是 AI 的基本功,真正的難點在于如何在信息不完整、充滿不確定性的情況下,進行高質量的推理和判斷。這才是「預測」的精髓,也是 AI 最需要突破的瓶頸。
解密未來預測:AI 需要練好哪些「內功」?
為什么預測未來如此之難?研究發現,三大核心能力至關重要:
- 工具調用質量: 能否精準、高效地使用搜索等工具。
- 搜索來源可靠性: 能否從海量信息中辨別真偽,找到關鍵信源。
- 推理規劃全面性: 能否像人類專家一樣,構建全面、嚴謹的邏輯鏈條。
簡單來說,強大的搜索力和思考力缺一不可。這正是 FutureX 希望推動 AI 發展的核心方向。
未來已來:推動 AI 從「已知」走向「未知」
FutureX 的探索僅僅是一個開始。我們的研究揭示了當前 AI 智能體在邁向真正實用的道路上,必須克服的核心挑戰:如何在信息爆炸、充滿不確定性的真實世界中,像人類專家一樣進行思考、推理和決策。
我們堅信,FutureX 有潛力成為推動 LLM 智能體發展的關鍵引擎。通過提供一個公平、動態且極具挑戰性的評估平臺,我們希望能激勵學術界和工業界的研究者們,共同開發出能夠在高風險、高復雜度真實場景中,比肩甚至超越人類頂尖分析師的下一代 AI 智能體。





























