ClockBench:一個簡單的鐘表測試讓AI全線潰敗
有人做了個簡單又復雜的實驗:讓11個當前最先進的多模態大模型和5個普通人一起看鐘表認時間。結果人類平均準確率89.1%,最好的AI只有13.3%——還不如閉著眼睛瞎猜。

這個叫ClockBench的測試包含36種定制鐘面,180個鐘表樣本,每個鐘表要回答4個問題。設計者刻意加入了羅馬數字、環形數字等非常規樣式,結果AI在復雜鐘面上的表現尤其糟糕。

但當被要求"把時針逆時針轉90度"這類衍生問題時,某些模型反而能100%答對。這說明AI擅長處理抽象指令,卻栽在最基礎的視覺感知上。

人類認錯時間平均偏差3分鐘,而AI的中位誤差達到1小時。Google的Gemini 2.5系列已經是表現最佳,但13.3%的準確率依然慘烈。有開發者嘗試用AI生成鐘表圖片,結果連畫都畫不準。
這個對人類無比簡單的基準測試的其對于AI的難度和ARC-AGI-2相當,甚至比"人類最后的考試"還要難。一個簡單的認表任務,暴露了當前視覺AI在空間推理上的根本性缺陷。
這個測試像一面照妖鏡,照出當前多模態模型的軟肋:它們能寫詩編程,卻看不懂幼兒園級別的視覺信息。當我們在討論AGI時,或許應該先讓AI通過這個"兒童認知測試"。
不過,這個測試對模型性能評估方案設計有很大的啟發意義,畢竟面對動輒需要專業人士專門設計的復雜基準,這樣一個簡單直觀,又有說服力的方式非常適合衡量模型的視覺推理能力。畢竟連時間都看不懂,還談什么理解世界。
論文地址:??https://clockbench.ai/ClockBench.pdf??
測試地址:??https://clockbench.ai/??
github:https://github.com/aleksafar/clockbench
本文轉載自??AI工程化??,作者:ully

















