視頻模型真在推理,還是「表演」推理?港中文等質疑:Chain-of-Frame是真的嗎?
近年來,以 Veo、Sora 為代表的視頻生成模型展現出驚人的合成能力,能夠生成高度逼真且時序連貫的動態畫面。這類模型在視覺內容生成上的進步,表明其內部可能隱含了對世界結構與規律的理解。更令人關注的是,Google 的最新研究指出,諸如 Veo 3 等模型正在逐步顯現出超越單純合成的 “涌現特性”,包括感知、建模和推理等更高層次能力。
這催生出一個與語言模型 “思維鏈”(Chain-of-Thought, CoT)相對應的新概念 ——Chain-of-Frame(CoF)。其核心思想是:模型通過逐幀生成視頻,以連貫的視覺推演方式逐步解決問題。然而,一個關鍵疑問仍未解決:這些模型是否真正具備零樣本推理(Zero-Shot Reasoning)的能力?抑或它們只是在模仿訓練數據中出現過的表面模式?
為探究這一問題,來自香港中文大學、北京大學、東北大學的研究團隊進行了系統性研究,對 Veo 3 等模型的零樣本推理潛力進行了深入評估,并提出了涵蓋空間、幾何、物理、時間等 12 個推理維度的綜合測試基準 ——MME-CoF。

- 論文題目:Are Video Models Ready as Zero-Shot Reasoners? An Empirical Study with the MME-CoF Benchmark
- 論文鏈接:https://arxiv.org/pdf/2510.26802v1
- 項目主頁:https://video-cof.github.io/
什么是 Chain-of-Frame(CoF)推理?
“幀鏈推理” 可以視作語言中 “思維鏈”(CoT)的視覺類比:
- CoT 通過逐步生成文字展現推理路徑。
- CoF 則通過逐幀生成畫面,使場景在視覺上不斷演化,從而體現推演過程。
深入分析:12 項推理挑戰
為全面揭示視頻模型的推理潛力,研究團隊設計了 12 個維度的測試任務,對 Veo 3 進行了系統的實證分析。以下選取其中三個典型維度進行說明(其余部分可參閱原論文)。
1. 真實世界空間推理(Real-World Spatial Reasoning)

- 任務: 評估模型在多視角自然場景中保持空間一致性的能力,包括視角變化、方位對齊與參考系穩定性。
- 發現: 能較好處理簡單場景下的空間布局與視角切換,局部場景保持合理的空間關系與方向一致。
- 局限: 在復雜視角變化或深度理解任務中表現不穩,常出現空間錯位、視角漂移或方向混亂,難以維持全局坐標一致性。
2. 3D 幾何推理(3D Geometry Reasoning)

- 任務: 評估模型在三維幾何變換任務中的結構理解與連續性表現,如物體折疊、旋轉與立體重構。
- 發現: 在單步、簡單幾何變換中可生成結構完整且視覺連貫的結果,具備初步的三維形態理解能力。
- 局限: 多步或組合性變換中常出現結構錯位、自交或崩塌,無法維持幾何一致與物理合理性,整體三維推理仍脆弱。
3. 2D 幾何推理(2D Geometry Reasoning)
- 任務: 評估模型在平面幾何構造與圖形操作任務中的準確性與約束保持能力,如點連線、形狀移動和構圖順序理解。
- 發現: 在簡單幾何連接任務中可識別并正確繪制基本關系,呈現初步幾何構造能力。
- 局限: 易優先生成視覺上美觀的圖形而非嚴格幾何符合,常出現連線順序錯誤、形狀變形或持續繪制超出任務范圍,缺乏穩定的幾何約束意識。
其他六個推理維度概覽
除上述三項外,其余九個維度同樣揭示了 Veo 3 的限制:
- 視覺細節推理(Visual Detail Reasoning):對被遮擋或微小目標的識別不穩,生成內容易偏離任務要求。
- 視覺追蹤推理(Visual Trace Reasoning):長時序依賴和規則驅動的動作鏈容易中斷,因果一致性不足。
- 物理推理(Physics-Based Reasoning):未能準確遵循能量、力學等物理規律,僅表現為視覺層面的 “模擬”。
- 旋轉推理(Rotation Reasoning):小角度旋轉可近似實現,大角度下結構崩壞。
- 圖表推理(Table & Chart Reasoning):可模仿局部視覺模式,但缺乏對數值關系的真實理解。
- 物體計數(Object Counting Reasoning):在靜態場景下表現良好,但動態環境中常出現漏數或重復。
- GUI 推理(GUI Reasoning):能生成點擊或拖動動作,但對操作目的與邏輯缺乏認知。
- 具身推理(Embodied Reasoning):能識別物體位置與動作,但不遵守環境規則,偶有 “作弊式” 生成。
- 醫學推理(Medical Reasoning):在放大或觀察局部細節時具備表面能力,但無法保持影像邏輯一致,易出現結構性錯誤。
MME-CoF:首個視頻推理基準
研究團隊基于上述實證研究整理了 MME-CoF 基準,以標準化方式評估視頻模型的推理潛能。其主要特征包括:
- 首個系統量化視頻模型推理能力的框架;
- 覆蓋 12 個維度、59 個精心設計任務;
- 提示式設計創新:將抽象推理任務(如物理、幾何、計數)轉化為可視化視頻生成挑戰,迫使模型通過 “幀鏈推理” 展現過程性思考。

下表展示了多種視頻生成模型在 MME-CoF 基準上的評測結果,評分由 Gemini-2.5-Pro 完成,量表范圍為 0–4。研究團隊從五個維度進行評估。整體來看,各模型的平均得分普遍低于 2 分。

結論:推理還是表演?
綜合 Veo 3 的實證分析,基于對眾多視頻模型的定量評估結果,研究者得出以下結論:
1. 尚不具備獨立的零樣本推理能力 —— 模型主要依賴數據模式,而非邏輯推演。
2. 強生成 ≠ 強推理 —— 其表現更多來自模式記憶與視覺一致性,而非概念理解。
3. 注重表象而非因果 —— 模型生成的結果往往 “看起來對”,但邏輯上并不成立。
4. 未來仍具潛力 —— 可作為視覺推理系統的有力補充模塊,與邏輯模型協同構建更完整的多模態智能體系。
總體而言,這項研究為學界提供了清晰系統的實證分析和評估框架,揭示了視頻生成模型在從 “生成” 邁向 “推理”、實現真正的 “通用視覺模型” 的過程中尚需跨越的關鍵鴻溝。




































