「世界理解」維度看AI視頻生成:Veo3和Sora2水平如何?新基準來了
近年來,Text-to-Video(T2V)模型取得顯著進展——
從靜態幀質量到連貫的視頻敘事,模型能力大幅提升,尤其是最近Sora2的爆火,讓人們開始想象,T2V Model是否已經是一個真正的“世界模型”?。
然而,傳統基準主要考察圖像質量與語義一致性,并不能系統衡量模型對事件因果、物理規律與常識的理解,而這些正是“世界模型”的核心能力。
為此,中山大學、香港理工大學、清華大學與OPPO Research Institute合作,在港理工Chair Professor張磊教授的指導下提出了一種新的評測框架——VideoVerse。

設計目標與核心內容
VideoVerse致力于評估T2V模型在事件級時間因果與世界知識(物理、材料、常識)上的表現。團隊從兩大視角定義了十個評測維度:
1、動態(Dynamic):Event Following(事件順序與因果)、Mechanics(力學)、Interaction(交互)、Material Properties(材料特性)、Camera Control(鏡頭控制)。
2、靜態(Static):Natural Constraints(自然/物理約束)、Common Sense(常識)、Attribution Correctness(屬性正確性)、2D Layout(二維布局)、3D Depth(三維深度)。
每條prompt對應若干二元(Yes/No)評測問題;Event Following采用事件序列匹配(LCS)度量序列一致性。
最終通過QA + LCS的混合評分,得到模型在各維度上的綜合表現。

Prompt構建流程
為確保prompt的真實性、多樣性與可評測性,團隊采用多階段構建流程:
域內原始語料采樣
團隊從三大域獲取源數據:Daily Life(如 ActivityNet Caption)、Scientific Experiment(高中/教科書級實驗步驟)、Science Fiction(VidProM 等社區收集)。
目的是覆蓋真實世界場景、受控科學實驗與超現實/想象場景,以測試模型的現實/推理/泛化能力。
事件與因果結構抽取
團隊使用GPT-4o等強LLM自動抽取視頻或文本中的事件序列與潛在因果鏈,把自然語言描述轉換為事件級結構(event1 ? event2 ? event3…)。
這么做是為了保證prompt天然具備事件因果的性質,為prompt中的“事件跟隨”評測打下基礎。
人工標注與評測維度
獨立人類注釋者對自動抽取的raw-prompt進行語義增補(例如加入材料、鏡頭動作、隱藏語義)、并為每條prompt選擇適用的評測維度。
注釋者均具備本科及以上學歷,定期交叉校驗以減少偏差。
這樣,可以將自動抽取與人工知識結合,保障prompt的多維挑戰性與標注質量。
維度二元檢測問題生成
基于每條prompt的選定維度,自動/人工生成與之對應的二元QA(例如:“視頻中是否出現藍色海綿?”、“事件順序是否為A ? B ? C?”)。
這些問題用于后續的VLM評測,同時屏蔽原始的prompt,降低評估時的文本幻覺風險。

QA+LCS的混合評估
評估方面,團隊采用QA+LCS的混合評估,具體分為三個步驟:
1、事件跟隨(Event Following):用VLM提取生成視頻的事件序列,再用最長公共子序列(LCS)與地面真值比對,評分反映事件順序與因果的一致性。
2、維度特定問題:每個維度下的二元問題獨立詢問VLM,正確數累加為維度得分。
3、總體得分:LCS得分+各維度二元問題答對數之和。該設計既關注序列邏輯也關注屬性/物理細節。
隱含語義
不過,能生成一段合理的畫面,不代表模型理解了背后的隱含語義。
為此,團隊在VideoVerse中引入了隱含語義(hidden semantics)。
目前,大多數現有T2V評測只關注顯式語義(explicit semantics)——即prompt中直接描述的事件。
然而,真正的“世界理解”不僅在于生成“可見的動作”,還在于能否遵循那些未明說但合理存在的語義前提。
例如這樣一段prompt:
A man drops an egg on the floor.
這段話的顯式語義很清晰:男人掉下雞蛋。
而隱含語義則是:雞蛋應破碎、液體應流動、地面應濕潤。
如果一個模型能正確生成破碎和液體流動,這說明它真正理解了物理因果,而非僅僅模仿了文字表象。
因此,團隊在VideoVerse中系統引入了隱含語義,用以檢測模型是否能生成這些“隱含后果”。

主要實驗與分析
團隊在VideoVerse上評測了主流開源與閉源模型(如 Wan 系列、HunyuanVideo、SkyReels、Veo-3 、Sora2等)。有兩點關鍵發現:
1、開源模型在基礎維度(屬性、2D/3D布局等)與閉源模型接近,但在世界模型級別(自然約束、常識、事件因果)差距明顯。
2、即便是最強閉源模型(Sora2),在“隱藏語義跟隨”與某些物理/材料推斷上仍有顯著缺陷。


一個例子,不同視頻模型對于“唐三藏騎的馬的顏色”的理解迥乎不同。
研究發現,Wan 2.1和Hunyuan能成功生成相應的描述性內容(如“馬的皮毛閃閃發光”),但在事件連貫性(Event Following)和常識理解(Common Sense)方面表現不佳。
相比之下,Veo-3在各個維度上均表現出色。

此外,其他模型還會犯一些一些更加顯著的反常識錯誤。
例如Hailuo Video能生成視覺上頗具吸引力的剃須動作,但胡須始終沒有刮掉。

再如,Hunyuan Video能正確生成球形冰塊、倒水動作、一塊干冰,以及諸如“在右側”等二維空間布局關系。
但它對自然約束的理解依然不佳——干冰在室溫下并未出現升華現象。

面向“世界理解”的視頻生成未來
綜上,VideoVerse提供了一個完善的面向世界模型的評測框架,旨在推動社區從“生成逼真畫面”向“理解并模擬世界”轉變。
目前,團隊已開源數據、評測代碼和leaderboard,他們期待更多研究者能基于VideoVerse提出更強的世界模型能力改進方法。
項目主頁:https://www.naptmn.cn/Homepage_of_VideoVerse/
ArXiv:https://arxiv.org/abs/2510.08398





































