AI能否「圣地巡禮」？多模態大模型全新評估基準VIR-Bench來了

2025-10-15 14:02:29

VIR-Bench 不僅是一個新的評測基準，更是為未來諸多應用打開了一扇窗口。通過在旅行視頻中重建行程順序，它逼迫模型同時理解 “地理位置 + 時間順序”，這與機器人如何理解世界、規劃路徑，以及自動駕駛系統如何在動態環境中進行決策高度契合。

大家或許都有過這樣的體驗：

看完一部喜歡的動漫，總會心血來潮地想去 “圣地巡禮”；刷到別人剪輯精美的旅行 vlog，也會忍不住收藏起來，想著哪天親自走一遍同樣的路線。旅行與影像的結合，總是能勾起人們的探索欲望。那么，如果 AI 能自動看懂這些旅行視頻，幫你解析出 “去了哪些地方”“順序是怎樣的”，甚至還能一鍵生成屬于你的旅行計劃，會不會很有趣？這不僅僅是阿宅的想象，更是多模態大模型在真實世界應用中的一個重要場景。

正是在這樣的啟發下，來自日本早稻田大學，CyberAgent 和奈良先端科學技術大學院大學的團隊提出了一個全新的多模態大模型評估基準 VIR-Bench ，旨在評測 AI 是否真的能理解旅行視頻中的地理位置與時間順序，從而支撐更復雜、更實用的應用。用一句話來概括，這項研究就是在追問：“我從哪里來？我要到哪里去？”

論文地址：https://www.arxiv.org/abs/2509.19002
GitHub：https://github.com/nlp-waseda/VIR-Bench

VIR-Bench 是什么？任務設計與數據集構建

任務目標：行程還原（Itinerary Reconstruction）

在 VIR-Bench 中，給定一個旅行 vlog（在日本拍攝），模型要輸出訪問順序圖（visiting order graph），也就是 “我去了哪些地點、按什么順序、地點之間有哪些包含關系” 的結構化表示。

更具體地，這個訪問順序圖是一個有向圖，其中：

節點表示被訪問的地點，按層次分為 Prefecture，City，和 POI（Point of Interest）三層級。
包含邊（Inclusion edge）表示層次上的 “大地理單元包含小地理單元” 關系（例如某 POI 在某個 City 里，某個 City 在某個 Prefecture 里）。
轉移邊（Transition edge）表示時間順序上的移動：從一個節點移動到下一個節點（同層級）表示旅行順序。

這意味著模型不僅要識別出 “我去過的地點”，還要判斷這些地點之間的時間順序，地理空間關系，進而構建出整個旅行路徑的結構。此外，由于旅行視頻往往是自拍視角 / 行進視角 / 風光視角等交錯出現，模型需要在多樣視角、非連續畫面中 “拼圖式” 理解，這進一步提升了任務難度。

為便于模型訓練與評測，作者將這一復雜任務拆解為兩個子任務：

1. 節點預測：給定視頻，模型列出所有被訪問的 Prefecture、City、POI。

2. 邊緣預測：給定視頻 + 節點集合（節點標簽順序被打亂），模型要判斷哪些節點之間存在包含邊，哪些節點之間存在轉移邊。即預測邊的集合。

通過這種分解方式，我們可以分別評估模型的地理識別能力與時序推理能力，以及它們在實際組合時的協同性。

數據集構建：200 個旅行視頻 + 訪問順序圖

為了支撐上述任務，作者構建了一個規模適中的專用數據集：

視頻數量：200 個旅行 vlog（都在日本拍攝）。
地點覆蓋：共標注出 3,689 個 POI，分布在日本 43 個都道府縣（幾乎覆蓋全日本）。
標注方式：每個視頻由人工注釋者識別每個 POI 的起止時間、Google Maps 鏈接，并通過雙人校驗后自動構建最終的訪問順序圖。

作者在論文中還附上了詳細注釋指南、數據分布統計等信息（可見 Appendix 部分）。

實驗結果與洞察：當前模型面臨的挑戰

在實驗中，作者發現開源模型整體上仍然落后于商用模型，尤其是在 POI 節點識別和轉移邊預測這兩個子任務上差距尤為明顯。進一步的分析顯示，轉移邊預測幾乎是所有模型的 “最難關”：不少模型要么直接誤解了任務要求，要么忽視了層級結構的約束（只有同層級節點之間可以有轉移邊），結果往往接近隨機水平。

另一方面，模型規模的擴展對性能提升具有顯著作用，尤其體現在邊緣預測上；而是否具備地理相關的預訓練，則成為 POI 節點預測精度差異的關鍵因素。值得注意的是，思維鏈推理（Chain-of-Thought）的效果在不同子任務中差別很大：在節點預測中提升有限，但在邊緣預測中卻能帶來顯著的改善。如果再進一步結合音頻信息（例如 Gemini-2.5-Pro 的多模態輸入），效果提升尤為突出。

Ablation 實驗也為我們揭示了模型性能提升的幾個關鍵方向：增加輸入幀數可以讓模型捕捉更完整的旅行線索，更長的推理過程能幫助模型逐步還原旅行順序，而音頻的利用則能提供額外的語義提示。三者結合，共同推動了模型在復雜時空理解任務上的進步。

然而，即便有這些改進，整體性能仍遠未達到可用水平。即使是當前得分最高的 Gemini-2.5-Pro，在預測結果中依然存在大量錯誤，這進一步凸顯了多模態大模型在長程地理與時間理解上的巨大挑戰。

表1: 節點預測的評估結果

表2: 邊緣預測的評估結果

總而言之，VIR-Bench 不僅是一個新的評測基準，更是為未來諸多應用打開了一扇窗口。通過在旅行視頻中重建行程順序，它逼迫模型同時理解 “地理位置 + 時間順序”，這與機器人如何理解世界、規劃路徑，以及自動駕駛系統如何在動態環境中進行決策高度契合。

這一研究讓我們看清：當前的大模型在長程推理和時空理解上仍有明顯不足，但也指明了進化的方向 —— 更強的地理空間感知、更可靠的時間推理，以及多模態信息的深度融合。當這些能力逐漸成熟，AI 將不再只是 “看視頻”，而是真正具備 “在世界中行動” 的潛力。

責任編輯：張燕妮來源：機器之心

AI 模型自動駕駛