挑戰人類認知推理新任務,MIT等聯合提出新一代視覺推理數據集
來自MIT-IBM 沃森人工智能實驗室首席科學家淦創團隊提出了新一代視覺推理數據集,該數據集提出了基于局部(part)的視覺推理,并融合了五類人類認知推理任務:概念型推理,關系型推理,類比型推理,數學推理和物理推理。
人類視覺感知的一個關鍵點是將視覺場景解析為物體,并進一步解析為物體的各個局部,從而形成部分 - 整體層次結構。這種層級結構可以誘導出豐富的語義概念和關系,從而在解釋和組織視覺信息方面,以及視覺感知和推理的泛化方面發揮著重要作用。然而,現有的視覺推理數據集主要關注整個物體,而不是物體中的局部。由于更細粒度的概念、更豐富的幾何關系和更復雜的物理關系,基于部分 - 整體層次結構的視覺推理比以物體整體為中心的推理更具挑戰性。
因此,為了更好地闡釋和理解基于局部的概念和關系,本文引入了一個新的名為 PTR 的大規模診斷型視覺推理數據集。PTR 包含大約七萬 RGBD 合成圖像,帶有關于語義實例分割、顏色屬性、空間和幾何關系以及某些物理屬性(例如穩定性)的物體和局部標注。這些圖像配有五種類型的問題:概念型推理,關系型推理,類比型推理,數學推理和物理推理。這些類型均來自于人類認知推理的重要方面,但在以往的工作中并沒有被充分探索過。
本文在這個數據集上檢驗了幾個最先進的視覺推理模型。研究者觀察到它們的表現遠遠不及人類表現,特別是在一些較新的推理類型(例如幾何,物理問題)任務上。該研究期待這個數據集能夠促進機器推理向更復雜的人類認知推理推進。

- 論文地址:http://ptr.csail.mit.edu/assets/ptr.pdf
- 項目主頁:http://ptr.csail.mit.edu
1、背景介紹
視覺推理要求機器通過觀察給定的場景來回答推理問題。近年來,由于在自然數據中存在大量的噪聲和偏差,研究人員合成數據集。合成數據集的生成是完全可控的,因此研究者更容易診斷推理模型中的不足。CLEVR[1] 是這類數據集中的代表。然而,各類視覺推理模型在 CLEVR 上的準確率已經趨近飽和,這是因為 CLEVR 數據集的推理局限于感知層面,遠遠落后于人類在認知層面的推理能力。因此,本文提出了新一代視覺推理數據集,專注于對人類來說相對容易,但在機器推理領域還沒有被充分發掘的新任務。
同時,之前的視覺推理數據集主要關注物體的整體特征,而不太強調詳細的局部理解。然而,心理學證據表明,人類會將視覺場景解析為部分 - 整體層次結構。因此,本文提出的數據集主要專注于整體 - 部分關系的推理。

圖二:PTR 數據集介紹
2、數據集介紹
PTR 數據集有七萬的 RGBD 圖片和 70 萬基于這些圖片的問題。本文作者提供了詳細的圖片標注,包括語義實例分割、幾何、物理狀態的標注。數據集的生成采取了精細的偏差和噪聲控制。
下圖總結了 PTR 數據集涵蓋的概念。

圖三:PTR 數據集中的概念
可以看出,PTR 數據集具有豐富的認知層面的概念和關系。在物體整體方面,具有空間關系、物理狀態等概念,在局部方面,有幾何關系等概念。整體 - 部分的加入大大增加了視覺推理的層次性和豐富性。
PTR 數據集包含了五類問題:概念型推理,關系型推理,類比型推理,數學推理和物理推理。
2.1 概念型推理
主要考察機器對于整體 - 部分的概念和關系的理解。
2.2 關系型推理
主要考察機器對于物體之間的空間關系,和局部之間的幾何關系的理解。

2.3 類比型推理
主要考察機器能否將物體之間 / 局部之間的關系遷移到其他物體 / 局部上。

2.4 數學推理
主要考察機器能否對場景進行數學推理。

2.5 物理推理
主要考察機器能否對物體的物理狀態作出判斷。

3、實驗部分
本文檢驗了幾個 SOTA 視覺推理模型在該數據集上的效果,包括 NS-VQA[2], MDETR[3], MAC[4] 等。

圖四:實驗結果
從結果可以看出,視覺推理模型的效果要遠遠低于人類表現。其中 NS-VQA 用到了 ground-truth 分割、語義等訓練模型。然而,在較難的問題例如物理、幾何上面效果仍然很差。
為進一步研究該結果來源于感知上的不正確還是認知推理上的能力欠缺,本文對 NS-VQA 模型進行了消融研究。

圖五:NS-VQA 模型的消融研究
結果表明,即便擁有完美的感知能力并給予該模型所有需要的物體、局部分割,模型在幾何、類比、物理問題上效果依舊不樂觀。
實驗表明,該研究數據集對未來機器如何進行和人類一樣的認知推理,特別是在一些比較難的物理、集合問題上進行推理,提出了非常重要的方向。






















