多模態(tài)如何自監(jiān)督？愛丁堡等最新「自監(jiān)督多模態(tài)學習」綜述：目標函數(shù)、數(shù)據對齊和模型架構

作者：新智元 2023-04-13 15:25:14

人工智能新聞

在這份綜述中，作者對SSML的最新進展進行了全面回顧，并沿著三個正交軸進行分類：目標函數(shù)、數(shù)據對齊和模型架構。

多模態(tài)學習旨在理解和分析來自多種模態(tài)的信息，近年來在監(jiān)督機制方面取得了實質性進展。

然而，對數(shù)據的嚴重依賴加上昂貴的人工標注阻礙了模型的擴展。與此同時，考慮到現(xiàn)實世界中大規(guī)模的未標注數(shù)據的可用性，自監(jiān)督學習已經成為緩解標注瓶頸的一種有吸引力的策略。

基于這兩個方向，自監(jiān)督多模態(tài)學習(SSML)提供了從原始多模態(tài)數(shù)據中利用監(jiān)督的方法。

論文地址：https://arxiv.org/abs/2304.01008?

項目地址：https://github.com/ys-zong/awesome-self-supervised-multimodal-learning

在本綜述中，我們對SSML的最先進技術進行了全面的回顧，我們沿著三個正交的軸進行分類: 目標函數(shù)、數(shù)據對齊和模型架構。這些坐標軸對應于自監(jiān)督學習方法和多模態(tài)數(shù)據的固有特征。

具體來說，我們將訓練目標分為實例判別、聚類和掩碼預測類別。我們還討論了訓練期間的多模態(tài)輸入數(shù)據配對和對齊策略。最后，回顧了模型架構，包括編碼器、融合模塊和解碼器的設計，這些是SSML方法的重要組成部分。

回顧了下游的多模態(tài)應用任務，報告了最先進的圖像-文本模型和多模態(tài)視頻模型的具體性能，還回顧了SSML算法在不同領域的實際應用，如醫(yī)療保健、遙感和機器翻譯。最后，討論了SSML面臨的挑戰(zhàn)和未來的方向。

1. 引言

人類通過各種感官感知世界，包括視覺、聽覺、觸覺和嗅覺。我們通過利用每個模態(tài)的互補信息來全面了解我們的周圍環(huán)境。AI研究一直致力于開發(fā)模仿人類行為并以類似方式理解世界的智能體。為此，多模態(tài)機器學習領域[1]、[2]旨在開發(fā)能夠處理和整合來自多個不同模態(tài)的數(shù)據的模型。近年來，多模態(tài)學習取得了重大進展，導致了視覺和語言學習[3]、視頻理解[4]、[5]、生物醫(yī)學[6]、自動駕駛[7]等領域的一系列應用。更根本的是，多模態(tài)學習正在推進人工智能中長期存在的接地問題[8]，使我們更接近更一般的人工智能。

然而，多模態(tài)算法往往仍然需要昂貴的人工標注才能進行有效的訓練，這阻礙了它們的擴展。最近，自監(jiān)督學習(SSL)[9]，[10]已經開始通過從現(xiàn)成的標注數(shù)據中生成監(jiān)督來緩解這一問題。單模態(tài)學習中自監(jiān)督的定義相當完善，僅取決于訓練目標，以及是否利用人工標注進行監(jiān)督。然而，在多模態(tài)學習的背景下，它的定義則更為微妙。在多模態(tài)學習中，一種模態(tài)經常充當另一種模態(tài)的監(jiān)督信號。就消除人工標注瓶頸進行向上擴展的目標而言，定義自我監(jiān)督范圍的關鍵問題是跨模態(tài)配對是否自由獲取。

通過利用免費可用的多模態(tài)數(shù)據和自監(jiān)督目標，自監(jiān)督多模態(tài)學習(SSML)顯著增強了多模態(tài)模型的能力。在本綜述中，我們回顧了SSML算法及其應用。我們沿著三個正交的軸分解各種方法：目標函數(shù)、數(shù)據對齊和模型架構。這些坐標軸對應于自監(jiān)督學習算法的特點和多模態(tài)數(shù)據所需的具體考慮。圖1提供了擬議分類法的概述。基于前置任務，我們將訓練目標分為實例判別、聚類和掩碼預測類別。還討論了將這些方法中的兩種或兩種以上結合起來的混合方法。

多模態(tài)自監(jiān)督所特有的是多模態(tài)數(shù)據配對的問題。模態(tài)之間的配對，或者更一般的對齊，可以被SSML算法利用作為輸入(例如，當使用一種模態(tài)為另一種模態(tài)提供監(jiān)督時)，但也可以作為輸出(例如，從未配對的數(shù)據中學習并將配對作為副產品誘導)。我們討論了對齊在粗粒度上的不同作用，這種粗粒度通常被假定在多模態(tài)自監(jiān)督中免費可用(例如，網絡爬取的圖像和標題[11])；有時由SSML算法顯式或隱式誘導的細粒度對齊(例如，標題詞和圖像塊[12]之間的對應關系)。此外，我們探索了目標函數(shù)和數(shù)據對齊假設的交集。

還分析了當代SSML模型架構的設計。具體來說，我們考慮編碼器和融合模塊的設計空間，將特定模式的編碼器(沒有融合或具有后期融合)和具有早期融合的統(tǒng)一編碼器進行對比。我們也檢查具有特定解碼器設計的架構，并討論這些設計選擇的影響。

最后，討論了這些算法在多個真實世界領域的應用，包括醫(yī)療保健、遙感、機器翻譯等，并對SSML的技術挑戰(zhàn)和社會影響進行了深入討論，指出了潛在的未來研究方向。我們總結了在方法、數(shù)據集和實現(xiàn)方面的最新進展，為該領域的研究人員和從業(yè)人員提供一個起點。

現(xiàn)有的綜述論文要么只關注有監(jiān)督的多模態(tài)學習[1]，[2]，[13]，[14]，或單模態(tài)自監(jiān)督學習[9]，[10]，[15]，或SSML的某個子區(qū)域，例如視覺-語言預訓練[16]。最相關的綜述是[17]，但它更側重于時間數(shù)據，忽略了對齊和架構的多模態(tài)自監(jiān)督的關鍵考慮因素。相比之下，我們提供了一個全面和最新的SSML算法綜述，并提供了一個涵蓋算法、數(shù)據和架構的新分類法。

2. 背景知識

多模態(tài)學習中的自監(jiān)督

我們首先描述了本次調研中所考慮的SSML的范圍，因為這個術語在之前的文獻中使用不一致。通過調用不同借口任務的無標簽性質，在單模態(tài)環(huán)境中定義自監(jiān)督更為直接，例如，著名的實例辨別[20]或掩蓋預測目標[21]實現(xiàn)了自監(jiān)督。相比之下，多模態(tài)學習中的情況更加復雜，因為模態(tài)和標簽的作用變得模糊。例如，在監(jiān)督圖像字幕[22]中，文本通常被視為標簽，但在自監(jiān)督多模態(tài)視覺和語言表示學習[11]中，文本則被視為輸入模態(tài)。

在多模態(tài)環(huán)境中，術語自監(jiān)督已被用于指至少四種情況：(1)從自動成對的多模態(tài)數(shù)據中進行無標簽學習——例如帶有視頻和音頻軌道的電影[23]，或來自RGBD攝像機[24]的圖像和深度數(shù)據。(2)從多模態(tài)數(shù)據中學習，其中一個模態(tài)已經被手動標注，或者兩個模態(tài)已經被手動配對，但這個標注已經為不同的目的創(chuàng)建，因此可以被認為是免費的，用于SSML預訓練。例如，從網絡爬取的匹配圖像-標題對，如開創(chuàng)性的CLIP[11]所使用的，實際上是監(jiān)督度量學習[25]，[26]的一個例子，其中配對是監(jiān)督。然而，由于模式和配對都是大規(guī)模免費提供的，因此它通常被描述為自監(jiān)督的。這種未經策劃的偶然創(chuàng)建的數(shù)據通常比專門策劃的數(shù)據集(如COCO[22]和Visual Genome[27])質量更低，噪音更大。(3)從高質量的目的標注的多模態(tài)數(shù)據(例如，COCO[22]中的手動字幕圖像)中學習，但具有自監(jiān)督的風格目標，例如Pixel-BERT[28]。(4)最后，還有一些“自監(jiān)督”方法，它們混合使用免費和手動標注的多模態(tài)數(shù)據[29]，[30]。為了本次調查的目的，我們遵循自監(jiān)督的思想，旨在通過打破手動標注的瓶頸來擴大規(guī)模。因此，就能夠在免費可用的數(shù)據上進行訓練而言，我們包括了前面兩類和第四類方法。我們排除了僅顯示用于手動管理數(shù)據集的方法，因為它們在管理數(shù)據集上應用典型的“自監(jiān)督”目標(例如，屏蔽預測)。

(a)監(jiān)督式多模態(tài)學習和(b)自監(jiān)督式多模態(tài)學習的學習范式：無手動標注的自監(jiān)督預訓練（上）；對下游任務進行監(jiān)督微調（下）。

3. 目標函數(shù)

在本節(jié)中，我們將介紹用于訓練三類自監(jiān)督多模態(tài)算法的目標函數(shù):實例判別、聚類和掩蓋預測。最后我們還討論了混合目標。

3.1 實例判別

在單模學習中，實例判別(instance discrimination, ID)將原始數(shù)據中的每個實例視為一個單獨的類，并對模型進行訓練，以區(qū)分不同的實例。在多模態(tài)學習的背景下，實例判別通常旨在確定來自兩個輸入模態(tài)的樣本是否來自同一個實例，即配對。通過這樣做，它試圖對齊成對模式的表示空間，同時將不同實例對的表示空間推得更遠。有兩種類型的實例識別目標：對比預測和匹配預測，這取決于輸入是如何采樣的。

3.2 聚類

聚類方法假設應用經過訓練的端到端聚類將導致根據語義顯著特征對數(shù)據進行分組。在實踐中，這些方法迭代地預測編碼表示的聚類分配，并使用這些預測(也稱為偽標簽)作為監(jiān)督信號來更新特征表示。多模態(tài)聚類提供了學習多模態(tài)表示的機會，還通過使用每個模態(tài)的偽標簽監(jiān)督其他模態(tài)來改進傳統(tǒng)聚類。

3.3 掩碼預測

掩碼預測任務可以采用自動編碼(類似于BERT[101])或自動回歸方法(類似于GPT[102])來執(zhí)行。

責任編輯：張燕妮來源：新智元

模型