多模態(tài)學習新突破:自適應掩碼子網(wǎng)絡解決模態(tài)不平衡問題
多模態(tài)學習一直是研究熱點,它通過整合來自不同模態(tài)的信息來提升模型性能。然而,在實際應用中,多模態(tài)學習常常面臨一個棘手的問題—— 模態(tài)不平衡,導致模型過度依賴主導模態(tài)而忽視其他模態(tài),限制了整體效果。
一、技術背景:多模態(tài)學習的挑戰(zhàn)
多模態(tài)學習旨在通過統(tǒng)一不同模態(tài)的模型來增強性能。在現(xiàn)實世界中,對象通常可以通過多種模態(tài)來表征。例如,在動作識別任務中,可以整合視頻、音頻和運動傳感器數(shù)據(jù)來識別人類動作;在文章分類任務中,可以綜合內(nèi)容和圖像進行預測。
然而,多模態(tài)學習中的"模態(tài)不平衡"問題一直困擾著研究人員。這種現(xiàn)象表現(xiàn)為在訓練過程中存在一個主導模態(tài)和一個非主導模態(tài),由于模型固有的貪婪性,模型更新過度傾向于主導模態(tài),而忽視了對非主導模態(tài)的學習。結果,非主導模態(tài)的學習速度嚴重滯后,導致多模態(tài)學習的性能甚至不如單模態(tài)學習。
如圖1所示,傳統(tǒng)的全局更新機制(Global-wise)在反向傳播過程中對所有參數(shù)的梯度應用均勻調(diào)制,忽略了不同參數(shù)的重要性差異。這導致了模態(tài)間的不平衡問題。
不同梯度調(diào)制的對比
為了解決這一問題,現(xiàn)有方法通常采用模態(tài)級控制機制來調(diào)整每個模態(tài)參數(shù)的更新。然而,這種全局更新機制忽略了每個參數(shù)的不同重要性,效果有限。
二、創(chuàng)新方法:自適應掩碼子網(wǎng)絡(AMSS)
受子網(wǎng)絡優(yōu)化的啟發(fā),研究人員探索了一種基于均勻采樣的優(yōu)化策略,發(fā)現(xiàn)它比全局更新機制更有效。基于這一發(fā)現(xiàn),他們提出了一種新穎的基于重要性采樣的元素級聯(lián)合優(yōu)化方法,稱為考慮模態(tài)顯著性的自適應掩碼子網(wǎng)絡(Adaptively Mask Subnetworks Considering Modal Significance,AMSS)。
2.1 核心思想
AMSS的核心思想是通過自適應掩碼不同模態(tài)的子網(wǎng)絡來重新平衡多模態(tài)學習。具體來說,該方法首先通過互信息率確定模態(tài)顯著性,然后基于模態(tài)顯著性使用非均勻自適應采樣從每個模態(tài)中選擇前景子網(wǎng)絡進行參數(shù)更新,從而重新平衡多模態(tài)學習。
與傳統(tǒng)的全局更新機制不同,AMSS采用元素級更新機制,在反向傳播過程中對參數(shù)梯度進行差分調(diào)制,而不是對整個模態(tài)應用統(tǒng)一的縮放因子。
2.2 技術細節(jié)
AMSS方法主要包括兩個關鍵部分:參數(shù)數(shù)量掩碼和任務引導的參數(shù)掩碼準則。
2.2.1 參數(shù)數(shù)量掩碼
為了確定每個模態(tài)需要選擇多少參數(shù),AMSS引入了互信息率來評估模態(tài)顯著性:

2.2.2 任務引導的參數(shù)掩碼準則
為了確定選擇哪些參數(shù),AMSS采用Fisher信息估計作為選擇準則。Fisher信息可以提供一個隨機變量攜帶關于分布參數(shù)的信息量的估計,并衡量參數(shù)的相對重要性。
第j個參數(shù)的Fisher信息可以表示為:

2.3 AMSS+:基于無偏估計的改進版本
為了進一步提高性能,研究人員提出了基于無偏估計的改進版本**AMSS+**。AMSS+使用不同的掩碼策略:


三、實驗結果:全面驗證有效性
研究人員在多個數(shù)據(jù)集上驗證了AMSS和AMSS+的有效性,包括Kinetics-Sound、CREMA-D、Sarcasm-Detection、Twitter-15和NVGesture等。
3.1 主要實驗結果
表1展示了不同梯度調(diào)制策略和強度下多模態(tài)聯(lián)合訓練模型的性能評估。結果表明,在大多數(shù)情況下,元素級調(diào)制策略優(yōu)于全局調(diào)制策略,甚至在某些情況下超過了當前最先進方法的性能。

表2展示了AMSS與其他最先進方法在四個數(shù)據(jù)集上的比較結果。從結果可以觀察到:
- 在Twitter-15和NVGesture數(shù)據(jù)集上,最佳單模態(tài)性能超過了多模態(tài)聯(lián)合學習。在其他數(shù)據(jù)集上,沒有重新平衡的融合方法相比最佳單模態(tài)性能提升有限,特別是在CREMA-D和Sarcasm-Detection數(shù)據(jù)集上。
- 所有模態(tài)重新平衡方法相比傳統(tǒng)的特征連接融合都有顯著提升,這不僅突顯了不平衡現(xiàn)象對性能的影響,也證實了模態(tài)重新平衡策略的有效性。
- AMSS/AMSS+在所有指標上始終優(yōu)于其他比較方法。在Kinetics-Sound/CREMA-D上,AMSS+的性能相比第二好的方法和Concat分別提高了5.15%/2.96%和7.70%/6.99%。
- 與僅限于兩種模態(tài)場景的模態(tài)重新平衡方法(如OGM-GE和Greedy)不同,AMSS可以解決涉及多種模態(tài)場景的挑戰(zhàn)。在NVGesture數(shù)據(jù)集評估中,AMSS+始終優(yōu)于其他為多種模態(tài)設計的方法。

3.2 復雜Transformer架構中的表現(xiàn)
為了評估AMSS/AMSS+方法在統(tǒng)一多模態(tài)Transformer架構中的有效性,研究人員在基于Transformer的融合架構(MBT)上進行了實驗。表4的結果顯示:
- 與CNN架構相比,模態(tài)不平衡方法在此架構上的效果有限。在復雜的跨模態(tài)交互場景中,某些模態(tài)不平衡方法甚至無效。
- 無論采用CNN架構還是復雜的多模態(tài)Transformer架構,AMSS+策略在幾乎所有指標上都保持了優(yōu)越性能,展示了該方法出色的適應性。
- 無論模型是否預訓練,都不影響AMSS+的性能,這種靈活性使得該方法可以無縫應用于各種場景。

基于Transformer架構的實驗結果
3.3 不同融合策略的探索
研究人員還探索了將AMSS/AMSS+與各種融合技術結合的效果。表5的結果顯示,無論是與特征級還是預測級融合方法結合,AMSS/AMSS+都能顯著提升其性能,突顯了AMSS策略在增強各種融合策略能力并緩解不同融合策略下模態(tài)不平衡問題方面的有效性。

不同融合方法與AMSS結合的結果
四、結論與意義
這項研究提出了一種創(chuàng)新的多模態(tài)學習方法——自適應掩碼子網(wǎng)絡(AMSS),通過元素級而非模態(tài)級的更新機制來解決多模態(tài)學習中的模態(tài)不平衡問題。研究的主要貢獻包括:
- 首次在多模態(tài)學習中采用元素級更新機制,通過AMSS方法精細刺激非主導模態(tài),緩解主導模態(tài)的抑制。
- 通過理論分析展示了子網(wǎng)絡更新策略在不平衡多模態(tài)學習中的有效性,并基于理論發(fā)現(xiàn)提出了基于無偏估計的新掩碼策略AMSS+。
- 在各種模態(tài)場景中進行了大量實驗,清晰地證明了精細子網(wǎng)絡優(yōu)化在實現(xiàn)多模態(tài)網(wǎng)絡平衡學習方面的有效性。
這項研究為解決多模態(tài)學習中的模態(tài)不平衡問題提供了新思路,其創(chuàng)新的元素級更新機制和基于無偏估計的改進版本AMSS+在多個數(shù)據(jù)集和架構上都表現(xiàn)出色,具有重要的理論意義和應用價值。未來,這一方法有望在更廣泛的多模態(tài)學習任務中發(fā)揮作用,推動多模態(tài)學習技術的進一步發(fā)展。
本文轉載自????AIGC深一度??,作者:一度

















