多模態(tài)大模型的實(shí)現(xiàn)原理,以及技術(shù)難點(diǎn) 原創(chuàng)
“ 多模態(tài)大模型的終點(diǎn)就是“人”,人就是最完美的多模態(tài)模型”
在上一篇文章中介紹了什么是多模態(tài)大模型,以及為什么需要多模態(tài)大模型;今天這里就來詳細(xì)了解一下多模態(tài)大模型的實(shí)現(xiàn)原理以及技術(shù)難點(diǎn)。
多模態(tài)大模型是支持多種模態(tài)數(shù)據(jù)的深度學(xué)習(xí)模型,與之對(duì)應(yīng)的是單模態(tài)模型;但因?yàn)閱文B(tài)模型存在很多缺陷,因此多模態(tài)大模型應(yīng)運(yùn)而生。
人就是最完美的多模態(tài)模型,而大模型的發(fā)展方向也是讓它越來越像“人”。
多模態(tài)大模型的思想與原理
多模態(tài)的思想是結(jié)合不同模態(tài)(文字,圖片,聲音等)的數(shù)據(jù)進(jìn)行聯(lián)合學(xué)習(xí),從而提高模型的認(rèn)知能力。
其主要表現(xiàn)在以下三個(gè)方面:
信息互補(bǔ)性:不同模態(tài)的數(shù)據(jù)攜帶不同的信息,聯(lián)合學(xué)習(xí)能夠補(bǔ)足單一模態(tài)的缺陷
關(guān)聯(lián)性:多模態(tài)數(shù)據(jù)之間存在內(nèi)在聯(lián)系,學(xué)習(xí)這些聯(lián)系有助于提升模型的表現(xiàn)
通用性:通過學(xué)習(xí)多模態(tài)數(shù)據(jù)的通用表示,可以提升模型在多個(gè)任務(wù)上的泛化能力
多模態(tài)模型的核心原理
表示學(xué)習(xí)
通過專門的編碼器,將不同模態(tài)的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的特征表示
單模態(tài)的表示學(xué)習(xí)負(fù)責(zé)將信息表示為計(jì)算機(jī)可以處理的數(shù)值向量或者進(jìn)一步抽象為更高層的特征向量,而多模態(tài)表示學(xué)習(xí)是指通過利用多種模態(tài)之間的互補(bǔ)性,剔除模態(tài)間的冗余性,從而學(xué)習(xí)到更好的特征表示。
多模態(tài)表示學(xué)習(xí)有兩大方向:聯(lián)合表示和協(xié)同表示
聯(lián)合表示是將多個(gè)模態(tài)的信息一起映射到一個(gè)統(tǒng)一的多模態(tài)向量空間
協(xié)同表示負(fù)責(zé)將多模態(tài)中的每個(gè)模態(tài)分別映射到各自的表示空間,但映射后的向量之間滿足一定的相關(guān)性約束(如線性相關(guān))

跨模態(tài)映射
跨模態(tài)映射是需要實(shí)現(xiàn)模態(tài)之間的映射,如圖像到文本的生成或者文本到圖像的生成;當(dāng)然還有其它很多種情況,如語音合成,機(jī)器翻譯等。
模態(tài)間的轉(zhuǎn)換主要有兩個(gè)難點(diǎn),一個(gè)是open-ended,即未知結(jié)束位;例如在實(shí)時(shí)翻譯中,話還未說完的情況下, 必須實(shí)時(shí)的對(duì)句子進(jìn)行翻譯;另一個(gè)是subjective,即主觀評(píng)判性,是指很多模態(tài)轉(zhuǎn)換問題的效果沒有一個(gè)客觀的評(píng)判標(biāo)準(zhǔn)。
對(duì)齊與融合
將不同模態(tài)的數(shù)據(jù)對(duì)齊,確保它們的語義一致性,并通過各種融合方法將數(shù)據(jù)整合在一起。
多模態(tài)的對(duì)齊負(fù)責(zé)對(duì)來自同一個(gè)實(shí)例的不同模態(tài)信息的子分支/元素尋找對(duì)應(yīng)關(guān)系;對(duì)齊可以是時(shí)間維度的也可以是空間維度的,比如圖片的語義分割。
多模態(tài)的融合是將各模態(tài)的特征表示進(jìn)行融合,常見的方法包括拼接,加權(quán)求和,注意力機(jī)制以及通過共享Transformer層進(jìn)行聯(lián)合編碼

融合
多模態(tài)融合有四種不同的情況,分別是特征級(jí)融合,決策級(jí)融合,混合級(jí)融合和模型級(jí)融合。
特征級(jí)融合:也稱為早起融合,是多模態(tài)識(shí)別系統(tǒng)最常用的策略。它表示在特征提取后把提取特征連接成單個(gè)高緯特征向量的方法,其主要用來剔除冗余信息。
決策級(jí)融合:也稱為后期融合,是在獲得基于每個(gè)模態(tài)的決策后,通過應(yīng)用多個(gè)預(yù)測(cè)標(biāo)簽的代數(shù)組合規(guī)則,對(duì)這些決策執(zhí)行集成步驟。
混合級(jí)融合:它是早起融合和后期融合兩種方式的結(jié)合,通過早期融合和單個(gè)模態(tài)預(yù)測(cè)的輸出相結(jié)合。混合級(jí)融合雖然解決了特征級(jí)與決策級(jí)融合的局限性,但本質(zhì)上并沒有解決問題。
模型級(jí)融合:該方法旨在獲得三種模態(tài)的聯(lián)合特征表示,它的實(shí)現(xiàn)主要取決于使用的融合模型。模型級(jí)融合是更深層次的融合方法,為分類和回歸任務(wù)產(chǎn)生更優(yōu)化的聯(lián)合判別特征表示。

技術(shù)實(shí)現(xiàn)
多模態(tài)大模型的技術(shù)實(shí)現(xiàn)主要有以下步驟:
數(shù)據(jù)預(yù)處理:將不同模態(tài)(文本,圖片,視頻)的數(shù)據(jù)進(jìn)行預(yù)處理,例如圖像的像素歸一化,文本的分詞處理。
狀態(tài)編碼器:使用專門的神經(jīng)網(wǎng)絡(luò)模型處理不同模態(tài)的數(shù)據(jù),例如使用CNN或Vision Transformer處理圖像,用Transformer處理文本。類似于大模型知識(shí)庫(kù)的文本解析模塊,把文檔解析成向量保存到向量數(shù)據(jù)中,也需要使用文檔處理模型。
融合機(jī)制:將各模態(tài)的特征表示進(jìn)行融合,原理就是上面的模型融,有多種方式。
訓(xùn)練過程:使用多模態(tài)數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練,常見的損失函數(shù)包括分類損失,回歸損失和對(duì)比學(xué)習(xí)損失等。
模型架構(gòu):比如openAI的CLIP模型通過同時(shí)處理圖像和文本,學(xué)習(xí)它們之間的語義關(guān)系。
總結(jié)
多模態(tài)大模型是目前大模型廠商主要的研究方向,其實(shí)現(xiàn)過程困難且復(fù)雜;雖然具有很多優(yōu)勢(shì),但同樣也具有很多的問題。比如對(duì)計(jì)算資源的需求要遠(yuǎn)大于單模型的需求,其次多模態(tài)數(shù)據(jù)的對(duì)齊與標(biāo)注同樣是一個(gè)難題,最后就是跨模態(tài)的理解與生成,仍然是一個(gè)研究熱點(diǎn)。
本文轉(zhuǎn)載自公眾號(hào)AI探索時(shí)代 作者:DFires
原文鏈接:??https://mp.weixin.qq.com/s/i-paWY0Db6-sSDqaA0EWiA??

















