多模態(tài)大模型的實(shí)現(xiàn)原理，以及技術(shù)難點(diǎn) 原創(chuàng)

發(fā)布于 2024-8-9 20:20

瀏覽

0收藏

“ 多模態(tài)大模型的終點(diǎn)就是“人”，人就是最完美的多模態(tài)模型”

在上一篇文章中介紹了什么是多模態(tài)大模型，以及為什么需要多模態(tài)大模型；今天這里就來詳細(xì)了解一下多模態(tài)大模型的實(shí)現(xiàn)原理以及技術(shù)難點(diǎn)。

多模態(tài)大模型是支持多種模態(tài)數(shù)據(jù)的深度學(xué)習(xí)模型，與之對(duì)應(yīng)的是單模態(tài)模型；但因?yàn)閱文B(tài)模型存在很多缺陷，因此多模態(tài)大模型應(yīng)運(yùn)而生。

人就是最完美的多模態(tài)模型，而大模型的發(fā)展方向也是讓它越來越像“人”。

多模態(tài)大模型的思想與原理

多模態(tài)的思想是結(jié)合不同模態(tài)(文字，圖片，聲音等)的數(shù)據(jù)進(jìn)行聯(lián)合學(xué)習(xí)，從而提高模型的認(rèn)知能力。

其主要表現(xiàn)在以下三個(gè)方面：

信息互補(bǔ)性：不同模態(tài)的數(shù)據(jù)攜帶不同的信息，聯(lián)合學(xué)習(xí)能夠補(bǔ)足單一模態(tài)的缺陷

關(guān)聯(lián)性：多模態(tài)數(shù)據(jù)之間存在內(nèi)在聯(lián)系，學(xué)習(xí)這些聯(lián)系有助于提升模型的表現(xiàn)

通用性：通過學(xué)習(xí)多模態(tài)數(shù)據(jù)的通用表示，可以提升模型在多個(gè)任務(wù)上的泛化能力

多模態(tài)模型的核心原理

表示學(xué)習(xí)

通過專門的編碼器，將不同模態(tài)的數(shù)據(jù)轉(zhuǎn)換成統(tǒng)一的特征表示

單模態(tài)的表示學(xué)習(xí)負(fù)責(zé)將信息表示為計(jì)算機(jī)可以處理的數(shù)值向量或者進(jìn)一步抽象為更高層的特征向量，而多模態(tài)表示學(xué)習(xí)是指通過利用多種模態(tài)之間的互補(bǔ)性，剔除模態(tài)間的冗余性，從而學(xué)習(xí)到更好的特征表示。

多模態(tài)表示學(xué)習(xí)有兩大方向：聯(lián)合表示和協(xié)同表示

聯(lián)合表示是將多個(gè)模態(tài)的信息一起映射到一個(gè)統(tǒng)一的多模態(tài)向量空間

協(xié)同表示負(fù)責(zé)將多模態(tài)中的每個(gè)模態(tài)分別映射到各自的表示空間，但映射后的向量之間滿足一定的相關(guān)性約束(如線性相關(guān))

多模態(tài)大模型的實(shí)現(xiàn)原理，以及技術(shù)難點(diǎn) -AI.x社區(qū)

跨模態(tài)映射

跨模態(tài)映射是需要實(shí)現(xiàn)模態(tài)之間的映射，如圖像到文本的生成或者文本到圖像的生成；當(dāng)然還有其它很多種情況，如語音合成，機(jī)器翻譯等。

模態(tài)間的轉(zhuǎn)換主要有兩個(gè)難點(diǎn)，一個(gè)是open-ended，即未知結(jié)束位；例如在實(shí)時(shí)翻譯中，話還未說完的情況下，必須實(shí)時(shí)的對(duì)句子進(jìn)行翻譯；另一個(gè)是subjective，即主觀評(píng)判性，是指很多模態(tài)轉(zhuǎn)換問題的效果沒有一個(gè)客觀的評(píng)判標(biāo)準(zhǔn)。

對(duì)齊與融合

將不同模態(tài)的數(shù)據(jù)對(duì)齊，確保它們的語義一致性，并通過各種融合方法將數(shù)據(jù)整合在一起。

多模態(tài)的對(duì)齊負(fù)責(zé)對(duì)來自同一個(gè)實(shí)例的不同模態(tài)信息的子分支/元素尋找對(duì)應(yīng)關(guān)系；對(duì)齊可以是時(shí)間維度的也可以是空間維度的，比如圖片的語義分割。

多模態(tài)的融合是將各模態(tài)的特征表示進(jìn)行融合，常見的方法包括拼接，加權(quán)求和，注意力機(jī)制以及通過共享Transformer層進(jìn)行聯(lián)合編碼

多模態(tài)大模型的實(shí)現(xiàn)原理，以及技術(shù)難點(diǎn) -AI.x社區(qū)

融合

多模態(tài)融合有四種不同的情況，分別是特征級(jí)融合，決策級(jí)融合，混合級(jí)融合和模型級(jí)融合。

特征級(jí)融合：也稱為早起融合，是多模態(tài)識(shí)別系統(tǒng)最常用的策略。它表示在特征提取后把提取特征連接成單個(gè)高緯特征向量的方法，其主要用來剔除冗余信息。

決策級(jí)融合：也稱為后期融合，是在獲得基于每個(gè)模態(tài)的決策后，通過應(yīng)用多個(gè)預(yù)測(cè)標(biāo)簽的代數(shù)組合規(guī)則，對(duì)這些決策執(zhí)行集成步驟。

混合級(jí)融合：它是早起融合和后期融合兩種方式的結(jié)合，通過早期融合和單個(gè)模態(tài)預(yù)測(cè)的輸出相結(jié)合。混合級(jí)融合雖然解決了特征級(jí)與決策級(jí)融合的局限性，但本質(zhì)上并沒有解決問題。

模型級(jí)融合：該方法旨在獲得三種模態(tài)的聯(lián)合特征表示，它的實(shí)現(xiàn)主要取決于使用的融合模型。模型級(jí)融合是更深層次的融合方法，為分類和回歸任務(wù)產(chǎn)生更優(yōu)化的聯(lián)合判別特征表示。

多模態(tài)大模型的實(shí)現(xiàn)原理，以及技術(shù)難點(diǎn) -AI.x社區(qū)

技術(shù)實(shí)現(xiàn)

多模態(tài)大模型的技術(shù)實(shí)現(xiàn)主要有以下步驟：

數(shù)據(jù)預(yù)處理：將不同模態(tài)(文本，圖片，視頻)的數(shù)據(jù)進(jìn)行預(yù)處理，例如圖像的像素歸一化，文本的分詞處理。

狀態(tài)編碼器：使用專門的神經(jīng)網(wǎng)絡(luò)模型處理不同模態(tài)的數(shù)據(jù)，例如使用CNN或Vision Transformer處理圖像，用Transformer處理文本。類似于大模型知識(shí)庫(kù)的文本解析模塊，把文檔解析成向量保存到向量數(shù)據(jù)中，也需要使用文檔處理模型。

融合機(jī)制：將各模態(tài)的特征表示進(jìn)行融合，原理就是上面的模型融，有多種方式。

訓(xùn)練過程：使用多模態(tài)數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練，常見的損失函數(shù)包括分類損失，回歸損失和對(duì)比學(xué)習(xí)損失等。

模型架構(gòu)：比如openAI的CLIP模型通過同時(shí)處理圖像和文本，學(xué)習(xí)它們之間的語義關(guān)系。

總結(jié)

多模態(tài)大模型是目前大模型廠商主要的研究方向，其實(shí)現(xiàn)過程困難且復(fù)雜；雖然具有很多優(yōu)勢(shì)，但同樣也具有很多的問題。比如對(duì)計(jì)算資源的需求要遠(yuǎn)大于單模型的需求，其次多模態(tài)數(shù)據(jù)的對(duì)齊與標(biāo)注同樣是一個(gè)難題，最后就是跨模態(tài)的理解與生成，仍然是一個(gè)研究熱點(diǎn)。

本文轉(zhuǎn)載自公眾號(hào)AI探索時(shí)代作者：DFires

原文鏈接：??https://mp.weixin.qq.com/s/i-paWY0Db6-sSDqaA0EWiA??

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請(qǐng)注明出處，否則將追究法律責(zé)任

標(biāo)簽

多模態(tài)大模型

贊

回復(fù)