精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) 原創 精華

發布于 2024-5-24 13:15
瀏覽
0收藏

我在專欄[大語言模型的技術原理和應用]中介紹了大語言模型(LLM)原理和應用,LLM對語言建模,輸入輸出都是文本,屬于單模態模型。

LLM的出現讓人們看到了AGI的希望,但要實現AGI,就要讓機器像人類一樣實現多種感官協作,所以多模態是AGI必經之路。從今天開始我們將進入多模態領域。openAI剛剛發布的GPT-4o就是一種多模態大模型。

一、初識多模態大模型

1.1多模態大模型定義

所謂“多模態”簡單來講就是模型能夠處理多種數據模態,例如,文本、圖像、視頻、音頻等。

因為視頻是由多幀圖像組成,音頻轉化為頻譜圖后也可以看作是一種特殊的圖像,所以多模態主要關注圖像和文本這兩種數據模態。

*openAI的文生視頻模型Sora,則是將圖像看作是一種特殊的視頻*

所謂“大模型”是相對傳統機器學習模型而言的,傳統機器學習模型使用特定數據完成特定任務,一旦訓練完成很難泛化到其它任務,大模型是在海量數據下進行預訓練使其具備通用能力,然后通過微調完成某一個任務。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區

1.2多模態任務類型

了解完多模態大模型的定義,接下來看看多模態大模型到底能干什么。這也是學好多模態以及能夠順利讀完后續內容的重要前提。


GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區

多模態任務大體可以分為理解生成兩大類。

圖文檢索,即給定文本或者圖片,檢索出與之匹配的圖片或文本。本質上就是分類任務,在這個過程中沒有新內容生成,只是基于輸入做出判斷,所以被視為理解型任務,

視覺推理、視覺問答都是圖生文任務,與之對應的是文生圖任務,像這種有新內容生成的則被視為生成型任務。

文生圖,例如,Stable Diffusion和DALL-E,輸入一段描述文字,模型輸出一張圖片。

圖生文,例如,視覺問答,輸入一張圖片,再輸入一個問題,模型輸出答案。

除此之外,多模態還有很多應用,文生視頻、Lanuguage Guided Detection、Lanuguage Guided Segmentation等等。

1.3多模態大模型在線體驗

理解這些任務類型的最好方式就是親身體驗一下,這里給大家介紹幾個在線體驗的網址。

GPT-4o:OpenAI,受限免費
https://chatgpt.com/
Gemini 1.5 pro: Google 免費
https://aistudio.google.com/app/prompts/new_chat
騰訊混元大模型:騰訊,免費
https://hunyuan.tencent.com/bot/chat

為了測試到底哪家強?我決定考考它們,讓它們分析下面圖片中的四面體有幾個三角形?還是有點難度的,要識別三角形,就得能識別出這是個多面體,要識別多面體,就得能區分實現和虛線的意義,并且還得排除由于圖像質量引起的鋸齒干擾。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區

下面分別是它們的回答。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區

目前看,還是GPT-4o略勝一籌。

二、多模態大模型結構

人腦可以同時處理多種模態輸入,并且各種模態起到相互輔助理解的作用,人類大腦皮層中的不同功能區負責處理不同的信號,在多模態大模型中,處理不同的數據模態,也需要不同的模型架構。

*題外話:馬斯克的腦機接口就是將極細的電極一端插入到控制行為的大腦皮層中,將收集到的信號傳送給機械設備替代人類完成動作,或者跳過壞死的脊柱,將電極另一端連接到完好的脊柱上進行信號傳遞*

如果有圖片輸入,則需要有能理解圖像的組件,我們稱之為圖像編碼器;如果有文本輸入,則需要有能理解文本的組件,我們稱之為文本編碼器;如果有圖片輸出,則需要有能生成圖像的組件,我們稱之為圖像解碼器;如果有文本輸出,則需要有能生成文本的組件,我們稱之為文本解碼器。

*對于解碼器,有的地方也會叫生成器*

以視覺問答為例,它是一種圖生文任務,輸入是圖像,還會輸入一個問題,輸出是文本。

2.1圖像編碼器

圖像編碼器負責提取視覺表征,也就是理解圖像上有什么。無論是CV中的圖像分類、目標檢測、圖像分割,表征提取都是必要步驟,甚至可以說深度學習其實就是表征學習。

*題外話:如果你去相親,回來后父母問你對方怎么樣?你說濃眉大眼櫻桃口,這就是一種外貌表征,就算只有一面之緣,過了很久再次碰到你也能瞬間認出,這是視覺提取表征后與記憶匹配了。*

能夠提取圖像特征的,首先想到的肯定是卷積神經網絡CNN,圖像經過卷積層后輸出特征圖,在淺層網絡(靠近輸入端)會提取一些具體的特征,例如邊緣、角點或簡單的紋理,隨著層數的加深,特征會變得抽象。如物體的整體形狀和結構。

在NLP中,當Transformer處理一個單詞時,它會計算這個單詞與其它所有詞的注意力分數,而CNN只會考慮卷積核范圍內的像素,即使特征圖的感受野會隨著層數增加越來越大,但CNN仍是局部注意力,而Transformer則是全局注意力,全局注意力能更好的提取圖像特征。

隨著Transformer在NLP中取得成功,有人將這種架構遷移到了CV領域,就有了ViT(Vision Transformer)。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區

ViT

除了模型架構,成為大模型的另一個因素是能在大規模語料上預訓練,有人將NLP中的預訓練方法照搬到了CV中,在NLP中,BERT在預訓練時會將句子中的單詞進行隨機掩碼,通過反向傳播調整模型參數,讓模型去準確預測出掩碼的token,ViT則是將圖像劃分為patches,再對patches進行隨機掩碼,然后讓模型去預測缺失部分,這個過程是自監督的。

但是在ViT之前,CV中使用的是另一種更常用的預訓練方法,就是先在ImageNet這種大規模數據上預訓練,讓模型學習到一些提取基本特征的能力,然后在專用數據上進行微調。

總結一下,圖像編碼器通常采用ViT架構,并且采用掩碼的方式預訓練。

2.2文本編碼器

對于VQA任務,還會輸入一個問題,所以還需要文本編碼器對文本進行表征提取,文本編碼器通常采用Tranformer Encoder架構,因為Encoder在處理每個token時會考慮所有詞,所以擅長理解任務。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區

對文本編碼到底是什么意思?這個我在動畫講解Tranformer一,動畫講解Tranformer二中講的很清楚了。

舉個例子,“一個棕色的臘腸狗”,在進入Transformer編碼器前,先轉換成Tokens,假設基于詞的Tokenlization,{“一個”,“棕色的”,“臘腸狗”},然后轉換成詞嵌入,假設詞嵌入維度為2,假設采用word2vec進行初始化{(0.1,0.2),(0.3,0.4),(0.5,0.6)},經過多頭注意力和MLP后輸出{(0.1,0.2),(0.3,0.4),(0.48,0.56)},“臘腸狗”的詞嵌入被修改了,新的詞嵌入具有了棕色臘腸的含義了。這里我們假設詞嵌入一個維度編碼了狗的品種,第二個維度則編碼了顏色。而最初那個詞嵌入,也就是在這個二維空間中(0.5,0.6)這個點則表示狗。

這里我們僅使用了2維的詞嵌入,GPT3的詞嵌入維度是12288,12288維度空間能表達很豐富的語義信息,人類很難想象高維度空間,因為借助計算機也只能顯示三維空間,對于這個例子,在12288維空間中,別說是“棕色的臘腸狗”就算是“脾氣暴躁棕色的臘腸狗”,““脾氣暴躁棕色皮毛藍色眼睛的臘腸狗””等等,即使添加多個修飾詞也都能在這個高維空間中找到對應的點。

*將Token轉換成詞嵌入,通常LLM會有一個嵌入層,也就是一個矩陣,我叫它詞嵌入轉換表,矩陣的高度是訓練數據中所有唯一詞的個數,矩陣的寬度是詞嵌入維度,根據token id去查找這個表就能獲取詞嵌入向量了,這個表中的值在訓練開始時是隨機初始化的,并在訓練過程中進行更新*

2.3文本解碼器

VQA任務的輸出也是文本,這個任務由文本解碼器來完成,文本解碼器通常采用Tranformer Decoder架構,因為這種自回歸模型擅長文本生成,一個典型的例子就是GPT。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區

對于預測下一個詞,一開始是用統計學的方法實現的,如果訓練數據中出現“臘腸狗”的次數比較多,那么,當出現“臘腸”時,模型很可能就會預測下一個詞是“狗”,這個例子是通過前面兩個詞預測下一個詞,也可以通過前面一個詞預測下一個詞,這個被稱為多元文法,當然也可以通過前后兩個詞預測中間詞,當給出“臘”和“狗”時,很容易預測中間詞是“腸”,你發現沒,BERT和GPT的預訓練方法跟這個很像啊!。

2.4多模態融合

多模態融合的目的是,讓圖像編碼器對一幅狗的圖像的編碼輸出和文本編碼器對“一只狗”的編碼輸出不僅維度相同,而且在向量空間中越接近越好。否則你干你的,我干我的,就沒辦法將多模態融合在一起。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區

當獲得了這只臘腸狗的圖像編碼后,讓它分別與“一只臘腸狗”,“一只加菲貓”等的文本編碼進行相似度計算,就能夠實現圖像分類和檢索的任務。

如果將圖像編碼作為文本解碼器交叉注意力模塊的K,V,“what is in the picture?”作為文本解碼器交叉注意力模塊的Q,就實現了一個視覺問答任務。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區

而如果圖像編碼與“一只棕色臘腸狗在草坪上玩耍”更接近,這就實現了更深層次融合,這對于視覺問答和推理這種生成任務更友好。

2.5圖像解碼器

VAE,GAN,Stable Diffusion將在下一篇文章介紹。

多模態大模型的發展過程中,圖像編碼器,文本編碼器,文本解碼器比較穩定,基本上就是ViT和Transformer,主要變化的是多模態融合模塊,下面就來看一下多模態發展史。

三、多模態發展史

CLIP:Learning Transferable Visual Models From Natural Language Supervision(2021)

??https://arxiv.org/pdf/2103.00020??

我們都知道,機器學習分為監督學習、無監督學習、強化學習。而在多模態領域,更確切地說在多模態的開山之作CLIP中又提出了一個叫做對比學習的概念,對比學習是一種自監督學習方法,也是一種特殊的無監督學習方法。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區

對比學習最重要的是要構造正負樣本對

拿ImageNet為例,每一張圖像和它的標簽就是一個正樣本對,和其它標簽就是負樣本,一幅狗的圖像和“a dog”就是正樣本,從不同角度拍攝的狗的圖像和“a dog”也是正樣本,但和“a cat”就是負樣本。

在訓練過程中,CLIP通過對比學習不僅將圖像和文本編碼統一到一個向量空間中,而且通過對比損失函數調整模型參數,讓正樣本的距離拉進,同時負樣本的距離疏遠。

距離的衡量是通過計算向量的余弦夾角也就是向量的點乘。

那如何獲取整個句子或者整個圖片的編碼呢?我們都知道編碼器輸出每個單詞的詞嵌入,答案是CLS token,它編碼了整個句子,或者更直接的將所有詞的向量加權平均。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區

圖像編碼器:ResNet或者ViT

文本編碼器:Tranformer

對比學習充當了多模態融合的作用。

經過預訓練后的CLIP可以直接用于zero shot分類任務,將閉集模型擴展到開集模型,將標簽替換成語言。例如,ImageNet分類。給一張圖像,先用圖像編碼器提取特征,然后構造文本a photo of{class},并用文本編碼器編碼,計算余弦相似度,找到相似度最大的類別。

CLIP還有一個好處是可以提前計算好圖像和文本的編碼并存儲起來,當來一個新的圖像和文本時,可以直接拿出來用,并不需要重新計算。

所以,CLIP對于圖文檢索任務特別友好。

道有所能,則必有所不能,通過簡單的向量點乘實現多模態融合對檢索任務非常友好,但對于生成任務就有點力不從心了。

從此進入了融合能力提升時代,也就是需要一個更復雜的多模態融合模塊。

ViLT:Vision-and-Language Transformer Without Convolution or Region Supervision(2021)

??https://arxiv.org/pdf/2102.03334??

ViLT首先在模型結構上做了改進,在ViT出現之前,圖像編碼器用的是CNN,具體來說是一個目標檢測模型或者直接使用像ResNet這樣的骨干網絡提取特征,無論對于訓練還是推理效率都很低。所以ViLT文本編碼器和圖像編碼器使用簡單的線性映射層。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區

ViLT另一大貢獻是改進了CLIP的缺點,也就是強化了多模態融合模塊,來增強多模態融合能力。所以,ViLT使用Transformer Encoder作為融合模塊。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區

正是由于ViLT模型圖像編碼器過于簡單,使其跟復雜的視覺文本編碼器的模型比,效果不理想。而且實驗證明,其訓練過程中模型收斂的也很慢。

在損失函數上,ViLT沒有使用CLIP中的ITC(Image-Text Contrast)損失函數,而是使用了ITM(Image Text Matching)損失函數和MLM(Masked Language Modeling)損失函數,還有一個Word Patch Alignment損失函數。

MLM損失函數:

對于一個Transformer Encoder模型,例如Bert,在預訓練過程中會通過對序列中的token進行掩碼方式進行預訓練,讓模型預測缺失的被掩碼token,這個損失函數也是評估模型的這個能力的。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區

ITM損失函數:

如上圖,BERT編碼器有個CLS Token,這個損失函數用于判斷圖文匹配程度。通過最小化這個損失函數來達到融合的目的。

雖然ViLT沒有達到預期,但在ViLT這篇論文中,對多模態模型也進行了經驗性總結,也為后續模型發展定下了基調。也就是在模型結構上視覺編碼器要比文本編碼器大,而且模態融合也要強,不能只是簡單的使用向量余弦夾角。

對于損失函數,ITC,ITM和MLM這三個也被認定是最有效的。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區

為什么視覺編碼器要比文本編碼器大?

文字是人造的,圖像是自然的,每個詞包含的語義信息要比圖像的單個像素更豐富,你可以做個實驗,你把文本和圖像都做隨機遮擋,把圖像遮擋80%仍可分析圖像中的是什么,但文本就做不到了。

從此之后,多模態大模型朝著大一統的方向發展。

模型結構上的統一,例如,都使用無論視覺編碼器,文本編碼器還是多模態融合編碼器,都統一使用Transformer架構。

任務上的統一,用同一個模型完成理解和生成任務,圖文檢索,分類,VR,VE,VQA等。

ALBEF:Align before Fuse: Vision and Languag Representation Learning with Momentum Distillation(2021)

??https://arxiv.org/pdf/2107.07651??

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區

ALBEF模型符合我們在ViLT中對一個好的多模態模型的定義,就是視覺編碼器要比文本編碼器強,多模態融合能力要強,并且模型既能很好的用于圖文檢索又能用于生成任務。

但有人會問了,生成任務是需要解碼器的,可到目前為止用的都是Transformer編碼器啊,而且編碼器也主要用于多模態融合任務。

那是如何實現VQA的?

其實也可以變相實現的,我們稱之為閉集VQA。

在此之前,先來說一下如何使用Bert實現問答,本質上就是將其轉換成一個分類任務,例如將CLS Embedding后面加一個多分類模型,或者將問題和一個上下文一起發給Bert,然后通過一個二分類預測答案在上下文中的起始位置和結束位置。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區

對于VQA而言,也可以看作一個分類任務,也就是事先準備好答案,例如一共10個答案,然后將圖像編碼作為交叉注意力模塊的K,V,問題作為Q,然后將融合模塊的CLS token的輸出輸入到一個10分類MLP中。

但這種方法的缺點顯而易見了,不夠靈活,后面我們會看到將使用帶有Transformer解碼器的模型,這類模型就能夠靈活的生成文本了。

ALBEF全部采用Transformer架構,圖像編碼器有12層,將另一個12層的Transformer編碼器拆開,一半用于文本編碼,一半用于多模態融合。視覺編碼器要比文本編碼器復雜,使用編碼器作為融合模塊,這都符合前面對于“一個合理的多模態大模型”的預期。

視覺編碼器會使用DeiT預訓練模型,文本編碼器和融合模塊用Bert預訓練模型參數進行初始化,如果直接將視覺文本特征送入融合模塊,效果不會很好,因為他們不是對齊的,所以在進入融合模塊之前,先采用前面提到的對比學習進行多模態對齊。

損失函數同樣使用了ITC,MLM和ITM。

從網上爬下來的圖像文本對往往帶有很嚴重的噪聲,例如,華山的宣傳畫,描述的是青山綠水,有人嬉戲玩耍,但為了提高檢索率,往往只會用華山等關鍵詞。但關鍵詞往往不能描述圖像中的內容,所以使用Momentum Model去生成為標簽,本質上就是為了生成高質量的訓練數據。

VLMO: Unified Vision-Language Pre-Training with Mixture-of-Modality-Experts(2022)

??https://arxiv.org/pdf/2111.02358??

前面的CLIP是一種雙塔對偶結構,一個圖像編碼器和一個文本編碼器,然后采用向量點乘實現模態之間的交互,好處是可以預先計算所有圖文的向量,來加快圖文檢索任務。但缺點也很明顯,不善于生成任務。

為了增強融合能力以適應生成任務,后續都是單塔模型,將一個Transformer分成兩部分,一部分用于文本編碼器,另一部分用于多模態編碼器,雖然提升了融合能力,但不靈活,對于圖文檢索任務,需要計算Transformer Encoder融合編碼器的相似度分數,但這對圖文檢索不友好。

那能不能把雙塔和單塔的優點結合起來呢?既能單獨用來對文本視覺編碼,又能融合。

所以VLMO中提出了混合專家模型(MOE)

(對于MOE,這是一種思想,大家可以回想下傳統機器學習中的集成學習,在VLMO中,不同專家能夠處理不同的數據模態,架構不同,還有一種MOE思想是采用同一種架構,但每個專家去學習不同領域的知識,例如,馬斯克開源的Grok大模型)

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區

MOME整體上就是一個Transformer Encoder結構,這實現了模型架構上的統一,但是對Transformer Block里面做了改動,主要是對MLP層做了改動,多頭注意力層共享參數。其MLP層劃分為三種模態專家,分別是視覺專家(V-FFN)用于圖像編碼,語言專家(L-FFN)用于文本編碼,以及視覺-語言專家(VL-FFN)用于圖像-文本融合。

訓練時,也是迭代進行,先像BEiT那樣視覺預訓練,然后,凍結MSA和V-FFN參數,再像BERT那樣文本預訓練,最后輸入圖像文本對視覺語言預訓練。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區

VLMO不僅實現了模型架構上的統一,而且也實現了任務上的統一,既能像CLIP那樣實現圖文檢索,也能處理生成任務。

BeiT v3:Image as a Foreign Language: BEIT Pretraining for  All Vision and Vision-Language Tasks(2022)

??https://arxiv.org/pdf/2208.10442??

以前我們使用ViT作為圖像編碼器,使用Transformer處理文本,兩者本質上還是不同的,為了實現大一統,能不能把圖像也看做是一種特殊的語言?

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區

多模態繼續朝大一統的方向努力。

BEiT-3出現了,它將圖像看作是一種特殊的語言(Imglish)。

它與VLMO在模型架構上很類似,也使用了MoE架構,所以可以適用于不同下游任務,例如,a和b中用于分別編碼圖像和文本,c中用于視覺和文本融合,d中類似CLIP的對比學習,以及e中的文本生成。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區

損失函數不需要ITM和ITC,只要MLM損失。

但前面我們也說過,只有編碼器的模型在處理生成任務上是不靈活的,接下來我們將看到帶有Transformer解碼器的模型,這類模型就能夠靈活的生成文本了。

BLIP: Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation(2022)

??https://arxiv.org/pdf/2201.12086??

BLIP這篇論文有兩個貢獻點,一個是從模型,二個是數據。

前面提到的這些模型只使用了Transformer Encoder,適合理解任務,不能直接用于生成任務。這時候需要加一個Decoder模塊。并且提出了一個統一的模型來處理不同的任務。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區

BLIP包括三個編碼器和一個解碼器,編碼器負責編碼圖像和文本,解碼器負責根據編碼器的輸出生成文本。

損失函數ITC和ITM,LM。通過ITC損失函數對齊圖像和文本;圖像編碼特征通過交叉注意力與文本特征融合。生成多模態特征,通過image-ground Text encoder去計算ITM損失。因為是Transformer Decoder,用于文本生成,而不是預測掩碼,所以損失函數由MLM變成了LM。

注意,顏色相同的模塊參數是共享的。圖片經歷一次前向過程,文本需要經歷三次。

在數據上,提升預訓練數據質量對于多模態性能提升很重要,但從網上下載的圖像文本對有噪音,還是通過有個方法提升訓練數據質量。論文提出了Captioner和Filter。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區

如上圖,從互聯網爬下來的圖像描述是“blue sky bakery in sunset park”,這句話更適合搜索引擎,并沒有很好的描述圖片。

下面是Captioner模塊根據圖片生成的文本描述,很好的描述了圖片中的內容。Filter則會判斷是互聯網上爬的好還是Cap生成的好,最后過濾掉質量不好的。

具體過程是,Cap中用最大的BLIP模型生成40描述,Filter中用CLIP檢索出質量最好的5個。再用CLIP ResNet找到最好的。

CoCa:Contrastive Captioners are Image-Text Foundation Models(2022)

??https://arxiv.org/pdf/2205.01917??

與ALBEF很像,一個圖像編碼器,一個Transformer decoder分兩半。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區

只使用Decoder,只使用ITC和LM損失,解決訓練效率問題。其它模型都要forward好幾次。

Flamingo: a Visual Language Model for Few-Shot Learning(2022)

??https://arxiv.org/pdf/2204.14198??

當前大語言模型就有很強的語言理解和生成能力,具有in context few-shot推理能力,那能不能利用這些LLM資源呢?

Flamingo借鑒LLM的Few-Shot推理能力,使其善于VR VE VQA等生成任務。

視覺編碼器也是用預訓練好的ViT模型,例如BeiT,如果訓練過程中參數保持不變,直接將視覺編碼器的輸出給LLM肯定不是對齊的,那如何實現多模態的融合?

要么微調ViT的參數,要么中間加一個Adapter。

Flamingo選擇凍結大語言模型以及視覺預訓練模型參數,然后通過加一個Adapter實現模態之間的對齊。

從此進入大語言模型加持時代。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區

視覺問答

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區

下圖是Flamingo的模型結構,藍色的模型參數是凍結的。

視覺編碼器是一個預訓練的ResNet。

Perceiver Resampler就是Adapter,將ResNet的輸出特征映射成視覺tokens。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區

GATED XATTN-DENSE layers:類似交叉注意力,視覺tokens作為LLM的條件輸入。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區


BLIP-2: Bootstrapping Language-Image Pre-training  with Frozen Image Encoders and Large Language Models(2023)

??https://arxiv.org/pdf/2301.12597??

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區

BLIP-2與BLIP相比,也是引入了LLM,總體上就是圖像編碼器提取圖像表征,然后將表征與用戶Query一起輸入到類似GPT的大語言模型,然后以自回歸的方式生成文本。這里圖像的表征,就像是RAG中的上下文,也就是告訴大語言模型,要基于圖像表征的內容,針對我的問題給出答案。

BLIP2同樣凍結了圖像編碼器和LLM的參數,然后讓Querying Transformer充當Adapter的角色。

預訓練分兩個階段,第一個階段,視覺文本表示學習,讓Querying Transformer學習到的視覺表示與文本靠近,第二階段讓LLM理解Querying Transformer的輸出。這兩個過程都是調節Querying Transformer的參數,其它都是凍結參數的。

下圖是第一階段訓練過程。輸入圖像文本對,損失函數ITC,ITM以及ITG。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區

下圖是第二階段預訓練,全連接層的目的是將Q-Former的輸出維度調整到LLM的輸入維度。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區


同樣使用Cap Filter模塊去除互聯網數據的噪聲,生成質量更好的圖像文本對。

上述模型雖然是多模態,但大多聚焦在文本和圖像,下面的模型能夠處理,語音,點云,紅外線,射線,圖,時序,視頻,是真正意義上的多模態。

IMAGEBIND: One Embedding Space To Bind Them All(2023)

??https://arxiv.org/pdf/2305.05665??

ImageBind的核心思想是,雖然有多種數據模態,如果實現兩兩對齊很復雜,如果能找到一個中間人,也就是Image,讓其它模態與Image對齊,那么其它模態間也就能實現對齊了。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區

Meta-Transformer: A Unified Framework for Multimodal Learning (2023)

??https://arxiv.org/pdf/2307.10802??

前面所有模型都需要構造圖像文本對,Meta-Transformer不需要構造多模態輸入配對訓練數據,它通過Data-to-Sequence Tokenization將不同模態映射到同一個嵌入空間,然后通過Unified Encoder提取表征,最后通過Task-Specific Heads處理不同任務,Meta-Transformer雖然不需要配對多模態數據,但需要與任務相關的標簽信息來訓練模型。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區

下圖是Meta-Transformer與其它模型的對比。

GPT-4o熱潮來襲:探索圖生文本的奧秘(多模態大模型系列之一) -AI.x社區



本文轉載自公眾號人工智能大講堂 

原文鏈接:??https://mp.weixin.qq.com/s/-7bEdhR3FXmWRCpDO56Ung??

?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
日韩欧美精品网址| 国产成人免费视频| 久久精品国产精品| 国产乱淫av麻豆国产免费| 最近中文字幕免费mv2018在线| 国内一区二区在线| 911国产网站尤物在线观看| 久久久久久九九九九九| 亚洲精品成人一区| 午夜精品久久久久久久久| 日韩免费av一区二区三区| 波多野结衣激情视频| 最新精品国产| 国产视频精品久久久| 视频在线观看免费高清| 黄色的视频在线观看| 国产亚洲欧美一级| 99一区二区| 探花视频在线观看| 欧美.日韩.国产.一区.二区| 亚洲精品丝袜日韩| 成人一区二区三区仙踪林| 日韩av大片站长工具| 亚洲欧洲综合另类| 亚洲国产精品久久久久婷婷老年 | 久久神马影院| 日韩av在线影院| 涩多多在线观看| 三上悠亚激情av一区二区三区 | 日韩av网站大全| 在线一区二区不卡| 美女网站视频一区| 午夜a成v人精品| 青草全福视在线| yourporn在线观看视频| 成人av免费观看| 91超碰rencao97精品| 中文字幕日本视频| 香蕉国产精品偷在线观看不卡| 另类少妇人与禽zozz0性伦| 熟女少妇内射日韩亚洲| 天天久久夜夜| 日韩av综合中文字幕| av不卡中文字幕| 欧美二区观看| 日韩欧美一区中文| 交换做爰国语对白| 精品国产一区二区三区性色av | 久久99爱视频| 精品视频在线一区二区在线| 色综合天天综合狠狠| 欧美,日韩,国产在线| 日本片在线观看| 一区二区不卡在线播放| 日韩精品第1页| 成年人网站在线| 亚洲精品成人悠悠色影视| 91免费视频黄| a级网站在线播放| 一区二区三区在线视频免费观看| 精品少妇人妻av一区二区| 欧美一区二区三区| 亚洲天堂2016| 久久人妻无码一区二区| 欧美理论片在线播放| 一区二区三区.www| 久久人人爽人人爽人人av| 人人超在线公开视频| 亚洲一卡二卡三卡四卡五卡| www.日本在线视频| 国产亚洲成av人片在线观看| 午夜精品久久久久久久久久| 日韩视频第二页| 精品网站在线| 欧美精品自拍偷拍动漫精品| 激情图片中文字幕| 欧美午夜在线播放| 亚洲激情电影中文字幕| 亚洲一区二区观看| 日韩成人影院| 欧美老女人性视频| 圆产精品久久久久久久久久久| 国产情侣一区| 国产精品一区=区| jizz中国女人| 97se亚洲国产综合自在线观| 热re99久久精品国99热蜜月| 日韩免费网站| 亚洲国产成人av网| 国产综合免费视频| 99精品视频在线免费播放| 欧美精品一区二区三区蜜桃视频| 中文字幕在线观看网址| av亚洲免费| 欧美老女人性视频| 国产精品乱码一区二区视频| 精品一区二区三区视频| 国产免费一区二区三区| 二人午夜免费观看在线视频| 亚洲精品国产高清久久伦理二区 | 日产国产欧美视频一区精品| 国产美女久久精品| 色窝窝无码一区二区三区| 97久久久精品综合88久久| 亚洲一区精彩视频| 超碰成人av| 在线不卡免费av| 久久久久国产精品区片区无码| 第一会所亚洲原创| 午夜免费在线观看精品视频| 最新国产中文字幕| av亚洲精华国产精华| 一级做a爰片久久| 一级毛片久久久| 日韩免费性生活视频播放| japanese中文字幕| 亚洲国产第一| 91久久国产精品91久久性色| 免费人成黄页在线观看忧物| 一区二区三区波多野结衣在线观看 | 国产资源在线看| 亚洲国产婷婷综合在线精品| 国产成人黄色网址| 日韩精品a在线观看91| 欧美日韩国产二区| 一级全黄少妇性色生活片| 久久网站热最新地址| 日本一级黄视频| 四虎影视成人精品国库在线观看| 亚洲欧洲午夜一线一品| 日韩xxxxxxxxx| 国产成人精品影视| 国产成人精品免费看在线播放| 精品日本视频| 亚洲欧美一区二区三区情侣bbw| 欧美日韩精品在线观看视频| 久久精品久久99精品久久| 欧美日韩一区在线播放| 黄色在线网站噜噜噜| 日韩欧美第一区| 国产免费久久久久| 精品亚洲免费视频| 一区二区三区久久网| 天天免费亚洲黑人免费| 亚洲欧美激情另类校园| 国产福利拍拍拍| 91丨九色丨蝌蚪富婆spa| 真人抽搐一进一出视频| 日韩欧美一级| 欧美另类第一页| 国产美女三级无套内谢| 亚洲欧美日韩国产一区二区三区| 香港日本韩国三级网站| 热久久天天拍国产| 国产精品三级美女白浆呻吟| 高清毛片在线看| 欧美在线色视频| 免费看裸体网站| 另类小说视频一区二区| 亚洲福利av在线| 狂野欧美性猛交xxxx| 中文字幕亚洲一区二区三区五十路| 天天干天天插天天射| 亚洲国产成人在线| 成人黄色一级大片| 女人香蕉久久**毛片精品| 999在线免费观看视频| 国内在线免费视频| 日韩精品免费在线| 波多野结衣影片| 国产精品超碰97尤物18| 久久综合在线观看| 国产综合欧美| 蜜桃视频在线观看91| 精品免费av一区二区三区| 最近的2019中文字幕免费一页| 国产一区二区在线视频观看| 亚洲激情在线播放| 北京富婆泄欲对白| 久久高清国产| 一级二级三级欧美| 大奶一区二区三区| 国产91在线视频| 久操视频在线| 亚洲精品国产精品国自产在线 | 欧美日韩一区二区三区在线| 国产美女高潮视频| 成人精品视频一区二区三区| 日本三级免费观看| 国产精品精品国产一区二区| wwwxx欧美| 日韩在线影院| 欧美日本在线视频中文字字幕| 天天操天天射天天| 欧美日韩亚洲综合在线| 亚洲欧美一区二区三区四区五区| 97精品久久久午夜一区二区三区| 91人人澡人人爽人人精品| 欧美久久视频| 日本在线播放不卡| jizz性欧美23| 国产狼人综合免费视频| 岛国片av在线| www.日韩欧美| 日本xxxx人| 91麻豆精品国产91久久久久 | 日本高清视频在线观看| 亚洲福利视频免费观看| 在线观看中文字幕2021| 亚洲成av人影院在线观看网| 国产在线免费av| 99在线精品观看| 亚洲最大天堂网| 久久久www| 欧美图片激情小说| 91成人观看| 日韩精品久久一区二区三区| 91精品国产自产精品男人的天堂| 国产精品久久久久久久久| 国产一线二线在线观看| 日韩视频免费观看| 国产经典自拍视频在线观看| 亚洲国产精品美女| 国产高清不卡视频| 欧美精品三级日韩久久| 亚洲综合久久网| 婷婷激情综合网| 免费在线一区二区三区| 亚洲欧美自拍偷拍色图| 制服 丝袜 综合 日韩 欧美| 成人av电影在线| 俄罗斯女人裸体性做爰| 久久99热国产| 亚洲一级片网站| 日韩黄色在线观看| 午夜肉伦伦影院| 国产精品一级| 欧美日韩性生活片| 亚洲精品日韩久久| 日本黄大片在线观看| 欧美日韩国产在线一区| 中文字幕制服丝袜在线| 久久社区一区| 正在播放久久| 999久久久免费精品国产| 亚洲精品国产精品久久| 成人免费看片39| 五码日韩精品一区二区三区视频| 欧美丝袜足交| 精品在线视频一区二区三区| 美国成人xxx| 久久99精品久久久久久久久久| 成人在线tv视频| 国产日韩一区二区| 日韩三级av| 热舞福利精品大尺度视频| 岳的好大精品一区二区三区| 蜜桃视频在线观看91| 国产乱码精品一区二区亚洲 | 99re6这里只有精品| 亚洲欧美成人一区| 五月天久久久| 久久观看最新视频| 在线电影一区| 日韩欧美亚洲天堂| 视频在线观看一区| 91国产精品视频在线观看| 久久国产剧场电影| 亚洲av毛片在线观看| 国产成人精品一区二区三区四区| 免费高清视频在线观看| 成人h动漫精品一区二区| 国产ts丝袜人妖系列视频| 久久久午夜精品理论片中文字幕| jizz中文字幕| 亚洲人午夜精品天堂一二香蕉| 青娱乐av在线| 岛国av在线不卡| 中文字幕第2页| 欧美一级一区二区| 天堂中文在线观看视频| 亚洲最新av在线网站| 成人影欧美片| 欧美最顶级的aⅴ艳星| 小明成人免费视频一区| 91大片在线观看| 亚洲国产网址| 久久久成人精品一区二区三区| 国产精品s色| 成年人视频在线免费| 韩日av一区二区| 亚洲欧美日本一区| 国产精品毛片高清在线完整版| 午夜免费激情视频| 欧美性videos高清精品| 一本到在线视频| 亚洲国产日韩欧美在线99| 在线看的av网站| 91精品国产精品| 午夜精品久久久久久毛片| 精品视频高清无人区区二区三区| 精品国产中文字幕第一页 | 性欧美videos另类喷潮| 久久国产激情视频| 不卡欧美aaaaa| 可以免费看av的网址| 欧美日韩亚洲一区二区| 国产精品久久久久久免费| 日韩精品有码在线观看| 黄色av电影在线播放| 日韩美女视频免费看| 北条麻妃一区二区三区在线| 性欧美大战久久久久久久免费观看 | 欧美bbbbbbbbbbbb精品| 在线不卡a资源高清| 欧美成人片在线| 欧美极品美女电影一区| 日本一区二区中文字幕| 欧美午夜精品久久久久久蜜| 欧美三级免费| 亚洲免费在线播放视频| 国产欧美日韩综合| 国产一级18片视频| 精品国产乱码久久久久久1区2区| 在线看黄色av| 国产精品久久不能| 天天躁日日躁成人字幕aⅴ| 青青青在线视频播放| 国产一区二区三区久久悠悠色av| 欧美大波大乳巨大乳| 精品毛片三在线观看| 国产suv一区二区| 久久久av网站| 日韩欧国产精品一区综合无码| 欧美日韩亚洲免费| 国产精品尤物| 午夜久久久久久久| 亚洲成国产人片在线观看| 国产黄色一区二区| 欧美成人高清视频| 亚洲成人高清| 美国av在线播放| 韩国精品在线观看| 午夜三级在线观看| 欧美视频第二页| 成年人视频在线看| 国产精品美乳一区二区免费 | 糖心vlog在线免费观看| 久久丁香综合五月国产三级网站| 久久久久久成人网| 欧美日韩亚洲综合在线| 秋霞午夜理伦电影在线观看| 国产深夜精品福利| 亚洲一区二区日韩| 操人视频免费看| 亚洲黄色av一区| 超碰在线观看av| 久久久亚洲欧洲日产国码aⅴ| 77成人影视| 青青青免费在线| 久久精品日韩一区二区三区| 欧美一区二区三区网站| 在线激情影院一区| 欧美一级免费| 无码毛片aaa在线| 成人精品高清在线| 亚洲毛片一区二区三区| 在线a欧美视频| 999精品嫩草久久久久久99| 欧美日韩一区二区三区电影| 国产福利精品一区二区| 国产精品白浆一区二小说| 日韩国产欧美精品一区二区三区| 欧美黑人疯狂性受xxxxx野外| 日韩免费av一区二区三区| 九色|91porny| 久久一级黄色片| 亚洲欧美日韩国产精品| 欧美极品在线| www.在线观看av| 国产视频一区二区在线| 国产又爽又黄又嫩又猛又粗| 久久91亚洲精品中文字幕| 日韩美女国产精品| 亚洲一区在线不卡| 一个色妞综合视频在线观看| 你懂的视频在线观看| 国产专区精品视频| 亚洲经典在线看| 69xxx免费| 精品国产91亚洲一区二区三区婷婷| 中文在线最新版地址| 中文字幕色一区二区| 成人av网站在线| 91亚洲欧美激情| 91精品成人久久| 久久久久美女| 国产交换配乱淫视频免费| 91精品免费观看| 中文字幕一区久|