精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

多模態視覺-語言大模型的架構演進

發布于 2024-5-16 10:02
瀏覽
0收藏

多模態視覺-語言大模型的架構演進-AI.x社區

本文回顧了多模態LLM (視覺-語言模型) 近一年來的模型架構演進,對其中有代表性的工作進行了精煉總結,截止2024.04,持續更新ing...


A Survey on Multimodal Large Language Models(arxiv.org/abs/2306.13549)
Awesome-Multimodal-Large-Language-Models(github.com/BradyFU/Awesome-Multimodal-Large-Language-Models)


這篇綜述一張圖總結了多模態LLM的典型架構:

多模態視覺-語言大模型的架構演進-AI.x社區

BLIP

【2022.01發布】https://arxiv.org/abs/2201.12086


統一視覺-語言理解和生成,使用captioner+filter高效利用互聯網有噪數據

模型架構:

  • Image/text encoder: ITC loss對齊視覺和語言表征,基于ALBEF提出的momentum distillation
  • Image-grounded text encoder: ITM loss建模視覺-語言交互,區分positive/negative圖文對,使用hard negative mining挖掘更高相似度的負例優化模型
  • Image-grounded text decoder: LM loss實現基于圖像的文本解碼,將雙向self-attention替換為causal self-attention

多模態視覺-語言大模型的架構演進-AI.x社區

BLIP的bootstrapping訓練過程:

多模態視覺-語言大模型的架構演進-AI.x社區

BLIP-2

【2023.01發布】https://arxiv.org/abs/2301.12597


使用相對輕量的Q-Former連接視覺-語言模態,通過兩階段訓練:第1階段基于凍住的視覺編碼器,第2階段基于凍住的LLM

多模態視覺-語言大模型的架構演進-AI.x社區

第1階段:同樣優化ITC/ITM/LM loss,使用不同的self-attention mask,query和text端共享self-attention參數,使得可學習的query embedding提取與text語義最相關的視覺表征;使用BERT-base初始化,32個768維的query作為信息瓶頸

  • ITC:計算每個query與text的相似度,取最大的;使用batch內negatives,不再使用momentum queue
  • ITM:對每個query與text的分類logits取平均,使用hard negatives mining挖掘難負例
  • LM:text token和frozen image encoder不能直接交互,要求query能提取有益的視覺特征

多模態視覺-語言大模型的架構演進-AI.x社區

第2階段:可基于decoder-only/encoder-decoder LLM進行適配,FC層對齊維度

多模態視覺-語言大模型的架構演進-AI.x社區

LLaVA

【2023.04發布】https://arxiv.org/abs/2304.08485

  • 使用僅文本模態的GPT-4生成視覺-語言指令遵循數據,用于微調多模態LLM

使用圖片的dense captions和bounding boxes作為prompt,可以生成對話、細節描述、復雜推理等指令

  • CLIP ViT-L/14 + Vicuna,使用簡單的線性層進行映射
  • 更復雜的:Flamingo中gated cross-attention,BLIP-2中的Q-former

多模態視覺-語言大模型的架構演進-AI.x社區

多模態視覺-語言大模型的架構演進-AI.x社區

  • LLaVA模型的兩階段訓練


stage1. 預訓練特征對齊:凍住vision encoder和LLM,只訓練projection,學習一個兼容的visual tokenizer


stage2. 端到端微調:凍住vision encoder,在單輪/多輪對話數據上微調projection和LLM

MiniGPT-4

【2023.04發布】https://arxiv.org/abs/2304.10592


stage1. 預訓練:使用image-text pair微調linear projection layer,vision encoder和LLM保持凍住


stage2. 指令微調:指令格式為:###Human: <Img><ImageFeature></Img><Instruction>###Assistant:

多模態視覺-語言大模型的架構演進-AI.x社區

InstructBLIP

【2023.05發布】https://arxiv.org/abs/2305.06500


stage1. 預訓練:BLIP-2(使用image-text pairs進行兩階段訓練)


stage2. 指令微調:只微調instruction-aware Q-former,凍住vision encoder和LLM

支持FlanT5(encoder-decoder)和Vicuna(decoder-only)

多模態視覺-語言大模型的架構演進-AI.x社區

Qwen-VL 【2023.08發布】https://arxiv.org/abs/2308.12966


支持中英雙語、多圖像輸入


Qwen-7B + OpenCLIP ViT-bigG,輸入圖像直接resize到視覺編碼器輸入


位置感知的VL adapter:使用基于Q-former的單層的cross-attention,將圖像特征維度壓


縮到256,在query-key pairs中引入2D絕對位置編碼增強位置信息


圖像輸入:<img>256-dim圖像特征</img>


bounding box輸入輸出:<box>(X_topleft, Y_topleft), (X_bottomright, Y_bottomright)</box>, <ref>…</ref>標記box所指內容


三階段訓練:


stage1. 預訓練:基于大規模、弱標注、網絡爬取的圖像-文本對,輸入分辨率224x224,凍住LLM,訓練ViT和Q-former,主要目的是模態對齊


stage2. 多任務預訓練:基于7種下游視覺-語言理解任務的高質量、細粒度標注數據訓練,輸入分辨率448x448,圖像/文本數據交錯,訓練整個模型


stage3. 指令微調:提升指令遵循和多輪對話能力,凍住ViT,訓練LLM和Q-former

多模態視覺-語言大模型的架構演進-AI.x社區

Qwen-VL-Plus和Qwen-VL-Max提升了視覺推理能力、圖像細節的識別/提取/分析能力(尤其是文本導向的任務)、支持高分辨率和極端縱橫比的輸入圖像;在部分中文場景超過了GPT-4V和Gemini

InternLM-XComposer

【2023.09發布】https://arxiv.org/abs/2309.15112


交錯圖文構成:自動在輸出文本中插入合適的圖片


EVA-CLIP ViT + InternLM-7B + Q-former (將圖像特征壓縮到64個embedding)


兩階段訓練:


stage1. 預訓練:凍住ViT,訓練LLM和Q-former


stage2. 監督微調:包括多任務訓練和指令微調,凍住ViT和LLM,訓練Q-former,對LLM進行LoRA微調,增強指令遵循和圖文混排能力

多模態視覺-語言大模型的架構演進-AI.x社區

Fuyu-8B

【2023.10發布】https://huggingface.co/adept/fuyu-8b


模型架構和訓練過程簡單,易于scaling;支持任意圖像分辨率;推理速度快


decoder-only的transformer,沒有專門的圖像編碼器;image patch直接線性映射到transformer第一層

多模態視覺-語言大模型的架構演進-AI.x社區

LLaVA-1.5

【2023.10發布】https://arxiv.org/abs/2310.03744


仍使用MLP作為模態連接,突出了訓練的數據高效性

多模態視覺-語言大模型的架構演進-AI.x社區

CogVLM

【2023.11發布】https://arxiv.org/abs/2311.03079


深度視覺-語言模態融合,而不影響LLM原有的語言能力:凍住LLM和ViT,在attention和FFN層訓練一份視覺專家模塊

多模態視覺-語言大模型的架構演進-AI.x社區

CogAgent

【2023.12發布】https://arxiv.org/abs/2312.08914


針對GUI場景的多模態理解和導引,使用高分辨率-低分辨率雙編碼器,支持1120x1120的屏幕輸入


高分辨率分支使用更輕量的ViT,基于cross-attention將高分辨率圖像特征與LLM每層進行融合

多模態視覺-語言大模型的架構演進-AI.x社區

VILA

【2023.12發布】https://arxiv.org/abs/2312.07533


探索了視覺-語言模型訓練的設計選擇:

  1. 預訓練階段凍住LLM雖然能取得較好的zero-shot性能,但上下文學習能力依賴對LLM的微調
  2. 圖文交錯的預訓練數據是有益的,只用圖文數據對效果不夠好
  3. 將純文本的指令微調數據加入SFT階段有助于緩解純文本任務的能力退化,同時也能夠增強視覺-語言任務的準確性

多模態視覺-語言大模型的架構演進-AI.x社區

LLaVA-Next

【2024.01發布】https://llava-vl.github.io/blog/2024-01-30-llava-next/


相對于LLaVA-1.5,保持了極簡的設計和數據高效性:

  1. 提高了輸入圖像的分辨率 (4x),支持3種縱橫比:672x672, 336x1344, 1344x336
  2. 更好的視覺推理和OCR能力:更好的指令微調數據配比
  3. 更好的多場景視覺對話:更好的世界知識和邏輯推理
  4. 更高效的部署和推理:SGLang


動態高分辨率:視覺編碼器支持336x336的圖像輸入,對于672x672的圖像,按照{2,2}的grid split成4個圖像patch過encoder,downsample到336x336也過encoder,特征拼接作為visual tokens輸入到LLM中

多模態視覺-語言大模型的架構演進-AI.x社區

收集高質量用戶數據,包括真實場景中反映用戶更廣泛意圖的指令數據,利用GPT-4V進行數據構造


多模態文檔/圖表數據,增強文檔OCR和圖表理解能力

多模態視覺-語言大模型的架構演進-AI.x社區

InternLM-XComposer2

【2024.01發布】https://arxiv.org/abs/2401.16420


提出了新的模態對齊方法partial LoRA:只在image token上添加LoRA參數,保證預訓練語言知識的完整性,這樣一個更輕量的視覺編碼器同樣有效


OpenAI CLIP ViT-L/14 + InternLM2-7B + partial LoRA (rank=256)

多模態視覺-語言大模型的架構演進-AI.x社區

多模態視覺-語言大模型的架構演進-AI.x社區

兩階段訓練:


stage1. 預訓練:凍住LLM,微調ViT和partial LoRA模塊,包括通用語義對齊(理解圖像基本內容)、世界知識對齊(進行復雜的知識推理)、視覺能力增強(OCR、物體定位、圖表理解)


stage2. 監督微調:微調整個模型,包括多任務訓練、自由形式圖文排布

InternLM-XComposer2-4KHD

2024.04發布了4KHD版本:https://arxiv.org/abs/2404.06512


支持動態分辨率(336px → 4K (3840x1600)):改進了patch division范式,保持訓練圖像原有的縱橫比,自動變化patch數目,基于336x336的ViT配置layout


動態圖像劃分:將輸入圖像resize and pad到336的整數倍寬高


結合圖像的global和local視角:global視角由輸入直接resize到336x336,使用sep token分隔兩種視角的token


圖像2D結構的換行符:可學習的\n token分隔圖像token行

多模態視覺-語言大模型的架構演進-AI.x社區

Mini-Gemini

【2024.03發布】https://arxiv.org/abs/2403.18814


使用雙視覺編碼器提取低分辨率embedding作為query,高分辨率特征區域作為key/value,兩者之間做cross-attention,輸出挖掘的tokens作為prompt前綴,輸入到LLM做推理,外接圖像解碼器生成圖像(SDXL)

多模態視覺-語言大模型的架構演進-AI.x社區

本文轉自 AI生成未來 ,作者:Dreamweaver


原文鏈接:??https://mp.weixin.qq.com/s/Cn5x8t3PtZLZWWHnb2PKoQ??

已于2024-5-16 10:10:28修改
收藏
回復
舉報
回復
相關推薦
岛国av在线网站| 好吊日免费视频| 国产黄网站在线观看| 蜜芽一区二区三区| 久久好看免费视频| 精品人妻一区二区乱码| 7777kkk亚洲综合欧美网站| 99国产精品国产精品毛片| 欧美最近摘花xxxx摘花| 日韩女同一区二区三区| 99久热在线精品视频观看| 亚洲精品欧美在线| 久久久久天天天天| 国产精品sm调教免费专区| 久久久久久久久国产一区| 日韩欧美国产电影| av网址在线观看免费| 日韩三级影院| 麻豆成人免费电影| 欧美精品亚州精品| 五月开心播播网| 人人草在线视频| 国产精品不卡视频| 丁香五月网久久综合| 亚洲 欧美 日韩 综合| 日韩在线高清| 亚洲第一男人av| 国产日韩欧美久久| 99在线视频影院| 欧美高清在线视频| 国产欧美日韩一区| 中文字幕一区二区三区免费看| 欧美日韩在线观看视频小说| 欧美成人伊人久久综合网| 欧美成人黑人猛交| 激情网站在线| 久久香蕉国产线看观看99| 国产日产亚洲精品| 97久久久久久久| 97精品在线| 日韩国产在线播放| 欧美激情第四页| 国产成人免费9x9x人网站视频 | 国产欧美综合在线观看第十页| 国产精品久久一区主播| 久久99久久98精品免观看软件| 精品久久久久中文字幕小说| 亚洲国产精品久久久久秋霞不卡 | 欧美视频一区二| 精品这里只有精品| 18+视频在线观看| 中文字幕欧美日本乱码一线二线| 欧美视频1区| 理论视频在线| 国产蜜臀97一区二区三区| 蜜桃视频成人| 国产永久免费高清在线观看视频| 久久久久久久久久看片| 蜜桃av久久久亚洲精品| 人操人视频在线观看| 26uuu久久综合| 日本精品二区| 搞黄视频在线观看| 国产精品视频你懂的| 亚洲国产精品www| 麻豆av免费在线观看| 18欧美乱大交hd1984| 国产三级中文字幕| 污的网站在线观看| 亚洲电影一级黄| 老太脱裤让老头玩ⅹxxxx| 超碰在线cao| 一本色道久久加勒比精品| 天天干在线影院| 日本在线一区二区| 日韩一卡二卡三卡四卡| a级一a一级在线观看| 中文字幕伦av一区二区邻居| 亚洲三级 欧美三级| 免费一级黄色录像| 图片小说视频色综合| 欧美日韩爱爱视频| 欧美videossex极品| 国产极品久久久| 亚洲综合婷婷| 久久久久成人精品| 99热在线观看免费精品| 久久五月激情| 91久久精品国产91久久| 国产 日韩 欧美 综合| 美女精品自拍一二三四| 亚洲成人精品视频在线观看| www.色天使| 性xxxx欧美老肥妇牲乱| 国内成人精品一区| 丁香社区五月天| 国产最新精品精品你懂的| 国产在线欧美日韩| a√资源在线| 亚洲成a人片在线不卡一二三区| 青青草原av在线播放| 四虎国产精品永久在线国在线| 精品久久久久久久人人人人传媒| 女人又爽又黄免费女仆| 欧美韩国一区| 国产精品久久久久久久久久久久 | 青青草福利视频| 婷婷亚洲五月| 日本道色综合久久影院| 性生交大片免费看女人按摩| 国产欧美日韩亚州综合 | 中文字幕资源网在线观看| 欧美日韩在线观看视频| 四川一级毛毛片| 欧美日韩中字| 97在线看福利| 国产a级免费视频| 国产欧美日韩精品一区| 黄网站欧美内射| 国产麻豆一区二区三区| 夜夜嗨av色一区二区不卡| 久久精品视频6| 精品一二三四在线| 欧美成ee人免费视频| 黄色成人在线网| 欧美一区二区免费视频| 先锋影音av在线| 一本色道久久综合亚洲精品不卡| 91在线视频免费| av在线女优影院| 色婷婷综合久久久久中文一区二区| 精人妻一区二区三区| 亚洲澳门在线| 91精品国产综合久久香蕉的用户体验 | 不卡视频一区| av网站网址在线观看| 欧美日韩一区不卡| 日韩中文字幕有码| 国产欧美欧美| 国产精品免费观看高清| 色老头在线观看| 7777女厕盗摄久久久| 欧洲美熟女乱又伦| 久久精品日韩欧美| 欧美xxxx黑人又粗又长精品| 高清精品在线| 亚洲电影免费观看高清完整版在线观看| 国产少妇在线观看| 国产精品一区二区在线观看不卡 | av在线不卡一区| h网站久久久| 日韩久久精品一区| 欧美成人片在线观看| 国产一区二区三区免费播放| 在线观看免费91| 综合久草视频| 欧美成人四级hd版| 成人av一区二区三区在线观看| 一区二区理论电影在线观看| 中文字幕亚洲日本| 国产精品v一区二区三区| 国产高清精品一区二区三区| 欧美xxx黑人xxx水蜜桃| 精品国产乱码久久久久久影片| 国产一级在线视频| 91免费视频大全| 黄色av免费在线播放| 欧美一区二区三| 成人黄色免费网站在线观看| 成人短视频在线观看| 精品毛片乱码1区2区3区| 日韩精品一区三区| 91丨porny丨国产| 少妇性l交大片| 久久久久美女| 精品国产一区二区三区麻豆免费观看完整版| 黄频免费在线观看| 一区二区三区精品99久久| 中文字幕第99页| 亚洲精品一二三四区| 韩国三级视频在线观看| 久久国产直播| 亚洲第一精品区| 国产精品高潮呻吟久久久久| 51久久精品夜色国产麻豆| 成人亚洲综合天堂| 欧美一区二区三区啪啪| 黄色一级片免费看| 国产精品人人做人人爽人人添| gogo亚洲国模私拍人体| 另类图片国产| 狠狠噜天天噜日日噜| 五月国产精品| 国产综合香蕉五月婷在线| 超碰91在线观看| 色综合影院在线| 少妇无码一区二区三区| 精品视频一区二区三区免费| 精品处破女学生| 国产情人综合久久777777| 成人高清在线观看视频| 日韩精品电影一区亚洲| 无颜之月在线看| 国产欧美日韩一区二区三区四区| 99国产盗摄| 成人在线中文| 97国产一区二区精品久久呦 | 国产午夜亚洲精品午夜鲁丝片| 亚洲综合123| 日本欧美一区二区在线观看| av无码久久久久久不卡网站| 久久亚洲影视| 欧美日韩精品免费观看| 在线精品国产亚洲| 国产精品一区二区电影| 一级毛片久久久| 欧美激情精品久久久久久大尺度| 中文字幕在线视频区| 国产婷婷97碰碰久久人人蜜臀 | 国产激情一区二区三区| 五月婷婷激情久久| 午夜在线播放视频欧美| 国产女主播自拍| 亚洲一区色图| 最新欧美日韩亚洲| 欧美限制电影| 欧美日韩高清在线一区| 国产精品sss在线观看av| 成人黄色在线免费| 99只有精品| 久久久久日韩精品久久久男男| 国产午夜精品一区理论片| 亚洲剧情一区二区| 日韩av成人| 日韩精品免费看| 天天操天天干天天插| 精品日韩av一区二区| 国产一区二区三区四区视频| 欧美吻胸吃奶大尺度电影| 成人免费毛片男人用品| 狠狠躁夜夜躁人人躁婷婷91| 男人天堂中文字幕| 午夜久久久久久久久久一区二区| 久操视频免费在线观看| 亚洲在线中文字幕| 国产一级av毛片| 一区二区三区四区在线| 久久国产在线视频| 一二三区精品视频| 久久精品第一页| 一区二区三区欧美久久| 麻豆亚洲av熟女国产一区二| 亚洲精品国产a| 动漫精品一区一码二码三码四码| 亚洲最快最全在线视频| 国产亚洲精品久久777777| 亚洲成年人网站在线观看| 日韩欧美亚洲一区二区三区| 欧美性猛交xxxx乱大交极品| 久久久久久无码精品大片| 欧美三电影在线| 国产强伦人妻毛片| 日韩欧美久久久| 四虎精品一区二区三区| 精品网站999www| 99免在线观看免费视频高清| www.xxxx欧美| 在线观看的网站你懂的| 午夜精品久久久久久久男人的天堂| 国产夫妻在线播放| 日韩美女免费观看| 日韩国产一二三区| 成人在线视频网址| 一道本一区二区三区| 午夜精品一区二区三区在线观看| 天天做天天爱天天综合网| 国产在线无码精品| 99热这里只有成人精品国产| 亚洲最大综合网| 国产高清一区日本| 一级特级黄色片| 国产精品久久久久久久久免费桃花 | 97人人爽人人| 成人高清视频免费观看| 亚洲av无码一区二区三区人 | 日本少妇激情视频| 日本久久一区二区| 国产成人精品av在线观| 亚洲欧美色婷婷| 大片免费在线观看| 91av在线视频观看| 99久久久国产| 美脚丝袜一区二区三区在线观看| 99久久激情| 免费国产黄色网址| 久久av老司机精品网站导航| 中文字幕在线视频播放| 国产精品免费视频网站| 亚洲另类欧美日韩| 制服丝袜中文字幕亚洲| 日韩国产福利| 欧美激情一区二区三区成人| 欧美三区四区| 国产a一区二区| 久久亚洲成人| 国产一区二区视频免费在线观看| 国产成人精品影视| 欧美xxxx精品| 欧美午夜激情小视频| www国产一区| 中文字幕精品视频| 中文字幕在线视频网站| 97se国产在线视频| 欧美电影《轻佻寡妇》| 国产91对白刺激露脸在线观看| 极品销魂美女一区二区三区| 蜜桃无码一区二区三区| 天天综合网天天综合色| 国产女人18毛片水18精| 亚洲午夜未删减在线观看| 黄在线观看免费网站ktv| 成人欧美视频在线| 91精品久久久久久久蜜月 | 国产一区二区三区高清播放| 国产精品国产三级国产专业不| 欧美性xxxx18| 日本激情视频网站| 欧美日韩成人黄色| 国产精品1区| 一区二区在线观看网站| 蜜臀久久99精品久久久久宅男 | 久久99999| 久久精品无码一区二区三区| 一区二区三区视频免费看| 日韩欧美美女一区二区三区| 国产激情在线| 亚洲aaa激情| 一本精品一区二区三区| 亚洲最大天堂网| 中文字幕中文在线不卡住| 国产男人搡女人免费视频| 亚洲天堂男人天堂女人天堂| 亚洲精品永久免费视频| 久久精品丝袜高跟鞋| 免费看黄裸体一级大秀欧美| 国产精品无码久久久久久| 日韩欧美亚洲范冰冰与中字| 欧美日韩国产综合视频| 国产精品av免费在线观看| 欧美日本成人| 欧美伦理片在线观看| 中文av字幕一区| 96日本xxxxxⅹxxx17| 久久久精品久久| 日韩区一区二| 中国丰满熟妇xxxx性| www..com久久爱| 看片网址国产福利av中文字幕| 日韩精品欧美激情| 免费看av不卡| 翔田千里亚洲一二三区| 精品综合久久久久久8888| 国产探花在线播放| 精品国产三级电影在线观看| 蜜桃视频m3u8在线观看| 日韩精品久久一区二区三区| 蜜桃在线一区二区三区| 日本妇女毛茸茸| 日韩av中文字幕在线免费观看| 黄色综合网址| 在线免费观看成人| 国产精品88av| 中文字幕在线观看视频网站| 国产性色av一区二区| 亚洲精品毛片| 91免费黄视频| 欧美高清在线视频| 亚洲AV无码精品国产| 欧美制服第一页| 婷婷精品进入| 亚洲精品乱码久久久久久久| 欧美性猛片xxxx免费看久爱| 国产高清一区二区三区视频| 精品国产一区二区三区四区精华 | 美女又黄又免费的视频| 婷婷综合久久一区二区三区| 中文字幕日本在线观看| 不卡视频一区| 人人超碰91尤物精品国产| 日韩a级片在线观看| 亚洲乱码一区二区| 精品国产亚洲一区二区三区大结局 | 91精品人妻一区二区三区蜜桃欧美| 欧美亚洲国产一区二区三区| 中文字幕有码在线观看| 日本一区高清不卡| 懂色av一区二区三区免费看| 中文字幕观看在线| 久久久久久18| 婷婷亚洲五月|