精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

英偉達NVLM多模態大模型細節和數據集 原創

發布于 2024-12-19 11:22
瀏覽
0收藏

前期筆者介紹了OCR-free的多模態大模型,可以參考:??【多模態&文檔智能】OCR-free感知多模態大模型技術鏈路及訓練數據細節??,其更偏向于訓練模型對于密集文本的感知能力。本文看一看英偉達出品的多模態大模型NVLM-1.0系列,雖然暫未開源,但該文章給出了NVLM的詳細細節,值得一讀。

NVLM-1.0方法

英偉達NVLM多模態大模型細節和數據集-AI.x社區

NVLM-1.0包括三種不同的架構:

  1. NVLM-D,一種解碼器架構;
  2. NVLM-X,一種基于交叉注意力(X-attention)的架構;
  3. NVLM-H,一種混合架構。

共享視覺路徑

所有NVLM模型共享一個視覺路徑。使用InternViT-6B-448px-V1-5作為默認的視覺編碼器,并在整個訓練階段保持其凍結狀態。該視覺編碼器以固定的448x448像素分辨率處理圖像,生成1024個輸出標記。采用動態高分辨率(DHR)方法來處理不同分辨率的圖像輸入。具體的如下圖,圖像被分割成最多6個瓦片(tile),每個瓦片對應448x448像素。然后,每個瓦片被送入InternViT-6B進行處理,生成1024個標記。這些標記通過下采樣操作減少到256個標記,這么做可以降低處理開銷。

英偉達NVLM多模態大模型細節和數據集-AI.x社區

英偉達NVLM多模態大模型細節和數據集-AI.x社區

上述兩張圖都是動態DHR的處理過程,圍繞圖像的預處理,包括歸一化、縮放、裁剪、根據寬高比動態處理等操作,構建了一套完整的流程,代碼邏輯如下:

import torch
from PIL import Image
import torchvision.transforms as T
from torchvision.transforms.functional import InterpolationMode

IMAGENET_MEAN = (0.485, 0.456, 0.406)
IMAGENET_STD = (0.229, 0.224, 0.225)


def build_transform(input_size):
    MEAN, STD = IMAGENET_MEAN, IMAGENET_STD
    transform = T.Compose([
        T.Lambda(lambda img: img.convert('RGB') if img.mode != 'RGB'else img),
        T.Resize((input_size, input_size), interpolatinotallow=InterpolationMode.BICUBIC),
        T.ToTensor(),
        T.Normalize(mean=MEAN, std=STD)
    ])
    return transform


def find_closest_aspect_ratio(aspect_ratio, target_ratios, width, height, image_size):
    best_ratio_diff = float('inf')
    best_ratio = (1, 1)
    area = width * height
    for ratio in target_ratios:
        target_aspect_ratio = ratio[0] / ratio[1]
        ratio_diff = abs(aspect_ratio - target_aspect_ratio)
        if ratio_diff < best_ratio_diff:
            best_ratio_diff = ratio_diff
            best_ratio = ratio
        elif ratio_diff == best_ratio_diff:
            if area > 0.5 * image_size * image_size * ratio[0] * ratio[1]:
                best_ratio = ratio
    return best_ratio


def dynamic_preprocess(image, min_num=1, max_num=6, image_size=448, use_thumbnail=True):
    orig_width, orig_height = image.size
    aspect_ratio = orig_width / orig_height

    target_ratios = set(
        (i, j) for n in range(min_num, max_num + 1) for i in range(1, n + 1) for j in range(1, n + 1) if
        i * j <= max_num and i * j >= min_num)
    target_ratios = sorted(target_ratios, key=lambda x: x[0] * x[1])

    target_aspect_ratio = find_closest_aspect_ratio(
        aspect_ratio, target_ratios, orig_width, orig_height, image_size)

    target_width = image_size * target_aspect_ratio[0]
    target_height = image_size * target_aspect_ratio[1]
    blocks = target_aspect_ratio[0] * target_aspect_ratio[1]

    resized_img = image.resize((target_width, target_height))
    processed_images = []
    for i in range(blocks):
        box = (
            (i % (target_width // image_size)) * image_size,
            (i // (target_width // image_size)) * image_size,
            ((i % (target_width // image_size)) + 1) * image_size,
            ((i // (target_width // image_size)) + 1) * image_size
        )
        split_img = resized_img.crop(box)
        processed_images.append(split_img)
    assert len(processed_images) == blocks
    if use_thumbnail and len(processed_images) != 1:
        thumbnail_img = image.resize((image_size, image_size))
        processed_images.append(thumbnail_img)
    return processed_images


def load_image(image_file, input_size=448, max_num=6):
    image = Image.open(image_file).convert('RGB')
    transform = build_transform(input_size=input_size)
    images = dynamic_preprocess(image, image_size=input_size, use_thumbnail=True, max_num=max_num)
    pixel_values = [transform(image) for image in images]
    pixel_values = torch.stack(pixel_values)
    return pixel_values

文中引入了三種tile標簽:

  • 無標簽:簡單連接,沒有tile標簽,這是InternVL-1.5的設計。
  • 一維扁平化tile tag:<tile_1>、<tile_2>、...、<tile_6>、<tile_global>。
  • 二維網格tag:<tile_x0_y0>、<tile_x1_y0>、...、<tile_xW_yH>、<tile_global>,其中<tile_xi_yj>的{i:j}可以是{1:1, 1:2, 1:3, 1:4, 1:5, 1:6, 2:1, 2:2, 2:3, 3:1, 3:2, 4:1, 5:1, 6:1}中的任何一個。
  • 二維邊界框標簽: (x0, y0), (x1, y1) 、...、 (xW, yH), (xW+1, yH+1) ,其中(xi, yj)和(xi+1, yj+1)分別是整個高分辨率圖像中該特定tile的(左、上)和(右、下)坐標。

實驗可以看到,其中DHR + 1-D tag取得了最佳的性能。

英偉達NVLM多模態大模型細節和數據集-AI.x社區

英偉達NVLM多模態大模型細節和數據集-AI.x社區

NVLM-D: 解碼器架構

NVLM-D模型類似于之前的解碼器架構多模態LLMs(如:)。通過一個兩層MLP將預訓練的視覺編碼器連接到LLM。訓練NVLM-D涉及兩個階段:預訓練和SFT。在預訓練階段,MLP需要先進行訓練,同時保持視覺編碼器和LLM主干凍結。在SFT階段,MLP和LLM都被訓練以學習新的視覺-語言任務,而視覺編碼器保持凍結狀態。為了防止LLM在多模態SFT訓練期間退化文本性能,引入了一個高質量的文本SFT數據集。

NVLM-X: 基于X-attention的模型

NVLM-X使用門控交叉注意力來處理圖像token。與Flamingo模型不同,NVLM-X不使用感知重采樣器,而是直接通過交叉注意力層處理圖像標記。在SFT階段,解凍LLM主干,并混合高質量文本SFT數據集以保持強大的文本性能。

NVLM-H: 混合模型

NVLM-H結合了解碼器架構和基于X-attention的架構的優點。將圖像token分為兩部分:縮略圖token和常規瓦片token。縮略圖標記通過自注意力層處理,而常規瓦片標記通過交叉注意力層處理。這種設計提高了高分辨率圖像的處理能力,同時顯著提高了計算效率。

模型配置和訓練方法

所有NVLM模型的訓練過程包括兩個階段:預訓練和監督微調(SFT)。在預訓練階段,凍結LLM主干和視覺編碼器,只訓練模態對齊模塊。在SFT階段,保持視覺編碼器凍結,同時訓練LLM和模態對齊模塊。

LLM和視覺模型選擇

  • LLM:對于NVLM-D、NVLM-X和NVLM-H 72B模型,使用Qwen2-72B-Instruct作為LLM。為了計算效率,還使用了較小的Nous-Hermes-2-Yi-34B進行更快的消融研究和實驗。
  • 視覺編碼器:所有NVLM模型都使用InternViT-6B-448px-V1-5作為視覺編碼器。

模態對齊模塊

  • NVLM-D: 使用兩層MLP將視覺編碼器和背景語言模型連接起來。隱藏維度為12800→20480→7168(34B模型)和12800→29568→8192(72B模型)。
  • NVLM-X: 圖像特征首先通過一層MLP投影到背景語言模型的隱藏維度,然后插入門控X-attention層。具體配置為12800→7168(34B模型)和12800→8192(72B模型)。
  • NVLM-H: 使用兩層MLP和X-attention層作為模態對齊模塊。縮略圖圖像標記直接輸入到背景語言模型解碼器中,而常規圖像塊則通過X-attention層進行處理。

訓練超參數

  • 預訓練階段

英偉達NVLM多模態大模型細節和數據集-AI.x社區

  • SFT階段

英偉達NVLM多模態大模型細節和數據集-AI.x社區

訓練數據

  • 預訓練數據集

英偉達NVLM多模態大模型細節和數據集-AI.x社區

  • SFT數據集

英偉達NVLM多模態大模型細節和數據集-AI.x社區

  • 文本SFT數據集
    包括ShareGPT、SlimOrca、EvolInstruct、GPTeacher、AlpacaGPT4、UltraInteract、OrcaMathWordProblems、MathInstruct、MetaMath、GlaiveCodeAssistant、Magicoder、WizardCoder、GlaiveCodeAssistant等。并使用OpenAI模型GPT-4o和GPT-4o-mini進一步優化響應質量,并進行數據去污染,確保不包含基準測試數據集中的提示。
  • SFT數據構建格式

英偉達NVLM多模態大模型細節和數據集-AI.x社區

  • 預訓練中使用的各種任務的訓練格式示例。綠色< image >tag表示插入視覺特征的位置。藍色文本代表與損失相關的真實值。
  • 英偉達NVLM多模態大模型細節和數據集-AI.x社區

  • SFT中使用的ChatML模板示例。綠色< image >標簽指示插入視覺特征的位置。藍色文本代表與損失相關的真實值。
  • 實驗結果

    重點關注多模態推理、視覺上下文中的數學推理、自然圖像理解、場景-文本閱讀、圖表理解、文檔理解、現實世界感知和OCR能力。

    英偉達NVLM多模態大模型細節和數據集-AI.x社區

    英偉達NVLM多模態大模型細節和數據集-AI.x社區

    英偉達NVLM多模態大模型細節和數據集-AI.x社區

    參考文獻

    • NVLM: Open Frontier-Class Multimodal LLMs,https://arxiv.org/pdf/2409.11402


    本文轉載自公眾號大模型自然語言處理  作者:余俊暉

    原文鏈接:??https://mp.weixin.qq.com/s/QtawR9aG-ABO8cZ67KlVvA??

    ?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
    收藏
    回復
    舉報
    回復
    相關推薦
    国产精品电影院| 亚洲第一偷拍| 在线精品亚洲一区二区不卡| 久久大片网站| 亚洲一区二区激情| 欧美色123| 国产亚洲成av人片在线观看桃| jizzzz日本| av蜜臀在线| 欧美国产综合色视频| 99re资源| 欧美激情一区二区三区免费观看| 中文字幕一区二区三区欧美日韩| 欧美精品一区二| 中国黄色片免费看| 24小时免费看片在线观看| 中文字幕av一区 二区| 国产精品v欧美精品∨日韩| 日本视频www色| 激情成人亚洲| 久久在线精品视频| 五月天综合视频| 国产乱人伦丫前精品视频| 欧美视频一区在线观看| 91精品国产91久久久久| 国产视频福利一区| 日本视频www| 91精品一区二区三区综合| 日韩电影网在线| 亚洲成人福利视频| 日韩福利在线观看| 欧美性色综合网| 国模吧无码一区二区三区| 在线观看电影av| 中文字幕制服丝袜成人av| 欧美激情视频一区二区三区| 亚洲va久久久噜噜噜无码久久| 麻豆成人免费电影| 日本一区二区三区在线播放| 亚洲欧美在线观看视频| 伊人久久综合| 欧美激情精品久久久久久蜜臀| 中文字幕求饶的少妇| 精品久久不卡| 亚洲高清av在线| 女性生殖扒开酷刑vk| 精品国产亚洲一区二区三区在线 | 国产成人精品亚洲男人的天堂 | 国产精品videossex国产高清 | 青青草原av在线播放| 伦理av在线| 亚洲国产毛片aaaaa无费看| 只有这里有精品| av免费在线观看网站| 国产精品成人在线观看| 亚洲欧洲一区二区在线观看| 国产小视频福利在线| 国产日韩欧美精品在线| 欧美一区二区三区精美影视 | 日韩视频中文字幕| 青青青视频在线播放| 日韩在线高清| 日韩视频在线观看免费| 中文字幕美女视频| 亚洲国产老妈| 欧美激情在线视频二区| 男人的天堂一区二区| 国产精品人人爽人人做我的可爱| 777国产偷窥盗摄精品视频| 青青操免费在线视频| 亚洲在线播放| 国内外成人免费激情在线视频| 五月天综合在线| 免费欧美日韩| 成人激情黄色网| 精品国产无码一区二区三区| 国产一区二区三区不卡av| 麻豆成人综合网| 国产欧洲精品视频| 精品人妻无码一区二区| av在线一区二区| 麻豆av一区| eeuss影院在线播放| 亚洲天堂精品视频| 久久国产精品网| 中国字幕a在线看韩国电影| 欧洲视频一区二区| 樱花草www在线| 精品人人人人| 色婷婷av一区二区三区在线观看 | 国产人妖在线观看| 偷拍自拍亚洲色图| www高清在线视频日韩欧美| 青青草偷拍视频| 亚洲一区久久| 亚洲free性xxxx护士白浆| 天天色棕合合合合合合合| 亚洲国产精品高清| 日本欧美视频在线观看| 色综合一本到久久亚洲91| 日韩一区二区不卡| 色无极影院亚洲| 欧美女人交a| 国产精品久久久久久久久久99| 99在线观看精品视频| 97精品久久久久中文字幕 | 欧美色男人天堂| 在线观看成人动漫| 色综合狠狠操| 欧美中文字幕精品| www.五月婷婷| 欧美激情综合五月色丁香| youjizz.com在线观看| 国产成人精品一区二区三区视频 | 欧美三级网页| 国产精品男人的天堂| 人妻妺妺窝人体色www聚色窝| 国产精品网站一区| 国产女大学生av| 欧美日本三级| 色伦专区97中文字幕| 毛片毛片女人毛片毛片| 国产精品99久久久久久久女警 | 91成人观看| 日韩暖暖在线视频| 色综合久久久久久| 一片黄亚洲嫩模| 五月六月丁香婷婷| 日本久久一二三四| 日本一区二区三区在线播放| 天堂av在线免费| 亚洲一区在线看| 国产精品久久久久久久99| 欧美日韩精品在线一区| 欧美在线日韩在线| 无码国精品一区二区免费蜜桃| 亚洲欧洲成人精品av97| 国产成人亚洲精品无码h在线| 91综合久久爱com| 啊v视频在线一区二区三区| 亚洲第一区av| 中文字幕不卡三区| 999在线免费视频| 国际精品欧美精品| 日韩av手机在线| 激情在线视频| 色婷婷综合久色| 特级西西www444人体聚色| 模特精品在线| 日本成人三级| av激情成人网| 最近中文字幕2019免费| 中文字幕一区二区三区波野结| 国产婷婷精品av在线| 国产又黄又猛视频| 欧美先锋资源| 91精品国产综合久久香蕉| 麻豆免费在线观看| 欧美一区二区视频观看视频| 岛国毛片在线观看| 国产成人福利片| 国产青青在线视频| 伊人久久大香线蕉| 国产精品久久久亚洲| 99riav在线| 日韩欧美在线一区二区三区| 久草网视频在线观看| www.视频一区| 欧美精品一区二区三区免费播放| av亚洲在线观看| 亚洲a在线播放| 免费在线看电影| 亚洲国产精品va在看黑人| 欧美日韩一级黄色片| 欧美激情一区二区三区在线| 亚洲精品第三页| 极品中文字幕一区| 欧美性xxxx69| 精品国产亚洲一区二区三区在线 | 成人激情文学综合网| 每日在线更新av| 日韩国产一区二区三区| 91美女福利视频高清| sis001亚洲原创区| 亚洲欧美激情视频| 国产精品一区二区三区在线免费观看| 一区二区三区在线观看国产| 国产精品无码专区| 蜜桃久久久久久久| 国产日韩欧美精品在线观看| 精品一区欧美| 91亚洲国产精品| 69久成人做爰电影| 欧美精品情趣视频| 免费黄网站在线观看| 欧美一二三区在线| 日韩精品一区二区亚洲av| 亚洲女性喷水在线观看一区| 中文乱码人妻一区二区三区视频| 美日韩一级片在线观看| 一本久道高清无码视频| 日韩精品永久网址| 国产精品一区视频网站| 久久sese| 欧美激情视频播放| 色老头视频在线观看| 国产网站欧美日韩免费精品在线观看 | 色综合免费视频| 欧美丰满一区二区免费视频| 中文字幕激情小说| 艳妇臀荡乳欲伦亚洲一区| 夫妇交换中文字幕| 91网站最新网址| 欧美人与性动交α欧美精品| 青青草国产精品97视觉盛宴 | 老司机精品视频一区二区三区| 老太脱裤让老头玩ⅹxxxx| 亚洲精品tv久久久久久久久久| 欧美资源一区| 另类图片第一页| 成人免费观看网站| 免费一区二区三区在线视频| 国产精品一区二区三区在线播放| 精精国产xxxx视频在线播放| 欧美第一页在线| 男人在线资源站| 在线亚洲欧美视频| 理论视频在线| 亚洲乱码av中文一区二区| 亚洲精品911| 日韩欧美在线123| 97国产精品久久久| 欧美日韩一区二区三区免费看| 日本熟女毛茸茸| 欧美视频一区二区三区…| 国产精品二区一区二区aⅴ| 亚洲综合视频在线观看| 国语对白在线播放| 亚洲美女淫视频| www.av免费| 综合欧美一区二区三区| 激情五月深爱五月| 国产欧美日韩在线| 美国黑人一级大黄| 亚洲国产精品成人综合色在线婷婷| 波多野结衣片子| 国产网站一区二区三区| 男生草女生视频| 中文字幕不卡在线观看| 日韩一区二区三区四区视频| 欧美国产欧美亚州国产日韩mv天天看完整| 亚洲做受高潮无遮挡| 久久综合给合久久狠狠狠97色69| 国产又粗又猛又色| 91女人视频在线观看| 深爱五月激情网| 国产亚洲综合色| 亚洲黄色网址大全| 日韩码欧中文字| 久久网免费视频| 精品久久久视频| 欧美日韩一级黄色片| 欧美性生活久久| 国产深喉视频一区二区| 精品欧美乱码久久久久久1区2区| 韩国中文字幕hd久久精品| 亚洲福利视频二区| 九一在线视频| 按摩亚洲人久久| 牛牛精品在线视频| 欧美在线视频一区| 黑人一区二区三区| 亚洲自拍偷拍在线| 日韩激情毛片| 亚洲一区二区三区免费看| 你懂的国产精品| www一区二区www免费| 麻豆极品一区二区三区| 第一页在线视频| 久久精品一区四区| 综合五月激情网| 欧美性猛交xxxxx免费看| 中文字幕 自拍偷拍| 日韩一区二区在线看| 天堂中文在线资源| 日韩在线观看精品| 两个人看的在线视频www| 国产日韩专区在线| 精品三级av在线导航| 亚洲欧美国产精品桃花| 黄色成人在线网址| www.com黄色片| 国产成人综合自拍| 摸摸摸bbb毛毛毛片| 亚洲久本草在线中文字幕| 日本一区二区免费电影| 4hu四虎永久在线影院成人| 六月丁香综合网| 中文字幕9999| av资源一区| 成人在线中文字幕| 久久99久久人婷婷精品综合| 永久免费看av| 日韩影院精彩在线| 9.1在线观看免费| 国产精品久久毛片a| 国产精品7777777| 欧美一级精品大片| 777电影在线观看| 97超碰国产精品女人人人爽 | 精品乱色一区二区中文字幕| 久久久久午夜电影| 亚洲成熟丰满熟妇高潮xxxxx| 国产精品系列在线播放| 99自拍偷拍视频| 欧美视频免费在线观看| 人妻丰满熟妇av无码区hd| 久久福利网址导航| 丰满少妇一区| 日韩电影在线播放| 亚洲欧美视频一区二区三区| 国产a级片视频| 亚洲欧美激情一区二区| 久久午夜鲁丝片| 亚洲女人被黑人巨大进入| 搞黄网站在线看| 99久久精品无码一区二区毛片| 四虎国产精品免费观看| 日韩中文字幕免费在线| 26uuu国产在线精品一区二区| 免费网站看av| 日韩欧美一区在线| av在线app| 成人日韩在线电影| 91久久高清国语自产拍| 亚洲视频第二页| 国产精品女同一区二区三区| 秋霞av一区二区三区| 亚洲视频在线视频| 最近在线中文字幕| 欧美日韩国产精品一卡| 国产精品久久久久9999高清| 中文字幕 亚洲一区| 婷婷中文字幕综合| 手机在线观看免费av| 97色在线观看| 激情亚洲另类图片区小说区| 男人添女人下部高潮视频在观看| a级高清视频欧美日韩| a v视频在线观看| 亚洲码在线观看| 三上悠亚国产精品一区二区三区| 青青成人在线| 蜜臀av一区二区三区| 情侣偷拍对白清晰饥渴难耐| 欧美日韩高清在线播放| 国产视频在线播放| 91日韩久久| 亚洲乱亚洲高清| av中文字幕免费观看| 欧美另类一区二区三区| 尤物在线网址| 精品日韩欧美| 日韩高清不卡一区二区| 小嫩苞一区二区三区| 日韩无一区二区| 色偷偷偷在线视频播放| 日韩精品国内| 国产乱码精品一区二区三区忘忧草| 免费看一级一片| 日韩成人av网| 国产91亚洲精品久久久| 国产911在线观看| 91最新地址在线播放| 在线免费av片| 欧美激情xxxx性bbbb| 九一精品国产| 欧美性受xxxxxx黑人xyx性爽| 一卡二卡欧美日韩| 青青草免费在线视频| 91久久久久久国产精品| 日韩图片一区| 超碰人人干人人| 欧美不卡在线视频| 台湾佬成人网| 国产高清不卡无码视频| 久久综合色综合88| 国产孕妇孕交大片孕| 8x海外华人永久免费日韩内陆视频| 精品少妇av| 精品1卡二卡三卡四卡老狼| 91久久国产综合久久| 青春草视频在线| 亚洲欧洲精品一区二区三区波多野1战4| 国产精品一区二区黑丝| 精品人妻无码一区二区性色| 欧美夫妻性生活xx| 成人vr资源| 日本xxx在线播放| 日韩午夜电影av|