英偉達開源多模態視覺語言模型-Nemotron Nano V2 VL模型架構、訓練方法、訓練數據 原創
英偉達的技術報告一般細節都比較多,本次開源的12B的參數模型-Nemotron Nano V2 VL專為文檔理解、長視頻理解及推理任務而設計。下面來快速過一下。
模型架構

遵循“視覺編碼器+MLP投射器+語言模型”架構。
- 視覺編碼器:基于RADIOv2.5的c-RADIOv2VLM-H版本初始化,負責提取圖像/視頻的視覺特征。
- MLP投射器:作為跨模態橋梁,實現視覺特征與文本特征的對齊。
- 語言模型:基于Nemotron-Nano-12B-V2(混合Mamba-Transformer架構),提供強文本推理能力,支持最長311296 tokens的上下文長度。
圖像視頻輸入處理策略上:

與英偉達之前的一個模型(《???【多模態&LLM】英偉達NVLM多模態大模型細節和數據集???》)相似,采用動態分辨率分塊(tiling)策略,按長寬比 resize 后分割為512×512非重疊塊,通過像素洗牌下采樣將每個塊的視覺token從1024縮減至256,最多支持12個塊,同時保留單塊縮略圖捕捉全局信息。
- 視頻處理:每秒提取2幀,最長視頻限制128幀(超過64秒則均勻采樣),每幀按單塊處理,結合高效視頻采樣優化推理效率。
數據集


很有開源精神,Nemotron VLM Dataset V2(涵蓋圖像描述、VQA、OCR、文檔提取等多任務)大部分已公開。
數據增強手段
- 對無明確標注的數據集,用Qwen2.5/Qwen3系列模型從OCR結果或描述中生成問答對。
- 補充推理軌跡:融合人類標注和模型生成(Qwen2.5-VL-32B、GLM-4.5V等)的推理軌跡,強化復雜任務推理能力。
- 多語言擴展:包含 Wikimedia 多語言語料和翻譯后的文檔數據,支持跨語言 multimodal 任務。
訓練方法
采用“多階段遞進優化”策略,在保留文本推理能力的同時,逐步提升視覺理解和長上下文處理能力。訓練一覽表如下:
階段 | 目標 | 上下文長度 | 訓練數據量 | 操作 |
Stage 0 | 跨模態對齊預熱 | 16K | 220萬樣本(360億token) | 凍結視覺編碼器和語言模型,僅訓練MLP投射器 |
Stage 1 | 基礎多模態能力構建 | 16K | 3250萬樣本(1125億token) | 解凍全量參數,融合文本推理數據和多模態數據 |
Stage 2 | 視頻/長上下文擴展 | 49K | 1100萬樣本(550億token) | 加入視頻和多頁文檔數據,擴展上下文長度 |
Stage 3 | 代碼推理能力恢復 | 49K | 100萬樣本(150億token) | 僅用代碼推理數據訓練,修復前階段文本能力退化 |
Stage 4 | 超長上下文優化 | 311K | 7.4萬樣本(120億token) | 融入長上下文數據,適配超長文本/視頻任務 |
參考文獻:NVIDIA Nemotron Nano V2 VL,https://arxiv.org/pdf/2511.03929v2
?
本文轉載自??大模型自然語言處理??? 作者:老余

















