Meta視覺基座DINOv3王者歸來:自監(jiān)督首次全面超越弱監(jiān)督,商用開源
計(jì)算機(jī)視覺領(lǐng)域的大部分下游任務(wù)都是從二維圖像理解(特征提取)開始的。
在特征提取、語義理解、圖像分割等 CV 基本任務(wù)中的模型三幻神分別是 SAM、CLIP 和 DINO,分別代表了全監(jiān)督、弱監(jiān)督和自監(jiān)督三大數(shù)據(jù)訓(xùn)練范式。
在人工智能領(lǐng)域,自監(jiān)督學(xué)習(xí)(SSL)代表了 AI 模型無需人工監(jiān)督即可自主學(xué)習(xí),它已成為現(xiàn)代機(jī)器學(xué)習(xí)中的主流范式。自監(jiān)督學(xué)習(xí)推動(dòng)了大語言模型的崛起,通過在海量文本語料上的預(yù)訓(xùn)練,獲得了通用表示能力。
相比于需要標(biāo)注數(shù)據(jù)的 SAM 模型和依賴圖像 - 文本對(duì)進(jìn)行訓(xùn)練的 CLIP 模型,基于自監(jiān)督學(xué)習(xí)的 DINO 具備有直接從圖像本身生成學(xué)習(xí)信號(hào)的優(yōu)勢(shì),數(shù)據(jù)準(zhǔn)備門檻更低,更容易實(shí)現(xiàn)更大規(guī)模的數(shù)據(jù)學(xué)習(xí)以達(dá)到更精細(xì)的圖像特征,泛化性更強(qiáng)。
2021 年,Meta 發(fā)布 DINO,它基于 ViT 構(gòu)建,在無需標(biāo)注的情況下可以學(xué)習(xí)到語義分割、對(duì)象檢測(cè)等任務(wù)中高可用的特征,填補(bǔ)了 SAM 模型在計(jì)算機(jī)視覺下游任務(wù)的空白。
2023 年,DINOv2 發(fā)布并開源,是 DINO 模型的改進(jìn)版本。它采用了更大規(guī)模的數(shù)據(jù),強(qiáng)調(diào)訓(xùn)練穩(wěn)定性和通用性,支持線性分類、深度估計(jì)、圖像檢索等下游任務(wù),效果逼近或超越弱監(jiān)督方法。
DINOv2 不僅被 Meta 用作 ImageBind 等多模態(tài)模型的視覺表征基礎(chǔ),也在各類視覺相關(guān)研究工作中作為經(jīng)典模型廣泛使用。

DINOv2 數(shù)據(jù)處理管線圖
雖然 DINOv2 已經(jīng)存在兩年之久,它仍然是 CV 領(lǐng)域最優(yōu)秀的前沿圖像模型之一,具有完善可擴(kuò)展的 ViT 結(jié)構(gòu),但遺憾就遺憾在訓(xùn)練數(shù)據(jù)量不夠大,在高分辨率圖像密集特征的任務(wù)中仍不夠理想。
今天,DINOv2 的兩大遺憾徹底被補(bǔ)足了。Meta 正式推出并開源了 DINOv3,一款通用的、SOTA 級(jí)的視覺基礎(chǔ)模型,同樣采用了自監(jiān)督學(xué)習(xí)訓(xùn)練,能夠生成更高質(zhì)量的高分辨率視覺特征。
DINOv3 首次實(shí)現(xiàn):一個(gè)單一的凍結(jié)視覺骨干網(wǎng)絡(luò)在多個(gè)長(zhǎng)期存在的密集預(yù)測(cè)任務(wù)(如目標(biāo)檢測(cè)和語義分割)中超越了專業(yè)解決方案。

DINOv3 取得突破性性能的核心在于其創(chuàng)新的自監(jiān)督學(xué)習(xí)技術(shù),這些技術(shù)徹底擺脫了對(duì)標(biāo)注數(shù)據(jù)的依賴,大幅降低了訓(xùn)練所需的時(shí)間與資源,使得訓(xùn)練數(shù)據(jù)擴(kuò)展至 17 億張圖像,模型參數(shù)規(guī)模擴(kuò)展至 70 億。這種無標(biāo)簽方法適用于標(biāo)簽稀缺、標(biāo)注成本高昂甚至不可能獲取標(biāo)注的應(yīng)用場(chǎng)景。

從 DINO、DINO v2 到 DINOv3。
Meta 表示,其正以商業(yè)許可方式開源 DINOv3 的一整套骨干網(wǎng)絡(luò),其中包括基于 MAXAR 衛(wèi)星圖像訓(xùn)練的衛(wèi)星圖像骨干網(wǎng)絡(luò)。同時(shí),Meta 還開放了部分下游任務(wù)的評(píng)估頭(task head),以便社區(qū)復(fù)現(xiàn)其結(jié)果并在此基礎(chǔ)上拓展研究。此外還提供了示例筆記本,幫助開發(fā)者快速上手,立即開始構(gòu)建基于 DINOv3 的應(yīng)用。
對(duì)于 Meta 此次的新模型,網(wǎng)友調(diào)侃道,「我還以為 Meta 已經(jīng)不行了,終于又搞出了點(diǎn)新東西。」

自監(jiān)督學(xué)習(xí)模型的全新里程碑
DINOv3 實(shí)現(xiàn)了一個(gè)新的里程碑:首次證明自監(jiān)督學(xué)習(xí)(SSL)模型在廣泛任務(wù)上能夠超越弱監(jiān)督模型。盡管前代 DINO 模型已在語義分割、單目深度估計(jì)等密集預(yù)測(cè)任務(wù)中取得顯著領(lǐng)先,DINOv3 的表現(xiàn)更勝一籌。
DINOv3 在多個(gè)圖像分類基準(zhǔn)上達(dá)到了與最新強(qiáng)大模型(如 SigLIP 2 和 Perception Encoder)相當(dāng)或更優(yōu)的性能,同時(shí)在密集預(yù)測(cè)任務(wù)中顯著擴(kuò)大了性能差距。

DINOv3 基于突破性的 DINO 算法構(gòu)建而成,無需任何元數(shù)據(jù)輸入,所需訓(xùn)練計(jì)算量?jī)H為以往方法的一小部分,卻依然能夠產(chǎn)出表現(xiàn)卓越的視覺基礎(chǔ)模型。
DINOv3 中引入的一系列新改進(jìn),包括全新的 Gram Anchoring 策略,有效緩解了密集特征的坍縮問題,相比 DINOv2 擁有更出色、更加干凈的高分辨率密集特征圖;引入了旋轉(zhuǎn)位置編碼 RoPE,避免了固定位置編碼的限制,能夠天然適應(yīng)不同分辨率的輸入等。
這些新的改進(jìn)使其在多個(gè)高競(jìng)爭(zhēng)性的下游任務(wù)中(如目標(biāo)檢測(cè))取得了當(dāng)前 SOTA 性能,即使在「凍結(jié)權(quán)重」這一嚴(yán)苛限制條件下也是如此。這意味著研究人員和開發(fā)者無需對(duì)模型進(jìn)行針對(duì)性的微調(diào),從而大大提高了模型在更廣泛場(chǎng)景中的可用性和應(yīng)用效率。

從數(shù)據(jù)整理(無標(biāo)簽原始圖像、平衡的圖像數(shù)據(jù))、預(yù)訓(xùn)練(大規(guī)模自監(jiān)督學(xué)習(xí)模型)、Gram Anchoring(改進(jìn)的局部特征)、高分辨率微調(diào)(適用于高分辨率推理)和模型蒸餾(涵蓋多種模型規(guī)模)。

DINOv3 作為通用視覺特征提取器的工作流程,以及它在不同下游任務(wù)中的應(yīng)用方式。
高分辨率、密集特征與高精度
DINOv3 的一大亮點(diǎn),是相比于已有模型在高分辨率圖像以及密集圖像特征上的進(jìn)步,顯著改善了 DINOv2 時(shí)期的痛點(diǎn)。

比如說這張圖,是一張分辨率為 4096×4096 的水果攤圖像。要從這里找出某種特定的水果,就算是肉眼看都有點(diǎn)暈…
而 Meta 可視化了 DINOv3 輸出特征所生成的 余弦相似度圖,展示了圖像中某個(gè)被紅色叉標(biāo)記的 patch 與所有其他 patch 之間的相似度關(guān)系。
放大看看,是不是還挺準(zhǔn)確的?

關(guān)于密集特征部分,Meta 通過以下方式可視化 DINOv3 的密集特征:對(duì)其特征空間執(zhí)行主成分分析(PCA),然后將前三個(gè)主成分映射為 RGB 顏色通道。為使 PCA 聚焦于主體區(qū)域,Meta 對(duì)特征圖進(jìn)行了背景剔除處理。
隨著圖像分辨率的提升,DINOv3 能夠生成清晰銳利且語義一致的特征圖。
Meta 稱,盡管自監(jiān)督學(xué)習(xí)出現(xiàn)較晚,但其發(fā)展迅速,如今已追趕上近年來 ImageNet 上的精度上限。
可擴(kuò)展、高效且無需微調(diào)
DINOv3 是在其前代 DINOv2 的基礎(chǔ)上構(gòu)建的,模型規(guī)模擴(kuò)大了 7 倍,訓(xùn)練數(shù)據(jù)集擴(kuò)大了 12 倍。為展現(xiàn)模型的通用性,Meta 在 15 個(gè)不同的視覺任務(wù)和超過 60 個(gè)基準(zhǔn)測(cè)試上進(jìn)行了評(píng)估。DINOv3 的視覺骨干模型在所有密集預(yù)測(cè)任務(wù)中表現(xiàn)尤為出色,展現(xiàn)出對(duì)場(chǎng)景布局與物理結(jié)構(gòu)的深刻理解能力。

視頻目標(biāo)分割與跟蹤評(píng)估結(jié)果

分割與跟蹤示例
模型輸出的豐富密集特征,能夠捕捉圖像中每一個(gè)像素的可量化屬性或特征,并以浮點(diǎn)數(shù)向量的形式表示。這些特征能夠?qū)⑽矬w解析為更細(xì)粒度的組成部分,甚至能在不同實(shí)例和類別間進(jìn)行泛化。
憑借這種強(qiáng)大的密集表示能力,Meta 可以在 DINOv3 上方僅用極少的標(biāo)注訓(xùn)練輕量化的適配器 —— 只需少量標(biāo)注和一個(gè)線性模型,就能獲得穩(wěn)健的密集預(yù)測(cè)結(jié)果。
進(jìn)一步地,結(jié)合更復(fù)雜的解碼器,Meta 展示了:無需對(duì)骨干網(wǎng)絡(luò)進(jìn)行微調(diào),也能在長(zhǎng)期存在的核心視覺任務(wù)上取得最先進(jìn)的性能,包括目標(biāo)檢測(cè)、語義分割和相對(duì)深度估計(jì)。
由于在無需微調(diào)骨干網(wǎng)絡(luò)的前提下也能實(shí)現(xiàn) SOTA(最先進(jìn))性能,單次前向傳播就可以同時(shí)服務(wù)多個(gè)任務(wù),從而顯著降低推理成本。這一點(diǎn)對(duì)邊緣應(yīng)用場(chǎng)景尤為關(guān)鍵,這些場(chǎng)景往往需要同時(shí)執(zhí)行多項(xiàng)視覺預(yù)測(cè)任務(wù)。
易于部署的系列模型
將 DINOv3 擴(kuò)展至 70 億參數(shù)規(guī)模,展現(xiàn)了自監(jiān)督學(xué)習(xí)(SSL)的全部潛力。然而,對(duì)于許多下游應(yīng)用而言,70 億參數(shù)的模型并不現(xiàn)實(shí)。基于社區(qū)反饋,Meta 構(gòu)建了一個(gè)涵蓋不同推理計(jì)算需求的模型家族,以便支持研究人員和開發(fā)者在各種使用場(chǎng)景中進(jìn)行部署。
通過將 ViT-7B 模型進(jìn)行蒸餾,Meta 得到了一系列更小但性能依舊出色的模型變體,如 ViT-B 和 ViT-L,使得 DINOv3 在多個(gè)評(píng)估任務(wù)中全面超越了同類的基于 CLIP 的模型。
此外,Meta 還推出了一系列蒸餾自 ViT-7B 的 ConvNeXt 架構(gòu)模型(T、S、B、L 版本),它們能夠滿足不同的計(jì)算資源約束需求。與此同時(shí),Meta 也將完整的蒸餾流程管線開源,以便社區(qū)在此基礎(chǔ)上進(jìn)一步開發(fā)與創(chuàng)新。
Meta「改變世界」的嘗試
Meta 稱,DINOv2 已經(jīng)通過利用大量未標(biāo)注數(shù)據(jù),為組織在組織病理學(xué)、內(nèi)窺鏡檢查和醫(yī)學(xué)影像等領(lǐng)域的診斷和研究工作提供支持。
在衛(wèi)星與航空影像領(lǐng)域,數(shù)據(jù)體量龐大且結(jié)構(gòu)復(fù)雜,人工標(biāo)注幾乎不可行。借助 DINOv3,Meta 使這些高價(jià)值數(shù)據(jù)集能夠用于訓(xùn)練統(tǒng)一的視覺骨干模型,進(jìn)而可廣泛應(yīng)用于環(huán)境監(jiān)測(cè)、城市規(guī)劃和災(zāi)害響應(yīng)等領(lǐng)域。
DINOv3 的通用性與高效性使其成為此類部署的理想選擇 —— 正如 NASA 噴氣推進(jìn)實(shí)驗(yàn)室(JPL)所展示的那樣,其已經(jīng)在使用 DINOv2 構(gòu)建火星探索機(jī)器人,實(shí)現(xiàn)多個(gè)視覺任務(wù)的輕量執(zhí)行。
DINOv3 已經(jīng)開始在現(xiàn)實(shí)世界中產(chǎn)生實(shí)際影響。世界資源研究所(WRI)正在使用 DINOv3 分析衛(wèi)星圖像,檢測(cè)森林損失和土地利用變化。DINOv3 帶來的精度提升使其能夠自動(dòng)化氣候金融支付流程,通過更精確地驗(yàn)證修復(fù)成果來降低交易成本、加速資金發(fā)放,特別是支持小型本地組織。
例如,與 DINOv2 相比,DINOv3 在使用衛(wèi)星與航空影像進(jìn)行訓(xùn)練后,將肯尼亞某地區(qū)樹冠高度測(cè)量的平均誤差從 4.1 米降低至 1.2 米。這使得 WRI 能夠更高效地?cái)U(kuò)大對(duì)數(shù)千名農(nóng)戶與自然保護(hù)項(xiàng)目的支持規(guī)模。

想要了解更多 DINOv3 細(xì)節(jié)的讀者,請(qǐng)移步原論文。

- 論文地址:https://ai.meta.com/research/publications/dinov3/
- Hugging Face 地址:https://huggingface.co/docs/transformers/main/en/model_doc/dinov3
- 博客地址:https://ai.meta.com/blog/dinov3-self-supervised-vision-model/




































