Meta AI發(fā)布革命性V-JEPA 2
近日Meta AI發(fā)布了V-JEPA 2(Video Joint-Embedding Predictive Architecture 2),這一開源世界模型的推出標志著AI從數(shù)字世界向物理世界邁出了重要一步。這個系統(tǒng)能夠從互聯(lián)網(wǎng)規(guī)模的視頻數(shù)據(jù)中學習,實現(xiàn)強大的視覺理解、未來狀態(tài)預測和零樣本規(guī)劃能力,為智能物理代理的發(fā)展奠定了重要基礎。
1.基于JEPA的創(chuàng)新突破

V-JEPA 2建立在聯(lián)合嵌入預測架構(JEPA)的基礎上,這是一種革命性的自監(jiān)督學習方法。與傳統(tǒng)的生成式預訓練方法不同,JEPA通過在抽象表示空間中進行預測,避免了像素級預測的低效性。這種方法專注于學習可預測的場景動態(tài),同時忽略不相關的噪聲信息。
JEPA的核心思想是通過聯(lián)合嵌入的方式,讓模型學習輸入數(shù)據(jù)的抽象表示,然后在這個表示空間中進行預測。這種方法不僅計算效率更高,還能夠學習到更加魯棒和可泛化的特征表示。

V-JEPA 2采用了先進的視覺掩碼去噪目標來進行學習。該模型通過重建被掩碼的時空補丁來學習視頻的潛在表示。這種方法的巧妙之處在于,它迫使模型理解視頻中的時空關系和動態(tài)變化,而不僅僅是靜態(tài)的視覺特征。
在訓練過程中,模型隨機掩蓋視頻幀中的某些區(qū)域,然后嘗試根據(jù)未被掩蓋的部分來重建這些區(qū)域。這種自監(jiān)督的學習方式使得模型能夠學習到視頻中物體的運動模式、場景的變化規(guī)律以及時間序列中的因果關系。
V-JEPA 2的訓練規(guī)模達到了前所未有的水平,使用了超過100萬小時的互聯(lián)網(wǎng)規(guī)模視頻數(shù)據(jù),結合了100萬張圖像。這種大規(guī)模的數(shù)據(jù)訓練使得模型能夠接觸到豐富多樣的視覺場景和動態(tài)模式,為其強大的泛化能力奠定了基礎。

訓練數(shù)據(jù)集VideoMix22M包含了2200萬個樣本,來源于多個公開數(shù)據(jù)集,包括Something-Something v2 (SSv2)、Kinetics、HowTo100M、YT-Temporal-1B和ImageNet。這些數(shù)據(jù)集涵蓋了從日常生活場景到專業(yè)技能演示的各種視頻內(nèi)容,為模型提供了全面的視覺世界知識。
2.關鍵技術
- 數(shù)據(jù)規(guī)模化技術:構建了包含2200萬樣本的VideoMix22M數(shù)據(jù)集,整合了多個公開數(shù)據(jù)源。這種大規(guī)模數(shù)據(jù)集的構建不僅僅是簡單的數(shù)據(jù)堆疊,而是經(jīng)過精心設計的數(shù)據(jù)融合策略,確保了數(shù)據(jù)的多樣性和質量。
- 模型規(guī)模化技術:將編碼器容量擴展到超過1B參數(shù),使用了Vision Transformer-giant (ViT-g)架構。這種大規(guī)模的模型設計使得V-JEPA 2能夠處理復雜的視覺模式和長期依賴關系。
- 訓練策略優(yōu)化:采用了漸進式分辨率策略,將預訓練擴展到252,000次迭代。這種訓練策略允許模型逐步適應不同分辨率的輸入,提高了訓練效率和最終性能。

在損失函數(shù)方面,采用了教師強制損失,預測器接收當前幀表征的編碼作為輸入,學習預測下一時間步的表征;另一方面,滾動損失通過將預測器的輸出反饋回輸入端,使模型能夠預測未來多個時間步的表征。通過聯(lián)合優(yōu)化這兩種損失函數(shù)的總和,V-JEPA 2-AC 顯著減少了多步推演過程中的誤差累積,從而有效提升了長期未來預測的準確性。
- 時空增強技術:在漸進式更長和更高分辨率的視頻片段上進行訓練,最終達到64幀、384×384分辨率。這種時空增強技術使得模型能夠處理更加詳細和復雜的視頻內(nèi)容。
3.卓越性能
V-JEPA 2在六個主要基準測試任務中取得了平均88.2%的準確率,包括SSv2、Diving-48、Jester、Kinetics、COIN和ImageNet,全面超越了之前的基準模型。這一成績不僅體現(xiàn)了模型的強大性能,也證明了其在不同類型視覺任務中的泛化能力。
在運動理解方面,V-JEPA 2在Something-Something v2基準測試中達到了77.3%的top-1準確率,超越了InternVideo和VideoMAEv2等知名模型。這個結果特別值得關注,因為Something-Something v2是一個專門測試時序動作理解的具有挑戰(zhàn)性的數(shù)據(jù)集。

在外觀理解方面,V-JEPA 2與最先進的圖像-文本預訓練模型如DINOv2和PEcoreG保持了競爭力。這表明該模型不僅在動態(tài)視頻理解方面表現(xiàn)出色,在靜態(tài)視覺特征提取方面也具有強大的能力。
通過注意力探測器的評估,研究人員驗證了僅通過自監(jiān)督學習就能夠產(chǎn)生可遷移和領域無關的視覺特征,這些特征可以應用于各種分類任務。這一發(fā)現(xiàn)對于計算機視覺領域具有重要意義,因為它表明大規(guī)模的自監(jiān)督學習可以學習到通用的視覺表示。

為了評估時序推理能力,V-JEPA 2編碼器與多模態(tài)大語言模型進行了對齊,并在多個視頻問答任務上進行了評估。令人印象深刻的是,盡管在預訓練期間缺乏語言監(jiān)督,該模型仍然取得了優(yōu)異的成績。
在各個測試中,V-JEPA 2表現(xiàn)出色:在PerceptionTest上達到84.0%,在TempCompass上達到76.9%,在MVP上達到44.5%,在TemporalBench上達到36.7%,在TOMATO上達到40.3%。這些結果挑戰(zhàn)了視覺-語言對齊需要從一開始就進行聯(lián)合訓練的假設。
這一成果證明了預訓練的視頻編碼器可以在后期與語言模型進行對齊,并展現(xiàn)出強大的泛化能力。這種方法的成功意味著我們可以先專注于視覺理解的學習,然后再添加語言理解能力,這為多模態(tài)AI系統(tǒng)的開發(fā)提供了新的思路。
4.V-JEPA 2-AC:機器人規(guī)劃的革命性突破
V-JEPA 2-AC是這次發(fā)布的關鍵創(chuàng)新,它是預訓練編碼器的動作條件化變體。這個模型僅使用來自Droid數(shù)據(jù)集的62小時未標注機器人視頻進行微調,就學會了根據(jù)機器人的動作和姿態(tài)來預測未來的視頻嵌入。
該架構是一個3億參數(shù)的transformer,采用塊因果注意力機制,使用教師強制和展開目標進行訓練。這種設計使得模型能夠理解動作與環(huán)境變化之間的因果關系,為機器人的智能行為提供了基礎。
通過模型預測控制,V-JEPA 2-AC實現(xiàn)了零樣本規(guī)劃能力。該模型通過使用交叉熵方法(CEM)最小化想象的未來狀態(tài)與視覺目標之間的距離來推斷動作序列。這種方法使得機器人能夠在沒有看到過的環(huán)境中執(zhí)行復雜的任務。
模型在到達、抓取和拾取-放置等任務中取得了很高的成功率,這些任務在不同實驗室的未見過的機器人手臂上進行,無需任何獎勵監(jiān)督或額外的數(shù)據(jù)收集。這種零樣本能力的實現(xiàn)是機器人技術發(fā)展的重要里程碑。
與基準方法Octo(行為克隆)和Cosmos(潛在擴散世界模型)相比,V-JEPA 2-AC展現(xiàn)出了顯著的優(yōu)勢。在執(zhí)行效率方面,V-JEPA 2-AC每步執(zhí)行計劃僅需約16秒,而Cosmos需要4分鐘,效率提升了15倍。
在任務成功率方面,V-JEPA 2-AC在到達任務中達到了100%的成功率,并在各種物體類型的抓取和操作任務中超越了其他方法。這種性能的提升不僅僅是數(shù)值上的改進,更代表了實用性的重大飛躍。
值得注意的是,V-JEPA 2-AC僅使用單目RGB攝像頭運行,無需校準或環(huán)境特定的微調。這種簡單的硬件要求大大降低了部署門檻,使得該技術更容易在實際場景中應用。
這種通用性的實現(xiàn)強化了學習世界模型的泛化能力,表明V-JEPA 2-AC不僅僅是一個實驗室的原型,而是一個可以在真實世界中部署的實用系統(tǒng)。
本文轉載自??魯班模錘??,作者:龐德公

















