Meta AI 發(fā)布 Apollo:視頻理解的新家族——LMM 大型多模態(tài)模型 原創(chuàng)
01、概述
近年來,隨著多模態(tài)模型(LMMs)在文本和圖像處理任務(wù)上的進步,視頻處理領(lǐng)域卻顯得有些“姍姍來遲”。與單一靜態(tài)數(shù)據(jù)相比,視頻集成了時間和空間維度的復(fù)雜性,對計算資源的要求更高。然而,現(xiàn)有方法通常沿用圖像處理模型的架構(gòu),或依賴簡單的均勻幀采樣,這種方式難以有效捕捉視頻中的動態(tài)與時間模式。此外,訓(xùn)練大規(guī)模視頻模型耗費極大的計算資源,使得實驗和創(chuàng)新受限。
為了解決這些問題,Meta AI 和斯坦福大學(xué)的研究人員聯(lián)合推出了 Apollo —— 一款面向視頻內(nèi)容的多模態(tài)模型家族。Apollo 憑借創(chuàng)新設(shè)計、大幅提升效率,并為時間推理(Temporal Reasoning)與視頻問答等任務(wù)設(shè)立了全新標(biāo)桿,為視頻理解領(lǐng)域注入了新動能。
02、視頻多模態(tài)領(lǐng)域的里程碑:Apollo 家族亮相

Apollo 是專為視頻語言任務(wù)設(shè)計的多模態(tài)模型,其能力可以覆蓋長達一小時的視頻內(nèi)容。該家族目前有三種參數(shù)規(guī)模版本:1.5B、3B 和 7B,為不同的應(yīng)用場景和計算需求提供靈活選擇。其設(shè)計目標(biāo)是以精益的計算成本,帶來強大的性能表現(xiàn)。
核心創(chuàng)新點
- 一致性擴展:在小規(guī)模模型上的設(shè)計能夠無縫遷移至更大規(guī)模的模型,減少了大規(guī)模實驗的成本。
- 幀率采樣技術(shù)(fps Sampling):相較傳統(tǒng)的均勻采樣,幀率采樣能夠更高效地保留視頻的動態(tài)變化。
- 雙視覺編碼器(Dual Vision Encoders):SigLIP 擅長空間理解,InternVideo2 則聚焦時間推理,二者結(jié)合提供了全面的視頻數(shù)據(jù)表征。
- ApolloBench 基準(zhǔn)測試套件:精簡評估冗余項,提供更詳盡的性能洞察。
03、Apollo 的技術(shù)亮點

Apollo 的每一項設(shè)計都針對視頻多模態(tài)領(lǐng)域的主要挑戰(zhàn)進行優(yōu)化,通過獨特的策略實現(xiàn)視頻理解能力的突破。
1) 幀率采樣(fps Sampling)
幀率采樣突破了傳統(tǒng)均勻采樣的局限,能夠更精準(zhǔn)地捕捉時間序列中的動態(tài)變化。例如,Apollo 可以理解視頻中動作的速度、順序和邏輯,使其在時間推理任務(wù)中表現(xiàn)優(yōu)異。
2) 一致性擴展(Scaling Consistency)
傳統(tǒng)大規(guī)模視頻模型的開發(fā)往往需要高昂的資源投入,而 Apollo 的設(shè)計證明了,小規(guī)模模型(如 2B-4B 參數(shù))中的有效設(shè)計可以直接遷移到大規(guī)模模型(如 7B 參數(shù)),從而降低了開發(fā)與訓(xùn)練的計算開銷。
3) 雙視覺編碼器(Dual Vision Encoders)
Apollo 的架構(gòu)創(chuàng)新在于結(jié)合了兩種互補的編碼器:
- SigLIP:專注于視頻的空間維度,例如物體的細(xì)節(jié)與構(gòu)圖。
- InternVideo2:增強了對視頻時間軸的理解,比如動作銜接和節(jié)奏。這種組合不僅彌補了單一編碼器的局限,還實現(xiàn)了視頻數(shù)據(jù)的平衡表征。
4) Token 重采樣(Token Resampling)
長視頻的處理往往涉及大量數(shù)據(jù),而 Apollo 借助 Perceiver Resampler 模塊高效地縮減視頻 Token 數(shù)量,既減少了計算開銷,又保留了關(guān)鍵信息。
5) 三階段優(yōu)化訓(xùn)練
Apollo 的訓(xùn)練分為三個階段:
- 先針對視頻數(shù)據(jù)微調(diào)視覺編碼器;
- 再與文本和圖像數(shù)據(jù)集進行集成訓(xùn)練;
- 最后優(yōu)化多模態(tài)交互能力。
這種分階段的訓(xùn)練方式,使得模型的學(xué)習(xí)過程更加穩(wěn)定高效。
6) 多輪對話能力
Apollo 支持基于視頻內(nèi)容的多輪交互,例如視頻問答和內(nèi)容分析。這一特性為打造視頻內(nèi)容的智能交互系統(tǒng)提供了新的可能性。
04、性能表現(xiàn):小模型超越大模型
Apollo 的卓越性能不僅體現(xiàn)在其設(shè)計理念上,更通過一系列基準(zhǔn)測試得到了驗證。在多個評估任務(wù)中,Apollo 常常表現(xiàn)優(yōu)于參數(shù)規(guī)模更大的模型。

例如:
- Apollo-1.5B:在 Video-MME 和 MLVU 等任務(wù)中超越了許多規(guī)模為 4.2B 的模型,如 Phi-3.5-Vision。
- Apollo-7B:即使與參數(shù)量達 30B 的頂尖模型(如 Oryx-34B 和 VILA1.5-40B)相比,也表現(xiàn)出色。
05、ApolloBench:重新定義視頻-LMM 測試標(biāo)準(zhǔn)
與 Apollo 同時發(fā)布的還有專為視頻多模態(tài)任務(wù)設(shè)計的評估套件 ApolloBench。傳統(tǒng)基準(zhǔn)測試的一個問題是任務(wù)設(shè)置重復(fù)冗余,而 ApolloBench 則通過去冗余設(shè)計,提升了評估效率。此外,該測試套件覆蓋了更廣泛的視頻任務(wù)維度,為模型性能提供了更全面的洞察。
實際應(yīng)用:視頻理解的廣泛前景
Apollo 系列模型的出現(xiàn),不僅為學(xué)術(shù)研究提供了重要的技術(shù)支持,也在多個實際應(yīng)用場景中展現(xiàn)了潛力:
- 視頻問答系統(tǒng):憑借多輪對話能力,Apollo 可以在視頻問答和內(nèi)容理解中實現(xiàn)流暢交互。
- 內(nèi)容分析:為娛樂、教育和廣告領(lǐng)域提供精準(zhǔn)的視頻分析服務(wù)。
- 長視頻處理:支持長達一小時的視頻數(shù)據(jù)處理,適用于會議紀(jì)要生成、視頻摘要等復(fù)雜任務(wù)。
06、結(jié)語
Apollo 的問世標(biāo)志著視頻多模態(tài)技術(shù)邁入新紀(jì)元。通過在幀率采樣、雙視覺編碼器等方面的深度創(chuàng)新,Apollo 不僅在效率和性能上樹立了標(biāo)桿,也為視頻理解技術(shù)的普及和應(yīng)用提供了更多可能性。無論是學(xué)術(shù)研究還是實際商業(yè)應(yīng)用,Apollo 都是一款兼具創(chuàng)新性和實用性的工具,其開創(chuàng)性的設(shè)計為未來的多模態(tài)技術(shù)發(fā)展提供了全新視角。
參考:
本文轉(zhuǎn)載自公眾號Halo咯咯 作者:基咯咯

















