一拖一拽,玫瑰復(fù)活了!谷歌提出生成圖像動力學(xué),從此萬物皆有靈
快看,輕輕一拉,玫瑰動就起來了。

拖著葉子往左一拉,這顆松柏向同樣的方向移動。

還有世界各種物體的圖片,隨手一拉,瞬間活靈活現(xiàn)。

這便是谷歌團(tuán)隊最新研究,讓你的手變成「魔法金手指」,萬物皆可,一觸即動。

https://generative-dynamics.github.io/static/pdfs/GenerativeImageDynamics.pdf
在這篇論文中,谷歌提出了「Generative Image Dynamics」,通過對圖像空間先驗進(jìn)行建模,然后訓(xùn)練模型預(yù)測「神經(jīng)隨機(jī)運(yùn)動紋理」。
最后就實現(xiàn)了,與單個圖像交互,甚至可以生成一個無限循環(huán)的視頻。
未來,藝術(shù)家們的想象力不再受限于傳統(tǒng)的框架,一切皆有可能在這個動態(tài)的圖像空間實現(xiàn)。
圖中萬物,「活」起來了
世界中萬物的運(yùn)動, 是多模態(tài)的。
院子里晾曬的衣服,隨著風(fēng)前后擺動。

街邊的掛著的大紅燈籠,在空中搖擺。

還有窗簾邊睡覺的小貓,肚子呼吸的起伏,好慵懶。

這些運(yùn)動并通常是可以預(yù)見的:蠟燭會以某種方式燃燒,樹木會隨著風(fēng)搖曳,樹葉會沙沙作響...
拿起一張照片,或許研究人員就可以想象到,拍攝時它運(yùn)動的樣子。
鑒于當(dāng)前生成模型的發(fā)展,特別是擴(kuò)散模型,使得人們能夠?qū)Ω叨蓉S富和復(fù)雜的分布進(jìn)行建模。
這讓許多以往不可能的應(yīng)用成為可能,比如文本生成任意逼真的圖像。除了在圖像領(lǐng)域大展身手,擴(kuò)散模型同樣可以在視頻領(lǐng)域建模。

由此,谷歌團(tuán)隊在這項研究中,對圖像空間場景運(yùn)動的生成先驗進(jìn)行建模,即單個圖像中所有像素的運(yùn)動。
是根據(jù)從大量真實視頻序列中自動提取的運(yùn)動軌跡,來進(jìn)行模型訓(xùn)練。
以輸入圖像為條件,訓(xùn)練后的模型預(yù)測「神經(jīng)隨機(jī)運(yùn)動紋理」:一組運(yùn)動基礎(chǔ)系數(shù),用于描述每個像素未來的軌跡。

谷歌研究人員將研究范圍限定在,具有自然擺動動態(tài)的真實世界場景,如隨風(fēng)飄動的樹木和花朵,因此選擇傅立葉級數(shù)作為基函數(shù)。
然后,使用擴(kuò)散模型來預(yù)測「神經(jīng)隨機(jī)運(yùn)動紋理」,模型每次只生成一個頻率的系數(shù),但會在不同頻段之間協(xié)調(diào)這些預(yù)測。
由此產(chǎn)生的頻率空間紋理,可以轉(zhuǎn)化為密集的長距離像素運(yùn)動軌跡,可用于合成未來幀,將靜態(tài)圖像轉(zhuǎn)化為逼真的動畫。

接下來,具體看看是如何實現(xiàn)的?
技術(shù)介紹
基于單張圖片
,研究人員的目標(biāo)是生成長度為T的視頻
,這段視頻能夠呈現(xiàn)動態(tài)的樹木、花朵,或者是在微風(fēng)中搖曳的蠟燭火焰等。
研究人員的構(gòu)架的的系統(tǒng)由兩個模塊組成:「動作預(yù)測模塊」和「基于圖像的渲染模塊」。
首先,研究人員使用「潛在擴(kuò)散模型」為輸入圖片
預(yù)測一個神經(jīng)隨機(jī)運(yùn)動紋理
它是輸入圖像中每個像素運(yùn)動軌跡的頻率表示。
第二步,使用逆離散傅立葉變換將預(yù)測出的隨機(jī)運(yùn)動紋理轉(zhuǎn)化為一系列運(yùn)動位移場(motion displacement fields)
。
這些運(yùn)動位移場將用于確定每個輸入像素在每一個未來時間步長的位置。
有了這些預(yù)測的運(yùn)動場,研究人員的渲染模塊使用基于圖像的渲染技術(shù),從輸入的RGB圖像中拾取編碼特征,并通過圖像合成網(wǎng)絡(luò)將這些拾取的特征解碼為輸出幀。
神經(jīng)隨機(jī)運(yùn)動紋理
運(yùn)動紋理
之前的研究中,運(yùn)動紋理定義了一系列時變的2D位移映射( displacement map)

其中,每個像素坐標(biāo)p,從輸入圖像
中的2D位移向量定義了該像素在未來時間t的位置。
為了在時間t生成一個未來幀,可以使用相應(yīng)的位移映射,從
中拾取像素,從而得到一個前向變形的圖像:

隨機(jī)運(yùn)動紋理
正如之前在計算機(jī)圖形研究中所證明的,許多自然運(yùn)動,特別是振蕩運(yùn)動,可以描述為一小組諧振子(harmonic oscillators)的疊加,這些諧振子用不同的頻率、振幅和相位表示。
一種引入運(yùn)動的隨機(jī)性的方法是整合噪聲場。但正如之前研究結(jié)果表明的,直接在預(yù)測的運(yùn)動場的空間和時間域內(nèi)添加隨機(jī)噪聲通常會導(dǎo)致不現(xiàn)實或不穩(wěn)定的動畫。
更進(jìn)一步,采用上面定義的時間域內(nèi)的運(yùn)動紋理意味著需要預(yù)測T個2D位移場,才能生成一個包含T幀的視頻片段。為了避免預(yù)測如此大的輸出表示,許多先前的動畫方法要么自回歸地生成視頻幀,要么通過額外的時間嵌入獨(dú)立預(yù)測每個未來的輸出幀。
然而,這兩種策略都不能確保生成的視頻幀在長期內(nèi)具有時間上的一致性,而且都可能產(chǎn)生隨時間漂移或發(fā)散的視頻。
為了解決上述問題,研究人員在頻率域中表示輸入場景的每像素運(yùn)動紋理(即所有像素的完整運(yùn)動軌跡),并將運(yùn)動預(yù)測問題表述為一種多模態(tài)的圖像到圖像的轉(zhuǎn)換任務(wù)。
研究人員采用潛在擴(kuò)散模型(LDM)生成由一個4K通道的2D運(yùn)動光譜圖組成的隨機(jī)運(yùn)動紋理,其中K << T是建模的頻率數(shù),而在每個頻率上,研究人員需要四個標(biāo)量來表示x和y維度的復(fù)傅立葉系數(shù)。
下圖展示了這些神經(jīng)隨機(jī)運(yùn)動紋理。

那么,應(yīng)該如何選擇研究人員表示的 K 輸出頻率呢?實時動畫之前的研究說明,大多數(shù)自然振蕩運(yùn)動主要由低頻分量(low-frequency component)組成。
為了驗證這一假設(shè),研究人員計算了從1000個隨機(jī)抽樣的5秒真實視頻剪輯中提取出來的運(yùn)動的平均功率譜。如下圖左圖所示,功率主要集中在低頻分量上。

動作的頻譜隨著頻率的增加呈指數(shù)下降。這表明大多數(shù)自然振動動作確實可以由低頻項很好地表示。
在實踐中,研究人員發(fā)現(xiàn)前K=16個傅里葉系數(shù)足以在一系列真實視頻和場景中真實地重現(xiàn)原始的自然動作。
使用擴(kuò)散模型預(yù)測動作
研究人員選擇潛在擴(kuò)散模型(LDM)作為研究人員的動作預(yù)測模塊的核心,因為LDM在保持生成質(zhì)量的同時,比像素空間擴(kuò)散模型更加計算高效。
一個標(biāo)準(zhǔn)的LDM主要包括兩個模塊:
1.一個變分自編碼器(VAE)通過編碼器z = E(I)將輸入圖像壓縮到潛在空間,然后通過解碼器I = D(z)從潛在特征中重構(gòu)輸入。
2.一個基于U-Net的擴(kuò)散模型,這個模型學(xué)會從高斯隨機(jī)噪聲開始迭代地去噪潛在特征。
研究人員的訓(xùn)練不是應(yīng)用于輸入圖像,而是應(yīng)用于來自真實視頻序列的隨機(jī)動作紋理,這些紋理被編碼然后在預(yù)定義的方差時間表中擴(kuò)散n步以產(chǎn)生噪聲潛在變量zn。
頻率自適應(yīng)歸一化(Frequency adaptive normalization)
研究人員觀察到一個問題,隨機(jī)動作紋理在頻率上具有特定的分布特性。上圖的左側(cè)圖所示,研究人員的動作紋理的幅度范圍從0到100,并且隨著頻率的增加大致呈指數(shù)衰減。
由于擴(kuò)散模型需要輸出值位于0和1之間以實現(xiàn)穩(wěn)定的訓(xùn)練和去噪,因此研究人員必須在用它們進(jìn)行訓(xùn)練之前歸一化從真實視頻中提取的S系數(shù)。
如果研究人員根據(jù)圖像寬度和高度將S系數(shù)的幅度縮放到[0,1],那么在較高頻率處幾乎所有的系數(shù)都會接近于零,上圖(右側(cè))所示。
在這樣的數(shù)據(jù)上訓(xùn)練出的模型可能會產(chǎn)生不準(zhǔn)確的動作,因為在推理過程中,即使是很小的預(yù)測誤差也可能在反歸一化后導(dǎo)致很大的相對誤差,當(dāng)歸一化的S系數(shù)的幅度非常接近于零時。
為了解決這個問題,研究人員采用了一種簡單但有效的頻率自適應(yīng)歸一化技術(shù)。具體而言,研究人員首先根據(jù)從訓(xùn)練集中計算的統(tǒng)計數(shù)據(jù)獨(dú)立地對每個頻率處的傅里葉系數(shù)進(jìn)行歸一化。
頻率協(xié)調(diào)去噪(Frequency-coordinated denoising)
預(yù)測具有K個頻率帶的隨機(jī)動作紋理S的直接方法是從標(biāo)準(zhǔn)擴(kuò)散U-Net輸出一個具有4K通道的張量。
然而,訓(xùn)練一個模型以產(chǎn)生如此大量的通道往往會產(chǎn)生過度平滑和不準(zhǔn)確的輸出。
另一種方法是通過向LDM注入額外的頻率嵌入來獨(dú)立預(yù)測每個單獨(dú)頻率處的動作光譜圖,但這會導(dǎo)致頻率域中的不相關(guān)預(yù)測,從而產(chǎn)生不真實的動作。
因此,研究人員提出了下圖中所示的頻率協(xié)調(diào)去噪策略。具體來說,給定一個輸入圖像I0,研究人員首先訓(xùn)練一個LDM來預(yù)測具有四個通道的每個單獨(dú)頻率的隨機(jī)動作紋理圖,其中研究人員將額外的頻率嵌入和時間步嵌入一起注入到LDM網(wǎng)絡(luò)中。

基于圖像的渲染
研究人員進(jìn)一步描述如何利用為給定輸入圖像I0預(yù)測的隨機(jī)運(yùn)動紋理S來渲染未來時刻t的幀?It。首先,研究人員使用逆時域FFT(快速傅里葉變換)在每個像素點p處計算運(yùn)動軌跡場

這些運(yùn)動軌跡場決定了每一個輸入像素在未來每一個時間步長的位置。為了生成未來的幀It,研究人員采用深度圖像基渲染技術(shù),并執(zhí)行使用預(yù)測的運(yùn)動場的前向扭曲(splatting)來扭曲編碼的I0,如下圖所示。

由于前向扭曲可能導(dǎo)致圖像出現(xiàn)空洞,以及多個源像素可能映射到相同的輸出2D位置,研究人員采用了先前在幀插值研究中提出的特征金字塔Softmax扭曲策略。
研究人員共同訓(xùn)練特征提取器和合成網(wǎng)絡(luò),用從真實視頻中隨機(jī)抽取的起始和目標(biāo)幀,其中研究人員使用從I0到It的估計流場來扭曲I0的編碼特征,并用VGG感知損失對預(yù)測的?It進(jìn)行監(jiān)督。

如上圖所示,與直接平均扭曲和基線深度扭曲方法相比,研究人員的運(yùn)動感知特征扭曲生成了一個沒有空洞或者人工痕跡的幀。
進(jìn)一步的擴(kuò)展應(yīng)用
研究人員進(jìn)一步展示了利用研究人員提出的運(yùn)動表示和動畫流程,為單張靜態(tài)圖像添加動態(tài)效果的應(yīng)用。
圖像到視頻
研究人員的系統(tǒng)通過首先從輸入圖像預(yù)測出一個神經(jīng)隨機(jī)運(yùn)動紋理,并通過應(yīng)用研究人員基于圖像的渲染模塊到從隨機(jī)運(yùn)動紋理派生出的運(yùn)動位移場,實現(xiàn)了單張靜態(tài)圖片的動畫生成。
由于研究人員明確地對場景運(yùn)動進(jìn)行了建模,這允許研究人員通過線性插值運(yùn)動位移場來生成慢動作視頻,并通過調(diào)整預(yù)測的隨機(jī)運(yùn)動紋理系數(shù)的振幅來放大(或縮小)動畫運(yùn)動。
無縫循環(huán)
有時生成具有無縫循環(huán)運(yùn)動的視頻是非常有用的,意味著視頻開始和結(jié)束之間沒有外觀或運(yùn)動的不連續(xù)性。
不幸的是,很難找到一個大量的無縫循環(huán)視頻的訓(xùn)練集。因此,研究人員設(shè)計了一種方法,使用研究人員的運(yùn)動擴(kuò)散模型,該模型訓(xùn)練在常規(guī)的非循環(huán)視頻片段上,以產(chǎn)生無縫循環(huán)的視頻。
受近期有關(guān)圖像編輯指導(dǎo)研究的啟發(fā),研究人員的方法是一種運(yùn)動自引導(dǎo)技術(shù),該技術(shù)使用明確的循環(huán)約束來引導(dǎo)運(yùn)動去噪采樣過程。
具體來說,在推斷階段的每個迭代去噪步驟中,研究人員在標(biāo)準(zhǔn)的無分類器引導(dǎo)旁邊加入了一個額外的運(yùn)動引導(dǎo)信號,其中研究人員強(qiáng)制每個像素在開始和結(jié)束幀的位置和速度盡可能相似。
從單一圖像生成可交互的動畫
振蕩物體的觀察視頻中的圖像空間運(yùn)動譜近似于該物體的物理振動模態(tài)基礎(chǔ)。
模態(tài)形狀捕獲了物體在不同頻率下的振蕩動態(tài),因此物體振動模式的圖像空間投影可以用于模擬物體對用戶定義的力(如戳或拉)的反應(yīng)。
因此,研究人員采用了之前研究的模態(tài)分析技術(shù),該技術(shù)假設(shè)物體的運(yùn)動可以由一組諧振子的疊加來解釋。
這使得研究人員將物體的物理響應(yīng)的圖像空間二維運(yùn)動位移場寫為傅里葉譜系數(shù)與每個模擬時間步驟t的復(fù)模態(tài)坐標(biāo),以及時間t的加權(quán)和。
實驗評估
研究團(tuán)隊對最新方法,與基線方法在未見視頻片段測試集上進(jìn)行了定量比較。
結(jié)果發(fā)現(xiàn),谷歌的方法在圖像和視頻合成質(zhì)量方面都顯著優(yōu)于先前的單圖像動畫基線。
具體來說,谷歌的FVD和DT-FVD距離要低得多,這表明這一方法生成的視頻更加真實且時間上更加連貫。

更進(jìn)一步地,圖6顯示了不同方法生成的視頻的滑動窗口 FID 和滑動窗口 DT-FVD 距離。
由于谷歌采用了全局隨機(jī)運(yùn)動紋理表示,其方法生成的視頻在時間上更加一致,并且不會隨著時間的推移而發(fā)生漂移或退化。

另外,谷歌團(tuán)隊通過2種方式,對自己的方法和基線生成的視頻進(jìn)行可視化定性比較。
首先,展示了生成視頻的X-t時空切片,如圖7所示。
谷歌生成的視頻動態(tài),與相應(yīng)真實參考視頻(第二列)中觀察到的運(yùn)動模式更為相似。隨機(jī)I2V和MCVD等基線無法隨著時間的推移真實地模擬外觀和運(yùn)動。

我們還通過可視化預(yù)測圖像
及其在時間t =128時相應(yīng)的運(yùn)動位移場,定性比較不同方法中各個生成的幀和運(yùn)動的質(zhì)量。
與其他方法相比,谷歌生成的方法生成的幀表現(xiàn)出較少的偽影和失真,相應(yīng)的二維運(yùn)動場與從相應(yīng)的真實視頻中估算出的參考位移場最為相似。

消融研究:從表2中觀察到,與完整模型相比,所有更簡單或替代的配置都會導(dǎo)致性能更差。

作者介紹
Zhengqi Li

Zhengqi Li是谷歌研究院的一名研究科學(xué)家。他的研究興趣包括,3D/4D計算機(jī)視覺、基于圖像的渲染和計算攝影,尤其是in the wild圖像和視頻。他在康奈爾大學(xué)獲得了計算機(jī)科學(xué)博士學(xué)位,導(dǎo)師是Noah Snavely。
他是CVPR 2019最佳論文榮譽(yù)提名獎、2020年谷歌博士獎學(xué)金、2020年奧多比研究獎學(xué)金、2021年百度全球人工智能100強(qiáng)中國新星獎和CVPR 2023最佳論文榮譽(yù)獎的獲得者。



























