精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

深入理解Sora技術(shù)原理

開(kāi)發(fā) 前端
初始步驟是收集大量視頻數(shù)據(jù),并獲取或創(chuàng)建這些視頻對(duì)應(yīng)的文本標(biāo)注。這些文本簡(jiǎn)要描述了視頻內(nèi)容,是訓(xùn)練模型理解視頻主題的關(guān)鍵。

OpenAI 發(fā)布的視頻生成模型 Sora(https://openai.com/sora),能根據(jù)文本生成長(zhǎng)達(dá)一分鐘的高質(zhì)量視頻,理論上支持任意分辨率,如 1920x1080 、1080x1920 ,生成能力遠(yuǎn)超此前只能生成 25 幀 576x1024 圖像的頂尖視頻生成模型 Stable Video Diffusion。

一起公布的,還有一篇非常簡(jiǎn)短的技術(shù)報(bào)告,報(bào)告大致介紹了 Sora 的架構(gòu)及應(yīng)用場(chǎng)景,并未對(duì)模型的原理做過(guò)多的介紹。技術(shù)報(bào)告鏈接:https://openai.com/research/video-generation-models-as-world-simulators

筆者參考了大量的資料,試著深入理解 Sora 的技術(shù)原理,最終將 Sora 生成視頻的原理總結(jié)成以下大致的步驟:

  • 通過(guò)收集大量不同分辨率不同時(shí)長(zhǎng)的視頻,并對(duì)視頻進(jìn)行降維處理得到視頻的潛在空間數(shù)據(jù),并在潛在空間中進(jìn)行文本標(biāo)注與訓(xùn)練。
  • 使用 DALLE3 的重標(biāo)注技術(shù),對(duì)人工標(biāo)注的文本進(jìn)行訓(xùn)練,生成能更加詳細(xì)描述視頻的標(biāo)注信息。
  • 視頻生成時(shí),獲取隨機(jī)噪聲視頻,通過(guò)訓(xùn)練的視頻壓縮網(wǎng)絡(luò),將噪聲視頻壓縮成低維度的潛在空間數(shù)據(jù),以便更好的處理視頻數(shù)據(jù)。
  • 將壓縮后的潛在空間數(shù)據(jù)分解成空間時(shí)間補(bǔ)丁 Patches,這些補(bǔ)丁包含了視頻中空間和時(shí)間的關(guān)系,并將這些補(bǔ)丁轉(zhuǎn)為一維的 Tokens 數(shù)據(jù)。
  • 將Tokens數(shù)據(jù)提交給經(jīng)過(guò)擴(kuò)散模型訓(xùn)練后的Transformer(DiT),利用 Transformer 的注意力機(jī)制,時(shí)刻關(guān)注文本提示詞中的關(guān)鍵信息,結(jié)合擴(kuò)散模型(Diffusion Model)對(duì) Tokens 數(shù)據(jù)進(jìn)行去噪聲,并循環(huán)采樣觀察去噪音后的結(jié)果數(shù)據(jù)是否符合提示詞的要求。
  • 將去除噪音后的結(jié)果數(shù)據(jù),利用視頻解碼器進(jìn)行解碼,將低維潛在空間數(shù)據(jù)還原成原始視頻數(shù)據(jù),這里可以實(shí)現(xiàn)不同分辨率的視頻解碼。

如果你不想查看冗余的細(xì)節(jié),看到這里就可以結(jié)束了,如果你還希望了解相關(guān)的細(xì)節(jié),可以繼續(xù)往下看,可能有理解不全面的地方歡迎大家補(bǔ)充交流。

一、文本生成圖片的流程

在理解文本生成視頻的原理之前,我們可以先回顧下文本生成圖片的原理,筆者的另一篇文章有做過(guò)相關(guān)介紹:AIGC 文生圖原理與實(shí)踐分享

本文我們不討論傳統(tǒng)的通過(guò)對(duì)抗網(wǎng)絡(luò)生成圖片的方式,我們主要討論的是基于擴(kuò)散模型生成圖片的方式,開(kāi)源的 Stable Diffusion 就是基于 LDM,即 Latent Diffusion Model(潛在的擴(kuò)展模型)實(shí)現(xiàn)的,另外 Stable Diffusion 通過(guò)引入 Transformer 架構(gòu)實(shí)現(xiàn)了對(duì)提示詞的支持,能夠在去除圖片噪音的過(guò)程中進(jìn)行精確的控制。

潛在的擴(kuò)散模型

Stable Diffusion 背后的技術(shù)方案被稱(chēng)為 Latent Diffusion Model,即潛在的擴(kuò)散模型,此外 Stable Diffusion 模型在原始的 UNet 模型中加入了 Transformer 結(jié)構(gòu),這么做可謂一舉兩得,因?yàn)?Transformer 結(jié)構(gòu)不但能提升噪聲去除效果,還是實(shí)現(xiàn) Prompt 控制圖像內(nèi)容的關(guān)鍵技術(shù)。

在深度學(xué)習(xí)領(lǐng)域中,潛在空間(Latent Space)是指模型學(xué)習(xí)到的表示數(shù)據(jù)的抽象空間。這個(gè)潛在空間通常是一個(gè)低維的向量空間,其中每個(gè)點(diǎn)(向量)代表著模型對(duì)輸入數(shù)據(jù)的一種表示或特征。潛在空間的概念在各種生成模型和表示學(xué)習(xí)方法中被廣泛應(yīng)用。

以下是潛在空間對(duì)模型的作用:

  • 數(shù)據(jù)的抽象表示:

潛在空間可以被視為對(duì)輸入數(shù)據(jù)的一種抽象表示。通過(guò)學(xué)習(xí)到的潛在空間可以更好地捕捉輸入數(shù)據(jù)的特征和結(jié)構(gòu),有助于模型更高效地學(xué)習(xí)和生成數(shù)據(jù)。

  • 降維和去噪:

潛在空間通常是一個(gè)低維空間,相比原始數(shù)據(jù)空間具有更低的維度。通過(guò)將數(shù)據(jù)映射到潛在空間,可以實(shí)現(xiàn)數(shù)據(jù)的降維和去噪,將數(shù)據(jù)的主要特征和模式表示在更緊湊的空間中。

  • 生成和重建:

在生成模型中,潛在空間扮演著重要角色,可以在潛在空間中生成新的數(shù)據(jù)樣本。模型可以從潛在空間中采樣并解碼生成具有逼真特征的數(shù)據(jù)樣本,這種生成過(guò)程通常通過(guò)解碼器(Decoder)實(shí)現(xiàn)。

  • 插值和操作:

在潛在空間中,向量表示不同的數(shù)據(jù)特征或?qū)傩裕梢酝ㄟ^(guò)向量之間的插值或操作來(lái)探索數(shù)據(jù)空間中的變化和關(guān)系。例如,通過(guò)在潛在空間中沿著不同方向移動(dòng)向量,可以觀察到在數(shù)據(jù)生成過(guò)程中對(duì)應(yīng)的變化。

擴(kuò)散模型的一個(gè)大概的過(guò)程可以描述為:對(duì)原始圖片不斷的加噪音可以得到一張?jiān)肼晥D,然后再對(duì)噪聲圖不斷的去除噪音的同時(shí)再添加其他信息,就可以得到一張新圖片。

圖片圖片

圖片圖片

圖片圖片

Stable Diffusion 生成圖片的大致流程如下:

  • Stable Diffusion 使用一個(gè)新穎的文本編碼器(OpenCLIP),將文本輸入轉(zhuǎn)換為一個(gè)向量表示。這個(gè)向量表示可以捕捉文本的語(yǔ)義信息,并與圖像空間對(duì)齊。
  • Stable Diffusion 使用一個(gè)擴(kuò)散模型(Diffusion Model),將一個(gè)隨機(jī)噪聲圖像逐漸變換為目標(biāo)圖像。擴(kuò)散模型是一種生成模型,可以從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)出一個(gè)概率分布,并從中采樣出新的數(shù)據(jù)。
  • 在擴(kuò)散過(guò)程中,Stable Diffusion 利用文本向量和噪聲圖像作為條件輸入,給出每一步變換的概率分布。這樣,Stable Diffusion 可以根據(jù)文本指導(dǎo)噪聲圖像向目標(biāo)圖像收斂,并保持圖像的清晰度和連貫性。
  • 最后,Stable Diffusion 使用一個(gè)超分辨率放大器(Upscaler Diffusion Model),將生成的低分辨率圖像放大到更高的分辨率。超分辨率放大器也是一個(gè)擴(kuò)散模型,可以從低分辨率圖像中恢復(fù)出細(xì)節(jié)信息,并增強(qiáng)圖像質(zhì)量。

以下是 Latent Diffusion 模型的技術(shù)架構(gòu):

Latent Diffusion Models 整體框架如圖,首先需要訓(xùn)練好一個(gè)自編碼模型(AutoEncoder,包括一個(gè)編碼器 ε 和一個(gè)解碼器 δ )。這樣一來(lái),我們就可以利用編碼器對(duì)圖片進(jìn)行壓縮,然后在潛在表示空間上做 Diffusion 操作,最后我們?cè)儆媒獯a器恢復(fù)到原始像素空間即可,論文將這個(gè)方法稱(chēng)之為感知壓縮(Perceptual Compression)。個(gè)人認(rèn)為這種將高維特征壓縮到低維,然后在低維空間上進(jìn)行操作的方法具有普適性,可以很容易推廣到文本、音頻、視頻等領(lǐng)域。

在潛在表示空間上做 Diffusion 操作其主要過(guò)程和標(biāo)準(zhǔn)的擴(kuò)散模型沒(méi)有太大的區(qū)別,所用到的擴(kuò)散模型的具體實(shí)現(xiàn)為 Time-Conditional UNet。但是有一個(gè)重要的地方是論文為 Diffusion 操作引入了條件機(jī)制(Conditioning Mechanisms),通過(guò) Cross-Attention 的方式來(lái)實(shí)現(xiàn)多模態(tài)訓(xùn)練,使得條件圖片生成任務(wù)也可以實(shí)現(xiàn)。

圖片圖片

https://github.com/CompVis/latent-diffusion

Transformer架構(gòu)

Transformer 架構(gòu)是 2017 年 6 月由 Google 提出的,是一種基于自注意力機(jī)制(Self-Attention)的模型,它有效解決了 RNN 類(lèi)方法的并行計(jì)算和長(zhǎng)時(shí)依賴(lài)兩大痛點(diǎn)。原本研究的重點(diǎn)是翻譯任務(wù),隨后推出了幾個(gè)有影響力的模型,以下是 Transformer 模型簡(jiǎn)短歷史中的一些關(guān)鍵節(jié)點(diǎn):

圖片圖片

Transformer 的架構(gòu)設(shè)計(jì)如下圖所示:

圖片圖片

圖片圖片

左邊的這張圖是 Transformers 架構(gòu)的一個(gè)簡(jiǎn)單表示形式,右邊的這張圖是 Transformers 架構(gòu)的一個(gè)完整表示形式,其中有一個(gè)重要的 Multi-Head Attention組件,稱(chēng)為注意力層。

Transformer 模型的一個(gè)關(guān)鍵特性是注意力層。事實(shí)上,谷歌在發(fā)布 Transformer 架構(gòu)的論文時(shí),文章的標(biāo)題就是“注意力就是你所需要的”。注意力層將告訴模型在處理每個(gè)單詞的表示時(shí),要特別重視傳遞給它的句子中的某些單詞,也可以是或多或少地忽略其他單詞。通過(guò)注意力層,模型可以不斷修正自己處理的結(jié)果,以符合輸入的文本的意圖。

總結(jié)來(lái)說(shuō) Transformer 通過(guò)注意力層,來(lái)理解并觀察輸入文本的上下文,在 Decoder 的過(guò)程中,通過(guò)多頭注意力層來(lái)控制結(jié)果的輸出是符合上下文語(yǔ)境的。

可以參考下面這篇文章,更詳細(xì)的了解 Transformer 的實(shí)現(xiàn)原理:

https://jalammar.github.io/illustrated-transformer/

在回顧完 Stable Diffusion 的原理后,我們可以想象下,對(duì)于視頻的生成該怎么做呢?

是否可以嘗試把預(yù)訓(xùn)練 Stable Diffusion 拓展成視頻生成模型呢。例如在拓展時(shí),將視頻的每一幀都單獨(dú)輸入進(jìn) Stable Diffusion 的自編碼器,再重新構(gòu)成一個(gè)壓縮過(guò)的圖像序列。這就是 VideoLDM 嘗試解決的問(wèn)題,然而經(jīng)過(guò) VideoLDM 研究發(fā)現(xiàn)直接對(duì)視頻使用之前的圖像自編碼器,會(huì)令輸出視頻出現(xiàn)閃爍的現(xiàn)象。為此,該工作對(duì)自編碼器的解碼器進(jìn)行了微調(diào),加入了一些能夠處理時(shí)間維度的模塊,使之能一次性處理整段壓縮視頻,并輸出連貫的真實(shí)視頻。

二、Sora生成視頻的流程

那 Sora 是怎么做的呢?接下來(lái)我們通過(guò)一張圖來(lái)了解下 Sora 的工作流程,大概可以簡(jiǎn)化為三個(gè)部分:

圖片圖片

簡(jiǎn)單來(lái)說(shuō),Sora 就是依賴(lài)了兩個(gè)模型 Latent Diffusion Model (LDM)  加上 Diffusion Transformer (DiT)。我們先簡(jiǎn)要回顧一下這兩種模型架構(gòu)。

LDM 就是 Stable Diffusion 使用的模型架構(gòu)。擴(kuò)散模型的一大問(wèn)題是計(jì)算需求大,難以擬合高分辨率圖像。為了解決這一問(wèn)題,實(shí)現(xiàn) LDM 時(shí),會(huì)先訓(xùn)練一個(gè)幾乎能無(wú)損壓縮圖像的自編碼器,能把 512x512 的真實(shí)圖像壓縮成 64x64 的壓縮圖像并還原。接著,再訓(xùn)練一個(gè)擴(kuò)散模型去擬合分辨率更低的壓縮圖像。這樣,僅需少量計(jì)算資源就能訓(xùn)練出高分辨率的圖像生成模型。

LDM 的擴(kuò)散模型使用的模型是 U-Net。而根據(jù)其他深度學(xué)習(xí)任務(wù)中的經(jīng)驗(yàn),相比 U-Net,Transformer 架構(gòu)的參數(shù)可拓展性強(qiáng),即隨著參數(shù)量的增加,Transformer 架構(gòu)的性能提升會(huì)更加明顯。這也是為什么大模型普遍都采用了 Transformer 架構(gòu)。從這一動(dòng)機(jī)出發(fā),DiT 應(yīng)運(yùn)而生。DiT 在 LDM 的基礎(chǔ)上,把 U-Net 換成了 Transformer。

總結(jié)來(lái)說(shuō) Sora 是一個(gè)視頻版的 DiT 模型,讓我們看一下 Sora 在 DiT 上做了哪些改進(jìn)。

視頻壓縮網(wǎng)絡(luò)

首先,Sora 通過(guò)一個(gè)叫做“視頻壓縮網(wǎng)絡(luò)”的技術(shù),將輸入的圖片或視頻壓縮成一個(gè)更低維度的數(shù)據(jù),即潛在空間數(shù)據(jù),為了實(shí)現(xiàn)視頻壓縮,Sora 從頭訓(xùn)練了一套能直接壓縮視頻的自編碼器。相比之前的工作,Sora 的自編碼器不僅能在空間上壓縮圖像,還能在時(shí)間上壓縮視頻長(zhǎng)度。

輸入的視頻在經(jīng)過(guò) Sora 的自編碼器后,會(huì)被轉(zhuǎn)換成一段空間和時(shí)間維度上都變小的壓縮視頻。這段壓縮視頻就是 Sora 的 DiT 的擬合對(duì)象。

這一過(guò)程類(lèi)似于將不同尺寸和分辨率的照片“標(biāo)準(zhǔn)化”,便于處理和存儲(chǔ),但壓縮并不意味著忽略原始數(shù)據(jù)的獨(dú)特性,而是將它們轉(zhuǎn)換成一個(gè)對(duì) Sora 來(lái)說(shuō)更容易理解和操作的格式。

報(bào)告中反復(fù)提及,Sora 在訓(xùn)練和生成時(shí)使用的視頻可以是任何分辨率(在 1920x1080 以?xún)?nèi))、任何長(zhǎng)寬比、任何時(shí)長(zhǎng)的,這意味著視頻訓(xùn)練數(shù)據(jù)不需要做縮放、裁剪等預(yù)處理,因?yàn)?Sora 會(huì)把這些視頻進(jìn)行壓縮以獲得符合模型訓(xùn)練的數(shù)據(jù)。

空間時(shí)間補(bǔ)丁

接下來(lái),Sora 將這些壓縮后的數(shù)據(jù)進(jìn)一步分解為“空間時(shí)間補(bǔ)丁”(Spacetime Patches),這些補(bǔ)丁可以看作是視覺(jué)內(nèi)容的基本構(gòu)建塊,例如照片可以分解為包含獨(dú)特景觀、顏色和紋理的小片段。這樣不管原始視頻的長(zhǎng)度、分辨率或風(fēng)格如何,Sora 都可以將它們處理成一致的格式。

圖片圖片

有了空間時(shí)間補(bǔ)丁之后,還需要將這些補(bǔ)丁轉(zhuǎn)換成一維的數(shù)據(jù)序列,以便提供給 Transformer 模型進(jìn)行處理,因?yàn)?Transformer 只能處理一維序列數(shù)據(jù)。

Sora 的這種性質(zhì)還是得益于 Transformer 架構(gòu)。雖然 Transformer 的計(jì)算與輸入順序無(wú)關(guān),但必須用位置編碼來(lái)指明每個(gè)數(shù)據(jù)的位置。盡管報(bào)告沒(méi)有提及,我覺(jué)得 Sora 的 DiT 使用了類(lèi)似于 (x,y,t) 的位置編碼來(lái)表示一個(gè)圖塊的時(shí)空位置。這樣不管輸入的視頻的大小如何,長(zhǎng)度如何,只要給每個(gè)圖塊都分配一個(gè)位置編碼,DiT 就能分清圖塊間的相對(duì)關(guān)系了。

Diffusion Transformer

最后,Sora 擴(kuò)展了 Transformer 模型,以便適用于視頻生成,這里的視頻就是一幀幀的靜態(tài)圖片加上了時(shí)間維度的信息,所以只需要用 Transformer 模型來(lái)生成攜帶時(shí)間維度信息的圖片。

需要注意的是,Transformer 本來(lái)是用于文本任務(wù)的,它只能處理一維的序列數(shù)據(jù)。為了讓 Transformer 處理二維圖像,通常會(huì)把輸入圖像先切成邊長(zhǎng)為 p 的圖塊,再把每個(gè)圖塊整理成一維數(shù)據(jù)。也就是說(shuō),原來(lái)邊長(zhǎng)為 I 的正方形圖片,經(jīng)圖塊化后,變成了長(zhǎng)度為 (I/p)2 的一維序列數(shù)據(jù)。

圖片圖片

DiT 在處理輸入圖塊(也就是空間時(shí)間補(bǔ)丁)時(shí),因?yàn)槊總€(gè)視頻圖塊被編上了類(lèi)似 (x,y,t) 這樣的位置編碼,輸入視頻可以是任何分辨率、任何長(zhǎng)度。將每個(gè)空間時(shí)間補(bǔ)丁輸入 Transformer,作為輸入的 Token,接著 Transformer 會(huì)完成每個(gè)空間時(shí)間補(bǔ)丁的噪聲去除,最后所有的空間時(shí)間補(bǔ)丁都完成噪聲去除后,再通過(guò)解碼器將 Transformer 處理后的張量數(shù)據(jù)還原成視頻數(shù)據(jù)。

下圖展示了 DiT 的架構(gòu),左:我們訓(xùn)練調(diào)節(jié)的潛 DiT 模型。輸入潛變量被分解成幾個(gè) Patch 并由幾個(gè) DiT 塊處理。右:DiT 塊的細(xì)節(jié)。我們對(duì)標(biāo)準(zhǔn) Transformer 的變體進(jìn)行了實(shí)驗(yàn),這些變體通過(guò)自適應(yīng)層歸一化、交叉注意力和額外的輸入 Token 做調(diào)節(jié)。自適應(yīng)層歸一化效果最好。

假設(shè)輸入是一張 256x256x3 的圖片,對(duì)圖片做 Patch 后經(jīng)過(guò)投影得到每個(gè) Patch 的 Token,得到 32x32x4 的 Latent 潛在空間(在推理時(shí)輸入直接是 32x32x4 的噪聲)。結(jié)合當(dāng)前的 Step t, 將 Label y 作為輸入, 經(jīng)過(guò) N 個(gè) DiT Block 處理,處理中通過(guò) MLP 進(jìn)行控制輸出,得到輸出的噪聲以及對(duì)應(yīng)的協(xié)方差矩陣,經(jīng)過(guò) T 個(gè) Step 采樣,得到 32x32x4 的降噪后的 Latent。

圖片圖片

得到處理后的 Latent 之后,通過(guò) Visual Decoder 對(duì) Latent 進(jìn)行解碼,最終得到生成的視頻。

三、從訓(xùn)練到生成視頻全流程

視頻標(biāo)注與訓(xùn)練

  • 收集視頻及其文本標(biāo)注

初始步驟是收集大量視頻數(shù)據(jù),并獲取或創(chuàng)建這些視頻對(duì)應(yīng)的文本標(biāo)注。這些文本簡(jiǎn)要描述了視頻內(nèi)容,是訓(xùn)練模型理解視頻主題的關(guān)鍵。

  • 預(yù)處理視頻數(shù)據(jù)

對(duì)視頻進(jìn)行預(yù)處理,包括調(diào)整分辨率、格式轉(zhuǎn)換、裁剪長(zhǎng)度等,以確保數(shù)據(jù)格式統(tǒng)一,適合模型處理。

  • 生成高度描述性的文本標(biāo)注

使用 DALLE3 的技術(shù),首先訓(xùn)練一個(gè)模型,這個(gè)模型專(zhuān)門(mén)用于為視頻內(nèi)容生成高度描述性的文本標(biāo)注。這一步是為了提升文本標(biāo)注的質(zhì)量,讓其更加詳細(xì)和具體。對(duì)訓(xùn)練集中的所有視頻應(yīng)用這個(gè)模型,產(chǎn)生新的、更加詳細(xì)的文本標(biāo)注。

之前大部分文生圖擴(kuò)散模型都是在人工標(biāo)注的圖片-文字?jǐn)?shù)據(jù)集上訓(xùn)練的。后來(lái)大家發(fā)現(xiàn),人工標(biāo)注的圖片描述質(zhì)量較低,紛紛提出了各種提升標(biāo)注質(zhì)量的方法。Sora 復(fù)用了自家 DALL·E 3 的重標(biāo)注技術(shù),用一個(gè)訓(xùn)練的能生成詳細(xì)描述的標(biāo)注器來(lái)重新為訓(xùn)練視頻生成標(biāo)注。這種做法不僅解決了視頻缺乏標(biāo)注的問(wèn)題,且相比人工標(biāo)注質(zhì)量更高。Sora 的部分結(jié)果展示了其強(qiáng)大了抽象理解能力(如理解人和貓之間的交互),這多半是因?yàn)橐曨l標(biāo)注模型足夠強(qiáng)大,視頻生成模型學(xué)到了視頻標(biāo)注模型的知識(shí)。但同樣,視頻標(biāo)注模型的相關(guān)細(xì)節(jié)完全沒(méi)有公開(kāi)。

  • 擴(kuò)散模型訓(xùn)練

Sora 作為一個(gè)擴(kuò)散模型,通過(guò)預(yù)測(cè)從含噪聲補(bǔ)丁到原始清晰補(bǔ)丁的轉(zhuǎn)換過(guò)程進(jìn)行訓(xùn)練。這個(gè)過(guò)程涉及到大量的迭代,逐步提高生成視頻的質(zhì)量。

視頻生成與處理

  • 視頻壓縮和空間時(shí)間補(bǔ)丁生成

開(kāi)發(fā)并訓(xùn)練一個(gè)視頻壓縮網(wǎng)絡(luò),將高維的視頻數(shù)據(jù)壓縮到一個(gè)低維的潛在空間,簡(jiǎn)化后的數(shù)據(jù)表示更容易被模型處理。將壓縮后的視頻表示分解成空間時(shí)間補(bǔ)丁,這些補(bǔ)丁既包含空間上的信息也包含隨時(shí)間變化的信息。

  • 利用 Transformer 架構(gòu)處理時(shí)空關(guān)系

基于 Transformer 架構(gòu),處理這些空間時(shí)間補(bǔ)丁。由于 Transformer 架構(gòu)在處理序列數(shù)據(jù)(如文本)方面的強(qiáng)大能力,這里用于捕獲視頻補(bǔ)丁之間復(fù)雜的時(shí)空關(guān)系。

  • 通過(guò) GPT 模型理解并優(yōu)化提示詞

類(lèi)似于 DALLE3,Sora 在處理用戶提供的文本提示時(shí),也可以利用 GPT 模型來(lái)擴(kuò)展或優(yōu)化這些提示。GPT 模型可以將簡(jiǎn)短的用戶提示轉(zhuǎn)化成更詳細(xì)、更富有描述性的文本,這有助于 Sora 更準(zhǔn)確地理解并生成符合用戶意圖的視頻。

  • 利用擴(kuò)散模型生成視頻

用戶提供一個(gè)文本提示,Sora 根據(jù)這個(gè)提示在潛在空間中初始化視頻的生成過(guò)程。利用訓(xùn)練好的擴(kuò)散模型,Sora 從這些初始化的空間時(shí)間補(bǔ)丁開(kāi)始,逐步生成清晰的視頻內(nèi)容。

  • 視頻解碼與處理

使用與視頻壓縮相對(duì)應(yīng)的解碼器將潛在空間中的視頻轉(zhuǎn)換回原始像素視頻。

對(duì)生成的視頻進(jìn)行可能的后處理,如調(diào)整分辨率、裁剪等,以滿足發(fā)布或展示的需求。

參考文檔:

https://openai.com/research/video-generation-models-as-world-simulators

https://zhuanlan.zhihu.com/p/583124756

https://mp.weixin.qq.com/s/Prn1G_EpXvnM4me9a_SPBw

https://mp.weixin.qq.com/s/KUnXlDlg-Rs_6D5RFpQbnQ

責(zé)任編輯:武曉燕 來(lái)源: 得物技術(shù)
相關(guān)推薦

2024-04-15 00:00:00

技術(shù)Attention架構(gòu)

2021-10-26 17:52:52

Android插件化技術(shù)

2022-11-04 09:43:05

Java線程

2024-11-01 08:57:07

2021-03-10 10:55:51

SpringJava代碼

2022-09-05 08:39:04

kubernetesk8s

2020-08-10 18:03:54

Cache存儲(chǔ)器CPU

2020-03-26 16:40:07

MySQL索引數(shù)據(jù)庫(kù)

2023-09-19 22:47:39

Java內(nèi)存

2022-09-26 08:01:31

線程LIFO操作方式

2022-01-14 12:28:18

架構(gòu)OpenFeign遠(yuǎn)程

2019-07-01 13:34:22

vue系統(tǒng)數(shù)據(jù)

2020-03-17 08:36:22

數(shù)據(jù)庫(kù)存儲(chǔ)Mysql

2022-09-05 22:22:00

Stream操作對(duì)象

2020-11-04 15:35:13

Golang內(nèi)存程序員

2023-10-13 13:30:00

MySQL鎖機(jī)制

2016-11-15 14:33:05

Flink大數(shù)據(jù)

2023-01-16 18:32:15

架構(gòu)APNacos

2022-08-22 08:04:25

Spring事務(wù)Atomicity

2017-05-04 16:35:45

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

中文字幕电影av| 久久美女福利视频| 亚洲产国偷v产偷v自拍涩爱| 伊人久久婷婷| 尤物yw午夜国产精品视频| 91高清国产视频| 免费在线看电影| 久久日韩粉嫩一区二区三区 | 69堂免费精品视频在线播放| 一区二区三区在线视频播放| 激情久久av| 国产又黄又爽视频| 国产欧美日本| 美女少妇精品视频| 九九热免费在线| 国产色噜噜噜91在线精品| 欧美三级三级三级爽爽爽| 欧美图片激情小说| 日韩理伦片在线| 91丨porny丨国产入口| 91精品在线播放| 日韩免费av网站| 好看的日韩av电影| 啊v视频在线一区二区三区 | 欧美三级免费观看| 久久久久久久久久久亚洲| 97在线资源站| 国产午夜视频在线| 四季av一区二区三区免费观看 | 天天操天天射天天舔| 日本在线视频网址| 国产福利一区在线| 国产欧美精品xxxx另类| 99久久精品国产亚洲| 一区二区影视| 日韩日本欧美亚洲| 天天干天天舔天天操| 欧美一区 二区| 日韩欧美电影一区| aaa一级黄色片| 国内欧美日韩| 欧美日韩免费观看一区三区| 国产成人精品无码播放| 小草在线视频免费播放| 亚洲高清免费在线| 久久久久99精品成人片| 免费毛片在线看片免费丝瓜视频 | 国产精品18久久久| 亚洲a级在线播放观看| 国产精品一区二区三区在线免费观看| 奇米影视在线99精品| 国产成人aa精品一区在线播放| 国产精品1234区| 欧美三区在线| 欧美激情第三页| 青青草在线观看视频| 国产精品多人| 97色在线视频| 特黄视频免费看| 久久久久久色| 国产日本欧美一区二区三区在线| 中文字幕av资源| 老鸭窝一区二区久久精品| 国产精品一区二区女厕厕| 中文字幕乱码人妻二区三区| 久久国产日韩欧美精品| 成人疯狂猛交xxx| 精品人妻伦一区二区三区久久| 国产aⅴ精品一区二区三区色成熟| 99蜜桃在线观看免费视频网站| 国产黄色一级大片| 国产98色在线|日韩| 精品日产一区2区三区黄免费 | 亚洲色图在线视频| 超碰97在线看| av毛片午夜不卡高**水| 日韩欧美一区二区在线| www亚洲成人| 久久伊人影院| 亚洲精品动漫久久久久| 亚洲精品国产精品国自产网站| 久久中文字幕av一区二区不卡| 久热99视频在线观看| 黄色激情视频在线观看| 久久精品官网| 97se国产在线视频| 色视频在线看| 亚洲色图欧洲色图婷婷| 国产精品久久久久7777| 电影一区电影二区| 精品日韩av一区二区| 波多野结衣办公室33分钟| 日韩中文字幕高清在线观看| 久久久久久国产精品| 狠狠人妻久久久久久综合| 精品一区二区在线视频| 精品国产aⅴ麻豆| av黄色在线观看| 一区二区三区小说| 天天爽天天爽夜夜爽| 999国产精品一区| 自拍偷拍亚洲在线| 国产午夜福利一区二区| 蜜桃视频免费观看一区| 精品国产一区二区三区麻豆免费观看完整版 | 青青草免费av| 天堂午夜影视日韩欧美一区二区| 亚洲xxxx18| 福利视频在线播放| 亚洲高清免费观看| 一路向西2在线观看| 精品午夜电影| 九九精品在线观看| 中文字幕在线观看1| 99天天综合性| 亚洲国产一二三精品无码| 日本精品另类| 亚洲乱码国产乱码精品精天堂| 蜜臀久久精品久久久用户群体| 久久动漫亚洲| 狠狠色综合一区二区| 日本三级在线观看网站| 欧美精品电影在线播放| 亚洲综合欧美综合| 亚洲免费在线| 韩日午夜在线资源一区二区| 99在线播放| 欧美群妇大交群的观看方式| 国产肥白大熟妇bbbb视频| 在线国产欧美| 国产精品10p综合二区| 美女隐私在线观看| 欧美撒尿777hd撒尿| 久久久久亚洲av成人无码电影| 99xxxx成人网| 国产一区二区黄色| 2021天堂中文幕一二区在线观| 日韩欧美国产一区二区在线播放| 人妻久久一区二区| 激情国产一区二区 | 亚洲国产精品一区| 97超碰人人看人人| 欧美日韩色网| 精品国产乱码久久久久久夜甘婷婷 | 欧美精品一区二区三区很污很色的 | 国产精品一区三区在线观看| 亚洲新中文字幕| 亚洲毛片一区二区三区| 久久精品亚洲麻豆av一区二区| 日本精品www| 日韩激情毛片| 日本午夜精品理论片a级appf发布| 天天躁日日躁狠狠躁伊人| 亚洲国产精品尤物yw在线观看| 精品人妻二区中文字幕| 韩日欧美一区| 久99久视频| 午夜精品久久久久久久久久蜜桃| 亚洲色图美腿丝袜| 国产无遮挡又黄又爽又色视频| 欧美高清在线一区二区| 邪恶网站在线观看| 欧美好骚综合网| 91在线国产电影| 欧美aaaxxxx做受视频| 亚洲国产精彩中文乱码av在线播放 | 欧美激情亚洲激情| 男人天堂综合网| 欧美性猛交xxxx免费看久久久| 一区二区伦理片| 久久99国产精品久久| 男女啪啪免费观看| 欧美电影在线观看免费| 日韩av免费在线观看| 992tv免费直播在线观看| 欧美一区二区人人喊爽| 中文字幕一区二区三区手机版| 26uuu精品一区二区| 最新中文字幕免费视频| 欧美国产三级| 日本婷婷久久久久久久久一区二区| 97精品国产99久久久久久免费| 久久影院资源网| 日批视频在线播放| 欧美揉bbbbb揉bbbbb| 欧美成人三级视频| 久久天堂av综合合色蜜桃网| 国产永久免费网站| 亚洲黄色天堂| 亚洲三级一区| 国内自拍欧美| 国产精品一香蕉国产线看观看| 亚洲小说区图片| 国产一区二区三区在线视频| 国产黄色高清视频| 91久久精品午夜一区二区| 天天操天天操天天操天天操天天操| 成人午夜看片网址| 亚洲欧美自偷自拍另类| 最新成人av网站| 一区二区三区视频在线播放| 久久a爱视频| 91最新在线免费观看| 日本免费久久| 久久免费视频网| 麻豆影视在线观看_| 亚洲男人天堂2019| 亚洲AV午夜精品| 欧美视频在线一区二区三区 | 丰满的亚洲女人毛茸茸| 成人动漫av在线| 亚洲精品视频三区| 性高湖久久久久久久久| 国产资源在线免费观看| 香蕉久久网站| 婷婷五月色综合| 天堂网av成人| 国产高清在线一区| 欧美成年网站| 成人黄色免费片| 写真福利精品福利在线观看| 88国产精品欧美一区二区三区| 99福利在线| 久久精品国产综合| 97在线观看免费观看高清| 亚洲天堂开心观看| 五月婷婷在线播放| 精品国产露脸精彩对白| a级片免费视频| 91麻豆精品国产综合久久久久久| 亚洲男人天堂网址| 色一情一乱一乱一91av| 日本韩国欧美中文字幕| 香蕉久久一区二区不卡无毒影院| 久视频在线观看| 一区二区三区 在线观看视频| 久久99久久99精品免费看小说| 国产精品久久久久四虎| 亚洲色图欧美色| 亚洲国产高清在线| 午夜黄色福利视频| 国产精品色一区二区三区| 国产精成人品免费观看| 国产亚洲成av人在线观看导航| 性久久久久久久久久| 久久久美女毛片| 黄色片网站免费| 国产精品视频麻豆| 久久精品亚洲a| 亚洲精品乱码久久久久久久久| 成人免费精品动漫网站| 亚洲美女屁股眼交| 久久久久噜噜噜亚洲熟女综合| 一区二区三区精密机械公司| 麻豆91精品91久久久| 一区二区国产视频| 国产乡下妇女做爰| 岛国av在线不卡| 亚洲av无码不卡| 欧美三级三级三级爽爽爽| 国产精品久久777777换脸| 69av一区二区三区| 成 人 黄 色 片 在线播放 | 99re久久精品国产| 26uuu亚洲| 色www亚洲国产阿娇yao| 亚洲人成人一区二区在线观看| 免费视频一二三区| 亚洲成人免费视频| 亚洲 欧美 日韩 在线| 欧美日韩一区在线观看| 国产青青草视频| 亚洲丁香久久久| 国产永久免费高清在线观看视频| 最近中文字幕mv在线一区二区三区四区| 免费在线观看黄| 久久久久久久成人| 美女一区网站| 成人妇女淫片aaaa视频| 国产精品久av福利在线观看| 日本一区免费看| 亚洲色图88| 国产婷婷一区二区三区| 青青青伊人色综合久久| 在线成人精品视频| 久久综合一区二区| 自拍偷拍第9页| 丰满岳妇乱一区二区三区| 一级黄色a毛片| 亚洲精品国产电影| 91九色在线porn| 国内精品视频一区| 四虎精品一区二区免费| 国产一区二区三区av在线| 久久一区二区三区喷水| 国产夫妻自拍一区| 美女免费视频一区| 精品一区二区视频在线观看| 国产精品美女一区二区| 国产精品久久久久久久妇| 欧美精品亚洲一区二区在线播放| 色综合免费视频| 久久精品亚洲94久久精品| 成人欧美一区二区三区的电影| 亚洲一区中文字幕在线观看| 神马电影久久| 欧美一级免费播放| 国产一区二区三区蝌蚪| 国产小视频自拍| 五月天欧美精品| 国产高潮流白浆喷水视频| 在线播放日韩av| 欧美xoxoxo| 精品91免费| 欧美日本国产| www午夜视频| 久久久一区二区三区| 国产精品suv一区二区69| 91精品国产综合久久久蜜臀粉嫩| 国内精品一区视频| 欧美一区二区三区免费视| 在线综合色站| 日韩不卡一二区| 免费观看在线综合| av永久免费观看| 一本久道久久综合中文字幕| 好男人www在线视频| 久精品免费视频| 久久精品一级| 日韩精品福利片午夜免费观看| 免费精品视频在线| 一级片黄色录像| 欧美中文字幕亚洲一区二区va在线 | 亚洲а∨天堂久久精品9966| 99在线播放| 91在线中文字幕| 91成人精品视频| 中文字幕亚洲影院| 最新国产精品久久精品| 亚洲一区二区色| 日韩一区二区福利| 国产福利亚洲| 水蜜桃亚洲一二三四在线| 久久久噜噜噜久久狠狠50岁| 国产特黄级aaaaa片免| 欧美视频中文字幕在线| 黄色在线播放| 国产国语videosex另类| 欧美精品乱码| 奇米视频888| 日韩美女啊v在线免费观看| 国产特级黄色片| 欧美激情一区二区三区久久久| 成人动态视频| 国自产拍偷拍精品啪啪一区二区| 2020国产精品自拍| 亚洲av无码不卡| xvideos国产精品| 日本精品视频| 免费一级特黄毛片| 久久蜜桃香蕉精品一区二区三区| 无码人妻丰满熟妇精品区| 国产亚洲精品久久久优势| 久久人体av| 成人一区二区av| 成人午夜又粗又硬又大| 中文字幕视频网站| 中文国产成人精品久久一| 日本午夜精品久久久久| 永久免费看av| 337p粉嫩大胆色噜噜噜噜亚洲| 国产精品无码粉嫩小泬| 色天天综合狠狠色| gogo人体一区| 亚洲少妇第一页| 亚洲精品日韩专区silk | 中文字幕亚洲精品| 视频二区欧美| 丁香啪啪综合成人亚洲| 久久精品网站免费观看| 99视频在线观看免费| 国内偷自视频区视频综合| 欧洲激情视频| 台湾佬美性中文| 91黄视频在线| 91最新在线视频| 欧美日韩亚洲免费| 国产呦精品一区二区三区网站| 中文字幕一区二区三区精品 | 成人三级小说| 少妇特黄a一区二区三区| 国产麻豆精品一区二区| 丁香六月婷婷综合| 欧美xxxx综合视频| 国产99久久| 日本久久久久久久久久| 欧美三级蜜桃2在线观看| 岛国av在线网站| 五月天综合婷婷| 久久综合久久鬼色中文字|