Sora是『神筆馬良』還是AI怪物?首篇綜述一探乾坤!
本文經(jīng)自動駕駛之心公眾號授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。
寫在前面&筆者的個人理解
Sora是一種文本到視頻生成的人工智能模型,由OpenAI于2024年2月發(fā)布。該模型經(jīng)過訓(xùn)練,能夠從文本指令中生成逼真或想象的場景視頻,并顯示出在模擬物理世界方面的潛力?;诠_的技術(shù)報告和逆向工程,本文對該模型的背景、相關(guān)技術(shù)、應(yīng)用、尚存挑戰(zhàn)以及文本到視頻人工智能模型未來發(fā)展方向進行了全面審查。我們首先追溯了Sora的發(fā)展歷程,并調(diào)查了用于構(gòu)建這個"世界模擬器"的基礎(chǔ)技術(shù)。然后,我們詳細(xì)描述了Sora在從電影制作、教育到營銷等多個行業(yè)中的應(yīng)用和潛在影響。我們討論了需要解決的主要挑戰(zhàn)和限制,以廣泛部署Sora,例如確保視頻生成的安全和無偏見性。最后,我們討論了Sora和視頻生成模型的未來發(fā)展,以及該領(lǐng)域的進步如何可能促進人機交互的新方式,提升視頻生成的生產(chǎn)力和創(chuàng)造力。
相關(guān)介紹
自從ChatGPT于2022年11月發(fā)布以來,AI技術(shù)的出現(xiàn)標(biāo)志著一個重大的轉(zhuǎn)變,深入融合到日常生活和行業(yè)的各個方面。借助這一勢頭,OpenAI于2024年2月發(fā)布了Sora,這是一個文本到視頻生成的AI模型,可以根據(jù)文本提示生成逼真或富有想象力的場景視頻。與先前的視頻生成模型相比,Sora的特點在于其能夠在保持對用戶文本指令的遵循的同時生成長達(dá)1分鐘的高質(zhì)量視頻。Sora的這一進步體現(xiàn)了長期以來AI研究的使命,即賦予AI系統(tǒng)(或AI代理)理解和與動態(tài)物理世界交互的能力。這涉及開發(fā)既能夠解釋復(fù)雜用戶指令又能夠?qū)⑦@種理解應(yīng)用于通過動態(tài)和具有豐富上下文的模擬解決現(xiàn)實問題的AI模型。

Sora展示了準(zhǔn)確解釋和執(zhí)行復(fù)雜人類指令的卓越能力,如圖2所示。該模型可以生成包含多個角色在錯綜復(fù)雜的背景中執(zhí)行特定動作的詳細(xì)場景。研究人員將Sora的熟練歸因于其不僅處理用戶生成的文本提示,還辨別了情景中各個元素的復(fù)雜相互作用。Sora最引人注目的一個方面之一是其能夠生成長達(dá)一分鐘的視頻,同時保持高視覺質(zhì)量和引人入勝的視覺連貫性。與以前只能生成短視頻剪輯的模型不同,Sora的一分鐘視頻創(chuàng)作具有從第一幀到最后一幀的連貫性和視覺一致性的進展。此外,Sora的進步體現(xiàn)在其能夠生成具有動態(tài)和交互細(xì)微描繪的擴展視頻序列上,克服了先前視頻生成模型的短片和簡單視覺呈現(xiàn)的限制。這一能力代表了AI驅(qū)動的創(chuàng)意工具的一大進步,允許用戶將文本敘述轉(zhuǎn)換為豐富的視覺故事??偟膩碚f,這些進步展示了Sora作為一個世界模擬器在提供所描繪場景的物理和上下文動態(tài)的細(xì)微洞見方面的潛力。
技術(shù):Sora的核心是一個預(yù)訓(xùn)練的擴散Transformer。Transformer模型已被證明在許多自然語言任務(wù)中具有可伸縮性和有效性。與諸如GPT-4等強大的大型語言模型(LLMs)相似,Sora可以解析文本并理解復(fù)雜的用戶指令。為了使視頻生成在計算上更有效,Sora采用時空潛在補丁作為其構(gòu)建模塊。具體而言,Sora將原始輸入視頻壓縮成潛在時空表示。然后,從壓縮視頻中提取一系列潛在時空補丁,以概括短暫時間內(nèi)的視覺外觀和運動動態(tài)。這些補丁類似于語言模型中的詞標(biāo)記,為Sora提供了詳細(xì)的視覺短語,用于構(gòu)建視頻。Sora的文本到視頻生成是通過擴散Transformer模型執(zhí)行的。從一個充滿視覺噪聲的幀開始,模型迭代地去噪圖像,并根據(jù)提供的文本提示引入特定的細(xì)節(jié)。本質(zhì)上,生成的視頻通過一個多步細(xì)化過程逐步呈現(xiàn),每一步都使視頻更加與所需內(nèi)容和質(zhì)量保持一致。
Sora的亮點:Sora的能力在各個方面都具有深遠(yuǎn)的影響:
- 提高模擬能力:訓(xùn)練Sora的規(guī)模被歸因于其模擬物理世界各個方面的卓越能力。盡管缺乏顯式的3D建模,但Sora表現(xiàn)出具有動態(tài)攝像機運動和長距離連貫性的3D一致性,其中包括對象持續(xù)存在并模擬與世界的簡單交互。此外,Sora有趣地模擬數(shù)字環(huán)境,如Minecraft,由基本策略控制,同時保持視覺保真度。這些新出現(xiàn)的能力表明,擴展視頻模型在創(chuàng)建模擬物理和數(shù)字世界的AI模型方面是有效的。
- 提升創(chuàng)造力:想象通過文本勾勒一個概念,無論是簡單的對象還是完整的場景,并在幾秒鐘內(nèi)看到一個逼真或高度風(fēng)格化的視頻。Sora為更快的探索和完善想法提供了加速的設(shè)計過程,從而顯著提升了藝術(shù)家、電影制片人和設(shè)計師的創(chuàng)造力。
- 推動教育創(chuàng)新:視覺輔助長期以來一直是理解教育中重要概念的核心。有了Sora,教育者可以輕松地將課程計劃從文本轉(zhuǎn)換為視頻,以吸引學(xué)生的注意力并提高學(xué)習(xí)效率。從科學(xué)模擬到歷史戲劇化,可能性是無限的。
- 提升可訪問性:在視覺領(lǐng)域提高可訪問性至關(guān)重要。Sora通過將文本描述轉(zhuǎn)換為視覺內(nèi)容提供了創(chuàng)新的解決方案。這種能力使所有個體,包括視覺障礙者,在內(nèi)容創(chuàng)作和與他人更有效地互動方面能夠積極參與。因此,它為一個更具包容性的環(huán)境提供了可能,每個人都有機會通過視頻表達(dá)自己的想法。
- 促進新興應(yīng)用:Sora的應(yīng)用是廣泛的。例如,營銷人員可以使用它創(chuàng)建針對特定受眾描述的動態(tài)廣告。游戲開發(fā)人員可以使用它從玩家敘述中生成定制的視覺或甚至角色動作。
局限性和機會。雖然Sora的成就突顯了AI領(lǐng)域的重大進步,但仍存在挑戰(zhàn)。描繪復(fù)雜動作或捕捉微妙面部表情是模型可以改進的領(lǐng)域之一。此外,諸如減輕生成內(nèi)容中的偏見和防止有害視覺輸出等道德考慮強調(diào)了開發(fā)者、研究人員和更廣泛社區(qū)負(fù)責(zé)任使用的重要性。確保Sora的輸出始終安全和公正是一項主要挑戰(zhàn)。視頻生成領(lǐng)域正在迅速發(fā)展,學(xué)術(shù)界和工業(yè)研究團隊正在不懈地取得進展。競爭性文本到視頻模型的出現(xiàn)表明,Sora很快可能成為一個動態(tài)生態(tài)系統(tǒng)的一部分。這種合作和競爭的環(huán)境促進了創(chuàng)新,導(dǎo)致了視頻質(zhì)量的提高和新的應(yīng)用,有助于提高工作者的生產(chǎn)力,并使人們的生活更加有趣。
基于已發(fā)布的技術(shù)報告和我們的逆向工程,本文介紹了Sora背后的首次全面審查,涉及相關(guān)技術(shù)、新興應(yīng)用、當(dāng)前局限性和未來機會。
關(guān)于Sora的背景
歷史回顧
在計算機視覺(CV)領(lǐng)域,在深度學(xué)習(xí)革命之前,傳統(tǒng)的圖像生成技術(shù)依賴于諸如紋理合成和紋理映射等基于手工制作特征的方法。然而,這些方法在生成復(fù)雜和生動圖像的能力方面受到了限制。生成對抗網(wǎng)絡(luò)(GANs)和變分自動編碼器(VAEs)的引入標(biāo)志著一個重大的轉(zhuǎn)折點,因為它們在各種應(yīng)用中展現(xiàn)了顯著的能力。隨后的發(fā)展,如流模型和擴散模型,進一步增強了圖像生成的細(xì)節(jié)和質(zhì)量。人工智能生成內(nèi)容(AIGC)技術(shù)的最新進展使內(nèi)容創(chuàng)作民主化,使用戶能夠通過簡單的文本指令生成所需的內(nèi)容。
在過去的十年里,生成CV模型的發(fā)展已經(jīng)采取了各種路線,如圖3所示。這個景觀在成功將Transformer架構(gòu)應(yīng)用于NLP中后開始顯著變化,如BERT和GPT所示。在CV中,研究人員進一步將這一概念發(fā)展,將Transformer架構(gòu)與視覺組件結(jié)合起來,使其能夠應(yīng)用于下游CV任務(wù),如Vision Transformer(ViT)和Swin Transformer。與Transformer的成功并行的是,擴散模型在圖像和視頻生成領(lǐng)域也取得了顯著進展。擴散模型提供了一個數(shù)學(xué)上合理的框架,用于將噪聲轉(zhuǎn)換為帶有U-Nets的圖像,其中U-Nets通過學(xué)習(xí)在每個步驟預(yù)測和減輕噪聲來促進這一過程。

自2021年以來,人工智能的一個重要焦點是能夠解釋人類指令的生成語言和視覺模型,即多模型。例如,CLIP 是一種開創(chuàng)性的視覺語言模型,它將Transformer架構(gòu)與視覺元素結(jié)合起來,促進了它在大量文本和圖像數(shù)據(jù)集上的訓(xùn)練。通過從一開始就整合視覺和語言知識,CLIP可以在多模式生成框架內(nèi)作為圖像編碼器運行。另一個值得注意的例子是Stable Diffusion,這是一種通用的文本到圖像AI模型,因其適應(yīng)性和易用性而備受贊譽。它采用Transformer架構(gòu)和潛在擴散技術(shù)來解碼文本輸入并生成各種風(fēng)格的圖像,進一步說明了多模式AI的進步。
在2022年11月發(fā)布ChatGPT后,我們見證了2023年商業(yè)文本到圖像產(chǎn)品的出現(xiàn),如Stable Diffusion,Midjourney,DALL-E 3。這些工具使用戶能夠通過簡單的文本提示生成高分辨率和高質(zhì)量的新圖像,展示了AI在創(chuàng)造性圖像生成方面的潛力。然而,從文本到視頻的過渡在于視頻的時間復(fù)雜性而具有挑戰(zhàn)性。盡管工業(yè)界和學(xué)術(shù)界做出了大量努力,但大多數(shù)現(xiàn)有的視頻生成工具,如Pika和Gen-2,僅限于生成幾秒鐘的短視頻片段。在這種情況下,Sora代表了一個重大突破,類似于ChatGPT在NLP領(lǐng)域的影響。Sora是第一個能夠根據(jù)人類指令生成長達(dá)一分鐘的視頻的模型,標(biāo)志著生成AI研究和發(fā)展中的一個里程碑。為了便于獲取最新的視覺生成模型的最新進展,最近的研究成果已經(jīng)編譯并提供在附錄和我們的GitHub中。
概念解釋
視覺模型的規(guī)模定律。隨著LLMs的規(guī)模定律,自然會問視覺模型的發(fā)展是否遵循類似的規(guī)模定律。最近,翟等人表明,對于足夠的訓(xùn)練數(shù)據(jù),ViT模型的性能-計算邊界大致遵循(飽和)冪律。緊隨其后,谷歌研究提出了一種高效穩(wěn)定地訓(xùn)練22B參數(shù)ViT的方法。結(jié)果表明,可以使用凍結(jié)模型生成嵌入,并在其上訓(xùn)練薄層以獲得良好的性能。作為一個大型視覺模型(LVM),Sora符合這些規(guī)模定律,揭示了文本到視頻生成中的幾個新能力。這一重大進展突顯了LVMs實現(xiàn)LLMs類似進展的潛力。
新興能力。LLMs中的新興能力是在某些尺度上表現(xiàn)出的復(fù)雜行為或功能------通常與模型參數(shù)的大小相關(guān)------這些能力并不是由其開發(fā)人員明確編程或預(yù)期的。這些能力被稱為"新興",因為它們源于模型在各種數(shù)據(jù)集上的
全面訓(xùn)練,加上其大量的參數(shù)數(shù)量。這種組合使得模型能夠建立連接和進行推理,超越了簡單的模式識別或死記硬背。通常情況下,這些能力的出現(xiàn)不能通過從較小規(guī)模模型的性能推斷來直接預(yù)測。雖然許多LLMs,如Chat-GPT和GPT-4,都表現(xiàn)出了新興能力,但在Sora出現(xiàn)之前,展示出可比較能力的視覺模型卻很少。根據(jù)Sora的技術(shù)報告,它是第一個展示出確認(rèn)的新興能力的視覺模型,標(biāo)志著計算機視覺領(lǐng)域的一個重大里程碑。
除了其新興能力外,Sora還表現(xiàn)出其他顯著的能力,包括指令遵循、視覺提示工程和視頻理解。Sora功能的這些方面代表了視覺領(lǐng)域的重大進步,將在接下來的部分中探討和討論。
詳解SoRA技術(shù)
概述
從核心本質(zhì)上講,Sora 是一個具有靈活采樣維度的擴散Transformer,如圖 4 所示。它分為三個部分:(1) 一個時間-空間壓縮器首先將原始視頻映射到潛在空間中。(2) 然后,一個 ViT 處理標(biāo)記化的潛在表示,并輸出去噪的潛在表示。(3) 一個類似于 CLIP 的條件機制接收 LLM 增強的用戶指令和潛在的視覺提示,以指導(dǎo)擴散模型生成風(fēng)格化或主題化的視頻。經(jīng)過許多去噪步驟,生成視頻的潛在表示被獲取,然后與相應(yīng)的解碼器映射回像素空間。
在本節(jié)中,我們旨在逆向工程 Sora 使用的技術(shù),并討論一系列相關(guān)工作。

數(shù)據(jù)預(yù)處理
可變持續(xù)時間、分辨率、長寬比
Sora 的一個顯著特點是其能夠訓(xùn)練、理解和生成視頻和圖像,并以它們的原生尺寸,如圖 5 所示。傳統(tǒng)方法通常會調(diào)整視頻的大小、裁剪或調(diào)整長寬比以適應(yīng)統(tǒng)一的標(biāo)準(zhǔn)------通常是具有固定低分辨率的正方形幀的短片。這些樣本通常是以更寬的時間步幅生成的,并依賴于分別訓(xùn)練的幀插入和分辨率渲染模型作為最后一步,從而在視頻中產(chǎn)生不一致性。利用擴散Transformer架構(gòu)(見第 3.2.4 節(jié)),Sora 是第一個接受視覺數(shù)據(jù)多樣性并且能夠在各種視頻和圖像格式中采樣的模型,范圍從寬屏 1920x1080p 視頻到豎屏 1080x1920p 視頻,以及所有介于兩者之間的內(nèi)容,而不會損害其原始尺寸。

在其原生尺寸的數(shù)據(jù)上進行訓(xùn)練顯著提高了生成視頻的構(gòu)圖和構(gòu)圖在生成的視頻中表現(xiàn)出更自然和連貫的視覺敘事。通過保持原始長寬比,Sora 實現(xiàn)了更自然和連貫的視覺敘事。如圖 6 所示,Sora 和模型在統(tǒng)一裁剪的正方形視頻上訓(xùn)練的比較清楚地表明了其優(yōu)勢。由 Sora 生成的視頻呈現(xiàn)出更好的構(gòu)圖,確保主題完全出現(xiàn)在場景中,而不是由于正方形裁剪而導(dǎo)致有時截斷的視圖。

對原始視頻和圖像特征的這種微妙理解和保留標(biāo)記了生成模型領(lǐng)域的一項重大進步。Sora 的方法不僅展示了更真實和吸引人的視頻生成的潛力,還突顯了訓(xùn)練數(shù)據(jù)多樣性對于在生成 AI 中獲得高質(zhì)量結(jié)果的重要性。Sora 的訓(xùn)練方法與 Richard Sutton 的"苦澀教訓(xùn)" 的核心理念一致,即利用計算能力而不是人類設(shè)計的特征可以實現(xiàn)更有效和靈活的 AI 系統(tǒng)。就像擴散Transformer的原始設(shè)計追求簡單和可擴展性一樣,Sora 在原始尺寸上訓(xùn)練數(shù)據(jù)的策略放棄了傳統(tǒng)的 AI 對人類衍生抽象的依賴,而是更傾向于一種隨著計算能力擴展的通用方法。在本節(jié)的其余部分,我們嘗試逆向工程 Sora 的架構(gòu)設(shè)計,并討論相關(guān)技術(shù)來實現(xiàn)這一令人驚嘆的功能。
統(tǒng)一的視覺表示
為了有效處理包括持續(xù)時間、分辨率和長寬比在內(nèi)的各種形式的視覺輸入,特別是Transformer令牌的后處理和輸出去噪的潛在表示。一個類似于 CLIP 的條件機制接收經(jīng)過 LLM 增強的用戶指令和潛在的視覺提示,以指導(dǎo)擴散模型生成風(fēng)格化或主題化的視頻。經(jīng)過許多去噪步驟,生成視頻的潛在表示被獲取,然后與相應(yīng)的解碼器映射回像素空間。在本節(jié)中,我們旨在逆向工程 Sora 使用的技術(shù),并討論一系列相關(guān)工作。
視頻壓縮網(wǎng)絡(luò)
Sora 的視頻壓縮網(wǎng)絡(luò)(或視覺編碼器)旨在減少輸入數(shù)據(jù)的維度,特別是原始視頻,并輸出一個壓縮的潛在表示,該表示在時間和空間上都被壓縮,如圖 7 所示。根據(jù)技術(shù)報告中的參考文獻(xiàn),壓縮網(wǎng)絡(luò)建立在 VAE 或向量量化-VAE(VQ-VAE)上。然而,如果不使用調(diào)整大小和裁剪,VAE 將難以將任何大小的視覺數(shù)據(jù)映射到統(tǒng)一且固定大小的潛在空間中。我們總結(jié)了兩種不同的實現(xiàn)來解決這個問題:

空間補丁壓縮。這涉及將視頻幀轉(zhuǎn)換為固定大小的補丁,類似于 ViT 和 MAE 中采用的方法(見圖 8),然后將它們編碼為潛在空間。這種方法對于容納各種分辨率和長寬比的視頻尤其有效,因為它通過處理單個補丁來編碼整個幀。隨后,這些空間令牌被組織成一個時空順序,以創(chuàng)建一個空間-時間潛在表示。這種技術(shù)突出了幾個關(guān)鍵考慮因素:

時間維度的可變性------鑒于訓(xùn)練視頻的持續(xù)時間不同,潛在空間表示的時間維度不能固定。為了解決這個問題,可以采樣特定數(shù)量的幀(對于更短的視頻可能需要填充或時間插值),或者定義一個通用擴展(超長)的輸入長度以進行后續(xù)處理;利用預(yù)訓(xùn)練的視覺編碼器------為了處理高分辨率視頻,大多數(shù)研究人員都建議利用現(xiàn)有的預(yù)訓(xùn)練的視覺編碼器,例如來自 Stable Diffusion 的 VAE 編碼器,而 Sora 的團隊則預(yù)計通過訓(xùn)練自己的壓縮網(wǎng)絡(luò)(視頻生成器)來獲得一個解碼器(視頻生成器)(通過訓(xùn)練潛在擴散模型的方式)。這些編碼器可以高效地壓縮大尺寸的補?。ɡ?256 × 256),便于管理大規(guī)模數(shù)據(jù);時間信息聚合------由于這種方法主要側(cè)重于空間補丁壓縮,因此需要一種額外的機制來聚合模型內(nèi)的時間信息。這一方面對于捕捉隨時間動態(tài)變化至關(guān)重要,并且在后續(xù)章節(jié)中進行了進一步的闡述。
空間-時間補丁壓縮。這種技術(shù)旨在封裝視頻數(shù)據(jù)的空間和時間維度,提供全面的表示。這種技術(shù)不僅僅分析靜態(tài)幀,還考慮了幀間的運動和變化,從而捕捉視頻的動態(tài)方面。采用 3D 卷積出現(xiàn)為實現(xiàn)這種集成的一種直接而有效的方法。圖形說明和與純空間-補丁化的比較如圖 9 所示。與空間補丁壓縮類似,采用帶有預(yù)定卷積核參數(shù)的空間-時間補丁壓縮------例如固定的核大小、步幅和輸出通道------由于視頻輸入的特征不同而導(dǎo)致潛在空間維度的變化。這種變化主要受到正在處理的視頻的不同持續(xù)時間和分辨率的影響。為了緩解這一挑戰(zhàn),采用的空間補丁化方法在這種情況下同樣適用且有效。

總而言之,我們根據(jù) VAE 或其變體(如 VQ-VQE)對兩種補丁級壓縮方法進行了逆向工程,因為對補丁的操作更靈活,能夠處理不同類型的視頻。由于 Sora 的目標(biāo)是生成高保真度的視頻,因此采用了較大的補丁大小或核大小以進行高效壓縮。在這里,我們期望使用固定大小的補丁以簡化、擴展和訓(xùn)練穩(wěn)定性。但也可以使用不同大小的補丁使?jié)撛诳臻g中的整體幀或視頻的維度保持一致。然而,這可能會導(dǎo)致無效的位置編碼,并且對于生成具有不同大小潛在補丁的視頻,會帶來挑戰(zhàn)。
時空潛在補丁
在壓縮網(wǎng)絡(luò)部分仍存在一個關(guān)鍵問題:如何處理潛在空間維度的可變性(即來自不同視頻類型的潛在特征塊或補丁的數(shù)量),然后將這些補丁饋送到擴散Transformer的輸入層。在這里,我們討論了幾種解決方案?;?Sora 的技術(shù)報告和相應(yīng)的參考文獻(xiàn),patch n' pack(PNP)可能是解決方案。PNP 將來自不同圖像的多個補丁打包到單個序列中,如圖 10 所示。這種方法受自然語言處理中使用的示例打包的啟發(fā),通過丟棄標(biāo)記來有效地訓(xùn)練變長輸入。在這里,補丁化和標(biāo)記嵌入步驟需要在壓縮網(wǎng)絡(luò)中完成,但 Sora 可能會進一步將潛在補丁化為Transformer標(biāo)記,如擴散Transformer所做的。無論是否有第二輪的補丁化,我們都需要解決兩個問題,即如何以緊湊的方式打包這些標(biāo)記以及如何控制哪些標(biāo)記應(yīng)該被丟棄。對于第一個問題,采用簡單的貪婪方法,該方法將示例添加到具有足夠剩余空間的第一個序列中。一旦沒有更多的示例可以適合,序列將用填充標(biāo)記填充,產(chǎn)生需要進行批處理操作的固定序列長度。這樣簡單的打包算法可能會導(dǎo)致重大的填充,這取決于輸入長度的分布。另一方面,我們可以通過調(diào)整序列長度和限制填充來控制我們采樣的分辨率和幀數(shù)以確保有效的打包。對于第二個問題,一種直觀的方法是丟棄相似的標(biāo)記或者像 PNP 一樣應(yīng)用丟棄率調(diào)度器。然而,值得注意的是,時空一致性是 Sora 的一個很好的特性之一。丟棄標(biāo)記可能會在訓(xùn)練過程中忽略細(xì)粒度的細(xì)節(jié)。因此,我們相信 OpenAI 可能會使用一個超長的上下文窗口并將所有來自視頻的標(biāo)記打包在一起,盡管這樣做是計算昂貴的,例如,多頭注意力操作符在序列長度方面表現(xiàn)出二次成本。具體來說,來自長時間視頻的時空潛在補丁可以打包在一個序列中,而來自幾個短時間視頻的補丁則連接在另一個序列中。

討論
我們討論了 Sora 可能使用的兩種數(shù)據(jù)預(yù)處理的技術(shù)解決方案。由于其靈活性和可擴展性的特點,在補丁級別執(zhí)行這兩種解決方案。與先前的方法不同,先前的方法將視頻調(diào)整大小、裁剪或修剪到標(biāo)準(zhǔn)尺寸,Sora 在其原生尺寸上對數(shù)據(jù)進行訓(xùn)練。盡管有幾個好處(詳見第 3.2.1 節(jié)中的詳細(xì)分析),但它帶來了一些技術(shù)挑戰(zhàn),其中最重要的之一是神經(jīng)網(wǎng)絡(luò)本質(zhì)上無法處理可變持續(xù)時間、分辨率和長寬比的視覺數(shù)據(jù)。通過逆向工程,我們相信 Sora 首先將視覺補丁壓縮為低維潛在表示,并將這些潛在補丁或進一步的補丁化的潛在補丁排列成一個序列,然后在將其饋送到擴散Transformer的輸入層之前注入噪聲。Sora 采用空間-時間補丁化是因為它易于實現(xiàn),并且可以通過具有高信息密度的令牌有效地減少上下文長度并降低后續(xù)建模的復(fù)雜性。對于研究界,我們建議使用成本效率更高的替代方案進行視頻壓縮和表示,包括利用預(yù)訓(xùn)練檢查點(例如,壓縮網(wǎng)絡(luò)),縮短上下文窗口,使用輕量級建模機制(例如(分組)多查詢注意力)或高效架構(gòu)(例如 Mamba),對數(shù)據(jù)進行降采樣并在必要時丟棄標(biāo)記。在視頻建模的效果和效率之間的權(quán)衡是一個重要的研究課題。
建模
擴散Transformer
圖像擴散Transformer。傳統(tǒng)的擴散模型主要利用卷積 U-Net,該 U-Net 包括用于去噪網(wǎng)絡(luò)骨干的下采樣和上采樣塊。然而,最近的研究表明,U-Net 架構(gòu)對擴散模型的良好性能并不關(guān)鍵。通過結(jié)合更靈活的Transformer架構(gòu),基于Transformer的擴散模型可以使用更多的訓(xùn)練數(shù)據(jù)和更大的模型參數(shù)。沿著這條線,DiT 和 U-ViT 是首批采用視覺Transformer進行潛在擴散模型的作品之一。與 ViT 一樣,DiT 使用多頭自注意層和一個與一些層規(guī)范和縮放層交織的逐點前饋網(wǎng)絡(luò)。此外,如圖 11 所示,DiT 通過自適應(yīng)層規(guī)范 (AdaLN) 來融合條件,其中還有一個額外的 MLP 層用于零初始化,它將每個殘差塊初始化為一個恒等函數(shù),從而極大地穩(wěn)定了訓(xùn)練過程。DiT 的可擴展性和靈活性經(jīng)過了經(jīng)驗驗證。DiT 成為擴散模型的新骨干。在 U-ViT 中,如圖 11 所示,他們將所有輸入(包括時間、條件和嘈雜的圖像塊)都視為標(biāo)記,并提出了淺層和深層Transformer層之間的長跳連線。結(jié)果表明,在基于 CNN 的 U-Net 中,下采樣和上采樣操作并不總是必要的,而 U-ViT 在圖像和文本到圖像生成中實現(xiàn)了創(chuàng)紀(jì)錄的 FID 分?jǐn)?shù)。

與掩碼自編碼器 (MAE)類似,掩碼擴散Transformer (MDT)將掩碼潛在建模整合到擴散過程中,以明確增強圖像合成中對象語義部分之間的上下文關(guān)系學(xué)習(xí)。具體而言,如圖 12 所示,MDT 在訓(xùn)練期間使用側(cè)插值來進行額外的掩碼標(biāo)記重構(gòu)任務(wù),以增強訓(xùn)練效率,并為推理學(xué)習(xí)強大的上下文感知位置嵌入。與 DiT相比,MDT 實現(xiàn)了更好的性能和更快的學(xué)習(xí)速度。哈塔米扎德等人引入了擴散視覺Transformer (DiffiT),用于時序條件建模,而不是使用 AdaLN (即移位和縮放)。DiffiT 使用定時依賴自注意 (TMSA) 模塊來模擬在采樣時間步驟上的動態(tài)去噪行為。此外,DiffiT 分別在像素空間和潛在空間中使用了兩種混合分層體系結(jié)構(gòu)進行高效去噪,并在各種生成任務(wù)中實現(xiàn)了新的最先進結(jié)果。總的來說,這些研究展示了采用視覺Transformer進行圖像潛在擴散的良好結(jié)果,為其他模態(tài)的未來研究鋪平了道路。

視頻擴散Transformer。在文本到圖像 (T2I) 擴散模型的基礎(chǔ)研究上,最近的研究集中于實現(xiàn)擴散Transformer在文本到視頻 (T2V) 生成任務(wù)中的潛力。由于視頻的時間性質(zhì),將 DiTs 應(yīng)用于視頻領(lǐng)域的關(guān)鍵挑戰(zhàn)是:i) 如何將視頻在空間上和時間上壓縮到潛在空間以進行有效去噪;ii) 如何將壓縮的潛在空間轉(zhuǎn)換為塊并將其饋送到Transformer;以及 iii) 如何處理長期時間和空間依賴性,并確保內(nèi)容的一致性。在本節(jié)中,我們將重點討論基于Transformer的去噪網(wǎng)絡(luò)架構(gòu),該架構(gòu)設(shè)計用于在空間和時間上壓縮的潛在空間中運行。我們對 OpenAI Sora 技術(shù)報告參考列表中描述的兩項重要工作(Imagen Video和 Video LDM)進行了詳細(xì)審查。
Imagen Video是谷歌研究開發(fā)的文本到視頻生成系統(tǒng),它利用一系列擴散模型,包括 7 個子模型,執(zhí)行文本條件視頻生成、空間超分辨率和時間超分辨率,將文本提示轉(zhuǎn)換為高清視頻。如圖 13 所示,首先,一個凍結(jié)的 T5 文本編碼器從輸入文本提示生成上下文嵌入。這些嵌入對于將生成的視頻與文本提示對齊至關(guān)重要,并且除了基礎(chǔ)模型之外,它們被注入到級聯(lián)的所有模型中。隨后,嵌入被饋送到基礎(chǔ)模型進行低分辨率視頻生成,然后通過級聯(lián)擴散模型進行細(xì)化以增加分辨率?;A(chǔ)視頻和超分辨率模型以時空可分離的方式使用 3D U-Net 架構(gòu)。

時間注意力和卷積層與空間對應(yīng)層相結(jié)合,以有效捕獲幀間依賴關(guān)系。它使用 v-預(yù)測參數(shù)化來實現(xiàn)數(shù)值穩(wěn)定性,并使用條件增強來促進跨模型的并行訓(xùn)練。該過程涉及對圖像和視頻的聯(lián)合訓(xùn)練,將每個圖像視為一幀以利用更大的數(shù)據(jù)集,并使用無分類器指導(dǎo)來增強提示的保真度。漸進蒸餾被應(yīng)用于簡化采樣過程,顯著降低了計算負(fù)載,同時保持了感知質(zhì)量。將這些方法和技術(shù)結(jié)合起來,使 Imagen Video 能夠生成不僅保真度高,而且可控性 remarkable 的視頻,如其產(chǎn)生多樣的視頻、文本動畫和各種藝術(shù)風(fēng)格的內(nèi)容所示。

Blattmann 等人提出將 2D 潛在擴散模型轉(zhuǎn)變?yōu)橐曨l潛在擴散模型 (Video LDM)。他們通過在現(xiàn)有的空間層之間添加一些事后時間層,將編碼器和 VAE 解碼器中的現(xiàn)有空間層轉(zhuǎn)換為視頻 LDM。這些時間層在編碼的視頻數(shù)據(jù)上進行訓(xùn)練,而空間層保持不變,使模型能夠利用大型圖像數(shù)據(jù)集進行預(yù)訓(xùn)練。LDM 的解碼器被微調(diào)以在像素空間中保持時間一致性,并將擴散模型的上采樣器在增強空間分辨率方面進行時間對齊。為了生成非常長的視頻,模型被訓(xùn)練以在給定一定數(shù)量的上下文幀的情況下預(yù)測未來幀,從而允許在采樣過程中無分類器指導(dǎo)。為了實現(xiàn)高時間分辨率,視頻合成過程被分為關(guān)鍵幀生成和這些關(guān)鍵幀之間的插值。在級聯(lián)的 LDM 之后,通過使用 DM 進一步將 Video LDM 的輸出擴大 4 倍,從而確保了高空間分辨率同時保持時間一致性。這種方法以高效的方式實現(xiàn)了生成全局一致的長視頻。此外,作者展示了將預(yù)訓(xùn)練的圖像 LDMs(例如,穩(wěn)定擴散)轉(zhuǎn)換為文本到視頻模型的能力,方法是僅訓(xùn)練時間對齊層,實現(xiàn)了分辨率高達(dá) 1280 × 2048 的視頻合成。
討論
用于空間和時間上采樣的級聯(lián)擴散模型。Sora 能夠生成高分辨率視頻。通過審查現(xiàn)有作品和我們的逆向工程,我們推測 Sora 也利用了級聯(lián)擴散模型架構(gòu),它由一個基礎(chǔ)模型和許多時空精煉器模型組成。鑒于在高分辨率情況下使用注意力機制的高計算成本和有限的性能提升,基礎(chǔ)擴散模型和低分辨率擴散模型中不太可能大量使用注意力模塊。對于空間和時間場景一致性,由于先前的作品表明,對于視頻/場景生成,時間一致性比空間一致性更重要,因此 Sora 可能利用一種有效的訓(xùn)練策略,即使用更長的視頻(用于時間一致性)以及更低的分辨率。此外,考慮到 v-參數(shù)化擴散模型相對于預(yù)測原始潛在變量 x 或噪聲 ? 的其他變體具有更優(yōu)越的性能,Sora 可能使用 v-參數(shù)化擴散模型。
關(guān)于潛在編碼器。為了訓(xùn)練效率,大多數(shù)現(xiàn)有作品利用穩(wěn)定擴散的預(yù)訓(xùn)練 VAE 編碼器作為初始化模型檢查點。然而,編碼器缺乏時間壓縮能力。即使一些作品提出僅微調(diào)解碼器以處理時間信息,但在壓縮潛在空間中處理視頻時間數(shù)據(jù)的解碼器性能仍然不夠優(yōu)化。根據(jù)技術(shù)報告,我們的逆向工程顯示,與使用現(xiàn)有的預(yù)訓(xùn)練 VAE 編碼器不同,Sora 可能使用從頭開始在視頻數(shù)據(jù)上訓(xùn)練的時空 VAE 編碼器,這種編碼器在視頻導(dǎo)向的壓縮潛在空間方面表現(xiàn)更好。
語言指令跟隨
用戶主要通過自然語言指令與生成式人工智能模型互動,這些指令被稱為文本提示。模型指令調(diào)整旨在增強人工智能模型準(zhǔn)確跟隨指令的能力。這種改進的提示跟隨能力使模型生成的輸出更接近人類對自然語言查詢的響應(yīng)。我們從對大型語言模型(LLMs)和文本到圖像模型(如 DALL·E 3)的指令跟隨技術(shù)的回顧開始討論。為了增強文本到視頻模型跟隨文本指令的能力,Sora 采用了與 DALLE3 類似的方法。該方法涉及訓(xùn)練一個描述性字幕生成器,并利用字幕生成器生成的數(shù)據(jù)進行微調(diào)。由于指令調(diào)整,Sora 能夠滿足各種用戶請求,確保對指令中的細(xì)節(jié)進行細(xì)致注意,并生成精確滿足用戶需求的視頻。
大型語言模型
對于LLMs的跟隨指令的能力已經(jīng)得到了廣泛探討。這種能力使LLMs能夠閱讀、理解和適當(dāng)?shù)仨憫?yīng)描述一個未見任務(wù)的指令,而無需示例。通過在格式化為指令的任務(wù)的混合上對LLMs進行微調(diào),即所謂的指令調(diào)整,獲得和增強了提示跟隨能力。Wei 等人表明,經(jīng)過指令調(diào)整的LLMs在未見任務(wù)上顯著優(yōu)于未調(diào)整的LLMs。跟隨指令的能力將LLMs轉(zhuǎn)化為通用任務(wù)求解器,標(biāo)志著人工智能發(fā)展史上的一次范式轉(zhuǎn)變。
文本到圖像
在DALL·E 3中,通過一種假設(shè)來解決指令跟隨問題,即模型訓(xùn)練中的文本-圖像對質(zhì)量決定了結(jié)果文本到圖像模型的性能。數(shù)據(jù)質(zhì)量不佳,特別是嘈雜數(shù)據(jù)和短字幕的普遍存在,這導(dǎo)致了許多問題,如忽略關(guān)鍵字和詞序,并且誤解用戶意圖。通過重新為現(xiàn)有圖像制作詳細(xì)的、描述性的字幕來解決這些問題。該方法首先訓(xùn)練一個圖像字幕生成器,即視覺語言模型,以生成精確和描述性的圖像字幕。然后,通過這些由字幕生成器生成的描述性圖像字幕對文本到圖像模型進行微調(diào)。具體來說,DALL·E 3遵循對比字幕生成器(CoCa),以共同訓(xùn)練一個圖像字幕生成器與CLIP架構(gòu)和語言模型目標(biāo)。這個圖像字幕生成器包括一個圖像編碼器,一個用于提取語言信息的單模文本編碼器,和一個多模文本解碼器。它首先在單模圖像和文本嵌入之間使用對比損失,然后在多模解碼器的輸出上使用字幕損失。通過這一步,圖像字幕生成器能夠為圖像生成詳細(xì)的描述性字幕。文本到圖像模型的訓(xùn)練數(shù)據(jù)集是由圖像字幕生成器生成的重新字幕數(shù)據(jù)集和地面真實人類編寫數(shù)據(jù)的混合,以確保模型捕獲用戶輸入。這種圖像字幕改進方法引入了一個潛在的問題:實際用戶提示與訓(xùn)練數(shù)據(jù)中描述性圖像描述之間的不匹配。DALL·E 3通過上采樣來解決這個問題,即LLMs用于將短用戶提示重新撰寫成詳細(xì)和冗長的說明。這樣可以確保推理時模型接收到的文本輸入與模型訓(xùn)練中的輸入一致。
文本到視頻
為了增強指令跟隨的能力,Sora采用了類似的字幕改進方法。首先通過訓(xùn)練一個能夠為視頻生成詳細(xì)描述的視頻字幕生成器來實現(xiàn)此方法。然后,將此視頻字幕生成器應(yīng)用于訓(xùn)練數(shù)據(jù)中的所有視頻,以生成高質(zhì)量的(視頻,描述性字幕)對,這些對用于微調(diào)Sora以提高其指令跟隨能力。Sora 的技術(shù)報告沒有透露視頻字幕生成器是如何訓(xùn)練的細(xì)節(jié)。鑒于視頻字幕生成器是一個視頻到文本模型,有許多構(gòu)建方法。一種直接的方法是利用 CoCa 架構(gòu)進行視頻字幕生成,通過將視頻的多幀輸入到圖像編碼器,即 VideoCoCa。VideoCoCa 在 CoCa 的基礎(chǔ)上構(gòu)建,并重新使用圖像編碼器預(yù)訓(xùn)練權(quán)重,并獨立地應(yīng)用于采樣視頻幀。結(jié)果幀令牌嵌入被展平并連接成視頻表示的長序列。然后,這些展平的幀令牌由生成池和對比池處理,它們與對比損失和字幕損失一起進行聯(lián)合訓(xùn)練。構(gòu)建視頻字幕生成器的其他替代方法包括 mPLUG-2、GIT、FrozenBiLM等。最后,為了確保用戶提示與訓(xùn)練數(shù)據(jù)中的描述性字幕格式相一致,Sora 執(zhí)行了額外的提示擴展步驟,其中 GPT-4V 用于將用戶輸入擴展到詳細(xì)的描述性提示。
討論
對于 Sora 來說,遵循指令的能力對于生成符合用戶意圖的復(fù)雜場景的一分鐘長視頻至關(guān)重要。根據(jù) Sora 的技術(shù)報告,這種能力是通過開發(fā)一個能夠生成長而詳細(xì)的字幕的字幕生成器來獲得的,然后用于訓(xùn)練模型。然而,收集用于訓(xùn)練這樣一個字幕生成器的數(shù)據(jù)的過程是未知的,并且可能是耗時的,因為它可能需要視頻的詳細(xì)描述。此外,描述性視頻字幕生成器可能會產(chǎn)生視頻的重要細(xì)節(jié)幻覺。我們認(rèn)為,如何改進視頻字幕生成器值得進一步研究,并且對于增強文本到圖像模型的指令跟隨能力至關(guān)重要。
提示工程
提示工程是指設(shè)計和完善輸入給人工智能系統(tǒng)的過程,特別是在生成模型的背景下,以實現(xiàn)特定或優(yōu)化的輸出。提示工程的藝術(shù)和科學(xué)涉及以引導(dǎo)模型產(chǎn)生最準(zhǔn)確、相關(guān)和連貫的響應(yīng)的方式來制作這些輸入。
文本提示
文本提示工程對于指導(dǎo)文本到視頻模型(例如 Sora)生成視覺上引人注目的視頻并精確滿足用戶要求至關(guān)重要。這涉及制作詳細(xì)描述來指導(dǎo)模型有效地彌合人類創(chuàng)造力與人工智能執(zhí)行能力之間的差距。Sora 的提示涵蓋了各種情境。最近的研究(例如 VoP、Make-A-Video 和 Tune-A-Video)展示了提示工程如何利用模型的自然語言理解能力來解碼復(fù)雜的指令,并將其渲染成連貫、生動和高質(zhì)量的視頻敘事。如圖 15 所示,"一位時尚的女性走在霓虹燈閃爍的東京街道上......"就是這樣一個精心制作的文本提示,它確保 Sora 生成與預(yù)期視覺相符的視頻。提示工程的質(zhì)量取決于單詞的精心選擇、提供細(xì)節(jié)的具體性以及對其對模型輸出的影響的理解。例如,圖 15 中的提示詳細(xì)說明了場景的動作、設(shè)置、人物外貌,甚至是所需的心情和氛圍。

圖像提示
圖像提示作為待生成視頻內(nèi)容的視覺錨點,還包括角色、設(shè)置和情緒等其他元素。此外,文本提示可以指示模型通過添加運動、互動和敘事發(fā)展的層次來使這些元素動畫化,從而使靜態(tài)圖像栩栩如生。使用圖像提示允許 Sora 利用視覺和文本信息將靜態(tài)圖像轉(zhuǎn)換為動態(tài)、敘事驅(qū)動的視頻。在圖 16 中,我們展示了"一只穿著貝雷帽和高領(lǐng)衫的柴犬"、"一個獨特的怪物家庭"、"一個云形成"SORA"字樣"和"沖浪者在歷史性大廳內(nèi)航行潮水浪涌"的 AI 生成視頻。這些例子展示了通過向 Sora 提供由 DALL·E 生成的圖像可以實現(xiàn)的效果。

視頻提示
視頻提示也可以用于視頻生成。最近的研究(例如 Moonshot 和 Fast-Vid2Vid)表明,良好的視頻提示需要具體和靈活。這確保了模型在特定目標(biāo)上獲得清晰的指導(dǎo),例如特定對象和視覺主題的描繪,并且還允許最終輸出中具有想象力的變化。例如,在視頻擴展任務(wù)中,提示可以指定擴展的方向(時間向前或向后)以及擴展的上下文或主題。在圖 17(a) 中,視頻提示指示 Sora 將視頻向時間的反方向延伸以探索原始起始點之前發(fā)生的事件。在通過視頻提示進行視頻到視頻編輯時,如圖 17(b) 所示,模型需要清楚地理解所需的轉(zhuǎn)換,例如改變視頻的風(fēng)格、設(shè)置或氛圍,或者改變細(xì)微的方面,如光線或心情。在圖 17(c) 中,提示指示 Sora 在確保不同場景中的對象之間實現(xiàn)平滑過渡的同時連接視頻。

討論
提示工程使用戶能夠引導(dǎo) AI 模型生成符合其意圖的內(nèi)容。例如,文本、圖像和視頻提示的結(jié)合使用使 Sora 能夠創(chuàng)建不僅在視覺上引人注目,而且與用戶的期望和意圖相契合的內(nèi)容。雖然先前關(guān)于提示工程的研究集中在 LLMs 和 LVMs 的文本和圖像提示上,但我們預(yù)計視頻生成模型的視頻提示將引起越來越多的關(guān)注。
可信度
隨著諸如 ChatGPT、GPT4-V 和 Sora 等復(fù)雜模型的快速發(fā)展,這些模型的能力得到了顯著增強。這些發(fā)展對提高工作效率和推動技術(shù)進步做出了重要貢獻(xiàn)。然而,這些進步也引發(fā)了人們對這些技術(shù)潛在濫用的擔(dān)憂,包括虛假新聞的生成、隱私侵犯和道德困境。因此,大型模型的可信度問題引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注,成為當(dāng)代研究討論的焦點之一。
安全性問題
一個主要關(guān)注的領(lǐng)域是模型的安全性,特別是其抵御濫用和所謂的"越獄"攻擊的韌性,用戶試圖利用漏洞生成被禁止或有害內(nèi)容的情況。例如,引入了一種基于梯度技術(shù)的新穎且可解釋的對抗攻擊方法 AutoDAN ,以實現(xiàn)系統(tǒng)繞過。在一項最近的研究中,研究人員探討了語言模型為什么難以抵御越獄攻擊的兩個原因:競爭性目標(biāo)和不匹配的泛化。除了文本攻擊,視覺越獄也威脅到多模型模型的安全性(例如,GPT-4V和 Sora)。一項最近的研究 發(fā)現(xiàn),大型多模型模型更易受攻擊,因為額外的視覺輸入的連續(xù)和高維特性使其更脆弱,容易受到對抗性攻擊,代表了一個擴展的攻擊面。
其他利用
由于大型基礎(chǔ)模型的訓(xùn)練數(shù)據(jù)集的規(guī)模和訓(xùn)練方法(例如,ChatGPT和 Sora),這些模型的真實性需要加強,因為相關(guān)問題如幻覺已經(jīng)廣泛討論。在這種情況下,幻覺指的是模型傾向于生成看似令人信服但毫無根據(jù)或錯誤的響應(yīng)。這種現(xiàn)象引發(fā)了關(guān)于模型輸出的可靠性和可信度的關(guān)鍵問題,需要綜合方法來評估和解決這個問題。已經(jīng)有大量研究致力于從各個角度剖析幻覺問題。這包括旨在評估不同模型和場景中幻覺程度和性質(zhì)的努力。這些評估為理解幻覺發(fā)生的方式和原因提供了寶貴的見解,為開發(fā)減少其發(fā)生的策略奠定了基礎(chǔ)。與此同時,大量研究致力于設(shè)計和實施方法,以減少這些大型模型中的幻覺。
可信度的另一個重要方面是公平性和偏見。開發(fā)不會持續(xù)或加劇社會偏見的模型的重要性是一個重要關(guān)注點。這一重點來自于認(rèn)識到這些模型中編碼的偏見可能會強化現(xiàn)有的社會不公平,導(dǎo)致歧視性結(jié)果。該領(lǐng)域的研究,正如 Gallegos 等人、Zhang 等人、Liang 等人和 Friedrich 等人的工作所證實的那樣,致力于對這些固有偏見進行仔細(xì)辨別和糾正。目標(biāo)是培養(yǎng)公平運作的模型,對待所有個體時都不帶有種族、性別或其他敏感屬性的偏見。這不僅涉及在數(shù)據(jù)集中檢測和減輕偏見,還包括設(shè)計能夠積極抵制這些偏見傳播的算法。
隱私保護是這些模型部署時的另一個基本支柱。在數(shù)據(jù)隱私關(guān)切日益加劇的時代,保護用戶數(shù)據(jù)的重視程度從未如此關(guān)鍵。對于大型模型的嚴(yán)格評估日益引起公眾的關(guān)注和擔(dān)憂,這些評估側(cè)重于模型保護用戶數(shù)據(jù)的能力,確保個人信息保持機密,不會被無意間披露。Mireshghallah 等人、Plant 等人和 Li 等人的研究展示了推動隱私保護方法和技術(shù)的努力。
對齊
在應(yīng)對這些挑戰(zhàn)時,確保大型模型的可信度已成為研究人員的主要關(guān)注點之一。其中最重要的技術(shù)之一是模型對齊,指的是確保模型的行為和輸出與人類設(shè)計者的意圖和道德標(biāo)準(zhǔn)一致的過程和目標(biāo)。這涉及到技術(shù)的發(fā)展、其道德責(zé)任和社會價值。在大型語言模型領(lǐng)域,利用人類反饋的強化學(xué)習(xí)方法(RLHF)已被廣泛應(yīng)用于模型對齊。該方法將強化學(xué)習(xí)(RL)與直接人類反饋結(jié)合,使模型能夠更好地與人類的期望和標(biāo)準(zhǔn)一致地理解和執(zhí)行任務(wù)。
討論
從 Sora(特別是其技術(shù)報告)中,我們總結(jié)了一些有見地的發(fā)現(xiàn),這些發(fā)現(xiàn)可能為未來的工作提供了信息性的指導(dǎo):
(1)模型與外部安全的綜合保護:隨著模型變得更加強大,特別是在生成內(nèi)容方面,確保它們不被濫用以生成有害內(nèi)容(例如仇恨言論和虛假信息)已成為一個嚴(yán)重的挑戰(zhàn)。除了調(diào)整模型本身外,外部安全保護同樣重要。這包括內(nèi)容過濾和審查機制、使用權(quán)限和訪問控制、數(shù)據(jù)隱私保護,以及透明度和可解釋性的增強。例如,OpenAI 現(xiàn)在使用檢測分類器來判斷給定視頻是否由 Sora 生成。此外,還部署了文本分類器來檢測潛在有害的文本輸入。
(2)多模型模型的安全挑戰(zhàn):多模型模型,如文本到視頻模型(如 Sora),由于其理解和生成各種類型內(nèi)容的能力(文本、圖像、視頻等),給安全帶來了額外的復(fù)雜性。多模型模型可以以各種形式生成內(nèi)容,增加了濫用和版權(quán)問題的方式和范圍。由于多模型模型生成的內(nèi)容更加復(fù)雜和多樣化,傳統(tǒng)的內(nèi)容驗證和真實性方法可能不再有效。這需要開發(fā)新的技術(shù)和方法來識別和過濾這些模型生成的有害內(nèi)容,增加了規(guī)范和管理的難度。
(3)跨學(xué)科合作的需求:確保模型的安全性不僅是一個技術(shù)問題,還需要跨學(xué)科合作。為了解決這些挑戰(zhàn),需要來自法律和心理學(xué)等各個領(lǐng)域的專家共同合作,制定適當(dāng)?shù)囊?guī)范(例如,什么是安全的,什么是不安全的?)、政策和技術(shù)解決方案??鐚W(xué)科合作的需求顯著增加了解決這些問題的復(fù)雜性。
應(yīng)用
隨著以Sora為代表的視頻擴散模型成為前沿技術(shù),它們在各個研究領(lǐng)域和行業(yè)中的應(yīng)用正在迅速加速。這項技術(shù)的影響遠(yuǎn)遠(yuǎn)超出了僅僅視頻創(chuàng)作,為從自動化內(nèi)容生成到復(fù)雜決策過程等任務(wù)提供了變革性潛力。在本節(jié)中,我們深入全面地審視了視頻擴散模型的當(dāng)前應(yīng)用,突出了Sora不僅展示了其能力,而且徹底改變了解決復(fù)雜問題的方法。我們旨在為實際部署場景提供廣泛的視角(見圖18)。

電影
傳統(tǒng)上,創(chuàng)作影視杰作是一個艱難且昂貴的過程,通常需要數(shù)十年的努力、尖端設(shè)備和大量的財政投資。然而,先進的視頻生成技術(shù)的出現(xiàn)預(yù)示著電影制作的新時代,其中一個夢想是從簡單的文本輸入自動產(chǎn)生電影正在成為現(xiàn)實。研究人員通過將視頻生成模型擴展到電影生成的領(lǐng)域,涉足了電影生成的領(lǐng)域。MovieFactory應(yīng)用擴散模型生成電影風(fēng)格的視頻,這些視頻由Chat-GPT生成的詳細(xì)腳本產(chǎn)生,代表了一個重大飛躍。隨后,MobileVidFactory可以根據(jù)用戶提供的簡單文本自動生成垂直移動視頻。Vlogger使用戶能夠撰寫一分鐘長的視頻日志。這些發(fā)展,以Sora輕松生成引人入勝的電影內(nèi)容的能力為代表,標(biāo)志著電影制作民主化的一個關(guān)鍵時刻。它們展示了一個未來的景象,那里任何人都可以成為電影制片人,顯著降低了進入電影行業(yè)的門檻,并在電影制作中引入了一個新穎的維度,將傳統(tǒng)敘事與人工智能驅(qū)動的創(chuàng)造力融合在一起。這些技術(shù)的影響超出了簡化。它們承諾重塑電影制作的格局,在不斷變化的觀眾偏好和分發(fā)渠道面前,使其更加可訪問和多樣化。
教育
長期以來,教育內(nèi)容的景觀一直被靜態(tài)資源所主導(dǎo),盡管它們具有價值,但往往無法滿足當(dāng)今學(xué)生多樣化的需求和學(xué)習(xí)風(fēng)格。視頻擴散模型站在教育革命的前沿,提供了前所未有的機會,以一種顯著增強學(xué)習(xí)者參與度和理解能力的方式定制和激活教育材料。這些先進技術(shù)使教育工作者能夠?qū)⑽谋久枋龌蛘n程大綱轉(zhuǎn)化為動態(tài)、引人入勝的視頻內(nèi)容,以適應(yīng)個體學(xué)習(xí)者的特定風(fēng)格和興趣。此外,圖像到視頻編輯技術(shù)提供了將靜態(tài)教育資產(chǎn)轉(zhuǎn)化為互動視頻的創(chuàng)新途徑,從而支持一系列學(xué)習(xí)偏好,并潛在地增加學(xué)生參與度。通過將這些模型整合到教育內(nèi)容創(chuàng)作中,教育工作者可以在許多主題上制作視頻,使復(fù)雜概念對學(xué)生更加易于理解和引人入勝。Sora在革新教育領(lǐng)域方面的應(yīng)用體現(xiàn)了這些技術(shù)的變革潛力。這種向個性化、動態(tài)教育內(nèi)容的轉(zhuǎn)變標(biāo)志著教育的新時代。
游戲
游戲行業(yè)不斷尋求推動現(xiàn)實感和沉浸感的界限,然而,傳統(tǒng)的游戲開發(fā)往往受制于預(yù)先渲染的環(huán)境和腳本化事件的限制。擴散模型實時生成動態(tài)、高保真視頻內(nèi)容和逼真音效的能力,承諾克服現(xiàn)有的限制,為開發(fā)者提供工具,創(chuàng)造對玩家行動和游戲事件有機響應(yīng)的不斷演變的游戲環(huán)境。這可能包括生成變化的天氣條件、改變地貌,甚至實時創(chuàng)建全新的環(huán)境,使游戲世界更加沉浸和響應(yīng)。一些方法還從視頻輸入中合成逼真的撞擊聲音,增強游戲音頻體驗。通過將Sora整合到游戲領(lǐng)域,可以創(chuàng)造出引人入勝、吸引玩家的無與倫比的沉浸式體驗。游戲的開發(fā)、玩法和體驗將得到革新,同時為敘事、互動和沉浸體驗開辟新的可能性。
醫(yī)療保健
盡管具有生成能力,視頻擴散模型擅長理解和生成復(fù)雜的視頻序列,使其特別適用于識別體內(nèi)的動態(tài)異常,例如早期細(xì)胞凋亡、皮膚病變進展和不規(guī)則的人體運動,這對于早期疾病的檢測和干預(yù)策略至關(guān)重要。此外,像MedSegDiff-V2和這樣的模型利用Transformer的力量以前所未有的精度對醫(yī)學(xué)圖像進行分割,使臨床醫(yī)生能夠在各種成像模式下精確地找出感興趣的區(qū)域。將Sora整合到臨床實踐中,不僅可以改進診斷過程,而且可以個性化患者護理,根據(jù)精確的醫(yī)學(xué)成像分析提供定制的治療方案。然而,這種技術(shù)整合也帶來了一系列挑戰(zhàn),包括對健壯數(shù)據(jù)隱私措施的需求和解決醫(yī)療倫理問題。
機器人技術(shù)
視頻擴散模型現(xiàn)在在機器人技術(shù)中扮演著重要角色,展示了一個新時代,在這個時代,機器人可以生成和解釋復(fù)雜的視頻序列,以增強感知和決策制定。這些模型為機器人解鎖了新的能力,使它們能夠與環(huán)境交互,并以前所未有的復(fù)雜性和精度執(zhí)行任務(wù)。將網(wǎng)絡(luò)規(guī)模的擴散模型應(yīng)用到機器人技術(shù)展示了利用大規(guī)模模型增強機器人視覺和理解能力的潛力。潛在的擴散模型被用于語言指導(dǎo)的視頻預(yù)測,使機器人能夠通過預(yù)測視頻格式中的動作結(jié)果來理解和執(zhí)行任務(wù)。此外,視頻擴散模型創(chuàng)新地解決了機器人研究中對模擬環(huán)境的依賴,這些模型能夠創(chuàng)建高度逼真的視頻序列。這使得為機器人生成多樣化的訓(xùn)練場景成為可能,緩解了真實世界數(shù)據(jù)稀缺性所帶來的限制。我們相信,將Sora等技術(shù)整合到機器人領(lǐng)域,將帶來突破性的發(fā)展。通過利用Sora的力量,機器人的未來將迎來前所未有的進步,使機器人能夠無縫地在環(huán)境中導(dǎo)航和交互。
討論
Sora顯示出了從人類精確理解和實施復(fù)雜指令方面的卓越才能。這個模型擅長創(chuàng)作具有各種角色的詳細(xì)視頻,這些角色都設(shè)置在精心制作的場景中。Sora的一個特別令人印象深刻的特點是,它能夠在保持一致而引人入勝的敘述的同時制作長達(dá)一分鐘的視頻。這標(biāo)志著與之前專注于較短視頻片段的嘗試相比,Sora的延長序列展示了清晰的敘述流程,并從頭到尾保持了視覺一致性。此外,Sora通過生成更長的視頻序列來區(qū)別于先前模型,這些視頻序列捕捉了復(fù)雜的動作和交互,推動了AI驅(qū)動的創(chuàng)造工具的重大進步,使用戶能夠?qū)婀适罗D(zhuǎn)化為細(xì)節(jié)豐富、復(fù)雜的視頻,而這在以前是不可能實現(xiàn)的。
限制
物理真實性的挑戰(zhàn)。作為一個模擬平臺,Sora展示了一系列限制,這些限制削弱了其準(zhǔn)確描繪復(fù)雜場景的效果。最重要的是,它在復(fù)雜場景中對物理原理的處理不一致,導(dǎo)致未能準(zhǔn)確復(fù)制特定的因果示例。例如,吃掉一部分餅干可能不會導(dǎo)致相應(yīng)的咬痕,這說明了系統(tǒng)偶爾脫離物理可信度。這個問題延伸到運動的模擬,Sora生成的運動挑戰(zhàn)現(xiàn)實的物理建模,比如物體的不自然變形或椅子等剛性結(jié)構(gòu)的錯誤模擬,導(dǎo)致不真實的物理交互。在模擬物體和角色之間的復(fù)雜交互時,挑戰(zhàn)進一步加劇,有時產(chǎn)生的結(jié)果偏向于幽默。
空間和時間復(fù)雜性。Sora偶爾會誤解與給定提示中的對象和角色的放置或排列相關(guān)的指令,導(dǎo)致對方向的混淆(例如,將左右混淆)。此外,在保持事件的時間準(zhǔn)確性方面存在挑戰(zhàn),特別是在遵循指定的相機運動或序列時。這可能導(dǎo)致偏離場景的預(yù)期時間流。在涉及大量角色或元素的復(fù)雜情況下,Sora有時會插入不相關(guān)的動物或人物。這種添加可能會顯著改變最初設(shè)想的構(gòu)圖和氛圍,偏離了計劃的敘述或視覺布局。這個問題不僅影響了模型準(zhǔn)確重現(xiàn)特定場景或敘述的能力,還影響了其在生成內(nèi)容方面與用戶期望和生成輸出的連貫性一致性。
人機交互的限制。盡管Sora在視頻生成領(lǐng)域顯示出潛力,但在人機交互方面面臨著重大限制。這些限制主要體現(xiàn)在用戶系統(tǒng)交互的一致性和效率上,尤其是在對生成內(nèi)容進行詳細(xì)修改或優(yōu)化時。例如,用戶可能會發(fā)現(xiàn)難以精確指定或調(diào)整視頻中特定元素的呈現(xiàn)方式,比如動作細(xì)節(jié)和場景過渡。此外,Sora在理解復(fù)雜語言指令或捕捉微妙語義差異方面的限制可能導(dǎo)致視頻內(nèi)容未能完全滿足用戶的期望或需求。這些缺點限制了Sora在視頻編輯和增強方面的潛力,也影響了用戶體驗的整體滿意度。
使用限制。關(guān)于使用限制,OpenAI尚未為公眾訪問Sora設(shè)定具體的發(fā)布日期,強調(diào)在廣泛部署之前需要謹(jǐn)慎處理安全性和準(zhǔn)備性。這表明,Sora在安全、隱私保護和內(nèi)容審查等領(lǐng)域可能仍需要進一步改進和測試。此外,目前,Sora只能生成長達(dá)一分鐘的視頻,根據(jù)已發(fā)布的案例,大多數(shù)生成的視頻只有幾十秒長。這一限制限制了其在需要更長內(nèi)容展示的應(yīng)用中的使用,如詳細(xì)的教學(xué)視頻或深入的敘事。這一限制降低了Sora在內(nèi)容創(chuàng)作中的靈活性。
機遇
學(xué)術(shù)。(1) OpenAI引入Sora標(biāo)志著AI社區(qū)更深入地探索文本到視頻模型的轉(zhuǎn)變,利用擴散和Transformer技術(shù)。這一舉措旨在重新引導(dǎo)關(guān)注,將重點轉(zhuǎn)向直接從文本描述創(chuàng)建高度復(fù)雜和微妙的視頻內(nèi)容的潛力,這是一片有望革新內(nèi)容創(chuàng)作、敘事和信息共享的前沿。(2) 將Sora訓(xùn)練在原始大小的數(shù)據(jù)上的創(chuàng)新方法,與傳統(tǒng)的調(diào)整或裁剪方法相比,為學(xué)術(shù)界提供了突破性的靈感。它通過突出利用未經(jīng)修改的數(shù)據(jù)集的好處,為創(chuàng)建更先進的生成模型打開了新的途徑。
行業(yè)。(1) Sora目前的能力標(biāo)志著視頻模擬技術(shù)進步的一個有希望的路徑,突出了在物理和數(shù)字領(lǐng)域內(nèi)顯著增強逼真性的潛力。Sora通過文本描述使得創(chuàng)造高度逼真環(huán)境成為可能,這為內(nèi)容創(chuàng)作開辟了一個充滿希望的未來。這一潛力延伸到了革新游戲開發(fā),展示了一個未來的景象,即可以以前所未有的輕松和準(zhǔn)確度打造沉浸式的虛擬世界。(2) 公司可以利用Sora制作能夠迅速適應(yīng)市場變化并創(chuàng)建定制營銷內(nèi)容的廣告視頻。這不僅降低了生產(chǎn)成本,還增強了廣告的吸引力和有效性。Sora僅憑文本描述就能生成高度逼真的視頻內(nèi)容的能力,可能會徹底改變品牌與受眾互動的方式,使其能夠以前所未有的方式創(chuàng)造沉浸式和引人入勝的視頻,捕捉產(chǎn)品或服務(wù)的本質(zhì)。
社會。(1) 雖然利用文本到視頻技術(shù)替代傳統(tǒng)電影制作的前景仍然遙遠(yuǎn),但Sora和類似的平臺對社交媒體內(nèi)容創(chuàng)作具有變革性的潛力。目前視頻長度的限制并不減弱這些工具在使高質(zhì)量視頻制作對每個人都可及的方面所能發(fā)揮的影響,使個人能夠在不需要昂貴設(shè)備的情況下制作引人入勝的內(nèi)容。這代表了對TikTok和Reels等平臺上內(nèi)容創(chuàng)作者的重大轉(zhuǎn)變,帶來了一個新的創(chuàng)造力和參與度的時代。(2) 編劇和創(chuàng)意專業(yè)人員可以利用Sora將書面劇本轉(zhuǎn)化為視頻,幫助他們更好地展示和分享他們的創(chuàng)意概念,甚至制作短片和動畫片。從劇本中創(chuàng)作詳細(xì)、生動的視頻可以從根本上改變電影和動畫制作的前期制作過程,讓未來的敘事者可以在其中進行創(chuàng)作、發(fā)展和完善他們的敘事構(gòu)思。這項技術(shù)為更動態(tài)、更互動的劇本開發(fā)形式開辟了可能性,其中的想法可以實時可視化和評估,為創(chuàng)造力和協(xié)作提供了強大的工具。(3) 記者和新聞機構(gòu)也可以利用Sora快速生成新聞報道或解釋性視頻,使新聞內(nèi)容更加生動和引人入勝。這可以顯著增加新聞報道的報道范圍和受眾參與度。通過提供一個可以模擬真實環(huán)境和場景的工具,Sora為視覺敘事提供了強大的解決方案,使記者能夠通過引人入勝的視頻來傳達(dá)復(fù)雜的故事,這些故事以前很難或昂貴地制作??偟膩碚f,Sora 在營銷、新聞和娛樂領(lǐng)域徹底改革內(nèi)容創(chuàng)作的潛力是巨大的。
結(jié)論
這篇綜述提供了對 Sora 的全面評估,以幫助開發(fā)者和研究人員研究 Sora 的能力和相關(guān)工作。該評估基于對已發(fā)表的技術(shù)報告的調(diào)查和基于現(xiàn)有文獻(xiàn)的逆向工程。當(dāng) Sora 的 API 可用并且有關(guān) Sora 的進一步細(xì)節(jié)被揭示時,作者將繼續(xù)更新本文。作者希望本綜述論文能成為開源研究社區(qū)的寶貴資源,并為社區(qū)共同在不久的將來開發(fā)一個開源版本的 Sora 打下基礎(chǔ),以在 AIGC 時代使視頻自動生成民主化。為了實現(xiàn)這一目標(biāo),作者邀請各方進行討論、提出建議,并展開合作。





























