中國(guó)如何復(fù)刻Sora，華人團(tuán)隊(duì)長(zhǎng)文解構(gòu)！996 OpenAI研究員：Sora是視頻GPT-2時(shí)刻

作者：新智元 2024-02-29 15:39:00

自曝996作息的OpenAI研究員Jason Wei表示，Sora代表著視頻生成的GPT-2時(shí)刻。競(jìng)爭(zhēng)的關(guān)鍵，就是算力和數(shù)據(jù)了。國(guó)內(nèi)有可能成功「復(fù)刻」Sora嗎？華人團(tuán)隊(duì)的這份37頁(yè)技術(shù)報(bào)告，或許能給我們一些啟發(fā)。

今天，這張圖在AI社區(qū)熱轉(zhuǎn)。

它列舉了一眾文生視頻模型的誕生時(shí)間、架構(gòu)和作者機(jī)構(gòu)。

毫不意外，谷歌依然是視頻模型開山之作的作者。不過如今AI視頻的聚光燈，全被Sora搶去了。

同時(shí)，自曝996作息時(shí)間表的OpenAI研究員Jason Wei表示——

「Sora是一個(gè)里程碑，代表著視頻生成的GPT-2時(shí)刻。」

對(duì)于文字生成領(lǐng)域，GPT-2無(wú)疑是一個(gè)分水嶺。2018年GPT-2的推出，標(biāo)志著能夠生成連貫、語(yǔ)法正確的文本段落的新時(shí)代。

當(dāng)然，GPT-2也難以完成一篇完整無(wú)誤的文章，會(huì)出現(xiàn)邏輯不一致或捏造事實(shí)的情況。但是，它為后續(xù)的模型發(fā)展奠定了基礎(chǔ)。

在不到五年內(nèi)，GPT-4已經(jīng)能夠執(zhí)行串聯(lián)思維這種復(fù)雜任務(wù)，或者寫出一篇長(zhǎng)文章，過程中并不會(huì)捏造事實(shí)。

而今天，Sora已經(jīng)也意味著這樣的時(shí)刻。

它能創(chuàng)作出既有藝術(shù)感又逼真的短視頻。雖然還不能創(chuàng)作出長(zhǎng)達(dá)40分鐘的電視劇，但角色的一致性和故事性已經(jīng)非常引人入勝！

Jason Wei相信，在Sora以及未來(lái)的視頻生成模型中，保持長(zhǎng)期一致性、近乎完美的逼真度、創(chuàng)作有深度的故事情節(jié)這些能力，都會(huì)逐漸成型。

Sora會(huì)顛覆好萊塢嗎？它離電影大片還有多遠(yuǎn)？

好萊塢知名導(dǎo)演Tyler Perry在看到Sora生成的視頻后，大為震驚，決定撤掉自己亞特蘭大工作室耗資8億美元的擴(kuò)建計(jì)劃。

因?yàn)橐院笈臄z的大片中，可能不需要找取景地，或者搭建實(shí)景了。

所以，Sora會(huì)顛覆電影產(chǎn)業(yè)嗎？Jason Wei表示，它就像現(xiàn)在的GPT-4一樣，可以作為一種輔助工具提升作品質(zhì)量，所以距離專業(yè)的電影制作還有一段距離。

而現(xiàn)在，視頻和文本的最大區(qū)別就是，前者的信息密度較低，所以在視頻推理等技能的學(xué)習(xí)上，就會(huì)需要大量的算力和數(shù)據(jù)。

因此，高質(zhì)量視頻數(shù)據(jù)的競(jìng)爭(zhēng)會(huì)非常激烈！就像現(xiàn)在各家都在爭(zhēng)搶高質(zhì)量的文本數(shù)據(jù)集。

另外，將視頻與其他信息模式結(jié)合起來(lái)，作為學(xué)習(xí)過程的輔助信息將極為關(guān)鍵。

并且在未來(lái)，擁有視頻處理經(jīng)驗(yàn)的AI研究人員會(huì)變得非常搶手！不過，他們也需要像傳統(tǒng)的自然語(yǔ)言處理研究者那樣，適應(yīng)新的技術(shù)發(fā)展趨勢(shì)。

沒有中間物理模型，但已具備革命性

OpenAI的TikTok賬號(hào)，還在不斷放出Sora的新作品。

Sora離好萊塢大片距離還有多遠(yuǎn)？讓我們來(lái)看看這個(gè)電影中經(jīng)常出現(xiàn)的場(chǎng)景——瓢潑大雨中，一輛車在夜色中飛速穿過城市街道。

A super car driving through city streets at night with heavy rain everywhere, shot from behind the car as it drives

再比如，Sora生成的工地上，叉車、挖掘機(jī)、腳手架和建筑工人們也都十分逼真。

并且，它還拍出了微型攝影的效果，讓一切都看起來(lái)像一個(gè)縮影。

當(dāng)然，仔細(xì)看，畫面還會(huì)存在一些問題。

比如一個(gè)人會(huì)突然分裂成好幾個(gè)人。

或者，一個(gè)人忽然變成了另一個(gè)。

AI公司創(chuàng)始人swyx總結(jié)說(shuō)，根本原因還是因?yàn)镾ora沒有中間物理模型，這完全是LeCun所提世界模型的對(duì)立面。

不過，它依然為電影制作流程創(chuàng)造了質(zhì)的飛躍，大大降低了成本。

雖然Runway可以實(shí)現(xiàn)類似功能，但Sora將一切都提升到了一個(gè)新的水平。

以下是Sora和Pika、Runway Gen-2、AnimateDiff和LeonardoAI的比較。

人人都能拍自己的電影

在不久的將來(lái)，或許我們每個(gè)人都可以在幾分鐘內(nèi)生成自己的電影了。

比如，我們可以用ChatGPT幫忙寫出劇本，然后用Sora進(jìn)行文字轉(zhuǎn)視頻。在未來(lái)，Sora一定會(huì)突破60s的時(shí)間限制。

想象一下，在你的腦海里拍出一部從未存在過的電影，是什么感覺

或者，我們可以用Dall-E或者M(jìn)idjourney生成圖像，然后用Sora生成視頻。

D-ID可以讓角色的嘴部、身體動(dòng)作和所說(shuō)的臺(tái)詞保持一致。

此前風(fēng)靡全網(wǎng)的《哈利波特》巴黎世家時(shí)尚大片

ElevenLabs，可以為視頻中的角色配音，增強(qiáng)視頻的情感沖擊力，創(chuàng)造視覺和聽覺敘事的無(wú)縫融合。

做自己的大片，就是這么簡(jiǎn)單！

可惜的是，Sora的訓(xùn)練成本大概要千萬(wàn)美元級(jí)別。

去年ChatGPT發(fā)布后，一下子涌現(xiàn)出千模大戰(zhàn)的盛況。而這次Sora距離誕生已有半個(gè)月了，各家公司仍然毫無(wú)動(dòng)靜。

中國(guó)公司該如何復(fù)刻Sora？

恰恰在最近，華人團(tuán)隊(duì)也發(fā)布了非常詳細(xì)的Sora分析報(bào)告，或許能給這個(gè)問題一些啟發(fā)。

華人團(tuán)隊(duì)逆向工程分析Sora

最近，來(lái)自理海大學(xué)的華人團(tuán)隊(duì)和微軟副總裁高劍峰博士，聯(lián)合發(fā)布了一篇長(zhǎng)達(dá)37頁(yè)的分析論文。

通過分析公開的技術(shù)報(bào)告和對(duì)模型的逆向工程研究，全面審視了Sora的開發(fā)背景、所依賴的技術(shù)、其在各行業(yè)的應(yīng)用前景、目前面臨的挑戰(zhàn)，以及文本轉(zhuǎn)視頻技術(shù)的未來(lái)趨勢(shì)。

其中，論文主要針對(duì)Sora的開發(fā)歷程和構(gòu)建這一「虛擬世界模擬器」的關(guān)鍵技術(shù)進(jìn)行了研究，并深入探討了Sora在電影制作、教育、營(yíng)銷等領(lǐng)域的應(yīng)用潛力及其可能帶來(lái)的影響。

論文地址：https://arxiv.org/abs/2402.17177

項(xiàng)目地址：https://github.com/lichao-sun/SoraReview

如圖2所示，Sora能夠表現(xiàn)出精準(zhǔn)地理解和執(zhí)行復(fù)雜人類指令的能力。

而在制作能夠細(xì)致展現(xiàn)運(yùn)動(dòng)和互動(dòng)的長(zhǎng)視頻方面，Sora也取得了長(zhǎng)足的進(jìn)展，突破了以往視頻生成技術(shù)在視頻長(zhǎng)度和視覺表現(xiàn)上的限制。這種能力標(biāo)志著AI創(chuàng)意工具的重大飛躍，使得用戶能將文字?jǐn)⑹鲛D(zhuǎn)化為生動(dòng)的視覺故事。

研究人員認(rèn)為，Sora之所以能達(dá)到這種高水平，不僅是因?yàn)樗芴幚碛脩糨斎氲奈谋荆€因?yàn)樗芾斫鈭?chǎng)景中各個(gè)元素復(fù)雜的相互關(guān)系。

如圖3所示，過去十年里，生成式計(jì)算機(jī)視覺（CV）技術(shù)的發(fā)展路徑十分多樣，尤其是在Transformer架構(gòu)成功應(yīng)用于自然語(yǔ)言處理（NLP）之后，變化顯著。

研究人員通過將Transformer架構(gòu)與視覺組件相結(jié)合，推動(dòng)了其在視覺任務(wù)中的應(yīng)用，比如開創(chuàng)性的視覺Transformer（ViT）和Swin Transformer。

與此同時(shí)，擴(kuò)散模型在圖像與視頻生成領(lǐng)域也取得了突破，它們通過U-Net技術(shù)將噪聲轉(zhuǎn)化為圖像，展示了數(shù)學(xué)上的創(chuàng)新方法。

從2021年開始，AI領(lǐng)域的研究重點(diǎn)，便來(lái)到了那些能夠理解人類指令的語(yǔ)言和視覺生成模型，即多模態(tài)模型。

隨著ChatGPT的發(fā)布，我們?cè)?023年看到了諸如Stable Diffusion、Midjourney、DALL-E 3等商業(yè)文本到圖像產(chǎn)品的涌現(xiàn)。

然而，由于視頻本身具有的時(shí)間復(fù)雜性，目前大多數(shù)生成工具僅能制作幾秒鐘的短視頻。

在這一背景下，Sora的出現(xiàn)象征著一個(gè)重大突破——它是第一個(gè)能夠根據(jù)人類指令生成長(zhǎng)達(dá)一分鐘視頻的模型，其意義可與ChatGPT在NLP領(lǐng)域的影響相媲美。

如圖4所示，Sora的核心是一個(gè)可以靈活地處理不同維度數(shù)據(jù)的Diffusion Transformer，其主要由三個(gè)部分組成：

1. 首先，時(shí)空壓縮器會(huì)把原始視頻轉(zhuǎn)映射到潛空間中。

2. 接著，視覺Transformer（ViT）模型會(huì)對(duì)已經(jīng)被分詞的潛表征進(jìn)行處理，并輸出去除噪聲后的潛表征。

3. 最后，一個(gè)與CLIP模型類似的系統(tǒng)根據(jù)用戶的指令（已經(jīng)通過大語(yǔ)言模型進(jìn)行了增強(qiáng)）和潛視覺提示，引導(dǎo)擴(kuò)散模型生成具有特定風(fēng)格或主題的視頻。在經(jīng)過多次去噪處理之后，會(huì)得到生成視頻的潛表征，然后通過相應(yīng)的解碼器映射回像素空間。

數(shù)據(jù)預(yù)處理

- 可變的持續(xù)時(shí)間、分辨率和高寬比

如圖5所示，Sora的一大特色是它能夠處理、理解并生成各種大小的視頻和圖片，從寬屏的1920x1080p視頻到豎屏的1080x1920p視頻，應(yīng)有盡有。

如圖6所示，與那些僅在統(tǒng)一裁剪的正方形視頻上訓(xùn)練的模型相比，Sora制作的視頻展示了更好的畫面布局，確保視頻場(chǎng)景中的主體被完整捕捉，避免了因正方形裁剪而造成的畫面有時(shí)被截?cái)嗟膯栴}。

Sora對(duì)視頻和圖片特征的精細(xì)理解和保留，在生成模型領(lǐng)域是一個(gè)重大的進(jìn)步。

它不僅展現(xiàn)了生成更真實(shí)和吸引人的視頻的可能性，還突出了訓(xùn)練數(shù)據(jù)的多樣性對(duì)生成式AI取得高質(zhì)量結(jié)果的重要性。

- 統(tǒng)一的視覺表征

為了有效處理各種各樣的視覺輸入，比如不同長(zhǎng)度、清晰度和畫面比例的圖片和視頻，一個(gè)重要的方法是把這些視覺數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的表征。這樣做還有利于對(duì)生成模型進(jìn)行大規(guī)模的訓(xùn)練。

具體來(lái)說(shuō)，Sora首先將視頻壓縮到「低維潛空間」，然后再將表征分解成「時(shí)空patches」。

- 視頻壓縮網(wǎng)絡(luò)

如圖7所示，Sora的視頻壓縮網(wǎng)絡(luò)（或視覺編碼器）的目標(biāo)是降低輸入數(shù)據(jù)的維度，并輸出經(jīng)過時(shí)空壓縮的潛表征。

技術(shù)報(bào)告中的參考文獻(xiàn)顯示，這種壓縮技術(shù)是VAE或矢量量化-VAE（VQ-VAE）基礎(chǔ)上的。然而，根據(jù)報(bào)告，如果不進(jìn)行圖像的大小調(diào)整和裁剪，VAE很難將不同尺寸的視覺數(shù)據(jù)映射到一個(gè)統(tǒng)一且大小固定的潛空間中。

針對(duì)這個(gè)問題，研究人員探討了兩種可能的技術(shù)實(shí)現(xiàn)方案：

1. 空間patches壓縮

這一過程需要將視頻幀轉(zhuǎn)換成固定大小的patches，與ViT和MAE模型采用的方法相似（如圖8所示），然后再將其編碼到潛空間中。

通過這種方式，模型可以高效地處理具有不同分辨率和寬高比的視頻，因?yàn)樗芡ㄟ^分析這些patches來(lái)理解整個(gè)視頻幀的內(nèi)容。接下來(lái)，這些空間Token會(huì)按時(shí)間順序排列，形成空間-時(shí)間潛表征。

2. 空間-時(shí)間patches壓縮

這種技術(shù)包含了視頻數(shù)據(jù)的空間和時(shí)間維度，不僅考慮了視頻畫面的靜態(tài)細(xì)節(jié)，還關(guān)注了畫面之間的運(yùn)動(dòng)和變化，從而全面捕捉視頻的動(dòng)態(tài)特性。利用三維卷積是實(shí)現(xiàn)這種整合的直接而有效的方法

- 潛空間patches

在壓縮網(wǎng)絡(luò)部分還有一個(gè)關(guān)鍵問題：在將patches送入Diffusion Transformer的輸入層之前，如何處理潛空間維度的變化（即不同視頻類型的潛特征塊或patches的數(shù)量）。

根據(jù)Sora的技術(shù)報(bào)告和相應(yīng)的參考文獻(xiàn)，patch n' pack（PNP）很可能是一種解決方案。

如圖10所示，PNP將來(lái)自不同圖像的多個(gè)patches打包在一個(gè)序列中。

在這里，patch化和token嵌入步驟需要在壓縮網(wǎng)絡(luò)中完成，但Sora可能會(huì)像Diffusion Transformer那樣，進(jìn)一步將潛在的patch化為Transformer token。

- Diffusion Transformer

建模

- 圖像Diffusion Transformer

DiT和U-ViT是最早將視覺Transformers用于潛在擴(kuò)散模型的工作之一。與ViT一樣，DiT也采用多頭自注意力層和點(diǎn)卷積前饋網(wǎng)絡(luò)，交錯(cuò)一些層歸一化和縮放層。

此外，DiT還通過自適應(yīng)層歸一化（AdaLN）并增加了一個(gè)額外的MLP層進(jìn)行零初始化，這樣初始化每個(gè)殘差塊為恒等函數(shù)，從而極大地穩(wěn)定了訓(xùn)練過程。

U-ViT將所有輸入，包括時(shí)間、條件和噪聲圖像patches，都視為token，并提出了淺層和深層Transformer層之間的長(zhǎng)跳躍連接。結(jié)果表明，U-ViT在圖像和文本到圖像生成中取得了破紀(jì)錄的FID分?jǐn)?shù)。

類似于掩碼自編碼器（MAE）的方法，掩碼擴(kuò)散Transformer（MDT）也在擴(kuò)散過程中加入了掩碼潛模型，有效提高了對(duì)圖像中不同對(duì)象部分之間上下文關(guān)系的學(xué)習(xí)能力。

如圖12所示，MDT會(huì)在訓(xùn)練階段使用側(cè)插值進(jìn)行額外的掩碼token重建任務(wù)，以提高訓(xùn)練效率，并學(xué)習(xí)強(qiáng)大的上下文感知位置嵌入進(jìn)行推理。與DiT相比，MDT實(shí)現(xiàn)了更好的性能和更快的學(xué)習(xí)速度。

在另一項(xiàng)創(chuàng)新工作中，Diffusion Vision Transformers（DiffiT）采用了時(shí)間依賴的自注意力（TMSA）模塊來(lái)對(duì)采樣時(shí)間步驟上的動(dòng)態(tài)去噪行為進(jìn)行建模。

此外，DiffiT還采用了兩種混合分層架構(gòu)，分別在像素空間和潛空間中進(jìn)行高效去噪，并在各種生成任務(wù)中實(shí)現(xiàn)了新的SOTA。

- 視頻Diffusion Transformer

由于視頻的時(shí)空特性，在這一領(lǐng)域應(yīng)用DiT所面臨的主要挑戰(zhàn)是：

（1）如何從空間和時(shí)間上將視頻壓縮到潛空間，以實(shí)現(xiàn)高效去噪；

（2）如何將壓縮潛空間轉(zhuǎn)換為patches，并將其輸入到Transformer中；

（3）如何處理長(zhǎng)距離的時(shí)空依賴性，并確保內(nèi)容的一致性。

Imagen Video是谷歌研究院開發(fā)的文本到視頻生成系統(tǒng)，它利用級(jí)聯(lián)擴(kuò)散模型（由7個(gè)子模型組成，分別執(zhí)行文本條件視頻生成、空間超分辨率和時(shí)間超分辨率）將文本提示轉(zhuǎn)化為高清視頻。

如圖13所示，首先，凍結(jié)的T5文本編碼器會(huì)根據(jù)輸入的文本提示生成上下文嵌入。隨后，嵌入信息被注入基礎(chǔ)模型，用于生成低分辨率視頻，然后通過級(jí)聯(lián)擴(kuò)散模型對(duì)其進(jìn)行細(xì)化，以提高分辨率。

Blattmann等人提出了一種創(chuàng)新方法，可以將2D潛擴(kuò)散模型（Latent Diffusion Model, LDM）轉(zhuǎn)換為視頻潛擴(kuò)散模型（Video Latent Diffusion Model, Video LDM）。

語(yǔ)言指令跟隨

模型指令調(diào)優(yōu)旨在增強(qiáng)AI模型準(zhǔn)確跟隨提示的能力。

為了提高文本到視頻模型跟隨文本指令的能力，Sora采用了與DALL-E 3類似的方法。

該方法涉及訓(xùn)練一個(gè)描述性字幕生成模型，并利用該模型生成的數(shù)據(jù)進(jìn)一步微調(diào)。

通過這種指令調(diào)優(yōu)，Sora能夠滿足用戶的各種要求，確保對(duì)指令中的細(xì)節(jié)給予精確的關(guān)注，進(jìn)而生成的視頻能夠滿足用戶的需求。

提示工程

- 文本提示

文本提示對(duì)于指導(dǎo)Sora等文本到視頻模型，制作既具有視覺沖擊力，又能精確滿足用戶創(chuàng)建視頻需求至關(guān)重要。

這就需要制作詳細(xì)的說(shuō)明來(lái)指導(dǎo)模型，以效彌補(bǔ)人類創(chuàng)造力與AI執(zhí)行能力之間的差距。

Sora的提示涵蓋了廣泛的場(chǎng)景。

最近研究工作，如VoP、Make-A-Video和Tune-A-Video等，都展示了提示工程如何利用模型的NLP能力來(lái)解碼復(fù)雜指令，并將其呈現(xiàn)為連貫、生動(dòng)和高質(zhì)量的視頻敘事。

如圖15所示經(jīng)典Sora演示，「一個(gè)時(shí)髦的女人走在霓虹燈閃爍的東京街頭...... 」

提示中，包含了人物的動(dòng)作、設(shè)定、角色出場(chǎng)，甚至是所期望的情緒，以及場(chǎng)景氛圍。

就是這樣一個(gè)精心制作的文本提示，它確保Sora生成的視頻與預(yù)期的視覺效果非常吻合。

提示工程的質(zhì)量取決于對(duì)詞語(yǔ)的精心選擇、所提供細(xì)節(jié)的具體性，以及對(duì)其對(duì)模型輸出影響的理解。

- 圖像提示

圖像提示就是要給生成的視頻內(nèi)容和其他元素（如人物、場(chǎng)景和情緒），提供一個(gè)視覺錨點(diǎn)。

此外，文字提示還可以指示模型將這些元素動(dòng)畫化，例如，添加動(dòng)作、互動(dòng)和敘事進(jìn)展等層次，使靜態(tài)圖像栩栩如生。

通過使用圖像提示，Sora可以利用視覺和文本信息將靜態(tài)圖像轉(zhuǎn)換成動(dòng)態(tài)、由敘事驅(qū)動(dòng)的視頻。

在圖16中，展示了AI生成的視頻「一只頭戴貝雷帽、身穿高領(lǐng)毛衣的柴犬」、「一個(gè)獨(dú)特的怪物家族」、「一朵云組成了SORA一詞」，以及「沖浪者在一座歷史悠久的大廳內(nèi)乘著巨浪」。

這些例子展示了通過DALL-E生成的圖像提示Sora可以實(shí)現(xiàn)的功能。

- 視頻提示

視頻提示也可用于視頻生成。

最近的研究，如Fast-Vid2Vid表明，好的視頻提示需要具體，且靈活。

這樣既能確保模型在特定目標(biāo)（如特定物體和視覺主題的描述）上獲得明確的指導(dǎo)，又能在最終輸出中富有想象力的變化。

例如，在視頻擴(kuò)展任務(wù)中，提示可以指定擴(kuò)展的方向（時(shí)間向前或向后）和背景或主題。

在圖17（a）中，視頻提示指示Sora向后延伸一段視頻，以探索原始起點(diǎn)的事件。

（b）所示，在通過視頻提示執(zhí)行視頻到視頻的編輯時(shí)，模型需要清楚地了解所需的轉(zhuǎn)換，例如改變視頻的風(fēng)格、場(chǎng)景或氛圍，或改變燈光或情緒等微妙的方面。

（c）中，提示指示Sora連接視頻，同時(shí)確保視頻中不同場(chǎng)景中的物體之間平滑過渡。

Sora對(duì)各行業(yè)的影響

最后，研究團(tuán)隊(duì)還針對(duì)Sora可能在電影、教育、游戲、醫(yī)療保健和機(jī)器人領(lǐng)域產(chǎn)生的影響做了預(yù)測(cè)。

隨著以Sora為代表的視頻擴(kuò)散模型成為前沿技術(shù)，其在不同研究領(lǐng)域和行業(yè)的應(yīng)用正在迅速加速。

這項(xiàng)技術(shù)的影響遠(yuǎn)遠(yuǎn)超出了單純的視頻創(chuàng)作，為從自動(dòng)內(nèi)容生成到復(fù)雜決策過程等任務(wù)提供了變革潛力。

電影

視頻生成技術(shù)的出現(xiàn)預(yù)示著電影制作進(jìn)入了一個(gè)新時(shí)代，用簡(jiǎn)單的文本中自主制作電影的夢(mèng)想正在變?yōu)楝F(xiàn)實(shí)。

研究人員已經(jīng)涉足電影生成領(lǐng)域，將視頻生成模型擴(kuò)展到電影創(chuàng)作中。

比如使用MovieFactory，利用擴(kuò)散模型從ChatGPT制作的腳本中生成電影風(fēng)格的視頻，整個(gè)工作流已經(jīng)跑通了。

MobileVidFactory只需用戶提供簡(jiǎn)單的文本，就能自動(dòng)生成垂直移動(dòng)視頻。

而Sora能夠毫不費(fèi)力地讓用戶生成效果非常炸裂的電影片段，標(biāo)志著人人都能制作電影的時(shí)刻來(lái)臨了。

這會(huì)大大降低了電影行業(yè)的準(zhǔn)入門檻，并為電影制作引入了一個(gè)新的維度，將傳統(tǒng)的故事講述方式與人工智能驅(qū)動(dòng)的創(chuàng)造力融為一體。

這些AI的影響不僅僅是讓電影制作變得簡(jiǎn)單，還有可能重塑電影制作的格局，使其在面對(duì)不斷變化的觀眾喜好和發(fā)行渠道時(shí)，變得更加容易獲得，用途更加廣泛。

機(jī)器人

人們都說(shuō)，2024年是機(jī)器人元年。

正是因?yàn)榇竽Ｐ偷谋l(fā)，再加上視頻模型的迭代升級(jí)，讓機(jī)器人進(jìn)入了一個(gè)新時(shí)代——

生成和解釋復(fù)雜的視頻序列，感知和決策能力增強(qiáng)。

尤其，視頻擴(kuò)散模型釋放了機(jī)器人新能力，使其能夠與環(huán)境互動(dòng)，并以前所未有的復(fù)雜度和精確度執(zhí)行任務(wù)。

將web-scale擴(kuò)散模型引入機(jī)器人技術(shù)，展示了利用大規(guī)模LLM增強(qiáng)機(jī)器人視覺和理解能力的潛力。

比如，在DALL-E加持下的機(jī)器人，能夠準(zhǔn)確擺好餐盤。

另一種視頻預(yù)測(cè)新技術(shù)——潛在擴(kuò)散模型（Latent diffusion model。

它可以通過語(yǔ)言指導(dǎo)，讓機(jī)器人能夠通過預(yù)測(cè)視頻中的動(dòng)作結(jié)果，來(lái)理解和執(zhí)行任務(wù)。

此外，機(jī)器人研究對(duì)環(huán)境模擬的依賴，可以通過視頻擴(kuò)散模型——能創(chuàng)建高度逼真的視頻序列來(lái)解決。

這樣一來(lái)，就能為機(jī)器人生成多樣化的訓(xùn)練場(chǎng)景，打破真實(shí)世界數(shù)據(jù)匱乏所帶來(lái)的限制。

研究人員相信，將Sora等技術(shù)整合到機(jī)器人領(lǐng)域有望取得突破性發(fā)展。

利用Sora的強(qiáng)大功能，未來(lái)的機(jī)器人技術(shù)將取得前所未有的進(jìn)步，機(jī)器人可以無(wú)縫導(dǎo)航并與周圍環(huán)境進(jìn)行互動(dòng)。

另外，對(duì)于游戲、教育、醫(yī)療保健等行業(yè)，AI視頻模型也將為此帶來(lái)深刻的變革。

最后，好消息是，Sora現(xiàn)在雖然還沒有開放功能，但我們可以申請(qǐng)紅隊(duì)測(cè)試。

從申請(qǐng)表中可以看出，OpenAI正在尋找以下認(rèn)知科學(xué)、化學(xué)、生物、物理、計(jì)算機(jī)、經(jīng)濟(jì)學(xué)等領(lǐng)域的專家。

符合條件的同學(xué)，可以上手申請(qǐng)了！

責(zé)任編輯：張燕妮來(lái)源：新智元

AI 研究算力