ChatGPT之后，下個AIGC殺手級應(yīng)用已近在眼前

作者：魚羊 2023-02-24 15:35:09

人工智能新聞

AI繪畫、ChatGPT搜索之后，下一個大模型的爆發(fā)點(diǎn)會出現(xiàn)在何處？

本文經(jīng)AI新媒體量子位（公眾號ID:QbitAI）授權(quán)轉(zhuǎn)載，轉(zhuǎn)載請聯(lián)系出處。

大模型模式，正在新一波AIGC的浪潮里被再度驗(yàn)證。

從AI畫畫的出圈，到現(xiàn)如今ChatGPT的火爆，面向大眾的爆款產(chǎn)品接口背后，無不是大模型技術(shù)的突破創(chuàng)新。

而當(dāng)這種“大力出奇跡”的技術(shù)路徑價值愈發(fā)凸顯，行業(yè)內(nèi)外也不禁好奇：

AI繪畫、ChatGPT搜索之后，下一個大模型的爆發(fā)點(diǎn)會出現(xiàn)在何處？

遵循技術(shù)規(guī)律推測，可以預(yù)見的是，視頻領(lǐng)域的技術(shù)革命已近在眼前：

從技術(shù)的角度來說，在大語言模型迭代進(jìn)化的同時，谷歌、Meta等大廠在視頻自動生成領(lǐng)域已有更深層的探索。

而從商業(yè)的視角來看，中信建投就在報(bào)告中指出，AIGC在文本、音頻、視頻、游戲等等行業(yè)中，成長空間巨大。

量子位智庫也預(yù)測，AI生成視頻將在5年后迎來較為廣泛的規(guī)模應(yīng)用。?

△圖源：量子位智庫

AIGC下一站：視頻生成

不妨先展開看看相關(guān)領(lǐng)域的技術(shù)進(jìn)展。

谷歌：Phenaki和Imagen Video

就在ChatGPT刷屏之際，谷歌AI生成的一段視頻突然爆火，一時分走不少討論度。

背后的AI模型名為Phenaki。只需提供一段提示詞，這個文本轉(zhuǎn)視頻（Text-to-Video）模型分分鐘就能生成長達(dá)兩分鐘的視頻。

不僅時長遠(yuǎn)超早期的文生視頻模型，Phenaki生成的視頻還頗具故事性。

比如給它這樣一段場景描述：

一只逼真的泰迪熊正在潛水；隨后它慢慢浮出水面；走上沙灘；這是鏡頭拉遠(yuǎn)，泰迪熊行走在海灘邊篝火旁。

就能得到一個這樣的視頻片段：

除此之外，谷歌還推出過基于擴(kuò)散模型的Imagen Video。其特點(diǎn)是分辨率高，同時可以理解不同的藝術(shù)風(fēng)格和3D結(jié)構(gòu)。

Meta：Make-A-Video

在“拿嘴做視頻”這方面，Meta也有所布局。

Meta的文生視頻模型名為Make-A-Video，同樣是文本圖像生成模型的升級版，主要由三部分組成：

文本圖像生成模型P
時空卷積層和注意力層
用于提高幀率的幀插值網(wǎng)絡(luò)和兩個用來提升畫質(zhì)的超分模型

不僅給出一句“馬兒喝水”，Make-A-Video就能生成出一段“紀(jì)錄片”畫面來：?

這個AI模型還具備將靜態(tài)圖像轉(zhuǎn)成視頻、根據(jù)前后兩張圖片生成一段視頻，以及基于一段原視頻生成新視頻的能力。

百度：VidPress

國內(nèi)，百度也把文心大模型的能力，運(yùn)用到了智能視頻合成平臺VidPress中。

VidPress能夠?qū)崿F(xiàn)圖文自動轉(zhuǎn)視頻，即把文字腳本、視頻內(nèi)容搜索、素材處理、音視頻對齊，以及剪輯這5個步驟自動化。

其中涉及的語義分析、素材相關(guān)度打分等環(huán)節(jié)，就都是基于文心大模型訓(xùn)練實(shí)現(xiàn)的。

從技術(shù)的發(fā)展可以看出，在語言大模型、圖像大模型之后，多模態(tài)大模型已經(jīng)成為了新的趨勢。視頻就是其中具有代表性的一個應(yīng)用領(lǐng)域。

而從商業(yè)化的角度來看，文化娛樂、教育、傳媒等諸多領(lǐng)域，本身就對基于AI的可視化內(nèi)容有強(qiáng)烈需求。

根據(jù)中信建投對各類內(nèi)容未來可AI制作比例的測算，在視頻成為信息主要表達(dá)載體的當(dāng)下，無論是在游戲、短視頻、直播，還是影視等領(lǐng)域，AI視頻內(nèi)容生成都將成為AIGC的主要關(guān)注方向。

并且在2022年，DALL·E、Imagen、Stable Diffusion等多個高質(zhì)量文生圖大模型的“轟炸”之下，一個新的市場規(guī)律已經(jīng)得到驗(yàn)證：

當(dāng)生成質(zhì)量提高到專業(yè)水平時，原本AI生成內(nèi)容的商業(yè)化瓶頸，如變現(xiàn)困難等，將得到突破。

哪些公司是潛力股？

機(jī)會自然屬于有準(zhǔn)備的人。

比如，Image Video的核心團(tuán)隊(duì)就已經(jīng)從谷歌出走創(chuàng)業(yè)。據(jù)VC爆料，首輪估值1億美元。

而除了前文提到的已有革命性技術(shù)儲備的科技巨頭外，還有兩類公司值得關(guān)注。

其一，是具備數(shù)據(jù)基礎(chǔ)和應(yīng)用場景的公司。

在這一方面，行業(yè)中的大公司普遍更具優(yōu)勢。比如國外的網(wǎng)飛、迪士尼。

以網(wǎng)飛為例，公開資料顯示，在2012年時，網(wǎng)飛就已擁有數(shù)十億條會員評價，每天能新增百萬級別的視頻播放信息，包括觀眾的觀看時長、播放設(shè)備等等。

事實(shí)上，基于如此龐大的獨(dú)家數(shù)據(jù)，網(wǎng)飛已經(jīng)在產(chǎn)品中嘗試用AIGC替代標(biāo)準(zhǔn)內(nèi)容制作。比如影片的縮略圖，就是網(wǎng)飛采用AI算法，從影片中抽取符合用戶觀影習(xí)慣和需求的畫面生成的。

就在今年2月初，網(wǎng)飛還發(fā)布了一支AIGC動畫短片《犬與少年》。其中動畫場景的繪制工作，都是由AI完成的。

同樣，國內(nèi)短視頻行業(yè)兩大巨頭抖音和快手的動向，也值得關(guān)注。

目前，字節(jié)跳動的視頻編輯工具剪映，以及快手的云剪，都已上線圖文成片、文字轉(zhuǎn)視頻的功能。用戶只需輸入幾個關(guān)鍵詞或一段文字，AI就能自動搜集素材剪輯出一段視頻片段。

其二，就是在垂直細(xì)分賽道上具有技術(shù)儲備的公司。

比如國內(nèi)的智能視覺技術(shù)企業(yè)影譜科技，成立之初就是以人工智能視覺技術(shù)產(chǎn)業(yè)化為主要目標(biāo)，早在2018年就發(fā)布了基于生成式AI技術(shù)的AGC智能影像生產(chǎn)引擎，這也是國內(nèi)較早提出的生成式AI的技術(shù)框架。

影譜科技的AGC通過MCVS技術(shù)(Moviebook Motion Capture from Video System)對現(xiàn)有視頻的關(guān)鍵幀進(jìn)行抽取，理解、關(guān)聯(lián)及預(yù)測等處理，將視頻內(nèi)容分割為像素及子像素維度的結(jié)構(gòu)化數(shù)據(jù)，并自動完成標(biāo)記，即形成了對視頻中各種內(nèi)容的自動化理解和標(biāo)注。接下來，利用3D虛擬重建等計(jì)算機(jī)圖像技術(shù)，通過視頻內(nèi)容自動化生產(chǎn)引擎MAPE(Moviebook Auto-Production Engine)生成全新的視頻，該方案融合了人工智能多模態(tài)語義理解，并利用深度學(xué)習(xí)實(shí)現(xiàn)視頻自動化加工以及視頻的同步生成，創(chuàng)新了視頻影像生產(chǎn)方式。

這使得AGC可在極短時間內(nèi)生成一段個性化視頻內(nèi)容，亦可以對拍攝視頻進(jìn)行重構(gòu)，如自動錨定關(guān)鍵幀，根據(jù)幀內(nèi)容生成原圖像中沒有的、無違和感的內(nèi)容，再智能化生成一段AI視覺內(nèi)容。

據(jù)公開數(shù)據(jù)顯示，影譜科技AI生成引擎生成一段60s視頻的總成本與傳統(tǒng)方式相比降低79.8%以上，而生產(chǎn)率最高可以提高百倍以上；檢索一段60s視頻內(nèi)相似幀圖像或特定圖像，所需總成本與人工相比降低99.73%，而錯誤率降低10倍以上，目前主要應(yīng)用于政府服務(wù)、企業(yè)、科教、泛娛樂、媒體、文旅等領(lǐng)域。

例如，在視頻采集和生產(chǎn)階段，可實(shí)現(xiàn)主體識別、跟隨拍攝、畫質(zhì)修復(fù)、自動剪輯、視頻自動生成等功能；在分發(fā)階段實(shí)現(xiàn)智能審核、個性化推薦等；在用戶體驗(yàn)方面，結(jié)合數(shù)字孿生技術(shù)綜合使用，實(shí)現(xiàn)數(shù)字內(nèi)容、數(shù)字空間、數(shù)字人的高效生產(chǎn)及可視化互動等功能。

目前AGC在諸多行業(yè)的應(yīng)用已十分廣泛，隨著與行業(yè)的數(shù)字化融合不斷加深，未來發(fā)揮的作用也將愈加明顯。

p.s. 前文提到的網(wǎng)飛AIGC短片，還有小冰公司的參與。