阿里開源全能視頻模型!生成編輯都精通,1.3B版本消費(fèi)級(jí)顯卡可跑
業(yè)界功能最全、消費(fèi)級(jí)顯卡可跑、而且還是開源的?!
不賣關(guān)子了,這就是阿里最新開源的通義萬(wàn)相Wan2.1-VACE,號(hào)稱當(dāng)前業(yè)界功能最全的視頻生成與編輯模型。
有多全呢?來看官方介紹海報(bào):

按照萬(wàn)相產(chǎn)品負(fù)責(zé)人的說法,“所有你能想到的關(guān)于視頻生成的玩法,幾乎都在這里了”。
而且與以往不同,以上功能主打“All in one”,都能在一個(gè)模型里體驗(yàn)。
目前Wan2.1-VACE一共有兩個(gè)版本:
- 1.3B版本:消費(fèi)級(jí)顯卡可跑,支持480p分辨率;
- 14B版本:滿血版,支持480p、720p分辨率。
模型已在GitHub、Hugging Face和魔搭社區(qū)上線,動(dòng)手能力強(qiáng)的小伙伴現(xiàn)在可自行本地化部署,至于其他想在產(chǎn)品端直接體驗(yàn)的朋友,可能還要等一兩天。
OK,話不多說,我們直接看新模型究竟有哪些玩法。
視頻生成領(lǐng)域的“全能選手”
經(jīng)過一番梳理,Wan2.1-VACE的“進(jìn)階攻略”如下:
- 初階玩法:基礎(chǔ)的文生視頻、圖生視頻(含首尾幀)、視頻生視頻等;
- 中階玩法:加入編輯功能,局部抹除或替換、視頻重繪、時(shí)長(zhǎng)或背景延展等;
- 高階玩法:將各種能力花式組合。
下面我們依次挑其中的一些亮點(diǎn)來看。
首先,在初級(jí)階段,Wan2.1-VACE根據(jù)參考圖生成融合視頻的能力看起來相當(dāng)絲滑。
比如分別上傳兩張娃娃和小蛇的圖片:

生成的視頻如下,不僅還原了文字所描述的氛圍感,而且娃娃和小蛇的動(dòng)作姿態(tài)都比較自然,整體構(gòu)圖和諧。

提示詞:在一個(gè)歡樂而充滿節(jié)日氣氛的場(chǎng)景中,穿著鮮艷紅色春服的小女孩正與她的可愛卡通蛇嬉戲。她的春服上繡著金色吉祥圖案,散發(fā)著喜慶的氣息,臉上洋溢著燦爛的笑容。蛇身呈現(xiàn)出亮眼的綠色,形狀圓潤(rùn),寬大的眼睛讓它顯得既友善又幽默。小女孩歡快地用手輕輕撫摸著蛇的頭部,共同享受著這溫馨的時(shí)刻。周圍五彩斑斕的燈籠和彩帶裝飾著環(huán)境,陽(yáng)光透過灑在她們身上,營(yíng)造出一個(gè)充滿友愛與幸福的新年氛圍。
當(dāng)然也有官方demo中效果更驚艷的(游戲中的角色直接照進(jìn)現(xiàn)實(shí)):


除了融合能力,Wan2.1-VACE更值得說道的還是編輯功能。
要知道目前絕大多數(shù)視頻生成AI都無(wú)法“一次就100%成功”,所以編輯功能幾乎已成為剛需。
比如在產(chǎn)品宣傳中,咱們直接來個(gè)“無(wú)中生有”。
第一步,直接使用文生視頻創(chuàng)造出下列場(chǎng)景。

提示詞:紀(jì)實(shí)攝影風(fēng)格,房產(chǎn)自媒體博主站在一間現(xiàn)代化的客廳中央。博主穿著簡(jiǎn)潔時(shí)尚的衣物,面帶微笑,兩只手舉在身前,手上空無(wú)一物正對(duì)著鏡頭介紹房屋情況。背景是一間寬敞明亮的客廳,家具簡(jiǎn)約現(xiàn)代,落地窗外是綠意盎然的花園。房間內(nèi)光線充足,溫馨舒適。中景全身人像,平視視角,輕微的運(yùn)動(dòng)感,如手指輕點(diǎn)屏幕。
第二步,給產(chǎn)品繪制一塊想要放置的區(qū)域。

最后一步,“憑空捏造”后的效果be like:

同時(shí),Wan2.1-VAC也支持視頻重繪,包括姿態(tài)遷移、運(yùn)動(dòng)控制、結(jié)構(gòu)控制、重新著色等。
比如給一段球體落入水中的姿勢(shì)視頻:

整個(gè)過程就能完整遷移到真實(shí)物體和環(huán)境中:

此外,Wan2.1-VACE還支持對(duì)原視頻進(jìn)行畫面擴(kuò)展和時(shí)長(zhǎng)擴(kuò)展。

最終,如果將以上所有基礎(chǔ)功能組合起來,我們就能用來花式整活了(doge)。
比如將豎圖變成橫圖的同時(shí),讓蒙娜麗莎戴上可愛眼鏡:

又或者給視頻“一鍵換臉”:

更多網(wǎng)友實(shí)測(cè)
鑒于以上官方demo所展示的效果確實(shí)令人驚艷,更多網(wǎng)友也迫不及待地開啟了實(shí)測(cè)。
這里要補(bǔ)充一下,如果要進(jìn)行本地部署,官方測(cè)試的模型在不同GPU上的計(jì)算效率如下:

OK,回到正題。
有網(wǎng)友嘗試改變視頻畫幅比例(左邊為原視頻),結(jié)果其畫面補(bǔ)充能力獲得了認(rèn)可。

還有人嘗試給一張參考圖和視頻,以實(shí)現(xiàn)人物姿勢(shì)、面部表情遷移,結(jié)果其細(xì)節(jié)控制能力也收獲了好評(píng)。

同樣獲得認(rèn)可的還有其融合能力,看起來也和demo一樣自然。

那么最后問題來了,其實(shí)際能力究竟如何呢?
想知道答案的朋友歡迎在評(píng)論區(qū)留言“想看”,沒準(zhǔn)咱們后續(xù)就安排一波實(shí)測(cè)(doge)~
GitHub:https://github.com/Wan-Video/Wan2.1
魔搭:https://modelscope.cn/organization/Wan-AI
Hugging Face:https://huggingface.co/Wan-AI





































