阿里開源全能視頻模型！生成編輯都精通，1.3B版本消費(fèi)級(jí)顯卡可跑

2025-05-16 09:08:00

人工智能新聞

阿里最新開源的通義萬(wàn)相Wan2.1-VACE，號(hào)稱當(dāng)前業(yè)界功能最全的視頻生成與編輯模型。

業(yè)界功能最全、消費(fèi)級(jí)顯卡可跑、而且還是開源的？！

不賣關(guān)子了，這就是阿里最新開源的通義萬(wàn)相Wan2.1-VACE，號(hào)稱當(dāng)前業(yè)界功能最全的視頻生成與編輯模型。

有多全呢？來看官方介紹海報(bào)：

按照萬(wàn)相產(chǎn)品負(fù)責(zé)人的說法，“所有你能想到的關(guān)于視頻生成的玩法，幾乎都在這里了”。

而且與以往不同，以上功能主打“All in one”，都能在一個(gè)模型里體驗(yàn)。

目前Wan2.1-VACE一共有兩個(gè)版本：

1.3B版本：消費(fèi)級(jí)顯卡可跑，支持480p分辨率；
14B版本：滿血版，支持480p、720p分辨率。

模型已在GitHub、Hugging Face和魔搭社區(qū)上線，動(dòng)手能力強(qiáng)的小伙伴現(xiàn)在可自行本地化部署，至于其他想在產(chǎn)品端直接體驗(yàn)的朋友，可能還要等一兩天。

OK，話不多說，我們直接看新模型究竟有哪些玩法。

視頻生成領(lǐng)域的“全能選手”

經(jīng)過一番梳理，Wan2.1-VACE的“進(jìn)階攻略”如下：

初階玩法：基礎(chǔ)的文生視頻、圖生視頻（含首尾幀）、視頻生視頻等；
中階玩法：加入編輯功能，局部抹除或替換、視頻重繪、時(shí)長(zhǎng)或背景延展等；
高階玩法：將各種能力花式組合。

下面我們依次挑其中的一些亮點(diǎn)來看。

首先，在初級(jí)階段，Wan2.1-VACE根據(jù)參考圖生成融合視頻的能力看起來相當(dāng)絲滑。

比如分別上傳兩張娃娃和小蛇的圖片：

生成的視頻如下，不僅還原了文字所描述的氛圍感，而且娃娃和小蛇的動(dòng)作姿態(tài)都比較自然，整體構(gòu)圖和諧。

提示詞：在一個(gè)歡樂而充滿節(jié)日氣氛的場(chǎng)景中，穿著鮮艷紅色春服的小女孩正與她的可愛卡通蛇嬉戲。她的春服上繡著金色吉祥圖案，散發(fā)著喜慶的氣息，臉上洋溢著燦爛的笑容。蛇身呈現(xiàn)出亮眼的綠色，形狀圓潤(rùn)，寬大的眼睛讓它顯得既友善又幽默。小女孩歡快地用手輕輕撫摸著蛇的頭部，共同享受著這溫馨的時(shí)刻。周圍五彩斑斕的燈籠和彩帶裝飾著環(huán)境，陽(yáng)光透過灑在她們身上，營(yíng)造出一個(gè)充滿友愛與幸福的新年氛圍。

當(dāng)然也有官方demo中效果更驚艷的（游戲中的角色直接照進(jìn)現(xiàn)實(shí)）：

除了融合能力，Wan2.1-VACE更值得說道的還是編輯功能。

要知道目前絕大多數(shù)視頻生成AI都無(wú)法“一次就100%成功”，所以編輯功能幾乎已成為剛需。

比如在產(chǎn)品宣傳中，咱們直接來個(gè)“無(wú)中生有”。

第一步，直接使用文生視頻創(chuàng)造出下列場(chǎng)景。

提示詞：紀(jì)實(shí)攝影風(fēng)格，房產(chǎn)自媒體博主站在一間現(xiàn)代化的客廳中央。博主穿著簡(jiǎn)潔時(shí)尚的衣物，面帶微笑，兩只手舉在身前，手上空無(wú)一物正對(duì)著鏡頭介紹房屋情況。背景是一間寬敞明亮的客廳，家具簡(jiǎn)約現(xiàn)代，落地窗外是綠意盎然的花園。房間內(nèi)光線充足，溫馨舒適。中景全身人像，平視視角，輕微的運(yùn)動(dòng)感，如手指輕點(diǎn)屏幕。

第二步，給產(chǎn)品繪制一塊想要放置的區(qū)域。