國產(chǎn)視頻大模型突破!阿里最新開源Wan2.2,單卡生成電影級(jí)畫面 原創(chuàng) 精華
AI創(chuàng)作的門檻,再次被降低了。
?
過去要拍出電影感的畫面,需要燈光師、攝影師、調(diào)色師團(tuán)隊(duì)協(xié)作,耗費(fèi)數(shù)天甚至數(shù)周時(shí)間。而現(xiàn)在,普通人輸入幾個(gè)關(guān)鍵詞,五分鐘內(nèi)就能生成一段《星際穿越》級(jí)別的畫面——這就是阿里最新開源的通義萬相Wan2.2帶來的變革。
?

?
就在昨晚,阿里正式開源了電影級(jí)視頻生成模型Wan2.2。它最核心的突破,是把電影美學(xué)變成了普通人可操作的技術(shù)。
?
你不需要理解復(fù)雜的攝影理論,只需輸入類似“黃昏柔光+冷色調(diào)低角度”這樣的關(guān)鍵詞組合,模型就能自動(dòng)生成對(duì)應(yīng)的光影、構(gòu)圖和色彩效果,甚至能精準(zhǔn)刻畫更細(xì)致的微表情。
?
官網(wǎng)上提供了幾個(gè)官方Demo,展示了Wan2.2在電影視覺方面的控制效果:
?
這是一部視覺和氛圍視頻作品,專注于光與影的相互作用,以玉米火車為中心主題。
?

?
復(fù)古的火車造型以及溫暖的色調(diào),整個(gè)畫面充滿著上世紀(jì)歐美老電影的味道。
?
這個(gè)畫面則展示了一位三十多歲的黑人女性在黃昏色調(diào)的復(fù)古濾鏡下,平靜地坐在行駛中的地鐵車廂內(nèi)。
?

?
可以看到臉部的明暗變化很自然,畫面構(gòu)圖也很協(xié)調(diào)。
?
而接下來這個(gè)頗有懸疑感的視頻,人物的動(dòng)作幅度更大。短短5秒的時(shí)間,也能感受到專業(yè)的電影敘事。
?

?
而這些,都是源于通義萬相可以精準(zhǔn)理解提示詞中的美學(xué)詞,生成一段具有電影質(zhì)感的視頻。
?
這種效果的背后是Wan2.2首創(chuàng)的“電影美學(xué)控制系統(tǒng)”。它將專業(yè)攝影拆解為60多個(gè)可控參數(shù),涵蓋光影氛圍、鏡頭語言和色彩情緒三大維度。
?
調(diào)整關(guān)鍵詞時(shí),模型會(huì)自動(dòng)協(xié)調(diào)相關(guān)參數(shù),比如選擇“邊緣光”會(huì)聯(lián)動(dòng)增強(qiáng)環(huán)境對(duì)比度,選擇“中心構(gòu)圖”則自動(dòng)虛化背景。
?

?
模型架構(gòu)同樣具有突破性。它是業(yè)界首個(gè)采用MoE(混合專家)架構(gòu)的視頻生成模型,通過高噪聲和低噪聲專家分工協(xié)作:高噪聲專家快速構(gòu)建畫面框架,低噪聲專家細(xì)化紋理和動(dòng)態(tài)細(xì)節(jié)。這種設(shè)計(jì)讓計(jì)算資源消耗降低50%,卻維持了27B參數(shù)規(guī)模的高精度輸出。
?

?
更重要的是,它的操作門檻極低。在通義APP中,上傳圖片或輸入描述,就能輕松生成擁有電影質(zhì)感的視頻。
?
這對(duì)于沒有電影技術(shù)功底的普通人來說,簡直不要太友好。
?
Wan2.2開源了三個(gè)版本,其中5B參數(shù)模型采用高壓縮率3D VAE架構(gòu),只需單張22G顯存的消費(fèi)級(jí)顯卡(如RTX 4090)就能運(yùn)行。
?
在具體實(shí)測(cè)中,我們分別從人物動(dòng)態(tài)生成、自然風(fēng)景生成和電影級(jí)大片場(chǎng)景三個(gè)方面進(jìn)行測(cè)試。作為不懂電影技術(shù)的小白,僅僅通過提供基本的美學(xué)關(guān)鍵詞后,最終呈現(xiàn)以下效果:
?
這是一個(gè)年輕女性坐在公交車上的場(chǎng)景,整體效果呈現(xiàn)的是復(fù)古風(fēng)格。
?

?
中國古代武俠動(dòng)作場(chǎng)景:
?

?
接下來,我們用《呼嘯山莊》中描繪惡劣天氣的一段文字,基于原句稍微調(diào)整了一下提示詞。
?
“狂風(fēng)呼嘯著穿過那扇半開的門,在門后猛烈地旋轉(zhuǎn)著,就像一頭被困住的野獸,企圖掙脫束縛它的牢籠。外面的天空烏云密布,雷聲隆隆,仿佛是大自然的憤怒在醞釀著一場(chǎng)即將到來的風(fēng)暴。”
?
以上為書中原句,充滿著《呼嘯山莊》獨(dú)有的狂暴氛圍與哥特美學(xué)。而用模型生成的視頻是這樣的:
?

?
雖然在還原度和風(fēng)暴呈現(xiàn)的真實(shí)度方面,還不是很完美,但作家強(qiáng)大的文字能力給讀者帶來的那種原始自然力與人造物的對(duì)抗感,即使通過真實(shí)拍攝,也很難完美還原。
?
當(dāng)然,在實(shí)測(cè)中仍然存在其他局限性。例如,復(fù)雜場(chǎng)景下角色偶爾會(huì)出現(xiàn)輕微抖動(dòng),但這只是初始測(cè)試的結(jié)果,這些問題可以通過優(yōu)化提示詞并多次嘗試來解決。
?
重要的是,普通創(chuàng)作者只需要提供美學(xué)關(guān)鍵詞,用極低的門檻就有可能復(fù)刻創(chuàng)作靈感,呈現(xiàn)電影級(jí)大作。
?
從團(tuán)隊(duì)協(xié)作到個(gè)人創(chuàng)作,從專業(yè)設(shè)備到消費(fèi)級(jí)顯卡,Wan2.2的突破恰恰在于它不追求替代電影人,而是將電影級(jí)表達(dá)變?yōu)槠胀ㄈ丝捎玫墓ぞ摺?/p>
?
最后,對(duì)于需要快速上手體驗(yàn)的朋友,算家云“鏡像社區(qū)”將于近期上架Wan2.2,無需本地部署,也不用擔(dān)心官網(wǎng)積分限制~ 關(guān)注算家云官網(wǎng)動(dòng)態(tài),解鎖沉浸體驗(yàn)!

















