全球AI視頻大戰(zhàn)升級!「中國版Sora」Vidu Q2參考生月底發(fā)布,能力對標Sora 2
OpenAI再掀全球狂歡,Sora 2三天登頂美區(qū)App Store,再造一個ChatGPT時刻。
用戶只需要輸入文字提示,Sora就能生成幾乎任何你能想象到的視頻片段。
特別是,Sora 2 Cameo功能讓奧特曼客串各種梗圖,全網(wǎng)徹底玩瘋了奧特曼。
圖片
圖片
圖片
奧特曼表示雖然信息流里出現(xiàn)的自己的梗圖,沒想象中奇怪,但仍有些迷惑。
圖片
盡管看起來這場讓國外狂歡的盛宴來得突然,實際上類似Sora 2 Cameo功能,則在國內(nèi)并不鮮見,以中國版「Sora」Vidu為例,作為全球「參考生」功能概念的首個提出者,它與Cameo如出一轍。
幾乎同時,Vidu也被曝「參考生視頻」功能,將在本月底迎來Q2版本的重大更新。
不過,該功能目前仍處于保密內(nèi)測階段。基于拿到的第一手內(nèi)測,我們嘗試進行同樣內(nèi)容制作,比如,參考奧特曼形象,Vidu Q2可生成奧特曼在工業(yè)風閣樓中作畫的場景——

此前,Vidu AI在Vidu Q2圖生視頻發(fā)布時表示,新版本將AI視頻帶入了下個階段——不僅生成視頻,還能生成演技。
AI演戲時代已開啟:表情更豐富,運鏡更靈活,速度更快,理解更深入。


相比前一代,Vidu Q2圖生視頻已全球上線,在時長選擇、鏡頭語言和語義理解上取得了明顯提升。
而這一次的Vidu Q2「參考生視頻」不僅是功能的迭代,更預示著在下一代AI視頻生成路徑上,全球已全面展開正面交鋒。
Vidu:推動「視頻生成」走向「演技生成」時代到來
先看一下Vidu Q2在官方示例上的表現(xiàn):
圖片
圖片
圖片
據(jù)悉,Vidu Q2參考生視頻與圖生視頻一樣,將在價格、時長選擇、鏡頭語言支持和語義理解給予用戶更多選擇。
內(nèi)測發(fā)現(xiàn),Vidu Q2 參考生視頻支持2-8秒不同時長自由選擇、支持1080p高清晰度、3種寬高比。
圖片
我們先看一下為什么說Vidu才是讓奧特曼火出圈的「Cameo客串」功能的開創(chuàng)者,為什么說Vidu在類似功能「Reference參考生」上比OpenAI領(lǐng)先。
Vidu:參考生視頻領(lǐng)先OpenAI
「參考生視頻」并不是Vidu Q2推出的新功能,早在去年9月Vidu 1.0版本就已推出,而且Vidu是全球最早推出參考生視頻功能的,并首個做到支持7個主體參考。
簡單而言,「參考生視頻」是引用角色、道具、場景等更多素材內(nèi)容來生成視頻,從而更好地控制生成效果,而且直接從素材到視頻,省去了中間的分鏡腳本制作環(huán)節(jié)。

視頻為Vidu Q1參考生視頻的功能展示
此外,Vidu 的「參考生視頻」起步更早,覆蓋范疇也更廣。
所謂的Sora 2 Cameo其實是類似于Vidu 參考生功能——
均可用「@」調(diào)用不同形象,并基于所選形象進行二次創(chuàng)作。
圖片
從行業(yè)角度看,Sora 2 Cameo就是一種「參考人物生成視頻」的形式。
Vidu最多同時參考7張圖片,而且萬物皆可參考。
相比Vidu Q2,Sora 2有明顯的局限:目前不支持對物體進行@調(diào)用;當直接上傳物體圖片作為參考時,最多僅能參考一個物體;最多支持三個人物客串演出。
而且Vidu不僅是引用角色,更是引用一切素材(道具、場景、物體等) 來生成視頻,為創(chuàng)作者提供了更高的自由度和控制力,同時Vidu還可以最多支持7張參考圖片,可以是7個角色,也可以是人物、道具、場景等的不同排列組合。
在Vidu中上傳圖片并添加描述即可創(chuàng)建「主體」,之后在主體庫中勾選;或直接在提示詞輸入框中輸入@上傳的圖片素材即可。
此外,還可以在Vidu首頁「主體」廣場中使用其他用戶投稿的公開主體,例如可以直接使用網(wǎng)友「caelum mo」投稿的小男孩主體。這種用戶間主體庫的分享不僅降低了用戶的使用門檻,而且更具互動社交屬性,可玩性更高。
圖片
為了提升主體的一致性,上傳圖片時,可上傳三視圖(正面、側(cè)面、背面)到【主體庫】,也可上傳多角度圖片,或者立體感的圖片;而提示詞描述可以直接打開提示詞框下面的【專業(yè)模式】,讓AI直接將你的自然語言轉(zhuǎn)換為更準確的提示詞描述,提升識別準確性。
比如,「星辰研究所-微BT_buding」投稿的「黑暗巨龍飛行狀態(tài)」,上傳了三張不同角度的圖片。
圖片
基于此主體,制作的「飛龍在天」視頻:
圖片
除了人物等角色之外,創(chuàng)作者冰皓利用主體,一鍵復制特效:

據(jù)透露,本月底Vidu的「參考生視頻」迎來更新,一致性更好,價格更優(yōu)惠,速度更快,依舊全球領(lǐng)先。
核心技術(shù)指標正面PK:誰更勝一籌
OpenAI的Sora 2的確有不少亮點,比如:
可自動補充大量不同分鏡;實現(xiàn)了音視頻直出,并且可以控制語音內(nèi)容;
在核心技術(shù)指標,比如一致性、語義理解、動作自然度上,Vidu相對優(yōu)勢更大。
讓我們一睹這兩大AI視頻工具在多項技術(shù)上的正面交鋒吧!
一致性:Vidu生成內(nèi)容更可控
從內(nèi)測效果來看,一致性方面,Vidu Q2參考生比Sora 2表現(xiàn)更佳。
先請奧特曼客串一下。下面的案例中,Sora 2直接改變了皇冠的樣式,而Vidu Q2則能完全保持皇冠的細節(jié)特點。
Prompt:@Sam 介紹 @皇冠
圖片
圖片
圖片
沒用@cameo功能時,Sora2圖生視頻里的人臉一致性明顯較差。Sora2用了@引用功能時,一致性依舊略差于Vidu。
案例2中,輸入圖片:
圖片
Prompt:女孩閉上眼睛,身后的云朵飛舞,發(fā)出金光
圖片
語義理解:Sora 2對于運鏡理解一般
綜合而言,Sora 2與Vidu Q2在語義理解能力上差不多,多數(shù)提示詞都能正確理解。
但一些常見的內(nèi)容, Sora 2卻無法正確理解。
例如,下列提示詞Vidu Q2處理的直升飛機較好,而Sora 2遜色不少。
圖片
圖片
Prompt: 海面上空環(huán)繞著數(shù)十架直升機,遠景
實際上,在運鏡理解方面,Sora 2表現(xiàn)并不穩(wěn)定,多數(shù)案例下都沒能正確理解運鏡指令。
比如,鏡頭右移,Vidu Q2(下圖左)完全無壓力,而Sora 2卻并沒有理解鏡頭右移的意思。
Prompt: 鏡頭右移
Vidu Q2 參考生
Sora 2
鏡頭拉遠同樣如此:
Vidu Q2 參考生
Sora 2
Prompt:行進中的列車里,右邊的男人回頭向后看,鏡頭拉遠
動態(tài)自然度:Vidu更連貫
相對而言,大部分情況下Vidu Q2生成的視頻動作比Sora 2更加連貫。
例如,水晶酒杯掉地板,突然爆裂的瞬間的視頻中,Sora 2生成的動作連貫性不如Vidu Q2。
圖片
圖片
在舞蹈房內(nèi),Sora 2生成的視頻跳到一半靜止了,而Vidu Q2生成的視頻(下圖左)則流暢許多。
圖片
圖片
Prompt: 四周都是鏡子的舞蹈房內(nèi),女生牽著男生的手優(yōu)雅旋轉(zhuǎn)翩翩起舞,動作流暢一致,衣裙隨舞步輕盈擺動,鏡面反射出舞蹈全景,鏡頭緩慢環(huán)繞捕捉舞蹈細節(jié)。
Sora 2經(jīng)常會出現(xiàn)畫面內(nèi)元素靜止、不動的bug。
對下列演唱會場景的視頻中,Vidu Q2生成的視頻比較流暢,而Sora 2生成的視頻有點像PPT。
圖片
圖片
Prompt:激動得滿臉通紅,眼睛瞪得極大,雙手捂住臉,不敢相信,隨后又瘋狂地揮舞手中的熒光棒。
特效畫面中,Vidu Q2生成的巨龍在空中噴火,特效非常真實,相比之下Sora 2生成的視頻只有火在動,不夠流暢自然。
圖片
圖片
Prompt:特寫鏡頭緊緊聚焦在一條龍的下顎上。熱氣明顯地扭曲了周圍的空氣,它的喉嚨開始發(fā)出強烈的鈷藍色光芒。它呼氣,一股閃爍著、富含粒子的藍色火焰集中噴射而出,填滿了整個畫面。鏡頭跟隨火焰,看著它猛擊在一座城堡墻壁粗糙、風化的石頭上。我們看到石頭在熱沖擊下瞬間裂開,閃爍的藍色能量在裂縫中飛速蔓延。石頭表面起泡、爆裂,變成濃稠、黏滯的巖漿,像糖漿般沉甸甸地滴落下來。那聲音是噴氣發(fā)動機的轟鳴聲與巖石熔化成液體時的嘶嘶聲和爆裂聲的恐怖混合。
在另一個真實案例中,面對一個流水的水龍頭,Sora 的鏡頭從水流特寫快速切換至水管開關(guān),并以一個短暫的靜止畫面作結(jié)。
而Vidu Q2則采用了更為平穩(wěn)的運鏡,讓鏡頭徐徐拉進,整體觀感更為貼近日常,顯得十分自然。
圖片
圖片
Prompt:水管里水在流動,鏡頭推進對焦到水管開關(guān)上
同時,Sora表情、微動態(tài)不如Vidu層次豐富,Vidu更能滿足對于表情演繹有較高要求的影視、動漫行業(yè)的需求。
圖片
圖片
Prompt:二維扁平動畫風格,主角神色慌張,嘴中冒出冷氣,同時回頭張望,看向鏡頭后朝鏡頭方向跑出畫面
最后,看一下Vidu生成的豐富表情和微動態(tài)在動漫行業(yè)的應用,表情變化層次豐富,非常自然。

Prompt: 過山車在軌道上飛馳,情侶坐在第一排,女生緊緊抓住安全桿,男生試圖轉(zhuǎn)頭看她卻被慣性甩回;鏡頭切換到兩人的面部特寫,女生張大嘴巴尖叫,眼淚被風吹得貼在臉頰,男生則笑著大喊,牙齒咬得緊緊的,雙手比出勝利的手勢。
創(chuàng)作者也開始將Vidu Q2「參考生」功能玩出了花。國內(nèi)創(chuàng)作者@陳暢用Vidu Q2「參考生」功能做了一個非常驚艷的短片:細節(jié)豐富、運鏡流暢,完成度非常高。

就連鋼鐵俠本尊,也有了全新戰(zhàn)甲。
參考圖:
圖1;圖2
生成的視頻:
圖片
提示詞:
[@圖1][@圖2]
圖1機器盔甲和圖2的人一樣大,圖1貼合在它里面的圖2的人
圖1機器盔甲機甲外形保持不變,頭盔掀起露出圖2人的臉
胸甲從中間收縮打開露出人的上半身
手臂部機甲從手臂中間收縮打開露出人的手臂
腿部機甲從腿部中間收縮打開露出人的腿
除了打開的部分,機甲其他部分保持連接在一起不斷開,機甲后背不變
圖2人物的手臂從機甲手臂里出來,腿從機甲的腿出來,人物整體從機甲里面走出來
鏡頭全景
所有變形都通過機械傳動裝置
有創(chuàng)作者還讓黑暗游俠NPC出場,Vidu Q2直出視頻,三個鏡頭流暢連貫,令人驚嘆。
將主角三視圖輸入到Vidu參考生功能的主體庫中:
正面;側(cè)面;近照側(cè)面
生成的視頻:

Prompt:
[@黑暗游俠]
0-1s鏡頭1,頭發(fā)飄揚,拉開弓,超近特寫,背景是黑暗森林閃著奇幻的光,箭射出去。切鏡頭
1-6s鏡頭2,黑暗游拿著弓在黑暗森林里快速跑動跳躍,鏡頭自由跟隨,特寫全身自由切換,在樹林中穿梭,急速大幅度不斷跳躍,閃爍。切鏡頭
6-8s鏡頭3,一個旋轉(zhuǎn)鏡頭環(huán)繞人臉慢動作特寫,露出邪魅的笑容
月底突襲,Sora 2真正挑戰(zhàn)者來了
如今,AI視頻生成領(lǐng)域,已成為科技巨頭們「打得不可開交」的又一大主戰(zhàn)場。
谷歌Veo 3、OpenAI Sora 2,以及馬斯克xAI最新放出的Imagine v0.9,均在音畫同步、人物一致性等方面,掀起一波又一波的創(chuàng)新狂潮。
圖片
圖片
圖片
反觀國內(nèi),以Vidu、Wan2.5、Kling AI等自主研發(fā)的模型強勢出擊,不僅在技術(shù)指標上緊咬對手,更在開放性、成本控制、應用普惠上實現(xiàn)彎道超車。
就在本月底,Vidu Q2將重新定義「參考生視頻」,該功能模型即將迎來一次重大升級。
這無疑是2025年視頻生成領(lǐng)域,最值得期待的更新之一。
憑借更高的創(chuàng)作自由度、更精細的控制力、更豐富的應用,Vidu在表情變化、推拉運鏡、生成速度,語義理解,視頻延長方面取得突破性進展。
這場逆襲,再次證明了國產(chǎn)AI的全球競爭力——從跟跑走向領(lǐng)跑,正重塑AI版圖。
這一次,我們將見證全球視頻AI「大戰(zhàn)」的下一個關(guān)鍵節(jié)點。
讓我們拭目以待。




























