全球AI視頻大戰(zhàn)升級！「中國版Sora」Vidu Q2參考生月底發(fā)布，能力對標Sora 2

2025-10-10 07:33:24

三天登頂美區(qū)App Store，Sora 2用「Cameo客串」再造狂潮；可別忘了，更早提出「Reference參考生」的國產(chǎn)AI視頻Vidu也即將在本月底升級Vidu Q2參考生功能。在一致性、運鏡理解、動作連貫三大維度上，看看誰才是下一代AI視頻的領(lǐng)航者？

OpenAI再掀全球狂歡，Sora 2三天登頂美區(qū)App Store，再造一個ChatGPT時刻。

用戶只需要輸入文字提示，Sora就能生成幾乎任何你能想象到的視頻片段。

特別是，Sora 2 Cameo功能讓奧特曼客串各種梗圖，全網(wǎng)徹底玩瘋了奧特曼。

圖片

奧特曼表示雖然信息流里出現(xiàn)的自己的梗圖，沒想象中奇怪，但仍有些迷惑。

圖片

盡管看起來這場讓國外狂歡的盛宴來得突然，實際上類似Sora 2 Cameo功能，則在國內(nèi)并不鮮見，以中國版「Sora」Vidu為例，作為全球「參考生」功能概念的首個提出者，它與Cameo如出一轍。

幾乎同時，Vidu也被曝「參考生視頻」功能，將在本月底迎來Q2版本的重大更新。

不過，該功能目前仍處于保密內(nèi)測階段。基于拿到的第一手內(nèi)測，我們嘗試進行同樣內(nèi)容制作，比如，參考奧特曼形象，Vidu Q2可生成奧特曼在工業(yè)風閣樓中作畫的場景——

此前，Vidu AI在Vidu Q2圖生視頻發(fā)布時表示，新版本將AI視頻帶入了下個階段——不僅生成視頻，還能生成演技。

AI演戲時代已開啟：表情更豐富，運鏡更靈活，速度更快，理解更深入。

相比前一代，Vidu Q2圖生視頻已全球上線，在時長選擇、鏡頭語言和語義理解上取得了明顯提升。

而這一次的Vidu Q2「參考生視頻」不僅是功能的迭代，更預示著在下一代AI視頻生成路徑上，全球已全面展開正面交鋒。

Vidu：推動「視頻生成」走向「演技生成」時代到來

先看一下Vidu Q2在官方示例上的表現(xiàn)：

圖片

據(jù)悉，Vidu Q2參考生視頻與圖生視頻一樣，將在價格、時長選擇、鏡頭語言支持和語義理解給予用戶更多選擇。

內(nèi)測發(fā)現(xiàn)，Vidu Q2 參考生視頻支持2-8秒不同時長自由選擇、支持1080p高清晰度、3種寬高比。

圖片

我們先看一下為什么說Vidu才是讓奧特曼火出圈的「Cameo客串」功能的開創(chuàng)者，為什么說Vidu在類似功能「Reference參考生」上比OpenAI領(lǐng)先。

Vidu：參考生視頻領(lǐng)先OpenAI

「參考生視頻」并不是Vidu Q2推出的新功能，早在去年9月Vidu 1.0版本就已推出，而且Vidu是全球最早推出參考生視頻功能的，并首個做到支持7個主體參考。

簡單而言，「參考生視頻」是引用角色、道具、場景等更多素材內(nèi)容來生成視頻，從而更好地控制生成效果，而且直接從素材到視頻，省去了中間的分鏡腳本制作環(huán)節(jié)。

視頻為Vidu Q1參考生視頻的功能展示

此外，Vidu 的「參考生視頻」起步更早，覆蓋范疇也更廣。

所謂的Sora 2 Cameo其實是類似于Vidu 參考生功能——

均可用「@」調(diào)用不同形象，并基于所選形象進行二次創(chuàng)作。

圖片

從行業(yè)角度看，Sora 2 Cameo就是一種「參考人物生成視頻」的形式。

Vidu最多同時參考7張圖片，而且萬物皆可參考。

相比Vidu Q2，Sora 2有明顯的局限：目前不支持對物體進行@調(diào)用；當直接上傳物體圖片作為參考時，最多僅能參考一個物體；最多支持三個人物客串演出。

而且Vidu不僅是引用角色，更是引用一切素材（道具、場景、物體等）來生成視頻，為創(chuàng)作者提供了更高的自由度和控制力，同時Vidu還可以最多支持7張參考圖片，可以是7個角色，也可以是人物、道具、場景等的不同排列組合。

在Vidu中上傳圖片并添加描述即可創(chuàng)建「主體」，之后在主體庫中勾選；或直接在提示詞輸入框中輸入@上傳的圖片素材即可。

此外，還可以在Vidu首頁「主體」廣場中使用其他用戶投稿的公開主體，例如可以直接使用網(wǎng)友「caelum mo」投稿的小男孩主體。這種用戶間主體庫的分享不僅降低了用戶的使用門檻，而且更具互動社交屬性，可玩性更高。

圖片

為了提升主體的一致性，上傳圖片時，可上傳三視圖（正面、側(cè)面、背面）到【主體庫】，也可上傳多角度圖片，或者立體感的圖片；而提示詞描述可以直接打開提示詞框下面的【專業(yè)模式】，讓AI直接將你的自然語言轉(zhuǎn)換為更準確的提示詞描述，提升識別準確性。

比如，「星辰研究所-微BT_buding」投稿的「黑暗巨龍飛行狀態(tài)」，上傳了三張不同角度的圖片。

圖片

基于此主體，制作的「飛龍在天」視頻：

圖片

除了人物等角色之外，創(chuàng)作者冰皓利用主體，一鍵復制特效：

據(jù)透露，本月底Vidu的「參考生視頻」迎來更新，一致性更好，價格更優(yōu)惠，速度更快，依舊全球領(lǐng)先。

核心技術(shù)指標正面PK：誰更勝一籌

OpenAI的Sora 2的確有不少亮點，比如：

可自動補充大量不同分鏡；實現(xiàn)了音視頻直出，并且可以控制語音內(nèi)容；

在核心技術(shù)指標，比如一致性、語義理解、動作自然度上，Vidu相對優(yōu)勢更大。

讓我們一睹這兩大AI視頻工具在多項技術(shù)上的正面交鋒吧！

一致性：Vidu生成內(nèi)容更可控

從內(nèi)測效果來看，一致性方面，Vidu Q2參考生比Sora 2表現(xiàn)更佳。

先請奧特曼客串一下。下面的案例中，Sora 2直接改變了皇冠的樣式，而Vidu Q2則能完全保持皇冠的細節(jié)特點。

Prompt：@Sam 介紹 @皇冠

圖片

沒用@cameo功能時，Sora2圖生視頻里的人臉一致性明顯較差。Sora2用了@引用功能時，一致性依舊略差于Vidu。

案例2中，輸入圖片：

圖片

Prompt：女孩閉上眼睛，身后的云朵飛舞，發(fā)出金光

圖片

語義理解：Sora 2對于運鏡理解一般

綜合而言，Sora 2與Vidu Q2在語義理解能力上差不多，多數(shù)提示詞都能正確理解。

但一些常見的內(nèi)容, Sora 2卻無法正確理解。

例如，下列提示詞Vidu Q2處理的直升飛機較好，而Sora 2遜色不少。

圖片

Prompt: 海面上空環(huán)繞著數(shù)十架直升機，遠景

實際上，在運鏡理解方面，Sora 2表現(xiàn)并不穩(wěn)定，多數(shù)案例下都沒能正確理解運鏡指令。

比如，鏡頭右移，Vidu Q2（下圖左）完全無壓力，而Sora 2卻并沒有理解鏡頭右移的意思。

Prompt: 鏡頭右移

Vidu Q2 參考生

Sora 2 Sora 2

鏡頭拉遠同樣如此：

Vidu Q2 參考生

Sora 2 Sora 2

Prompt：行進中的列車里，右邊的男人回頭向后看，鏡頭拉遠

動態(tài)自然度：Vidu更連貫

相對而言，大部分情況下Vidu Q2生成的視頻動作比Sora 2更加連貫。

例如，水晶酒杯掉地板，突然爆裂的瞬間的視頻中，Sora 2生成的動作連貫性不如Vidu Q2。

圖片

在舞蹈房內(nèi)，Sora 2生成的視頻跳到一半靜止了，而Vidu Q2生成的視頻(下圖左)則流暢許多。

圖片

Prompt: 四周都是鏡子的舞蹈房內(nèi)，女生牽著男生的手優(yōu)雅旋轉(zhuǎn)翩翩起舞，動作流暢一致，衣裙隨舞步輕盈擺動，鏡面反射出舞蹈全景，鏡頭緩慢環(huán)繞捕捉舞蹈細節(jié)。

Sora 2經(jīng)常會出現(xiàn)畫面內(nèi)元素靜止、不動的bug。

對下列演唱會場景的視頻中，Vidu Q2生成的視頻比較流暢，而Sora 2生成的視頻有點像PPT。

圖片

Prompt：激動得滿臉通紅，眼睛瞪得極大，雙手捂住臉，不敢相信，隨后又瘋狂地揮舞手中的熒光棒。

特效畫面中，Vidu Q2生成的巨龍在空中噴火，特效非常真實，相比之下Sora 2生成的視頻只有火在動，不夠流暢自然。

圖片

Prompt：特寫鏡頭緊緊聚焦在一條龍的下顎上。熱氣明顯地扭曲了周圍的空氣，它的喉嚨開始發(fā)出強烈的鈷藍色光芒。它呼氣，一股閃爍著、富含粒子的藍色火焰集中噴射而出，填滿了整個畫面。鏡頭跟隨火焰，看著它猛擊在一座城堡墻壁粗糙、風化的石頭上。我們看到石頭在熱沖擊下瞬間裂開，閃爍的藍色能量在裂縫中飛速蔓延。石頭表面起泡、爆裂，變成濃稠、黏滯的巖漿，像糖漿般沉甸甸地滴落下來。那聲音是噴氣發(fā)動機的轟鳴聲與巖石熔化成液體時的嘶嘶聲和爆裂聲的恐怖混合。

在另一個真實案例中，面對一個流水的水龍頭，Sora 的鏡頭從水流特寫快速切換至水管開關(guān)，并以一個短暫的靜止畫面作結(jié)。

而Vidu Q2則采用了更為平穩(wěn)的運鏡，讓鏡頭徐徐拉進，整體觀感更為貼近日常，顯得十分自然。

圖片