Utopai聯(lián)手LG、中東主權(quán)基金加碼韓娛,新模型顛覆AI視頻格局!
在 AI 視頻生成技術(shù)日新月異的今天,主流模型如 Sora 2、Google Veo 3 等已能生成視覺(jué)驚艷的短視頻片段,但想要?jiǎng)?chuàng)作長(zhǎng)視頻甚至是影視作品時(shí),AI 模型似乎開(kāi)始變得力不從心。
然而,在好萊塢,一家 AI 影視公司卻已經(jīng)拔地而起,開(kāi)始將 AI 影視生成技術(shù)從模型驗(yàn)證推向大規(guī)模產(chǎn)業(yè)化。
11 月 3 日,據(jù) Deadline 報(bào)道,AI 原生影視工作室 Utopai Studios 與全球創(chuàng)新投資平臺(tái) Stock Farm Road(SFR)宣布成立資本規(guī)模達(dá)數(shù)十億美元的合資公司 Utopai East,以加速韓國(guó)影視的國(guó)際化進(jìn)程。
SFR 背后,一面是 LG 集團(tuán)繼承人 Brian Koo,另一面是阿聯(lián)酋主權(quán)基金推動(dòng)者 Amin Badr-El-Din。

報(bào)道顯示,此次合作中 Utopai Studios 將成為 SFR 在娛樂(lè)領(lǐng)域的獨(dú)家 AI 技術(shù)合作伙伴,依托 SFR 在韓國(guó)規(guī)劃的 350 億美元 AI 數(shù)據(jù)中心樞紐,構(gòu)建下一代影視制作基礎(chǔ)設(shè)施。

在這場(chǎng)以韓娛為核心的產(chǎn)業(yè)協(xié)同背后,隱藏著 Utopai 希望系統(tǒng)性攻克的關(guān)鍵命題:如何讓 AI 真正理解并駕馭影視長(zhǎng)片的敘事邏輯,進(jìn)而實(shí)現(xiàn)從「短片生成」到 「長(zhǎng)片制作」的工業(yè)級(jí)跨越?

核心問(wèn)題:為何傳統(tǒng)視頻模型難以駕馭長(zhǎng)片制作?
目前主流視頻生成模型(如 Diffusion)的本質(zhì)還是概率性生成器,它們逐幀或短片段獨(dú)立生成視頻,缺乏對(duì)長(zhǎng)敘事邏輯的全局規(guī)劃能力。
當(dāng)視頻生成目標(biāo)從「生成片段」升級(jí)為「制作長(zhǎng)片」時(shí),Diffusion 模型的短板開(kāi)始凸顯:
- 長(zhǎng)程一致性崩塌:角色外貌、場(chǎng)景元素在跨鏡頭時(shí)容易出現(xiàn)「漂移」,例如服裝顏色突變、人物外貌畸變等。
- 敘事可控性不足:模型難以理解劇本中的因果鏈條(如情緒的遞進(jìn)轉(zhuǎn)換),生成的內(nèi)容往往與導(dǎo)演意圖偏離。
- 物理合理性缺失:模型僅學(xué)習(xí) 2D 像素統(tǒng)計(jì)規(guī)律,缺乏對(duì)三維空間遮擋、碰撞等規(guī)則的認(rèn)知,易產(chǎn)生反物理的「幻覺(jué)」。
Utopai 帶來(lái)的解決方案則是直擊痛點(diǎn) —— 不再追求單一模型的極致優(yōu)化,而是通過(guò)架構(gòu)重組,讓不同模型各司其職。
技術(shù)架構(gòu):規(guī)劃與渲染解耦的協(xié)同范式
Utopai 在技術(shù)上的重要?jiǎng)?chuàng)新是構(gòu)建了分層協(xié)同架構(gòu),其中自回歸模型(AR)負(fù)責(zé)「規(guī)劃」,擴(kuò)散模型(Diffusion)負(fù)責(zé)「渲染」,二者通過(guò)統(tǒng)一狀態(tài)空間耦合。
1.規(guī)劃層:自回歸模型作為「導(dǎo)演大腦」
- 序列預(yù)測(cè)機(jī)制:AR 模型以劇本為輸入,通過(guò)前幀預(yù)測(cè)后幀的機(jī)制,生成涵蓋角色 ID 向量、攝像機(jī)軌跡、光影變化等要素的時(shí)空計(jì)劃。該計(jì)劃本質(zhì)是一個(gè)機(jī)器可執(zhí)行的「拍攝藍(lán)圖」,確保長(zhǎng)達(dá)數(shù)十分鐘的片長(zhǎng)中元素演進(jìn)邏輯保持一致。
- 狀態(tài)記憶與因果推理:模型能夠維護(hù)可回放的長(zhǎng)程狀態(tài)記憶,例如追蹤角色從第 1 鏡到第 50 鏡的動(dòng)作軌跡,避免傳統(tǒng)模型因局部生成導(dǎo)致的邏輯斷裂。
2.渲染層:擴(kuò)散模型作為「執(zhí)行引擎」
- 條件化生成:擴(kuò)散模型不再隨機(jī)「抽卡」,而是嚴(yán)格依據(jù)規(guī)劃層輸出的結(jié)構(gòu)化指令(如深度圖、光流信號(hào))生成畫(huà)面。例如,當(dāng)規(guī)劃層指定「攝像機(jī)以俯角拍攝雨夜小巷」 時(shí),擴(kuò)散模型就會(huì)據(jù)此渲染細(xì)節(jié)。
- 物理規(guī)律注入:通過(guò)訓(xùn)練時(shí)引入帶精確標(biāo)注的 3D 合成數(shù)據(jù),模型學(xué)習(xí)空間遮擋、材質(zhì)反射等規(guī)則,避免生成內(nèi)容違反重力或碰撞邏輯。
3.協(xié)同接口:統(tǒng)一狀態(tài)空間
- 規(guī)劃層與渲染層通過(guò)統(tǒng)一狀態(tài)空間交換信息:規(guī)劃器輸出未來(lái)幀的幾何與語(yǔ)義約束,渲染器據(jù)此生成像素,并反饋生成結(jié)果供規(guī)劃器優(yōu)化后續(xù)計(jì)劃。這一閉環(huán)解決了擴(kuò)散模型「生成即遺忘」的缺陷。
簡(jiǎn)單來(lái)說(shuō),Utopai 的突破就在于構(gòu)建了一種融合自回歸模型與擴(kuò)散模型的協(xié)同架構(gòu),通過(guò)「規(guī)劃 — 渲染」解耦的協(xié)同范式,將 AI 從「畫(huà)面生成工具」升級(jí)為「敘事協(xié)作伙伴」。
訓(xùn)練方法論:從 2D 統(tǒng)計(jì)到 3D 物理規(guī)律的躍遷
Utopai 模型能力的基石是其獨(dú)特的訓(xùn)練策略,訓(xùn)練的核心是用 3D 物理規(guī)律替代 2D 像素統(tǒng)計(jì)。
1.預(yù)訓(xùn)練階段:幾何與語(yǔ)義對(duì)齊
通過(guò)使用高質(zhì)量 3D 合成數(shù)據(jù)(如虛擬城市、動(dòng)態(tài)物體),訓(xùn)練模型去理解場(chǎng)景的深度信息,如材質(zhì)屬性、運(yùn)動(dòng)軌跡等,而非僅學(xué)習(xí)網(wǎng)絡(luò)視頻的像素分布;通過(guò)構(gòu)建「下一狀態(tài)預(yù)測(cè)」「掩碼重建」等任務(wù),強(qiáng)制模型推理物體遮擋關(guān)系(如角色繞過(guò)桌椅而非穿模)。
2.微調(diào)階段:多模態(tài)指令遵循
在這一階段,引入劇本、分鏡等專(zhuān)業(yè)數(shù)據(jù),訓(xùn)練模型將抽象指令(如「史詩(shī)感」)轉(zhuǎn)化為具體視覺(jué)元素(如低角度鏡頭、暖色調(diào)光影)。
這樣的訓(xùn)練方式使模型能處理復(fù)雜指令,例如當(dāng)要求角色「由懷疑轉(zhuǎn)為恍然大悟」時(shí),模型能夠協(xié)調(diào)人物角色的面部微表情、肢體語(yǔ)言、鏡頭焦距的同步變化,而非簡(jiǎn)單替換表情貼圖。
可量化的技術(shù)優(yōu)勢(shì):定義 AI 電影敘事的新指標(biāo)
當(dāng)前 AI 視頻領(lǐng)域的通用指標(biāo)(如 FVD、CLIP Score)主要衡量視覺(jué)逼真度和文本符合度,但無(wú)法有效評(píng)估「敘事質(zhì)量」。
Utopai 的核心優(yōu)勢(shì)之一,正是建立一套基于專(zhuān)業(yè)影視標(biāo)準(zhǔn)的內(nèi)部評(píng)估體系,其在三個(gè)維度超越傳統(tǒng)方案:
1.一致性指標(biāo)
相較于通用模型在幾秒后可能出現(xiàn)角色特征「漂移」的現(xiàn)象,Utopai 的系統(tǒng)旨在跨越數(shù)十甚至上百個(gè)鏡頭,仍然穩(wěn)定保持核心角色身份、場(chǎng)景布景和光影邏輯的連續(xù)性。這種一致性不是簡(jiǎn)單的「不變化」,而是按照敘事邏輯的「合理演進(jìn)」。
2.劇本指令遵從度
Utopai 能夠量化生成內(nèi)容與復(fù)雜劇本指令的匹配程度。例如,當(dāng)劇本要求「角色從猶豫轉(zhuǎn)為決絕」時(shí),AI 模型能通過(guò)姿態(tài)、視線(xiàn)、鏡頭語(yǔ)言與光影的協(xié)同變化,呈現(xiàn)出符合表演邏輯的情感轉(zhuǎn)變,而非生硬的表情切換。
3.制作效率的躍升
這樣的架構(gòu)能極大優(yōu)化專(zhuān)業(yè)影視制作的前期流程,導(dǎo)演可通過(guò)修改時(shí)空計(jì)劃(如調(diào)整攝像機(jī)軌跡)精準(zhǔn)控制生成結(jié)果,無(wú)需反復(fù)「抽卡」,將創(chuàng)意迭代周期從數(shù)周縮短至幾天。
Utopai 的實(shí)踐揭示了一條代表范式轉(zhuǎn)變的技術(shù)路徑:影視級(jí) AI 模型的未來(lái)不是替代 Diffusion 或 AR,而是通過(guò)架構(gòu)創(chuàng)新實(shí)現(xiàn)專(zhuān)業(yè)化分工。
在這里,AI 不再是輔助工具,而是能夠理解導(dǎo)演愿景、具備電影級(jí)思維的真實(shí)創(chuàng)作伙伴。
正如 Utopai 創(chuàng)始人兼 CEO Cecilia Shen 所言:「AI 可以生成無(wú)窮選項(xiàng),但定義品味的永遠(yuǎn)是會(huì)講故事和有藝術(shù)審美的人。」
而此次合作也不僅是資本層面的聯(lián)手,更是以韓國(guó)為戰(zhàn)略樞紐,整合 AI 技術(shù)、算力基建與內(nèi)容生態(tài)的系統(tǒng)性布局。
當(dāng)技術(shù)的成本壁壘被 AI 擊穿,電影制作的未來(lái)將更多地取決于想象力的邊界,而非預(yù)算的多少。那些曾因「拍不起」而被擱置的宏大敘事,或許正奔跑著擁抱 AI 影視,闊步走向好萊塢大熒幕。






























