基于 1.3 萬個(gè)視頻片段,北京大學(xué)施柏鑫團(tuán)隊(duì)聯(lián)合貝式計(jì)算提出全景視頻生成框架 PanoWan,兼顧零樣本視頻編 原創(chuàng)
全景視頻是虛擬現(xiàn)實(shí)(VR)的重要內(nèi)容形態(tài)之一,其以真實(shí)世界為基礎(chǔ),通過 360° 沉浸視角增強(qiáng)用戶的代入感和互動(dòng)體驗(yàn),在內(nèi)容生產(chǎn)、產(chǎn)業(yè)落地和用戶普及等多個(gè)方面,為 VR 的發(fā)展提供了關(guān)鍵支撐。盡管如此,當(dāng)前的全景視頻制作通常需要依賴專業(yè)設(shè)備,這在很大程度上限制了內(nèi)容創(chuàng)作的廣泛性。
近年來,隨著生成式視頻模型的快速發(fā)展,研究人員也開始嘗試將其應(yīng)用于全景視頻領(lǐng)域,從而降低全景內(nèi)容創(chuàng)作的門檻,推動(dòng) VR 內(nèi)容的大規(guī)模擴(kuò)展,甚至助力構(gòu)建高度沉浸的交互式虛擬世界。
然而,將傳統(tǒng)的視頻生成模型高效遷移到全景領(lǐng)域并非易事,其中的主要挑戰(zhàn)是全景視頻與普通視頻在空間特征表征上存在根本性差異,例如等距矩形投影所帶來的緯度方向上的畫面變形,以及經(jīng)度方向邊界拼接造成的視覺與語義不連續(xù)性。因此,即使當(dāng)前的文本到視頻生成技術(shù)已經(jīng)實(shí)現(xiàn)了出色的效果,也難以確保全景視頻生成過程中場景內(nèi)元素空間布局的一致性與連貫性。
針對(duì)這一關(guān)鍵挑戰(zhàn),北京大學(xué)相機(jī)智能實(shí)驗(yàn)室(施柏鑫團(tuán)隊(duì))聯(lián)合 OpenBayes 貝式計(jì)算,共同推出了基于文本引導(dǎo)的全景視頻生成框架 PanoWan 。該方法以極簡高效的模塊架構(gòu),將預(yù)訓(xùn)練文本到視頻模型的生成先驗(yàn)順暢遷移至全景領(lǐng)域。為此,該方法設(shè)計(jì)了緯度感知采樣技術(shù),有效降低等距矩形投影引起的畫面畸變;同時(shí),通過旋轉(zhuǎn)語義去噪與邊界填充逐像素解碼策略,解決了經(jīng)度邊界處視覺語義不連貫的問題。
此外,為了有效訓(xùn)練該模型,研究團(tuán)隊(duì)特別構(gòu)建了一個(gè)高質(zhì)量、大規(guī)模的全景視頻數(shù)據(jù)集 PanoVid 。該數(shù)據(jù)集共收錄超過 1.3 萬個(gè)帶有文字描述的視頻片段,累計(jì)近千小時(shí),涵蓋自然風(fēng)景、城市街景和人物活動(dòng)等多樣化場景。
實(shí)驗(yàn)結(jié)果充分表明,PanoWan 不僅在文本生成全景視頻任務(wù)上取得了當(dāng)前的最佳性能,還表現(xiàn)出強(qiáng)大的零樣本視頻編輯能力,無需額外訓(xùn)練即可勝任全景視頻超分辨率增強(qiáng)、語義編輯以及視頻內(nèi)容外延等多個(gè)實(shí)用場景。

相關(guān)研究論文「PanoWan: Lifting Diffusion Video Generation Models to 360° with Latitude/Longitude-aware Mechanisms」現(xiàn)已發(fā)布于 arXiv 。
更多示例展示可訪問項(xiàng)目主頁:
???https://panowan.variantconst.com/??

大規(guī)模全景視頻數(shù)據(jù)集 PanoVid
缺乏配對(duì)數(shù)據(jù)集一直是全景視頻生成模型性能提升的主要阻礙之一。為解決數(shù)據(jù)稀缺的問題,研究團(tuán)隊(duì)構(gòu)建了一個(gè)語義均衡、場景多樣且高質(zhì)量的大規(guī)模全景視頻數(shù)據(jù)集 PanoVid 。該數(shù)據(jù)集匯聚了現(xiàn)有的多個(gè)全景視頻資源,包括 360-1M 、 360+x 、 Imagine360 、 WEB360 、 Panonut360 、 Miraikan 360-degree Video Dataset,以及公開的沉浸式 VR 視頻數(shù)據(jù)集等。
在初步采集后,研究團(tuán)隊(duì)利用 Qwen-2.5-VL 模型為視頻自動(dòng)生成高質(zhì)量的文本描述,并為視頻打上分類標(biāo)簽,且只保留等距投影(ERP)格式的視頻。隨后,為避免內(nèi)容重復(fù),團(tuán)隊(duì)采用基于描述相似度的去重策略,并進(jìn)一步通過光流平滑度及美學(xué)評(píng)分對(duì)視頻進(jìn)行嚴(yán)格篩選,僅保留每個(gè)類別中的優(yōu)質(zhì)片段。
經(jīng)過這一系列嚴(yán)格處理流程,PanoVid 數(shù)據(jù)集最終包含超過 1.3 萬個(gè)視頻片段,總時(shí)長約 944 小時(shí),覆蓋風(fēng)景、街景、人物等豐富多樣的場景。

數(shù)據(jù)集示例
PanoWan 技術(shù)要點(diǎn):聚焦維度與經(jīng)度層面
PanoWan 沿用了 Wan 2.1 模型的文生視頻訓(xùn)練框架,旨在通過最小化的改動(dòng),將視頻生成模型遷移到全景領(lǐng)域,同時(shí)最大程度保留原有模型的生成先驗(yàn)。為解決 ERP 格式帶來的全景視頻畸變問題,研究團(tuán)隊(duì)主要從緯度和經(jīng)度兩個(gè)層面著手。
其中,緯度方向,PanoWan 采用緯度感知采樣(Latitude-aware Sampling, LAS)來緩解極地區(qū)域的緯度失真問題。這種方法通過重新映射噪聲的分布,使其與球面實(shí)際的頻率特性更加匹配,從而有效減少畫面在緯度方向上的拉伸和扭曲。
經(jīng)度方向,為解決生成結(jié)果中左右邊界處的視覺與語義不連續(xù)問題,PanoWan 提出了旋轉(zhuǎn)語義去噪(Rotated Semantic Denoising, RSD)與邊界填充逐像素解碼(Padded Pixel-wise Decoding, PPD)。前者通過潛空間內(nèi)的旋轉(zhuǎn)操作,將接縫誤差均勻分布到不同經(jīng)度,顯著降低了語義過渡不一致的現(xiàn)象;后者通過擴(kuò)展接縫區(qū)域的上下文,使解碼器能夠在解碼過程中考慮到更多邊界外的信息,有效地避免了像素級(jí)的邊界割裂問題。

下圖通過消融實(shí)驗(yàn),直觀展示了該工作所提出的緯度、經(jīng)度機(jī)制的有效性。圖像左上角展示了使用緯度感知采樣方法后,原本容易發(fā)生明顯畸變的天花板和燈帶線條在透視視圖下變得平直自然;而右下角的完整方法,結(jié)合了旋轉(zhuǎn)語義去噪和邊界填充逐像素解碼,成功消除了圖像邊界區(qū)域的不連續(xù)性,過渡流暢自然。

PanoWan 效果展示
首先是最基礎(chǔ)的文生全景視頻,話不多說看效果。
因平臺(tái)限制,視頻在這里無法展示,大家可以到 HyperAI超神經(jīng)公眾號(hào)同名文章查看視頻效果~
??https://mp.weixin.qq.com/s/2B1YgxLwVdZCJOoVPeEUDw??
PanoWan 還能在不經(jīng)過重新訓(xùn)練的情況下,零樣本應(yīng)用于全景視頻的長視頻生成、超分辨率、語義編輯和視頻外擴(kuò)任務(wù)。
定量和定性評(píng)估
研究團(tuán)隊(duì)將 PanoWan 與同樣適用于文生全景視頻的方法 360DVD(CVPR’24)和 DynamicScaler(CVPR’25)進(jìn)行了定量和定性的對(duì)比。
為了科學(xué)地評(píng)估生成的視覺質(zhì)量與全景視頻特性,團(tuán)隊(duì)采用了兼顧通用視頻評(píng)估指標(biāo)與全景特定指標(biāo)的評(píng)測體系。其中,通用指標(biāo)包含整體視頻質(zhì)量(FVD)、文本視頻匹配度(VideoCLIP-XL)和圖像質(zhì)量等;全景特定指標(biāo)則使用了衡量經(jīng)度邊界連續(xù)性、運(yùn)動(dòng)模式準(zhǔn)確性和場景豐富程度的評(píng)測標(biāo)準(zhǔn)。從定量實(shí)驗(yàn)結(jié)果來看,PanoWan 在所有關(guān)鍵指標(biāo)上均實(shí)現(xiàn)了最佳表現(xiàn)。

關(guān)于研究團(tuán)隊(duì)
北京大學(xué)相機(jī)智能實(shí)驗(yàn)室(http://camera.pku.edu.cn)的負(fù)責(zé)人施柏鑫是北京大學(xué)計(jì)算機(jī)學(xué)院視頻與視覺技術(shù)研究所副所長,長聘副教授(研究員)、博士生導(dǎo)師;北京智源學(xué)者;北大 – 智平方具身智能聯(lián)合實(shí)驗(yàn)室主任。日本東京大學(xué)博士,麻省理工學(xué)院媒體實(shí)驗(yàn)室博士后。
其研究方向?yàn)橛?jì)算攝像學(xué)與計(jì)算機(jī)視覺,發(fā)表論文 200 余篇(包括 TPAMI 論文 30 篇,計(jì)算機(jī)視覺三大頂級(jí)會(huì)議論文 100 余篇)。論文獲評(píng) IEEE/CVF 計(jì)算機(jī)視覺與模式識(shí)別會(huì)議(CVPR)2024 最佳論文亞軍(Best Paper, Runners-Up)、國際計(jì)算攝像會(huì)議(ICCP)2015 最佳論文亞軍、國際計(jì)算機(jī)視覺會(huì)議(ICCV)2015 最佳論文候選,獲得日本大川研究助成獎(jiǎng)(2021)、中國電子學(xué)會(huì)青年科學(xué)家獎(jiǎng)(2024)。科技部人工智能重大專項(xiàng)首席科學(xué)家,國家自然科學(xué)基金重點(diǎn)項(xiàng)目負(fù)責(zé)人,國家級(jí)青年人才計(jì)劃入選者。擔(dān)任國際頂級(jí)期刊 TPAMI 、 IJCV 編委,頂級(jí)會(huì)議 CVPR 、 ICCV 、 ECCV 領(lǐng)域主席。 APSIPA 杰出講者、 CCF 杰出會(huì)員、 IEEE/CSIG 高級(jí)會(huì)員。

主要合作者 OpenBayes 貝式計(jì)算作為國內(nèi)領(lǐng)先的人工智能服務(wù)商,深耕工業(yè)研究與科研支持領(lǐng)域,通過為新一代異構(gòu)芯片嫁接經(jīng)典軟件生態(tài)及機(jī)器學(xué)習(xí)模型,進(jìn)而為工業(yè)企業(yè)及高校科研機(jī)構(gòu)等提供更加快速、易用的數(shù)據(jù)科學(xué)計(jì)算產(chǎn)品,其產(chǎn)品已被數(shù)十家大型工業(yè)場景或頭部科研院所采用。
訪問官網(wǎng):??https://openbayes.com/??

















