提速63%!中科院生成式渲染器突破效率瓶頸,一致性提升20%,破解具身數(shù)據(jù)荒難題
具身這么火,面向具身場(chǎng)景的生成式渲染器也來了。
中科院自動(dòng)化所張兆翔教授團(tuán)隊(duì)研發(fā)的TC-Light,能夠?qū)呱碛?xùn)練任務(wù)中復(fù)雜和劇烈運(yùn)動(dòng)的長視頻序列進(jìn)行逼真的光照與紋理重渲染,同時(shí)具備良好的時(shí)序一致性和低計(jì)算成本開銷。
它能夠幫助減少Sim2Real Gap以及實(shí)現(xiàn)Real2Real的數(shù)據(jù)增強(qiáng),幫助獲得具身智能訓(xùn)練所需的海量高質(zhì)量數(shù)據(jù)。
論文Demo代碼均已公開。

研究背景
光線及其與周圍環(huán)境的交互共同塑造了人類以及具身智能體感知數(shù)字世界和現(xiàn)實(shí)世界的基本方式。
然而,在現(xiàn)實(shí)環(huán)境中采集不同光照與場(chǎng)景條件下的數(shù)據(jù)代價(jià)高昂,而仿真環(huán)境中盡管可以獲得近乎無限的數(shù)據(jù),但受限于算力資源,通常需要對(duì)光線的多次折射衍射以及紋理精度進(jìn)行近似和簡化,使得視覺真實(shí)性無可避免地受到損失,在視覺層面產(chǎn)生Sim2Real Gap。
而如果能夠借助生成式模型根據(jù)所需的光照條件對(duì)現(xiàn)實(shí)或仿真環(huán)境下采集到的視頻數(shù)據(jù)進(jìn)行重渲染,不僅夠幫助獲得增加已有真實(shí)數(shù)據(jù)的多樣性,并且能夠彌合計(jì)算誤差帶來的CG感,使得從仿真器中能夠得到視覺上高度真實(shí)的傳感器數(shù)據(jù),包括RL-CycleGAN在內(nèi)的許多工作已經(jīng)證實(shí),這一策略能夠幫助減少將具身模型遷移到真實(shí)環(huán)境中所需微調(diào)的數(shù)據(jù)量和訓(xùn)練量。
盡管這一任務(wù)意義重大,但實(shí)際解決過程面臨許多挑戰(zhàn)。
用于訓(xùn)練的視頻數(shù)據(jù)往往伴隨復(fù)雜的運(yùn)動(dòng)以及前景物體的頻繁進(jìn)出,同時(shí)視頻序列有著較長的長度以及較高的分辨率,這使得已有的算法要么受制于訓(xùn)練所用視頻數(shù)據(jù)的分布(如COSMOS-Transfer1,Relighting4D),要么難以承受巨大的計(jì)算開銷(如Light-A-Video, RelightVid),要么難以保證良好的時(shí)序一致性(如VidToMe, RAVE等)。

△圖1 TC-Light效果展示
為了推動(dòng)這一問題的解決,團(tuán)隊(duì)提出了TC-Light算法,在提升視頻生成模型計(jì)算效率的同時(shí),通過one-shot兩階段快速優(yōu)化提升輸出結(jié)果的一致性,本算法在保持重渲染真實(shí)性的同時(shí),時(shí)序一致性和計(jì)算效率方面實(shí)現(xiàn)相比于已有算法的顯著提高。下面對(duì)算法細(xì)節(jié)進(jìn)行詳細(xì)介紹。
TC-Light算法介紹
零樣本時(shí)序模型擴(kuò)展
TC-Light首先使用視頻擴(kuò)散模型根據(jù)文本指令對(duì)輸入視頻進(jìn)行初步的重渲染。基于預(yù)訓(xùn)練好的SOTA圖像模型IC-Light以及VidToMe架構(gòu)進(jìn)行拓展,同時(shí)引入Decayed Multi-Axis Denoising模塊增強(qiáng)時(shí)序一致性。
具體而言,VidToMe在模型的自注意力模塊前后分別對(duì)來自不同幀的相似token進(jìn)行聚合和拆分,從而增強(qiáng)時(shí)序一致性并減少計(jì)算開銷;
如圖2中(a)所示,類似Slicedit,Decayed Multi-Axis Denoising模塊將輸入視頻分別視作圖像(x-y平面)的序列和時(shí)空切片(y-t平面)的序列,分別用輸入的文本指令和空文本指令進(jìn)行去噪,并對(duì)兩組噪聲進(jìn)行整合,從而使用原視頻的運(yùn)動(dòng)信息指導(dǎo)去噪過程。
不同于Slicedit,團(tuán)隊(duì)在AIN模塊對(duì)兩組噪聲的統(tǒng)計(jì)特性進(jìn)行了對(duì)齊,同時(shí)時(shí)空切片部分的噪聲權(quán)重隨去噪步數(shù)指數(shù)下降,從而避免原視頻光照和紋理分布對(duì)重渲染結(jié)果的過度影響。

△圖2 TC-Light管線示意圖
兩階段時(shí)序一致性優(yōu)化策略
盡管通過引入前一小節(jié)的模型,視頻生成式重渲染結(jié)果的一致性得到了有效改善,但輸出結(jié)果仍然存在紋理和光照的跳變。
因此進(jìn)一步引入兩階段的時(shí)序一致性優(yōu)化策略,這同時(shí)也是TC-Light的核心模塊。
在第一階段,如圖2中(b)所示,為每一幀引入Appearance Embedding以調(diào)整曝光度,并根據(jù)MemFlow從輸入視頻估計(jì)的光流或仿真器給出的光流優(yōu)化幀間一致性,從而對(duì)齊全局光照。這一階段的優(yōu)化過程非常快速,A100上300幀960x540分辨率只需要數(shù)十秒的時(shí)間即可完成。
在第二階段,進(jìn)一步對(duì)光照和紋理細(xì)節(jié)進(jìn)行優(yōu)化。如圖2中(c)所示,這里首先根據(jù)光流以及可能提供的每個(gè)像素在世界系下的位置信息,快速將視頻壓縮為碼本(也即圖中的Unique Video Tensor),即:

其中κ(x,y,t)為視頻幀給定像素依據(jù)光流及空間信息得到的碼本索引,這一基于時(shí)空先驗(yàn)的壓縮方式在原視頻上近乎可以保持無損。不同于Vector Quantization僅考慮顏色相似性的做法,這一壓縮方案保證了被聚合的像素之間的時(shí)空關(guān)聯(lián)性,保證對(duì)應(yīng)同一個(gè)碼本值的不同像素具有相似的時(shí)空一致性優(yōu)化目標(biāo)和梯度。
隨后,以碼本作為優(yōu)化目標(biāo),以解碼后的幀間一致性作為主要優(yōu)化目標(biāo),并且以TV Loss抑制噪聲,同時(shí)以SSIM Loss使得與一階段優(yōu)化結(jié)果保持一定程度的結(jié)構(gòu)相似性。
實(shí)驗(yàn)結(jié)果表明,這一階段的優(yōu)化能顯著改善時(shí)序一致性,同時(shí)非常快速,A100上300幀960x540分辨率通常只花費(fèi)2分鐘左右,且由于以壓縮后的碼本作為優(yōu)化目標(biāo),不僅避免了以往工作以NeRF或3DGS為載體帶來的10-30分鐘的訓(xùn)練代價(jià),顯存開銷上也能得到優(yōu)化。
實(shí)驗(yàn)與分析

△表1 與主流算法的定量性能比較
其中VidToMe和Slicedit的基模型都換成了IC-Light以進(jìn)行公平比較。Ours-light指不用Multi-Axis Denoising模塊的結(jié)果,相當(dāng)于對(duì)VidToMe直接應(yīng)用兩階段優(yōu)化算法。
為了驗(yàn)證算法在長動(dòng)態(tài)序列的重渲染表現(xiàn),從CARLA、Waymo、AgiBot-DigitalWorld、DROID等數(shù)據(jù)集收集了58個(gè)序列進(jìn)行綜合評(píng)測(cè),結(jié)果如表1所示。可以看到該算法克服了已有算法在時(shí)序一致性和計(jì)算開銷等方面的問題,取得了最佳的綜合性能表現(xiàn)。
圖3的可視化對(duì)比也表明,新算法在保持內(nèi)容細(xì)節(jié)的同時(shí)得到了高質(zhì)量的重渲染性能表現(xiàn)。

△圖3 一致性與生成質(zhì)量可視化對(duì)比。
TC-Light避免了(a)中像Slicedit和COSMOS-Transfer1那樣不自然的重渲染結(jié)果和(b)中展現(xiàn)出的模糊失真,或(c)中像IC-Light和VidToMe那樣的時(shí)序不一致性。量化以及video比較可以從project page找到。
最后總結(jié)一下,TC-Light作為一種新的生成式渲染器,克服了具身環(huán)境下視覺傳感器數(shù)據(jù)重渲染面對(duì)的時(shí)序一致性和長序列計(jì)算開銷兩大挑戰(zhàn),在性能表現(xiàn)上優(yōu)于現(xiàn)有技術(shù),不僅為Sim2Real和Real2Real數(shù)據(jù)擴(kuò)展帶來了新的思路,也為視頻編輯領(lǐng)域帶來了新的模型范式。TC-Light的論文和代碼均已開源,希望能夠相關(guān)領(lǐng)域帶來不同的思考和啟發(fā)。
項(xiàng)目主頁: https://dekuliutesla.github.io/tclight/
論文鏈接: https://arxiv.org/abs/2506.18904
代碼鏈接: https://github.com/Linketic/TC-Light





























