四倍無(wú)損壓縮Diffusion,6倍加速!僅需時(shí)間特征維護(hù) | TPAMI'25
不同于傳統(tǒng)的視覺(jué)模型,擴(kuò)散模型引入了時(shí)間變量,通過(guò)將時(shí)序特征融入模型去控制去噪過(guò)程。
香港科技大學(xué)、北京航空航天大學(xué)、莫納什大學(xué)、耶魯大學(xué)、清華大學(xué)和南洋理工大學(xué)聯(lián)合推出一個(gè)針對(duì)擴(kuò)散模型低精度無(wú)損量化的統(tǒng)一時(shí)間特征維護(hù)框架,以4bit的權(quán)重大小實(shí)現(xiàn)了目前無(wú)損條件下極限的擴(kuò)散模型訓(xùn)練后壓縮,同時(shí)實(shí)現(xiàn)了超過(guò)5.76倍真實(shí)硬件加速。

論文地址:https://arxiv.org/pdf/2407.19547
代碼地址:https://github.com/ModelTC/TFMQ-DM
這一發(fā)現(xiàn)再次將Diffusion壓縮推向全新的高度。
該工作目前已被TPAMI 2025接收,并收獲來(lái)自審稿人給予的Excellent和Award Quality的高度評(píng)價(jià)。

整體壓縮框架
Diffusion中的時(shí)間特征擾動(dòng)分析
研究人員首次對(duì)時(shí)間特征
進(jìn)行定義,同時(shí)發(fā)現(xiàn)這些時(shí)間特征相比于其他特征更加敏感,直接使用現(xiàn)有的量化算法會(huì)對(duì)于這些特征產(chǎn)生十分嚴(yán)重?cái)_動(dòng),從而破壞圖片生成質(zhì)量。
時(shí)間特征敏感性:研究人員發(fā)現(xiàn)對(duì)于時(shí)間特征和非時(shí)間特征施加同樣程度的擾動(dòng)(λ控制擾動(dòng)大小),前者圖像質(zhì)量相較于后者急劇下降;

時(shí)間特征擾動(dòng):基于這種敏感性分析,研究人員發(fā)現(xiàn)量化導(dǎo)致了明顯的時(shí)間特征誤差,尤其相較于非時(shí)間特征特征。并將這種時(shí)間特征錯(cuò)誤內(nèi)的擾動(dòng)現(xiàn)象稱(chēng)為時(shí)間特征擾動(dòng);

時(shí)間信息失配:時(shí)間特征擾動(dòng)改變了原始嵌入的時(shí)間信息。
具體來(lái)說(shuō),
旨在對(duì)應(yīng)于時(shí)間步長(zhǎng)t。然而,由于存在顯著的誤差,量化模型的
不再準(zhǔn)確地與t相關(guān)聯(lián),傾向于與
對(duì)應(yīng)的時(shí)間特征更為接近導(dǎo)致了該研究團(tuán)隊(duì)所說(shuō)的時(shí)間信息不匹配;

去噪軌跡偏離:時(shí)間信息不匹配傳遞了錯(cuò)誤的時(shí)間信息,因此導(dǎo)致圖像在去噪軌跡中對(duì)應(yīng)的時(shí)間位置發(fā)生了偏差,最終導(dǎo)致圖片不再按原軌跡去噪:
。
擾動(dòng)誘因分析

研究人員發(fā)現(xiàn)該擾動(dòng)主要由以下兩個(gè)原因造成:
不合適的重建對(duì)象:已有量化重建方法并未直接優(yōu)化時(shí)間特征,同時(shí)時(shí)間特征將會(huì)受到有限的校準(zhǔn)數(shù)據(jù)影響產(chǎn)生過(guò)擬合現(xiàn)象,如圖中Prev所示,其中Freeze代表凍結(jié)相關(guān)量化參數(shù);
忽略了時(shí)間特征相關(guān)模塊中的有限激活:由于輸入T是有限整數(shù),因此產(chǎn)生時(shí)間特征的模塊將僅產(chǎn)生有限且隨時(shí)間變化的激活,而已有量化策略均考慮分布層級(jí)優(yōu)化,忽略了對(duì)于此類(lèi)有限激活的擬合近似。
量化框架
基于以上的誘因分析研究人員提出了如下時(shí)間特征兩種維護(hù)策略以及一種自適應(yīng)選擇策略,在低bit量化下完美的保證了Diffusion模型的時(shí)間特征精度與圖像生成質(zhì)量:
基于時(shí)間信息塊的維護(hù)策略
時(shí)間信息塊:將時(shí)間特征生成相關(guān)模塊進(jìn)行整合得到時(shí)間信息塊:
;
時(shí)間信息意識(shí)重建:基于時(shí)間信息塊,研究人員提出了時(shí)間信息感知重建 (TIAR) 來(lái)應(yīng)對(duì)第一個(gè)誘因。
在重構(gòu)過(guò)程中,該塊的優(yōu)化目標(biāo)為
;
有限集校準(zhǔn):為了解決第二個(gè)誘因中有限集內(nèi)激活范圍寬泛的挑戰(zhàn),研究人員提出了有限集校準(zhǔn) (FSC) 用于激活量化。
這個(gè)策略為所有時(shí)間信息塊內(nèi)的每個(gè)激活使用T組量化參數(shù),例如激活x的量化參數(shù)可為
。
在時(shí)間步長(zhǎng)為t時(shí),x的量化函數(shù)可以表示為:
其中
分別為量化縮放因子和零偏移。
基于緩存的維護(hù)策略
進(jìn)一步考慮樣本獨(dú)立性與時(shí)間特征的有限性,每個(gè)下標(biāo)t和i對(duì)應(yīng)的特征在推理過(guò)程中保持不變,因此可以預(yù)先離線(xiàn)計(jì)算這些特征,并直接對(duì)其對(duì)應(yīng)的全精度特征優(yōu)化量化參數(shù),并將量化后的版本與其參數(shù)一起緩存,以解決相關(guān)問(wèn)題。
基于擾動(dòng)的選擇策略
以上兩種方法在不同時(shí)間步t和模塊索引i上優(yōu)化后的時(shí)間特征誤差存在差異,主要來(lái)源于它們優(yōu)化的參數(shù)集合和優(yōu)化方式的不同。
基于這一觀察,研究人員進(jìn)一步提出了一種擾動(dòng)的選擇策略,以更有效地緩解時(shí)間特征擾動(dòng)。
具體而言,自適應(yīng)得根據(jù)兩種方案所產(chǎn)生的誤差大小分別選擇對(duì)于每個(gè)時(shí)間特征更優(yōu)的維護(hù)策略。
實(shí)驗(yàn)結(jié)果
研究團(tuán)隊(duì)在DDIM,LDM,Stable Diffusion,Stable Diffusion-XL/-XL-turbo,F(xiàn)LUX.1-Schnell 和OpenSora系列模型上驗(yàn)證了無(wú)條件生成/分類(lèi)條件生成/文本條件/少步蒸餾/視頻生成下論文所提出的量化框架性能。

LDM系列生成對(duì)比結(jié)果,其中TM/CM/DS分別為論文所提出的兩種維護(hù)策略以及選擇策略
研究人員的方法在平均4/8 bit權(quán)重,8/32 bit激活時(shí),在所有評(píng)價(jià)指標(biāo)上實(shí)現(xiàn)了超過(guò)Q-Diffusion,PTQD等已有方法在對(duì)應(yīng)比特時(shí)的性能,且在大部分場(chǎng)景4bit結(jié)果超越已有方案在8-bit權(quán)重甚至于全精度模型的性能。
結(jié)果表明,該研究團(tuán)隊(duì)的框架率先在接近 4位的平均比特率下實(shí)現(xiàn)了 Diffusion無(wú)損的性能保證,推動(dòng)了Diffusion無(wú)訓(xùn)練量化的邊界。

Stable Diffusion以及Stable Diffusion-XL/-XL-turbo系列生成對(duì)比結(jié)果

FLUX.1-Schnell系列生成對(duì)比結(jié)果

OpenSora系列生成對(duì)比結(jié)果。該論文所提出的方法不只局限于Unet結(jié)構(gòu)以及圖像生成,在更先進(jìn)的DiT架構(gòu)以及視頻生成任務(wù)上也同樣具有明顯優(yōu)勢(shì)
由于現(xiàn)有指標(biāo)并不能完全反映高分辨率文生圖像效果優(yōu)劣,因此該團(tuán)隊(duì)研究人員還提供了大量可視化效果對(duì)比圖:

Stable Diffusion-XL-turbo上512px圖像生成效果圖,左為全精度,中間為Q-Diffusion,右側(cè)為論文所提出的方法

Stable Diffusion-XL上1024px圖像生成效果圖,左為全精度,中間為Q-Diffusion,右側(cè)為論文所提出的方法
除精度/可視化效果外,團(tuán)隊(duì)人員還在多種硬件設(shè)備上進(jìn)行了部署,包括Intel? Xeon? Gold 6248R 處理器,NVIDIA H800 GPU,NVIDIA Jetson Orin Nano以及iPhone 15 Pro Max。
相關(guān)實(shí)驗(yàn)均驗(yàn)證了該框架的卓越的推理加速和壓縮比,相比原始浮點(diǎn)模型實(shí)現(xiàn)了~4倍壓縮同時(shí)帶來(lái)了 1.98~5.76倍的無(wú)損加速。

Stable Diffusion以及Stable Diffusion-XL在各種硬件上上真實(shí)壓縮加速
總結(jié)
總的來(lái)說(shuō),基于時(shí)間特征維護(hù)選擇的校準(zhǔn)量化可確保 Diffusion的量化參數(shù)準(zhǔn)確保留原始時(shí)間信息。
廣泛的實(shí)驗(yàn)證明, 該研究團(tuán)隊(duì)所提出的框架在DDIM, LDM, Stable Diffusion, Stable Diffusion-XL/XL-turbo, FLUX.1-Schnell以及OpenSora等系列中實(shí)現(xiàn)了令人信服的精度提升,即使是 4 位寬,同時(shí)也實(shí)現(xiàn)了真實(shí)硬件部署加速。同時(shí)具有顯著的兼容性,可與各種Diffusion量化框架無(wú)縫集成。
同時(shí)該框架提供的顯著量化精度,有助于在資源受限的情況下進(jìn)行實(shí)際生產(chǎn)部署。





























