精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型

發(fā)布于 2024-5-23 11:36
瀏覽
0收藏

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

文章鏈接:https://arxiv.org/pdf/2405.04312
github 鏈接:https://github.com/THUDM/Inf-DiT


擴(kuò)散模型在近年來的圖像生成中表現(xiàn)出了顯著的性能。然而,由于生成超高分辨率圖像(如 4096 × 4096)時(shí)內(nèi)存需求呈二次方增加,生成圖像的分辨率通常限制在 1024 × 1024。


本文提出了一種單向塊注意力機(jī)制,可以在推理過程中自適應(yīng)地調(diào)整內(nèi)存開銷并處理全局依賴關(guān)系。基于這個(gè)模塊,本文采用 DiT 結(jié)構(gòu)進(jìn)行上采樣,并開發(fā)了一種能夠?qū)Ω鞣N形狀和分辨率的圖像進(jìn)行上采樣的無限超分辨率模型。綜合實(shí)驗(yàn)表明,本文的模型在機(jī)器和人類評(píng)估中都達(dá)到了生成超高分辨率圖像的最新技術(shù)水平。與常用的 UNet 結(jié)構(gòu)相比,本文的模型在生成 4096 × 4096 圖像時(shí)可以節(jié)省超過 5 倍的內(nèi)存。

介紹

近年來,擴(kuò)散模型取得了迅速進(jìn)展,顯著推動(dòng)了圖像生成和編輯領(lǐng)域的發(fā)展。盡管有這些進(jìn)展,但仍然存在一個(gè)關(guān)鍵限制:現(xiàn)有圖像擴(kuò)散模型生成的圖像分辨率通常限制在 1024×1024 像素或更低,這在生成超高分辨率圖像時(shí)構(gòu)成了重大挑戰(zhàn)。而超高分辨率圖像在各種實(shí)際應(yīng)用中是不可或缺的,包括復(fù)雜的設(shè)計(jì)項(xiàng)目、廣告、海報(bào)和壁紙的制作等。


一種常用的生成高分辨率圖像的方法是級(jí)聯(lián)生成,即首先生成低分辨率圖像,然后應(yīng)用多個(gè)上采樣模型逐步提高圖像的分辨率。這種方法將高分辨率圖像的生成分解為多個(gè)任務(wù)。基于前一階段生成的結(jié)果,后一階段的模型只需進(jìn)行局部生成。在級(jí)聯(lián)結(jié)構(gòu)的基礎(chǔ)上,DALL-E2 和 Imagen 都能有效生成分辨率為 1024 的圖像。


對于上采樣到更高分辨率圖像的最大挑戰(zhàn)是顯著的 GPU 內(nèi)存需求。例如,如果在圖像推理中使用廣泛采用的 U-Net 架構(gòu)(如 SDXL,見下圖 2),觀察到隨著分辨率的增加,內(nèi)存消耗急劇上升。具體而言,生成一個(gè) 4096×4096 分辨率的圖像(包含超過 1600 萬個(gè)像素)需要超過 80GB 的內(nèi)存,這超出了標(biāo)準(zhǔn)的 RTX 4090 或 A100 顯卡的容量。此外,高分辨率圖像生成模型的訓(xùn)練過程加劇了這些需求,因?yàn)樗枰~外的內(nèi)存來存儲(chǔ)梯度、優(yōu)化器狀態(tài)等。

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

LDM 通過利用變分自編碼器(VAE)來壓縮圖像并在較小的潛在空間中生成圖像,從而減少了內(nèi)存消耗。然而,文中也強(qiáng)調(diào),過高的壓縮比會(huì)顯著降低生成質(zhì)量,嚴(yán)重限制了內(nèi)存消耗的減少。


4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)


基于這一算法,本文優(yōu)化了擴(kuò)散 Transformer(DiT),并訓(xùn)練了一個(gè)名為 Inf-DiT 的模型,該模型能夠?qū)Σ煌直媛屎托螤畹膱D像進(jìn)行上采樣。此外,設(shè)計(jì)了幾種技術(shù),包括提供全局圖像 embedding 以增強(qiáng)全局語義一致性,并提供 zero-shot 文本控制能力,以及通過交叉注意力機(jī)制提供所有相鄰的低分辨率(LR)塊以進(jìn)一步增強(qiáng)局部一致性。評(píng)估結(jié)果表明,Inf-DiT 在機(jī)器和人類評(píng)估中均顯著優(yōu)于其他高分辨率生成模型。

主要貢獻(xiàn)如下:

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)


  • 基于這些方法,訓(xùn)練了一個(gè)圖像上采樣擴(kuò)散模型 Inf-DiT,這是一種 700M 的模型,能夠?qū)Σ煌直媛屎托螤畹膱D像進(jìn)行上采樣。Inf-DiT 在機(jī)器評(píng)估(HPDv2 和 DIV2K 數(shù)據(jù)集)和人類評(píng)估中均達(dá)到了最新技術(shù)水平。
  • 設(shè)計(jì)了多種技術(shù)來進(jìn)一步增強(qiáng)局部和全局一致性,并提供靈活的文本控制的 zero-shot 能力。

方法

單向塊注意力 (UniBA)

生成超高分辨率圖像的關(guān)鍵障礙是內(nèi)存限制

隨著圖像分辨率的增加,網(wǎng)絡(luò)中對應(yīng)的隱藏狀態(tài)的大小呈二次方增長。例如,僅一層中形狀為 2048 × 2048 × 1280 的單個(gè)隱藏狀態(tài)就需要 20GB 的內(nèi)存,使得生成非常大的圖像變得異常艱難。如何避免在內(nèi)存中存儲(chǔ)整個(gè)圖像的隱藏狀態(tài)成為關(guān)鍵問題。


4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)


  • 塊之間的生成依賴關(guān)系是單向的,并且可以形成一個(gè)有向無環(huán)圖(DAG)。
  • 每個(gè)塊對其他塊只有少量的直接(一級(jí))依賴關(guān)系,因?yàn)閴K及其直接依賴塊的隱藏狀態(tài)需要同時(shí)保存在內(nèi)存中。


此外,為了確保整個(gè)圖像的一致性,還需要確保每個(gè)塊具有足夠大的感受野,以處理長程依賴關(guān)系。


根據(jù)上述條件和分析,本文選擇了一種高效的實(shí)現(xiàn)方式,即下圖 3 所示的單向塊注意力(UniBA)。對于每一層,每個(gè)塊直接依賴于三個(gè)一階相鄰塊:頂部的塊、左側(cè)的塊和左上角的塊。例如,如果本文采用了 Inf-DiT 的基礎(chǔ)架構(gòu) Diffusion Transformer(DiT)架構(gòu),則塊之間的依賴關(guān)系是注意力操作,其中每個(gè)塊的查詢向量與其左上角和本身的四個(gè)塊的鍵值向量進(jìn)行交互,如下圖 3 所示。

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

形式上,Transformer 中的 UniBA 過程可以表示為:

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)


需要注意的是,盡管每個(gè)塊在每層中只關(guān)注少量相鄰塊,但隨著特征層層傳播,塊可以間接與遠(yuǎn)處的塊交互,從而捕捉長短距離關(guān)系。本文的設(shè)計(jì)與自然語言模型 Transformer-XL 具有相似的精神,可以看作是本文的一維情況的特例。

使用 O(N)內(nèi)存消耗的推理過程

盡管本文的方法可以順序生成每個(gè)塊,但它不同于自回歸生成模型,在自回歸生成模型中,下一個(gè)塊依賴于前一個(gè)塊的最終輸出。在本文的模型中,只要它們的依賴塊的集合已經(jīng)生成,就可以并行生成任意數(shù)量的塊?;谶@一特性,本文實(shí)現(xiàn)了一個(gè)簡單但有效的推理過程。如上面圖 3 所示,本文一次生成 n×n 個(gè)塊,從左上到右下。生成一組塊后,本文丟棄不再使用的隱藏狀態(tài)(即 KV 緩存),并將新生成的 KV 緩存附加到內(nèi)存中。


4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)


在實(shí)際操作中,盡管對于不同的 n,圖像生成的總 FLOPs 保持不變,但由于操作初始化時(shí)間和內(nèi)存分配時(shí)間等開銷,當(dāng) n 增加時(shí),生成時(shí)間會(huì)減少。因此,在內(nèi)存限制允許的情況下,選擇最大的 n 是最優(yōu)的。

基本模型架構(gòu)

下圖 4 概述了本文模型 Inf-DiT 的架構(gòu)。該模型使用了類似 DiT 的主干結(jié)構(gòu),DiT 將視覺 Transformer(ViT)應(yīng)用于擴(kuò)散模型,并證明了其有效性和可擴(kuò)展性。與基于卷積的架構(gòu)(如 UNet)相比,DiT 僅使用注意力作為塊之間的交互機(jī)制,這使得單向塊注意力的實(shí)現(xiàn)變得方便。為了適應(yīng)單向塊注意力并增強(qiáng)上采樣性能,本文進(jìn)行了如下的幾項(xiàng)修改和優(yōu)化。

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

模型輸入

Inf-DiT 首先將輸入圖像劃分為多個(gè)不重疊的塊,然后將這些塊進(jìn)一步劃分為邊長等于 patch 大小的 patch。與 DiT 不同,考慮到壓縮損失(如顏色偏移和細(xì)節(jié)損失),Inf-DiT 在 RGB 像素空間中進(jìn)行 patch 劃分,而不是在潛在空間中。在超分辨率因子為 f 的情況下,Inf-DiT 首先將低分辨率 RGB 圖像條件上采樣 f 倍,然后在特征維度上將其與擴(kuò)散的噪聲輸入連接起來,再輸入到模型中。

位置編碼

與可以通過卷積操作感知位置關(guān)系的基于 UNet 的擴(kuò)散模型不同,Transformer 中的所有操作(包括自注意力和前饋神經(jīng)網(wǎng)絡(luò))都是置換不變函數(shù)。因此,基于 Transformer 的模型需要輔助輸入顯式位置信息以學(xué)習(xí) patch 之間的關(guān)系。正如最近在大型語言模型中的研究所示,相對位置編碼在捕捉單詞位置相關(guān)性方面比絕對位置編碼更有效,本文參考了旋轉(zhuǎn)位置編碼(RoPE)的設(shè)計(jì),該設(shè)計(jì)在長上下文生成中表現(xiàn)良好,并將其適配為二維形式用于圖像生成。具體來說,本文將隱藏狀態(tài)的通道分成兩半,一半用于編碼 x 坐標(biāo),另一半用于編碼 y 坐標(biāo),并在這兩個(gè)部分中應(yīng)用 RoPE。


本文創(chuàng)建了一個(gè)足夠大的 RoPE 位置編碼表,以確保在生成過程中滿足需求。為了確保模型在訓(xùn)練期間能看到位置編碼表的所有部分,本文采用了隨機(jī)起始點(diǎn):對于每個(gè)訓(xùn)練圖像,本文隨機(jī)分配一個(gè)位置(x,y)作為圖像的左上角,而不是默認(rèn)的(0,0)。


4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

全局和局部一致性

使用 CLIP 圖像 embedding 實(shí)現(xiàn)全局一致性
低分辨率(LR)圖像中的全局語義信息(如藝術(shù)風(fēng)格和物體材質(zhì))在上采樣過程中起著至關(guān)重要的作用。然而,與文本生成圖像模型相比,上采樣模型有一個(gè)額外的任務(wù):理解和分析低分辨率圖像的語義信息,這大大增加了模型的負(fù)擔(dān)。這在沒有文本數(shù)據(jù)進(jìn)行訓(xùn)練時(shí)尤其具有挑戰(zhàn)性,因?yàn)楦叻直媛蕡D像很少有高質(zhì)量的配對文本,使得這些方面對模型來說很難處理。


4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

使用鄰近 LR 交叉注意力實(shí)現(xiàn)局部一致性盡管將 LR 圖像與噪聲輸入連接起來已經(jīng)為模型學(xué)習(xí) LR 和 HR 圖像之間的局部對應(yīng)關(guān)系提供了良好的歸納偏置,但仍然可能存在連續(xù)性問題。原因在于,對于給定的 LR 塊,有多種上采樣的可能性,這需要結(jié)合多個(gè)鄰近 LR 塊進(jìn)行分析以選擇一個(gè)解決方案。假設(shè)上采樣僅基于其左側(cè)和上方的 LR 塊進(jìn)行,它可能會(huì)選擇一個(gè)與右側(cè)和下方的 LR 塊沖突的 HR 生成方案。那么,當(dāng)上采樣右側(cè)的 LR 塊時(shí),如果模型認(rèn)為符合其對應(yīng)的 LR 塊比與左側(cè)塊連續(xù)更重要,則會(huì)生成與先前塊不連續(xù)的 HR 塊。一個(gè)簡單的解決方案是將整個(gè) LR 圖像輸入到每個(gè)塊中,但當(dāng) LR 圖像的分辨率也很高時(shí),這樣做成本太高。


為了解決這個(gè)問題,本文引入了鄰近 LR 交叉注意力。在 Transformer 的第一層,每個(gè)塊對周圍的 3×3 LR 塊進(jìn)行交叉注意力,以捕捉附近的 LR 信息。本文的實(shí)驗(yàn)表明,這種方法顯著降低了生成不連續(xù)圖像的概率。值得注意的是,這個(gè)操作不會(huì)改變本文的推理過程,因?yàn)樵谏芍罢麄€(gè) LR 圖像是已知的。


本文進(jìn)一步設(shè)計(jì)了包括無類別指導(dǎo)的連續(xù)性、基于 LR 的噪聲初始化、QK 規(guī)范化等技術(shù)。

實(shí)驗(yàn)

在本節(jié)中,本文首先介紹 Inf-DiT 的詳細(xì)訓(xùn)練過程,然后通過機(jī)器和人類評(píng)價(jià)全面評(píng)估 Inf-DiT 的性能。結(jié)果表明,Inf-DiT 在超高分辨率圖像生成和上采樣任務(wù)中均優(yōu)于所有基線模型。最后,本文進(jìn)行消融研究,以驗(yàn)證本文設(shè)計(jì)的有效性。

訓(xùn)練細(xì)節(jié)

數(shù)據(jù)集
數(shù)據(jù)集由分辨率高于 1024×1024 且美學(xué)評(píng)分高于 5 的 LAION-5B 子集和來自互聯(lián)網(wǎng)的 10 萬張高分辨率壁紙組成。與之前的工作[20,23,30]相同,本文在訓(xùn)練期間使用固定大小的 512×512 分辨率的圖像裁剪。由于上采樣可以僅使用局部信息進(jìn)行,因此在推理時(shí)可以直接在更高分辨率下進(jìn)行,這對大多數(shù)生成模型來說并不容易。

數(shù)據(jù)處理
由于擴(kuò)散模型生成的圖像通常包含殘留噪聲和各種細(xì)節(jié)不準(zhǔn)確性,因此增強(qiáng)上采樣模型的魯棒性以解決這些問題變得至關(guān)重要。本文采用類似于 Real-ESRGAN 的方法,對訓(xùn)練數(shù)據(jù)中的低分辨率輸入圖像進(jìn)行各種降質(zhì)處理。


在處理分辨率高于 512 的訓(xùn)練圖像時(shí),有兩種替代方法:直接執(zhí)行隨機(jī)裁剪,或?qū)⑤^短的一側(cè)調(diào)整為 512 后再進(jìn)行隨機(jī)裁剪。直接裁剪方法保留了高分辨率圖像中的高頻特征,而調(diào)整后裁剪方法則避免了頻繁裁剪出單色背景區(qū)域,這對模型的收斂性不利。因此,在實(shí)踐中,本文隨機(jī)選擇這兩種處理方法中的一種來裁剪訓(xùn)練圖像。

訓(xùn)練設(shè)置
在訓(xùn)練期間,本文設(shè)置塊大小為 128,patch 大小為 4,這意味著每個(gè)訓(xùn)練圖像被分成 4×4 個(gè)塊,每個(gè)塊有 32×32 個(gè) patch。本文采用 EDM 框架進(jìn)行訓(xùn)練,并將上采樣因子設(shè)置為 4 倍。由于上采樣任務(wù)更關(guān)注圖像的高頻細(xì)節(jié),本文調(diào)整了訓(xùn)練噪聲分布的均值和標(biāo)準(zhǔn)差為-1.0 和 1.4。為了解決訓(xùn)練期間的溢出問題,本文使用了具有更大數(shù)值范圍的 BF16 格式。本文的 CLIP 模型是一個(gè)在 Datacomp 數(shù)據(jù)集上預(yù)訓(xùn)練的 ViT-L/16。由于 CLIP 只能處理 224×224 分辨率的圖像,本文首先將低分辨率圖像調(diào)整為 224×224,然后將其輸入到 CLIP 中。

機(jī)器評(píng)價(jià)

在這部分中,本文對 Inf-DiT 在超高分辨率圖像生成任務(wù)上與最先進(jìn)方法進(jìn)行定量比較?;€包括兩大類高分辨率生成:1. 直接高分辨率圖像生成,包括 SDXL 的直接推理、MultiDiffusion、ScaleCrafte 等;2. 基于超分辨率技術(shù)的高分辨率圖像生成,包括 BSRGAN、DemoFusion 等。本文采用 FID(Fréchet Inception Distance)來評(píng)估超高分辨率生成的質(zhì)量,這在圖像生成任務(wù)中廣泛用于評(píng)估圖像的感知質(zhì)量。為了進(jìn)一步驗(yàn)證本文模型的超分辨率能力,本文還將其與經(jīng)典的超分辨率模型在典型超分辨率任務(wù)上進(jìn)行了基準(zhǔn)測試。

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

超高分辨率生成本文使用 HPDv2 的測試集進(jìn)行評(píng)估。它包含 3200 個(gè)提示,并分為四個(gè)類別:“動(dòng)畫”、“概念藝術(shù)”、“繪畫”和“照片”。這允許對模型在各個(gè)領(lǐng)域和風(fēng)格中的生成能力進(jìn)行全面評(píng)估。本文在兩個(gè)分辨率上進(jìn)行測試:2048x2048 和 4096x4096。對于基于超分辨率的模型,本文首先使用 SDXL 生成 1024x1024 分辨率的圖像,然后在沒有文本的情況下對其進(jìn)行上采樣。本文使用 BSRGAN 的 2× 和 4× 版本分別進(jìn)行 2048x2048 和 4096x4096 的生成。盡管 Inf-DiT 是在 4× 上采樣的設(shè)置下進(jìn)行訓(xùn)練的,但本文發(fā)現(xiàn)它在較低的上采樣倍數(shù)下也能很好地泛化。因此,對于 2048x2048 的生成,本文直接將 LR 圖像從 1024x1024 調(diào)整為 2048x2048,并與噪聲輸入連接起來。本文從 LAION-5B 中隨機(jī)選擇了 3200 張 2048x2048 和 4096x4096 的圖像作為真實(shí)圖像的分布。


4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)


如下表 2 所示,本文的模型在所有指標(biāo)上均達(dá)到了最先進(jìn)水平。這表明,作為一個(gè)超分辨率模型,本文的模型不僅在任意尺度上表現(xiàn)出色,而且在最大限度地保留全局和詳細(xì)信息的同時(shí),還能恢復(fù)與原始圖像非常接近的結(jié)果。

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

人類評(píng)價(jià)

為了進(jìn)一步評(píng)估 Inf-DiT 并更準(zhǔn)確地從人類視角反映其生成質(zhì)量,本文進(jìn)行了人類評(píng)價(jià)。比較設(shè)置與上節(jié)中相同,不過本文排除了 MultiDiffusion 和 Direct Inference 因其非競爭性的結(jié)果。對于每個(gè)類別,本文隨機(jī)選擇了十組比較集,每組集合包含了四個(gè)模型的輸出,共計(jì) 40 組形成了人類評(píng)價(jià)數(shù)據(jù)集。為了保證公平性,在每個(gè)比較集中本文對模型輸出的順序進(jìn)行了隨機(jī)化。人類評(píng)估者被要求根據(jù)三個(gè)標(biāo)準(zhǔn)評(píng)估模型:細(xì)節(jié)真實(shí)性、全局連貫性和與原始低分辨率輸入的一致性。每位評(píng)估者平均收到 20 組圖像。在每個(gè)集合中,評(píng)估者需要根據(jù)三個(gè)標(biāo)準(zhǔn)對由四個(gè)模型生成的圖像進(jìn)行從高到低的排名。


本文最終收集了 3600 組比較。如下圖 7 所示,本文的模型在所有三個(gè)標(biāo)準(zhǔn)中均優(yōu)于其他三種方法。值得注意的是,其他三種模型中的每一種在至少一個(gè)評(píng)估標(biāo)準(zhǔn)上排名相對較低,而 Inf-DiT 在所有三個(gè)標(biāo)準(zhǔn)上的得分都最高:細(xì)節(jié)真實(shí)性、全局連貫性和與低分辨率輸入的一致性。這表明本文的模型是唯一能夠在高分辨率生成和超分辨率任務(wù)中同時(shí)表現(xiàn)出色的模型。

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

迭代上采樣

由于本文的模型可以對任意分辨率的圖像進(jìn)行上采樣,測試模型是否能夠迭代上采樣自身生成的圖像是一個(gè)自然的想法。在這項(xiàng)研究中,本文在一張 322 分辨率的圖像上進(jìn)行實(shí)驗(yàn),通過三次迭代上采樣,將其生成一張 2048x2048 分辨率的圖像,即 64 倍放大。下圖 8 展示了這個(gè)過程的兩個(gè)案例。在第一個(gè)案例中,模型成功地在三個(gè)階段的上采樣后生成了一張高分辨率圖像。它在不同分辨率的上采樣中生成了不同頻率的細(xì)節(jié):臉部輪廓、眼球形狀和個(gè)別睫毛。然而,模型很難糾正在早期階段生成的不準(zhǔn)確性,導(dǎo)致錯(cuò)誤的積累。第二個(gè)樣本展示了這個(gè)問題。本文將這個(gè)問題留給未來的工作。

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

消融研究

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

相關(guān)工作

擴(kuò)散圖像生成

擴(kuò)散模型已經(jīng)成為圖像生成領(lǐng)域的焦點(diǎn),近年來取得了一系列突破性進(jìn)展。最初于 2015 年引入,并通過諸如 DDPM 和 DDIM 等工作進(jìn)一步發(fā)展,這些模型利用隨機(jī)擴(kuò)散過程,概念化為馬爾可夫鏈,將簡單的先驗(yàn)分布(如高斯噪聲)轉(zhuǎn)化為復(fù)雜的數(shù)據(jù)分布。這一方法在生成的圖像質(zhì)量和多樣性方面取得了令人印象深刻的成果。


近期的增強(qiáng)顯著提升了擴(kuò)散模型的生成能力。CDM 創(chuàng)建了一個(gè)級(jí)聯(lián)生成 pipeline,其中包括多階段的超分辨率模型,可應(yīng)用于大型預(yù)訓(xùn)練模型。引入潛在擴(kuò)散模型(LDMs)代表了一個(gè)重要的擴(kuò)展,它結(jié)合了潛在空間,提升了效率和可擴(kuò)展性。除此之外,網(wǎng)絡(luò)架構(gòu)的優(yōu)化也取得了顯著進(jìn)展。擴(kuò)散 Transformer(DiT)的出現(xiàn)取代了 U-Net,使用 ViT 進(jìn)行噪聲預(yù)測。

圖像超分辨率

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

這里 D 和 F 分別表示退化過程和超分辨率模型。δ和θ 代表參數(shù)。


近年來,盲目 SR 一直是主要關(guān)注的焦點(diǎn):其中退化過程是未知的且可學(xué)習(xí)的。這一視角導(dǎo)致了有效的建模技術(shù)的發(fā)展,例如 BSRGAN 和 Real-ESRGAN。最近,基于擴(kuò)散的 SR 方法取得了令人興奮的結(jié)果。這些工作專注于對預(yù)訓(xùn)練的文本到圖像擴(kuò)散模型進(jìn)行微調(diào),以利用其優(yōu)秀的生成能力。具體來說,DiffBir 在預(yù)訓(xùn)練的穩(wěn)定擴(kuò)散模型上使用了 ControlNet,而 PASD 通過執(zhí)行像素感知的交叉注意力來增強(qiáng)它。這兩種方法在固定分辨率超分辨率方面取得了相當(dāng)大的成功,但不能直接用于更高的分辨率。

超高分辨率圖像上采樣器

目前,圖像生成方法在生成超高分辨率圖像方面存在著內(nèi)存限制和訓(xùn)練效率問題。在這種情況下,MultiDiffusion 和 Mixture of Diffusers 將多個(gè)擴(kuò)散生成過程綁定在一起,通過將圖像劃分為重疊的塊,分別處理每個(gè)塊,然后將它們拼接在一起,旨在保持塊之間的連續(xù)性。然而,由于它們僅使用局部加權(quán)平均進(jìn)行聚合,導(dǎo)致了交互效率低下,使得很難確保圖像的全局一致性。


鑒于這一問題,DemoFusion 和 ScaleCrafter 采用了擴(kuò)張策略,包括擴(kuò)張采樣和擴(kuò)張卷積核,旨在獲取更多的全局信息。這些方法確實(shí)在全局語義水平上取得了改進(jìn),而無需額外的訓(xùn)練。然而,訓(xùn)練和生成之間的巨大差異導(dǎo)致這些方法很容易產(chǎn)生不合邏輯的圖像。

Inf-DiT 能夠?qū)θ魏紊赡P蜕傻膱D像執(zhí)行上采樣,在這里展示了更多的情況。

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

4倍內(nèi)存效率,生成和超分雙SOTA!清華&智譜AI發(fā)布最新Inf-DiT模型-AI.x社區(qū)

結(jié)論

在這項(xiàng)工作中,本文觀察到生成超高分辨率圖像的主要障礙是模型隱藏狀態(tài)占用了大量內(nèi)存。基于此,本文提出了一種單向塊注意力機(jī)制(UniBA),它可以通過在塊之間進(jìn)行批量生成來降低空間復(fù)雜度。利用 UniBA,本文訓(xùn)練了 Inf-DiT,這是一種 4 倍內(nèi)存效率的圖像上采樣器,在生成和超分辨率任務(wù)中均取得了最先進(jìn)的性能。


本文轉(zhuǎn)自  AI生成未來 ,作者:Zhuoyi Yang等


原文鏈接:??https://mp.weixin.qq.com/s/UbQSxFHDXowQmwAx1PSJ9w??

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
91牛牛免费视频| 中文字幕日韩精品有码视频| 欧美日韩成人免费视频| 十九岁完整版在线观看好看云免费| 久久精品综合| 美女福利精品视频| 男生草女生视频| 欧美成年网站| 在线免费视频一区二区| 人妻无码一区二区三区四区| 日韩一区二区三区中文字幕| 国产真实乱对白精彩久久| 4388成人网| 免费国产羞羞网站美图| 久久99国产精品视频| 欧美一区三区二区| www.xxx亚洲| 三级资源在线| 国产精品久久久久久久久久免费看 | 91亚洲精华国产精华| 西西44rtwww国产精品| 亚洲精品久久久| 伊是香蕉大人久久| 少妇户外露出[11p]| 久久国产精品美女| 欧美日韩中文字幕一区二区| 欧美日韩在线一| 色女人在线视频| 中文字幕一区二区在线观看| 欧美另类视频在线| 欧美熟妇交换久久久久久分类| 久久99精品久久久久久动态图| 欧美在线中文字幕| 精品91久久久| 亚洲人妖在线| 欧美精品videosex性欧美| 日本高清一二三区| 婷婷综合久久| 日韩中文综合网| www色com| 国模吧精品视频| 亚洲精品综合久久中文字幕| 国产女人18毛片水真多18| 一区二区三区四区高清视频 | av丝袜天堂网| 3d欧美精品动漫xxxx无尽| 欧美日韩中文字幕在线视频| 亚洲激情免费视频| 成人影院www在线观看| 中文字幕日韩av资源站| 亚洲一区三区视频在线观看| yiren22亚洲综合伊人22| 久久精品一区二区三区不卡| 久久久影院一区二区三区| 手机在线不卡av| 99久久夜色精品国产网站| 国产精品视频福利| 亚洲av综合色区无码一二三区| 国产乱码精品一区二区三区忘忧草| 成人免费自拍视频| 999久久久久久| 成人做爰69片免费看网站| 成人91视频| 天天干天天草天天射| 99久久久国产精品免费蜜臀| 国产综合欧美在线看| 天天操天天射天天舔| 91啪亚洲精品| 天天综合色天天综合色hd| 在线看av的网址| 亚洲伦在线观看| 欧美一级欧美一级| 成人av观看| 欧美另类高清zo欧美| 色哟哟免费视频| 欧美高清hd| 亚洲精品成a人在线观看| 动漫精品一区二区三区| 欧美人与牛zoz0性行为| 日韩亚洲成人av在线| 美女福利视频在线观看| 一本一道久久综合狠狠老精东影业| 日本一本a高清免费不卡| 中文字幕av影视| 高清国产午夜精品久久久久久| 久久国产精品免费一区| 在线播放日本| 亚洲不卡在线观看| 密臀av一区二区三区| 久久wwww| 国产亚洲精品高潮| 久久久香蕉视频| 日韩成人免费在线| 97在线中文字幕| 国产一级二级三级在线观看| 亚洲精品免费电影| 国产aaa一级片| 国产视频一区二| 亚洲美女在线观看| 欧美日韩亚洲国产另类| 日本美女一区二区| 国产不卡一区二区在线观看| 成年人在线观看视频| 亚洲成人综合网站| 亚洲精品手机在线观看| 老牛国内精品亚洲成av人片| 日日骚久久av| 国产精品777777| 丁香天五香天堂综合| 亚洲国产欧美日韩| 新版的欧美在线视频| 日韩精品一区二区在线| 日本一道本视频| 国产精品五区| 99在线高清视频在线播放| 亚洲成人影院麻豆| 色综合天天视频在线观看| 日本少妇激三级做爰在线| 国产一区二区电影在线观看| 91精品国产高清久久久久久91| 国产农村妇女毛片精品| 亚洲国产精品激情在线观看| 1024av视频| 哺乳挤奶一区二区三区免费看 | 男女视频在线| 欧美美女bb生活片| 欧美激情 一区| 久久精品一区二区国产| 国产一区二区在线网站| 欧美人体视频xxxxx| 欧美电影影音先锋| 欧美精品日韩在线| 久久久久久黄| 免费在线观看一区二区| 免费看男女www网站入口在线| 日韩欧美不卡在线观看视频| 精品国产视频在线观看| 久久aⅴ国产欧美74aaa| 亚洲电影免费| 成人在线免费| 神马国产精品影院av| 一区二区视频播放| 国产精品三级在线观看| www.天天射.com| 成人中文在线| 国产狼人综合免费视频| 在线观看免费黄色| 欧美精品一二三| 熟女av一区二区| 国产精品一级二级三级| 九一免费在线观看| 亚洲性视频在线| 欧美极品在线播放| 四虎在线视频免费观看| 狠狠躁夜夜躁人人躁婷婷91| 中文字幕在线观看网址| 久久精品日产第一区二区| 区一区二区三区中文字幕| 欧美性理论片在线观看片免费| 亚洲欧美综合精品久久成人| 国产情侣免费视频| 中文字幕亚洲综合久久菠萝蜜| 99视频在线观看视频| 国内精品福利| 欧美日韩高清免费| 精品久久99| 欧美精品18videosex性欧美| 天堂√在线中文官网在线| 色噜噜狠狠一区二区三区果冻| 久久精品国产亚洲AV成人婷婷| 国产精品一区二区三区四区| 成人免费视频91| 国产伦精品一区二区三区视频| 国产精品视频男人的天堂| 国产日产一区二区| 亚洲第一页在线| 中文字幕日韩免费| 亚洲欧美日韩一区二区 | 在线观看 亚洲| 国产精品久久影院| 91超薄肉色丝袜交足高跟凉鞋| 亚洲一区成人| 中文字幕欧美日韩一区二区三区 | 午夜不卡影院| www.久久色.com| 欧美熟妇乱码在线一区| 在线免费观看日本欧美| 欧美成人精品一区二区免费看片| 97超碰欧美中文字幕| 免费成年人高清视频| 一区二区三区四区五区在线| 婷婷精品国产一区二区三区日韩| 三级欧美日韩| 国产精品久久婷婷六月丁香| 草莓视频丝瓜在线观看丝瓜18| 国产亚洲欧美日韩美女| 肥臀熟女一区二区三区| 欧美在线制服丝袜| 日本在线免费观看| 亚洲欧洲99久久| 亚洲永久精品ww.7491进入| 国产精品亚洲第一| 日本熟妇人妻中出| 日韩香蕉视频| 日本天堂免费a| 久久国产综合| 农村寡妇一区二区三区| 精品一区视频| 国产精品直播网红| 中文在线资源| 欧美精品video| a视频在线观看免费| 伊人av综合网| 日韩有码电影| 日韩成人xxxx| 亚洲a视频在线| 欧美一级欧美三级| 中文字幕在线播出| 91久久精品一区二区| 天海翼一区二区| 夜夜嗨av一区二区三区| 国产传媒免费在线观看| 国产欧美精品区一区二区三区| 亚洲av片不卡无码久久| 成人精品免费看| 伊人av在线播放| 国产一区二区在线看| 久久久久久久久久久久久久久国产| 葵司免费一区二区三区四区五区| 日本在线xxx| 在线日韩中文| 国产中文字幕乱人伦在线观看| 午夜日韩电影| www国产无套内射com| 在线成人超碰| 欧美性受黑人性爽| 人人狠狠综合久久亚洲婷| 欧洲成人一区二区| 国产伦精品一区二区三区视频 | 风间由美久久久| 日韩成人视屏| 97久久天天综合色天天综合色hd| 奇米一区二区| 97在线中文字幕| 国产图片一区| 久草精品电影| 欧美精品第一区| 日韩中文一区二区三区| 日韩精品网站| 久久久一二三四| 欧美激情1区2区| 丝袜人妻一区二区三区| 亚洲美女黄网| 青青在线视频观看| 日本最新不卡在线| 亚洲免费999| 国产一区二区三区不卡在线观看 | 日韩欧美一级| 国产伦视频一区二区三区| 欧美激情网址| 先锋影音亚洲资源| 羞羞色午夜精品一区二区三区| 亚洲高潮无码久久| 亚洲精品婷婷| 国产精品欧美激情在线观看| 日韩黄色一级片| 精品国产鲁一鲁一区二区三区| 国产成a人亚洲精| av鲁丝一区鲁丝二区鲁丝三区| 久久久久国产一区二区三区四区| 少妇av片在线观看| 一区二区三区欧美| 在线观看黄网站| 欧美日韩在线播放| www.亚洲黄色| 亚洲欧美日本另类| 日本最新在线视频| 国内精品模特av私拍在线观看| 都市激情亚洲一区| 91在线播放国产| 女同久久另类99精品国产| 日韩女优中文字幕| 欧美日韩免费| 丰满少妇在线观看| 国产成人精品免费看| 亚洲成人网在线播放| 亚洲欧美日韩中文播放| 国产一级片毛片| 91精品国产综合久久久久久 | 日韩中文字幕免费看| 手机在线免费看av| 国产成人精品久久亚洲高清不卡| 精品国产乱码一区二区三区| 久久精彩视频| 午夜精品久久久久99热蜜桃导演| 99久久久无码国产精品6| 国产在线不卡一区| 亚洲精品视频久久久| 一区二区三区蜜桃网| 真实的国产乱xxxx在线91| 欧美大胆人体bbbb| 中文字幕在线免费| 57pao精品| 日韩三级不卡| 亚洲激情一区二区| 国产视频久久| 好吊操视频这里只有精品| 中文字幕+乱码+中文字幕一区| 福利一区二区三区四区| 欧美日高清视频| 久久久资源网| 91精品国产高清久久久久久91| 日韩精品中文字幕吗一区二区| 亚洲高清视频一区| 美女被久久久| 亚洲永久无码7777kkk| 一区二区三区免费| 国产精品伊人久久 | 无码人妻精品中文字幕| 欧美日韩免费网站| 蜜桃视频成人| 水莓100在线视频| 欧美精品免费在线观看| 成人在线视频免费| 日韩精品无码一区二区三区| 亚洲作爱视频| 亚洲午夜久久久久久久久| 亚洲乱码精品一二三四区日韩在线 | 色哟哟在线观看| 久久男人的天堂| 97久久综合精品久久久综合| 日本在线视频www色| 久久丁香综合五月国产三级网站| 欧洲av一区二区三区| 色综合久久久久| 欧美精品a∨在线观看不卡| 91黄色8090| 日本妇女一区| 黄www在线观看| 久久综合九色综合欧美亚洲| 800av免费在线观看| 日韩禁在线播放| 亚洲淫成人影院| 欧美二区在线看| 丝袜亚洲另类欧美| 女人黄色一级片| 欧美日韩久久一区二区| 在线视频自拍| 91久久久久久久久久久久久| 一区二区在线| 麻豆tv在线观看| 亚洲18色成人| 水中色av综合| 国产美女精彩久久| 国产精品videosex性欧美| 欧美精品色视频| 亚洲综合色噜噜狠狠| 可以免费看毛片的网站| 欧美有码在线观看| 日本一区二区免费高清| 成人精品视频99在线观看免费| 婷婷色在线视频| 色综合色综合久久综合频道88| 911亚洲精品| 国产三区在线视频| 国产精品卡一卡二| 亚洲国产综合网| 欧美在线日韩在线| 成人av资源电影网站| 欧美精品 - 色网| 亚洲一卡二卡三卡四卡无卡久久 | 国产精品久一| 国产精品www在线观看| 91亚洲男人天堂| 亚洲天堂网在线视频| 久久97精品久久久久久久不卡| 欧美人与动xxxxz0oz| 色www免费视频| 午夜私人影院久久久久| 国产精品久久久久久久龚玥菲| 91亚洲精华国产精华| 欧美亚洲网站| 性欧美疯狂猛交69hd| 日韩久久免费电影| 亚洲电影二区| 97国产精东麻豆人妻电影| 国产精品久久精品日日| 六月丁香综合网| 国产精品一区二区久久国产| 欧美视频成人| 在线观看日本黄色| 亚洲国产成人精品久久| 玖玖精品在线| 夫妻免费无码v看片| 亚洲视频在线一区二区| 猫咪在线永久网站| 丁香五月网久久综合| 免费精品视频最新在线| 日韩毛片在线播放| 欧美成年人视频网站|