AIGC在天貓商品海報(bào)生成上的探索
靈感藝術(shù)家項(xiàng)目,旨在通過(guò)AIGC繪圖能力,聯(lián)合商家打造低門檻+高趣味性的宣傳海報(bào)設(shè)計(jì)大賽,本文分享我們的方案和優(yōu)化方向。建議對(duì)AIGC感興趣的工程、算法方向的同學(xué)閱讀。
一、項(xiàng)目背景
靈感藝術(shù)家項(xiàng)目,旨在通過(guò)AIGC繪圖能力,聯(lián)合商家打造低門檻+高趣味性的宣傳海報(bào)設(shè)計(jì)大賽,為新品進(jìn)行宣傳和造勢(shì)。同時(shí)也是為了給消費(fèi)者提供參與新品宣發(fā)的通道。

二、目標(biāo)拆解
GPT部分采用通義千問(wèn)大語(yǔ)言模型,詳見(jiàn)其技術(shù)文檔。本文重點(diǎn)介紹海報(bào)風(fēng)格的圖像生成部分,分為商品海報(bào)、皮克斯,二次元,寫(xiě)實(shí)四種風(fēng)格:




皮克斯、二次元、寫(xiě)實(shí)三個(gè)風(fēng)格,實(shí)現(xiàn)思路比較清晰,屬于標(biāo)準(zhǔn)的文生圖,基于MJ、SD都可以實(shí)現(xiàn)。分析MJ和SD的優(yōu)缺點(diǎn)的文章有很多,不做贅述,我們最終選擇SD作為文生圖的算法方案,核心在于SD開(kāi)源,可塑性強(qiáng)?;赿iffusers,我們重寫(xiě)了一套SD實(shí)現(xiàn),支持VAE、ControlNet、Lora、Embedings等功能,根據(jù)業(yè)務(wù)特點(diǎn),定制了warmup、auto_predict等能力。比較輕松的解決了這三個(gè)風(fēng)格的生成問(wèn)題。
算法的難點(diǎn)在于商品海報(bào)的風(fēng)格生成,品牌方要求商品高度還原,并且生成的海報(bào),像素清晰、細(xì)節(jié)豐富、具備高級(jí)感。要求是豐滿的,而現(xiàn)實(shí)是骨感的。商品細(xì)節(jié)復(fù)雜,特別是帶有文字時(shí),很難生成。并且繪圖靈感由用戶文字隨機(jī)輸入,出圖效果幾乎是不可控的。為此,我們進(jìn)行了大量調(diào)研,并做了一些優(yōu)化嘗試。
三、方案調(diào)研
以香奈兒5號(hào)香水為例,初步嘗試了4套方案。
方案一 SD + Outpainting
簡(jiǎn)述:固定商品位置,重繪商品之外的區(qū)域。
優(yōu)點(diǎn):不會(huì)影響香水的外觀。
缺點(diǎn):圖片中人物、背景與香水的位置關(guān)系很難控制,有比較明顯的違和感。

方案二 SD Inpainting + Reference Only
簡(jiǎn)述:以商品圖信息注入attention層中,來(lái)控制unet生成相似的圖像。
優(yōu)點(diǎn):可以完全保留預(yù)生成的背景。
缺點(diǎn):香水還原度低。

方案三 基于Reference的Diffusion算法
簡(jiǎn)述:基于一張參考商品圖,生成較相似的商品
代表:PBE, IP Adapter, Anydoor…
優(yōu)點(diǎn):泛化性強(qiáng),無(wú)需對(duì)每個(gè)商品單獨(dú)訓(xùn)練
缺點(diǎn):商品細(xì)節(jié)依舊不夠還原copy&paste過(guò)于嚴(yán)重



方案四 SD + Lora/Dreambooth
簡(jiǎn)述:微調(diào)模型,注入商品外貌信息
優(yōu)點(diǎn):商品外貌還原度較高,且出圖率較穩(wěn)定
缺點(diǎn):文字等細(xì)節(jié)還原度仍然不夠高;且細(xì)節(jié)部分越小,其扭曲失真程度就越嚴(yán)重

方案四最接近想要的效果,但距離我們的要求,還有很大的差距。
四、優(yōu)化方向
探索一 VAE增強(qiáng)
對(duì)LDM(SD的主要引用論文)模型的結(jié)構(gòu)進(jìn)行分析,初步懷疑細(xì)節(jié)還原不足的核心原因在于VAE從像素空間到隱空間相互轉(zhuǎn)換過(guò)程中,丟失了細(xì)節(jié)信息。

為了驗(yàn)證猜想,我們做了一個(gè)測(cè)試,對(duì)一張圖片進(jìn)行十次encoder和decoder操作,文字等圖像細(xì)節(jié)已經(jīng)開(kāi)始模糊。我們想了一個(gè)方法,對(duì)VAE丟失的信息進(jìn)行補(bǔ)償,還原度有比較可觀的增強(qiáng)。

但距離完美還原,依然還有差距。
探索二 圖像超分
既然細(xì)節(jié)難以還原,那么把細(xì)節(jié)放大,是否還原度就可以提升?為了驗(yàn)證這個(gè)猜想,我們做了如下的實(shí)驗(yàn)。
在256 * 256分辨率下,文字幾乎無(wú)法辨認(rèn)。

在512 512分辨率下,相對(duì)256 256有明顯改善,而且 2.X版本的還原度優(yōu)于1.X版本。

升級(jí)到SDXL后,文字還原度進(jìn)一步增強(qiáng)。

像素提升,還原度確實(shí)有提升。很自然的,我們想到可以在生成的圖像上,對(duì)文字等細(xì)節(jié)部分進(jìn)行超分,然后在refiner階段,訓(xùn)練專屬的 controlnet,進(jìn)一步提升還原度。

經(jīng)過(guò)多次調(diào)整,細(xì)節(jié)還原度能達(dá)到90%以上。但距離完美還原,依然還有一點(diǎn)差距。
探索三 貼圖
既然文字等細(xì)節(jié)非常難還原,那么是否可以直接把文字部分復(fù)制粘貼回去?

通過(guò)提取原始商品的文字區(qū)域,貼圖到生成商品的對(duì)應(yīng)區(qū)域,完美還原文字細(xì)節(jié)。
五、線上方案
經(jīng)過(guò)上述幾個(gè)方向的探索,初步解決了香水等商品的海報(bào)生成問(wèn)題,但對(duì)復(fù)雜圖文的商品依然很難還原,例如:

既要完美還原,又要增加泛化性,索性,全圖貼回去【狗頭】。方案如下:

- 離線模塊通過(guò)文生圖產(chǎn)生一個(gè)背景圖庫(kù)。
- 離線模塊預(yù)置多角度商品圖,解決商品角度的多樣性問(wèn)題。
- 從背景圖庫(kù)中選擇一張跟當(dāng)前商品最相關(guān)的圖作為引導(dǎo)圖。解決商品和背景不協(xié)調(diào)的問(wèn)題,提高出圖率。
- 由商品圖和背景圖一起,生成線框圖和商品白底圖以及對(duì)應(yīng)的mask。
- 通過(guò)Stable Diffusion+Canny Controlnet+Reference生成初步的商品海報(bào)。
- 使用SAM和LAMA抹除商品,防止后面貼圖時(shí),邊緣出現(xiàn)對(duì)不齊的情況。
- 將抹去商品的圖和步驟4中的商品白底圖、對(duì)應(yīng)的mask作為輸入,合成新的圖像。
- 提取步驟5中的生成商品的光影信息,投射到步驟7的商品上,生成最終的商品海報(bào)。
總結(jié)一下:
- 通過(guò)Copy&Paste的方式,保證無(wú)差別還原。
- 通過(guò)預(yù)置引導(dǎo)圖解決了完全隨機(jī)性,提高了出圖率。
- 通過(guò)兩步生成解決了倒影等問(wèn)題。圖像精美,具備高級(jí)感。
- 通過(guò)擦除重建以及圖像融合技術(shù),緩解了商品邊緣的毛刺問(wèn)題。
- 通過(guò)從生成圖上提取光影,映射到貼圖,解決了光影不和諧的問(wèn)題。
六、測(cè)試效果

七、線上效果

出圖率95%以上,基本每張圖都能看,大部分圖能抗打。A10 GPU上,單卡出圖速度3-5秒。
八、下一步探索方向
初步看,效果可以接受了,但依然還有一些可以提升的空間,比如:
如何進(jìn)一步提升復(fù)雜海報(bào)的生成效果,增加遮擋關(guān)系?

如何解決商品與背景的比例和諧,GLIGEN可能是答案?

貼圖總顯得不那么算法,是否有機(jī)會(huì)繼續(xù)提升VAE的能力,或者去掉VAE。Consistency Decoder可以試試?

最后,探索從未停止,AIGC永不眠。
九、引用
[1] IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models
[2] Paint by Example: Exemplar-based Image Editing with Diffusion Models
[3] AnyDoor: Zero-shot Object-level Image Customization
[4] High-Resolution Image Synthesis with Latent Diffusion Models
[5] SDXL: Improving Latent Diffusion Models for High-Resolution Image Synthesis
[6] GLIGEN: Open-Set Grounded Text-to-Image Generation
[7] ???https://github.com/openai/consistencydecoder??
十、團(tuán)隊(duì)介紹
我們是大淘寶FC技術(shù)智能策略團(tuán)隊(duì),負(fù)責(zé)手機(jī)天貓搜索、推薦、拍立享等業(yè)務(wù)研發(fā)和技術(shù)平臺(tái)建設(shè),綜合運(yùn)用搜推算法、機(jī)器視覺(jué)、AIGC等前沿技術(shù),致力于依靠技術(shù)的進(jìn)步支持場(chǎng)景的提效和產(chǎn)品的創(chuàng)新,為用戶帶來(lái)更好的購(gòu)物體驗(yàn)。
本文轉(zhuǎn)載自大淘寶技術(shù),作者:相國(guó)

















