AI也可以腦補畫面了嗎？

作者：阿里技術 2021-12-06 08:03:24

一段描述性的文字、配上風格參考和局部的畫面信息，AI有可能快速、準確的“腦補”出完整的圖像嗎?在深度學習頂會NeurIPS 2021上，阿里巴巴達摩院智能計算實驗室提出了一種全新的多模態預訓練架構，M6-UFC 來統一任意數量的多模態控制用于靈活的條件圖像生成。

????一導讀

一段描述性的文字、配上風格參考和局部的畫面信息，AI有可能快速、準確的“腦補”出完整的圖像嗎?在深度學習頂會NeurIPS 2021上，阿里巴巴達摩院智能計算實驗室提出了一種全新的多模態預訓練架構，M6-UFC 來統一任意數量的多模態控制用于靈活的條件圖像生成。實驗表明，M6-UFC 可應用于服裝設計、促進智能制造的發展和個性化服裝定制。

在犀牛智能制造的業務中，M6為淘寶運動時尚品牌設計“元生款”服裝，幫助降低人力投入、時間成本和整個設計流程的碳排放。根據估算，通過M6先制作初始樣本，并結合犀牛環保面料如天然纖維材質的研發應用，就能在設計-生產這件印花T恤的過程中減少30%以上的碳排放。利用M6模型和犀牛智造，現在賣出一件服裝大約能減排0.35千克二氧化碳;賣出50件就相當于種下一棵樹。

二文章框架

1 AI的想象力?

告訴你一些信息，你能想象整件衣服是什么樣子嗎?

比如：要和下面↓↓領子一模一樣：

這個圖案設計很好看，想要一件類似的：

再比如，一件 “真絲紗網拼接A字連衣裙”。

下面揭曉答案：

其實，這些設計都是由一個神經網絡完成。各種衣服想怎么組合，就怎么組合，例如下圖的西裝+印花t恤，短裙+襯衣等等;花紋，顏色，材質都可以都可以很好的融合。

不用擔心撞衫，同樣的控制信號，想生成多少款就生成多少款：

2 一個多模態控制下的圖像生成模型

以上的這些都來自一個叫M6-UFC的模型，可以使用任意數量的文本、圖像作為控制信號，生成高質量的圖像，還能對細節進行保留和編輯。

研究出自阿里巴巴達摩院和清華大學，相關論文已被NeurIPS 2021接收。

在此之前，大多數的圖像生成編輯方法，通常只使用一種控制信號。例如，在圖像inpainting和outpainting任務，會給定圖像的一部分，在風格遷移任務中，會給一張風格圖像，在文本生成圖像中，會給一段描述圖片的話。

M6-UFC作為一種全新的方法，第一次將多種控制信號統一起來，并可以對任意數量的控制信號進行組合來生成圖像。

例如在下面這張圖中，就同時輸入了文本“翻領墊肩橙色帶口袋西裝大衣”，圖像“翻領”和要保留的部分“米色寬松下擺”：

而M6-UFC會根據控制信號，生成滿足所有要求的圖像。

M6-UFC的核心思想在于非自回歸的訓練框架，兼容了之前架構(例如 DALL·E，VQGAN)不兼容的圖像控制和保留控制信號。

非自回歸生成的好處不止于此，還大大提高了生成速度，并增強了圖像的整體一致性。

模型的輸入是一個24層的M6(一種Transformer模型)，它的輸入分為四部分：第一部分是兩個特殊的評測token [REL]和[FDL]，用于評測控制信號與生成圖像的相關性，以及生成圖像的真實性，用于后續的PNAG算法;第二部分是文本控制輸入，即任意長度的單詞序列;第三部分是視覺控制輸入，這里我們將視覺控制的圖像通過第一階段的codebook轉化成了一個code序列，而我們進一步支持多個視覺控制，用[SEP]將多個控制的code序列劃分開;最后一部分是待生成的圖像，它同樣被轉化為一個code序列，而在訓練或者NAR生成中，這個code序列被部分或者全部mask。

3 訓練過程

研究人員設計了三個任務來訓練模型，主任務為Masked Sequence Modeling(MSM)，同時有兩個評測任務 Relevance Estimation和Fidelity Estimation。

任務一：Masked Sequence Modeling

這個任務相似于BERT中的masked language modeling。作為圖像領域最早運用離散code來做MLM訓練的模型之一，M6-UFC和同期的工作BEIT相比，其mask策略更加完善因此也能支持更復雜的控制類型。M6-UFC中有如下四種策略：1. 隨機決定mask的code數量，然后隨機采樣需要mask的位置;2. 全部mask;3. 隨機選擇圖像中任意大小的box區域，然后對該區域進行mask;4. 隨機選擇圖像中任意大小的box區域，然后對該區域外的部分進行mask。

在此之上，M6-UFC還將mask策略進一步拓展到了多種控制模態，對于文本控制(TC)和視覺控制(VC)進行四種組合(保留控制被自然地包含在mask的訓練過程中)：兩者兼有，只有一種，或者兩者皆無。因為數據集中沒有提供視覺控制-目標圖像對，而只有文本-圖像對，研究者們截取目標圖像中的一個或者多個區域來作為訓練過程中的數據額控制。

任務二：Relevance Estimation

將token [REL]的特征輸入到一個線性分類器進行二元分類，判斷控制信號和當前生成圖像的相關性。這里的負樣本通過將兩個訓練樣例的控制信號進行互換。

任務三：Fidelity Estimation

將token [FDL]的特征輸入到一個線性分類器進行二元分類，判斷生成圖像是不是真實的。由于數據集中不存在”不真實“的負樣本，我們在訓練幾個epoch后用M6-UFC進行text-to-image生成，把合成的圖像作為負樣本。

在模型推導階段，研究人員提出了一種漸進式的非自回歸生成方法PNAG。在每一次迭代中，在mask階段都產生5個不同的輸入樣例，然后在predict階段產生5個生成圖像，以及這5張圖的relevance和fidelity分數。選擇relevance和fidelity分數最高的(以1:1的比例加權)圖像作為下一步的輸入圖像。PNAG算法可以給用兩個評測器指導非自回歸迭代的生成方向，而不是”無意識“地進行迭代。

隨著迭代的進行，圖像與文本的相關性和圖像質量會越來越高。紅框的是具有最高分的圖像，也就是最終結果，這和我們人眼的認知基本相符，如下圖所示：

4 測試結果

真實效果如何?

研究人員在標準數據集上與傳統的GAN-based方法進行比較，發現在FID和LPIPS上都取得了當前最好的效果。

之后，研究人員將M6-UFC和VQGAN進行詳細的比較，在自動評測上基本取得更好的效果，人工評測上更是大幅領先。

與此同時，M6-UFC所花的時間不到VQGAN的10%!

再來看看生成的圖像，一個反事實例子中(男式牛仔風格的蕾絲裙)，VQGAN生成了一條正常的牛仔褲，而UFC-BERT生成了一件現實不存在的服飾，一條具有蕾絲下擺，男士褲襠設計的牛仔裙。

使用文本控制(TC)和保留控制(PC):

使用文本控制(TC)和視覺控制(VC)

文章也討論了PNAG算法的有效性，產生三個消解模型，其中PNAG(w/o. REL)去掉了相關性評測器，PNAG(w/o. FDL)去掉了真實性評測器，而MNAG是原始的Mask-Predict算法。同時，在PNAG中，并行迭代的數量B也是個重要的超參數，默認為5，研究者們將其也設置為1和10進行實驗。消解結果如下，可以發現兩個評測器都對圖像生成的質量有很大幫助，而B設置的越大，PNAG迭代時搜索的空間越來，圖像質量也就越好。

5 前景與展望

本文介紹了一種新架構 M6-UFC，以統一任意數量的多模態控制，以實現靈活的條件圖像生成。UFC的編輯能力，大大提升了圖像在少樣本情況下的生成拓展性和創造力，通過自動圖像生成來打造全新款式。實驗表明，M6-UFC可以應用于服裝設計。因此，這項研究可以推動智能制造的發展，促進個性化服裝定制，幫助服裝設計師提高效率。

AI不僅僅有理解和匹配能力，更加有創新創造的能力。而這樣的能力，也慢慢趨近于人類的認知能力，我們從以往的事物中學習和理解，并在新的場景下自由組合和創造。我們相信這樣的能力不僅會給消費者帶去耳目一新的體驗，也能通過平臺給商家帶去全新的賦能體驗。

關于M6

M6是阿里巴巴智能計算實驗室推出的超大規模預訓練模型。M6團隊相繼提出百億、千億、萬億和十萬億參數規模的超大規模預訓練模型M6。除了首先通過擴展稠密模型觀察到和Neural scaling law一致的現象，后續M6團隊開始研究超大規模MoE模型，是在全球范圍繼谷歌后首個在此領域深入探索的團隊。隨后打造了第一個基于稀疏專家模型的多模態預訓練模型-千億參數M6，用非常高效的方式完成如此大規模的多模態預訓練模型的訓練。完成第一步之后，M6團隊在此前研究的基礎上，開始思考如何讓MoE模型變得更加強大的同時，也能更加低碳、環保。最終，在今年5月，在相比千億M6顯著提效的同時，萬億參數M6-T僅用480張GPU耗時3天即訓練完成。10月，M6再次突破業界極限，通過更細粒度的CPU offload、共享-解除算法等創新技術，讓收斂效率進一步提升7倍，這使得模型規模擴大10倍的情況下，能耗未顯著增加。

除了深入探索大模型研發的技術，M6團隊同時也高度關注大模型的落地應用和服務。針對不同的業務場景，團隊將M6模型和各類單模態和跨模態的下游任務，包括理解類和生成類任務深度結合，推出了服務化組件，日均實現上億調用，得到了業務方的認可和積極的意見反饋。同時團隊將M6模型的生成和理解能力，落地到服飾制造、智能文案生產、金融領域對話與問答等應用場景中，將技術能力轉化為工業落地價值。

數據庫常見問題排查

開發者經常會遇到些數據庫的問題，覺得無從下手，這嚴重影響了開發效率，也影響了開發者對數據庫的熱情。如何避免這樣的窘境，如何降低數據庫使用門檻以及運維的成本，如何在較短的時間內用云數據庫的技術和理念來武裝自己，提升自己。本課程通過實際的場景以及最佳實踐出發，帶給大家一些數據庫問題的通用解決思路和方法，大家會發現數據庫不再是一個黑盒，相反它看得見，摸得著，也能夠輕松玩得轉。點擊閱讀原文查看詳情。

責任編輯：武曉燕來源： 51CTO專欄

AI 訓練架構