精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

超越Midjourney?基于語境學習訓練圖像擴散模型【前沿】

人工智能
本文將分享如何處理基于語境學習的圖像生成問題。我將介紹如何避免上述問題,即在不進行微調的情況下,仍然能夠實現生成模型的個性化。

一、背景知識——文本圖像生成的現狀

先介紹一下背景知識。大家對于文本-圖像的生成模型應該已經相當熟悉了,諸如"imagen"、"stable diffusion"、"dalle2"以及"midjourney"等一系列模型已經取得了很好的成績與顯著進展。這些模型在很大程度上能夠生成與給定文本高度契合的圖像,很多時候這些生成出的圖像充滿了想象力。它們所創造的圖像通常難以在網絡上找到。比方說下面這張圖片:

圖片

兩個機器人在巴黎鐵塔前舉杯慶祝,這樣的場景在網絡上并不容易獲取,只有通過生成模型才能創造出來。

然而,盡管這些模型表現出色,但它們目前還面臨一個問題,即它們主要依賴于文本作為唯一的可控制信號。然而,文本在某些情況下并不能完全滿足需求,尤其是在描述某些細節方面存在局限性,比如物體的位置、角度和姿態等,這些方面難以用自然語言精確描述。

另外,有些情況下生成個體或者場景,雖然可以使用自然語言進行描述,但結果并不總是精確的。如果需要生成指定場景或物體時,諸如“我家的狗”或者“我自己的書包”之類的情況,目前的模型還很難勝任,因為它們只能依賴文本作為唯一的控制信號。因此,這里涌現出一個非常有趣的研究領域,即生成模型的個性化,其關注點主要在于如何使生成模型創造出更具個性化特點的內容。其中,一篇備受矚目的論文叫做"Dream Booth",其核心思想是,假設你有一個特定的主體對象,比如一只狗,你可以提供幾個示例,然后嘗試讓圖像生成模型在不同場景和狀態下生成這只狗的圖像。

圖片

這意味著你可以在不同的背景和情境中生成個性化的圖像,比如上圖中根據左邊的狗的圖片生成右邊這只狗在特定場景中的圖片,或者其他類似的情況。賦予模型在生成過程中更強的可控性,這是一件很有趣的事情。本次分享探討的主題就是如何進一步增強個性化生成的可能性。

然而,值得注意的是,盡管"Dream Booth"取得了不錯的效果,但它并非一種萬能的解決方案。其方法相當簡潔,見下圖:

圖片

它的基本思路為:假設有一個指定的物品,對其進行多次拍攝,通常是3到5張照片,然后用"stable diffusion"等模型進行梯度下降的微調,這個微調過程可以持續一千步左右,最后保存微調后的模型。通過微調,模型會對指定的物品有所了解,因此在生成與這個物品相關的其他場景圖像時,效果會相當好。在微調過程中,模型通過梯度下降等方式逐漸適應了指定物品的特征,這是其表現出色的原因之一。

另外,還存在另一種方法Textual Inversion,與"Dream Booth"非常相似,但稍有不同。

圖片

這個方法不需要對整個模型進行微調,而是針對一個專門的嵌入向量(embedding)進行調整。首先為指定的物體設計一個特殊的嵌入,然后將模型其他參數固定,只調整這個特殊嵌入,這個特殊的嵌入能學習到如何表示主體物品。最后在生成圖像時,你可以使用調整后的embedding來指導生成過程。

嵌入(embedding)就好比是一個適配器(adapter),可以使生成的內容帶有特定主體的特征。實際上,這是一種parameter efficient tuning的方法,盡管仍然需要微調,但相比之下,內存需求降低了很多。然而,這個方法也有一個不足之處,就是其效果明顯不如"Dream Booth",這是因為調整的參數較少,導致生成效果受限。目前來看,這兩種模型都存在一些致命問題,即微調過程非常耗時,而且需要大量的GPU內存。另外一個問題是,每個主體都需要進行微調,并保存其檢查點。如果使用"stable diffusion"等模型,一次微調需要保存大約10GB大小的檢查點,若有100個主題,那么所需的存儲空間將超過1TB。這種情況下,模型的擴展性會受到極大的影響。

圖片

這些方法的共同點在于,它們都試圖在模型中引入關于指定物體的特定信息,從而使模型在生成相關圖像時更加準確。無論是通過微調整個模型還是調整特殊嵌入,都是為了增強模型在特定個體生成方面的表現能力。

二、動機——為何需要語境學習的圖像生成模型

在本次演講中,我將介紹如何避免上述問題,即在不進行微調的情況下,仍然能夠實現生成模型的個性化。這主要依賴于我的兩篇論文,其中一篇《Subject-driven Text-to-Image Generation via Apprenticeship Learning》,目前仍在等待編輯處理(ARCHIVE)中,另一篇是已經收錄在ICLR 2023的一篇論文《Re-Imagen: Retrieval-Augmented Text-to-Image Generator》。

現在,讓我們來初步探討一下我們的目標。在語境學習方面,大家都比較熟悉了。自然語言處理的大型模型主要采用的就是語境學習方法,也就是所謂的"in-context learning"。其優點在于,你無需為不同的任務構建不同的模型,而只需使用一個模型,并通過不斷的提示(prompt)或者在上下文中進行示例,讓模型學習如何根據示例來進行泛化,從而解決未見過的任務。這樣的學習方式可以實現零樣本學習,對于自然語言處理中的大模型(如GPT系列),這種語境學習非常成功,它不需要任何梯度下降等訓練方法,就能夠解決許多具體的問題,這反映出了未來一個大的趨勢。

假如我們能在個性化圖片生成領域使用語境學習,那就會非常有益。例如,如果我們提供一些關于某個小狗的示例圖片,將這些示例圖片輸入給一個新的擴散模型,再輸入一個文本,文本指定這只狗在新環境中的動作,那么這個擴散模型就可以生成出這只狗在新環境下的圖像。

圖片

這種方法會避免微調模型,同時也不需要存儲各個主題下的擴散模型副本,只需一個模型即可,且推理時間也會比之前更快,至少提速了十倍以上。

圖片

但是,如何實現這種理想情況呢?我們需要探索圖片生成模型和自然語言生成模型之間的區別。自然語言模型中的語境學習源自預訓練,通過大量自然語句(由一個個連續的token組成),根據當前tokens讓模型預測句子中下一個token的機制來實現。這樣大型語言模型能夠自動獲取上下文學習能力,這似乎是一種非常神奇的現象。雖然有不少研究在討論這一現象,但為何模型在預訓練后會自動具備這種能力仍然不太清楚。然而對于圖像生成模型而言,目前并沒有類似的能力。其預訓練過程只關注單個文本和圖像的配對學習,沒有多個連續的圖像文本作為輸入,因此缺乏上下文信息。在這樣的預訓練下,圖像生成模型無法實現語境學習能力。

要想訓練一個具備這種語境學習能力的擴散模型,就需要進行一些改進。首先,網絡架構需要進行調整,因為現有的網絡結構僅能夠接受文本作為控制信號。而現在,我們還有其他的演示和上下文示例,我們需要想辦法將它們輸入到網絡結構中,這需要一些新的網絡架構設計。

其次,訓練數據也需要調整,就像文本一樣,需要多個連續相似的圖文示例,這樣模型才能獲得上下文學習的能力。因此,我們需要在數據方面進行改進。接下來,我們將探討如何設計這個新的網絡架構。

三、設計——如何讓現有的模型能夠做語境學習

1、設計-網絡架構

圖片

標準的文本圖像生成模型架構通常由UNet組成,如上圖所示。該UNet首先對一個加入噪聲的圖像進行卷積和下采樣,直至獲得較小的特征圖,然后再進行上采樣,加上其他的一些卷積操作,最終將特征圖恢復到與輸入圖像相同大小的空間。這兩個步驟主要是在模擬去噪的過程。

這個UNet與通常的UNet有所不同,它加入了注意力機制,用于捕獲文本控制信號,然后利用文本信息引導到擴散過程。在這個過程中,我們要考慮如何將圖文示例加入到這個UNet中。

實際上,這是非常簡單的,你可以看到,UNet實際上具有編碼器(encoder)的功能。它左邊部分通過下采樣將大圖像壓縮成特征圖,可以將其視為編碼器。右邊部分可以看作解碼器(decoder),該編碼器可以將圖像和相關文本編碼為特征圖。因此,我們可以將圖文示例,通過相同的方法,僅使用這個下采樣的編碼器(encoder)來壓縮到特征圖中。

圖片

當有多個圖像和文本對時,可以分別進行處理,然后將多個特征圖連接起來,這樣就可以得到neighbor(指某些同一主題的圖文對示例組成的一個類,類中的圖文因為主題一致,在主題上相互之間可認為具有相鄰的關系,有點類似鄰域的意思。)的表示。

這樣做的好處是,你在復用UNet編碼器時,可以將這些信息投影到相同的特征空間中。這樣模型更容易關注這些信息。因此,最終的網絡架構類似于下圖這樣。

圖片

將圖像去噪為之前的圖像,之前只是用文本進行控制,現在我們做的是,為它增加了一些上下文示例。只需復用UNet編碼器對示例進行編碼獲得特征圖,注意力機制不僅僅會關注文本,還會關注新的上下文示例的特征。

因此,我們所做的實際上非常簡單,只是在網絡中添加了一個額外的注意力層,讓它能夠關注其他控制信號,比如用來參考的圖像和文本示例,這就是我們的新架構。然而,目前我們還無法訓練這個網絡,因為我們沒有關于某個主題或者主體的多個圖像和文本對數據。

因此,接下來我們要考慮的是如何獲取這種新的訓練數據。

2、設計-訓練數據

圖片

理想情況下,圖像和文本的上下文學習(ICL)數據應該具有相似的結構。每個數據對應由文本和圖像構成,例如TEXT1-IMAGE1、TEXT2-IMAGE2、......、TEXTN-IMAGEN等,其中這些圖文對都有一定的相似性,比如說他們都描述了一樣的主體,或者說他們能描述了一樣的風格,把它們放在一起,其中一些作為示例,然后生成新的這個關于這個主體的圖片。這樣訓練的模型在生成圖片時,會自動參考輸入的示例。

所以我們需要一堆由TEXTN-IMAGEN組成的聚類圖片。每個類保證它其中的所有圖片是關于某一個主體的,或者他們都有一個專門的主題。但目前google內部不存在這么理想的數據。從網上爬下來的數據都是獨立的圖文對數據,他們是沒有按主體、主題歸類的。給他們歸類也是一件非常困難的事,基于clip的一些策略可以做,但是效果非常差。

圖片

最終,我們的工作涉及以下幾個方面,我們重新爬取圖像文本配對數據,根據URL將這些圖像和文本進行聚類。我們假設源自同一網頁的圖像和文本具有較強的相關性,尤其是電商網站上這種情況會很明顯。例如在同一網頁上銷售的鞋子是在不同場景下拍攝的,我們認為這種資源非常有價值。然而也存在一些特殊情況,比如一個網頁中可能包含各種雜亂無章的圖像,它們之間毫無相似之處。在這種情況下,相關性較差,那應該如何處理?為了解決這個問題,我們實施了一些過濾措施。我們通過計算不同圖像組內圖像之間的CLIP分數進行過濾和篩選,以此來評估圖像之間的相似度。

隨后,若圖像對應的CLIP分數低于特定閾值,我們將排除那些具有較低相似性的圖像文本聚類,不過,需要指出的是,我們的過濾措施相當嚴格。盡管如此,由于我們的數據集規模龐大,即便在過濾掉90%的內容之后,仍然保留了數十兆級別的可用數據。

另外,我們還注意到從網絡上爬取的圖像文本配對,其組類中文本的噪聲較大,難以有效反映不同聚類中圖像的共性特征。有時候,這些文本內容可能非常雜亂,與圖像關聯性較弱。為了克服這一問題,我們采用了Google的預訓練語言模型為這些圖像重新生成描述文本,利用Palm等方法對這些描述進行進一步的清理,使得生成的描述更加與圖像內容相符。

下面通過范例來說明,這是我們自動構建的圖像數據集(ICL數據集)的兩個樣例。

圖片

范例中展示了圖像聚類示例,每個示例中的不同圖片有不同的文本標簽,這些圖像和文本標簽是由Palm生成的。從第一個example中可以看到不同場景下同一個壺的樣子,圖片底下的文本是它們的標簽。第二個 example的主體是一只狐貍,它們有不同的標簽。需要注意的是,這個示例僅用于展示,實際數據中的噪聲要比示例中高得多,這里只是為了給大家一個大致的印象。

在獲取了這些圖像之后,我們最初嘗試了一種簡單的方法,使用前兩個圖像作為樣本,然后讓模型生成第三個圖像。然而,實驗證明這種方法的效果非常差,模型在訓練完成后往往會陷入簡單的復制粘貼模式,無視輸入文本內容,直接復制一個樣本作為輸出。主要原因在于我們構建的圖像文本群組中的圖像和文本過于相似,導致模型傾向于執行無創新性的復制操作。在大部分情況下,模型認為這些圖像之間幾乎沒有區別,因此將一個圖像直接復制到另一個圖像的位置。針對這一問題,我們進行了長時間的思考,希望找到方法來避免模型陷入這種局部最優狀態。然而,我們發現很難找到一種非常直觀的方法來解決這個問題。

首先,我們需要考慮如何確保所生成的目標圖像以及相關聯的其他示例具有足夠的差異性。這意味著無論是圖像還是文本,它們在特征上都應該具有顯著的差異。以上圖中第一個和第三個壺為例,它們之間存在相當大的相似性。然而,如果其中一個圖像呈現了明顯的差異,比如一個人端著一個物體的場景,這種情況下模型將被迫根據文本標簽來生成這種差異,這種數據在實際爬取過程中非常難以獲取。因此,為了解決這一問題,我們采用了合成的方法。

圖片

具體而言,我們首先從這些聚類中提取文本,并使用大語言模型生成出不同場景下的文本描述,例如“a man holding a teapot”。接著,我們使用Dream Booth生成這些目標圖像,盡管Dream Booth的使用會有較高的代價,不適用于最終模型,但它作為一種生成數據的手段非常有效。

我們的方法包括以下步驟:首先從這些聚類中選擇文本描述,然后利用大型語言模型生成新的文本描述,接著在這個類上訓練Dream Booth,通過訓練好的Dream Booth生成這些新的目標圖像。需要指出的是,盡管Dream Booth在生成圖像方面非常出色,但仍存在很多失敗案例。因此,在生成了大量的Dream Booth圖像后,進行了大量的過濾,包括一些啟發式的過濾和基于CLIP分數的過濾。最終,我們僅保留了約20-30%的生成圖像,其余被認為質量不夠高而被丟棄。在經過一系列處理后,我們最終得到了包含幾十萬個聚類數據的數據集,這為后續模型的訓練提供了數據基礎。

進一步的訓練流程如下所示:

圖片

首先上圖展示了一個樣本,左邊是示例,右邊是目標圖。訓練過程如下圖:

圖片

總的來說流程如下,通過復用圖中的encoder,將多個示例通過encoder編碼得到特征圖,然后將特征圖(feature map)聯合起來(concatenate),目標圖片在右邊做為去噪的目標。首先對目標圖片加噪,接下來將目標圖像作為去噪目標,添加噪聲后使用同一解碼器進行去噪操作。此外,我們還引入了目標圖像的文本描述以增強模型的控制性,這在圖中未畫出來。

我們將這個模型稱為"SuTI",即"Subject-Driven Text to Image Generation"。此訓練所采用的數據集為ICL V2數據集,它是由Dream Booth生成的數據,需要注意的是,盡管輸入的示例是現實的圖片,但輸出的目標是通過精心設計來生成出來的圖片,這樣可以提高訓練的可控性。在訓練SuTI模型時,盡管我們擁有約500K個訓練數據,但發現模型訓練過程并不需要很長時間,大約一天的時間模型便能夠在約幾十萬步迭代之后達到相當高的水平。

四、結果和展望

在模型的訓練過程中,我們采取了一種方法,將三個示例作為neighbor,提供給圖像生成模型。通過這種方式,模型能夠通過注意機制關注這三個示例,從中獲得關于主體外觀的信息,最終生成目標圖像。在訓練SuTI模型后,我們觀察到該模型具備幾種技能。首先是風格化技能,允許我們將不同的藝術風格應用于某個主體、將主體其放置在不同的環境中,甚至可以為主體賦予不同的動作。我們還可以從不同的視角觀察主體,并對其進行一些屬性變化,例如顏色等,還可以為主體添加各種配件和服飾。我們的實驗參數如下:

圖片

模型輸出示例如下所示:

圖片

例如,我們的輸入的圖片主體是一個鴨子玩具,我們試圖在生成階段中使用文本指定要生成的主體風格,如使用Picasso、Rembrandt的藝術風格。我們的模型能夠生成出具有不同藝術風格的圖像,對于藝術不甚了解的我來說,畫得似乎相當不錯,例如小黃鴨融合了梵高的"星空"風格以及其他一些細節。再比如圖中的狗,模型可以生產各種方向的視圖,如從上看、從邊上看、從后看的視圖,這些都在模型輸出中得到了體現。生成的速度非???,大概 20 到 30 秒鐘就可以讓它生成出來。

此外,模型也能夠處理主體的情感,例如我們可以使狗變得沮喪、高興、瞌睡等。另一方面,我們也能夠改變主體的一些屬性,例如將其顏色更改為藍色、綠色、紫色、粉色等。

圖片

我們還嘗試增加配飾,例如給狗穿上廚師服、警察服、護士服等,這些生成的圖像在模型的控制下表現出高度的逼真性和合理性。

圖片

此外,我們的研究還涉及大量的人類評估,我們為此編寫了220個獨特的提示,針對30個不同的主體進行測試。

圖片

首先我們要評估模型在圖文指導下生成的圖像與給定主體對齊程度。主體對齊指的是生成圖像中的主體與原始主體的相似程度。我們將這種對齊度量表達為一個分數,根據評價者對圖像的相似性進行評分,從0表示不相似到10表示完全相似。最終,我們計算這些分數的平均值,以獲取主體對齊的度量。

第二個評分指標,即生成結果對文本標簽的忠實程度,如圖21中生成的小狗對于描述中的 "chef outfit" 或 "police outfit" 等內容是否完整準確地體現。它是否可能忽略文本內容,而僅僅將狗的圖像直接復制粘貼。

此外,第三個評分指標在于圖像的真實性。是否存在任何偽造痕跡(ARTIFACT)等現象。

在我們的評估系統中這些生成的圖像都呈現出相對真實的特征。我們在整個基準數據集上,將上述不同的評分指標進行匯總。通過計算不同樣本在這些指標上的平均分數,我們可以獲得一個總體的百分比得分。這些評分考慮了許多基線模型,包括Textual inversion、Null-Text Inversion、Imagic、Dream Booth、Stable Diffusion和Re-Imagen、InstructPix2Pix方面的表現。美元符號表示有些模型在微調時需要占用空間、時間。Imagic需要70mins才能做完一個主題的適配,但是對我們的模型只需要30s。盡管我們的模型在速度方面可能不及 "Instruct Pix2 Pix"那般迅捷,但其效果明顯優于后者。例如,在主題方面,我們的模型已經超越了 "dream Boost",且在文本對齊方面表現更為優異。我們的模型在 90% 的情況下能夠與文本完美地結合。同時,我們的模型生成的圖像在視覺逼真性方面達到 92%,幾乎沒有PS痕跡。然而,"Dream Booth" 在這一層面上表現更佳,約有 98% 的情況下不存在任何偽造痕跡,圖像相當真實。相較于 "Textual Inversion",我們的模型稍勝一籌。

這三個方面分別考慮后,我們對其進行了綜合評分,類似于一個整體評價分數。若圖像在這三個方面都取得滿分,也就是得分為一。最終,我們計算了平均分數,以獲得最后的綜合評價。值得一提的是,從整體評分上看,我們的?!癝uTI”目前在市場上表現最為出色。與 "Dream Booth"相比,我們的模型高出7個百分點。與其他模型相比,優勢更為明顯,接近 40% 以上。

綜上所述,我們的模型顯示出了出色的性能,在谷歌內部也引起很多關注。

圖片

然而,正如之前所述,盡管我們在個性化生成上取得了顯著的進展,但我們的圖像逼真度(photorealism)仍未達到最佳狀態。當前,我們的逼真度評分為92%。仔細觀察這些圖像,你會發現它們在某些程度上仍存在失真現象。例如,在某些狗的圖像與背景結合的情況下,與真實原圖相比,仍存在一些差距。相比之下,與"Dream Booth"相比,我們的模型在自然性方面稍遜一籌。這種情況反應出了我們模型的局限性,特別是在處理人臉和文字細節表達方面,效果相對較差。

目前我們的主要目標是將該模型擴展至更大規模以解決上述問題。此外,我們計劃在SuTI技能中增加更多功能。盡管我們目前已經具備五項技能,如樣式化(stylization)、重上下文化(recontextualization)等,但我們希望能夠進一步添加一些技能,例如將姿態(pose)內容整合進去,添加邊界框等,類似于Control Net。甚至,我們計劃引入一些具備組合能力的技能,使圖像能夠在變換風格的同時,將其置于新的場景中,當前模型尚無法實現此類復雜任務。我們致力于不斷提升模型性能,通過擴大數據集和模型規模,使其具備更多的技能。我們的目標是將各種控制信號加入模型中。最終,我們希望將整個系統構建為一種指令微調(instruction tuning)的格式。值得注意的是,由于之前模型存在版權問題,我們已經進行了重新訓練,目前已基本完成。在7月份,我們計劃將該模型發布到Google Cloud,與大家分享。您可以在Vertex AI平臺上找到該模型,類似于"Palm 2"。只要注冊到Google Cloud,就可以體驗我們的模型。基本的生成操作是免費的,只有在超出一定使用量后才會收取費用。

五、問答環節

Q1:非常感謝陳文虎老師的分享,內容非常有趣。現在進入問答環節,我注意到評論區已經有一些問題了。第一個問題是,根據訓練數據,我們只能獲得圖像和文本的對齊,為什么在應用時我們可以獲得風格、角度等屬性的增強?

A1:在我們的訓練數據中,實際上也包含了這些風格等屬性。例如,對于TEAPOT這樣的提示語,可能會是“生成畢加索風格的TEAPOT圖像”。然后通過"Dream Booth",它可以生成具有畢加索風格的TEAPOT圖像,這只是一個示例。此外,在構建提示時,我們使用了大型語言模型,它生成的提示非常多樣化,涵蓋了各種屬性,如風格、視角等。比如,提示可能包含特定的風格、特定視角,如從下方視角看的TEAPOT。而"Dream Boost"生成的圖像在成功的情況下,會呈現從底部視角看的TEAPOT,這是其有效性的原因。

Q2:所以,我們的訓練數據實際上已經包含了這些圖文對和生成序列。

A2:是的,訓練數據已經相當豐富,已經包含了這些所謂的技能。

Q3:那么,如果我們增加這些數據集,是否可以進一步提升模型性能?

A3:是的,您說得對。我認為,這個框架的優點之一是它沒有任何限制,不必局限于特定的技能集。只要有一種方法可以將新的技能集打包成輸入輸出的形式,我們就可以使用相同的訓練方法對模型進行訓練。

Q4:好的,接下來是第二個問題,就是關于SuTI的技能點如何與具體的網絡結構設計相對應。

A4:我認為我剛才已經在回答這個問題了。我們的網絡結構可以看作是一個注意力機制,它根據輸入的指令和輸出來自適應地進行調整。不同的技能通過輸入輸出的方式傳遞給模型,然后模型自己進行泛化。這可以類比為一種指令調整的感覺,你提供不同的指令,就會得到不同的輸出。網絡結構本身并沒有太多變化,它僅僅是一個正常的擴散模型。

Q5:事實上,我認為更好的方法是技能實際上是由數據來定義的,而不需要在結構上進行特殊處理。

A5:對,技能就是這樣的,實際上這個網絡結構可以被視為是一個很廣義的注意力機制。不同的技能被打包成輸入輸出格式,并提供給模型,然后模型就可以進行相應處理。當然,這個問題會在后面進一步討論,對吧?目前這五個技能不需要對網絡結構進行特殊的調整。但是對于我們新增加的一些技能,可能需要進行結構上的調整。比如說,如果要為人物提供一些關鍵點(key point)或面部網格(face mesh),這些新的控制信號需要用新的編碼器進行編碼,不能再使用之前Unet的下采樣層。因為在這種情況下,我們的網絡假設你輸入的控制信號是一張正常的圖像,但是如果存在其他信號,如坐標等,那么網絡架構可能需要進行重新調整,添加新的注意力機制以處理這些新的控制信號。

Q6:是的,這實際上也解答了我想問的問題。確實,如果將其與Control Net等工作結合,可能會產生更多有趣的結果。

A6:事實上,我們當前的模型版本已經能夠與Control Net結合。盡管在這篇論文中還沒有詳細描述,但例如,對于一些小黃鴨這樣的對象,它們可能只有一種姿勢,與控制相關可能不太有意義。然而,對于一只狗這樣的對象,由于它可能有多種姿勢,我們可以繪制出類似于在空中的軀干形狀,然后我們的模型可以將主體與這個軀干連接起來,從而呈現出特定的姿勢。

Q7:好的,還有最后一分鐘。接下來我提出最后一個問題,這里是關于使用同一編碼器將文本圖像對齊到同一領域的方法。除此之外還有其他方法嗎?

A7:還有其他方法嗎?還有一個方法,就是不使用相同的編碼器。例如,你可以使用其他的編碼器,如CLIP、BLIP等。然而,我們的實驗發現,這些方法的效果并不是特別好。當然,我們之前使用的那些編碼器的參數量并不是很大,但是現在有一些更大的編碼器,如22B的[1]等等,可能會有更大的特征圖,使模型能夠在一個共同的領域內進行attention。因為我們的模型復用了相同的編碼器,它們共享了原始模型的encoder,所以它們通過這個特征圖,基本上是在相同的特征空間中進行操作。

責任編輯:姜華 來源: DataFunTalk
相關推薦

2023-07-06 08:00:00

機器學習擴散模型Midjourney

2024-11-12 13:10:49

2024-03-07 12:31:29

AI技術

2022-03-28 09:00:00

SQL數據庫機器學習

2017-08-09 10:02:12

NMT神經網絡自然語言處理

2025-08-20 07:47:19

2022-12-25 12:57:00

模型自然學習

2023-02-13 10:26:27

模型數據

2023-08-25 13:21:56

論文模型

2025-04-08 09:30:00

模型AI機器人

2024-11-18 14:35:00

智能體AI

2023-08-31 22:24:18

Vega擴散模型圖像

2024-05-24 08:42:29

智能體訓練

2024-03-11 09:37:01

模型圖片編輯

2025-07-07 08:56:00

2023-05-16 08:00:00

開源項目MONAI醫學圖像

2023-01-11 07:28:49

TensorFlow分類模型

2025-01-27 00:57:43

2023-10-11 12:32:26

模型訓練

2020-08-10 15:05:02

機器學習人工智能計算機
點贊
收藏

51CTO技術棧公眾號

美女mm1313爽爽久久久蜜臀| 国产一区二区视频在线看| 久久综合九色综合欧美就去吻| 91成人免费观看网站| a级大片在线观看| 欧美黄色a视频| 亚洲一二三区视频在线观看| 久久伊人资源站| 91久久久久久久久久久久| 欧美激情亚洲| 亚洲天堂男人的天堂| 日本精品一区在线| 超碰在线视屏| 中文一区二区完整视频在线观看| 91免费观看| 国产无人区码熟妇毛片多| 欧美国产一级| 日韩精品亚洲元码| 天天爽夜夜爽视频| 欧美三级精品| 亚洲成人在线观看视频| 亚洲欧美成人一区| 少妇人妻精品一区二区三区| 美女网站色91| 青青久久av北条麻妃黑人| 加勒比婷婷色综合久久| 欧美精品色图| 亚洲精品国产电影| 妖精视频在线观看| 国产欧美自拍| 一本色道a无线码一区v| 男人天堂av片| 91看片在线观看| 久久综合一区二区| 国产视频一区二区不卡| 国产强伦人妻毛片| 免费亚洲电影在线| 日本道色综合久久影院| 国产精品suv一区二区69| 亚洲精品小说| xxx一区二区| 日本黄色激情视频| 国产欧美日韩在线一区二区 | 午夜精品久久久99热福利| 日本一道本视频| 久久97视频| 国产手机视频精品| av黄色一级片| 久久a爱视频| 亚洲国产成人精品久久久国产成人一区 | 瑟瑟视频在线| 欧美国产日韩精品免费观看| 久久精品99久久| 五月婷中文字幕| av电影一区二区| 国产中文一区二区| 色欲av永久无码精品无码蜜桃| 成人午夜精品在线| 国产精品免费一区二区| 亚洲欧美另类综合| 成人性色生活片| 国产精品亚洲综合| 外国精品视频在线观看 | 欧美一区二区精品在线| 中日韩av在线播放| 色噜噜成人av在线| 91精品婷婷国产综合久久性色| 国产色视频在线播放| 国产精品成人国产| 欧美日韩精品欧美日韩精品一| 在线观看av网页| 婷婷久久免费视频| 日韩午夜中文字幕| 国产一线在线观看| 亚洲理论电影片| 一本色道久久88精品综合| 国产又大又粗又爽的毛片| 成人午夜av| 美日韩精品免费视频| 欧美日韩大片在线观看| 激情久久五月| 国产suv精品一区二区| 中文字幕精品一区二区精| 精品一区二区成人精品| 俄罗斯精品一区二区| 日本亚洲欧美| 国产精品久久一卡二卡| 日本a级片在线观看| 538在线观看| 欧美中文字幕一区| 男人添女人荫蒂国产| 亚洲永久精品唐人导航网址| 色黄久久久久久| 男女免费视频网站| 久久国产精品99国产| 高清不卡在线观看av| 久久亚洲精品视频| 18精品爽视频在线观看| 亚洲一区二区毛片| 国产在线观看一区二区三区| 亚洲精品911| 国产清纯白嫩初高生在线观看91| 成人在线免费高清视频| 涩涩av在线| 69堂成人精品免费视频| 内射中出日韩无国产剧情| 色乱码一区二区三区网站| 久久久之久亚州精品露出| 午夜精品免费观看| 大白屁股一区二区视频| 亚洲精品成人自拍| 狠狠躁少妇一区二区三区| 欧美裸体一区二区三区| 国产一级伦理片| 亚洲一区欧美| 国产精品高潮粉嫩av| 亚洲第一页视频| 国产精品妹子av| 99精品在线免费视频| 久久亚洲精精品中文字幕| 亚洲视频日韩精品| 日韩成年人视频| 国产一区二区伦理片| 日韩jizzz| 亚洲欧美小说色综合小说一区| 91麻豆精品国产自产在线| 伊人网伊人影院| 在线看片日韩| 成人黄动漫网站免费| 欧洲日本在线| 欧美视频精品在线| 亚洲人成人无码网www国产| 亚洲香蕉网站| 亚洲自拍偷拍第一页| 自拍视频在线免费观看| 精品色蜜蜜精品视频在线观看| 91精品国产高清91久久久久久| 日韩一区电影| 国产精品国产自产拍高清av水多| 污污视频在线免费看| 亚洲一区二区三区国产| 欧美图片自拍偷拍| 欧美伊人影院| 亚洲精品免费av| 黄色免费在线观看网站| 欧美日韩aaaaaa| 一本在线免费视频| 麻豆精品在线观看| 亚洲视频电影| 国产精品久久久久久妇女| 一区二区国产精品视频| 在线视频精品免费| 国产视频亚洲色图| 久久精品影视大全| 久久高清免费| 国产一区玩具在线观看| av成人手机在线| 欧美三级三级三级爽爽爽| 日本二区在线观看| 日本亚洲免费观看| 一区二区视频国产| 999精品视频在线观看| 久久夜色精品国产欧美乱| aaa级黄色片| 亚洲香蕉伊在人在线观| 小毛片在线观看| 国产精品社区| 日韩欧美一区二区三区久久婷婷| jvid一区二区三区| 久久韩国免费视频| 亚洲精品人妻无码| 精品av在线播放| 熟女高潮一区二区三区| 日本成人中文字幕| 亚洲黄色网址在线观看| aaa国产精品| 5566成人精品视频免费| 国产高清免费在线播放| 这里只有精品视频在线观看| 久久久久成人精品无码| 97精品久久久午夜一区二区三区| 久草在在线视频| 欧美激情欧美| 国产高清精品一区| 日韩久久一区二区三区| 欧美成年人视频网站| 手机av免费在线观看| 日本韩国欧美一区| 97在线观看视频免费| 99久久久无码国产精品| 国产成人亚洲精品无码h在线| 日韩夫妻性生活xx| 国产a一区二区| 黄色亚洲网站| 欧美日韩国产成人在线| 日韩电影免费| 日韩一区二区在线观看视频播放| 国偷自拍第113页| 亚洲欧洲精品成人久久奇米网| 一级黄色电影片| 日韩黄色小视频| 欧美日韩中文字幕在线播放| 青青草久久爱| 成人午夜在线观看| 欧美最新精品| 性欧美xxxx交| 精品美女在线观看视频在线观看 | 欧美自拍大量在线观看| 黄色网在线播放| 亚洲欧洲第一视频| 丰满人妻av一区二区三区| 欧美无砖专区一中文字| 日韩aaaaaa| 亚洲三级免费观看| 久久久久久成人网| eeuss国产一区二区三区 | av在线国产精品| 日本精品久久久久影院| 深夜国产在线播放| 日韩中文有码在线视频| 男人天堂网在线| 欧美精品一区二区三区很污很色的| 人妻中文字幕一区二区三区| 欧美日韩国产页| 免费一级a毛片夜夜看| 国产精品久久久久久久久免费相片 | 亚洲精品久久视频| 国产特级aaaaaa大片| 欧美性猛片xxxx免费看久爱| 国产成人无码一区二区三区在线| 亚洲欧美国产高清| 国产大屁股喷水视频在线观看| 久久中文娱乐网| 国产精品成人99一区无码 | 日本www在线观看| 亚洲欧美中文日韩在线v日本| 手机在线观看免费av| 欧美岛国在线观看| 国产精品永久久久久久久久久| 欧美自拍丝袜亚洲| 波多野结衣视频网址| 色吊一区二区三区| 天堂网中文字幕| 欧美午夜无遮挡| 国产精品suv一区二区三区| 一个色综合av| 久久久久亚洲av无码专区| 一区二区三区四区乱视频| 熟女av一区二区| 亚洲视频中文字幕| 波多野结衣爱爱视频| 亚洲欧美日韩国产成人精品影院| 国产喷水在线观看| 亚洲色欲色欲www在线观看| 中文字幕在线观看2018| 亚洲精品久久7777| 久久在线视频精品| 亚洲午夜久久久久久久久电影院| 国产一级二级三级| 欧美日韩国产丝袜另类| 天堂网中文字幕| 欧美色图12p| 国产又大又粗又长| 日韩欧美一区二区不卡| 人妻一区二区三区免费| 日韩av综合中文字幕| 可以直接在线观看的av| 中文字幕在线观看日韩| 黄网站在线免费看| 欧美激情精品久久久久久蜜臀| free性护士videos欧美| 欧美亚洲第一区| 国产第一亚洲| 99国产在线观看| 嫩草国产精品入口| 天堂精品一区二区三区| 一区二区三区午夜探花| 色欲色香天天天综合网www| 久久xxxx| 日韩成人av免费| 成人av网站免费| 亚洲国产av一区| 亚洲欧美另类小说视频| 日本少妇全体裸体洗澡| 欧美自拍偷拍一区| www黄色网址| 亚洲欧美日韩精品久久亚洲区 | www.日日操| 国内成人自拍视频| 先锋资源av在线| 国产精品女主播在线观看| 欧美成人免费观看视频| 欧美日韩国产一中文字不卡| 在线免费观看高清视频| 亚洲成成品网站| 超碰97在线免费观看| 欧美精品在线网站| 欧美大片免费高清观看| 亚洲字幕在线观看| 色棕色天天综合网| 国产精品av免费观看| 奇米色777欧美一区二区| 国产白袜脚足j棉袜在线观看| 国产欧美一区二区精品性色超碰| 免费人成在线观看| 欧美日韩久久不卡| 婷婷丁香花五月天| 久久精品2019中文字幕| 亚洲人体视频| 成人羞羞视频免费| 色综合蜜月久久综合网| 国产成人精品视频免费看| 国内欧美视频一区二区| 东方伊人免费在线观看| 疯狂欧美牲乱大交777| 国产免费av电影| 伊人激情综合网| 亚洲最大网站| 国产精品一级久久久| 911久久香蕉国产线看观看| 狠狠爱免费视频| 国产91高潮流白浆在线麻豆| 在线观看天堂av| 欧美婷婷六月丁香综合色| 国产又爽又黄网站亚洲视频123| 欧美成人免费视频| 欧美亚洲二区| 一本色道久久99精品综合| 久久精品91| asian性开放少妇pics| 婷婷亚洲久悠悠色悠在线播放| 亚洲av无码一区二区三区性色| 色偷偷av一区二区三区乱| 精品免费av一区二区三区| 免费精品视频一区| 国产日韩欧美一区在线| 人妻精油按摩bd高清中文字幕| 亚洲视频一二三区| 亚洲一级片免费看| 伊人久久大香线蕉av一区二区| 亚洲精品国产嫩草在线观看| 久久久久久久免费| 亚洲在线成人| 波多野结衣办公室33分钟| 岛国av一区二区| 亚洲av成人精品日韩在线播放| 久久久久亚洲精品| 乱中年女人伦av一区二区| 国产精品网站免费| av不卡在线观看| 99热在线观看免费精品| 亚洲美女在线视频| 免费电影日韩网站| 日韩欧美亚洲日产国| 另类调教123区| 国产乱子轮xxx农村| 69久久99精品久久久久婷婷| 国产在线激情视频| 亚洲自拍小视频| 亚洲激情婷婷| 亚洲一区二区三区综合| 欧美日韩一区二区三区在线免费观看 | 精品自拍偷拍视频| 日韩一级黄色片| 91资源在线观看| 美女亚洲精品| 免费看精品久久片| 999精品视频在线观看播放| 欧美一区二区免费| 国产黄大片在线观看| 日本高清一区| 极品销魂美女一区二区三区| 久草免费在线观看视频| 亚洲老板91色精品久久| 精品久久99| 成人一级生活片| 久久久久99精品国产片| 亚洲综合免费视频| 欧美国产视频一区二区| 色婷婷av一区二区三区丝袜美腿| 免费大片在线观看| 一区在线观看免费| 少妇无码一区二区三区| 日本久久精品视频| 91精品亚洲| 日韩 中文字幕| 欧美日韩国产精选| 999福利在线视频| 日韩资源av在线| 国产精品亚洲一区二区三区在线| 色婷婷在线观看视频| 最近2019好看的中文字幕免费| 国内不卡的一区二区三区中文字幕| 国产欧美日韩网站| 中文字幕一区二区三区四区不卡| 可以免费看毛片的网站| 国产精品美女999| 韩国亚洲精品| 国产福利在线导航| 亚洲精品久久在线|