AI繪畫翻車元兇找到了!新神器IMBA損失,在線輕調(diào)立竿見影,效果炸裂!清華&快手出品

論文鏈接:https://arxiv.org/pdf/2507.13345

本文方法在僅使用較小數(shù)據(jù)集(3100萬(wàn))的情況下實(shí)現(xiàn)了更優(yōu)的概念組合能力。現(xiàn)有模型普遍存在對(duì)象缺失、屬性錯(cuò)位和概念糾纏問題。具體而言: 圖(a)(b)缺失預(yù)期概念(雙胞胎、羽毛); 圖(c)(d)錯(cuò)誤匹配了主體屬性; 圖(e)(f)混雜了不必要概念(餐叉、腿部)
亮點(diǎn)直擊
- 展示了當(dāng)模型和訓(xùn)練數(shù)據(jù)達(dá)到足夠規(guī)模時(shí),數(shù)據(jù)分布成為模型概念組合能力的主要決定因素。
- 提出了概念級(jí)均衡方法(IMBA 損失),用于解決訓(xùn)練數(shù)據(jù)中概念分布不均的問題。該方法易于實(shí)現(xiàn)、成本低,并適用于不同模型。在三個(gè)基準(zhǔn)測(cè)試上取得了有前景的結(jié)果。
- 引入了一個(gè)新的概念組合基準(zhǔn)測(cè)試集,名為Inert-CompBench。該基準(zhǔn)包含了在開放世界場(chǎng)景下對(duì)組合構(gòu)成挑戰(zhàn)的概念,作為對(duì)現(xiàn)有基準(zhǔn)的補(bǔ)充。
總結(jié)速覽
解決的問題
- 在視覺生成任務(wù)中,復(fù)雜概念的響應(yīng)與組合不穩(wěn)定、易出錯(cuò),尤其在開放世界場(chǎng)景下表現(xiàn)不佳。
- 當(dāng)前對(duì)此類問題的研究仍然不足,缺乏對(duì)概念響應(yīng)不佳的成因的深入分析。
- 訓(xùn)練數(shù)據(jù)中存在概念分布不均衡的問題,影響模型的組合泛化能力。
提出的方案
- 通過精心設(shè)計(jì)的實(shí)驗(yàn),系統(tǒng)性地分析復(fù)雜概念響應(yīng)不良的因果因素。
- 提出一種概念級(jí)均衡損失函數(shù)(IMBA loss),用于自動(dòng)平衡訓(xùn)練過程中不同概念的學(xué)習(xí)強(qiáng)度。
- 設(shè)計(jì)并發(fā)布一個(gè)新的復(fù)雜概念組合基準(zhǔn)測(cè)試集:Inert-CompBench,用于評(píng)估模型在復(fù)雜組合場(chǎng)景下的表現(xiàn)。
應(yīng)用的技術(shù)
- IMBA loss:一種在線計(jì)算的損失函數(shù),無需離線數(shù)據(jù)處理,便于集成,僅需極少量代碼改動(dòng)即可應(yīng)用于不同模型。
- 大規(guī)模模型與訓(xùn)練數(shù)據(jù)分析:揭示數(shù)據(jù)分布對(duì)概念組合能力的決定性作用。
- 新基準(zhǔn)測(cè)試集(Inert-CompBench):涵蓋多種開放世界下難以組合的復(fù)雜概念,補(bǔ)充現(xiàn)有評(píng)測(cè)體系。
達(dá)到的效果
- 在 Inert-CompBench 以及兩個(gè)公開測(cè)試集上,顯著提升了基線模型的概念響應(yīng)能力。
- 所提出方法具有良好的通用性與易用性,在保持低實(shí)現(xiàn)成本的同時(shí),取得了高度競(jìng)爭(zhēng)力的性能表現(xiàn)。
- 為未來研究復(fù)雜概念組合機(jī)制提供了實(shí)驗(yàn)工具與理論依據(jù)。
概念組合的因果因素
本節(jié)旨在彌合合成實(shí)驗(yàn)與文本-圖像生成任務(wù)之間的差距,進(jìn)一步探索影響概念組合能力的因果因素。在文本-圖像數(shù)據(jù)集上進(jìn)行受控實(shí)驗(yàn),重點(diǎn)研究三個(gè)關(guān)鍵因素的影響:模型規(guī)模、數(shù)據(jù)集規(guī)模和數(shù)據(jù)分布。
實(shí)驗(yàn)設(shè)置 為了保證數(shù)據(jù)集一致性并提高訓(xùn)練效率,對(duì)開源數(shù)據(jù)集 [45] 進(jìn)行了重新標(biāo)注,構(gòu)建了一個(gè)更高質(zhì)量的數(shù)據(jù)集,因?yàn)楝F(xiàn)有的開源預(yù)訓(xùn)練模型,如[2, 12, 33] 并未公開其訓(xùn)練數(shù)據(jù)。本文數(shù)據(jù)集包含 3100 萬(wàn) 對(duì)文本-圖像樣本,平均文本長(zhǎng)度為 100 個(gè)詞,共包含 2 萬(wàn)個(gè)名詞概念,其分布如圖2所示。
為了確保結(jié)論的普適性,我們使用了一個(gè) 基于 DiT 的擴(kuò)散模型,未進(jìn)行任何特殊設(shè)計(jì)。為了準(zhǔn)確評(píng)估模型的概念組合能力而非圖像清晰度,除了使用 CLIP 分?jǐn)?shù)外,還引入了基于 VLM的 VQA 機(jī)制作為定量指標(biāo)。
檢測(cè)每個(gè)標(biāo)題中的所有名詞概念,并進(jìn)行兩兩配對(duì),要求 VLM 回答以下問題以驗(yàn)證圖像中概念的存在及其關(guān)系:
- “圖像中是否存在概念 A?”
- “圖像中是否存在概念 B?”
- “概念 A 和 B 之間的關(guān)系是否與標(biāo)題一致?”
當(dāng)所有回答均為 “是” 時(shí),判定該樣本為組合成功。
模型規(guī)模
在生成任務(wù)中,模型能力也遵循擴(kuò)展規(guī)律(scaling law),即參數(shù)越多的模型通常具有更強(qiáng)的生成能力。我們保留 Stable Diffusion的 VAE 模塊不變,在同一個(gè) 3100 萬(wàn)樣本的數(shù)據(jù)集上,從頭訓(xùn)練參數(shù)量分別為 1億、2億、5億和10億 的擴(kuò)散模型,唯一差異為網(wǎng)絡(luò)的 block 數(shù)和通道數(shù)。
在 LC-Mis 基準(zhǔn)測(cè)試集上評(píng)估模型的 CLIP 分?jǐn)?shù)和組合成功率,結(jié)果如下圖3所示。實(shí)驗(yàn)發(fā)現(xiàn):
- 當(dāng)模型規(guī)模超過2億參數(shù)后,概念組合能力的提升速度明顯減緩;
- 這表明:當(dāng)模型規(guī)模相對(duì)于數(shù)據(jù)集達(dá)到一定程度后,模型規(guī)模不再是限制概念組合能力的因果因素。

數(shù)據(jù)集規(guī)模
需要明確的是,此處所指的數(shù)據(jù)集規(guī)模僅指單一概念的樣本數(shù)量,不涉及不同概念之間的共現(xiàn)頻率或覆蓋范圍,后者被歸類為數(shù)據(jù)分布因素。
為了控制數(shù)據(jù)分布不變,從數(shù)據(jù)集中選取從未共現(xiàn)過的兩個(gè)概念組成組合對(duì),并提取包含這兩個(gè)概念的樣本,構(gòu)建一個(gè)分布不均衡的新數(shù)據(jù)集。然后保持兩個(gè)概念的樣本比例不變,從中采樣出兩個(gè)不同規(guī)模的子集,保證它們大致遵循相同的分布。
接著,使用一個(gè)從未見過這兩個(gè)概念的模型進(jìn)行微調(diào)訓(xùn)練(supervised finetuning),訓(xùn)練步數(shù)為 2 萬(wàn)步。為每個(gè)概念組合生成 25 個(gè)標(biāo)題,用于 VQA 評(píng)估。
為消除隨機(jī)性,選取了兩個(gè)不平衡分布的概念組合對(duì):
- “鋼琴-潛艇”(piano-submarine),分布比例為 100:1;
- “火山-雙胞胎”(volcano-twins),分布比例為 10:1。
如下圖4所示,盡管數(shù)據(jù)集規(guī)模擴(kuò)大了5倍,但概念組合能力并未顯著提升。在下表1中也可以看到,失敗案例的數(shù)量并沒有隨著數(shù)據(jù)集規(guī)模的增加而減少。


因此,僅僅增加數(shù)據(jù)規(guī)模而不改變數(shù)據(jù)分布,并不能提升模型的概念組合能力。
數(shù)據(jù)分布在實(shí)驗(yàn)中人為構(gòu)建了平衡與不平衡的數(shù)據(jù)集。具體做法如下:
從數(shù)據(jù)集中選取兩個(gè)從未共現(xiàn)過的概念組成概念對(duì),并提取包含這兩個(gè)概念的樣本,構(gòu)建一個(gè)分布不均衡的數(shù)據(jù)集,作為不平衡數(shù)據(jù)集。隨后,對(duì)高頻概念的樣本進(jìn)行下采樣,構(gòu)建一個(gè)分布平衡的數(shù)據(jù)集。
依然使用 “鋼琴-潛艇”(piano-submarine)和 “雙胞胎-火山”(twins-volcano) 作為概念組合對(duì)進(jìn)行對(duì)比:
- 在不平衡數(shù)據(jù)集中,它們的樣本比例分別為100:1和10:1;
- 在平衡數(shù)據(jù)集中,樣本比例均為1:1。
如上圖4和上表1所示,盡管不平衡數(shù)據(jù)集包含了平衡數(shù)據(jù)集中的所有樣本,但在平衡數(shù)據(jù)集上訓(xùn)練的模型仍然展現(xiàn)出更強(qiáng)的概念組合能力。
這表明,平衡的數(shù)據(jù)分布可以顯著提升模型對(duì)組合概念的理解和生成能力。
此外,考慮到現(xiàn)實(shí)中的開放世界數(shù)據(jù)集大多遵循長(zhǎng)尾分布,因此解決數(shù)據(jù)不平衡問題是提升模型概念組合能力的關(guān)鍵任務(wù)之一。
方法
本文提出了一種在線的概念級(jí)均衡訓(xùn)練策略以實(shí)現(xiàn)數(shù)據(jù)平衡,確保效果與效率兼具。本文首先從理想數(shù)據(jù)分布推導(dǎo)損失權(quán)重的形式。然后提出 IMBA 距離,作為一種更準(zhǔn)確且高效的數(shù)據(jù)分布衡量方式。進(jìn)一步地,本文引入了新穎的在線 token 級(jí) IMBA 損失。最后,本文從開放集數(shù)據(jù)集中提取惰性概念,用于構(gòu)建新的 Inert-CompBench 基準(zhǔn)。
理論分析




在訓(xùn)練過程中,無條件分布是在多個(gè)概念的加權(quán)期望上進(jìn)行訓(xùn)練的:

然后本文將公式 5、6 和 7 應(yīng)用于公式 4:




IMBA 距離
由于文本提示相比于類別更為復(fù)雜,衡量數(shù)據(jù)平衡性尤其具有挑戰(zhàn)性。此外,隨著數(shù)據(jù)集的指數(shù)級(jí)增長(zhǎng),離線數(shù)據(jù)裁剪會(huì)導(dǎo)致數(shù)據(jù)浪費(fèi)以及顯著的計(jì)算和時(shí)間成本。在本節(jié)中,本文通過合成實(shí)驗(yàn)和文本-圖像生成實(shí)驗(yàn)展示了 IMBA 距離能夠表示概念的頻率比例。
合成實(shí)驗(yàn)


在推理過程中,遵循標(biāo)準(zhǔn)正態(tài)分布的隨機(jī)噪聲點(diǎn)(藍(lán)色點(diǎn))通過基于類別的 flow(綠色曲線)匹配映射到兩個(gè)目標(biāo)分布,從而得到預(yù)測(cè)點(diǎn)(天藍(lán)色和黃色)。在上圖 5 中,圖 (a,b)/(c,d) 分別展示了在平衡/不平衡數(shù)據(jù)下的(有條件、無條件)推理結(jié)果。
比較圖 (a) 和 (c),本文發(fā)現(xiàn)盡管推理時(shí)有條件地使用類別信息,不平衡數(shù)據(jù)仍然將尾部概念(紫色點(diǎn))的預(yù)測(cè)結(jié)果(黃色點(diǎn))拉向頭部概念(棕色點(diǎn))。具體表現(xiàn)為圖 (a) 中黑框內(nèi)的預(yù)測(cè)點(diǎn)在不平衡數(shù)據(jù)下漂移到圖 (c) 中紅框內(nèi)。這表明不平衡的數(shù)據(jù)集損害了尾部概念的泛化能力。
同時(shí),比較圖 (b) 和 (d),本文觀察到在平衡數(shù)據(jù)集下,無條件分?jǐn)?shù)分布指向兩個(gè)類別之間的中間位置(圖 (b) 中的黑箭頭)。但在不平衡數(shù)據(jù)集下,它直接指向頭部概念(圖 (d) 中的紅箭頭),表現(xiàn)出非常明顯的分?jǐn)?shù)偏移(藍(lán)色曲線)。這表明在不平衡數(shù)據(jù)集下,無條件分?jǐn)?shù)分布傾向于偏向頭部概念,從而減少了頭部概念的條件分布與無條件分布之間的差異,這與公式 10 中的分析一致。因此,IMBA 距離可以作為一種自平衡、有效且高效的數(shù)據(jù)分布度量方式,用于訓(xùn)練過程中的監(jiān)控。
文本-圖像生成實(shí)驗(yàn)
在本節(jié)中,本文進(jìn)一步展示 IMBA loss 可以作為文本-圖像實(shí)驗(yàn)中數(shù)據(jù)分布的度量方式。本文首先從訓(xùn)練集中收集一組概念,在下表 2 中頭部和尾部概念各占一半。然后,本文將頭部和尾部概念配對(duì),創(chuàng)建新的標(biāo)題以生成組合圖像。本文選擇合理的樣本以計(jì)算 IMBA 距離和擴(kuò)散損失。


如下圖 6 所示,本文發(fā)現(xiàn)尾部概念普遍具有比頭部概念更大的 IMBA 距離,這表明 IMBA 距離可以度量數(shù)據(jù)分布。此外,尾部概念的擴(kuò)散損失更大,表明它們相比頭部概念存在欠擬合問題。

IMBA Loss



首先,由于文本提示是多個(gè)概念的聯(lián)合分布,而每個(gè)概念的頻率不同,因此很難像分類任務(wù)那樣直觀且快速地為樣本設(shè)置損失權(quán)重。
其次,盡管可以構(gòu)建一個(gè)概念圖,將概念表示為節(jié)點(diǎn),概念對(duì)的共現(xiàn)頻率作為邊的值來推導(dǎo)損失權(quán)重,但模型學(xué)習(xí)的數(shù)據(jù)分布會(huì)隨著訓(xùn)練過程不斷變化。這種演化導(dǎo)致離線損失權(quán)重與模型認(rèn)知之間的不一致。
相較之下,IMBA 距離天然地與訓(xùn)練過程耦合,提供了更一致的數(shù)據(jù)分布表示。
第三,由于圖像的不同區(qū)域可能包含不同的概念,因此數(shù)據(jù)平衡應(yīng)在概念區(qū)域級(jí)別進(jìn)行。IMBA loss 支持為不同區(qū)域設(shè)置不同的損失權(quán)重,相比為所有區(qū)域設(shè)置一個(gè)統(tǒng)一權(quán)重
Inert-CompBench根據(jù)前文中的分析,本文進(jìn)一步發(fā)現(xiàn)數(shù)據(jù)集中一些低頻概念難以與其他概念成功組合,本文將其稱為惰性概念(inert concepts)。本文首先計(jì)算數(shù)據(jù)集中所有名詞概念的頻率,并在取對(duì)數(shù)后從每個(gè)頻率區(qū)間中均勻采樣6個(gè)概念。然后將它們兩兩組合,得到15個(gè)組合,并為每個(gè)組合生成5個(gè)標(biāo)題,共75個(gè)標(biāo)題。本文在基線模型上評(píng)估失敗率,如下圖7所示。

本文發(fā)現(xiàn),概念組合的成功率隨著概念頻率的增加而增加,這表明尾部概念相比頭部概念更容易出現(xiàn)失敗案例。因此,在構(gòu)建基準(zhǔn)測(cè)試時(shí)應(yīng)更加關(guān)注尾部概念。
由于現(xiàn)有基準(zhǔn)測(cè)試中對(duì)這些概念關(guān)注不足,本文從開放世界數(shù)據(jù)集中提取惰性概念,構(gòu)建了一個(gè)新的基準(zhǔn)測(cè)試集 Inert-CompBench 作為補(bǔ)充。如下面算法2所示,本文的框架包含五個(gè)階段:

該設(shè)計(jì)迫使模型處理統(tǒng)計(jì)上較弱的概念組合,有效暴露其組合推理能力的局限性。

實(shí)驗(yàn)
設(shè)置
為了保持?jǐn)?shù)據(jù)集一致并提高訓(xùn)練效率,本文對(duì)開源數(shù)據(jù)進(jìn)行重新標(biāo)注和篩選,得到一個(gè)高質(zhì)量的訓(xùn)練集,共包含3100萬(wàn)個(gè)樣本。本文采用一個(gè)參數(shù)量為10億的基于 DiT 的擴(kuò)散模型作為訓(xùn)練管道,未做任何特殊設(shè)計(jì)。文本提示通過 T5 模型注入擴(kuò)散模型,圖像大小為 ,并通過 Stable Diffusion 的 VAE 編碼到隱空間。
基線
本文在新數(shù)據(jù)集上用原始擴(kuò)散損失從頭訓(xùn)練擴(kuò)散模型4輪,以建立基線。為了展示本文方法的有效性,本文使用提出的 IMBA loss 在相同數(shù)據(jù)集上以相同輪數(shù)訓(xùn)練同一模型。此外,本文在基線模型上實(shí)現(xiàn)了無需訓(xùn)練的方法進(jìn)行對(duì)比。另外,本文還從第3輪開始微調(diào)基線模型1輪,引入 IMBA loss,展示本文方法在微調(diào)階段同樣具有顯著優(yōu)勢(shì)。
基準(zhǔn)測(cè)試
本文在 T2I-CompBench、LC-Mis 和 Inert-CompBench 上評(píng)估模型的概念組合能力。在 LC-Mis 和 Inert-CompBench 的評(píng)估中,本文采用基于 VLM 的 VQA 方法,如第3節(jié)實(shí)驗(yàn)設(shè)置所述。
定量對(duì)比
如下表3所示,本文在 LC-Mis、T2I-CompBench 和本文提出的 Inert-CompBench 上比較了基線、A&E、微調(diào)和從頭訓(xùn)練的 IMBA loss 方法。

與基線中的擴(kuò)散損失相比,本文的 IMBA loss 無論是在從頭訓(xùn)練還是從預(yù)訓(xùn)練模型微調(diào)的情況下,都能顯著提升概念組合能力。此外,從頭訓(xùn)練的效果優(yōu)于微調(diào)。
另外,在物體缺失方面本文的方法取得了類似的提升,而 A&E 在 CLIP 分?jǐn)?shù)上略優(yōu),但在屬性泄漏(形狀、顏色、紋理、VQA)方面表現(xiàn)遠(yuǎn)差。這是因?yàn)?A&E 受限于基礎(chǔ)生成模型,無法生成其不理解的概念。
同時(shí),在 Inert-CompBench 上,微調(diào)帶來的提升有限,說明惰性概念需要更長(zhǎng)的訓(xùn)練過程來增強(qiáng)其組合能力。
定性對(duì)比
在下圖8中,本文分別在三個(gè)基準(zhǔn)測(cè)試集上可視化對(duì)比結(jié)果,展示了本文方法的優(yōu)勢(shì)。本文不僅在現(xiàn)有基準(zhǔn)測(cè)試集上有效解決了物體缺失和屬性泄漏問題,還在 Inert-CompBench 上表現(xiàn)出顯著優(yōu)勢(shì),大幅提升了惰性概念的成功率。

消融實(shí)驗(yàn) 本文進(jìn)一步在樣本級(jí)損失權(quán)重、超參數(shù)和 IMBA 距離上進(jìn)行了全面實(shí)驗(yàn)。
結(jié)論
本文提出了一種基于概念均衡的損失函數(shù)IMBA loss,用于提升生成模型的概念組合能力。首先通過精心設(shè)計(jì)的實(shí)驗(yàn)分析了因果因素,彌合了合成實(shí)驗(yàn)與大規(guī)模文本-圖像生成之間的差距。證明了當(dāng)模型達(dá)到一定規(guī)模時(shí),數(shù)據(jù)分布成為關(guān)鍵因素。
隨后,提出 IMBA 距離來估計(jì)數(shù)據(jù)分布,并通過合成實(shí)驗(yàn)和文本-圖像實(shí)驗(yàn)驗(yàn)證其有效性。接著,本文引入了在線的概念級(jí)均衡方法 IMBA loss 來平衡概念。
進(jìn)一步地,從大規(guī)模文本-圖像數(shù)據(jù)集中識(shí)別出惰性概念,并構(gòu)建了新的基準(zhǔn)測(cè)試集 Inert-CompBench,作為對(duì)現(xiàn)有基準(zhǔn)的補(bǔ)充。最后,本文通過全面實(shí)驗(yàn)驗(yàn)證了本文方法的優(yōu)越性。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來

















