NIPS2025|小紅書(shū)智創(chuàng)AIGC團(tuán)隊(duì)提出布局控制生成新算法InstanceAssemble
當(dāng)下的文本生成圖像擴(kuò)散模型取得了長(zhǎng)足進(jìn)展,為圖像生成引入布局控制(Layout-to-Image, L2I)成為可能。
然而,現(xiàn)有布局到圖像生成方法在復(fù)雜場(chǎng)景下表現(xiàn)仍不理想:一方面,如何精確對(duì)齊給定布局并同時(shí)保持高畫(huà)質(zhì)是巨大挑戰(zhàn);另一方面,在擴(kuò)散生成的逐步去噪過(guò)程中確保每個(gè)目標(biāo)的位置與語(yǔ)義屬性不偏離也極為困難。此外,布局控制往往需要支持多模態(tài)條件(如文本、參考圖等信息),這進(jìn)一步增加了技術(shù)復(fù)雜度。
現(xiàn)有方案各有不足:無(wú)訓(xùn)練方法雖然無(wú)需改動(dòng)基礎(chǔ)模型,但在復(fù)雜布局下效果顯著下降,且對(duì)超參數(shù)敏感、推理速度慢;有訓(xùn)練方法通過(guò)額外模塊注入布局信息,但往往引入海量參數(shù),訓(xùn)練代價(jià)高昂。評(píng)估方面,傳統(tǒng)指標(biāo)也存在偏差,難以準(zhǔn)確衡量布局對(duì)齊程度。
這些挑戰(zhàn)和不足表明,實(shí)現(xiàn)穩(wěn)健且高效的布局可控圖像生成亟需新的算法創(chuàng)新。
為此,小紅書(shū)智能創(chuàng)作 AIGC 團(tuán)隊(duì)提出了 InstanceAssemble 框架,從架構(gòu)和評(píng)測(cè)上全面應(yīng)對(duì)上述難題,實(shí)現(xiàn)了在復(fù)雜布局條件下的精確圖像生成。


- 論文鏈接:https://arxiv.org/abs/2509.16691
- 項(xiàng)目主頁(yè):https://github.com/FireRedTeam/InstanceAssemble
方法

InstanceAssemble 方法在架構(gòu)上引入了級(jí)聯(lián)結(jié)構(gòu),將全局文本提示與實(shí)例級(jí)布局條件分階段處理。
具體而言,模型先利用原有 DiT 獲取全局圖像背景和整體語(yǔ)境,再通過(guò)新設(shè)計(jì)的實(shí)例組裝注意力模塊(Assemble-Attn)逐個(gè)整合各布局實(shí)例信息,實(shí)現(xiàn)局部精細(xì)控制。這樣的級(jí)聯(lián)架構(gòu)確保了全局質(zhì)量與局部對(duì)齊兩方面的兼顧,避免了同時(shí)處理所有實(shí)例可能產(chǎn)生的沖突。在實(shí)例組裝注意力中,每個(gè)目標(biāo)實(shí)例的注意力計(jì)算僅在其對(duì)應(yīng)圖像區(qū)域內(nèi)進(jìn)行,避免不同實(shí)例間互相干擾。
這種獨(dú)立注意力機(jī)制使模型能夠有效處理重疊或小物體等復(fù)雜布局情形,同時(shí)通過(guò)權(quán)重融合各實(shí)例特征,保持畫(huà)面整體協(xié)調(diào)。
此外,InstanceAssemble 使用 LoRA 模塊進(jìn)行輕量級(jí)模型適配。通過(guò)在基礎(chǔ)擴(kuò)散模型中注入少量 LoRA 參數(shù)(僅增加基礎(chǔ)模型的 3% 的參數(shù)量左右),實(shí)現(xiàn)了對(duì)現(xiàn)有 DiT-based 文本生成圖像模型的靈活擴(kuò)展。LoRA 的加入使模型在保留原有生成能力的同時(shí),能夠高效地學(xué)習(xí)布局控制,不需要大規(guī)模重訓(xùn)整個(gè)模型,并具備良好的兼容性(例如可方便地加載不同風(fēng)格的 LoRA 權(quán)重)。
最后,該方法還支持多模態(tài)的布局輸入:每個(gè)實(shí)例既可由文本描述指定,也能利用額外的圖像信息(如參考圖片、深度圖、邊緣圖等)來(lái)豐富內(nèi)容表示。
效果與對(duì)比
為了全面評(píng)估模型在復(fù)雜布局下的表現(xiàn),作者構(gòu)建了全新的基準(zhǔn)數(shù)據(jù)集 DenseLayout,包含 5000 張圖像和約 90000 個(gè)實(shí)例(平均每圖 18 個(gè)目標(biāo)),專門用于測(cè)試在高密度布局場(chǎng)景下的生成效果。同時(shí)提出了 LGS (Layout Grounding Score) 作為評(píng)測(cè)新指標(biāo),將空間精度和語(yǔ)義一致性相結(jié)合,更準(zhǔn)確地衡量生成圖像對(duì)布局指令的滿足程度。其中空間精度通過(guò)檢測(cè)目標(biāo)位置與給定邊界框的 IoU 計(jì)算得到,語(yǔ)義一致性則利用視覺(jué)問(wèn)答模型判斷顏色、材質(zhì)、形狀等屬性匹配度。


在上述嚴(yán)苛評(píng)測(cè)下,InstanceAssemble 展現(xiàn)了卓越的性能。實(shí)驗(yàn)結(jié)果表明,該方法在 DenseLayout 基準(zhǔn)上的布局對(duì)齊指標(biāo) (mIoU) 顯著優(yōu)于現(xiàn)有方法,綜合的 LGS 分?jǐn)?shù)處于當(dāng)前最優(yōu)水平,同時(shí)全局圖像質(zhì)量保持良好。特別是在稠密布局場(chǎng)景下(遠(yuǎn)超訓(xùn)練時(shí)≤10 個(gè)實(shí)例的密度),InstanceAssemble 依然能夠精確地將每個(gè)目標(biāo)生成在指定位置,并正確呈現(xiàn)其語(yǔ)義屬性,驗(yàn)證了模型的強(qiáng)泛化能力。
而對(duì)比方法在相同條件下往往出現(xiàn)漏生成、位置紊亂或風(fēng)格不一致的問(wèn)題,定性結(jié)果同樣佐證了這一點(diǎn)。
此外,得益于 LoRA 輕量架構(gòu),InstanceAssemble 相較其他有訓(xùn)練方法在參數(shù)開(kāi)銷和推理耗時(shí)上更具優(yōu)勢(shì),在效率與效果之間取得了良好平衡。

應(yīng)用
InstanceAssemble 的設(shè)計(jì)在兼顧性能的同時(shí),非常注重兼容擴(kuò)展性。由于采用 LoRA 作為插件式適配,研究者和從業(yè)者可以方便地為模型引入不同風(fēng)格遷移能力。例如,將經(jīng)過(guò)特定畫(huà)風(fēng)微調(diào)的 LoRA 模塊(如油畫(huà)風(fēng)格、3d 風(fēng)格等)加載到 InstanceAssemble 中,模型即可在保持布局精準(zhǔn)對(duì)齊的前提下,生成帶有對(duì)應(yīng)風(fēng)格的圖像。
這種對(duì)多種風(fēng)格 LoRA 的高兼容性使得模型能夠跨越不同域,進(jìn)行跨風(fēng)格、跨領(lǐng)域的布局圖像創(chuàng)作。

綜上所述,InstanceAssemble 通過(guò)其獨(dú)特的架構(gòu)和模塊設(shè)計(jì),實(shí)現(xiàn)了精細(xì)布局控制與高質(zhì)量生成的有機(jī)結(jié)合,不僅在學(xué)術(shù)基準(zhǔn)上取得領(lǐng)先表現(xiàn),也展現(xiàn)出廣闊的應(yīng)用潛力。未來(lái),隨著更多樣的 LoRA 模塊和多模態(tài)信息融入,InstanceAssemble 可進(jìn)一步拓展至智能排版、虛擬內(nèi)容創(chuàng)作、數(shù)據(jù)增強(qiáng)等諸多領(lǐng)域,推動(dòng)布局圖像生成的發(fā)展和落地應(yīng)用。
最后,小紅書(shū)智能創(chuàng)作團(tuán)隊(duì)正在火熱招人中!小紅書(shū)智能創(chuàng)作團(tuán)隊(duì)以 AI 及多媒體技術(shù)為核心,主要負(fù)責(zé)小紅書(shū)發(fā)布側(cè)的產(chǎn)品研發(fā),并向公司內(nèi)部各業(yè)務(wù)線(社區(qū)守護(hù)、社交、直播、電商、商業(yè)化廣告)提供業(yè)界領(lǐng)先的內(nèi)容創(chuàng)作、內(nèi)容理解、互動(dòng)體驗(yàn)等技術(shù)能力及解決方案。團(tuán)隊(duì)技術(shù)方向涵蓋多模態(tài) AIGC 、計(jì)算機(jī)視覺(jué)、語(yǔ)言語(yǔ)音、編輯渲染、算法工程等。
本篇工作著手于圖像可控生成,主要應(yīng)用在小紅書(shū)文字發(fā)布等功能的圖像素材生產(chǎn)中。
團(tuán)隊(duì)最近兩年累積發(fā)表了 30 余篇相關(guān)領(lǐng)域頂會(huì) or 頂刊論文,在技術(shù)上有 InstantID、Storymaker、FireRedTTS、FireRedASR 等知名技術(shù)開(kāi)源代表作,在業(yè)務(wù)上也做出了語(yǔ)音評(píng)論、文字功能等爆款功能。





































