ICCV 2025 | 上交&阿里聯合研發RAGDiffusion:多模態融合精準還原服裝結構,一鍵提取生成服裝平面信息
RAGDiffusion 是由上海交通大學與阿里巴巴聯合提出的一項前沿技術,旨在解決標準服裝資產生成中的結構失真與細節模糊問題。該技術通過引入檢索增強生成(RAG)框架,結合對比學習和結構局部線性嵌入(SLLE),實現了對服裝結構的高精度捕捉與細節的真實還原。同時,RAGDiffusion 支持多模態輸入,能夠理解復雜語義關系,生成多樣化的高質量服裝圖像,為時尚設計、電商展示等領域帶來了革命性變化。

RAGDiffusion 通過吸收檢索到的知識,合成結構和圖案上忠實于標準的服裝。
相關鏈接
- 論文:https://arxiv.org/pdf/2411.19528
- 主頁:https://colorful-liyu.github.io/RAGDiffusion-page
論文介紹

標準服裝資產生成涉及從多樣化的現實世界情境中提取服裝信息,創建在清晰背景上顯示的正面平鋪服裝圖像。由于高度標準化的采樣分布和對生成圖像精確的結構要求,這項任務面臨著巨大的挑戰。現有模型的空間感知能力有限,并且在這種高規格的生成任務中經常出現結構幻覺。為了解決這個問題,我們提出了一種名為 RAGDiffusion 的新型檢索增強生成 (RAG) 框架,通過吸收來自 LLM 和數據庫的外部知識來增強結構確定性并減輕幻覺。RAGDiffusion 包含兩個核心過程:
- 基于檢索的結構聚合,它采用對比學習和結構局部線性嵌入 (SLLE) 來獲取全局結構和空間地標,提供軟指導和硬指導以抵消結構模糊性;
- 全方位忠實服裝生成,引入三級對齊,確保擴散過程中結構、圖案和解碼組件的保真度。
在具有挑戰性的真實數據集上進行的大量實驗表明,RAGDiffusion 能夠合成結構和細節忠實的服裝素材,并顯著提升性能,代表了 RAG 在高規格忠實生成方面取得的開創性成果,旨在克服內在幻覺并提高保真度。
方法概述

RAGDiffusion 的核心在于其創新的 RAG 框架,該框架包含兩個關鍵過程:
- 檢索增強結構聚合:利用對比學習訓練雙塔網絡,提取多模態結構嵌入,并通過 SLLE 算法將這些嵌入映射到標準結構流形上,提供軟硬雙重結構指導,有效消除結構歧義。
- 全級別忠實服裝生成:在擴散模型生成過程中,引入三層次對齊機制,分別在結構、圖案和解碼層面確保生成結果的忠實性。通過嵌入提示適配器、參考網絡和參數漸進編碼適配等技術,提升生成圖像的結構準確性、圖案細節匹配度和解碼保真度。
實驗結果




在極具挑戰性的真實世界數據集上,RAGDiffusion 展現了卓越的性能。實驗結果表明,與現有方法相比,RAGDiffusion 生成的服裝圖像在結構準確性和細節還原度上均有顯著提升。具體而言,其在 SSIM、LPIPS、FID和 KID等關鍵指標上均優于基線模型,證明了 RAGDiffusion 在服裝生成任務中的優越性和魯棒性。
結論
實驗結果充分證明了 RAGDiffusion 在提升生成圖像質量和多樣性方面的有效性。未來,隨著技術的不斷發展和完善,RAGDiffusion 有望在時尚設計、電商展示、虛擬試衣等多個領域發揮更大作用,推動時尚產業的數字化轉型和升級。
本文轉載自??AIGC Studio??,作者:AIGC Studio

















