字節開源 DreamOmni2:多模態賦能突破傳統局限,開啟圖像編輯與生成新高度
在圖像編輯與生成領域,基于指令的編輯和主題驅動的生成雖有進展,但存在局限。前者依賴語言指令難捕捉細節,后者局限于具體物體組合。由香港中文大學、香港科技大學、香港大學及字節跳動提出的基于多模態指令的編輯和生成任務DreamOmni2,支持文本與圖像指令,拓展至抽象概念。通過三步數據合成流程解決數據創建難題,采用索引編碼等方案優化模型框架,還提出全面基準測試。實驗顯示 DreamOmni2 成果斐然,模型和代碼即將發布,有望為該領域帶來新變革。


相關鏈接
- 項目:https://pbihao.github.io/projects/DreamOmni2/index.html
- 試用:https://huggingface.co/spaces/wcy1122/DreamOmni2-Edit
- 代碼:https://github.com/dvlab-research/DreamOmni2
論文介紹
基于指令的圖像編輯和主題驅動的生成領域的最新進展引起了廣泛關注,但這兩項任務在滿足實際用戶需求方面仍然存在局限性。基于指令的編輯僅依賴于語言指令,而語言指令往往無法捕捉具體的編輯細節,因此需要參考圖像。與此同時,主題驅動的生成僅限于組合具體的物體或人物,而忽略了更廣泛、更抽象的概念。
為了應對這些挑戰,論文提出了兩項新穎的任務:基于多模態指令的編輯和生成。這些任務同時支持文本和圖像指令,并將范圍擴展到具體概念和抽象概念,從而極大地增強了它們的實際應用。論文推出了 DreamOmni2,以應對兩個主要挑戰:數據創建和模型框架設計。 數據合成流程包含三個步驟:
- 使用特征混合方法為抽象概念和具體概念創建提取數據;
- 使用編輯和提取模型生成多模態基于指令的編輯訓練數據;
- 進一步應用提取模型創建多模態基于指令的編輯訓練數據。
對于該框架,為了處理多圖像輸入,提出了一種索引編碼和位置編碼移位方案,這有助于模型區分圖像并避免像素混淆。此外引入了 VLM 和我們的生成/編輯模型的聯合訓練,以更好地處理復雜指令。此外還為這兩項新任務提出了全面的基準測試,以推動其發展。實驗表明, DreamOmni2 取得了令人矚目的成果。
方法概述

DreamOmni2 訓練數據構建概述。
- 在第 1 階段,使用特征混合方案來利用基礎模型的 T2I 功能,創建包含具體對象和抽象屬性的高質量數據對。
- 在第 2 階段,生成基于多模態指令的編輯數據。使用第 1 階段的數據,我們訓練一個提取模型來模擬目標圖像中的對象或屬性,并根據指令生成參考圖像。此外,使用基于指令的編輯模型修改目標圖像中提取的對象或屬性,使其有所不同,從而創建源圖像。這將生成從參考圖像和源圖像到目標圖像的訓練對。
- 在第 3 階段,從第 2 階段的源圖像中提取對象以創建新的參考圖像,形成用于從參考圖像生成目標圖像的訓練數據。

- 基于多模態指令的編輯和生成訓練數據的數據分布和樣本。 我們的數據集全面且多樣化,包括具體對象的生成和編輯, 以及抽象屬性(例如局部屬性和全局屬性)。
實驗結果

基于多模態指令的編輯的視覺比較。與其他競爭方法甚至閉源商業模型(GPT-4o 和 Nano Banana)相比,DreamOmni2 展現出更準確的編輯結果和更好的一致性。

基于多模態指令的編輯的定量比較。使用 Gemini和豆包分別評估不同模型在具體對象和抽象屬性上的編輯成功率。此外,“人工”指的是評估所有模型編輯成功率的專業工程師。

基于多模態指令的生成的視覺比較。我們的 DreamOmni2 顯著優于當前的開源模型,并實現了與閉源商業模型(GPT-4 和 Nano Banana)相當的生成結果。

總結
當前基于指令的圖像編輯依賴語言,但語言難精準描述編輯需求,需參考圖像;主題驅動生成模型多聚焦具體對象,難基于抽象概念生成圖像。為此,論文提出多模態基于指令的編輯和生成新任務,其參考涵蓋具體對象與抽象屬性。新任務面臨訓練數據和多圖像輸入框架兩大挑戰,通過三階段數據合成流程解決數據難題,以索引編碼和位置編碼移位方案優化框架,還采用聯合訓練提升模型理解復雜指令的能力。大量實驗表明,DreamOmni2 性能表現優異。
本文轉載自??AIGC Studio??,作者:AIGC Studio

















