開源多模態生成模型新標桿!OmniGen2:支持視覺理解、文生圖、圖像編輯等任務,探索高級多模態生成!
由北京人工智能研究院提出的 OmniGen2 是一個統一的多模態生成模型,它將強大的視覺理解、文本到圖像的合成、基于指令的圖像編輯以及主題驅動的上下文生成功能整合在一個框架內。它基于解耦架構,在保留高質量語言模型的同時,實現了細粒度且一致的視覺輸出。除了生成功能之外,OmniGen2 還集成了多模態反射機制,使其能夠分析、評估并迭代優化其輸出,從而將推理和自我修正功能引入圖像生成過程。憑借在生成和理解任務中均表現出色的優勢,它在輕量級開源模型中樹立了新的標桿。


文本到圖像生成

圖像編輯

上下文生成

相關鏈接
- 論文:https://arxiv.org/pdf/2409.11340
- 代碼:https://github.com/VectorSpaceLab/OmniGen2
- 模型:https://huggingface.co/OmniGen2/OmniGen2
- 主頁:https://vectorspacelab.github.io/OmniGen2
- 試用:https://huggingface.co/spaces/OmniGen2/OmniGen2
論文介紹

大型語言模型 (LLM) 的出現統一了語言生成任務,并徹底改變了人機交互。然而,在圖像生成領域,一個能夠在單一框架內處理各種任務的統一模型仍然鮮有開發。本文介紹了 OmniGen,一個用于統一圖像生成的新型擴散模型。OmniGen 具有以下特點:
- 統一性:OmniGen 不僅具備文本到圖像的生成能力,還原生支持各種下游任務,例如圖像編輯、主題驅動生成和視覺條件生成。
- 簡潔性:OmniGen 的架構高度簡化,無需額外的插件。此外,與現有的擴散模型相比,它更加用戶友好,可以通過指令端到端地完成復雜任務,無需額外的中間步驟,從而大大簡化了圖像生成工作流程。
- 知識遷移:得益于統一的學習模式,OmniGen 能夠有效地跨不同任務遷移知識,管理未知任務和領域,并展現出新穎的能力。我們還探索了該模型的推理能力以及思維鏈機制的潛在應用。
模型架構
OmniGen2 采用雙路徑架構,分別使用自回歸 Transformer 和擴散 Transformer 來生成文本和圖像。它采用解耦設計,其中 ViT 編碼器將視覺信息輸入多模態大型語言模型 (MLLM) 以執行理解任務,而 VAE 編碼器則專門為擴散解碼器提供細粒度的視覺特征。這種分離保留了 MLLM 強大的語言建模能力,同時實現了高保真度和一致的圖像生成,使該架構在文本到圖像合成、圖像編輯和上下文生成等任務中既高效又靈活。

圖 1: OmniGen2 的架構。
多模態旋轉位置嵌入:引入了一種新穎的Omni-RoPE,專門設計用于滿足我們多樣化和復雜任務的需求,特別是圖像編輯和上下文生成,如圖 2 所示。

圖 2:Omni-RoPE的示意圖。
它將位置信息分解為三個部分:
- 序列和模態標識符: 對于單個圖像中的所有標記(將其視為語義單元)而言,它是恒定的,但在不同的圖像之間卻是唯一的。
- 二維空間高度坐標:表示圖像標記的標準化垂直位置。
- 二維空間寬度坐標:表示圖像標記的標準化水平位置。對于所有非圖像標記,兩個空間坐標設置為零。
這種雙重機制使模型能夠通過其獨特的,而共享的局部空間坐標增強了圖像編輯等任務的一致性。
模型功能
視覺理解
OmniGen2 利用強大的多模態大型語言模型 (MLLM) 來跨多種圖像類型執行穩健的視覺理解。通過使用 ViT 編碼器進行圖像表示,并保持 MLLM 基本穩定,它在標準基準測試中實現了強勁的性能,同時保留了跨文本和視覺輸入的語義對齊、對象識別和推理能力。
文本到圖像生成
OmniGen2 支持高質量的文本轉圖像生成,具有強大的組合推理能力和較長的提示跟隨功能。通過對基于擴散的圖像解碼器進行調節,使其能夠將語言模型中的隱藏狀態和 VAE 中的細粒度視覺特征結合起來,它可以生成忠實連貫的圖像,并與復雜的自然語言描述緊密相關。

基于指令的圖像編輯
該模型能夠基于自然語言指令進行精準的局部圖像編輯。憑借專用的編輯數據集和雙路徑架構,OmniGen2 可以進行細粒度的修改(例如對象操作、樣式更改或運動編輯),同時保留未編輯區域并保持視覺真實感和一致性。

上下文生成(主題驅動)
OmniGen2 擅長基于主題的生成,它從參考圖像中提取主題,并根據文本提示在新場景中重新渲染。通過基于視頻數據專門設計的訓練流程,該模型展現出卓越的主題一致性和語境整合能力,超越了這一新興領域的現有開源模型。

多模態反射
OmniGen2 的一大特色在于其內置的反射機制,使其能夠評估自身的輸出,識別不足之處,并通過迭代改進生成更優的結果。該功能由圖文分析和自我校正訓練相結合而成,為生成帶來了一種多模態推理,從而提升了可控性、可靠性和輸出質量。

本文轉載自???AIGC Studio???,作者:AIGC Studio

















