Uniworld:北大聯合兔展智能打造的AI圖像編輯界的“全能選手” 精華
在人工智能領域,多模態大模型的快速發展為圖像生成與編輯帶來了新的機遇。UniWorld作為這一領域的前沿成果,由北京大學與兔展智能聯合推出,旨在通過創新的模型架構和訓練方法,實現高效、精準的圖像編輯與生成。

一、項目概述
UniWorld是一個專注于圖像編輯與生成的多模態大模型,其核心目標是通過統一的架構實現圖像理解、生成、編輯和感知等多任務處理。該模型在圖像編輯領域引入了強化學習策略優化,解決了傳統監督微調方法的過擬合和泛化能力差的問題。UniWorld通過高分辨率語義編碼器和多模態大語言模型(MLLM)的結合,實現了在多個基準測試中的卓越性能,展現出強大的通用性和泛化能力。

二、核心功能
(一)中文字體精準渲染
UniWorld能夠理解和生成復雜的藝術中文字體,如“月滿中秋”等,效果清晰且語義準確。用戶只需通過簡單指令即可實現文字的修改和優化,模型能夠精準識別字體風格和布局要求,生成高質量的圖像內容。
(二)精細化空間控制
UniWorld支持通過畫框指定編輯區域,例如“將鳥移出紅框”,模型能夠嚴格遵守空間限制,完成高難度操作。用戶可以通過簡單的指令指定編輯范圍,模型會精準地在指定區域內進行操作,避免對其他區域的干擾。
(三)全局光影融合
UniWorld深刻理解光影指令,如“給場景重新打光”,能夠使物體自然融入場景,光影融合度高。模型通過全局光影控制技術,確保編輯后的圖像在光影效果上保持自然和諧,避免出現不自然的光影過渡。
(四)指令對齊與圖像質量提升
UniWorld在指令對齊性和圖像質量方面表現出色,用戶更傾向于其輸出結果,尤其在指令遵循方面表現突出。模型通過多模態大語言模型(MLLM)作為獎勵模型,提供細粒度的反饋,確保生成的圖像與用戶指令高度一致,同時保持高質量的視覺效果。
(五)多模型適用性
UniWorld框架具有模型無關性,可應用于多種基礎模型,如Qwen-Image-Edit和FLUX-Kontext等,顯著提升這些模型的性能。通過創新的訓練框架和強化學習策略優化,UniWorld能夠為不同的基礎模型提供通用的優化方案,使其在多種圖像編輯任務中表現更優。

三、技術揭秘
(一)創新訓練框架
采用UniWorld-R1訓練框架,首次將強化學習策略優化應用于圖像編輯,通過Diffusion Negative-aware Finetuning(DiffusionNFT)技術實現無需似然估計的策略優化,提升訓練效率。
(二)多模態獎勵模型
使用多模態大語言模型(MLLM)作為獎勵模型,直接利用其輸出的對數值提供細粒度反饋,避免復雜推理和采樣帶來的計算開銷和偏差。
(三)低方差組過濾機制
針對獎勵歸一化中的低方差組問題,設計了基于獎勵均值和方差的過濾策略,剔除高均值低方差的樣本組,穩定訓練過程。
(四)高分辨率語義編碼器
UniWorld使用高分辨率對比學習視覺編碼器SigLIP2-so400m/14來處理參考圖像,富含像素級的局部信息和全局概念,能夠為生成提供精細的紋理、風格和結構指導。
四、應用場景
(一)廣告與營銷
在廣告與營銷領域,UniWorld能夠快速生成符合品牌需求的創意圖像。通過簡單的指令,用戶可以輕松修改廣告中的文字、調整產品展示的角度或改變背景風格,從而提升廣告的吸引力和營銷效果。這種高效的內容創作方式不僅節省了設計師的時間,還能快速響應市場變化,滿足不同廣告渠道的視覺需求。
(二)影視與游戲
對于影視和游戲行業,UniWorld可以輔助角色設計、場景構建和特效制作。例如,通過指令修改角色的服裝風格、調整場景的光影效果或添加特效元素,大大降低了創作成本和時間。其精細化的空間控制和全局光影融合能力,能夠生成高質量的視覺內容,為影視和游戲制作提供強大的技術支持。
(三)電子商務
在電子商務領域,UniWorld可用于優化產品展示圖。商家可以通過簡單的指令調整產品圖片的背景、光影或添加特效,使產品更加吸引消費者。此外,模型還能快速生成不同風格的產品圖,滿足不同電商平臺的展示需求,從而提升用戶的購買意愿和轉化率。
(四)教育與科研
UniWorld作為教學工具,可以支持圖像數據處理和結果展示。在教育領域,教師可以利用它生成教學所需的圖像素材,如教材插圖、教學課件等,幫助學生更好地理解和掌握知識。在科研中,UniWorld可用于生成模擬圖像數據,輔助實驗設計和結果展示,為醫學圖像處理、環境科學等領域的研究提供支持。
(五)創意設計
對于創意設計師來說,UniWorld是一個強大的工具。它能夠根據設計師的指令快速生成多種設計風格的圖像,支持從概念草圖到最終設計的快速迭代。設計師可以通過指令調整圖像的色彩、風格或布局,探索不同的設計方向,從而激發更多的創意靈感,提升設計效率和質量。
五、快速使用
模型示例如下:
import os
import torch
from PIL import Image
from diffusers import QwenImageEditPlusPipeline
pipeline = QwenImageEditPlusPipeline.from_pretrained("Qwen/Qwen-Image-Edit-2509", torch_dtype=torch.bfloat16)
print("pipeline loaded")
pipeline.load_lora_weights(
"chestnutlzj/Edit-R1-Qwen-Image-Edit-2509",
adapter_name="lora",
)
pipeline.set_adapters(["lora"], adapter_weights=[1])
pipeline.to('cuda')
pipeline.set_progress_bar_config(disable=None)
image1 = Image.open("input1.png")
image2 = Image.open("input2.png")
prompt = "The magician bear is on the left, the alchemist bear is on the right, facing each other in the central park square."
inputs = {
"image": [image1, image2],
"prompt": prompt,
"generator": torch.manual_seed(0),
"true_cfg_scale": 4.0,
"negative_prompt": " ",
"num_inference_steps": 40,
"guidance_scale": 1.0,
"num_images_per_prompt": 1,
}
with torch.inference_mode():
output = pipeline(**inputs)
output_image = output.images[0]
output_image.save("output_image_edit_plus.png")
print("image saved at", os.path.abspath("output_image_edit_plus.png"))六、結語
UniWorld作為一款創新的多模態大模型,在圖像編輯與生成領域展現了強大的性能和廣泛的應用前景。其通過強化學習策略優化和多模態大語言模型的結合,解決了傳統方法的局限性,為圖像編輯領域帶來了新的突破。未來,隨著技術的進一步發展,UniWorld有望在更多領域實現更高效、更精準的圖像處理能力,為人工智能的發展貢獻更多力量。
項目地址
GitHub倉庫:??https://github.com/PKU-YuanGroup/Uniworld??
arXiv技術論文:???https://arxiv.org/pdf/2510.16888??
本文轉載自??小兵的AI視界??,作者:AGI小兵

















