阿里開源首個圖像生成模型Qwen-Image:超強中文渲染能力刷新SOTA! 原創
阿里又開源了,這次發布的新模型解決了復雜文本渲染的難題。
剛剛,通義千問正式開源其首個圖像生成基礎模型——Qwen-Image。這是一款基于 200 億參數的多模態擴散變換器(MMDiT)架構的模型,在復雜文本渲染和精確圖像編輯兩大領域實現了顯著突破,為生成式AI領域提供了全新的開源選擇。
?

?
Qwen-Image的核心突破在于解決了圖像生成領域長期存在的文本渲染難題。
?
以往,傳統模型生成的圖像中常常出現文字扭曲、內容錯誤或排版混亂問題,而 Qwen-Image 能夠支持多行布局、段落級文本生成以及細粒度細節呈現,在英語和中文文本渲染上都達到高保真輸出水準。
?
特別是在中文文本渲染方面,該模型大幅領先現有最先進模型,能夠精準生成書法對聯、招牌文字等復雜中文元素,保持字體形態與排版準確性。
?

?
目前,在多個權威基準測試中,該模型全面刷新了當前最佳性能記錄。評估涵蓋通用圖像生成的GenEval、DPG和OneIG-Bench,以及圖像編輯領域的GEdit、ImgEdit和GSO。特別是在文本渲染專項測試LongText-Bench、ChineseWord和TextCraft中,Qwen-Image的表現尤為突出。
?

?
除了文本處理優勢,Qwen-Image在通用圖像生成領域支持多種藝術風格轉換,涵蓋照片級寫實場景、印象派繪畫、動漫風格到極簡設計。
?
在圖像編輯功能上,模型支持風格遷移、元素增刪改、細節增強、文字內容編輯以及人物姿態調整等多種操作。通過增強的多任務訓練范式,模型在編輯過程中能有效保持一致性,確保多輪修改后圖像主體ID和風格連貫統一。
?
技術架構上,Qwen-Image采用雙編碼機制:Qwen2.5-VL負責解析提示詞語義,圖像生成在潛在空間通過MMDiT擴散模型完成,最終通過VAE編碼器輸出圖像。此外,還設計了一種新的位置編碼方案 MSRoPE(Multimodal Scalable RoPE),以聯合編碼圖像和文本模態的位置信息。
?

【Qwen-Image 架構圖】
?
訓練過程中,團隊特別設計程序化合成策略,基于預定義模板(如PPT幻燈片或UI模型)進行規則化文本渲染訓練,提升模型處理復雜布局的能力。
?
在廣告設計、宣傳物料制作、產品說明書排版等商業應用場景中,該模型能夠有效解決文字排版問題,也為教育內容創作、多媒體產品設計等領域提供了新工具。
?
目前,Qwen-Image已在魔搭社區和Hugging Face平臺同步開放。普通用戶可通過Qwen Chat平臺訪問該模型,在聊天界面選擇“圖像生成”功能即可體驗。
?
Qwen-Image 在中文環境下的優異表現,填補了中文AI圖像生成工具的空白。這意味著,圖像生成領域的技術標桿再次提升。
?

















