Qwen開源版Banana來了!原生支持ControlNet
Qwen版Banana來了!
剛剛,Qwen推出了新圖像編輯模型——Qwen-Image-Edit-2509。
不僅支持多圖融合,提供“人物+人物”,“人物+商品”,“人物+場景” 等多種玩法,還增強了人物、商品、文字等單圖一致性。

除此之外,它還原生支持ControlNet,可通過關鍵點圖改變人物姿勢,還可輕松實現換裝需求。
圖像編輯之余,Qwen還開源了端到端全模態模型Qwen3-omni,表現也可圈可點。既可當語音翻譯助手,還能立不同的人設,甚至支持方言輸出。
下面具體來看。
支持多圖輸入
新圖像編輯的首要更新就是支持了多圖輸入。
先看一個“人物+人物”生成結婚照的例子。
輸入兩張圖片:

然后,輸入以下提示詞:

結果閃亮登場:

不喜歡中式婚禮的也沒事,我們還可以生成西式的,主打一個用戶就是上帝。

再看“人物+場景”的應用,感覺可輕輕松松實現環球旅行。

令我比較驚訝的是,這還真不是簡單的圖像拼接,它甚至貼合場景改變了主角的神態,閉眼享受陽光的動作、躺椅上的影子,說實話,p圖我都p不出來這么細。
下面輪到“人物+物體”了,我把它稱為最快擁有奢侈品包包和豪車的方式。

此外,多圖輸入也支持ControlNet常用的關鍵點圖,比如改變人物姿勢。

還能在改變關鍵點的同時,進行換裝。

除此之外,普通證件照、形象照、生活照也是so easy。

想要Banana大火的美式精英風?無論是半身還是全身照,你想要的Qwen都有。

還能進行不同的姿勢編輯,俏皮、比心、舉黑板都是不在話下。

基于新模型上述圖像編輯能力,再加上其本身特色的文字生成能力,團隊發現它還很擅長制作表情包。

當然,對于更長的文字,新模型也依然可以在保持人物一致性的前提下進行渲染。

更有意思的是,它還可以給老照片進行修復,比如給照片上色。

還可以修復破損照片。

但是,這個美顏……
除了真實人物,生成卡通玩偶、文創也是分分鐘的事啦。

咦?這左下角不就是Nano Banana爆火的手辦嗎?Qwen新模型效果看起來也是很不錯的。
1個物品太簡單了,咱們再換個有14只貓的圖片試一下。

哇哦,貓的數量是對的,效果也是相當可以。
除了圖像方面,新模型還專門增強了文字一致性,支持了包括字體類型編輯、字體顏色編輯和字體材質編輯。

此外,它還支持定點文字編輯,細致到可將圈出來的錯字進行定點修改。
效果是這樣滴:

不僅如此,新模型還支持深度圖控制,保持物體與場景的一致性。

哎呀,這泥濘的道路、茂盛的叢林、真實的車轍印,真的不是戶外山地車的廣告嗎?
只有關鍵點也不耽誤出圖,無論男女、無論古代還是現代、無論什么穿著,Qwen都能統統搞定。

最后就是根據草圖來控制生圖,這一老一少真給人一種時光穿梭的感覺,再配個bgm氛圍感直接拉滿。

還有端到端全模態模型
Qwen不僅在圖像編輯上表現優異,它還開源了端到端、全模態大模型Qwen3-omni,不僅能夠無縫處理文本、音頻、圖像和視頻等多種輸入形式,還能邊生成文字邊實時合成語音。

主要特點如下所示:
跨模態的領先性能:在36項音頻及音視頻基準測試中,Qwen3-omni斬獲32項開源SOTA與22項總體SOTA,超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等閉源強模型,同時其圖像和文本性能也在同尺寸模型中達到SOTA水平。

多語言方面:Qwen3-omni支持119種文本語言、19種語音輸入語言和10種語音輸出語言。
效果be like:

不僅是實時翻譯助手,還能直接總結網頁內容,然后用你所需要的語言輸出。
更快響應:端到端音頻對話延遲低至211ms,視頻對話延遲低至507ms。
長音頻:支持長達30分鐘音頻理解。

個性化:支持system prompt隨意定制,可以修改回復風格,人設等。
比如廣東幼兒園老師或是四川女漢子。

咦,那么問題來了,這些方言是否標準噻?
工具調用:支持function call,實現與外部工具/服務的高效集成。
開源通用音頻Captioner:開源Qwen3-Omni-30B-A3B-Captioner,低幻覺且非常詳細的通用音頻caption模型,填補開源社區空白。

不僅能分析音樂風格,還能推理數學題,甚至還能當起語音助手喚醒其他應用。
這花里胡哨的功能真是令人眼花繚亂,感興趣的讀者趕緊去試試吧。






























