谷歌痛失王座?港科大賈佳亞團隊DreamOmni2開源,超強P圖暴擊Nano Banana
AI圖像模型殺瘋了!
年初,GPT-4o引爆了一股「吉卜力」熱潮。
最近,全網更是玩瘋了Nano Banana生成的3D手辦。

雖然但是,不知道你有沒有發現一個「華點」:
這些統一生成與編輯,更多都是在卷指令編輯與實體概念的組合生成;如果想作為智能創作工具,實際上還差著不少。
- 當語言變得蒼白無力。
想象一下,你希望將一張照片中人物的背包,換成另一張照片里裙子的那種圖案。你該如何用語言,向AI精確描述那種復雜而不規則的波西米亞風格圖案呢?
答案是:幾乎不可能。
- 當靈感并非實體物體。
更進一步,當你想借鑒的不是物體,而是一種抽象的「感覺」——
例如,一張老照片獨特的「復古膠片感光影」,或者一種特定畫家的「筆觸風格」時,那些只擅長提取和復制一個具體的「物體」的模型便會束手無策。
要是AI既能聽懂人話,又能精準Get這些抽象的風格,那該多好!
最近,這個瓶頸被港科大賈佳亞帶領的AI研究團隊給捅破了,Github 兩周攬星1.6K,被很多國外創作者分享在YouTube和論壇上,引發大量討論。
在這一篇名為「DreamOmni2: Multimodal Instruction-based Editing and Generation」的論文中,AI掌握了針對「抽象概念」的多模態編輯與生成能力。

· 論文地址:
https://arxiv.org/html/2510.06679v1
· 項目主頁:
https://pbihao.github.io/projects/DreamOmni2/index.html
· 代碼倉庫:
https://github.com/dvlab-research/DreamOmni2
基于強大的FLUX Kontext模型,DreamOmni2在保留頂尖文生圖與指令編輯能力的基礎上,被賦予了處理多個參考圖像的全新能力,使其成為更加智能的創作工具。
它不僅在傳統任務上顯著優于現有的開源模型,更在全新的抽象概念處理任務上,展現出超越谷歌最強Nano Banana的實力。
開源版Nano Banana,但更強
光說不練假把式,我們直接上實測。
首先來個經典的:輸入一個產品,然后讓角色來「帶貨」。
Prompt:
The character from the first image is holding the item from the second picture.
讓圖1里的角色,拿著圖2里的物品。
這表情、這頭發、這手指的細節,以及衣服的質感,簡直完美有沒有。
而且,產品本身也得到了很好的融入。

接下來,我們再試試三次元里的效果——讓模型把圖1中的男子,替換成圖2中的女子。

結果出爐!
可以看到,在生成的圖片中,背景的山巒和賽博感的光線效果幾乎完美繼承,人物身前的文字更是毫無影響。
人物方面,衣服和發型基本和原圖2一致,面部的光線則模仿了圖1中的效果。
可以說是十分驚艷了。

說到光線渲染,我們加大難度,讓模型把圖2中的紅藍風格,遷移到圖1上。
Prompt:
Make the first image has the same light condition as the second image.
讓圖1的光照和圖2保持一致。

沒想到,DreamOmni2不僅保持了圖1原有的像格柵一樣的光照,融合之后的紅藍對比也十分強烈。

相比之下,GPT-4o(下圖左)只遷移了色調,光影效果沒有保留。Nano Banana(下圖右)只能說稍稍變了點色,但不多。

風格遷移更是手拿把掐。
Prompt:
Replace the first image have the same image style as the second image.
將圖1處理成與圖2相同的風格
像素風的雞——搞定。

二次元風的小姐姐——搞定。(太美了)

圖案、文字,也通通不在話下。


Prompt:
On the cup, "Story" is displayed in the same font style as the reference image.
在杯子上用參考圖里的同款字體顯示“Story”字樣

不僅如此,DreamOmni2也十分擅長對動作進行模仿。
Prompt:
Make the person from the first image has the same pose as person from the second image.
讓圖1里的人,模仿圖2中的姿勢

在DreamOmni2生成的結果中,胳膊和腿的動作基本完美復刻了圖2。
但有些遺憾的是,人物的方向和手部的細節略有不同。

不過,相比起在語義理解上出了大問題的開源模型FLUX Kontext,那強了可不是一星半點。
如下圖所示,顯然,Kontext完全沒有搞懂什么「第一張圖」、「第二張圖」,以及還要調整姿勢什么的,于是干脆復制了一遍圖2完事。

閉源模型這邊,GPT-4o(下圖左)的動作模仿比較到位,但面部的一致性不太好。
而Nano Banana(下圖右)就有點抽象了,生生造出了個「三體人」:)

除了身體上的動作,DreamOmni2在面部微表情,以及發型這塊編輯,也是又準又穩。
Prompt:
Make the person in the first image have the same expression as the person in the second image.
讓圖1里的人,做出和圖2相同的表情。
嘴巴張開的大小、眼睛瞇成的縫,簡直一模一樣,可以說是非常燦爛了。
這種效果如果像要靠語言去形容,恐怕是很難做到的。

Prompt:
Make the person in the first image have the same hairstyle as the person in the second image.
給圖1里的人換上和圖2中一樣的發型
不管是背景的沙發,還是人物的動作、衣服,都一點沒變;只有頭發從黑色短發變成了長長的金色卷發。
注意看脖子,因頭發遮擋而帶來的陰影,也一并呈現了出來。

值得一提的是,DreamOmni2的多圖編輯能力非常強。
比如,讓圖1的鸚鵡戴上圖2的帽子,模仿圖3中的氛圍與色調。

可以看到,從鸚鵡的羽毛、帽子顏色,到整個背景的氛圍都很好的復刻了上圖中的火箭圖片。

再上點難度:一下子輸入4張圖,然后讓模型把前3張圖組合起來,并改成圖4的風格。

不管是女生衣服上的條紋、男生臉上的絡腮胡,還是小狗的品種,都完美地遷移了過去。
同時,畫中的筆觸和色彩運用,也得到了比較忠實的呈現。

國外的網友們在體驗之后,紛紛表示驚艷。
甚至還有人出了一期教程,直言「別再用Nano Banana了,DreamOmni2 ComfyUI才是最強的免費工作流!」

更多實測可見:
· Huggingface Editing Demo:
https://huggingface.co/spaces/wcy1122/DreamOmni2-Edit
· Huggingface Generation Demo:
https://huggingface.co/spaces/wcy1122/DreamOmni2-Gen
· Video Demo:
https://www.youtube.com/watch?v=8xpoiRK57uU
實驗驗證
當AI學會了「照樣子改」
為了真實展現DreamOmni2性能,研究團隊專門打造了一個全新的DreamOmni2基準測試集,包括205個多模態指令式編輯測試用例和114個指令式生成測試用例。
考察的重點便是多模態指令生成以及「抽象屬性」和「具體物體」的混合編輯。

DreamOmni2基準測試中多模態指令生成及編輯示例
在多模態指令編輯測試中,相比于業界頂流GPT-4o和Nano Banana,DreamOmni2顯示出了更精確的編輯結果和更好的一致性。
除了編輯指令的執行率之外,GPT-4o和Nano Banana在編輯時還會存在一些小問題,例如,經常引入意料之外的改動或不一致。比如,你讓它換個姿勢,它連衣服都給你換了。
在縱橫比方面,GPT-4o只支持三種輸出,而Nano Banana的則難以控制。
更有趣的是,GPT-4o處理過的圖片還會「蜜汁發黃」。
相比之下,這些問題在DreamOmni2上都是不存在的。

多模態指令編輯的視覺比較
在定量分析的表格里,也反映出了這些問題。
DreamOmni2在「具體物體」和「抽象屬性」上的得分都是最高的,一些方面超過了GPT-4o和Nano Banana。

在多模態指令生成方面,DreamOmni2表現同樣驚艷。
實測結果表明,此前的開源模型在生成抽象屬性方面十分困難。
例如下圖第四行,將照片中的狗抽象成右邊的素描風格,幾個開源模型幾乎是「無動于衷」。
相比之下,DreamOmni2不僅顯著領先開源模型,而且還達到了與GPT-4o和Nano Banana相當甚至更好的水平。

多模態指令生成可視化對比
定量評估中,DreamOmni2也在人工評估和AI模型評估中均優于商業模型Nano Banana,取得了與GPT-4o相當的結果。
在生成準確性和對象一致性方面也要優于一眾開源模型,即使在這些開源模型的專業領域內也是如此。

數據構建
從零開始,融合視覺靈感
要實現如此強大的功能,最大的挑戰在于訓練數據。
顯然,這個世界上并不存在海量的「(源圖像+參考圖像+指令)-> 目標圖像」這樣的現成數據對。
為了解決這一問題,研究團隊設計了一套的三階段數據構建范式,為DreamOmni2「量身定制」了高質量的教材。
第一階段:創造高質量的概念對
團隊利用基礎模型的文生圖能力,提出了一種新穎的特征混合方案。
它可以在生成圖像的過程中,交換兩個生成分支之間的注意力特征,從而創造出包含相同具體物體或相同抽象屬性的高質量圖像對。
相比于過去將兩張圖拼接在一起的方法,這種方案生成的圖像分辨率更高,質量更好,且完全避免了邊緣內容混淆的問題。
第二階段:生成多模態「編輯」數據
利用第一階段的數據,團隊首先訓練了一個「提取模型」。這個模型能從一張圖像中精準「提取」出某個物體或某種抽象屬性,并根據指令生成一張新的參考圖。
隨后,他們利用一個基于指令的編輯模型,對目標圖像中提取出的物體或屬性進行修改,從而創造出「源圖像」。
這樣一來,一個完整的編輯訓練數據對就誕生了:(源圖像 + 編輯指令 + 參考圖像)-> 目標圖像。
第三階段:創建多模態「生成」教材
在第二階段的基礎上,團隊再次使用「提取模型」,從源圖像中提取出更多物體或屬性,生成更多的參考圖像。
這樣,就構成了用于多模態生成的訓練數據:(多張參考圖像 + 生成指令)-> 目標圖像。

通過這個三階段流水線,團隊成功構建了一個多樣化、高質量的綜合數據集,涵蓋了對具體物體和抽象屬性(如局部和全局屬性)的生成和編輯,并且支持多個參考圖像輸入。

多模態指令編輯和生成訓練數據的分布和樣本
框架革新
讓模型真正理解多圖像輸入
有了數據,還需要一個能「消化」這些數據的模型框架。
然而,當前SOTA的統一生成和編輯模型(如FLUX Kontext),并不支持多圖像輸入。
為此,團隊對框架進行了兩項關鍵創新,以及相應的訓練機制:
1. 索引編碼與位置編碼移位
為了讓模型能夠準確區分多個參考圖像并理解指令中對它們的引用(例如,圖像1、圖像2),引入了索引編碼(Index Encoding)和位置編碼偏移方案(Position Encoding Shift Scheme)。
其中,索引編碼可以幫助模型識別輸入圖像的索引,而位置編碼則會根據先前輸入的大小進行偏移,從而防止像素混淆和生成結果中出現復制粘貼的偽影。
這兩者結合,讓模型能夠清晰、準確地處理多圖像輸入。
2. 視覺語言模型(VLM)與生成模型的聯合訓練
現實世界中,用戶的指令往往是不規范、甚至邏輯混亂的;而模型訓練時用的指令卻是結構化的。
為了彌合這一鴻溝,團隊創新性地提出了一種聯合訓練方案,顯著提升了模型理解用戶意圖的能力,增強了在真實應用場景中的性能。
具體來說,他們讓一個強大的VLM(Qwen2.5-VL)先來理解用戶的復雜指令,并將其「翻譯」成模型能理解的結構化格式,最后再交由生成/編輯模型去執行。
3. LoRA微調
在訓練策略上,團隊采用了LoRA微調方法。這樣做的好處是,可以在不影響模型原有強大能力的基礎上,使其多模態能力(多圖輸入和編輯/生成)能夠在檢測到參考圖像時無縫激活,同時保留了基礎模型的原始指令編輯能力。
AI創作的下一個前沿
DreamOmni2的出現,代表了AI創作工具發展的一個重要方向:從單一的語言模態,走向真正的多模態、多概念融合。
研究團隊則通過提出兩項全新的、高度實用的任務,并為此構建了完整的數據流水線和創新的模型框架,成功地推動了生成式AI的技術邊界。
對于設計師、藝術家和每一個熱愛創作的普通人來說,一個更加智能、更加全能的創作時代,正加速到來。




































