谷歌「最強圖像模型」橫掃一切!3毛錢P圖打懵OpenAI,PS要不存在了
剛剛,谷歌正式發布最先進的圖像模型,Gemini 2.5 Flash Image。
如果說它的另一個名字,nano-banana,你就一定知道了!

「最強圖像模型」這個稱號可以說是被全球網友親自認定。
此前nano-banana在LMArena上線后迅速風靡。
最終盲測下,Gemini 2.5 Flash Image成績一騎絕塵。
盲測了500多萬場,獲得超250萬選票,以171分優勢領先第二名flux-1-knotext-max,可以說是遙遙領先。
并取得了LMArena競技場歷史上最大的Elo分數領先優勢!

一句話,所有人用了都說好!
不愧是谷歌,確實低調且實力強大,即使大概率是最強模型,也要等全球網友用過蓋章定論后才正式發布!

谷歌CEO劈柴和DeepMind的老大Demis親自帶貨。

我們「順手」拿谷歌CEO劈柴和DeepMind的老大Demis做了一些測試,效果真的令人拍案叫絕。
感覺以后P圖這職業要徹底消失了!
劈柴隨意換裝、戴墨鏡,還可以戴上Vision Pro。

Demis還置頂了Nano banana為他創作的畫像。

讓我們來「魔改一番」。
Nano-banana的能力幾乎到了「言出法隨」的地步。
換裝、換手表、變換手勢,甚至戴個帽子并讓喬布斯出現在身后。

同時,模型價格非常低。
該模型現已通過Gemini API和Google AI Studio面向開發者推出,并通過Vertex AI面向企業推出。
Gemini 2.5 Flash Image的價格為每百萬輸出token 30.00美元,每張圖片為1290個輸出token。
也就是每張圖片只需0.039美元,按照現在的費率,一張圖也就是不到3毛錢!
比OpenAI便宜太多了!網友紛紛表示,谷歌這是請奧特曼吃香蕉呢~


感覺一大批P圖的都要失業了!

Gemini 2.5 Flash Image實戰應用
Gemini 2.5 Flash Image此次更新了四個超強能力:
- 保持角色一致性
- 完全基于提示的圖像編輯
- 原生世界知識
- 多圖像融合
可以將多張圖像融合為一張圖像,保持角色一致性以實現豐富的敘事效果,使用自然語言進行目標轉換,并利用 Gemini的全球知識來生成和編輯圖像。

比如過道、人像和手機可以完美的融合成一張人物在過道里打電話的照片。
尤其是燈管散發出的光形成的漫反射。
圖像生成中的一個基本挑戰是在多個提示和編輯中保持角色或物體的外觀一致。
現在,可以將同一個角色放置在不同的環境中,以新的設置從多個角度展示單一產品,或生成一致的品牌資產,同時保持主體的一致性。

除了在角色一致性方面表現出色外,模型還非常擅長遵循視覺模板。
谷歌已經提供了開發者探索的模板,諸如房地產列表卡片、統一的員工徽章或整個產品目錄的動態產品效果圖等場景。

Gemini 2.5 Flash Image 支持通過自然語言進行目標化轉換和精確的局部編輯。
例如,模型可以模糊圖像背景、去除T恤上的污漬、從照片中移除整個人物、更改主體姿勢、為黑白照片上色,或者根據簡單的提示實現您所能想象到的其他效果。

更絕的是,此次更新的nano-banana還具有出色的「原生世界知識」。
從歷史上看,圖像生成模型在生成美觀的圖像方面表現出色,但在對現實世界的深層語義理解方面有所欠缺。
而Gemini 2.5 Flash Image受益于Gemini的全球知識,從而解鎖了新的用例。
在Google AI Studio中構建了一個模板應用,可將簡單的畫布轉變為交互式教育導師。
它展示了該模型讀取和理解手繪圖、幫助解答現實世界問題,以及在單一步驟中遵循復雜編輯指令的能力。

Gemini 2.5 Flash Image能夠理解和融合多張輸入圖像。
可以將某個對象放入場景中,使用配色方案或紋理重新設計房間風格,并通過單個提示融合圖像。

詳細介紹
關于新模型的性能,谷歌DeepMind進行了詳細介紹。
首先是模型的能力介紹:
「從逼真的寫實杰作到令人驚嘆的幻想世界,現在可以原生地生成、編輯和優化圖像,在推理、控制和創意方面達到全新水平?!?/span>

角色一致性方面,為模型提供參考圖像,它便能生成新的視覺內容,在不同的姿勢、光照、環境或風格中保持角色、主體或對象的相似性,從而幫助創作出更具吸引力、敘事性更強的作品。
感覺個人就能制作電影的時代即將到來!

新模型可以應用特定的藝術風格、設計或紋理,可以輕松地將這些從一張圖像轉移到另一張圖像,同時保留原主體的形態和細節。
這對于廣告設計界幾乎就是降維打擊。

在創意構圖方面,只需一個提示詞,即可將多個圖像中的創意元素融合在一起。
使用2.5 Flash,可以開始融合最多三個輸入中的不同元素,從而創建出獨特而統一的構圖。
比如在山峰前躍出水面的鯨魚。

借助Gemini的底層邏輯,2.5 Flash可以推斷出圖像中某個時刻之前或之后發生的事情。
這相當一種現實世界推理,需要完全依賴于世界知識。
比如,生成一個氣球飄向仙人掌的初始畫面后,讓它設想接下來可能出現的場景。

PS要不存在了
谷歌的新模型一發布,最不開心的估計就是Photoshop了。
AI圖片編輯功能直接降維打擊了Adobe腹地。

未來像Adobe Photoshop等傳統工具將面臨重大挑戰。
不過目前Nano-banana并不是完美的,比如在合并兩張不同照片時,有時難以準確復制人臉。
但它在對現有圖片進行細微調整方面表現已經非常出色。
而且成本還這么低。
你覺得AI會徹底取代傳統產業嗎?

































