谷歌偷偷搞了個神秘模型Nano-Banana?實測:強到離譜,但有3大硬傷
最近,AI 社區又冒出一個神秘的圖像生成和編輯模型,名叫 Nano-Banana。
起初它在 LMArena 平臺的「Battle」模式中被發現,但未在公開排行榜上列出,也沒有官方開發者明確聲稱其歸屬。
不過很多網友循著蛛絲馬跡,猜測這可能是谷歌的研究模型。
上周二,谷歌 AI Studio 產品負責人 Logan Kilpatrick 在 X 上發布了一個香蕉表情符號。

谷歌 DeepMind 產品經理 Naina Raisinghani 也發布了一張與意大利藝術家 Maurizio Cattelan 2019 年創作的膠帶粘貼香蕉藝術作品類似的圖片。

再加上谷歌過去曾將其較小的模型稱為「Nano」,而且其生成圖像的質感與 Google 的 Imagen 或 Gemini 系列相似。

以上種種,似乎都在暗示它出自谷歌之手。
該模型不僅在文本編輯、風格融合和場景理解等方面表現更優,還可以上傳兩張圖片、輸入提示詞將其中的元素融合。
比如,上傳一摞書和臥室床頭柜的圖片,輸入提示詞「Flip stack of books to be upright and put on table between two bookends.」
它能精準理解復雜文本提示,將橫放的三本書立起來,并加上書擋擺放到柜子上。

上傳一張模特照再加上一張棒球帽子圖,輸入提示詞:「Put the baseball hat on the woman.」
棒球帽上有著復雜的文字和圖案刺繡,Nano-Banana 編輯后的圖片保留了帽子上的所有細節,同時光線、視角和構圖也能一致性。

在產品照片、場景搭建圖、廣告等商業場景下,Nano-Banana 的表現也穩得一批。

當然,它也并非完美無缺,在某些情況下,Nano-Banana 生成的圖像可能出現反射、光照邏輯或物體位置不一致等視覺問題,人物的手指也偶爾出現畸形的情況。
如果細看上圖中生成的書籍,就會發現其中的瑕疵:書名出現了「鬼畫符」。

由于尚無官方 API 或正式的官網鏈接,我們只能通過 LMArena 隨機體驗該模型。
換句話說,每次都得靠運氣才能遇到 Nano Banana,體驗很不穩定。
更搞笑的是,網上出現了一堆假網站,聲稱提供 Nano Banana 服務,讓不少網友李鬼和李逵傻傻分不清。
Nano-Banana 一手測評
我們也來了個一手測評。
打開 lmarena 官網,選擇 Battle 模式,可以直接輸入提示詞進行文生圖,也可以上傳圖片、輸入提示詞再進行 AI 編輯。
官網鏈接:https://lmarena.ai/
頁面會出現兩個匿名模型同時生成圖片,只有當我們選出其中生成質量最好的一張圖片時,平臺才會亮出對戰雙方的身份。

先來試試文生圖效果。
我們輸入同樣的提示詞:Present a portrait-style image in a Polaroid photo shoot style. In the picture, there is a makeup artist with long, loose curly hair, wearing oversized clothing. She has a delicate face and exudes a casual vibe, posing with a peace sign directly at the camera, creating an ultra-free atmosphere. The image has a slight grainy texture, with vibrant and captivating colors,1:1.
第一幅是 Nano Banana 的「作品」,第二幅是 ChatGPT 生成的效果。前者生成的圖片背景中有雜亂的眼影盤、指甲油等,更符合提示詞中的「化妝師」身份,而且人物的動作、服裝細節更自然,手部也沒有明顯的瑕疵;而后者背景較為單一,大拇指也有些虛化。


再來試試它的圖片編輯功能。
上傳一張舊金山阿拉莫廣場的野餐照片,輸入提示詞:Add some humanoid robots in the park,make them blend with the environment.
乍一看我們還以為 Nano Banana「罷工」了,直到在畫面右側找到了一個正在走路的類人機器人,它完全融入環境,毫無違和感。


我們上傳一張人物攝影照片,讓 Nano Banana 進行逆向工程描繪其創作過程。
提示詞:Show the set being set up before, the model is sitting up scrolling her phone, there is a woman behind the model fixing her hair, a man up on a ladder, hanging the curtain in the background, revealing the studio behind it.


有網友用 Nano Banana 讓碧梨和邁克爾?杰克遜跨時空自拍:

我們也嘗試了下。上傳馬斯克和奧特曼的照片,輸入提示詞:The two people are happily taking a selfie.
Nano Banana 確實生成了一張自拍照,馬斯克的形象、動作也幾乎找不出什么問題,只是奧特曼大變樣。

為了不「冤枉」它,我們又給了它一次機會,Nano Banana 還是翻車。

難度繼續升級。上傳小扎、馬斯克肖像照和一張風景照,讓 Nano Banana 把兩個人自然地放在圖三中。
Gemini 2.0 flash 生成的效果完全認不出這兩個大名人,而 Nano Banana 將二人完美融入圖三環境中,不過手指等細節方面還是有瑕疵。

進階玩法
如果把 Nano-Banana 和谷歌的 Veo3 結合在一起,會碰撞出怎樣的火花?
@a16z 合伙人 Justine Moore 就搞了個新工作流,用于制作較長的視頻。
下面這個視頻是一個游戲或電影中的潛行任務場景,角色從昏暗的博物館中盜取一幅名畫,觸發了激光警報。

她還放出了制作教程。提取第一個視頻片段的最后一幀,將該幀上傳到 lmarena 上的 Nano Banana,提示生成下一個場景,例如「角色轉向走廊」,然后將新生成的幀用 Veo 3 進行動畫制作。

X 網友 @ZHO_ZHO_ZHO 則發現了 Nano-Banana 另一種好玩的用法 —— 把插畫變成手辦。
上傳一張圖片,輸入提示詞:turn this photo into a character figure. Behind it, place a box with the character’s image printed on it, and a computer showing the Blender modeling process on its screen. In front of the box, add a round plastic base with the character figure standing on it. Make the PVC material look clear, and set the scene indoors if possible.

據該博主測評,Nano-Banana 生成的圖幾乎沒有 AI 味,五官和細節都保留得很好,真實感十足。
然后再用 Veo3 將其制作為 8 秒視頻。提示詞:Pick up the figure with both hands and show it from all angles.

底下評論區不少網友也按照上述工作流整活。比如哪吒雙手抱拳的:

還有哆啦 A 夢的,正面看哆啦 A 夢的尾巴挺正常,但轉個身就大變樣:

我們也復刻了下,上傳一張 Q 版插畫圖片,輸入以上提示詞。

效果如下:

最后打開 Gemini 2.5 Pro,選擇 Video,上傳生成的圖片,輸入提示詞,靜待 1 分鐘左右,就能得到一段 8 秒視頻。

上周末,谷歌 Veo 3 對所有 Gemini 用戶免費開放,供其體驗 AI 視頻生成功能。
不過,這項免費體驗活動只持續到太平洋時間 8 月 24 日晚上 10 點(北京時間 8 月 25 日上午 1 點) 。在此期間,免費用戶每天最多可以生成 3 個 8 秒的視頻片段,每個視頻都包含自動生成的音頻。
通常,Veo 3 的視頻生成功能僅對 Google AI Pro 或 Ultra 訂閱用戶開放。Pro 用戶每天可生成 3 個視頻,而 Ultra 用戶的配額為 10 個視頻。
感興趣的朋友也去體驗一波吧。



































