Nano Banana產品負責人揭秘谷歌秘方:超強泛化能力,起名純屬意外,下一步是超越提示詞工程
編輯|聽雨
出品 | 51CTO技術棧(微信號:blog51cto)
最近Nano Banana2現身第三方平臺Media IO,一出手就技驚四座。
已經有手快的網友迫不及待地體驗了最新版,以下是Nano Banana2的一些杰作——
可以按照提示更改顏色和翻譯:

可以根據模擬圖像生成真實場景:

可以把一個玩具拆成一堆零件:

甚至可以解一道數學題:

你可能會為Banana2精確的文本渲染、超逼真的場景以及手解數學題的推理泛化能力而嘖嘖稱奇,那么Nano Banana到底是怎么來的?
就在十幾個小時前,紅杉資本對話了 Nano Banana 的產品與工程負責人Nicole Brichtova 和 Hansa Srinivasan,他們分享了這款模型的誕生故事,他們如何訓練角色一致性以及產品的下一步走向。

節目中有許多有趣的細節。大家都知道,對于視覺模型來說,最重要的是角色一致性,為了確保這一點,Nano Banana的團隊成員會用自己的臉來評測模型,并且結合了人工評估、“目測”(eyeballing),以及社區測試來量化評估指標。
不過,Nano Banana的獨家秘方還是基于 Gemini 的多模態基礎模型,它的泛化能力極強。
此外,谷歌發現希望AI太依賴提示詞工程,門檻高、體驗差。因此他們想讓AI理解用戶意圖,不需要寫長提示詞,這也是Nano Banana的下一步方向。
谷歌Labs副總裁Josh Woodward也表達過類似觀點。他認為"提示詞已經是老派做法了";AI產品開發者還有個常見的坑是過度聚焦于聊天界面,"到處都是Chatbot,谷歌也不例外。還有就是很多產品在想辦法'硬塞'AI進去。"
最后,兩位負責人也分享了有哪些方向是谷歌不會做、AI創業公司可以切入的。小編節選整理了播客實錄,對Nano Banana感興趣的朋友不要錯過。
1.用自己的臉來評測模型
主持人:在開發過程中,有沒有一個“啊哈”時刻讓你們意識到,這東西真的行了?
Hansa:這個問題問得好,我們剛聊到。其實是 Nicole 先有的那個“啊哈”時刻。
Nicole:是的。我們內部有個調試平臺,大家會邊開發邊試。我有次上傳了一張自己的照片,隨手輸入提示:“讓我在紅毯上。”結果生成的圖真的像我本人!我去對比了之前的模型,沒有一個能做到這種真實感。那一刻我非常激動。過了幾周,其他同事也開始試自己的照片,才真正體會到那種“魔法般”的感覺,能在 AI 世界中看到自己。很多人開始用它生成3D 小人模型,把自己變成游戲或玩具角色。那種自我表達的樂趣太棒了。那一刻我就知道,這東西真的不一樣。
主持人:那為什么 Nano Banana 在這方面比其他模型好那么多?
Nicole:簡單說:因為它真的看起來像我。要判斷角色一致性其實很難——你不認識的人,即便生成得不太像,你也可能覺得可以。但只有當生成的是你自己,才知道差異。
所以我們后來讓很多團隊成員都用自己的臉來評測模型。
Hansa:是的,只有熟悉的臉才能準確評判。角色一致性看似簡單,但技術上非常難,這也是為什么很多模型做不到。
主持人:我想角色一致性并不是規模的自然產物。那你們是怎么實現的?一開始就是目標嗎?
Nicole:是的,從一開始我們就知道過去模型在一致性上有缺陷。無論是專業圖像編輯還是廣告行業,大家都需要模型在修改時保持不變的部分。比如廣告客戶要求產品必須“100%一致”,否則無法投放。所以我們明確知道市場需求、技術缺口,并且覺得這次在模型架構和數據上都有了合適的“配方”。真正讓我們驚訝的,是模型最終達到了超出預期的效果。
主持人:那這種“確實像我”的體驗之外,你們有沒有能量化評估的指標?
Hansa:角色一致性很難用自動化指標評估,所以人工評估極其關鍵。我們有專門的團隊為評估建立流程和工具,用人工打分來捕捉那些細微的視覺和美學差異。
Nicole:我們結合了人工評估、“目測”(eyeballing),以及社區測試。比如我們會讓 Google DeepMind 的藝術家、甚至高管都親自試玩模型。這些反饋比單純的量化指標更有價值。你可以說模型在指標上提升了 10%,但只有當用戶能說“我終于能修復兒時那張破損的家庭照”時,才真正說明模型有了情感價值。
Hansa:確實如此。視覺 AI 的主觀性比邏輯或數學推理強得多,這就是為什么人工評估在這里不可或缺。
主持人:僅憑一張二維照片實現這種一致性太難了。能說說關鍵突破是什么嗎?
Hansa:核心在于高質量的數據和模型的泛化能力。Nano Banana 基于 Gemini 的多模態基礎模型,它的泛化能力極強,這其實就是秘訣所在。
Nicole:另外,Gemini 的長上下文窗口也很關鍵。它允許你提供多張圖像,或在對話中多輪交互。一兩年前,我們要微調十張你的照片,花二十分鐘才能出像樣結果——這在主流中根本行不通。現在只需一張圖和幾輪交互就能做到,這要歸功于模型結構、數據關注度、以及團隊成員對細節的執著。
Hansa:沒錯,不是靠“喂更多數據”,而是靠對細節與數據質量的極致追求。
Nicole:這就是“AI 工藝(the craft of AI)”,我們很少談,但它至關重要。
主持人:你們是先確定目標用戶/場景再構建模型,還是先造出能力再去匹配場景?
Nicole:兩者兼有。比如我們會先定下能力目標(如推理速度),然后思考目標用戶。Nano Banana 從一開始就定位為“對話式圖像編輯器”,必須足夠快速才能實現交互式體驗。因此它天然偏向消費者場景,但其能力也被企業和開發者采用。
Hansa:和我們之前的 Imagine 系列相比,Nano Banana更強調泛化能力。比如現在用戶甚至可以輸入手繪數學題,讓模型可視化地求解角度——這是從強大泛化中自然涌現的能力。
2.Nano Banana起名純屬意外
主持人:“Nano Banana” 這個名字太獨特了,是靈光一現還是精心設計?
Hansa:完全是個意外的奇跡。當時模型準備上線 internal LM eval(內部模型對比平臺),要起個代號。那天是凌晨兩點,項目經理被問“快起個名字”,她太困了,就隨口說出了“Nano Banana”。
Nicole:不是我起的,是我團隊里另一位 PM 的杰作。這個名字太棒了——簡單、有趣、好念、還有表情符號,完美的品牌記憶點,而且她沒有過度思考這件事。
最棒的是,當它上線后,所有人都立刻接受了它。我覺得這就是那種非常“Google 式”的、自然有機的感覺,結果看起來就像是一場精妙的營銷創意。但其實,這完全是一個“幸福的意外”,它就是莫名其妙地成功了,人們很喜歡它。所以我們就順勢而為——現在你打開 Gemini 應用,里面到處都是香蕉。我們之所以這么做,是因為很多用戶抱怨他們在進入應用后很難找到那個模型。
Hansa:是啊,我們只是讓它更容易找到。其實外界很多人都在說:“Nano Banana,Nano Banana,我該怎么用 Nano Banana?”我甚至有個 Google 同事問我:“我怎么用 Nano Banana?”我就說:“它就在 Gemini 里啊,你只要請求一張圖片就行了。”我覺得這也是 Google 一直以來的品牌特質吧——有趣。Google 從創立之初就是一家面向消費者的公司,而這次我們能重新喚起大家對“Google = 有趣公司”的印象,其實挺棒的。這個名字本身就很歡樂。
Nicole:對,而且這也說明,“趣味性其實是通向實用性的入口”。Nano Banana 本身,以及它能做的那些事:比如把你放到紅毯上、讓你體驗兒時夢想職業——都是非常有趣的切入點。但最棒的是,我們發現用戶一旦進了 Gemini,用著玩著玩著,就開始拿它干別的事了,比如學習、解數學題、查資料。我覺得“趣味性”有時被低估了,不光是名字層面,也是在產品層面。因為它能吸引人進來,讓人興奮,然后他們會進一步發現更多真正實用的功能。
Hansa:我父母和他們的朋友們也在用。我覺得就是因為這個模型很“親切”,很容易上手、不嚇人。人們試過之后就發現,它其實非常容易用、很自然互動。很多科技產品會讓人望而卻步,尤其是現在的 AI,但聊天機器人的自然交流方式已經降低了這種門檻。
Hansa:尤其對年輕人如此。而像 Nano Banana 這種有趣的方式——我媽玩得特別開心,她用它做圖玩著玩著,后來發現還能用它把照片背景中的人去掉,變得很實用。很多人從“好玩”開始,最后發現它真的能幫他們完成任務,比如生成圖表或輔助理解知識。
3.下一步方向:超越提示詞工程
主持人:那接下來你們想把這個模型和產品帶向什么方向呢?
Nicole:從產品角度來說,有幾個方向。對消費者而言,我們還得繼續讓它更易用。你可能注意到,很多 Nano Banana 的提示詞都長達 100 個詞,用戶會復制粘貼到 Gemini 里,雖然麻煩但值得。我們得超越“提示詞工程”階段,讓普通人更輕松地使用。而在專業用戶層面,我們要提升精確度與穩定性,讓它能真正用于專業工作流。比如我們在圖像一致性和像素編輯上做得不錯,但還不是 100%。專業人士需要的是完全可靠、可控的輸出——甚至要能像“手勢控制”一樣精準掌控每個像素。我個人也很興奮的方向是“信息可視化”。之前有人用 Nano Banana 做“速記圖”,其實你可以想象這種模式被應用到任何場景。很多人是視覺型學習者,而我們還沒充分挖掘 LLM 在“幫助理解與可視化信息”上的潛力。有時你需要的是圖表,有時是圖片,有時甚至是短視頻。想象一下,在生物課上學習某個概念時,AI 能生成一個短視頻幫助你理解。現在 95% 的模型輸出都是文本,而這并不是人類現實中吸收信息的方式。
主持人:所以你是在暗示 Google 未來可能會圍繞這些功能“垂直整合”,在產品上做更深層的 UI 嗎?
Nicole:對。聊天機器人確實是個很好的入口,因為你不用學新界面,只要說出你想要的就行。但對視覺任務來說,這種交互方式會開始顯得局限。我覺得未來有巨大空間去探索“新一代視覺創作界面”。關鍵是怎么在功能越來越強的同時,不讓用戶被復雜性淹沒?我很期待看到更多團隊在這個方向上創新。在 Google 內部,我們有一個叫 Labs 的團隊,由 Josh Woodward 領導,他們負責前沿實驗。他們和我們密切合作,探索“創作、娛樂、生產力”的未來。比如他們做了 NotebookLM 和 Flow 等產品,我很期待 Flow 未來能成為視覺創作的核心平臺。
Hansa:短期內,我們得先把模型的可靠性問題解決好,讓它每次都能如預期運行,而不是大多數時候。長期來看,我同意 Nicole 的觀點,那就是要實現真正的多模態生成。現在如果你讓 Gemini 解釋一個問題,它通常只會用文字回答,除非你特別要求生成圖片。但回看過去 10~20 年,教育類內容能火的往往都非常“視覺導向”:像 Khan Academy 從 YouTube 起家、Wikipedia 圖文并茂、學習數學離不開圖表。所以這些視覺元素應該自然地融入模型的輸出流程。
Nicole:還有一個方向是“模型更主動地調用代碼、圖片、視頻等多模態內容”,根據用戶意圖來組合輸出。比如我以前當咨詢顧問,經常做幻燈片——很多時候我并不想陷入“設計細節”,我只是想輸入筆記、要點或舊幻燈片,然后讓 Gemini 自動生成完整、易懂、有視覺的匯報 Deck。這其實是一種“智能體行為”,區別于用戶希望親自參與創作的情況,比如房屋設計。AI 應該能根據不同任務,切換“自動完成”與“交互創作”兩種模式。
Hansa:對,我們要在“給用戶足夠精細控制”與“讓模型智能完成大部分工作”之間找到平衡。
主持人:你認為未來的競爭焦點會是什么?
Nicole:我覺得下一階段的競爭還在于模型通用性——能“以任何輸入,生成任何輸出”的單一模型,還沒人真正實現。要推動普及,還有兩個關鍵點:1、用戶界面(UI);2、針對不同用戶和場景的定制化產品層設計。
4.如何防止deepfake
主持人:Google 一直非常重視 deepfake 風險。當你們發現 Nano Banana 的能力這么強時,內部是怎么討論“防止濫用”的?
Nicole:這是一個不斷演變的前線問題。我們希望給用戶創作自由,同時也要防止最壞的濫用。所以我們做了很多權衡。比如模型生成的內容上都會有可見水印(“Generated with Gemini”)以及不可見的合成 ID(SynthID),用來識別 AI 生成內容。這讓用戶能清楚辨別哪些不是現實影像。
Nicole:此外,我們還會進行大量內部與外部測試,隨著模型能力提升,也會出現新的攻擊方式,我們必須同步研發新的防護措施。這是模型開發中非常重要的一環。
Hansa:確實很難平衡。任何工具都會被人正向或負向使用。我們非常重視這點,也認為SynthID 是讓我們能安全開放模型的關鍵技術,它能幫助我們抵御虛假信息帶來的風險。
主持人:那 SynthID 已經是行業標準了嗎?
Nicole:目前是 Google 的標準。
Hansa:是的,Google 所有影像生成產品(包括 Imagen 系列)都啟用了它。
5.哪些領域是創業公司可以嘗試的
主持人:那你覺得,哪些領域是創業公司可以切入,而 Google 不太會做的?
Nicole:非常多。尤其是創意工具類的 UI 與工作流集成。現在很多創作者要在不同工具間切換:先用 LLM 頭腦風暴,再用圖像模型定 Key Frame,再進視頻模型,最后再加音樂。這些碎片化流程,完全可以被新的“端到端創作工具”整合。我覺得這種“工作流級 AI 工具”會在各個垂直領域涌現,不僅限于創意行業,比如咨詢師可以用它快速做 Pitch Deck、銷售可以自動生成方案。
Hansa:是的,本質是“讓技術真正嵌入特定工作流”。創業公司能更貼近用戶需求,做應用層創新;而我們更多關注底層模型技術。讓我最興奮的是,這個模型真正觸動了很多普通人。很多長輩、朋友用過聊天機器人,但他們對文字問答沒太大情感反應。而視覺生成能帶來情感共鳴——它既有趣,又直觀,喚起人類最本能的感受。這點特別打動我。
參考鏈接:??https://www.youtube.com/watch?v=5uutda-R0EY??
本文轉載自??51CTO技術棧??,作者:聽雨

















