用自己的臉來評(píng)測(cè)模型!Nano Banana產(chǎn)品負(fù)責(zé)人揭秘谷歌秘方:超強(qiáng)泛化能力,起名純屬意外,下一步是超越提示詞工程
原創(chuàng)編輯|聽雨
最近Nano Banana2現(xiàn)身第三方平臺(tái)Media IO,一出手就技驚四座。
已經(jīng)有手快的網(wǎng)友迫不及待地體驗(yàn)了最新版,以下是Nano Banana2的一些杰作——
可以按照提示更改顏色和翻譯:
Image
可以根據(jù)模擬圖像生成真實(shí)場(chǎng)景:
Image
可以把一個(gè)玩具拆成一堆零件:
Image
甚至可以解一道數(shù)學(xué)題:
圖片
你可能會(huì)為Banana2精確的文本渲染、超逼真的場(chǎng)景以及手解數(shù)學(xué)題的推理泛化能力而嘖嘖稱奇,那么Nano Banana到底是怎么來的?
就在十幾個(gè)小時(shí)前,紅杉資本對(duì)話了 Nano Banana 的產(chǎn)品與工程負(fù)責(zé)人Nicole Brichtova 和 Hansa Srinivasan,他們分享了這款模型的誕生故事,他們?nèi)绾斡?xùn)練角色一致性以及產(chǎn)品的下一步走向。
圖片
節(jié)目中有許多有趣的細(xì)節(jié)。大家都知道,對(duì)于視覺模型來說,最重要的是角色一致性,為了確保這一點(diǎn),Nano Banana的團(tuán)隊(duì)成員會(huì)用自己的臉來評(píng)測(cè)模型,并且結(jié)合了人工評(píng)估、“目測(cè)”(eyeballing),以及社區(qū)測(cè)試來量化評(píng)估指標(biāo)。
不過,Nano Banana的獨(dú)家秘方還是基于 Gemini 的多模態(tài)基礎(chǔ)模型,它的泛化能力極強(qiáng)。
此外,谷歌發(fā)現(xiàn)希望AI太依賴提示詞工程,門檻高、體驗(yàn)差。因此他們想讓AI理解用戶意圖,不需要寫長(zhǎng)提示詞,這也是Nano Banana的下一步方向。
谷歌Labs副總裁Josh Woodward也表達(dá)過類似觀點(diǎn)。他認(rèn)為"提示詞已經(jīng)是老派做法了";AI產(chǎn)品開發(fā)者還有個(gè)常見的坑是過度聚焦于聊天界面,"到處都是Chatbot,谷歌也不例外。還有就是很多產(chǎn)品在想辦法'硬塞'AI進(jìn)去。"
最后,兩位負(fù)責(zé)人也分享了有哪些方向是谷歌不會(huì)做、AI創(chuàng)業(yè)公司可以切入的。小編節(jié)選整理了播客實(shí)錄,對(duì)Nano Banana感興趣的朋友不要錯(cuò)過。
1.用自己的臉來評(píng)測(cè)模型
主持人:在開發(fā)過程中,有沒有一個(gè)“啊哈”時(shí)刻讓你們意識(shí)到,這東西真的行了?
Hansa:這個(gè)問題問得好,我們剛聊到。其實(shí)是 Nicole 先有的那個(gè)“啊哈”時(shí)刻。
Nicole:是的。我們內(nèi)部有個(gè)調(diào)試平臺(tái),大家會(huì)邊開發(fā)邊試。我有次上傳了一張自己的照片,隨手輸入提示:“讓我在紅毯上?!苯Y(jié)果生成的圖真的像我本人!我去對(duì)比了之前的模型,沒有一個(gè)能做到這種真實(shí)感。那一刻我非常激動(dòng)。過了幾周,其他同事也開始試自己的照片,才真正體會(huì)到那種“魔法般”的感覺,能在 AI 世界中看到自己。很多人開始用它生成3D 小人模型,把自己變成游戲或玩具角色。那種自我表達(dá)的樂趣太棒了。那一刻我就知道,這東西真的不一樣。
主持人:那為什么 Nano Banana 在這方面比其他模型好那么多?
Nicole:簡(jiǎn)單說:因?yàn)樗娴目雌饋硐裎?/span>。要判斷角色一致性其實(shí)很難——你不認(rèn)識(shí)的人,即便生成得不太像,你也可能覺得可以。但只有當(dāng)生成的是你自己,才知道差異。
所以我們后來讓很多團(tuán)隊(duì)成員都用自己的臉來評(píng)測(cè)模型。
Hansa:是的,只有熟悉的臉才能準(zhǔn)確評(píng)判。角色一致性看似簡(jiǎn)單,但技術(shù)上非常難,這也是為什么很多模型做不到。
主持人:我想角色一致性并不是規(guī)模的自然產(chǎn)物。那你們是怎么實(shí)現(xiàn)的?一開始就是目標(biāo)嗎?
Nicole:是的,從一開始我們就知道過去模型在一致性上有缺陷。無論是專業(yè)圖像編輯還是廣告行業(yè),大家都需要模型在修改時(shí)保持不變的部分。比如廣告客戶要求產(chǎn)品必須“100%一致”,否則無法投放。所以我們明確知道市場(chǎng)需求、技術(shù)缺口,并且覺得這次在模型架構(gòu)和數(shù)據(jù)上都有了合適的“配方”。真正讓我們驚訝的,是模型最終達(dá)到了超出預(yù)期的效果。
主持人:那這種“確實(shí)像我”的體驗(yàn)之外,你們有沒有能量化評(píng)估的指標(biāo)?
Hansa:角色一致性很難用自動(dòng)化指標(biāo)評(píng)估,所以人工評(píng)估極其關(guān)鍵。我們有專門的團(tuán)隊(duì)為評(píng)估建立流程和工具,用人工打分來捕捉那些細(xì)微的視覺和美學(xué)差異。
Nicole:我們結(jié)合了人工評(píng)估、“目測(cè)”(eyeballing),以及社區(qū)測(cè)試。比如我們會(huì)讓 Google DeepMind 的藝術(shù)家、甚至高管都親自試玩模型。這些反饋比單純的量化指標(biāo)更有價(jià)值。你可以說模型在指標(biāo)上提升了 10%,但只有當(dāng)用戶能說“我終于能修復(fù)兒時(shí)那張破損的家庭照”時(shí),才真正說明模型有了情感價(jià)值。
Hansa:確實(shí)如此。視覺 AI 的主觀性比邏輯或數(shù)學(xué)推理強(qiáng)得多,這就是為什么人工評(píng)估在這里不可或缺。
主持人:僅憑一張二維照片實(shí)現(xiàn)這種一致性太難了。能說說關(guān)鍵突破是什么嗎?
Hansa:核心在于高質(zhì)量的數(shù)據(jù)和模型的泛化能力。Nano Banana 基于 Gemini 的多模態(tài)基礎(chǔ)模型,它的泛化能力極強(qiáng),這其實(shí)就是秘訣所在。
Nicole:另外,Gemini 的長(zhǎng)上下文窗口也很關(guān)鍵。它允許你提供多張圖像,或在對(duì)話中多輪交互。一兩年前,我們要微調(diào)十張你的照片,花二十分鐘才能出像樣結(jié)果——這在主流中根本行不通?,F(xiàn)在只需一張圖和幾輪交互就能做到,這要?dú)w功于模型結(jié)構(gòu)、數(shù)據(jù)關(guān)注度、以及團(tuán)隊(duì)成員對(duì)細(xì)節(jié)的執(zhí)著。
Hansa:沒錯(cuò),不是靠“喂更多數(shù)據(jù)”,而是靠對(duì)細(xì)節(jié)與數(shù)據(jù)質(zhì)量的極致追求。
Nicole:這就是“AI 工藝(the craft of AI)”,我們很少談,但它至關(guān)重要。
主持人:你們是先確定目標(biāo)用戶/場(chǎng)景再構(gòu)建模型,還是先造出能力再去匹配場(chǎng)景?
Nicole:兩者兼有。比如我們會(huì)先定下能力目標(biāo)(如推理速度),然后思考目標(biāo)用戶。Nano Banana 從一開始就定位為“對(duì)話式圖像編輯器”,必須足夠快速才能實(shí)現(xiàn)交互式體驗(yàn)。因此它天然偏向消費(fèi)者場(chǎng)景,但其能力也被企業(yè)和開發(fā)者采用。
Hansa:和我們之前的 Imagine 系列相比,Nano Banana更強(qiáng)調(diào)泛化能力。比如現(xiàn)在用戶甚至可以輸入手繪數(shù)學(xué)題,讓模型可視化地求解角度——這是從強(qiáng)大泛化中自然涌現(xiàn)的能力。
2.Nano Banana起名純屬意外
主持人:“Nano Banana” 這個(gè)名字太獨(dú)特了,是靈光一現(xiàn)還是精心設(shè)計(jì)?
Hansa:完全是個(gè)意外的奇跡。當(dāng)時(shí)模型準(zhǔn)備上線 internal LM eval(內(nèi)部模型對(duì)比平臺(tái)),要起個(gè)代號(hào)。那天是凌晨?jī)牲c(diǎn),項(xiàng)目經(jīng)理被問“快起個(gè)名字”,她太困了,就隨口說出了“Nano Banana”。
Nicole:不是我起的,是我團(tuán)隊(duì)里另一位 PM 的杰作。這個(gè)名字太棒了——簡(jiǎn)單、有趣、好念、還有表情符號(hào),完美的品牌記憶點(diǎn),而且她沒有過度思考這件事。
最棒的是,當(dāng)它上線后,所有人都立刻接受了它。我覺得這就是那種非?!癎oogle 式”的、自然有機(jī)的感覺,結(jié)果看起來就像是一場(chǎng)精妙的營(yíng)銷創(chuàng)意。但其實(shí),這完全是一個(gè)“幸福的意外”,它就是莫名其妙地成功了,人們很喜歡它。所以我們就順勢(shì)而為——現(xiàn)在你打開 Gemini 應(yīng)用,里面到處都是香蕉。我們之所以這么做,是因?yàn)楹芏嘤脩舯г顾麄冊(cè)谶M(jìn)入應(yīng)用后很難找到那個(gè)模型。
Hansa:是啊,我們只是讓它更容易找到。其實(shí)外界很多人都在說:“Nano Banana,Nano Banana,我該怎么用 Nano Banana?”我甚至有個(gè) Google 同事問我:“我怎么用 Nano Banana?”我就說:“它就在 Gemini 里啊,你只要請(qǐng)求一張圖片就行了?!蔽矣X得這也是 Google 一直以來的品牌特質(zhì)吧——有趣。Google 從創(chuàng)立之初就是一家面向消費(fèi)者的公司,而這次我們能重新喚起大家對(duì)“Google = 有趣公司”的印象,其實(shí)挺棒的。這個(gè)名字本身就很歡樂。
Nicole:對(duì),而且這也說明,“趣味性其實(shí)是通向?qū)嵱眯缘娜肟?/span>”。Nano Banana 本身,以及它能做的那些事:比如把你放到紅毯上、讓你體驗(yàn)兒時(shí)夢(mèng)想職業(yè)——都是非常有趣的切入點(diǎn)。但最棒的是,我們發(fā)現(xiàn)用戶一旦進(jìn)了 Gemini,用著玩著玩著,就開始拿它干別的事了,比如學(xué)習(xí)、解數(shù)學(xué)題、查資料。我覺得“趣味性”有時(shí)被低估了,不光是名字層面,也是在產(chǎn)品層面。因?yàn)樗芪诉M(jìn)來,讓人興奮,然后他們會(huì)進(jìn)一步發(fā)現(xiàn)更多真正實(shí)用的功能。
Hansa:我父母和他們的朋友們也在用。我覺得就是因?yàn)檫@個(gè)模型很“親切”,很容易上手、不嚇人。人們?cè)囘^之后就發(fā)現(xiàn),它其實(shí)非常容易用、很自然互動(dòng)。很多科技產(chǎn)品會(huì)讓人望而卻步,尤其是現(xiàn)在的 AI,但聊天機(jī)器人的自然交流方式已經(jīng)降低了這種門檻。
Hansa:尤其對(duì)年輕人如此。而像 Nano Banana 這種有趣的方式——我媽玩得特別開心,她用它做圖玩著玩著,后來發(fā)現(xiàn)還能用它把照片背景中的人去掉,變得很實(shí)用。很多人從“好玩”開始,最后發(fā)現(xiàn)它真的能幫他們完成任務(wù),比如生成圖表或輔助理解知識(shí)。
3.下一步方向:超越提示詞工程
主持人:那接下來你們想把這個(gè)模型和產(chǎn)品帶向什么方向呢?
Nicole:從產(chǎn)品角度來說,有幾個(gè)方向。對(duì)消費(fèi)者而言,我們還得繼續(xù)讓它更易用。你可能注意到,很多 Nano Banana 的提示詞都長(zhǎng)達(dá) 100 個(gè)詞,用戶會(huì)復(fù)制粘貼到 Gemini 里,雖然麻煩但值得。我們得超越“提示詞工程”階段,讓普通人更輕松地使用。而在專業(yè)用戶層面,我們要提升精確度與穩(wěn)定性,讓它能真正用于專業(yè)工作流。比如我們?cè)趫D像一致性和像素編輯上做得不錯(cuò),但還不是 100%。專業(yè)人士需要的是完全可靠、可控的輸出——甚至要能像“手勢(shì)控制”一樣精準(zhǔn)掌控每個(gè)像素。我個(gè)人也很興奮的方向是“信息可視化”。之前有人用 Nano Banana 做“速記圖”,其實(shí)你可以想象這種模式被應(yīng)用到任何場(chǎng)景。很多人是視覺型學(xué)習(xí)者,而我們還沒充分挖掘 LLM 在“幫助理解與可視化信息”上的潛力。有時(shí)你需要的是圖表,有時(shí)是圖片,有時(shí)甚至是短視頻。想象一下,在生物課上學(xué)習(xí)某個(gè)概念時(shí),AI 能生成一個(gè)短視頻幫助你理解?,F(xiàn)在 95% 的模型輸出都是文本,而這并不是人類現(xiàn)實(shí)中吸收信息的方式。
主持人:所以你是在暗示 Google 未來可能會(huì)圍繞這些功能“垂直整合”,在產(chǎn)品上做更深層的 UI 嗎?
Nicole:對(duì)。聊天機(jī)器人確實(shí)是個(gè)很好的入口,因?yàn)槟悴挥脤W(xué)新界面,只要說出你想要的就行。但對(duì)視覺任務(wù)來說,這種交互方式會(huì)開始顯得局限。我覺得未來有巨大空間去探索“新一代視覺創(chuàng)作界面”。關(guān)鍵是怎么在功能越來越強(qiáng)的同時(shí),不讓用戶被復(fù)雜性淹沒?我很期待看到更多團(tuán)隊(duì)在這個(gè)方向上創(chuàng)新。在 Google 內(nèi)部,我們有一個(gè)叫 Labs 的團(tuán)隊(duì),由 Josh Woodward 領(lǐng)導(dǎo),他們負(fù)責(zé)前沿實(shí)驗(yàn)。他們和我們密切合作,探索“創(chuàng)作、娛樂、生產(chǎn)力”的未來。比如他們做了 NotebookLM 和 Flow 等產(chǎn)品,我很期待 Flow 未來能成為視覺創(chuàng)作的核心平臺(tái)。
Hansa:短期內(nèi),我們得先把模型的可靠性問題解決好,讓它每次都能如預(yù)期運(yùn)行,而不是大多數(shù)時(shí)候。長(zhǎng)期來看,我同意 Nicole 的觀點(diǎn),那就是要實(shí)現(xiàn)真正的多模態(tài)生成?,F(xiàn)在如果你讓 Gemini 解釋一個(gè)問題,它通常只會(huì)用文字回答,除非你特別要求生成圖片。但回看過去 10~20 年,教育類內(nèi)容能火的往往都非?!耙曈X導(dǎo)向”:像 Khan Academy 從 YouTube 起家、Wikipedia 圖文并茂、學(xué)習(xí)數(shù)學(xué)離不開圖表。所以這些視覺元素應(yīng)該自然地融入模型的輸出流程。
Nicole:還有一個(gè)方向是“模型更主動(dòng)地調(diào)用代碼、圖片、視頻等多模態(tài)內(nèi)容”,根據(jù)用戶意圖來組合輸出。比如我以前當(dāng)咨詢顧問,經(jīng)常做幻燈片——很多時(shí)候我并不想陷入“設(shè)計(jì)細(xì)節(jié)”,我只是想輸入筆記、要點(diǎn)或舊幻燈片,然后讓 Gemini 自動(dòng)生成完整、易懂、有視覺的匯報(bào) Deck。這其實(shí)是一種“智能體行為”,區(qū)別于用戶希望親自參與創(chuàng)作的情況,比如房屋設(shè)計(jì)。AI 應(yīng)該能根據(jù)不同任務(wù),切換“自動(dòng)完成”與“交互創(chuàng)作”兩種模式。
Hansa:對(duì),我們要在“給用戶足夠精細(xì)控制”與“讓模型智能完成大部分工作”之間找到平衡。
主持人:你認(rèn)為未來的競(jìng)爭(zhēng)焦點(diǎn)會(huì)是什么?
Nicole:我覺得下一階段的競(jìng)爭(zhēng)還在于模型通用性——能“以任何輸入,生成任何輸出”的單一模型,還沒人真正實(shí)現(xiàn)。要推動(dòng)普及,還有兩個(gè)關(guān)鍵點(diǎn):1、用戶界面(UI);2、針對(duì)不同用戶和場(chǎng)景的定制化產(chǎn)品層設(shè)計(jì)。
4.如何防止deepfake
主持人:Google 一直非常重視 deepfake 風(fēng)險(xiǎn)。當(dāng)你們發(fā)現(xiàn) Nano Banana 的能力這么強(qiáng)時(shí),內(nèi)部是怎么討論“防止濫用”的?
Nicole:這是一個(gè)不斷演變的前線問題。我們希望給用戶創(chuàng)作自由,同時(shí)也要防止最壞的濫用。所以我們做了很多權(quán)衡。比如模型生成的內(nèi)容上都會(huì)有可見水印(“Generated with Gemini”)以及不可見的合成 ID(SynthID),用來識(shí)別 AI 生成內(nèi)容。這讓用戶能清楚辨別哪些不是現(xiàn)實(shí)影像。
Nicole:此外,我們還會(huì)進(jìn)行大量?jī)?nèi)部與外部測(cè)試,隨著模型能力提升,也會(huì)出現(xiàn)新的攻擊方式,我們必須同步研發(fā)新的防護(hù)措施。這是模型開發(fā)中非常重要的一環(huán)。
Hansa:確實(shí)很難平衡。任何工具都會(huì)被人正向或負(fù)向使用。我們非常重視這點(diǎn),也認(rèn)為SynthID 是讓我們能安全開放模型的關(guān)鍵技術(shù),它能幫助我們抵御虛假信息帶來的風(fēng)險(xiǎn)。
主持人:那 SynthID 已經(jīng)是行業(yè)標(biāo)準(zhǔn)了嗎?
Nicole:目前是 Google 的標(biāo)準(zhǔn)。
Hansa:是的,Google 所有影像生成產(chǎn)品(包括 Imagen 系列)都啟用了它。
5.哪些領(lǐng)域是創(chuàng)業(yè)公司可以嘗試的
主持人:那你覺得,哪些領(lǐng)域是創(chuàng)業(yè)公司可以切入,而 Google 不太會(huì)做的?
Nicole:非常多。尤其是創(chuàng)意工具類的 UI 與工作流集成。現(xiàn)在很多創(chuàng)作者要在不同工具間切換:先用 LLM 頭腦風(fēng)暴,再用圖像模型定 Key Frame,再進(jìn)視頻模型,最后再加音樂。這些碎片化流程,完全可以被新的“端到端創(chuàng)作工具”整合。我覺得這種“工作流級(jí) AI 工具”會(huì)在各個(gè)垂直領(lǐng)域涌現(xiàn),不僅限于創(chuàng)意行業(yè),比如咨詢師可以用它快速做 Pitch Deck、銷售可以自動(dòng)生成方案。
Hansa:是的,本質(zhì)是“讓技術(shù)真正嵌入特定工作流”。創(chuàng)業(yè)公司能更貼近用戶需求,做應(yīng)用層創(chuàng)新;而我們更多關(guān)注底層模型技術(shù)。讓我最興奮的是,這個(gè)模型真正觸動(dòng)了很多普通人。很多長(zhǎng)輩、朋友用過聊天機(jī)器人,但他們對(duì)文字問答沒太大情感反應(yīng)。而視覺生成能帶來情感共鳴——它既有趣,又直觀,喚起人類最本能的感受。這點(diǎn)特別打動(dòng)我。




























