打造圖像編輯領(lǐng)域的ImageNet?蘋果用Nano Banana開源了一個(gè)超大數(shù)據(jù)集
蘋果在大模型和大模型應(yīng)用上總是慢人一步。
Apple Intelligence 發(fā)布也已經(jīng)一年多了,除去其仍未能在國行設(shè)備上提供服務(wù)外,功能上也很難稱得上有多好用。
就拿視覺生成類功能舉例子,蘋果的圖像生成大概是這個(gè)畫風(fēng):

但在開放研究領(lǐng)域里,蘋果似乎一整個(gè)脫胎換骨,在純粹的研究中經(jīng)常會(huì)有一些出彩的工作。
但這次蘋果發(fā)布的研究成果的確出人意料:
他們用谷歌的 Nano-banana 模型做個(gè)了視覺編輯領(lǐng)域的 ImageNet。

對(duì)于蘋果用納米香蕉和 Gemini 的事情,引發(fā)了網(wǎng)友遐想:

在文本引導(dǎo)的圖像編輯的工作中,GPT4-o 和谷歌 Nano-banana 都能夠?qū)崿F(xiàn)令人驚艷的編輯效果,保留原圖像的特征,實(shí)現(xiàn)高質(zhì)量的新圖像的生成。尤其是 Nano-banana,真正能被成為圖像編輯的里程碑和新標(biāo)桿。
但目前在研究界仍然缺乏針對(duì)圖像編輯的,來自真實(shí)圖像的大規(guī)模,高質(zhì)量的開放數(shù)據(jù)集。
為此,來自蘋果的研究團(tuán)隊(duì)提出 Pico-Banana-400K,一個(gè)包含 40 萬張圖像的基于指令的圖像編輯綜合數(shù)據(jù)集。

- 論文標(biāo)題:Pico-Banana-400K: A Large-Scale Dataset for Text-Guided Image Editing
- 論文鏈接:https://arxiv.org/pdf/2510.19808
該數(shù)據(jù)集通過利用 Nano-Banana 在 OpenImages 實(shí)拍照片上生成多樣化的編輯對(duì)構(gòu)建而成。
與以往的合成數(shù)據(jù)集不同,Pico-Banana-400K 的獨(dú)特之處在于對(duì)質(zhì)量與多樣性的系統(tǒng)化設(shè)計(jì)。蘋果的研究團(tuán)隊(duì)采用精細(xì)的圖像編輯分類體系,以確保編輯類型的全面覆蓋;并通過基于多模態(tài)大模型的質(zhì)量評(píng)分與人工精篩,實(shí)現(xiàn)內(nèi)容一致性與指令忠實(shí)性的平衡。

數(shù)據(jù)集構(gòu)成
單輪監(jiān)督微調(diào) (SFT) 子集包含 25.8 萬個(gè)成功的單輪圖像編輯示例,作為遵循指令的圖像編輯模型的核心訓(xùn)練數(shù)據(jù)。此子集涵蓋了 35 種編輯分類法的全部范圍,并為模型訓(xùn)練提供強(qiáng)大的監(jiān)督信號(hào)。
除了單輪編輯外,Pico-Banana-400K 還支持復(fù)雜的多輪編輯研究。數(shù)據(jù)集包含三個(gè)專門子集:
72K 多輪編輯集 —— 用于研究連續(xù)修改中的順序編輯、推理與規(guī)劃;
多輪 SFT 子集包含 7.2 萬個(gè)按順序進(jìn)行的編輯交互示例,序列長度從 2 到 5 輪不等。對(duì)于每張采樣的圖像,隨機(jī)選擇 1-4 種額外的編輯類型以形成連貫的編輯序列。Gemini-2.5-Pro 為每一輪生成上下文感知指令,鼓勵(lì)使用指代性語言以保持語篇連續(xù)性。該子集支持對(duì)迭代細(xì)化、上下文相關(guān)編輯以及跨多個(gè)編輯步驟的復(fù)雜推理進(jìn)行研究。
56K 偏好集 —— 用于對(duì)齊研究與獎(jiǎng)勵(lì)模型訓(xùn)練;
偏好子集包含 5.6 萬個(gè)示例,由原始圖像、指令、成功編輯和失敗編輯組成的三聯(lián)體。這種獨(dú)特的資源專為對(duì)齊研究而設(shè)計(jì),可用于訓(xùn)練獎(jiǎng)勵(lì)模型和應(yīng)用直接偏好優(yōu)化(DPO)等對(duì)齊技術(shù)。這解決了現(xiàn)有數(shù)據(jù)集的一個(gè)關(guān)鍵空白,因?yàn)楝F(xiàn)有數(shù)據(jù)集通常只提供成功的編輯,而缺乏對(duì)比性的低質(zhì)量編輯示例。
長短指令配對(duì)集 —— 用于發(fā)展指令重寫與摘要能力。
通過提供這一大規(guī)模、高質(zhì)量且任務(wù)豐富的資源,Pico-Banana-400K 為訓(xùn)練和評(píng)測新一代文本引導(dǎo)圖像編輯模型奠定了堅(jiān)實(shí)基礎(chǔ)。
蘋果不僅發(fā)布了一個(gè)數(shù)據(jù)集,還構(gòu)建了一個(gè)能夠自我編輯和評(píng)估的完整流程:
納米香蕉負(fù)責(zé)進(jìn)行編輯。Gemini 2.5 Pro 負(fù)責(zé)評(píng)判結(jié)果,失敗會(huì)自動(dòng)重試,直到通過。該流程真正實(shí)現(xiàn)端到端運(yùn)行,全程無需人工干預(yù)。

來自 Pico-Banana-400K 數(shù)據(jù)集的單輪文本引導(dǎo)圖像編輯示例。每一對(duì)圖像展示了編輯結(jié)果(右)及其對(duì)應(yīng)的原始圖像(左)。該數(shù)據(jù)集涵蓋多種編輯類型,包括光度調(diào)整、物體級(jí)操作、風(fēng)格化變換以及場景或光照修改等。

圖像編輯指令內(nèi)容的分布情況
該數(shù)據(jù)集系統(tǒng)地映射為 35 種現(xiàn)實(shí)世界的編輯類型,涵蓋了從全局色調(diào)變化到人類風(fēng)格化和物體重新定位等所有方面。這就像向人工智能傳授所有存在的 Photoshop 技能一樣。

圖像編輯分類。
如上表所示,每種操作都?xì)w屬于其對(duì)應(yīng)的類別。Count 表示在單輪編輯子集中,經(jīng) Gemini-2.5-Pro 評(píng)估器判定(符合指令且具備視覺質(zhì)量)并在最多三次嘗試內(nèi)成功的樣本數(shù)量。
若某個(gè)(圖像,指令)對(duì)在三次生成嘗試中全部失敗,則被視為失敗案例,并從公開數(shù)據(jù)集中剔除。若在獲得成功結(jié)果前經(jīng)歷了一到兩次失敗嘗試,則這些失敗的編輯結(jié)果也會(huì)被保留下來,用于構(gòu)建偏好數(shù)據(jù)(preference data)。
這里是一個(gè)很巧妙的地方,蘋果保留了失敗的編輯結(jié)果。
每個(gè)失敗的編輯都與成功的編輯配對(duì)。因此,在該數(shù)據(jù)集上,不再只是訓(xùn)練模型「做得更好」,而是訓(xùn)練它們知道「更好」是什么樣的。這是一種在多模態(tài)系統(tǒng)中構(gòu)建判斷力的方法。

偏好三元組示例。 從左至右依次為:原始圖像、中間面板中的自然語言指令(要求將粉白色吸管移動(dòng)到最左邊的玻璃杯中),以及模型生成的兩種結(jié)果:一種是成功的編輯,準(zhǔn)確完成了指令并保持了場景一致性;另一種是失敗的編輯,未正確執(zhí)行指令(位置或幾何關(guān)系錯(cuò)誤)。
偏好子集是該領(lǐng)域中一項(xiàng)極具價(jià)值的貢獻(xiàn)。通過系統(tǒng)地收集成功與失敗的編輯嘗試,該數(shù)據(jù)集為人類對(duì)齊與偏好學(xué)習(xí)研究提供了可能。
失敗的編輯通常表現(xiàn)出一些常見的失誤類型,例如未能完整遵循指令、出現(xiàn)視覺偽影或與原圖內(nèi)容融合不佳。這些數(shù)據(jù)可用于訓(xùn)練能夠理解人類編輯質(zhì)量判斷的獎(jiǎng)勵(lì)模型,或用于應(yīng)用 DPO 等技術(shù),從而提升模型與人類偏好的對(duì)齊程度。
數(shù)據(jù)分析

各編輯類型的成功率
研究團(tuán)隊(duì)評(píng)估了數(shù)據(jù)集中不同編輯類型的成功率。如圖所示,呈現(xiàn)出一致的規(guī)律:全局外觀和風(fēng)格編輯較為容易,而需要精細(xì)空間控制、布局或符號(hào)一致性的編輯仍然具有挑戰(zhàn)性。
容易:全局編輯與風(fēng)格化
全局編輯的可靠性最高。強(qiáng)藝術(shù)風(fēng)格遷移的成功率為 0.9340,膠片顆粒 / 復(fù)古效果為 0.9068,現(xiàn)代?歷史風(fēng)格互轉(zhuǎn)為 0.8875。這些操作主要調(diào)整全局紋理、色彩統(tǒng)計(jì)和色調(diào),對(duì)空間推理或顯式目標(biāo)協(xié)調(diào)的需求較低。
中等:對(duì)象語義與場景上下文
語義上有針對(duì)性但較粗粒度的編輯總體表現(xiàn)穩(wěn)健。移除物體的成功率為 0.8328,替換類別為 0.8348。場景級(jí)修改(如季節(jié)變換 0.8015、照片→卡通 / 素描 0.8006)表現(xiàn)相似。典型失敗案例源于僅文本條件下定位不準(zhǔn)確(例如誤改相鄰區(qū)域)或輕微的顏色 / 紋理漂移。
困難:精確幾何、布局與文字編輯
需要精細(xì)空間控制或符號(hào)正確性的編輯可靠性最低。移動(dòng)物體最為困難,成功率僅 0.5923;改變尺寸 / 形狀 / 方向?yàn)?0.6627,常出現(xiàn)透視不一致或拓?fù)鋽嗔选M庋永L制(outpainting) 的成功率為 0.6634,常在邊界連續(xù)性上出現(xiàn)問題。
文字編輯尤為脆弱:更改字體 / 樣式的成功率最低,僅 0.5759;而翻譯、替換或添加文本也不穩(wěn)定,反映出在真實(shí)感圖像中保持字形完整性、對(duì)齊和對(duì)比度的困難。
在人類風(fēng)格化編輯中,皮克斯 / 迪士尼式 3D 風(fēng)格(0.6463)和漫畫夸張風(fēng)格(0.5884)往往出現(xiàn)身份漂移或陰影偽影,尤其在形變較大時(shí)更明顯。
排版仍然是多模態(tài)人工智能迄今為止最難的問題。
總結(jié)
該論文的主要貢獻(xiàn)有:
1. 大規(guī)模可共享數(shù)據(jù)集:發(fā)布了 Pico-Banana-400K,包含約 40 萬個(gè)基于真實(shí)圖像構(gòu)建的高質(zhì)量圖像編輯示例。數(shù)據(jù)集依據(jù) 35 類編輯類型分類體系 進(jìn)行系統(tǒng)組織,并通過自動(dòng)化評(píng)分與人工核驗(yàn)實(shí)施嚴(yán)格的質(zhì)量控制。
2. 多目標(biāo)訓(xùn)練支持:除 25.8 萬個(gè)單輪監(jiān)督微調(diào)樣本外,還提供 5.6 萬對(duì)偏好樣本(成功編輯 vs. 失敗編輯),用于 DPO 和 獎(jiǎng)勵(lì)建模等對(duì)齊方法的研究,從而支持模型在魯棒性與偏好學(xué)習(xí)方面的探索。
3. 復(fù)雜編輯場景:收錄了 7.2 萬組多輪編輯序列,每個(gè)會(huì)話包含 2–5 次連續(xù)編輯,便于研究迭代式優(yōu)化、上下文感知編輯與編輯規(guī)劃等問題。所有樣本均包含詳細(xì)版與簡潔版指令,以支持研究提示粒度對(duì)模型表現(xiàn)的影響。
Pico-Banana-400K 不僅僅是一個(gè)數(shù)據(jù)集,它是證明人工智能現(xiàn)在可以大規(guī)模生成和驗(yàn)證自己的訓(xùn)練數(shù)據(jù),并且精確無誤,無需人工監(jiān)督。
蘋果公司悄無聲息地奠定了未來十年多模態(tài)學(xué)習(xí)的基礎(chǔ)。






























