重磅！黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重，120 億參數(shù)黑科技，重塑圖像編輯格局！

發(fā)布于 2025-7-8 06:21

瀏覽

0收藏

重磅！黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重，120 億參數(shù)黑科技，重塑圖像編輯格局！-AI.x社區(qū)

迄今為止，所有功能強(qiáng)大的生成式圖像編輯模型都只能作為專有工具使用。如今，黑森林實驗室發(fā)布了 FLUX.1 Kontext [dev]，這是FLUX.1 Kontext [pro]的開發(fā)者版本，它在一個 120 億參數(shù)的模型中提供專有級別的圖像編輯性能，并且可在消費級硬件上運行。

開放模型權(quán)重是技術(shù)創(chuàng)新的基石。FLUX.1 Kontext [dev]現(xiàn)已作為開放權(quán)重模型在 FLUX.1 非商業(yè)許可證下發(fā)布，可供研究和非商業(yè)用途免費使用。FLUX.1 Kontext [dev] 與現(xiàn)有的 FLUX.1 [dev] 推理代碼兼容，并提供對 ComfyUI、HuggingFace Diffusers 和 TensorRT 等熱門推理框架的即時支持。

主要特點

根據(jù)編輯指令更改現(xiàn)有圖像。
具有特征、風(fēng)格和對象參考，無需任何微調(diào)。
強(qiáng)大的一致性允許用戶通過多次連續(xù)編輯來優(yōu)化圖像，同時最大程度地減少視覺漂移。
采用指導(dǎo)蒸餾進(jìn)行訓(xùn)練，F(xiàn)LUX.1 Kontext [dev]效率更高。
開放權(quán)重以推動新科學(xué)研究，并授權(quán)開發(fā)創(chuàng)新工作流。
生成的輸出可用于個人、科學(xué)和商業(yè)目的，如FLUX.1 [dev] 非商業(yè)許可證中所述。

結(jié)果展示

重磅！黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重，120 億參數(shù)黑科技，重塑圖像編輯格局！-AI.x社區(qū)

FLUX.1 Kontext 的文本轉(zhuǎn)圖像示例，具有低烘焙度、多樣風(fēng)格和精準(zhǔn)的排版。

重磅！黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重，120 億參數(shù)黑科技，重塑圖像編輯格局！-AI.x社區(qū)

風(fēng)格參考。給定一張輸入圖像，模型提取其藝術(shù)風(fēng)格，并將其應(yīng)用于生成多樣化的新場景，同時保留原始風(fēng)格特征。

重磅！黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重，120 億參數(shù)黑科技，重塑圖像編輯格局！-AI.x社區(qū)

產(chǎn)品攝影。（a）輸入圖像展示整套服裝。（b）提取的裙子，置于白色背景下，采用產(chǎn)品攝影風(fēng)格。（c）裙子面料的特寫，突出紋理和圖案細(xì)節(jié)。

重磅！黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重，120 億參數(shù)黑科技，重塑圖像編輯格局！-AI.x社區(qū)

FLUX.1 Kontext 能夠利用邊界框等視覺提示來編輯文本，同時保持其風(fēng)格。

重磅！黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重，120 億參數(shù)黑科技，重塑圖像編輯格局！-AI.x社區(qū)

連續(xù)的面部表情編輯。從參考側(cè)面 (a) 開始，模型首先將拍攝對象重新調(diào)整朝向相機(jī) (b)，然后將她的表情更改為自然大笑 (c)，同時保留背景、服裝和光線。

重磅！黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重，120 億參數(shù)黑科技，重塑圖像編輯格局！-AI.x社區(qū)

迭代式產(chǎn)品風(fēng)格編輯。從參考碗 (a) 開始，模型首先在桌面工作室環(huán)境中生成一個與之匹配的花瓶，其中插滿鮮花 (b)，然后將花瓶的底色更改為黑色，同時保留花卉圖案、光線和構(gòu)圖 (c)。

樹立開放圖像編輯的新標(biāo)準(zhǔn)

FLUX.1 Kontext [dev] 專注于編輯任務(wù)。該模型支持迭代編輯，擅長在各種場景和環(huán)境中保留角色，并支持精確的局部和全局編輯。

重磅！黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重，120 億參數(shù)黑科技，重塑圖像編輯格局！-AI.x社區(qū)

實驗評估

為了驗證 FLUX.1 Kontext [dev] 的性能，在多個圖像編輯基準(zhǔn)測試中進(jìn)行了廣泛的評估。

重磅！黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重，120 億參數(shù)黑科技，重塑圖像編輯格局！-AI.x社區(qū)

最新發(fā)布的圖像編輯基準(zhǔn)KontextBench上的人類偏好評估表明，F(xiàn)LUX.1 Kontext [dev] 在多個類別中的表現(xiàn)均優(yōu)于現(xiàn)有的開放圖像編輯模型（字節(jié)跳動 Bagel、HiDream-E1-Full）和封閉模型（谷歌的 Gemini-Flash Image）。由Artificial Analysis進(jìn)行的獨立評估也證實了這些發(fā)現(xiàn)。

針對 NVIDIA Blackwell 架構(gòu)進(jìn)行了優(yōu)化

重磅！黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重，120 億參數(shù)黑科技，重塑圖像編輯格局！-AI.x社區(qū)

實驗室與 NVIDIA 合作，專為新的NVIDIA Blackwell架構(gòu)設(shè)計了優(yōu)化的 TensorRT 權(quán)重，這大大提高了推理速度并降低了內(nèi)存使用量，同時保持了高質(zhì)量的圖像編輯性能。

除了原有的 FLUX.1 Kontext [dev] 權(quán)重外，還在Hugging Face 代碼庫中提供了 BF16、FP8 和 FP4 TensorRT 變體，讓開發(fā)者能夠根據(jù)自己的用例靈活地平衡速度、效率和質(zhì)量。

unsetunset論文介紹unsetunset

重磅！黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重，120 億參數(shù)黑科技，重塑圖像編輯格局！-AI.x社區(qū)

論文展示了 FLUX.1 Kontext 的評估結(jié)果，這是一個統(tǒng)一圖像生成和編輯的生成流匹配模型。該模型通過整合文本和圖像輸入的語義上下文，生成新穎的輸出視圖。FLUX.1 Kontext 采用簡單的序列連接方法，在一個統(tǒng)一的架構(gòu)中同時處理局部編輯和生成上下文任務(wù)。與當(dāng)前在多輪編輯過程中字符一致性和穩(wěn)定性下降的編輯模型相比，論文觀察到 FLUX.1 Kontext 改進(jìn)了對象和字符的保存，從而提高了迭代工作流的魯棒性。該模型的性能與當(dāng)前最先進(jìn)的系統(tǒng)相當(dāng)，同時生成時間顯著縮短，支持交互式應(yīng)用程序和快速原型設(shè)計工作流。

為了驗證這些改進(jìn)，論文引入了 KontextBench，這是一個全面的基準(zhǔn)測試，包含 1026 個圖像-提示對，涵蓋五個任務(wù)類別：局部編輯、全局編輯、字符引用、樣式引用和文本編輯。詳細(xì)評估表明，F(xiàn)LUX.1 Kontext 在單輪質(zhì)量和多輪一致性方面均表現(xiàn)出色，為統(tǒng)一圖像處理模型樹立了新的標(biāo)準(zhǔn)

方法概述

重磅！黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重，120 億參數(shù)黑科技，重塑圖像編輯格局！-AI.x社區(qū)

實驗結(jié)果

重磅！黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重，120 億參數(shù)黑科技，重塑圖像編輯格局！-AI.x社區(qū)

結(jié)論

FLUX.1 Kontext是一個流匹配模型，它將上下文圖像生成和編輯功能整合到一個框架中。通過簡單的序列連接和訓(xùn)練方案，F(xiàn)LUX.1 Kontext 實現(xiàn)了最佳性能，同時解決了一些關(guān)鍵限制，例如多輪編輯過程中的字符漂移、推理速度慢和輸出質(zhì)量低。

本文轉(zhuǎn)載自???AIGC Studio???，作者：AIGC Studio

標(biāo)簽

FLUX.1

參數(shù)

圖像

贊

回復(fù)