重磅!黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重,120 億參數(shù)黑科技,重塑圖像編輯格局!
![重磅!黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重,120 億參數(shù)黑科技,重塑圖像編輯格局!-AI.x社區(qū) 重磅!黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重,120 億參數(shù)黑科技,重塑圖像編輯格局!-AI.x社區(qū)](https://s2.51cto.com/oss/202507/08/f59860982f34c0a176f86160983cf470065985.jpg)
迄今為止,所有功能強(qiáng)大的生成式圖像編輯模型都只能作為專有工具使用。如今,黑森林實驗室發(fā)布了 FLUX.1 Kontext [dev],這是FLUX.1 Kontext [pro]的開發(fā)者版本,它在一個 120 億參數(shù)的模型中提供專有級別的圖像編輯性能,并且可在消費級硬件上運行。
開放模型權(quán)重是技術(shù)創(chuàng)新的基石。FLUX.1 Kontext [dev]現(xiàn)已作為開放權(quán)重模型在 FLUX.1 非商業(yè)許可證下發(fā)布,可供研究和非商業(yè)用途免費使用。FLUX.1 Kontext [dev] 與現(xiàn)有的 FLUX.1 [dev] 推理代碼兼容,并提供對 ComfyUI、HuggingFace Diffusers 和 TensorRT 等熱門推理框架的即時支持。
主要特點
- 根據(jù)編輯指令更改現(xiàn)有圖像。
- 具有特征、風(fēng)格和對象參考,無需任何微調(diào)。
- 強(qiáng)大的一致性允許用戶通過多次連續(xù)編輯來優(yōu)化圖像,同時最大程度地減少視覺漂移。
- 采用指導(dǎo)蒸餾進(jìn)行訓(xùn)練,F(xiàn)LUX.1 Kontext [dev]效率更高。
- 開放權(quán)重以推動新科學(xué)研究,并授權(quán)開發(fā)創(chuàng)新工作流。
- 生成的輸出可用于個人、科學(xué)和商業(yè)目的,如FLUX.1 [dev] 非商業(yè)許可證中所述。
結(jié)果展示
![重磅!黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重,120 億參數(shù)黑科技,重塑圖像編輯格局!-AI.x社區(qū) 重磅!黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重,120 億參數(shù)黑科技,重塑圖像編輯格局!-AI.x社區(qū)](https://s2.51cto.com/oss/202507/08/39879a9808027a6a8e8599ee6b5d9b6c395e39.png)
FLUX.1 Kontext 的文本轉(zhuǎn)圖像示例,具有低烘焙度、多樣風(fēng)格和精準(zhǔn)的排版。
![重磅!黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重,120 億參數(shù)黑科技,重塑圖像編輯格局!-AI.x社區(qū) 重磅!黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重,120 億參數(shù)黑科技,重塑圖像編輯格局!-AI.x社區(qū)](https://s2.51cto.com/oss/202507/08/9835fa9652fb582a7eb669aad13ad0786f3c79.png)
風(fēng)格參考。給定一張輸入圖像,模型提取其藝術(shù)風(fēng)格,并將其應(yīng)用于生成多樣化的新場景,同時保留原始風(fēng)格特征。
![重磅!黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重,120 億參數(shù)黑科技,重塑圖像編輯格局!-AI.x社區(qū) 重磅!黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重,120 億參數(shù)黑科技,重塑圖像編輯格局!-AI.x社區(qū)](https://s2.51cto.com/oss/202507/08/e676a2a8398f785df81148f683838d08b36623.png)
產(chǎn)品攝影。(a)輸入圖像展示整套服裝。(b)提取的裙子,置于白色背景下,采用產(chǎn)品攝影風(fēng)格。(c)裙子面料的特寫,突出紋理和圖案細(xì)節(jié)。
![重磅!黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重,120 億參數(shù)黑科技,重塑圖像編輯格局!-AI.x社區(qū) 重磅!黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重,120 億參數(shù)黑科技,重塑圖像編輯格局!-AI.x社區(qū)](https://s2.51cto.com/oss/202507/08/53e5142095b0a629674097f20315c5b03b4b28.png)
FLUX.1 Kontext 能夠利用邊界框等視覺提示來編輯文本,同時保持其風(fēng)格。
![重磅!黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重,120 億參數(shù)黑科技,重塑圖像編輯格局!-AI.x社區(qū) 重磅!黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重,120 億參數(shù)黑科技,重塑圖像編輯格局!-AI.x社區(qū)](https://s2.51cto.com/oss/202507/08/01cacdd6101ace51b90325f41b5e7f3a0fb482.png)
連續(xù)的面部表情編輯。從參考側(cè)面 (a) 開始,模型首先將拍攝對象重新調(diào)整朝向相機(jī) (b),然后將她的表情更改為自然大笑 (c),同時保留背景、服裝和光線。
![重磅!黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重,120 億參數(shù)黑科技,重塑圖像編輯格局!-AI.x社區(qū) 重磅!黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重,120 億參數(shù)黑科技,重塑圖像編輯格局!-AI.x社區(qū)](https://s2.51cto.com/oss/202507/08/01c5df874084e9a9149406b9e6023727d6ee9b.png)
迭代式產(chǎn)品風(fēng)格編輯。從參考碗 (a) 開始,模型首先在桌面工作室環(huán)境中生成一個與之匹配的花瓶,其中插滿鮮花 (b),然后 將花瓶的底色更改為黑色,同時保留花卉圖案、光線和構(gòu)圖 (c)。
樹立開放圖像編輯的新標(biāo)準(zhǔn)
FLUX.1 Kontext [dev] 專注于編輯任務(wù)。該模型支持迭代編輯,擅長在各種場景和環(huán)境中保留角色,并支持精確的局部和全局編輯。
![重磅!黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重,120 億參數(shù)黑科技,重塑圖像編輯格局!-AI.x社區(qū) 重磅!黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重,120 億參數(shù)黑科技,重塑圖像編輯格局!-AI.x社區(qū)](https://s2.51cto.com/oss/202507/08/7213ce5338b30c9af4c202777103570977a7f1.jpg)
實驗評估
為了驗證 FLUX.1 Kontext [dev] 的性能,在多個圖像編輯基準(zhǔn)測試中進(jìn)行了廣泛的評估。
![重磅!黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重,120 億參數(shù)黑科技,重塑圖像編輯格局!-AI.x社區(qū) 重磅!黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重,120 億參數(shù)黑科技,重塑圖像編輯格局!-AI.x社區(qū)](https://s2.51cto.com/oss/202507/08/572ca0a989cc00d2529172065df2753b3f0682.jpg)
最新發(fā)布的圖像編輯基準(zhǔn)KontextBench上的人類偏好評估表明,F(xiàn)LUX.1 Kontext [dev] 在多個類別中的表現(xiàn)均優(yōu)于現(xiàn)有的開放圖像編輯模型(字節(jié)跳動 Bagel、HiDream-E1-Full)和封閉模型(谷歌的 Gemini-Flash Image)。由Artificial Analysis進(jìn)行的獨立評估也證實了這些發(fā)現(xiàn)。
針對 NVIDIA Blackwell 架構(gòu)進(jìn)行了優(yōu)化
![重磅!黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重,120 億參數(shù)黑科技,重塑圖像編輯格局!-AI.x社區(qū) 重磅!黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重,120 億參數(shù)黑科技,重塑圖像編輯格局!-AI.x社區(qū)](https://s2.51cto.com/oss/202507/08/e87266823a584fad62d8979b07b2f8f0c4b86c.png)
實驗室與 NVIDIA 合作,專為新的NVIDIA Blackwell架構(gòu)設(shè)計了優(yōu)化的 TensorRT 權(quán)重,這大大提高了推理速度并降低了內(nèi)存使用量,同時保持了高質(zhì)量的圖像編輯性能。
除了原有的 FLUX.1 Kontext [dev] 權(quán)重外,還在Hugging Face 代碼庫中提供了 BF16、FP8 和 FP4 TensorRT 變體,讓開發(fā)者能夠根據(jù)自己的用例靈活地平衡速度、效率和質(zhì)量。
相關(guān)鏈接
- 論文:https://arxiv.org/pdf/2506.15742
- 主頁:https://bfl.ai/announcements/flux-1-kontext-dev
- 模型:https://huggingface.co/black-forest-labs/FLUX.1-Kontext-dev
- ComfyUI:https://github.com/comfyanonymous/ComfyUI
- 代碼:https://github.com/black-forest-labs/flux
- API 文檔:https://docs.bfl.ai/quick_start/introduction
- 自助服務(wù)門戶:http://bfl.ai/pricing/licensing
- 幫助臺:https://help.bfl.ai
unsetunset論文介紹unsetunset
![重磅!黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重,120 億參數(shù)黑科技,重塑圖像編輯格局!-AI.x社區(qū) 重磅!黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重,120 億參數(shù)黑科技,重塑圖像編輯格局!-AI.x社區(qū)](https://s2.51cto.com/oss/202507/08/67f002397cb2a53889307991a42e75e4e4e38a.png)
論文展示了 FLUX.1 Kontext 的評估結(jié)果,這是一個統(tǒng)一圖像生成和編輯的生成流匹配模型。該模型通過整合文本和圖像輸入的語義上下文,生成新穎的輸出視圖。FLUX.1 Kontext 采用簡單的序列連接方法,在一個統(tǒng)一的架構(gòu)中同時處理局部編輯和生成上下文任務(wù)。與當(dāng)前在多輪編輯過程中字符一致性和穩(wěn)定性下降的編輯模型相比,論文觀察到 FLUX.1 Kontext 改進(jìn)了對象和字符的保存,從而提高了迭代工作流的魯棒性。該模型的性能與當(dāng)前最先進(jìn)的系統(tǒng)相當(dāng),同時生成時間顯著縮短,支持交互式應(yīng)用程序和快速原型設(shè)計工作流。
為了驗證這些改進(jìn),論文引入了 KontextBench,這是一個全面的基準(zhǔn)測試,包含 1026 個圖像-提示對,涵蓋五個任務(wù)類別:局部編輯、全局編輯、字符引用、樣式引用和文本編輯。詳細(xì)評估表明,F(xiàn)LUX.1 Kontext 在單輪質(zhì)量和多輪一致性方面均表現(xiàn)出色,為統(tǒng)一圖像處理模型樹立了新的標(biāo)準(zhǔn)
方法概述
![重磅!黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重,120 億參數(shù)黑科技,重塑圖像編輯格局!-AI.x社區(qū) 重磅!黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重,120 億參數(shù)黑科技,重塑圖像編輯格局!-AI.x社區(qū)](https://s2.51cto.com/oss/202507/08/4949d9048602a16b0ad851777e0c8021c13484.png)
![重磅!黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重,120 億參數(shù)黑科技,重塑圖像編輯格局!-AI.x社區(qū) 重磅!黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重,120 億參數(shù)黑科技,重塑圖像編輯格局!-AI.x社區(qū)](https://s2.51cto.com/oss/202507/08/441be210740de4a2f8c1553004272d184fe799.png)
實驗結(jié)果
![重磅!黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重,120 億參數(shù)黑科技,重塑圖像編輯格局!-AI.x社區(qū) 重磅!黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重,120 億參數(shù)黑科技,重塑圖像編輯格局!-AI.x社區(qū)](https://s2.51cto.com/oss/202507/08/35f65687247fe0c340c921a369bc78c6269642.jpg)
![重磅!黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重,120 億參數(shù)黑科技,重塑圖像編輯格局!-AI.x社區(qū) 重磅!黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重,120 億參數(shù)黑科技,重塑圖像編輯格局!-AI.x社區(qū)](https://s2.51cto.com/oss/202507/08/4618d7e550dfe21f0b998139ba1b3f44e42f32.png)
![重磅!黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重,120 億參數(shù)黑科技,重塑圖像編輯格局!-AI.x社區(qū) 重磅!黑森林實驗室開放 FLUX.1 Kontext [dev]權(quán)重,120 億參數(shù)黑科技,重塑圖像編輯格局!-AI.x社區(qū)](https://s2.51cto.com/oss/202507/08/37eb4512315b5e7cc774709e5be5e1f76e5024.png)
結(jié)論
FLUX.1 Kontext是一個流匹配模型,它將上下文圖像生成和編輯功能整合到一個框架中。通過簡單的序列連接和訓(xùn)練方案,F(xiàn)LUX.1 Kontext 實現(xiàn)了最佳性能,同時解決了一些關(guān)鍵限制,例如多輪編輯過程中的字符漂移、推理速度慢和輸出質(zhì)量低。
本文轉(zhuǎn)載自???AIGC Studio???,作者:AIGC Studio

















