精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯原創

發布于 2025-5-12 09:06

瀏覽

0收藏

摘要

基于指令的圖像編輯能夠通過自然語言提示實現強大的圖像修改，但當前的方法面臨著精度和效率之間的權衡。微調方法需要大量的計算資源和大規模數據集，而免訓練技術在指令理解和編輯質量方面存在困難。我們利用大規模擴散變換器（DiT）增強的生成能力和固有的上下文感知來解決這一困境。我們的解決方案有三個貢獻：（1）一種基于上下文提示的零樣本指令遵從的上下文編輯框架，避免了結構變化；（2）一種 LoRA-MoE 混合調優策略，通過高效的自適應和動態專家路由提高了靈活性，而無需進行大量的重新訓練；（3）一種早期過濾推理時間縮放方法，利用視覺語言模型（VLMs）在早期選擇更好的初始噪聲，提高了編輯質量。廣泛的評估證明了我們方法的優越性：與傳統基線相比，它在僅使用 0.5% 的訓練數據和 1% 的可訓練參數的情況下，性能優于最先進的方法。這項工作建立了一個新的范式，實現了高精度且高效的指令引導編輯。

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

圖1. 我們提出了上下文編輯（In-Context Edit）方法，這是一種新穎的方法，僅使用先前最先進方法所需訓練數據的0.5%和參數的1%，就能實現最先進的基于指令的圖像編輯。第一行展示了一系列多輪編輯，執行精度很高；而第二行和第三行則突出顯示了我們的方法在單次編輯中產生的多樣且視覺效果令人印象深刻的結果。

1. 引言

近年來，基于指令的圖像編輯因其能夠使用自然語言提示來轉換和操作圖像而備受關注?；谥噶畹木庉嫷闹饕獌烖c是它能夠用最少的文本指令生成精確的修改，從而為自動化圖像處理和用戶驅動的內容創建開辟了新的可能性。

現有的基于指令的圖像編輯方法通常分為兩類：基于微調的方法和免訓練技術?；谖⒄{的方法 [3, 10, 12, 28, 39, 47, 48] 通常涉及在大規模編輯數據集上重新訓練預訓練的擴散模型，使模型能夠學習遵循指令的能力。相比之下，免訓練技術 [1, 13, 19, 21, 30, 43, 51] 通過圖像反演、提示交換（用生成性提示替換指令）或操作注意力權重等機制避免了重新訓練過程。

盡管當前的圖像編輯方法展示出了令人印象深刻的能力，但它們在精度和效率之間面臨著關鍵的權衡?；谖⒄{的方法通過結構修改（例如，參考圖像處理模塊、通道調整）以及在大規模數據集（45 萬個樣本 [3] 到 1000 萬個樣本 [39]）上的廣泛訓練，能夠提供精確的指令跟隨結果，但需要大量的計算資源，這降低了效率。相反，免訓練方法消除了架構修改和數據集訓練，但在解釋復雜指令方面存在困難，導致精度降低，限制了它們的實際應用。

盡管存在上述困境，但擴散變換器（DiT）[7, 8, 35] 的最新進展提供了一條有前景的途徑。DiT 架構具有兩個關鍵特性：（1）可擴展的生成保真度：更大的 DiT 變體（例如，FLUX [22]）在沒有輔助模塊的情況下實現了最先進的文本到圖像對齊，能夠直接適應參考引導合成 [41] 和身份保留編輯 [17] 等任務。（2）內在的上下文感知：DiT 通過注意力機制在參考內容和生成內容之間建立雙向交互，能夠在沒有專用對齊網絡的情況下同時處理源圖像和目標圖像 [17, 49]。這引發了一個關鍵問題：DiT 的生成能力和上下文感知能否直接解決基于指令的圖像編輯問題，并通過其內在能力而非外部復雜性來平衡精度和效率？

我們的研究通過探索 DiT 的編輯能力揭示了兩個關鍵見解。首先，我們實現了一種基于 DiT 的免訓練上下文編輯范式，其中模型通過處理源圖像（雙聯圖的左面板）和 “上下文提示” 來生成編輯后的輸出（雙聯圖的右面板）。這種方法展示了兩個關鍵優勢：（1）消除了對參考圖像編碼的架構修改，（2）通過上下文理解實現了免調優的指令遵從。雖然仍然存在持續的失敗案例，但所實現的優勢建立了一個強大的基線，便于進行高效的微調以提高精度。

其次，我們觀察到初始噪聲的選擇對結果質量有顯著影響。某些類型的噪聲會導致更好的結果，這凸顯了選擇更好的初始噪聲以提高性能的重要性。

基于這些觀察結果，我們探索了兩種策略來提高編輯范式的精度和效率：

?LoRA-MoE 混合調優：在 DiT 框架內將參數高效的 LoRA 適配器與專家混合（MoE）路由相結合，這種方法在編輯過程中動態激活特定任務的專家。在最少的公開可用數據上進行訓練，它可以在不同場景下提高編輯成功率，而無需進行架構修改或大規模重新訓練。

?早期過濾推理時間縮放：利用視覺語言模型（VLMs）作為質量評估器，我們在整流流模型的早期去噪步驟中識別更好的初始噪聲分布。這種策略選擇與文本指令對齊的噪聲候選，提高了魯棒性和輸出質量。

我們在 Emu Edit [39] 和 MagicBrush 基準測試上的實驗展示了三個關鍵進展。首先，該方法實現了卓越的數據和參數效率，在僅使用 0.5% 的訓練數據和 1% 的可訓練參數的情況下，性能優于最先進的方法。其次，它優于最近基于 DiT 的模型，證實了我們上下文編輯范式的有效性。第三，VIE 分數評估 [20] 顯示，與商業系統相比，我們的方法具有競爭力（78.2 對比 SeedEdit 的 75.7），證明了其實際可行性。這些結果在精度和效率之間實現了前所未有的平衡（如圖 2 所示）?？傊?，我們的貢獻包括：

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

- 圖2：模型性能與訓練數據效率?！皵祿省迸c訓練數據量成反比，而CLIP分數反映編輯性能。我們的方法用更少的訓練數據實現了高編輯精度。

?我們探索了大規模預訓練擴散變換器（例如 FLUX）的編輯能力，并引入了一種新穎的上下文編輯范式，能夠在不修改模型架構或進行大量微調的情況下實現有效的指令式圖像編輯。

?我們提出了 LoRA-MoE 混合微調方法，用于參數高效的編輯任務適應，并結合了基于 VLM 的噪聲修剪的早期過濾推理時間縮放策略。這種協同設計在保持上下文編輯框架效率的同時，協同提高了編輯精度。

?我們的實驗表明，與以前的方法相比，我們的方法在僅需要 0.5% 的訓練數據和 1% 的可訓練參數的情況下，實現了最先進的編輯性能。這有效地解決了長期以來困擾先前方法的精度 - 效率權衡問題。

2. 相關工作

免訓練編輯技術。自擴散模型出現以來，許多免訓練的圖像編輯方法 [5, 13, 21, 31, 42, 51] 受到了關注。RF-Solver [43] 通過減輕 ODE 求解誤差提高了整流流模型中的反演精度，并利用 MasaCtrl [5] 進行圖像編輯。StableFlow [1] 通過消融研究確定了關鍵的 MM-DiT 塊，僅將特征注入這些塊以增強編輯能力。然而，這些方法面臨兩個關鍵限制：1）手動設計的模塊限制了生成能力，阻礙了對復雜指令的理解，降低了成功率；2）編輯需要精心設計的提示，限制了泛化性和可擴展性。

基于微調的編輯方法。目前大多數編輯模型修改架構并在高質量數據集上進行微調 [3, 44-48]。InstructPix2Pix [3] 使用原始圖像作為輸入對擴散 UNet 進行微調。MGIE [10] 通過集成多模態大語言模型（MLLM）來編碼指令并將其注入擴散模型，增強了指令理解能力。然而，生成性提示和編輯指令的嵌入空間之間存在差距，降低了擴散模型的泛化能力，需要大規模數據集來彌合這一差距。例如，InstructPix2Pix 生成了 45 萬對數據，Emu Edit [39] 收集了近 1000 萬對數據，FluxEdit [34] 基于 FLUX [22] 使用了來自 [44] 的 120 萬對數據，但編輯結果仍然不盡如人意。

3. 方法

在本節中，我們首先探索原始 DiT 生成模型中的上下文編輯能力，并提出用于基于指令的圖像編輯的上下文編輯框架（§3.1）。在進行深入分析之后，我們將 LoRA-MoE 混合微調（§3.2）引入我們的框架，并使用一個小型編輯數據集，這顯著提高了編輯質量和成功率。最后，我們提出一種早期過濾推理時間縮放策略（§3.3），以選擇更好的初始噪聲，在推理過程中提高生成質量。

3.1 DiT 的上下文編輯能力探索

帶有編輯指令的上下文生成。受最近的工作 [16, 17, 41, 49] 啟發，這些工作展示了大規模 DiT 模型強大的上下文能力，我們探索是否可以使用上下文生成進行圖像編輯。為此，我們將編輯指令添加到為上下文編輯設計的生成提示中。具體來說，我們設計的提示形式為：“同一 {主題} 的并排圖像：左邊描繪了原始 {描述}，而右邊與左邊鏡像，但應用了 {編輯指令}”。我們將這種表述稱為上下文編輯提示（IC 提示）。利用在 DiT 中廣泛采用的 T5 文本編碼器 [36]，因其強大的句子級語義理解能力 [11]，這種方法有效地解釋了這些擴展提示，實現了精確且上下文連貫的編輯。

如圖 3 所示，上下文編輯提示（IC 提示）使 DiT 模型能夠以雙聯圖格式生成編輯后的輸出：左邊是與描述對齊的圖像，而右邊是根據編輯指令調整后的同一圖像。為了闡明這種機制，我們檢查了 IC 提示中編輯提示的注意力圖，發現在預定修改的區域中注意力值明顯較高。這一證據表明，DiT 模型能夠巧妙地解釋和執行嵌入在 IC 提示中的編輯指令，使其能夠理解編輯指令并相應地執行，而無需進行大量的微調。

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

- 圖3：編輯指令的注意力圖可視化（§3.1）。我們通過對不同步驟和層的總和與平均值進行聚合，計算所選文本的注意力值。

基于 T2I DiT 的上下文編輯框架?

基于上述見解，我們提出了一種編輯框架，其中將左邊指定為參考圖像，能夠無縫地將編輯應用到右邊。具體來說，我們分別基于文本到圖像（T2I）DiT 和修復 DiT 引入了兩種免訓練框架，如圖 4 所示。對于 T2I DiT 框架，我們設計了一種隱式參考圖像注入方法。我們首先對參考圖像進行圖像反演 [1, 5, 29, 43]，保留各層和各步驟的注意力值。然后將這些值注入到代表雙聯圖左邊的標記中以進行圖像重建，而右邊則在上下文生成過程中根據預定義的 IC 提示中的編輯指令生成。

相比之下，修復 DiT 框架提供了一種更直接的方法。由于它接受參考圖像和掩碼，我們預設一個并排圖像，左邊為參考圖像，右邊為掩碼，使用相同的 IC 提示來指導修復過程。

圖 4 展示了這兩種框架的操作，示例輸出顯示了它們在編輯過程中保留參考圖像身份的能力。然而，表 3 中的實驗表明，這兩種框架都不能在各種編輯任務中始終如一地提供穩定、可靠的結果，限制了它們在現實世界中的適用性。此外，T2I DiT 方法需要額外的反演步驟，與更簡單的修復框架相比，增加了計算需求。因此，我們認為基于修復的框架是進一步改進的更可行候選方案。

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

- 圖4：兩種免訓練上下文編輯結構的探索（§3.1）。每個框架的示例圖像均為其編輯輸出。盡管存在一些瑕疵，但它們展示了基于指令的編輯任務的潛力。

3.2 LoRA-MoE 混合微調

基于上述分析，我們將我們的方法總結為一個函數 ε，它將源圖像 Is 和編輯指令 Te 映射到目標編輯輸出 It：

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

其中 D 是修復擴散變換器，IIC 表示上下文圖像輸入，源圖像 Is 放在左邊，右邊被固定的二進制掩碼 M 掩蓋。編輯指令 Te 被轉換為上下文編輯提示 TIC。

LoRA 微調。為了增強這個框架的編輯能力，我們從公開來源收集了一個緊湊的編輯數據集（5 萬個樣本）（見第 4 節），并在多模態 DiT 塊上采用 LoRA 微調 [15, 49]，以實現高效的參數適應。盡管數據集規模有限，但這種方法在編輯成功率和質量上都有顯著提高。然而，某些任務（例如風格改變和移除）仍然存在挑戰，降低了整體成功率。

這些發現使我們認為，單一的 LoRA 結構能力有限，不足以應對各種編輯任務。不同的編輯任務需要不同的潛在特征操作，同時掌握這些不同的模式是一個重大挑戰。以前的 LoRA 微調通常專注于特定任務，為不同的目標訓練單獨的權重，這凸顯了統一的 LoRA 模型在全面編輯場景中的局限性。

LoRAs 混合。為了解決這一限制，我們從大語言模型的最新進展中獲得靈感，其中專家混合（MoE）架構 [4, 18, 23, 25] 使用專門的專家網絡巧妙地處理各種輸入模式。MoE 范式為我們的任務提供了兩個關鍵優勢：（1）專門處理，使各個專家能夠專注于不同的特征操作；（2）動態計算，允許通過路由機制 [38] 選擇特定的專家。這在不犧牲計算效率的情況下增強了模型能力。

利用這些優勢，我們在 DiT 塊中提出了一種混合 LoRA-MoE 結構，將并行的 LoRA 專家合并到多模態（MM）注意力塊的輸出投影層中，同時在其他層中使用標準 LoRA 進行高效的參數調整。一個可訓練的路由分類器根據視覺標記內容和文本嵌入語義動態選擇最適合的專家進行特征轉換。

具體來說，我們設置 N 個專家，每個專家對應一個秩為 r 且縮放因子為 α 的 LoRA 模塊。對于每個輸入標記，路由分類器 G 預測每個專家的選擇概率，其中 i∈[1, N]。MoE-LoRA 結構的輸出計算如下：

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

這里，Bi∈R^d×r 和 Ai∈R^r×k（r << min (d, k)）表示第 i 個 LoRA 專家的學習權重，x∈R^k 是輸入標記。路由分類器為每個專家分配一個選擇概率 G (x) i，最終輸出是專家輸出的加權和。在我們的實現中，我們使用稀疏 MoE 設置，只選擇前 k 個專家：

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

其中 TopK (?, k) 函數僅保留向量的前 k 個條目，并將所有其他條目設置為 -∞。這確保了專家的高效使用，在保持編輯任務靈活性的同時最小化計算開銷。

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

- 圖5：我們通過LoRA-MoE混合調優增強了修復框架的編輯能力，集成了參數高效的適應和動態專家路由以進行專門的特征處理和動態計算（§3.2）。

3.3 早期過濾推理時間縮放

在推理過程中，我們發現初始噪聲對編輯結果有顯著影響，一些輸入產生的結果更符合人類偏好（見圖 10），最近的研究 [27, 50] 也支持這一模式。這種可變性促使我們研究推理時間縮放，以提高編輯的一致性和質量。在基于指令的編輯中，我們觀察到指令對齊的成功通常在幾個推理步驟中就很明顯（見圖 6），這一特征與整流流 DiT 模型 [24, 26] 兼容。這些模型能夠有效地遍歷潛在空間，只需幾個去噪步驟（有時只需一個 [9]）就能提供高質量的輸出。因此，與需要更多步驟來提高細節和質量的生成任務不同，我們可以僅通過幾個步驟來評估編輯的成功與否。

基于這一見解，我們提出了一種早期過濾推理時間縮放策略。我們首先對 M 個初始噪聲候選進行采樣，并為每個候選生成一個初步的 m 步編輯，其中 m << n（完整的去噪步驟）。然后，一個視覺大語言模型（VLM）使用冒泡排序啟發的成對比較來評估這 M 個早期輸出是否符合指令，迭代地確定最佳候選，類似于選擇最大值（見圖 6）。隨后，使用 π 步去噪對這個最佳種子進行細化，以生成最終圖像。我們的方法能夠快速識別早期的良好噪聲，而 VLM 選擇確保輸出符合人類偏好。補充材料（Sup. Mat.）中提供了更多細節。

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

- 圖6：推理時間縮放策略示意圖（§3.3）。上排展示了編輯成功與否可在最初幾個步驟內評估。這些早期結果用于通過VLM評判篩選出最優初始噪聲。

4. 實驗

實現細節。我們采用 FLUX.1 Fill，這是領先的基于開源 DiT 的修復模型，作為我們的骨干網絡。為了微調我們的混合 LoRA-MoE 模塊，我們從公共來源收集了一個簡潔的編輯數據集。最初，我們使用了 MagicBrush 數據集 [47]，其中包含 9000 個編輯樣本，但發現了它的局限性：1）編輯類型混合不均衡，2）缺乏專注于風格的數據，以及有限的領域多樣性。為了解決這些問題，我們用來自開源 OmniEdit 數據集 [44] 的大約 4 萬個樣本對其進行了擴充，形成了我們最終的訓練集。我們的模型配置中 LoRA 秩為 32，在 MoE 模塊中包含四個專家，并使用 TopK 值為 1。在我們的推理時間縮放策略中，我們使用 Qwen-VL-72B [2] 作為評估器來評估圖像輸出。補充材料中提供了關于數據集、模型參數和對比研究的更多細節。

評估設置。我們在 Emu [39] 和 MagicBrush 測試集 [47] 上進行了全面評估。對于包含編輯結果真值（GT）的 MagicBrush，我們緊密遵循 [47, 48] 來計算 CLIP [14, 37]、DINO [6, 33] 和 L1 等指標，測量我們模型的結果與 GT 之間的差異。相反，Emu 測試集缺乏編輯結果真值；我們遵循 [39, 48] 進行基線評估，并按照 [44] 使用 GPT4o 進行補充，以判斷編輯的成功與否（見補充材料）。為了確保公平比較，所有模型都使用單個默認噪聲輸入進行評估，并且不使用我們提出的早期過濾推理時間縮放技術。

正如 [20, 44, 45] 所強調的，傳統指標（如 CLIP [14, 37]和 DINO [6, 33]）往往與人類偏好不一致。為了更準確地評估我們模型的編輯性能和視覺質量，我們還計算了 VIE 分數 [20]。這個指標由兩個部分組成：SC 分數，用于評估指令遵守情況和未編輯區域的保留情況；PQ 分數，用于獨立于源圖像和指令衡量視覺質量。總體分數通過Overall =\sqrt{SC ×PQ}計算得出。我們利用這個指標來衡量推理時間縮放策略帶來的提升，并將我們的方法與頂級閉源商業模型 SeedEdit [40] 進行基準測試。

4.1 與最先進方法的比較

MagicBrush 和 Emu 測試集上的結果：我們將模型與基于 UNet 的方法 [3, 39, 47] 和基于 DiT 的方法 [28, 34, 43, 48] 進行評估比較，詳細結果見表 1 和表 2。我們的模型在兩個數據集上都達到了與最先進方法相當的性能，在 MagicBrush 測試集上（表 1），輸出結果與真值非常接近，展示出強大的編輯能力。在 Emu 測試集上（表 2），它在文本對齊方面與最先進方法相當，同時更好地保持了圖像的真實性。值得注意的是，盡管我們的模型所需的訓練數據少得多，但基于 GPT 的評估分數顯著優于開源模型，并且接近閉源的 Emu Edit 模型。與具有相同骨干網絡的基于 DiT 的模型相比，我們的方法使用更少的樣本和參數，卻能提供更優的性能，突出了其效率和有效性。定性結果見圖 7 和補充材料。

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

- 表1：MagicBrush測試集上的定量結果（§4.1）。遵循[48]，所有指標均在編輯后的圖像與MagicBrush [47]提供的GT編輯圖像之間計算。*表示該方法無法直接處理指令性提示，而是依賴數據集提供的輸出字幕。

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

- 表2：Emu測試集上的定量結果（§4.1）。遵循[39, 48]，我們計算源圖像和編輯后圖像之間的CLIP-I和DINO分數，而CLIP-out衡量輸出字幕與編輯后圖像之間的距離。此外，我們使用GPT-4o評估編輯結果。

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

- 圖7：在Emu Edit測試集上與基線模型的比較（§4.1）。與基線模型相比，我們的方法在編輯指令準確性和非編輯區域保留方面表現更優。放大可查看詳細內容。

VIE 分數評估：如圖 8 所示，在編輯準確性和視覺質量方面，我們的模型顯著優于開源的最先進方法。通過隨機種子測試，我們的性能接近 SeedEdit，并且使用推理縮放策略后，整體分數超過了 SeedEdit。雖然 SeedEdit 可能由于其精美的、具有商業吸引力的輸出而獲得更高的 PQ 分數，但它在未編輯區域的身份保留方面常常失敗。相比之下，如圖 9 所示，我們的方法在這些方面保持了更高的保真度。

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

- 圖8：我們使用VIE分數評估與人類偏好的一致性，并量化推理時間縮放策略帶來的改進（帶推理縮放，§4.1和§4.2）。

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

- 圖9：在以人類為中心的圖像編輯中，SeedEdit優先考慮美學而犧牲身份一致性，而我們的方法確保更精確的編輯，符合預期目標。

4.2 消融研究

模型結構：我們通過各種配置的實驗驗證了我們的方法，詳見表 3。上下文編輯提示（IC 提示）被證明至關重要：在無訓練模型中，它的表現明顯優于直接編輯指令，并且使用 IC 提示進行微調進一步增強了其編輯能力。我們的 LoRA-MoE 設計優于標準的 LoRA 微調，以更少的參數實現了更好的編輯質量和成功率（GPT 分數提高 13%），突出了其效率。此外，僅對輸出投影層進行適應（“僅 MoE”）會導致性能下降，這表明對所有模型模塊進行微調的必要性。

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

- 表3：模型結構的消融研究（§4.2）。我們在Emu測試集上評估不同消融設置的性能。

推理時間縮放：如圖 8 和圖 10 所示，我們的推理時間縮放策略顯著提高了編輯性能，SC 分數提高了 19%，VIE 總分提高了 16%。當使用固定或隨機種子生成編輯時，模型可以產生可行的結果，但并不總是最優的。通過使用視覺語言模型（VLMs）從多個種子的早期輸出中篩選并選擇最佳候選，我們實現了更高的編輯質量。補充材料中提供了進一步的比較細節。

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

- 圖10：推理時間縮放的消融實驗（§4.2）。我們的策略顯著提高了編輯質量。例如，對于“去掉頭盔”的指令，默認固定種子錯誤地移除了人物的頭部，而VLM過濾避免了這一有缺陷的結果。

數據效率：如圖 2 和表 2 所示，與我們的無訓練框架（參考 FLUX.1 fill）相比，我們的方法僅使用 0.05M 的訓練樣本就取得了顯著的改進，這遠遠少于最先進模型使用的 1000 萬個樣本。這突出了我們框架的有效性和微調方法的效率。

4.3 應用

和諧編輯：如圖 1 和圖 11 所示，我們的方法產生的編輯結果與原始圖像無縫融合。模型在編輯過程中能夠智能地適應周圍的上下文，從而產生更自然、更逼真的結果，這是以前的方法難以實現的能力。

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

- 圖11：我們的方法通過自動融入陰影效果和風格對齊，實現了更協調的編輯結果，從而顯著提升了效果（§4.3）。

多樣化任務：我們的方法是一個通用的圖像到圖像框架，適用于如手部細化和重新光照等現實世界任務，如圖 12 所示。未來使用特定任務的數據集進行微調，可能會進一步拓寬其在各種場景中的適用性。

In-Context Edit：在大規模擴散變換器中通過上下文生成實現指令式圖像編輯-AI.x社區

- 圖12：應用（§4.3）。無需額外調整，我們的方法在各種任務中展示出強大的泛化能力。

5. 結論

在本文中，我們提出了上下文編輯（In-Context Edit），這是一種基于 DiT 的新穎指令編輯方法，僅需極少的微調數據就能實現最先進的性能，在效率和精度之間達到了無與倫比的平衡。我們首先在無訓練的背景下探索了生成式 DiT 的固有編輯潛力，然后提出了一種 LoRA-MoE 混合微調策略，以提高穩定性和質量。此外，我們引入了一種推理時間縮放方法，利用視覺語言模型從多個種子中選擇最佳的早期輸出，從而提升編輯效果。大量實驗證實了我們方法的有效性，并展示了卓越的結果。我們相信這個高效、精確的框架為基于指令的圖像編輯提供了新的思路，并且計劃在未來的工作中進一步完善它。

本文轉載自公眾號AIRoobt ，作者：Zechuan zhang等

原文鏈接：??https://mp.weixin.qq.com/s/3Cg_f1_Lehe-z3gFkt4fSQ???

?著作權歸作者所有，如需轉載，請注明出處，否則將追究法律責任

標簽

上下文編輯

In-Context Edit

贊

收藏

回復

舉報

回復

相關推薦

谷歌將免費提供3款，生成式AI圖像編輯工具

Aceryt ? 4573瀏覽 ? 0回復
Next-Level Agents：釋放動態上下文（Dynamic Context）的巨大潛力

Baihai_IDP ? 6327瀏覽 ? 1回復
在長上下文LLM的時代，RAG是否仍然必要？

sbf_2000 ? 3996瀏覽 ? 0回復
圖像編輯多任務一網打盡！PromptFix，新型擴散模型&大規模視覺指令數據集（羅切斯特大學&微軟）

angel ? 4819瀏覽 ? 0回復
拋棄UNet，首個基于DiT的圖像編輯框架！DiT4Edit：多尺寸編輯質量更優 | 北大&港科大

angel ? 4002瀏覽 ? 0回復
斯坦福提出擴散自蒸餾：定制圖像生成，任意上下文下擴展到任意實例！

angel ? 4243瀏覽 ? 0回復
循環變換器中的潛在思維：深度與參數效率的權衡研究

頓數AI ? 3422瀏覽 ? 0回復
【模型部署】在Dify中接入ComfyUI+Flux實現文生圖

一起AI技術 ? 1.5w瀏覽 ? 1回復
ChatDiT：一個用于任務無關自由形式聊天的無訓練基線擴散變換器

AIRoobt ? 2110瀏覽 ? 0回復
d1：通過GRPO在擴散LLM中縮放推理

ceesoft ? 4000瀏覽 ? 0回復
In-Context Edit 高效圖像編輯框架上線

HyperAI超神經 ? 2435瀏覽 ? 0回復
MCP(Model Context Protocol)模型上下文協議介紹

AI探索時代 ? 6129瀏覽 ? 0回復
大型語言模型的上下文工程（Context Engineering）綜述

chengganfei ? 4788瀏覽 ? 0回復
搞懂上下文工程（Context Engineering)，讓你的LLM更聰明

Halo咯咯 ? 2326瀏覽 ? 0回復
AI圖像編輯站上新高度！Follow-Your-Shape精控大規模形變，穩準狠！

zhangyannni ? 2337瀏覽 ? 0回復
Qwen-Image-Edit發布：圖像編輯終于能“懂語義+改細節”了

Halo咯咯 ? 8288瀏覽 ? 0回復
一文讀懂AI應用上下文工程(Context Engineering)

十一月雨_55 ? 1057瀏覽 ? 0回復
談談上下文工程（Context Engineering）

周末程序猿 ? 761瀏覽 ? 0回復
上下文工程中的上下文

芝士AI吃魚 ? 194瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

基于協作式語義專家的語言模型微調（AAAI 2025） 3天前發布
大型語言模型基準測試綜述（2025） 3天前發布

熱門推薦

用 Cognee 構建端到端知識圖譜，實現當前效果最好的AI Agent記憶層 0回復

Spring AI Alibaba：Java 后端接入大模型，終于不用羨慕 Python 了！ 0回復

小模型，大能量：阿里巴巴 Qwen3-VL 4B/8B，重新定義多模態輕量化邊界 0回復

2025 年最強 OCR 大比拼：從識別文本到文檔智能，誰才是終極解法？ 0回復

8%價格，2倍速度！國產MiniMax M2暴打Claude Sonnet 4.5？我們實測后發現堪稱性價比之王！ 0回復

上一篇：面向未來通信的大語言模型綜述：基礎、應用與挑戰

下一篇： HoVLE：通過整體視覺-語言嵌入釋放單體視覺-語言模型的潛力

社區精華內容

目錄

91精品国产精品| 亚洲精品国产精品自产a区红杏吧| 色一情一乱一伦一区二区三区丨| 在线观看国产区| 图片区亚洲欧美小说区| 日韩欧美一区二区久久婷婷| 亚洲人精品午夜射精日韩 | 日韩av一区二区三区| 日韩在线视频线视频免费网站| 自拍视频第一页| 青青热久免费精品视频在线18| 亚洲男人的天堂一区二区| 精品999在线观看| 91在线精品入口| 香蕉国产精品偷在线观看不卡| 日日骚久久av| 男生裸体视频网站| 国产精久久久| 在线观看三级视频欧美| 福利在线一区二区| 日本在线观看视频| 久久日韩精品一区二区五区| 91中文字幕在线| 午夜精品一区二| 亚洲精品社区| 欧美人与物videos| 国精品人伦一区二区三区蜜桃| 极品一区美女高清| 欧美一区二区三区在线电影| 一级在线免费视频| 在线能看的av网址| 午夜日韩在线观看| 欧美精品一区在线播放| 国语自产精品视频在线看| av网站有哪些| silk一区二区三区精品视频| 欧美日本在线视频| 日本va中文字幕| 麻豆视频在线观看免费网站黄| 亚洲精品免费播放| 在线日韩av永久免费观看| 岛国在线大片| 国产日韩欧美不卡在线| 欧美成人在线免费观看| 婷婷在线观看视频| 成人动漫av在线| 国产福利一区二区三区在线观看| 国产女无套免费视频| 免费看欧美美女黄的网站| 日韩免费在线播放| 69xxxx国产| 日韩精品一二三区| 国产精品99久久久久久久久| 亚洲毛片一区二区三区| 久久一区二区三区超碰国产精品| **欧美日韩vr在线| 国产一级片毛片| 乱码第一页成人| 国产激情久久久| 一本久道久久综合无码中文| 青娱乐精品视频在线| 国产精品jizz在线观看麻豆| 日本久久综合网| 日韩电影一二三区| 国产女同一区二区| 亚洲手机在线观看| 国产综合久久久久久鬼色 | 91蜜桃网址入口| 久久99精品久久久久久久青青日本 | 97在线观看免费高| 中文字幕午夜精品一区二区三区| xxx成人少妇69| 久久久久久久久久网站| 欧美日韩天堂| 91sao在线观看国产| 国产午夜免费福利| 男女视频一区二区| 成人午夜黄色影院| 亚洲女同志亚洲女同女播放| 不卡免费追剧大全电视剧网站| 精品一区久久| 最新国产在线观看| 亚洲精品高清视频在线观看| 国产3p露脸普通话对白| 色天使综合视频| 欧美一卡二卡在线| 国产福利在线观看视频| 成人高潮视频| 国产午夜精品全部视频播放| 黄色一级片中国| 中文字幕在线2021| 成人中文字幕视频| 精品亚洲国产视频| 97人妻人人揉人人躁人人| 国产精品麻豆久久| 久久久久久久久久久国产| 性无码专区无码| 国产一区二区三区一级| 91久久久久久| 国产草草影院ccyycom| aaa欧美日韩| 一区二区不卡在线| 天堂av中文在线观看| 欧美顶级少妇做爰| 中文字幕免费看| 欧美日韩精选| 国产精品视频午夜| 三级网站免费观看| 国产精品久久一级| 日批视频在线免费看| 经典三级久久| 中文字幕一精品亚洲无线一区 | 国产精品入口福利| 秋霞网一区二区| 亚洲欧洲日产国产综合网| 久久久久久久久久久视频| 色婷婷成人网| 夜夜嗨av色综合久久久综合网| 国产小视频在线看| 老司机午夜精品| 欧美一区二区三区在线免费观看 | 久久国产精品成人免费观看的软件| 久久久视频在线| 国产av一区二区三区| 国产精品系列在线| 妞干网在线免费视频| 国产精品视屏| 欧美激情综合色综合啪啪五月| 色七七影院综合| 农村老熟妇乱子伦视频| 国产欧美午夜| 动漫3d精品一区二区三区 | 日韩手机在线| 欧美精品激情视频| www.五月激情| 一区二区三区影院| 伊人五月天婷婷| 四虎成人精品永久免费av九九| 国产成人亚洲综合91精品| 少妇喷水在线观看| 亚洲一区二区在线播放相泽| 亚洲精品乱码久久久久久动漫| 久久国产影院| 国产精品视频不卡| a天堂中文在线88| 欧美午夜精品久久久久久超碰| 熟女少妇一区二区三区| 亚洲在线免费| 日本10禁啪啪无遮挡免费一区二区 | 天天操天天爽天天射| 国产欧美一区二区精品久久久| 欧美在线亚洲在线| 美女毛片在线看| 色就色综合激情| 最近中文字幕免费| 免费一区二区视频| 在线视频欧美一区| 豆花视频一区| 欧美第一黄网免费网站| 亚洲福利在线观看视频| 亚洲一区二区在线观看视频 | www.日日操| 精品视频免费在线观看| 国产精品18久久久久久麻辣| 触手亚洲一区二区三区| 欧美吻胸吃奶大尺度电影| 欧美人与禽zoz0善交| 久久99精品久久久久| 一区二区三区日韩视频| 日韩精品一区国产| 欧美激情综合色综合啪啪五月| 日本精品一二区| 一本到不卡精品视频在线观看| 色屁屁草草影院ccyy.com| 免费成人美女在线观看| 亚洲av综合色区| 成人av综合网| 国产91九色视频| 免费黄色电影在线观看| 日韩女优av电影| 天天综合天天干| 1000精品久久久久久久久| 亚洲精品乱码久久久久久9色| 亚洲精品一级| 亚洲一区二区在线免费观看| youjizz欧美| 国产精品极品尤物在线观看| 日本www在线观看视频| 精品三级在线观看| 国产一级片av| 国产麻豆一区二区三区| 国产精品视频在线看| 毛毛毛毛毛毛毛片123| 99精品免费视频| 一区二区三区av| 免费福利视频一区| 国产日韩在线一区| 三妻四妾完整版在线观看电视剧| 亚洲视频视频在线| 性欧美8khd高清极品| 国产精品免费视频一区| 国产性生活毛片| 狠狠色丁香婷综合久久| 日韩欧美亚洲天堂| 亚洲第一偷拍| 日韩精品久久久| 懂色av一区二区| 91精品久久久久久久久久另类| 欧美a级在线观看| 久久国产精品久久久久久久久久| 男人的天堂在线免费视频| 欧美一级爆毛片| 中文字幕国产| 黑人巨大精品欧美一区二区免费 | 天天综合国产| 欧美日韩一区二区视频在线| 91精品国产自产在线丝袜啪 | 成年人黄色片视频| 欧美日韩三级| 最新国产精品久久| 国产一区2区| 精品免费日产一区一区三区免费| 一级欧美视频| 国产日韩精品在线观看| 日韩新的三级电影| 91国产精品电影| caoporn-草棚在线视频最| 理论片在线不卡免费观看| shkd中文字幕久久在线观看| 亚洲男人7777| 四虎在线观看| 日韩精品在线视频观看| 韩国av在线免费观看| 欧美一区二区人人喊爽| 国产精品久久久久久久久久久久久久久久| 色婷婷久久久亚洲一区二区三区| 国产又色又爽又黄的| 亚洲成人在线免费| 国产精品30p| 亚洲6080在线| 91看片在线播放| 欧美午夜女人视频在线| 免费在线不卡视频| 日韩欧美极品在线观看| 国产无套丰满白嫩对白| 精品久久久久久久久久久久| 国产成人亚洲欧洲在线| 香蕉影视欧美成人| 日韩人妻无码一区二区三区99| 亚洲一区二区3| 日本熟妇乱子伦xxxx| 天天综合色天天| 欧美啪啪小视频| 在线观看免费视频综合| 丰满人妻一区二区三区四区| 在线观看成人小视频| 中文字幕人妻色偷偷久久| 欧美精品vⅰdeose4hd| 国产毛片毛片毛片毛片| 日韩午夜在线影院| 国产日韩欧美精品| 亚洲黄色有码视频| 国产高清美女一级毛片久久| 在线国产精品视频| 成码无人av片在线观看网站| 欧美国产日韩一区二区在线观看 | 日韩免费网站| 美日韩精品视频免费看| 超碰在线资源| 青青草一区二区| 激情久久99| 亚洲在线视频观看| 女人抽搐喷水高潮国产精品| 日本成人黄色免费看| 日韩1区2区| 激情图片qvod| 亚洲一区二区成人| 日本激情综合网| 国产一区二区视频在线| 麻豆精品国产传媒av| 国产三级精品三级| 三级av在线免费观看| 亚洲观看高清完整版在线观看| 久久精品一二区| 欧美日韩一本到| 日本毛片在线观看| 中文字幕亚洲色图| 爱情岛论坛亚洲品质自拍视频网站| 热久久美女精品天天吊色| 四虎影视精品永久在线观看| 国产麻豆乱码精品一区二区三区| 国产91久久精品一区二区| 自拍偷拍视频在线| 午夜亚洲性色视频| 亚洲av毛片在线观看| 91麻豆123| 色在线观看视频| 色噜噜狠狠色综合欧洲selulu| 精品国产免费无码久久久| 亚洲欧美日韩另类| 黄色成人在线网| 国产色综合天天综合网| 另类图片第一页| 最新视频 - x88av| 视频一区视频二区在线观看| 亚洲熟妇一区二区| 国产精品嫩草99a| 九九热最新地址| 精品视频资源站| 男女av在线| 欧美精品久久久久久久久久 | 欧美一区二区三区电影| 久久久久久无码精品人妻一区二区| www激情久久| 精品少妇久久久久久888优播| 欧美性xxxxx极品| 国模无码一区二区三区| 久久午夜a级毛片| 99久久精品一区二区成人| 1卡2卡3卡精品视频| 成人在线免费观看视频| 国产特级淫片高清视频| 国产精品1区二区.| 女人十八毛片嫩草av| 欧美性xxxxxx| 欧洲亚洲精品视频| 午夜精品久久久久久99热| 日本高清精品| 警花观音坐莲激情销魂小说| 理论片日本一区| 99久久99久久精品免费看小说.| 日韩欧美成人免费视频| 亚洲欧美精品| 97在线视频精品| 东京久久高清| 青青草视频在线免费播放| 成人一区二区三区| 69精品久久久| 亚洲精品一区二区在线观看| 性欧美videos高清hd4k| 亚洲一区二区三区sesese| 91精品综合久久久久久久久久久 | 国产午夜精品免费一区二区三区| 一区二区三区四区日本视频| 久久www免费人成精品| 99精品国产在热久久| 最近中文字幕无免费| 亚洲va在线va天堂| 日韩精品福利| 国产精品69精品一区二区三区| 国产欧美日韩| 成人性生交免费看| 中文字幕亚洲视频| 国产美女免费视频| 久久91亚洲人成电影网站| 欧美成人精品午夜一区二区| 久久这里只有精品18| www.成人在线| 一级黄色大片视频| 国产亚洲视频在线观看| 成人在线观看免费播放| 9999在线观看| 国产a区久久久| 日韩欧美亚洲一区二区三区| 亚洲久久久久久久久久| 高清av一区| 欧洲美女和动交zoz0z| 成人综合在线观看| 国产精品自拍99| 色偷偷888欧美精品久久久| 国产日韩在线观看视频| 男女日批视频在线观看| 久久久五月婷婷| 中文字幕免费观看视频| 欧美大尺度激情区在线播放| 欧美大奶一区二区| 免费黄色一级网站| 亚洲久本草在线中文字幕| 蜜桃久久一区二区三区| 国产不卡av在线免费观看| 偷拍欧美精品| 久久精品老司机| 欧美精品日韩一区| 国产cdts系列另类在线观看| 国产尤物99| 久久精品国产网站| 久久精品国产亚洲av香蕉 | 一二三四国产精品| 欧美一区二区视频观看视频| 台湾佬中文娱乐网欧美电影| 国产亚洲欧美一区二区| 奇米精品一区二区三区四区| 国产亚洲欧美精品久久久www| 亚洲人在线观看| 午夜日韩影院| 中文字幕国内自拍| 午夜精品视频一区| 黄色网页在线免费观看| 美女亚洲精品| 国产成人精品影院|