還在擔心不會寫提示詞?騰訊混元提出PromptEnhancer,可自動進行提示詞改寫生成高保真且風格多樣圖像 精華
Hunyuan-PromptEnhancer 是一款基于騰訊混元模型構建的提示符重寫工具。它可以在保留原始意圖的同時重構輸入提示符,使其更加清晰、層次分明、邏輯一致,適用于下游圖像生成或類似任務。
- 保留關鍵元素(主題/動作/數量/樣式/布局/關系/屬性/文本等)的意圖。
- 鼓勵“總體-細節-總結”的敘述,首先描述主要元素,然后描述次要/背景元素,最后以簡潔的風格/類型總結。
- 具有優雅回退的強大輸出解析:優先考慮...;如果缺失,則刪除...并提取干凈的文本;否則回退到原始輸入。
- 可配置推理參數(溫度、top_p、max_new_tokens)用于平衡確定性和多樣性。

PromptEnhancer 能夠根據用戶提示生成高保真且風格多樣的圖像。 該方法以 HunyuanImage 2.1 作為基礎 T2I 模型,展現了其在照片級寫實主義、數字藝術、抽象幾何以及多語言圖文生成等各個領域的多功能性。示例展示了如何將極少的用戶輸入轉化為豐富細致的提示,從而生成高質量的視覺輸出,彌合了用戶意圖與模型執行之間的差距。

相關鏈接
- 論文:https://arxiv.org/pdf/2509.04545
- 項目:https://hunyuan-promptenhancer.github.io
- 模型:https://huggingface.co/tencent/HunyuanImage-2.1/tree/main/reprompt
- 代碼:??https://github.com/Hunyuan-PromptEnhancer/PromptEnhancer??
論文閱讀

- 論文名:PromptEnhancer: A Simple Approach to Enhance Text-to-Image Models via Chain-of-Thought Prompt Rewriting
文本到圖像 (T2I) 擴散模型的最新進展已展示出在生成高保真圖像方面的卓越能力。然而,這些模型通常難以忠實地呈現復雜的用戶提示,尤其是在屬性綁定、否定和組合關系等方面。這導致用戶意圖與生成的輸出之間嚴重不匹配。
為了應對這一挑戰,論文推出了PromptEnhancer,這是一個新穎且通用的提示重寫框架,它可以增強任何預訓練的 T2I 模型,而無需修改其權重。與依賴于特定模型微調或隱式獎勵信號(如 CLIP 分數)的先前方法不同,該框架將重寫器與生成器分離。通過強化學習訓練思路鏈 (CoT) 重寫器來實現這一點,稱之為 AlignEvaluator 的專用獎勵模型為指導。AlignEvaluator 經過訓練,可根據 24 個關鍵點的系統分類法提供明確且細粒度的反饋,這些分類法源自對常見 T2I 故障模式的全面分析。
通過優化 CoT 重寫器以最大化 AlignEvaluator 的獎勵,該框架學習生成更適合 T2I 模型解釋的提示。在 HunyuanImage 2.1 模型上進行的大量實驗表明,PromptEnhancer 顯著提升了各種語義和構圖挑戰中的圖文對齊效果。此外論文引入了一個全新的高質量人類偏好基準,以促進未來該方向的研究。
方法概述

PromptEnhancer 兩階段訓練框架概述。框架訓練一個通用的 Rewriter,以增強預訓練的文本轉圖像 (T2I) 模型,而無需改變其權重。這是通過一個由專門的獎勵模型引導的兩階段過程實現的。
- 第一階段:SFT 用于重寫器 初始化。CoT 重寫器首先通過監督微調 (SFT) 進行初始化。在此階段,模型通過使用標準的下一個標記預測損失對(用戶提示,重新提示)進行訓練,學習生成結構化的、思路鏈式的響應。這為后續的對齊階段奠定了堅實的基礎。
- 第二階段:使用 GRPO 進行策略對齊。然后,使用基于生成獎勵策略優化的強化學習循環對初始化后的重寫器進行優化。對于給定的提示,CoT 重寫器會生成多個候選重新提示。這些提示會被輸入到凍結的 T2I 模型中以生成圖像。然后,對齊評估器會評估每個(圖像,提示)對并提供標量獎勵。該獎勵信號會優化重寫器的策略,使其生成能夠最大程度地提高圖像與用戶意圖之間一致性的提示。
數據管道

Rewriter 訓練數據的構建和過濾流程概述。 該流程包括用戶提示模擬、基于 Gemini 的生成、人工參與的選擇以及自動過濾,以確保高質量。
數據分析

數據集中評估維度的分布。(a)24 個細粒度關鍵點的詳細百分比,按降序排列。(b)六個主要超類別的匯總百分比,由其組成關鍵點的百分比相加計算得出。兩張圖表中,顏色代表超類別,在視覺上將詳細點與其更廣泛的分類聯系起來。
實驗結果


PromptEnhancer 對 Prompt Following 準確率影響的定量評估。 該圖展示了在 24 個不同語義類別中,使用和不使用 PromptEnhancer 框架的文本轉圖像生成準確率的比較分析。左側面板顯示了每個類別的百分點 (pp) 提升,突出顯示了語法理解和構圖推理等領域的顯著提升(藍色),以及其他領域的回歸(紅色)。右側面板直接比較了絕對準確率得分,展示了基線模型(“不使用 Ours”)與增強模型(“使用 Ours”)的性能。

PromptEnhancer 對 Prompt Following 準確率影響的定量評估。 該圖展示了在 24 個不同語義類別中,使用和不使用 PromptEnhancer 框架的文本轉圖像生成準確率的比較分析。左側面板顯示了每個類別的百分點 (pp) 提升,突出顯示了語法理解和構圖推理等領域的顯著提升(藍色),以及其他領域的回歸(紅色)。右側面板直接比較了絕對準確率得分,展示了基線模型(“不使用 Ours”)與增強模型(“使用 Ours”)的性能。
結論
PromptEnhancer 是一個新穎的框架,旨在幫助文本轉圖像 (T2I) 模型更好地理解復雜的用戶提示。T2I 模型通常難以遵循詳細的指令,導致生成的圖像與用戶的意圖不符。
PromptEnhancer會自動將用戶的初始提示重寫為任何 T2I 模型都能輕松理解的更詳細的提示。關鍵創新在于一個使用思維鏈 (CoT) 流程的提示重寫器。使用強化學習來訓練這個重寫器稱之為 AlignEvaluator 的自定義獎勵模型為指導。該評估器針對圖文對齊的 24 個不同方面提供具體的、細粒度的反饋,使重寫器能夠學習如何創建高質量的提示。
PromptEnhancer框架是通用的,可以與任何預先訓練的 T2I 模型兼容,而無需對其進行修改。實驗表明,PromptEnhancer 在各種挑戰中顯著提高了生成的圖像與用戶提示之間的對齊程度。通過將提示增強任務與圖像生成任務分離,該工作提供了一種有效且可擴展的解決方案,以提升 T2I 系統的控制力和準確性。
本文轉載自???AIGC Studio????,作者:AIGC Studio

















