世界知識(shí)賦能文生圖模型!港科大開源World-To-Image:自己上網(wǎng)搜圖學(xué)習(xí),準(zhǔn)確率飆升8%!

文章鏈接:https://arxiv.org/pdf/2510.04201
Git鏈接:https://github.com/mhson-kyle/World-To-Image
效果展示




亮點(diǎn)直擊
- 智能體式優(yōu)化框架。提出了一種診斷與選擇智能體,它在語義分解、概念替換和基于網(wǎng)頁證據(jù)的多模態(tài)對(duì)齊之間進(jìn)行選擇。
- 面向T2I的世界知識(shí)注入。將提示詞優(yōu)化擴(kuò)展到文本之外,通過整合圖像檢索與條件生成來處理新概念,在無需重新訓(xùn)練的情況下實(shí)現(xiàn)語義保真度SOTA。
總結(jié)速覽
解決的問題
- T2I 模型的知識(shí)時(shí)效性問題:由于預(yù)訓(xùn)練數(shù)據(jù)存在知識(shí)截止點(diǎn),模型在面對(duì)新穎或分布外(OOD)概念時(shí)生成質(zhì)量顯著下降。
- 現(xiàn)有方法局限:
- 擴(kuò)充或微調(diào)模型代價(jià)高且無法快速適應(yīng)新知識(shí)。
- 現(xiàn)有提示詞優(yōu)化(prompt optimization)方法只在文本表層調(diào)整,無法彌補(bǔ)模型缺乏語義理解的問題。
提出的方案
- 提出WORLD-TO-IMAGE (W2I)框架,通過智能體驅(qū)動(dòng)的世界知識(shí)彌補(bǔ)T2I模型的知識(shí)盲區(qū)。
- 將提示詞優(yōu)化擴(kuò)展為一個(gè)智能決策過程(agentic decision process),包含:
- 判斷生成失敗的原因(渲染問題或語義理解缺失)。
- 針對(duì)語義缺失,動(dòng)態(tài)調(diào)用外部知識(shí)源(網(wǎng)頁檢索)以彌補(bǔ)模型認(rèn)知。
- 不修改基礎(chǔ)模型權(quán)重,僅通過優(yōu)化輸入提示及多模態(tài)信息增強(qiáng)生成語義對(duì)齊。
應(yīng)用的技術(shù)
- Web Agent 檢索機(jī)制:自動(dòng)在網(wǎng)絡(luò)上搜索與新概念相關(guān)的文本定義與代表性圖像。
- 語義分解與替換:
- 對(duì)提示語進(jìn)行語義分解(semantic decomposition),提取核心概念。
- 對(duì)模型不熟悉的概念進(jìn)行概念替換(concept substitution),用模型可理解的同義表達(dá)重寫提示。
- 多模態(tài)視覺對(duì)齊:通過檢索到的圖像進(jìn)行視覺條件輸入(reference-based conditioning),增強(qiáng)生成的語義真實(shí)性。
- 輕量化失敗分析:利用探測(cè)性生成(probe generations)和概念覆蓋檢測(cè)判斷模型理解風(fēng)險(xiǎn)。
- 自動(dòng)化評(píng)估:采用 LLM-Grader 和 ImageReward 等現(xiàn)代指標(biāo)評(píng)估語義保真度。
達(dá)到的效果
- 語義一致性顯著提升:在自建的NICE benchmark上,提示語準(zhǔn)確率提升+8.1%。
- 視覺美學(xué)質(zhì)量保持領(lǐng)先:在語義對(duì)齊的同時(shí),生成圖像的視覺質(zhì)量依然與SOTA模型相當(dāng)。
- 高效優(yōu)化:平均在3次迭代內(nèi)即可達(dá)到最優(yōu)結(jié)果。
- 可擴(kuò)展性強(qiáng):無需修改或微調(diào)基礎(chǔ)生成模型,即可使T2I系統(tǒng)動(dòng)態(tài)反映現(xiàn)實(shí)世界變化。
WORLD-TO-IMAGE:基于智能體的世界知識(shí)驅(qū)動(dòng) T2I 生成





通過這種方式,本文整合了語言空間優(yōu)化(通過提示詞精煉)和視覺空間優(yōu)化(通過示例檢索),使 T2I 模型在推理過程中能夠適應(yīng)新概念。假設(shè)這種語言空間與視覺空間的聯(lián)合優(yōu)化相輔相成,并產(chǎn)生強(qiáng)大的協(xié)同效應(yīng)。本文的方法在算法 1 中進(jìn)行了形式化說明。

實(shí)驗(yàn)
本節(jié)首先描述實(shí)驗(yàn)設(shè)置,然后呈現(xiàn)結(jié)果分析,并將其與本文的假設(shè)對(duì)齊。
實(shí)驗(yàn)設(shè)置
模型。本文比較了七個(gè)系統(tǒng):Stable Diffusion 1.4、Stable Diffusion 2.1、Stable Diffusion XL(Base)、OmniGen2、使用 Stable Diffusion XL(Base)和 OmniGen2 的 Promptist 提示詞優(yōu)化pipeline,以及本文的智能體式pipeline World-To-Image。
SDXL-Base 在通用提示詞上略優(yōu)于 OmniGen2。然而,在需要為不熟悉的實(shí)體或細(xì)粒度屬性進(jìn)行條件對(duì)齊的參考條件設(shè)置中,OmniGen2 展現(xiàn)出更強(qiáng)的條件一致性和穩(wěn)定性,從而實(shí)現(xiàn)更高的提示詞準(zhǔn)確率(Accuracy-to-Prompt)。因此,采用 OmniGen2 作為智能體式pipeline的生成骨干,同時(shí)報(bào)告 SDXL-Base、SD2.1、SD1.4 和 Promptist 作為完整性的基線。本文包含 SDXL-Base、SD2.1 和 SD1.4,因?yàn)樗鼈冊(cè)趫D像生成社區(qū)中仍被廣泛采用,是強(qiáng)有力的基線,并為比較現(xiàn)代系統(tǒng)提供了代表性基準(zhǔn)。
數(shù)據(jù)集。為了評(píng)估本文的智能體式圖像生成pipeline——系統(tǒng)會(huì)調(diào)用 API 獲取基礎(chǔ)生成器不太可能理解的概念的參考圖像——使用三個(gè)數(shù)據(jù)集:Lexica、DiffusionDB 和 NICE(Niche Concept Evaluation)基準(zhǔn)。雖然現(xiàn)有基準(zhǔn)主要關(guān)注通用提示詞,NICE 專門針對(duì)稀有、組合性和時(shí)間敏感的概念,提供了一個(gè)嚴(yán)苛的環(huán)境來測(cè)試檢索和對(duì)齊能力。對(duì)于每個(gè)子類別,搜索了流行和新興主題,并使用 GPT-5 對(duì)其進(jìn)行優(yōu)化,確保提示詞的清晰性和多樣性。
通用基線。Lexica 和 DiffusionDB 被廣泛用于對(duì)文本到圖像系統(tǒng)在廣泛、分布內(nèi)提示詞上的基準(zhǔn)測(cè)試。雖然它們包含偶爾的知識(shí)產(chǎn)權(quán)或名人提及,但這些情況是偶發(fā)的,而不是這些語料庫的主要關(guān)注點(diǎn);因此,它們低估了本文的pipeline針對(duì)的長尾、時(shí)間敏感或組合性概念。
策劃的 NICE 基準(zhǔn)。為了嚴(yán)格測(cè)試檢索能力,本文構(gòu)建了一個(gè)包含 100 條提示詞的評(píng)估集,涵蓋五個(gè)子類別: (1) Meme,(2) 實(shí)時(shí)新聞與事件,(3) 流行文化與知識(shí)產(chǎn)權(quán),(4) 藝術(shù)家/名人/影響者,(5) 小眾概念(每類 20 條提示詞)。提示詞旨在 (i) 混合兩個(gè)不同概念,或 (ii) 引用 2024 年以后的實(shí)體和事件,形成分布外案例,這些案例需要外部視覺證據(jù)。此設(shè)計(jì)迫使協(xié)調(diào)智能體調(diào)用圖像檢索 API,并基于檢索到的示例進(jìn)行生成對(duì)齊。
評(píng)估指標(biāo)。本文在通常對(duì)基礎(chǔ)生成器而言屬于分布外的困難/小眾提示詞上評(píng)估本文的增強(qiáng)檢索智能體pipeline。為了在大規(guī)模上捕捉語義保真度和人類感知質(zhì)量,報(bào)告了 LLM Grader 和人類偏好獎(jiǎng)勵(lì)(Promptist Reward 與 ImageReward),以及 HPSv2。
LLM Grader。遵循相關(guān)方法,基于 LLM 的評(píng)判者對(duì)五個(gè)維度進(jìn)行評(píng)分:提示詞準(zhǔn)確性(Accuracy-to-Prompt)、創(chuàng)造性與原創(chuàng)性(Creativity & Originality)、視覺質(zhì)量與真實(shí)感(Visual Quality & Realism)、一致性與連貫性(Consistency & Cohesion)、情感/主題共鳴(Emotional/Thematic Resonance),并給出總體匯總。在涉及小眾、組合性或時(shí)間敏感概念時(shí)衡量語義對(duì)齊的主要指標(biāo)。
人類偏好。Promptist Reward 和 ImageReward 是基于人類偏好數(shù)據(jù)訓(xùn)練的獎(jiǎng)勵(lì)模型,用于評(píng)估文本–圖像對(duì);將它們的總和作為人類偏好獎(jiǎng)勵(lì)(Human Preference Reward)。HPSv2 是另一種基于人類偏好的評(píng)分模型。這些作為感知質(zhì)量和用戶偏好的自動(dòng)智能體,與 LLM Grader 互補(bǔ),以實(shí)現(xiàn)大規(guī)模、可重復(fù)的比較。

結(jié)果
主要結(jié)果總結(jié)如下表 1 所示。在研究的所有三個(gè)數(shù)據(jù)集上,本文提出的方法 W2I 一致優(yōu)于所有基線。總體性能提升在 NICE 數(shù)據(jù)集上最為顯著(+5.8%),相比之下,在更廣泛的 DiffusionDB 上提升 +2.4%,在 Lexica 上提升 +3.4%。這驗(yàn)證了本文的智能體pipeline在處理其設(shè)計(jì)目標(biāo)的分布外提示詞時(shí)特別有效。在提示詞準(zhǔn)確性(Accuracy-to-Prompt)方面,提升最為顯著:W2I 在本文的數(shù)據(jù)集上將得分提升了 +8.1%,而在 DiffusionDB 上提升 +3.4%,在 Lexica 上提升 +6.4%。這與本文的核心假設(shè)一致,即涉及新概念的提示詞最受益于多模態(tài)對(duì)齊,而 W2I 通過聯(lián)合利用檢索與文本優(yōu)化實(shí)現(xiàn)了這一點(diǎn)。

圖像質(zhì)量與人類偏好。在下表 2 中,本文研究了多模態(tài)提示詞優(yōu)化對(duì)圖像質(zhì)量的影響。本文關(guān)注客觀圖像質(zhì)量得分和基于人類偏好的評(píng)估。W2I 在這兩個(gè)維度上均保持了強(qiáng)勁表現(xiàn),優(yōu)于所有其他基線。這些發(fā)現(xiàn)表明,本文的方法在追求語義準(zhǔn)確性的同時(shí)并未犧牲視覺保真度,而是實(shí)現(xiàn)了兩者之間的良好平衡。

新概念上的表現(xiàn)。為了進(jìn)一步驗(yàn)證本文框架在分布外提示詞上的有效性,分析了其在 NICE 基準(zhǔn)五個(gè)不同子類別中的表現(xiàn)。如下圖 5 所示,本文的方法在每個(gè)類別中均持續(xù)優(yōu)于所有基線,包括強(qiáng)大的 Promptist 優(yōu)化器和基礎(chǔ) OmniGen2 模型——從 Meme、實(shí)時(shí)事件到小眾知識(shí)產(chǎn)權(quán)。這一結(jié)果證明了框架的魯棒性,并確認(rèn)其優(yōu)越性能源自通過智能體檢索與對(duì)齊處理廣泛未見概念的專門能力。

消融研究。為了區(qū)分本文優(yōu)化pipeline中不同組件的貢獻(xiàn),對(duì)優(yōu)化pipeline的每個(gè)組件進(jìn)行了消融(下表 3)。本文的完整pipeline在我們提出的數(shù)據(jù)集上取得了最佳結(jié)果。僅依賴圖像檢索在處理更復(fù)雜的提示詞時(shí)可能失敗,因?yàn)樯蛇^程可能過度依賴參考圖像而未能完全對(duì)齊任務(wù)規(guī)范。相反,僅進(jìn)行提示詞優(yōu)化只能改善與文本指令的一致性,但圖像條件可以為模型提供更具體的參考。結(jié)合這兩個(gè)組件的協(xié)同作用在所有指標(biāo)上產(chǎn)生了顯著的提升,這表明雖然每種方法單獨(dú)強(qiáng)調(diào)不同的改進(jìn)方向,只有它們的結(jié)合才能釋放基礎(chǔ)模型的全部潛力。

增加優(yōu)化步驟的影響。 本文還分析了將優(yōu)化步驟擴(kuò)展到 10 步的影響,并在下圖 6 中繪制了每次迭代的性能提升曲線。性能在各迭代中持續(xù)提升,前兩次迭代的提升最為顯著。這支持了我們默認(rèn)使用兩步迭代的決策,在性能與效率之間取得了平衡。我們還觀察到 IRA 通常在早期迭代中被調(diào)用,而 POA 主要在后期迭代中調(diào)用,這表明圖像檢索在早期提供了強(qiáng)有力的提升,而隨后的提示詞優(yōu)化則細(xì)化了輸出以獲得進(jìn)一步的提升。

討論
本文的發(fā)現(xiàn)引發(fā)了幾個(gè)重要的討論點(diǎn)。新概念上的顯著提升表明,預(yù)訓(xùn)練生成模型往往已經(jīng)具備表示新實(shí)體的潛在能力,但需要合適的多模態(tài)信號(hào)來激活它們。這提示了一個(gè)更廣泛的機(jī)會(huì):不僅僅是擴(kuò)展模型本身,改進(jìn)接口機(jī)制(如檢索和自適應(yīng)提示)可能釋放顯著的性能提升。
此外,消融研究顯示了基于文本和圖像的優(yōu)化之間的強(qiáng)協(xié)同作用,有效地將提示詞優(yōu)化的視野擴(kuò)展到多模態(tài)提示,以利用它們的互補(bǔ)優(yōu)勢(shì)。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來

















