T2I進(jìn)入“思維鏈”時代!港中文等發(fā)布史詩級600萬數(shù)據(jù)集:128張A100歷時4個月構(gòu)建完成!

論文鏈接:??https://arxiv.org/pdf/2509.09680??
模型鏈接:??https://github.com/rongyaofang/prism-bench??
Dataset鏈接:??https://huggingface.co/datasets/LucasFang/FLUX-Reason-6M??
?Git 鏈接:???https://flux-reason-6m.github.io/??
亮點(diǎn)直擊
- FLUX-Reason-6M:一個里程碑式的數(shù)據(jù)集。首個專為推理設(shè)計(jì)的 600 萬規(guī)模 T2I 數(shù)據(jù)集,包含 2000 萬條雙語描述,首創(chuàng)的生成式“思維鏈”提示。該數(shù)據(jù)集使用 128 張 A100 顯卡,歷時 4 個月構(gòu)建,旨在成為下一代 T2I 模型基礎(chǔ)數(shù)據(jù)集。
- PRISM-Bench:全新的評估標(biāo)準(zhǔn)。建立了一個包含七個子任務(wù)的綜合性基準(zhǔn)測試,采用 GPT-4.1 和 Qwen2.5-VL-72B 進(jìn)行細(xì)致且穩(wěn)健的評估。
- 來自大規(guī)模基準(zhǔn)測試的可操作洞察。對主流模型進(jìn)行了廣泛且嚴(yán)格的評估,揭示了不同模型之間的差距與潛在的改進(jìn)方向,為未來研究提供了清晰的路線圖。推動 T2I 革命的普惠化。

圖 1:使用所提出的 PRISM-Bench 評估最先進(jìn)的文本到圖像模型
總結(jié)速覽
解決的問題
開源文本生成圖像(T2I)模型在發(fā)展過程中面臨以下關(guān)鍵問題:
- 缺乏大規(guī)模、以推理為核心的數(shù)據(jù)集,難以訓(xùn)練具備復(fù)雜推理能力的生成模型;
- 缺乏全面、系統(tǒng)的評估基準(zhǔn),難以準(zhǔn)確衡量模型在真實(shí)應(yīng)用中的表現(xiàn);
- 與閉源系統(tǒng)相比,性能存在顯著差距,限制了開源模型的實(shí)際應(yīng)用與研究發(fā)展。
提出的方案
為解決上述問題,作者提出了兩個核心方案:
- FLUX-Reason-6M 數(shù)據(jù)集:
- 包含600 萬張高質(zhì)量圖像和2000 萬條中英文雙語描述;
- 以六大圖像特征(想象力、實(shí)體、文字渲染、風(fēng)格、情感、構(gòu)圖)進(jìn)行組織;
- 引入生成式思維鏈(GCoT),用于模擬復(fù)雜圖像生成過程中的推理步驟。
- PRISM-Bench 評估基準(zhǔn):
- 包含7 個子任務(wù),覆蓋文本對齊、圖像美學(xué)、長文本生成等多個維度;
- 使用先進(jìn)的視覺-語言模型(如 GPT-4.1 和 Qwen2.5-VL-72B)進(jìn)行評估;
- 設(shè)計(jì)精細(xì)提示詞,強(qiáng)調(diào)人類對齊的評估標(biāo)準(zhǔn)。
應(yīng)用的技術(shù)
- 生成鏈?zhǔn)剿季S(GCoT)設(shè)計(jì):將圖像生成過程拆解為可解釋的推理步驟,提升模型的推理能力與可控性;
- 大規(guī)模數(shù)據(jù)生成與處理:使用 128 張 A100 GPU,耗時 4 個月,完成 15,000 GPU 天的數(shù)據(jù)構(gòu)建;
- 多語言支持:提供中英文雙語描述,增強(qiáng)模型的跨語言泛化能力;
- 自動化評估系統(tǒng):基于 GPT-4.1 和 Qwen2.5-VL-72B 的視覺-語言模型,進(jìn)行細(xì)粒度、穩(wěn)健的模型評測;
- 廣泛模型測試:對 19 個主流模型進(jìn)行統(tǒng)一評估,確保結(jié)果具備代表性和實(shí)用性。
達(dá)到的效果
- 構(gòu)建了首個專為推理設(shè)計(jì)的 T2I 數(shù)據(jù)集,為模型學(xué)習(xí)復(fù)雜生成邏輯提供了堅(jiān)實(shí)基礎(chǔ);
- 建立了系統(tǒng)性、多維度的評估標(biāo)準(zhǔn),填補(bǔ)了開源模型評估的空白;
- 揭示了主流模型在推理生成中的性能差距與改進(jìn)方向,為后續(xù)研究提供了明確路徑;
- 推動了 T2I 研究范式轉(zhuǎn)變,為構(gòu)建更智能、更具語義理解與表達(dá)能力的圖像生成系統(tǒng)奠定基礎(chǔ)。
FLUX-Reason-6M 數(shù)據(jù)集
現(xiàn)有開源的文本生成圖像(T2I)數(shù)據(jù)集的核心限制在于,它們?nèi)狈τ糜诮淌谀P蛷?fù)雜推理的結(jié)構(gòu)化信號。它們通常是平鋪直敘的圖像-文本對集合,僅描述圖像中包含的內(nèi)容,而非圖像為何以特定方式構(gòu)圖。近期的 GoT 工作提供了一個包含 900 萬樣本的數(shù)據(jù)集,但該數(shù)據(jù)集主要由現(xiàn)有資源(如 Laion-Aesthetics、JourneyDB)拼接而成,導(dǎo)致圖像內(nèi)容與風(fēng)格分布不一致,質(zhì)量參差不齊。這些問題源于不同源數(shù)據(jù)集之間采集與標(biāo)注協(xié)議的差異。為了解決這一問題,本文設(shè)計(jì)了 FLUX-Reason-6M 數(shù)據(jù)集,其目標(biāo)不僅是收集高質(zhì)量圖像,更是構(gòu)建一個系統(tǒng)化、原則性強(qiáng)的框架,用于學(xué)習(xí) T2I 推理的基本規(guī)則。整體數(shù)據(jù)整理流程如下圖 3 所示。

架構(gòu)設(shè)計(jì):六大特征與生成思維鏈
多維框架設(shè)計(jì)
FLUX-Reason-6M 的核心在于其多維度的架構(gòu)設(shè)計(jì)。本文識別并定義了六個對現(xiàn)代 T2I 模型至關(guān)重要的關(guān)鍵特征。這些特征并非互斥,而是有意設(shè)計(jì)為相互重疊,以反映復(fù)雜場景合成的多面性,從而為模型提供更豐富、更穩(wěn)健的訓(xùn)練信號。六大核心推理特征包括:
- 想象力:該類別包含代表超現(xiàn)實(shí)、幻想或抽象概念的圖像與描述。提示詞描繪違反現(xiàn)實(shí)物理規(guī)律或?qū)⒉煌拍钚路f組合的場景(例如:“一個由玻璃構(gòu)成的城市,光之河在其中流淌”)。生成圖像展示了富有創(chuàng)造力的合成,為模型提供超越字面理解的數(shù)據(jù)。
- 實(shí)體:聚焦于基于知識的精確描繪,包含圖像-文本對,強(qiáng)調(diào)對現(xiàn)實(shí)世界中具體物體、生物或命名實(shí)體的準(zhǔn)確細(xì)致生成。該類別中的描述通常包含豐富的屬性信息(例如:“梅西在世界杯決賽中帶球突破防守”),為模型提供高保真、知識感知的生成訓(xùn)練數(shù)據(jù)。
- 文字渲染:為解決生成模型中的已知弱點(diǎn),該類別包含成功且清晰地融合英文文本的圖像。對應(yīng)描述中明確指示文本的內(nèi)容、風(fēng)格與在圖像中的位置(例如:“一個霓虹燈牌,上面寫著 ‘FLUX-Reason-6M’”)。這為模型在排版控制方面提供了直接、干凈的數(shù)據(jù)支持。
- 風(fēng)格:該特征匯集了大量多樣的藝術(shù)與攝影風(fēng)格。描述中明確提及特定的藝術(shù)流派(如立體主義、印象派)、視覺技術(shù)(如長曝光、魚眼鏡頭)甚至著名藝術(shù)家的美學(xué)風(fēng)格。圖像作為這些風(fēng)格成功應(yīng)用的高質(zhì)量示例。
- 情感:該類別包含旨在將抽象情感概念與具體視覺表現(xiàn)相連接的圖像-文本對。描述使用喚起情感的語言來描繪一種情緒、感覺或氛圍(例如:“一種寧靜孤獨(dú)的感覺”,“一個混亂而充滿歡樂的集市場景”)。對應(yīng)圖像將這些無形的概念轉(zhuǎn)化為視覺線索,如色彩搭配、光照效果以及主體表情。
- 構(gòu)圖:該類別聚焦于場景中物體的精確排列與交互。描述中使用明確的構(gòu)圖語言,包括介詞(例如:under,behind,next to)和相對位置表達(dá)。圖像則清晰展示了這些復(fù)雜空間指令如何被正確執(zhí)行。
本文數(shù)據(jù)集的一大亮點(diǎn)是其多標(biāo)簽設(shè)計(jì)。例如,“埃菲爾鐵塔以梵高《星夜》的風(fēng)格呈現(xiàn)”這張圖像會同時被歸類為實(shí)體(準(zhǔn)確描繪地標(biāo))和風(fēng)格(模仿藝術(shù)家風(fēng)格)。這種有意的重疊設(shè)計(jì)確保模型能夠?qū)W習(xí)融合不同類型的推理方式,就如同一位人類藝術(shù)家那樣。
生成思維鏈
本數(shù)據(jù)集的核心是生成思維鏈(GCoT)的整合。標(biāo)準(zhǔn)的圖像描述僅描述圖像內(nèi)容,而 GCoT 描述則闡明圖像是如何以及為何被構(gòu)建出來的。如下圖 2 所示,這種詳細(xì)的逐步推理鏈條解構(gòu)了最終圖像的語義與構(gòu)圖邏輯,為訓(xùn)練提供了強(qiáng)有力的中間監(jiān)督信號。通過學(xué)習(xí)這些顯式的推理路徑,模型不僅可以建立詞匯與像素之間的關(guān)聯(lián),還能理解構(gòu)成復(fù)雜圖像的底層結(jié)構(gòu)與藝術(shù)選擇。以 GCoT 原則為中心的這一結(jié)構(gòu)化多維框架,構(gòu)成了整個 FLUX-Reason-6M 數(shù)據(jù)集的概念基礎(chǔ)。

構(gòu)建高質(zhì)量視覺基礎(chǔ)
本文目標(biāo)是建立一個高質(zhì)量的視覺基礎(chǔ),以避免網(wǎng)頁抓取數(shù)據(jù)中圖像質(zhì)量參差不齊的問題。近期的生成模型已展現(xiàn)出生成高質(zhì)量圖像的能力。因此,本文選擇了功能強(qiáng)大的 FLUX.1-dev 作為合成引擎,利用其先進(jìn)能力生成細(xì)節(jié)精致、審美一致的圖像。本文結(jié)合視覺-語言模型與圖像,對 Laion-Aesthetics 數(shù)據(jù)集中的描述進(jìn)行重寫,從而生成高質(zhì)量的描述,提供廣泛而多樣的生成起點(diǎn)。
然而,這一策略導(dǎo)致數(shù)據(jù)集中兩個特征嚴(yán)重不足:想象力(Imagination) 與 文字渲染(Text rendering)。為糾正這一偏差并確保數(shù)據(jù)集的平衡與全面性,本文實(shí)施了如下增強(qiáng)策略:
漸進(jìn)式想象力培養(yǎng)
對于“想象力”類別,如日常生活中罕見場景,啟動了一個漸進(jìn)式生成流程,以產(chǎn)出極具創(chuàng)造性與新穎性的描述。首先,使用 Gemini-2.5-Pro 生成一組多樣化的 200 個高概念、富有想象力的初始提示詞。在第二階段,采用創(chuàng)造性擴(kuò)展技術(shù):隨機(jī)抽取其中 10 個提示詞,并將其作為上下文示例輸入 Qwen3-32B。為最大化創(chuàng)造性輸出并鼓勵新穎聯(lián)想,提高了模型的溫度參數(shù)。該過程產(chǎn)出了大量極具創(chuàng)意的描述,推動了生成可能性的邊界。通過 FLUX.1-dev 渲染后,這些描述為本文的數(shù)據(jù)集注入了超現(xiàn)實(shí)與幻想的視覺圖像。文本渲染的數(shù)據(jù)挖掘-生成-合成流程
為了解決文本渲染數(shù)據(jù)的稀缺問題,本文開發(fā)了一個三階段流程,用于采集并再生成高質(zhì)量的文本數(shù)據(jù)。
首先,使用強(qiáng)大的 Qwen2.5-VL-32B 系統(tǒng)性地挖掘 Laion-2B 數(shù)據(jù)集,識別出包含清晰可辨文字的圖像。
其次,對于每一張經(jīng)過驗(yàn)證的富文本圖像,再次利用 Qwen-VL 的描述能力,生成高保真度的新描述。這些描述被精心設(shè)計(jì),用于精確描述圖像中的文本內(nèi)容、視覺呈現(xiàn)方式以及上下文關(guān)系。
最后,這些以文本為中心的描述被輸入到 FLUX.1-dev 中。最終的合成步驟生成了高質(zhì)量圖像,其中渲染的文本與精煉后的描述直接對應(yīng),形成了文本渲染類別的高質(zhì)量訓(xùn)練語料。
這種結(jié)合高質(zhì)量基礎(chǔ)與針對性增強(qiáng)策略的全面合成工作,最終產(chǎn)出了一個包含 800 萬張圖像的龐大圖集。該集合為后續(xù)的篩選、多維分類與密集標(biāo)注流程提供了優(yōu)質(zhì)原材料,確保最終的 FLUX-Reason-6M 數(shù)據(jù)集中的每一張圖像都符合嚴(yán)格的質(zhì)量與語義相關(guān)性標(biāo)準(zhǔn)。
基于視覺語言模型的質(zhì)量篩選與多維評分
為了將最初合成的 800 萬張圖像轉(zhuǎn)化為精心策劃的資源,本文設(shè)計(jì)并執(zhí)行了一個多階段、基于視覺語言模型(VLM)的流程,用于系統(tǒng)性地篩選、分類與驗(yàn)證每一張圖像。該流程確保 FLUX-Reason-6M 中的所有數(shù)據(jù)都具備卓越的視覺質(zhì)量與精確的類別相關(guān)性。
基礎(chǔ)質(zhì)量篩選
第一階段聚焦于圖像的視覺完整性。本文使用 Qwen-VL 作為自動化質(zhì)量檢測器,其任務(wù)是分析每張圖像的基本清晰度與結(jié)構(gòu)一致性。該步驟識別并剔除了存在以下問題的圖像樣本:過度模糊、干擾性噪聲,或在物體與人物結(jié)構(gòu)上存在顯著失真的圖像。通過清除這些低質(zhì)量樣本,本文為后續(xù)更復(fù)雜的標(biāo)注與篩選階段建立了一個具備審美與結(jié)構(gòu)完整性的圖像基礎(chǔ)。
穩(wěn)健的多維分類
下一個關(guān)鍵步驟是將數(shù)據(jù)集組織為多維結(jié)構(gòu)。本文利用 Qwen-VL 對每張已篩選圖像按照六個預(yù)定義特征進(jìn)行評估:Imagination、Entity、Text rendering、Style、Affection 和 Composition。
本文并未采用簡單的二元分類,而是引入量化評分系統(tǒng),由模型為每個特征分配一個從 1 到 10 的相關(guān)性評分。本文為每個特征精心設(shè)定了校準(zhǔn)閾值,最終確定圖像的類別。該系統(tǒng)專為多標(biāo)簽分類設(shè)計(jì),能夠準(zhǔn)確識別一張圖像同時屬于多個特征(例如 Entity 和 Style)的情況。
文本渲染的字體質(zhì)量篩選
本文發(fā)現(xiàn),即使是高質(zhì)量的生成模型也可能產(chǎn)生難以辨認(rèn)或語境錯誤的文本。考慮到字體生成的獨(dú)特挑戰(zhàn),為 Text rendering 類別專門引入了一個特化的篩選階段。為了確保數(shù)據(jù)集為這一困難任務(wù)提供清晰可靠的信號,本文再次使用 Qwen-VL 作為嚴(yán)格的字體質(zhì)量檢測器。它會對被標(biāo)記為 Text rendering 的圖像進(jìn)行詳細(xì)掃描,并剔除所有包含低對比度、扭曲或無意義文本的實(shí)例。此關(guān)鍵步驟確保了該特征下數(shù)據(jù)的最高保真度。
在最初的 800 萬候選圖像中,約有 600 萬張圖像通過了嚴(yán)格的質(zhì)量與相關(guān)性標(biāo)準(zhǔn)。這些圖像已通過質(zhì)量驗(yàn)證,并被標(biāo)注上與本文六個特征直接對應(yīng)的豐富標(biāo)簽,為最終的高密度標(biāo)注階段做好準(zhǔn)備。
基于視覺語言模型的密集描述與推理框架構(gòu)建
在建立起高質(zhì)量分類圖像基礎(chǔ)之后,接下來的關(guān)鍵階段是生成豐富的多維描述,并構(gòu)建生成式思維鏈(generation chain-of-thoughts),在數(shù)據(jù)集中嵌入推理的種子。
這一過程代表了從傳統(tǒng)描述范式的轉(zhuǎn)變,超越了簡單的描述性文本,構(gòu)建出一個結(jié)構(gòu)化且具備推理意識的標(biāo)注框架,明確引導(dǎo)模型如何分解并理解復(fù)雜的視覺場景。
特定類別的密集描述
本文的標(biāo)注策略核心在于利用視覺語言模型(如 Qwen-VL)先進(jìn)的多模態(tài)推理能力,為每張圖像生成高度針對性的、特定類別的描述。不同于傳統(tǒng)方法生成通用描述,本文的方法生成詳盡的描述,強(qiáng)調(diào)圖像所體現(xiàn)的特定特征。
例如,在處理屬于 Entity 類別的圖像時,Qwen-VL 被指示生成以準(zhǔn)確識別和詳細(xì)描述場景中具體物體、地標(biāo)或人物為優(yōu)先的描述。相反,對于 Style 類別的圖像,生成的描述則強(qiáng)調(diào)藝術(shù)技法、視覺美學(xué)和定義藝術(shù)風(fēng)格的元素。
這種類別感知的描述生成確保每條標(biāo)注都作為有針對性的訓(xùn)練信號,教會模型識別并表達(dá)不同類別視覺內(nèi)容所需的具體類型。由于每張圖像可能被分配到多個類別,該過程最終形成一組豐富的并行描述,每條描述都提供理解圖像內(nèi)容與結(jié)構(gòu)的獨(dú)特視角。由此產(chǎn)生的標(biāo)注密度遠(yuǎn)超傳統(tǒng)數(shù)據(jù)集。
生成思維鏈合成
本文標(biāo)注流程的核心步驟是結(jié)合生成思維鏈(GCoT),這是 FLUX-Reason-6M 的主要貢獻(xiàn)與關(guān)鍵特征。
為了構(gòu)建這些推理過程,本文采用一種有意的融合策略:將圖像及其所有類別特定描述作為完整上下文輸入 Qwen-VL。該全面輸入使模型能夠合成詳細(xì)的逐步推理鏈,不僅澄清圖像中存在的元素,還揭示這些元素如何相互作用、特定布局為何存在,以及控制場景構(gòu)圖的構(gòu)圖與語義原則。
最終生成的 GCoT 描述是密集、詳細(xì)的敘述性文本,作為顯式的推理模板。它們逐層解構(gòu)圖像的邏輯,解釋空間關(guān)系、藝術(shù)選擇、色彩協(xié)調(diào)、情感基調(diào)與構(gòu)圖平衡。相比傳統(tǒng)描述,這些描述為模型提供了前所未有的洞察力,幫助其理解復(fù)雜圖像合成背后的創(chuàng)意與邏輯過程。
可泛化的原始描述整合與大規(guī)模雙語發(fā)布
原始描述整合
為了拓展超出本文精心設(shè)計(jì)的推理信號的泛化能力,本文在 Laion-Aesthetics 中重新整合那些能可靠描述 FLUX.1-dev 合成圖像的高質(zhì)量原始描述。具體而言,本文使用 Qwen-VL 作為對齊評估器,對每條原始 Laion 描述與其配對的 FLUX 圖像之間的語義對應(yīng)關(guān)系進(jìn)行評分。得分超過校準(zhǔn)閾值的描述將被保留作為額外監(jiān)督信號,從而確保涵蓋多樣的自然語言表達(dá),同時避免圖文偏離。在整合原始描述、特定類別描述和 GCoT 標(biāo)注后,語料庫總計(jì)包含 2000 萬條獨(dú)特描述。
全面的雙語翻譯
為了讓這一強(qiáng)大資源更易獲取,并促進(jìn)國際合作,本文對整個描述語料庫進(jìn)行了全面的中文翻譯。利用 Qwen 的先進(jìn)翻譯能力,所有原始描述、特定類別描述與 GCoT 描述均被翻譯。然而,對于 Text rendering 類別,本文實(shí)施了一項(xiàng)關(guān)鍵的內(nèi)容保留策略。為了保持任務(wù)的語義完整性,圖像中用于渲染的特定英文文本在翻譯后的描述中保持原樣。例如,一個提示為“a sign that reads ‘FLUX-Reason-6M’”的請求會被翻譯,但短語 “FLUX-Reason-6M” 會保持英文形式。
這一雙語框架使 FLUX-Reason-6M 成為最大且最易獲取的雙語文本生成圖像(T2I)推理數(shù)據(jù)集之一,顯著拓展了其對全球研究人員的影響力與實(shí)用性。
下圖 4 展示了 FLUX-Reason-6M 數(shù)據(jù)集的統(tǒng)計(jì)特征,包括原始提示來源的比例(左)、每種描述類型的數(shù)量與百分比(中)。本文還統(tǒng)計(jì)了七個英文描述類別的詞數(shù)分布,并在圖 4 右側(cè)進(jìn)行了可視化。

PRISM-Bench
為了解決文本生成圖像(T2I)合成中關(guān)鍵的評估缺口,本文提出了 PRISM-Bench。現(xiàn)有基準(zhǔn)測試通常缺乏細(xì)粒度,無法區(qū)分最先進(jìn)模型,僅依賴粗略指標(biāo)或定義狹窄的任務(wù)。PRISM-Bench 克服了這些限制,提供了一個多維度、細(xì)粒度的評估框架。
它包含七個不同的子任務(wù),每個子任務(wù)包含 100 條精心挑選的提示,旨在探索 T2I 模型的能力邊界。這些子任務(wù)直接對應(yīng)于本文數(shù)據(jù)集的六個特征:Imagination、Entity、Style、Text rendering、Composition 和 Affection,以及一個由 GCoT 提示構(gòu)建的具有挑戰(zhàn)性的 Long Text 任務(wù)。下圖 5 展示了本文 PRISM-Bench 的概覽。

提示設(shè)計(jì)與構(gòu)建
每個子任務(wù)的 100 條提示被分為兩組,每組 50 條,用于衡量模型性能的不同方面。第一組提示系統(tǒng)性地從 FLUX-Reason-6M 數(shù)據(jù)集中采樣,以確保廣泛的代表性;第二組提示則經(jīng)過精心策劃,用于針對每個特征的特定挑戰(zhàn)性方面。
代表性提示采樣
對于每個子任務(wù),有 50 條提示直接來自 FLUX-Reason-6M 數(shù)據(jù)集。為了避免選擇偏差并確保覆蓋范圍廣泛,本文不采用簡單的隨機(jī)采樣,而是使用語義聚類與分層采樣的方法。具體而言,對于每個類別(例如 Entity),本文從 FLUX-Reason-6M 數(shù)據(jù)集中收集數(shù)據(jù)集中評分最高的前 10,000 條提示。然后本文使用 K-Means 算法將這些提示劃分為k=50個不同的語義聚類。每個聚類代表該類別中的一個獨(dú)特概念主題。本文從每個聚類中選擇最接近聚類中心(即該組的數(shù)學(xué)中心)的提示,并將其從數(shù)據(jù)集中移除。該提示被視為該語義主題中最具代表性的樣本。
這種方法保證了概念的多樣性。它不會對常見主題進(jìn)行過度采樣,而是確保這 50 條提示涵蓋了數(shù)據(jù)集中該類別所代表的所有概念。
類別特定提示構(gòu)建
每個子任務(wù)的另外 50 條提示來自本文的精心策劃。具體如下:
- 想象力:本文首先將想象類概念劃分為多個主要類別,例如物理不可能性和超現(xiàn)實(shí)敘事。然后本文使用 LLM(Gemini2.5-Pro)從一個或多個類別中隨機(jī)選擇元素,以生成相應(yīng)的提示。
- 實(shí)體:本文整理了不同類別實(shí)體的列表:著名地標(biāo)、特定動植物種類、歷史人物和品牌物品。然后本文利用 LLM 隨機(jī)選擇一到三個實(shí)體,生成相應(yīng)提示。
- 文本渲染:本文設(shè)計(jì)了不同長度的文本內(nèi)容(例如:“FLUX-Reason-6M”、“Welcome to the future ... ...”)、不同字體風(fēng)格(例如手寫體、涂鴉噴漆),以及不同的表面與位置(例如在木質(zhì)標(biāo)牌上、在 T 恤上)。通過 LLM 系統(tǒng)性地組合這三類元素,生成相應(yīng)提示。
- 風(fēng)格:本文定義了四大風(fēng)格類別,包括藝術(shù)流派(例如印象派、立體主義)、媒介形式(例如油畫、水彩)、攝影技術(shù)(例如長曝光、微距攝影)以及數(shù)字/現(xiàn)代美學(xué)(例如像素藝術(shù)、蒸汽波)。這些類別總計(jì)包含 25 種詳細(xì)風(fēng)格,本文使用 LLM 為每種風(fēng)格生成 2 條提示.
- 情感表達(dá):本文以 Plutchik 的情緒之輪作為基礎(chǔ)來源,選擇了不僅包括八種基本情緒(喜悅、信任、恐懼、驚訝、悲傷、厭惡、憤怒、期待),還包括它們的輕微和更強(qiáng)烈形式。本文要求 LLM 基于這些情緒生成相應(yīng)的提示。
- 構(gòu)圖:本文構(gòu)建了多個屬性池,包括顏色、數(shù)量、尺寸、空間關(guān)系等。每次生成時,從每個屬性池中抽取若干屬性,并由 LLM 自由組合,生成包含多個對象及其多樣關(guān)系的提示。
- 長文本:本文從 FLUX-Reason-6M 數(shù)據(jù)集中選取 50 張高質(zhì)量圖像及其所有對應(yīng)的描述文本,輸入至 Gemini2.5-Pro 進(jìn)行長文本擴(kuò)展,最終生成 50 條具有挑戰(zhàn)性的提示。
PRISM-Bench-ZH 本文使用 Gemini2.5-Pro 將英文提示翻譯成中文,從而構(gòu)建 PRISM-Bench-ZH。值得注意的是,在 Text rendering 子任務(wù)中,本文并未簡單地將所有文本翻譯為中文,而是根據(jù)中文語境進(jìn)行適配。例如,原文 “A bottle labeled ‘WHISTLEPIG’ featuring ‘SMOKED BARREL-AGED RYE’ sits alongside two clear whiskey glasses, showcasing a refined presentation of the spirit” 被翻譯為 “一個標(biāo)有‘茅臺’并寫著‘珍品醬香型白酒’的酒瓶,旁邊放著兩個透明的白酒杯,盡顯這款烈酒的精致典雅。”
人類參與優(yōu)化
本文對所有生成的提示進(jìn)行審查,以確保其無歧義、語法正確且邏輯合理(即使是幻想性的),從而確保評估的公平性與挑戰(zhàn)性。最終,本文獲得了 700 條多樣、具有代表性、富有挑戰(zhàn)性且雙語的提示。
評估協(xié)議
為了確保對模型能力進(jìn)行穩(wěn)健且細(xì)致的評估,本文制定了一套全面的評估流程。本文的方法核心是利用 VLM 的高級認(rèn)知能力作為人類判斷的代理,從兩個關(guān)鍵維度對模型性能進(jìn)行細(xì)致分析:提示-圖像一致性(prompt-image alignment)與圖像美學(xué)(image aesthetics)。通過精心設(shè)計(jì)的提示,本文引導(dǎo) VLM 從不同視角對生成結(jié)果進(jìn)行評估。這種雙指標(biāo)方法提供了對每個模型優(yōu)劣勢的整體視圖。本文分別采用 GPT-4.1 和 Qwen2.5-VL-72B 作為閉源與開源 VLM 的代表進(jìn)行評估。
細(xì)粒度一致性評估
本文方法的核心創(chuàng)新在于使用子任務(wù)特定的評估提示來評估一致性。本文認(rèn)識到,通用的 “圖像是否匹配提示?” 的問題不足以捕捉每個類別的具體挑戰(zhàn),因此本文為 VLM 設(shè)計(jì)了針對七個子任務(wù)重點(diǎn)的定制指令。這確保了評估不僅關(guān)注整體對應(yīng)關(guān)系,還關(guān)注提示所測試的具體任務(wù)是否成功完成。對于每一張生成圖像,VLM 會提供一句話的評價(jià)理由,并根據(jù)以下子任務(wù)特定標(biāo)準(zhǔn)打出 1(極差一致性)到 10(完美一致性)之間的分?jǐn)?shù):
- 想象力:評估重點(diǎn)在于模型是否成功地合成了所描述的新穎或超現(xiàn)實(shí)概念,獎勵那些富有創(chuàng)意且連貫地詮釋想象性想法的結(jié)果。
- 實(shí)體:一致性評分依據(jù)是對特定、具名的現(xiàn)實(shí)世界實(shí)體的準(zhǔn)確呈現(xiàn),包括其關(guān)鍵特征和上下文。
- 想象力:評分標(biāo)準(zhǔn)嚴(yán)格,重點(diǎn)考察圖像中文字的可讀性、拼寫準(zhǔn)確性,以及指定文本在圖像中的精確位置。
- 風(fēng)格:VLM 被指示評估生成圖像與明確請求的藝術(shù)或攝影風(fēng)格(例如,“印象派”、“長曝光”)的一致性,檢查是否具備該風(fēng)格的特征性技法。
- 情感表達(dá):評估重點(diǎn)是圖像是否通過顏色、光照和主體表情等視覺線索有效傳達(dá)指定的情緒、情感或氛圍。
- 構(gòu)圖:VLM 的提示強(qiáng)調(diào)驗(yàn)證物體的空間排列、相對位置(例如,“在左側(cè)”、“在后面”)、顏色表現(xiàn),以及圖文所要求的物體數(shù)量是否正確。
- 長文本:對于這一具有挑戰(zhàn)性的子任務(wù),評估衡量模型是否能夠從復(fù)雜、多句的 GCoT 提示中吸收并體現(xiàn)出高密度的細(xì)節(jié)信息。 這種有針對性的方法能夠更精確且有意義地衡量模型在每一個不同類別中的能力。
統(tǒng)一美學(xué)評估
不同于一致性指標(biāo),圖像美學(xué)的評估在所有七個子任務(wù)中使用一套統(tǒng)一的 VLM 指令。這是因?yàn)槊缹W(xué)質(zhì)量——涵蓋光照、色彩協(xié)調(diào)、細(xì)節(jié)以及整體視覺吸引力等因素——是一種與具體提示內(nèi)容無關(guān)的通用屬性。VLM 會為每張圖像提供一句話的評價(jià)理由,并打出一個美學(xué)評分,范圍從 1(極低質(zhì)量)到 10(專業(yè)質(zhì)量)。這一統(tǒng)一標(biāo)準(zhǔn)確保了對不同模型生成圖像的內(nèi)在視覺質(zhì)量的公平比較。
通過將該評估流程系統(tǒng)性地應(yīng)用于領(lǐng)先的閉源模型(例如 Gemini2.5-Flash-Image、GPT-Image-1)和開源模型(例如 Qwen-Image、FLUX.1-Krea-dev)所生成的英文圖像,以及適用于中文的模型(例如 SEEDream 3.0、Qwen-Image、Bagel)在 PRISM-Bench-ZH 上的圖像,本文收集了全面的評估結(jié)果。每個模型在每個子任務(wù)上的表現(xiàn),以該子任務(wù)對應(yīng)的 100 條提示的平均一致性評分和美學(xué)評分(映射為 0-100 范圍)表示。這兩個指標(biāo)的平均值代表模型在該子任務(wù)上的綜合表現(xiàn)。七個子任務(wù)的整體平均分代表模型的最終表現(xiàn),為當(dāng)前 T2I 生成技術(shù)的發(fā)展?fàn)顟B(tài)提供了清晰且可操作的概覽。
實(shí)驗(yàn)
本文在 PRISM-Bench 上評估了 19 個先進(jìn)的圖像生成模型,包括 Gemini2.5-Flash-Image、GPT-Image-1、Qwen-Image、SEEDream 3.0、FLUX 系列、HiDream 系列、Stable Diffusion 系列、Playground、Bagel 和 JanusPro。綜合結(jié)果如下表 1 和下表 2 所示。同時,本文還在 PRISM-Bench-ZH 上評估了多個支持中文的模型,包括 GPT-Image-1、Qwen-Image、SEEDream 3.0、HiDream 系列和 Bagel。評估結(jié)果匯總于下表 3 和下表 4。



PRISM-Bench 上的結(jié)果與分析
整體表現(xiàn)
如上表 1 和上表 2 所示,整體結(jié)果突顯了當(dāng)前最先進(jìn)閉源模型的優(yōu)勢。GPT-Image-1 取得了最高總分86.3 ,緊隨其后的是 Gemini2.5-Flash-Image,得分為85.3 。這些模型在幾乎所有評估子任務(wù)中都優(yōu)于其他模型。
在其余模型中,以 Qwen-Image 為代表的一個具有競爭力的梯隊(duì)正在形成。盡管與頂級模型之間仍存在明顯的性能差距,這些模型代表了開源社區(qū)的重大進(jìn)展。HiDream-I1-Full 和 FLUX.1-Krea-dev 也取得了優(yōu)異成績,表明該領(lǐng)域正在迅速發(fā)展。模型系列內(nèi)部的演進(jìn)同樣明顯,例如 SDXL 相較于 SD1.5 顯著提升,而更新的 SD3.5-Large 進(jìn)一步縮小了與頂級模型之間的差距。上表 2 中的 Qwen-VL 評估結(jié)果在很大程度上印證了這些排名。
想象力
Gemini2.5-Flash-Image 以高分88.6 遙遙領(lǐng)先,GPT-Image-1 緊隨其后,得分為8604 。這表明領(lǐng)先的閉源模型具備更高級的創(chuàng)意解讀能力。Qwen-Image 的表現(xiàn)也令人印象深刻,而像 SD1.5 這樣的舊模型表現(xiàn)不佳,常常生成普通或失真圖像,未能捕捉提示中的想象力本質(zhì)。
實(shí)體
GPT-Image-1 在該任務(wù)中表現(xiàn)出色,得分最高為88.2 ,展示了其強(qiáng)大的內(nèi)部知識庫和高保真渲染能力。Gemini2.5-Flash-Image 和 SEEDream 3.0 也有良好表現(xiàn)。該子任務(wù)對世界知識基礎(chǔ)較弱的模型構(gòu)成挑戰(zhàn),凸顯了大規(guī)模高質(zhì)量訓(xùn)練數(shù)據(jù)對于真實(shí)世界描繪的重要性。
文字渲染
文字渲染仍是幾乎所有 T2I 模型面臨的一大挑戰(zhàn)。本文的基準(zhǔn)測試驗(yàn)證了這一點(diǎn),該類別在所有子任務(wù)中得分最低。值得注意的是,Bagel 和 JanusPro 等自回歸模型在此任務(wù)中表現(xiàn)較差,突顯了自回歸架構(gòu)在文字渲染任務(wù)中的固有局限性。
風(fēng)格
GPT-Image-1 在該任務(wù)中表現(xiàn)出色,得分為93.1 。大多數(shù)現(xiàn)代模型在該任務(wù)中表現(xiàn)相對較好,能夠高度還原所請求的風(fēng)格。這些模型的高分表明,相較于文字渲染等任務(wù),捕捉風(fēng)格本質(zhì)的能力更加成熟。
情感表達(dá)
頂級模型在捕捉情緒與氛圍方面展現(xiàn)出卓越能力。Gemini2.5-Flash-Image 以令人印象深刻的 92.1 分領(lǐng)先,GPT-Image-1 和 Qwen-Image 緊隨其后。值得注意的是,F(xiàn)LUX.1-dev 在該類別中取得了最高的美學(xué)評分,表明其生成的圖像在視覺上傳達(dá)情感方面特別有效,即使在提示一致性方面略低。
構(gòu)圖
GPT-Image-1 以高分92.8 遙遙領(lǐng)先,充分展示了其解析并執(zhí)行復(fù)雜空間指令的能力。Gemini2.5-Flash-Image 緊隨其后,得分為90.5 。頂級開源模型在該領(lǐng)域具有很強(qiáng)的競爭力。Qwen-Image 的得分幾乎與 Gemini2.5-Flash-Image 相同,表明在復(fù)雜構(gòu)圖理解方面的差距正在縮小。HiDream-I1-Full 和 FLUX.1-dev 等模型也展現(xiàn)出強(qiáng)大的構(gòu)圖能力。頂級模型之間的微小差異表明,構(gòu)圖控制正在成為現(xiàn)代圖像生成系統(tǒng)中的一項(xiàng)成熟能力。
長文本
評估結(jié)果清晰地區(qū)分了頂級模型。Gemini2.5-Flash-Image 以 81.1 的最高得分領(lǐng)先,GPT-Image-1 和 SEEDream 3.0 也表現(xiàn)相對較好。然而,與其他子任務(wù)相比,所有模型在該任務(wù)中的整體得分顯著偏低,表明在根據(jù)復(fù)雜、多層次提示生成高質(zhì)量圖像方面仍有巨大提升空間。下圖 6 展示了一個典型示例。這突顯了 FLUX-Reason-6M 所要解決的推理能力缺口問題。

PRISM-Bench-ZH 的結(jié)果與分析
PRISM-Bench-ZH 的評估結(jié)果揭示了一個明確的性能層級,GPT-Image-1 以總分87.5 建立了其領(lǐng)先地位。它在大多數(shù)子任務(wù)中均處于領(lǐng)先地位,包括想象力、實(shí)體、風(fēng)格、情感表達(dá)和構(gòu)圖,展現(xiàn)了其在應(yīng)對中文提示時的卓越創(chuàng)意解讀、知識基礎(chǔ)和空間布局能力。同時,SEEDream 3.0 和 Qwen-Image 在所有子任務(wù)中表現(xiàn)出強(qiáng)勁的競爭力,常常接近或接近領(lǐng)先者的水平。尤其值得注意的是 SEEDream 3.0 和 Qwen-Image 在文字渲染方面的表現(xiàn),這與英文文本生成中普遍存在的弱點(diǎn)形成鮮明對比。
在這些模型中,SEEDream 3.0 與 GPT-Image-1 擁有最高的平均得分,其中 SEEDream 3.0 獲得了最高的美學(xué)評分,表明其具備渲染高質(zhì)量中文字符的能力。這些模型的強(qiáng)勁表現(xiàn)驗(yàn)證了基準(zhǔn)測試在中文文化適應(yīng)性提示設(shè)計(jì)上的合理性,并突顯了在中文排版處理方面的顯著進(jìn)步。下圖 7 展示了不同模型在中文文字渲染方面的示例。

盡管如此,與 PRISM-Bench 的測試結(jié)果一致,長文本子任務(wù)仍然是所有模型面臨的最大挑戰(zhàn)。雖然 GPT-Image-1 再次在該類別中領(lǐng)先,但整體得分偏低,凸顯了理解和合成冗長、復(fù)雜中文指令的巨大障礙。這進(jìn)一步強(qiáng)調(diào)了像 FLUX-Reason-6M 這樣的推理導(dǎo)向數(shù)據(jù)集的迫切需求,以解決現(xiàn)有能力缺口,訓(xùn)練新一代真正智能的文本生成圖像模型。
結(jié)論
本研究通過兩個關(guān)鍵貢獻(xiàn)解決了文本生成圖像模型中的核心問題:FLUX-Reason-6M 數(shù)據(jù)集與 PRISM 基準(zhǔn)測試。FLUX-Reason-6M 是一個包含 600 萬張圖像、2000 萬條高質(zhì)量提示的大規(guī)模數(shù)據(jù)集,專為推理任務(wù)設(shè)計(jì),具備創(chuàng)新的“生成-思維鏈”結(jié)構(gòu),賦予模型跨越六大特征的圖像合成邏輯。為衡量進(jìn)展,本文開發(fā)了 PRISM-Bench,一個涵蓋七個子任務(wù)的全面基準(zhǔn)測試,利用先進(jìn)的多模態(tài)大模型(VLM)實(shí)現(xiàn)細(xì)粒度、貼近人類偏好的評估。
在 19 個模型上的廣泛實(shí)驗(yàn)表明,盡管領(lǐng)先的閉源系統(tǒng)展現(xiàn)出令人印象深刻的性能,所有模型在諸如文字渲染和長指令遵循等復(fù)雜任務(wù)上仍然存在困難,這進(jìn)一步凸顯了本文工作的必要性。通過公開發(fā)布該數(shù)據(jù)集、基準(zhǔn)測試和評估代碼,為社區(qū)提供了訓(xùn)練和評估下一代更智能、更強(qiáng)大文本生成圖像模型的關(guān)鍵工具。
本文轉(zhuǎn)自AI生成未來 ,作者:AI生成未來

















