精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估(ICLR2025) 原創(chuàng)

發(fā)布于 2025-5-19 09:06
瀏覽
0收藏


摘要

許多現(xiàn)實(shí)世界中的用戶查詢(例如,“如何制作蛋炒飯?”)都能從能夠同時(shí)生成文本步驟和配套圖像的系統(tǒng)中受益,就像烹飪食譜一樣。旨在生成交錯(cuò)文本和圖像的模型在確保這些模態(tài)內(nèi)部和之間的一致性方面面臨挑戰(zhàn)。為了解決這些挑戰(zhàn),我們提出了 ISG,這是一個(gè)用于交錯(cuò)文本 - 圖像生成的綜合評(píng)估框架。ISG 利用場(chǎng)景圖結(jié)構(gòu)來(lái)捕捉文本和圖像塊之間的關(guān)系,在四個(gè)粒度級(jí)別上評(píng)估生成的結(jié)果:整體、結(jié)構(gòu)、塊級(jí)別和圖像特定級(jí)別。這種多層評(píng)估允許對(duì)一致性、連貫性和準(zhǔn)確性進(jìn)行細(xì)致入微的評(píng)估,并提供可解釋的問(wèn)答反饋。結(jié)合 ISG,我們引入了一個(gè)基準(zhǔn)測(cè)試 ISG - BENCH,涵蓋 8 個(gè)類別和 21 個(gè)子類別中的 1150 個(gè)樣本。這個(gè)基準(zhǔn)數(shù)據(jù)集包含復(fù)雜的語(yǔ)言 - 視覺(jué)依賴關(guān)系和標(biāo)準(zhǔn)答案,以便在以視覺(jué)為中心的任務(wù)(如風(fēng)格轉(zhuǎn)換,這是當(dāng)前模型面臨的一個(gè)具有挑戰(zhàn)性的領(lǐng)域)上有效地評(píng)估模型。使用 ISG - BENCH,我們證明了最近的統(tǒng)一視覺(jué) - 語(yǔ)言模型在生成交錯(cuò)內(nèi)容方面表現(xiàn)不佳。雖然結(jié)合單獨(dú)的語(yǔ)言和圖像模型的組合方法在整體級(jí)別上比統(tǒng)一模型有 111% 的性能提升,但它們?cè)趬K級(jí)別和圖像級(jí)別上的性能仍然不盡如人意。為了推動(dòng)未來(lái)的工作,我們開(kāi)發(fā)了 ISG - AGENT,這是一個(gè)采用 “計(jì)劃 - 執(zhí)行 - 優(yōu)化” 管道來(lái)調(diào)用工具的基線代理,實(shí)現(xiàn)了 122% 的性能提升。


交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估(ICLR2025)-AI.x社區(qū)

圖1:各生成模型在(視覺(jué) - 語(yǔ)言主導(dǎo))任務(wù)上的性能差異示例,僅文本和圖像輸出無(wú)法解決用戶問(wèn)題。關(guān)于我們?nèi)绾味x(視覺(jué)主導(dǎo))和(語(yǔ)言主導(dǎo)),請(qǐng)參見(jiàn)3.2節(jié)。左:文本生成;中:圖像生成;右:交錯(cuò)文本和圖像生成。

1. 引言

隨著多模態(tài)語(yǔ)言模型的普及,很明顯用戶希望模型能夠同時(shí)生成文本和圖像(Huang 等人,2016;Miech 等人,2019)。考慮這樣一個(gè)場(chǎng)景,用戶問(wèn) “如何制作蛋炒飯?”(圖 1)。用語(yǔ)言回答 —— 列出一系列步驟 —— 是一種合理的答案。但更符合實(shí)際應(yīng)用場(chǎng)景的回答方式是遵循烹飪食譜的風(fēng)格,即在列出步驟的同時(shí),提供烹飪過(guò)程中的中間步驟圖像。通過(guò)結(jié)合語(yǔ)言生成模型(Yuan 等人,2022;Gómez - Rodríguez 和 Williams,2023)和單獨(dú)的圖像生成模型(Rombach 等人,2022;Betker 等人,2023;Blattmann 等人,2023),實(shí)現(xiàn)這種多模態(tài)響應(yīng)是可能的。但是,使用兩個(gè)模型會(huì)減慢推理速度,因?yàn)楸仨氁来渭虞d和運(yùn)行這兩個(gè)模型。許多實(shí)際應(yīng)用,如編寫(xiě)故事書(shū)(Huang 等人,2016)或生成帶插圖的說(shuō)明(Miech 等人,2019),都需要生成交錯(cuò)的圖像和文本。

研究社區(qū)已經(jīng)開(kāi)始設(shè)計(jì)具有為上述用例生成交錯(cuò)文本和圖像能力的統(tǒng)一模型(Zhou 等人,2024a;Li 等人,2024b;Chern 等人,2024)。然而,生成多種模態(tài)是具有挑戰(zhàn)性的。不同模態(tài)之間的生成需要在多個(gè)圖像之間、多個(gè)句子之間以及生成的圖像和句子之間保持一致性。針對(duì)這些挑戰(zhàn)的基準(zhǔn)測(cè)試仍處于起步階段(Chen 等人,2024e)。第一,以前的基準(zhǔn)測(cè)試主要集中在語(yǔ)言主導(dǎo)的任務(wù)上,這意味著查詢僅通過(guò)文本輸出就可以解決,因此無(wú)法充分評(píng)估多模態(tài)生成能力(Liu 等人,2024d)。第二,現(xiàn)有基準(zhǔn)測(cè)試中的查詢是自由形式的,沒(méi)有參考答案,這使得評(píng)估多模態(tài)指令跟隨生成變得模糊(An 等人,2023)。第三,現(xiàn)有的基準(zhǔn)測(cè)試主要使用一種稱為 “大語(yǔ)言模型作為評(píng)判者(LLM - as - a - Judge)” 的評(píng)估范式(Chen 等人,2024a;Ye 等人,2024),其中使用 GPT4 或等效模型,憑借其預(yù)訓(xùn)練知識(shí)進(jìn)行整體評(píng)估(Xia 等人,2024)。但目前需要更細(xì)粒度的評(píng)估,以驗(yàn)證每個(gè)文本和圖像的語(yǔ)義、圖像之間的一致性、每個(gè)文本與其相鄰圖像之間的聯(lián)系等。

我們提出了交錯(cuò)場(chǎng)景圖(INTERLEAVED SCENE GRAPH,ISG),這是一個(gè)用于交錯(cuò)圖像和文本生成的評(píng)估框架。從概念上講,ISG 借鑒了場(chǎng)景圖表示法,將其作為連接圖像和文本的底層語(yǔ)義表示(Krishna 等人,2017;Johnson 等人,2018)。ISG 自動(dòng)將查詢解析為類似場(chǎng)景圖的結(jié)構(gòu),其中文本和圖像塊作為節(jié)點(diǎn),它們之間的關(guān)系作為邊。我們將塊定義為連續(xù)的文本序列或圖像標(biāo)記序列。基于這種圖表示,ISG 提出了一種跨越四個(gè)粒度級(jí)別的評(píng)估協(xié)議:整體(評(píng)估整個(gè)響應(yīng))、結(jié)構(gòu)(評(píng)估塊之間的關(guān)系)、塊(評(píng)估每個(gè)塊內(nèi)的準(zhǔn)確性)和圖像(評(píng)估圖像的內(nèi)容)。該框架將用戶查詢轉(zhuǎn)換為類似 TIFA(Hu 等人,2023)的可解釋問(wèn)答形式,在每個(gè)級(jí)別上實(shí)現(xiàn)系統(tǒng)的、可解釋的評(píng)估,填補(bǔ)了現(xiàn)有研究中的一個(gè)關(guān)鍵空白。

基于 ISG,我們引入了一個(gè)基準(zhǔn)測(cè)試,其中包含用戶查詢以及詳細(xì)的問(wèn)答,用于在四個(gè)級(jí)別上評(píng)估每個(gè)查詢。ISG - BENCH 由 8 個(gè)類別、21 個(gè)子類別(根據(jù)指令類型分類)和 1150 個(gè)手動(dòng)收集的樣本組成,所有樣本都包含語(yǔ)言 - 視覺(jué)依賴關(guān)系和標(biāo)準(zhǔn)答案,以解決上述問(wèn)題。所有樣本均經(jīng)過(guò)精心收集,部分來(lái)自以前的數(shù)據(jù)集,部分是重新構(gòu)建的,以保證高質(zhì)量。與現(xiàn)有基準(zhǔn)測(cè)試不同,我們優(yōu)先考慮以視覺(jué)為中心的任務(wù),如風(fēng)格轉(zhuǎn)換,這類任務(wù)對(duì)圖像輸出有特定要求。表 1 展示了當(dāng)前交錯(cuò)基準(zhǔn)測(cè)試和數(shù)據(jù)集之間的差異。為了驗(yàn)證我們?cè)u(píng)估的準(zhǔn)確性,我們將自動(dòng)評(píng)估結(jié)果與人工標(biāo)注的判斷在四個(gè)級(jí)別上進(jìn)行了比較。ISG 的皮爾遜相似度達(dá)到了 0.718 和 0.907,在與人類判斷的一致性方面優(yōu)于以前的評(píng)估方法。


交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估(ICLR2025)-AI.x社區(qū)

使用 ISG - BENCH,我們?cè)u(píng)估了九種可訪問(wèn)的交錯(cuò)文本和圖像生成方法,包括五種最近流行的統(tǒng)一模型(例如,Show - o(Xie 等人,2024),Anole(Chern 等人,2024)),以及四種組合框架(例如,Claude + SD3(Esser 等人,2024))。實(shí)證結(jié)果表明,當(dāng)前的統(tǒng)一模型在指令跟隨和生成質(zhì)量方面仍有很大的改進(jìn)空間。組合框架在生成高質(zhì)量多模態(tài)內(nèi)容方面明顯優(yōu)于統(tǒng)一模型,平均整體得分達(dá)到 6.262,而表現(xiàn)最好的統(tǒng)一模型 CoMM - MiniGPT - 5 的得分僅為 2.961。然而,由于它們獨(dú)立的理解和生成結(jié)構(gòu),在塊級(jí)別和圖像級(jí)別進(jìn)行準(zhǔn)確生成時(shí)仍然存在不足,特別是在視覺(jué)主導(dǎo)的任務(wù)中。

基于組合框架的優(yōu)越性能,我們提出了 ISG - AGENT,作為未來(lái)比較的組合基線。ISG - AGENT 通過(guò) “計(jì)劃 - 執(zhí)行 - 優(yōu)化” 管道(Wang 等人,2024)生成交錯(cuò)的文本和圖像。具體來(lái)說(shuō),它首先生成工具使用計(jì)劃,隨后執(zhí)行這些先進(jìn)工具進(jìn)行交錯(cuò)生成,接著進(jìn)行優(yōu)化過(guò)程,以實(shí)現(xiàn)更好的文本和圖像對(duì)齊并修復(fù)錯(cuò)誤。值得注意的是,ISG - AGENT 在所有四個(gè)評(píng)估級(jí)別上都優(yōu)于所有其他基線。它實(shí)現(xiàn)了令人印象深刻的結(jié)構(gòu)準(zhǔn)確率 0.871,明顯超過(guò)了之前 Gemini 的最佳成績(jī) 0.385。這些結(jié)果強(qiáng)調(diào)了 ISG - AGENT 在生成連貫交錯(cuò)內(nèi)容方面的有效性,為多模態(tài)生成和創(chuàng)意應(yīng)用中更先進(jìn)的指令跟隨代理鋪平了道路。

2. 相關(guān)工作

2.1 交錯(cuò)文本和圖像生成

最近,多模態(tài)大語(yǔ)言模型(MLLMs,GeminiTeam,2023;OpenAI,2024;2023;Li 等人,2024a)和擴(kuò)散模型(Rombach 等人,2022;Esser 等人,2024;Flux,2024)的進(jìn)展引發(fā)了大量旨在整合自回歸架構(gòu)(Liu 等人,2024c;Sun 等人,2024a)的研究,用于多模態(tài)理解(Yue 等人,2024;Li 等人,2023b)和生成任務(wù)(Ghosh 等人,2024;Huang 等人,2023)。在理解方面,早期研究通過(guò)簡(jiǎn)單的視覺(jué)標(biāo)記化(Li 等人,2023a)或投影方法(Li 等人,2023c;2024a)有效地將視覺(jué)感知與預(yù)訓(xùn)練的大語(yǔ)言模型(LLMs)相結(jié)合,取得了有前景的結(jié)果。另一方面,多模態(tài)生成最初是通過(guò)預(yù)訓(xùn)練的文本到圖像模型(Li 等人,2024b;Wu 等人,2023)或通過(guò)自回歸過(guò)程實(shí)現(xiàn)的,在自回歸過(guò)程中,生成的標(biāo)記被解碼為圖像(Team,2024;Chern 等人,2024;Koh 等人,2024)。最近,研究人員開(kāi)始探索 Transformer 和擴(kuò)散模型的集成,旨在在單個(gè)框架內(nèi)統(tǒng)一多模態(tài)理解和生成任務(wù)(Zhou 等人,2024a;Xie 等人,2024;Wu 等人,2024b),這在文本和圖像的交錯(cuò)生成方面展現(xiàn)出了潛力。

2.2 自動(dòng)交錯(cuò)文本和圖像評(píng)估

自動(dòng)交錯(cuò)文本和圖像評(píng)估起源于自然語(yǔ)言處理(NLP)中早期的文本摘要(Narayan 等人,2018),基于問(wèn)答(QA)的評(píng)估方法自動(dòng)將提示轉(zhuǎn)換為問(wèn)題,并使用它們來(lái)驗(yàn)證生成的內(nèi)容(Durmus 等人,2020;Deutsch 等人,2020;Eyal 等人,2019)。在多模態(tài)領(lǐng)域,特別是在文本到圖像生成中,基于視覺(jué)問(wèn)答(VQA)的評(píng)估方法將文本轉(zhuǎn)換為原子問(wèn)題,并進(jìn)行視覺(jué)問(wèn)答以驗(yàn)證生成的圖像,從而提供更細(xì)粒度和可解釋的基準(zhǔn)測(cè)試結(jié)果(Cho 等人,2023;Lin 等人,2024)。值得注意的是,TIFA(Hu 等人,2023)率先使用視覺(jué)問(wèn)答進(jìn)行自動(dòng)評(píng)估,隨后有多項(xiàng)改進(jìn)(Lu 等人,2024;Ghosh 等人,2024;Cho 等人,2024;Chen 等人,2024a)。然而,評(píng)估交錯(cuò)生成仍然具有挑戰(zhàn)性。表 1 顯示,現(xiàn)有基準(zhǔn)測(cè)試(An 等人,2023;Liu 等人,2024d)嚴(yán)重依賴零樣本的 “大語(yǔ)言模型作為評(píng)判者” 或傳統(tǒng)指標(biāo)(Chen 等人,2024e;b),導(dǎo)致評(píng)估結(jié)果粗略且粒度較大。

3. 交錯(cuò)場(chǎng)景圖

我們引入了 ISG(圖 2),這是一個(gè)用于交錯(cuò)文本和圖像生成評(píng)估的綜合自動(dòng)評(píng)估框架。通過(guò)使用 ISG,我們還引入了 ISG - BENCH,這是一個(gè)用于評(píng)估圖像和文本生成的基準(zhǔn)測(cè)試。


交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估(ICLR2025)-AI.x社區(qū)

圖2:ISG首先將用戶的查詢解析為類似場(chǎng)景圖的結(jié)構(gòu),以便在三個(gè)層面上進(jìn)行細(xì)粒度的評(píng)估:1)在結(jié)構(gòu)層面,ISG預(yù)測(cè)查詢的交錯(cuò)結(jié)構(gòu);2)在塊層面,節(jié)點(diǎn)代表由需求邊連接的文本-圖像塊;3)在圖像層面,圖由實(shí)體、它們的屬性及其關(guān)系組成。最后,ISG將圖結(jié)構(gòu)中的每個(gè)元素轉(zhuǎn)化為問(wèn)題,使用問(wèn)答模塊評(píng)估模型的交錯(cuò)輸出,并隨后將這些結(jié)果匯總為一個(gè)全面的評(píng)估。

3.1 評(píng)估框架

該框架自動(dòng)將查詢解釋為類似場(chǎng)景圖的結(jié)構(gòu),其中文本和圖像塊作為節(jié)點(diǎn),它們之間的關(guān)系作為邊。基于這種圖表示,我們可以進(jìn)行四個(gè)級(jí)別的全面評(píng)估:整體、結(jié)構(gòu)、塊和圖像。在每個(gè)級(jí)別,框架會(huì)生成幾個(gè)問(wèn)答對(duì),用于評(píng)估生成的響應(yīng)是否適當(dāng)?shù)鼗卮鹆瞬樵儭T诤暧^層面,結(jié)構(gòu)和整體問(wèn)題分析整體響應(yīng)的連貫性和質(zhì)量;而塊和圖像問(wèn)題則評(píng)估每個(gè)內(nèi)容模塊對(duì)用戶指令的遵循程度。

結(jié)構(gòu)問(wèn)題評(píng)估響應(yīng)是否嚴(yán)格遵循用戶查詢中的結(jié)構(gòu)要求。如圖 2 所示,給定 “先生成圖像,然后給出說(shuō)明” 的結(jié)構(gòu)要求,正確的結(jié)構(gòu)應(yīng)該由 4 個(gè)圖像和 4 個(gè)文本塊交錯(cuò)組成。我們利用大語(yǔ)言模型根據(jù)查詢預(yù)測(cè)生成的結(jié)構(gòu),隨后通過(guò)直接的結(jié)構(gòu)匹配來(lái)評(píng)估答案。

整體問(wèn)題通過(guò)將多模態(tài)查詢、響應(yīng)和人工標(biāo)注的標(biāo)準(zhǔn)答案輸入到多模態(tài)大語(yǔ)言模型中,來(lái)評(píng)估整體的文本 - 圖像對(duì)齊、連貫性和有用性,然后多模態(tài)大語(yǔ)言模型會(huì)對(duì)整個(gè)答案輸出判斷。基于先前的工作(An 等人,2023;Liu 等人,2024d),我們通過(guò)使用帶有標(biāo)準(zhǔn)答案的 “大語(yǔ)言模型作為評(píng)判者” 以及 “先分析后判斷” 的思維鏈(Chain - of - Thought,CoT)(Wei 等人,2022)來(lái)改進(jìn)這個(gè)過(guò)程。這允許進(jìn)行更符合人類判斷的評(píng)估,評(píng)估生成質(zhì)量、文本 - 圖像對(duì)齊以及有用性,從而得出一個(gè)綜合分?jǐn)?shù)。

塊問(wèn)題評(píng)估每個(gè)塊內(nèi)的細(xì)粒度細(xì)節(jié)。我們最初將提示 P 表示為 “主語(yǔ) - 賓語(yǔ) - 關(guān)系” 元組(sub,obj,r),例如在圖 2 的示例中 < Text 1,Image 1,Describe>,其中 {sub,obj} 是表示圖像或文本塊的節(jié)點(diǎn),r 是表示原子開(kāi)放詞匯要求的邊。隨后,我們從這些元組生成問(wèn)題,并使用視覺(jué)問(wèn)答模塊進(jìn)行評(píng)估,大語(yǔ)言模型提供 “是或否” 和 “1 - 10 分” 的答案。我們也嘗試使用 CLIPScore(Hessel 等人,2021)來(lái)評(píng)估文本 - 圖像關(guān)系,但由于文本塊超過(guò)了文本編碼器 77 個(gè)標(biāo)記的限制而失敗。

圖像問(wèn)題評(píng)估圖像的語(yǔ)義內(nèi)容。我們將多模態(tài)查詢轉(zhuǎn)換為依賴感知元組,這些元組包含實(shí)體、關(guān)系和屬性,每個(gè)都與特定生成的圖像相關(guān)聯(lián),特別是對(duì)于以視覺(jué)為主導(dǎo)的任務(wù),如 “風(fēng)格轉(zhuǎn)換” 和 “多角度物體”,這些任務(wù)有具體的參考答案,而 “繪畫(huà)” 任務(wù)只需要生成最終圖像的準(zhǔn)確性。相比之下,像 “HowTo” 這樣的任務(wù)要求包含特定對(duì)象,但在其他方面允許有一定靈活性。我們根據(jù)答案中對(duì)圖像生成的要求對(duì)任務(wù)進(jìn)行分類,如表 2 所示。這些元組可能包括 < Image 1,Entity,Cat > 和 < Image 1,Relation,Cat,on the right of,Dog>。隨后,我們使用大語(yǔ)言模型生成帶有依賴關(guān)系的問(wèn)題,并通過(guò)視覺(jué)問(wèn)答模塊(Cho 等人,2023)使用這些問(wèn)題評(píng)估圖像生成。

為了在塊級(jí)別和圖像級(jí)別生成視覺(jué)問(wèn)答問(wèn)題,我們使用少樣本示例進(jìn)行上下文學(xué)習(xí)(Dong 等人,2022)來(lái)實(shí)現(xiàn) ISG,并根據(jù)人工標(biāo)注的地面真實(shí)情況仔細(xì)驗(yàn)證這些生成的問(wèn)題。關(guān)于 ISG - BENCH 的評(píng)估,請(qǐng)參考 4.1 節(jié),技術(shù)細(xì)節(jié)見(jiàn)附錄 D.1。


交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估(ICLR2025)-AI.x社區(qū)

圖 3:左:ISG - BENCH 概述。右:查詢和標(biāo)準(zhǔn)答案的文本內(nèi)容長(zhǎng)度和圖像數(shù)量分布分析


交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估(ICLR2025)-AI.x社區(qū)


3.2 基準(zhǔn)測(cè)試

基于 ISG,我們開(kāi)發(fā)了第一個(gè)用于交錯(cuò)文本和圖像生成的基準(zhǔn)測(cè)試 ISG - BENCH,以評(píng)估各種任務(wù)中的多模態(tài)理解和生成能力。如表 2 所示,ISG - BENCH 由 1150 個(gè)樣本組成的分類平衡數(shù)據(jù)集,涵蓋 8 個(gè)日常交錯(cuò)生成場(chǎng)景中的 21 個(gè)子任務(wù)。每個(gè)樣本都包括詳細(xì)的指令和結(jié)構(gòu)要求,例如 “生成四張圖像,并在生成的圖像后提供簡(jiǎn)短的文本描述”,以評(píng)估指令跟隨能力和交錯(cuò)生成能力。每個(gè)查詢都被設(shè)計(jì)為:第一,依賴于視覺(jué)和語(yǔ)言,這意味著它不能僅使用單一模態(tài)的信息來(lái)解決;第二,與精心收集的標(biāo)準(zhǔn)答案配對(duì)。所有樣本均通過(guò)交叉驗(yàn)證和 BERTScore(Zhang 等人,2019)進(jìn)行相似性過(guò)濾后收集和人工篩選,詳細(xì)信息見(jiàn)附錄 B.3。

數(shù)據(jù)收集和質(zhì)量控制:我們的基準(zhǔn)測(cè)試收集過(guò)程主要包括三個(gè)階段。首先,我們根據(jù)任務(wù)定義回顧現(xiàn)有數(shù)據(jù)集,并檢索高質(zhì)量、不重疊的視覺(jué)元數(shù)據(jù),作為查詢和標(biāo)準(zhǔn)答案中的視覺(jué)信息,其中一些數(shù)據(jù)是我們自己收集的(例如,“多視圖場(chǎng)景生成”)。然后,我們策劃自然語(yǔ)言查詢,這些查詢引用圖像以進(jìn)行自動(dòng)評(píng)估。每個(gè)查詢都指定了輸出所需的結(jié)構(gòu)。使用多模態(tài)大語(yǔ)言模型為每個(gè)任務(wù)生成文本答案,隨后由人工注釋者進(jìn)行審查以確保準(zhǔn)確性。由于擔(dān)心基礎(chǔ)模型中的數(shù)據(jù)污染(Balloccu 等人,2024;Xu 等人,2024),注釋者被要求創(chuàng)建自由形式的查詢,并從頭開(kāi)始開(kāi)發(fā)查詢和相應(yīng)的標(biāo)準(zhǔn)答案。最后,我們獲得了一個(gè)多樣化、高質(zhì)量的交錯(cuò)多模態(tài)基準(zhǔn)測(cè)試,其中查詢 - 答案對(duì)來(lái)自各種來(lái)源。為了確保樣本的質(zhì)量,我們?cè)诓煌⑨屨咧g進(jìn)行交叉驗(yàn)證,以檢查格式一致性和拼寫(xiě)錯(cuò)誤。附錄 B 中提供了詳細(xì)的定義、收集流程和更多示例。

模態(tài)特定評(píng)估:我們通過(guò)決策樹(shù)(圖 8)將 ISG - BENCH 中的每個(gè)任務(wù)分為三種模式(即圖像、語(yǔ)言和兩者兼有),以確定其主要貢獻(xiàn)輸出的模態(tài)。例如,“HowTo” 任務(wù)需要視覺(jué)和語(yǔ)言內(nèi)容來(lái)解決問(wèn)題,“藝術(shù)風(fēng)格轉(zhuǎn)換” 主要依賴于視覺(jué)生成;而 “帶有圖像生成的視覺(jué)問(wèn)答” 主要依賴于文本輸出,答案的質(zhì)量和準(zhǔn)確性主要?dú)w因于語(yǔ)言部分,生成的圖像作為補(bǔ)充信息。

4. 實(shí)驗(yàn)與分析

我們首先將 ISG 與人工注釋進(jìn)行對(duì)比驗(yàn)證(4.1 節(jié)),展示其與人類判斷的一致性。隨后我們對(duì)交錯(cuò)生成的評(píng)估(4.2 節(jié))揭示了統(tǒng)一模型的局限性和組合方法的部分成功,強(qiáng)調(diào)了當(dāng)前交錯(cuò)生成在指令跟隨方面面臨的挑戰(zhàn)。

4.1 評(píng)估 ISG - BENCH

?實(shí)驗(yàn)設(shè)置:我們利用最受歡迎的多模態(tài)大語(yǔ)言模型之一 GPT-4o(OpenAI,2024)作為 ISG 的問(wèn)題生成和視覺(jué)問(wèn)答模塊。我們開(kāi)展實(shí)驗(yàn),在不同樣本規(guī)模和指標(biāo)設(shè)定下,驗(yàn)證 ISG 在每個(gè)步驟的性能表現(xiàn),詳見(jiàn)表 3。此外,我們?cè)诟戒?E.2 中驗(yàn)證了 ISG-BENCH 的 “多模態(tài)依賴” 特性。

所有結(jié)果都通過(guò)交叉驗(yàn)證,與人工標(biāo)注的基準(zhǔn)事實(shí)進(jìn)行對(duì)比。圖 4 展示了 ISG-BENCH 中視覺(jué)問(wèn)答實(shí)例的分布情況。對(duì)于問(wèn)題生成模塊,如果生成結(jié)果的主語(yǔ)和賓語(yǔ)與基準(zhǔn)事實(shí)匹配,且 BertScore(Zhang 等人,2019)高于 0.8,則認(rèn)定為正確。我們?cè)?ISG 的視覺(jué)問(wèn)答模塊實(shí)驗(yàn)中采用 “先分析再判斷” 的思維鏈(CoT)框架(Wei 等人,2022),設(shè)置了兩種模式:“1-10 分” 評(píng)分(Lin 等人,2024)和直接 “是或否” 判斷(Cho 等人,2023)。我們還對(duì)視覺(jué)輸入、作為文本信息的圖像字幕以及少樣本提示進(jìn)行了消融實(shí)驗(yàn),以探究 ISG 的最佳設(shè)置。對(duì)于 “大語(yǔ)言模型作為評(píng)判者”(MLLM-as-a-Judge),我們遵循先前研究,使用人工一致性作為評(píng)估指標(biāo)(Chen 等人,2024a;f)。


交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估(ICLR2025)-AI.x社區(qū)

?ISG 在各任務(wù)的每個(gè)模塊中表現(xiàn)出色:如表 3 所示,ISG 的每個(gè)模塊都與人工標(biāo)注高度吻合。在結(jié)構(gòu)方面,ISG 在所有任務(wù)中均展現(xiàn)出一致的卓越性能,這表明其在捕捉交錯(cuò)生成指令中的結(jié)構(gòu)要求方面具有強(qiáng)大潛力。在問(wèn)題生成(Q-Gen)和視覺(jué)問(wèn)答模塊中,ISG 能夠成功提取細(xì)粒度的要求,與基準(zhǔn)事實(shí)高度一致。對(duì)于視覺(jué)問(wèn)答模塊,評(píng)分方法始終優(yōu)于 “是或否” 方法,這表明更細(xì)致的判斷與人工評(píng)估更為契合,尤其是在附錄 D.1.1 中強(qiáng)調(diào)的模糊案例中。與其他任務(wù)相比,視覺(jué)引導(dǎo)的任務(wù)表現(xiàn)始終較差,在問(wèn)題生成和視覺(jué)問(wèn)答模塊中均出現(xiàn)顯著下降,這凸顯了自動(dòng)評(píng)估交錯(cuò)文本和圖像生成細(xì)粒度方面的挑戰(zhàn)。在整體評(píng)估中,借助標(biāo)準(zhǔn)答案的評(píng)估方式顯著優(yōu)于大語(yǔ)言模型的零樣本判斷設(shè)置,在視覺(jué)引導(dǎo)任務(wù)中優(yōu)勢(shì)更為明顯,平均提升幅度達(dá)到 20%。

?視覺(jué)輸入和少樣本提示的消融研究:為進(jìn)行更全面的研究,我們?cè)谝曈X(jué)輸入和少樣本示例這兩種條件下對(duì) ISG 展開(kāi)評(píng)估。如表 4 所示,多模態(tài)輸入在塊級(jí)和圖像級(jí)問(wèn)題生成中存在差異,圖像級(jí)問(wèn)題生成有輕微提升。此外,少樣本上下文學(xué)習(xí)在這兩個(gè)任務(wù)中都帶來(lái)了顯著提升,塊級(jí)任務(wù)性能提高超過(guò) 30%,圖像級(jí)任務(wù)提高 10% 以上,在視覺(jué) - 語(yǔ)言引導(dǎo)任務(wù)中通過(guò)對(duì)預(yù)測(cè)生成內(nèi)容的要求進(jìn)行限制,提升效果更為明顯。對(duì)于語(yǔ)言引導(dǎo)任務(wù),少樣本學(xué)習(xí)使塊級(jí)性能提升 70%,進(jìn)一步證明了針對(duì)此類創(chuàng)意生成任務(wù)建立準(zhǔn)確評(píng)估框架的可行性。


交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估(ICLR2025)-AI.x社區(qū)


交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估(ICLR2025)-AI.x社區(qū)

4.2 基準(zhǔn)測(cè)試交錯(cuò)文本和圖像生成

?實(shí)驗(yàn)設(shè)置:我們?cè)u(píng)估了 10 種能夠生成交錯(cuò)文本和圖像內(nèi)容的框架,包括 4 種最近發(fā)布的統(tǒng)一模型 Show-o^{1}(Xie 等人,2024)、Anole(Chern 等人,2024)、Minigpt-5(Li 等人,2024b)、CoMM-Minigpt-5(Chen 等人,2024e)、SEED-LLaMA(Li 等人,2023b),以及兩種組合設(shè)置,使用 Gemini-1.5-Pro(GeminiTeam,2023)和 Claude-3.5-Sonnet(Anthropic,2024)作為多模態(tài)預(yù)處理器^{2},SD3(Esser 等人,2024)作為生成器,并使用 SD2.1(Rombach 等人,2022)進(jìn)行對(duì)比研究。對(duì)于 ISG,我們采用 4.1 節(jié)中表現(xiàn)最佳的設(shè)置,以實(shí)現(xiàn)完全自動(dòng)的評(píng)估設(shè)置。詳細(xì)的實(shí)驗(yàn)設(shè)置和成本分析請(qǐng)參考附錄 D 和 E.1。

?統(tǒng)一模型在準(zhǔn)確交錯(cuò)生成方面表現(xiàn)不佳:如表 5 所示,所有統(tǒng)一模型在按照我們的指令生成交錯(cuò)文本和圖像內(nèi)容方面都存在顯著缺陷。許多模型僅生成一到三張圖像,有些甚至根本無(wú)法生成圖像。因此,這些模型無(wú)法進(jìn)行塊級(jí)和圖像級(jí)的評(píng)估。在整體評(píng)估中,這些模型在語(yǔ)言主導(dǎo)的任務(wù)中表現(xiàn)出較強(qiáng)的能力,但在視覺(jué)主導(dǎo)的任務(wù)中表現(xiàn)明顯不佳。這種差異進(jìn)一步證實(shí)了當(dāng)前統(tǒng)一模型的訓(xùn)練數(shù)據(jù)集缺乏足夠的視覺(jué)主導(dǎo)指令調(diào)整樣本的假設(shè),例如 “風(fēng)格遷移” 和 “圖像分解” 任務(wù)的樣本。值得注意的是,Show-o 作為首批統(tǒng)一自回歸模型之一,具有較強(qiáng)的結(jié)構(gòu)準(zhǔn)確性,但存在幻覺(jué)問(wèn)題 —— 根據(jù)系統(tǒng)提示而非用戶指令生成圖像,如圖 39 所示。同樣,Anole 在統(tǒng)一模型中實(shí)現(xiàn)了 SOTA 性能,凸顯了其架構(gòu)設(shè)計(jì)的潛力。

?視覺(jué)主導(dǎo)的任務(wù)對(duì)所有模型都具有挑戰(zhàn)性:鑒于這些組合框架對(duì)圖像的感知和生成是分開(kāi)進(jìn)行的,并非端到端的方式,這意味著它們由于其固有結(jié)構(gòu),自然無(wú)法在諸如精確圖像編輯等任務(wù)中表現(xiàn)出色。另一方面,盡管這些統(tǒng)一模型有潛力以端到端的方式理解和生成圖像,并宣稱在 “圖像生成” 或 “圖像編輯” 等視覺(jué)生成任務(wù)中具備能力,但在理解多模態(tài)查詢以生成包含多個(gè)圖像的交錯(cuò)內(nèi)容方面仍存在不足。如圖 6 所示,表現(xiàn)最佳的統(tǒng)一模型 Anole 無(wú)法理解輸出格式,并且偏離了輸入圖像的上下文,這表明它們?cè)谝曈X(jué)上下文學(xué)習(xí)中的圖像生成能力存在缺陷(Sun 等人,2024b)。

?大語(yǔ)言模型作為評(píng)判者無(wú)法評(píng)估細(xì)粒度的準(zhǔn)確生成:如表 5 和表 6 所示,整體評(píng)估結(jié)果與三個(gè)細(xì)粒度級(jí)別的評(píng)估結(jié)果之間的不一致,揭示了大語(yǔ)言模型作為評(píng)判者在全面評(píng)估響應(yīng)方面存在顯著局限性,即使提供了用戶指令和正確的標(biāo)準(zhǔn)答案。具體而言,大語(yǔ)言模型作為評(píng)判者難以根據(jù)細(xì)粒度標(biāo)準(zhǔn)評(píng)估響應(yīng),例如輸出結(jié)構(gòu)(包括圖像數(shù)量)和提示中規(guī)定的詳細(xì)文本 - 圖像關(guān)系。此外,我們對(duì)表 7 結(jié)果的分析揭示了大語(yǔ)言模型作為評(píng)判者存在固有偏差,即 “圖像質(zhì)量偏差”,即使這些響應(yīng)可能違反用戶的指令要求和評(píng)判準(zhǔn)則,具有更高質(zhì)量圖像內(nèi)容的響應(yīng)也始終會(huì)獲得更高的分?jǐn)?shù)。這種偏差表明,即使提供了標(biāo)準(zhǔn)答案,大語(yǔ)言模型作為評(píng)判者仍然無(wú)法對(duì)符合特定要求的交錯(cuò)響應(yīng)進(jìn)行準(zhǔn)確評(píng)估。


交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估(ICLR2025)-AI.x社區(qū)


交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估(ICLR2025)-AI.x社區(qū)


交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估(ICLR2025)-AI.x社區(qū)

5. ISG-AGENT:設(shè)計(jì)一個(gè)基線代理

盡管統(tǒng)一生成模型(Chern 等人,2024;Zhou 等人,2024a;Team,2024)在多模態(tài)交錯(cuò)生成方面顯示出潛力,但即使經(jīng)過(guò)微調(diào),生成交錯(cuò)文本和圖像內(nèi)容仍然具有挑戰(zhàn)性。受先前視覺(jué)生成任務(wù)組合框架(Gupta 和 Kembhavi,2023;Surís 等人,2023;Ma 等人,2024)的啟發(fā),我們提出了 ISG-AGENT,這是一個(gè)供未來(lái)基準(zhǔn)測(cè)試使用的基線代理。

5.1 代理設(shè)置

圖 5 展示了 ISG-AGENT 的概述,它由三個(gè)組件 —— 規(guī)劃、執(zhí)行和優(yōu)化 —— 協(xié)同工作,用于交錯(cuò)文本和圖像生成。

?規(guī)劃:該組件作為解釋用戶多模態(tài)查詢的接口,并以 JSON 格式生成相應(yīng)的工具使用計(jì)劃。該計(jì)劃概述了主要涉及工具調(diào)用的順序步驟。通過(guò)利用大語(yǔ)言模型作為骨干,它確保創(chuàng)建一個(gè)準(zhǔn)確的交錯(cuò)生成計(jì)劃,嚴(yán)格遵守用戶指令,包括對(duì)細(xì)粒度文本 - 圖像塊要求的規(guī)范。每個(gè)步驟都包括明確的工具執(zhí)行功能和后續(xù)工具使用的自然語(yǔ)言描述。

?工具使用:該組件負(fù)責(zé)執(zhí)行帶有日志記錄的工具(Schick 等人,2024)。在每個(gè)步驟中,它從工具庫(kù)中選擇最合適的工具,并為指定工具提供經(jīng)過(guò)優(yōu)化的描述性文本和圖像,例如使用大語(yǔ)言模型進(jìn)行圖像字幕生成,使用擴(kuò)散模型進(jìn)行圖像生成。為避免工具使用過(guò)程中可能出現(xiàn)的偏差,代理被設(shè)計(jì)為生成與指令緊密對(duì)齊的描述,專門(mén)用于工具調(diào)用。

?優(yōu)化:該組件負(fù)責(zé)審查和提高上一步生成內(nèi)容的質(zhì)量,通過(guò)分析錯(cuò)誤消息或不適當(dāng)?shù)纳桑⑼ㄟ^(guò)使用更詳細(xì)和精確的執(zhí)行指令重建錯(cuò)誤步驟來(lái)解決問(wèn)題,直到問(wèn)題得到解決(Wu 等人,2024a)。此外,該代理通過(guò)轉(zhuǎn)換代詞、添加連詞和刪除重復(fù)描述來(lái)優(yōu)化文本,以提高一致性和文本質(zhì)量,從而創(chuàng)建更連貫且文本 - 圖像對(duì)齊的內(nèi)容,而不是幾個(gè)離散的片段。

這種用于交錯(cuò)文本和圖像生成的 “計(jì)劃 - 執(zhí)行 - 優(yōu)化” 管道確保最終輸出緊密符合用戶指令,同時(shí)自主高效地處理各種任務(wù)。我們?cè)趫D 37 和圖 38 中提供了兩個(gè) ISG-AGENT 性能的示例。更多技術(shù)細(xì)節(jié),請(qǐng)參考附錄 D.2。


交錯(cuò)場(chǎng)景圖用于文本和圖像生成評(píng)估(ICLR2025)-AI.x社區(qū)

5.2 實(shí)驗(yàn)

?設(shè)置:我們利用 GPT-4o 進(jìn)行規(guī)劃和驗(yàn)證代理,使用 Claude-3.5-Sonnet 進(jìn)行工具選擇,使用 SD3 作為圖像生成器,并使用多種工具(UltraEdit(Zhao 等人,2024)、DynamiCrafter(Xing 等人,2023)、SV3D(Voleti 等人,2024)和 DreamMover(Shen 等人,2024))。

?ISG-AGENT 在視覺(jué)主導(dǎo)任務(wù)中表現(xiàn)出色,但在語(yǔ)言引導(dǎo)任務(wù)中有所欠缺:如表 6 所示,ISG-AGENT 嚴(yán)格遵循用戶要求生成交錯(cuò)內(nèi)容,在各種任務(wù)的塊級(jí)和圖像級(jí)評(píng)估中,與人類的標(biāo)準(zhǔn)答案取得了可比的結(jié)果,尤其是在 “風(fēng)格遷移” 和 “3D 場(chǎng)景” 等視覺(jué)主導(dǎo)任務(wù)中。在 “漸進(jìn)式轉(zhuǎn)換” 任務(wù)中的 SOTA 結(jié)果也展示了圖像內(nèi)容的良好連貫性,甚至與人類收集的答案相符。盡管 “大語(yǔ)言模型 + 擴(kuò)散” 框架在準(zhǔn)確的指令跟隨方面存在不足,但它們?cè)谝恍┱Z(yǔ)言主導(dǎo)任務(wù)的整體評(píng)估中取得了 SOTA 結(jié)果,展示了其在文本信息生成方面的高質(zhì)量。

?增強(qiáng)組件提高了一般響應(yīng)質(zhì)量:兩個(gè)圖像生成模型之間的對(duì)比分析(表 6)和對(duì)工具的消融研究(表 7)一致表明,在采用增強(qiáng)組件時(shí),ISG-AGENT 在各種任務(wù)級(jí)別上都表現(xiàn)出卓越的性能,從而強(qiáng)調(diào)了先進(jìn)工具在生成更準(zhǔn)確和高保真內(nèi)容方面的重要性。此外,優(yōu)化模塊的加入顯著有助于改善文本 - 圖像對(duì)齊,大幅提高了塊級(jí)和整體性能,這突出了在組合框架中優(yōu)化單個(gè)組件以實(shí)現(xiàn)精確交錯(cuò)生成的潛力。

6. 結(jié)論

本文通過(guò)引入首個(gè)自動(dòng)多粒度評(píng)估框架交錯(cuò)場(chǎng)景圖(INTERLEAVED SCENE GRAPH)、提出包含 8 種不同任務(wù)的 1150 個(gè)多模態(tài)查詢的 ISG-BENCH 基準(zhǔn)測(cè)試,以及用于探索該任務(wù)的代理框架 ISG-AGENT,推動(dòng)了交錯(cuò)文本和圖像生成評(píng)估領(lǐng)域的發(fā)展。我們的全面研究評(píng)估了 10 種前沿的多模態(tài)交錯(cuò)生成框架,為未來(lái)研究提供了關(guān)鍵見(jiàn)解并奠定了堅(jiān)實(shí)基礎(chǔ)(見(jiàn)附錄 A)。我們強(qiáng)調(diào)了持續(xù)努力開(kāi)發(fā)更好的交錯(cuò)生成模型和評(píng)估框架的重要性。



本文轉(zhuǎn)載自??AIRoobt?? ,作者:Dongping Chen等

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
国产偷国产偷亚洲高清人白洁| 在线观看视频免费一区二区三区| 色美美综合视频| 亚洲丰满在线| 丰满熟妇乱又伦| 久久免费黄色| 久久91精品国产| 免费人成又黄又爽又色| 国产精品亚洲一区二区在线观看| 精品成人国产在线观看男人呻吟| 午夜精品美女久久久久av福利| 国产视频一区二区三| 西西人体一区二区| 欧美成人性生活| 国产精品成人无码免费| 国产精品任我爽爆在线播放| 欧美三级三级三级爽爽爽| 麻豆tv在线播放| 在线观看av的网站| 99久久综合国产精品| 成人网在线视频| 91丝袜一区二区三区| 综合亚洲视频| 中文字幕日本欧美| 国产精品三级在线观看无码| 精品国产一级| 欧美日韩高清在线播放| 欧美性大战久久久久xxx| 91高清在线观看视频| 中文字幕 久热精品 视频在线 | 亚洲欧美一区二区三区久久| 久久人人爽人人片| 久久爱.com| 一本到高清视频免费精品| 国产精品入口芒果| 四季久久免费一区二区三区四区| 中文字幕av在线一区二区三区| 日韩一区二区精品| 日韩av高清在线看片| 免费在线观看av网站| 久久精品视频一区二区| 精品久久蜜桃| 日本国产在线观看| 懂色中文一区二区在线播放| 亚洲自拍偷拍一区| 国产美女无遮挡永久免费| 蜜桃在线一区二区三区| 国产激情综合五月久久| 一级成人黄色片| 亚洲少妇一区| 亚州欧美日韩中文视频| 日本亚洲色大成网站www久久| 欧美国产高清| 久久99久久亚洲国产| 日韩欧美123区| 亚洲国产精品久久久久蝴蝶传媒| www.精品av.com| 97精品在线播放| 亚洲精品99| 欧美老女人性视频| 久久久久久久久久91| 激情成人综合| 性欧美视频videos6一9| 影音先锋亚洲天堂| 亚久久调教视频| 国产精品极品在线| 国产精品一区二区三区在线免费观看 | 97se亚洲国产综合自在线| 国产精品一区二区三区不卡 | 午夜精品久久久久久毛片| 欧美色涩在线第一页| 捷克做爰xxxⅹ性视频| 伊人精品综合| 国产视频一区在线| 色撸撸在线视频| 一区二区中文| 羞羞色国产精品| 波多野结衣一区二区在线| 麻豆久久一区二区| 成人免费视频视频在| 天天综合在线视频| 亚洲国产精品国自产拍av| 中文字幕中文字幕99| 国产丝袜精品丝袜| 色综合咪咪久久| 日韩va在线观看| 狠狠久久伊人| 最近2019中文字幕在线高清| 强行糟蹋人妻hd中文| 国产欧美短视频| 国产女同一区二区| 女人18毛片水真多18精品| 久久日一线二线三线suv| 影音先锋亚洲视频| 春色校园综合激情亚洲| 欧美性大战久久久久久久 | 99精品久久免费看蜜臀剧情介绍| 欧美日韩另类丝袜其他| 国产在线二区| 欧美性黄网官网| 手机免费看av网站| 欧美自拍一区| 久久综合电影一区| 中文在线第一页| 国产裸体歌舞团一区二区| 欧美一区国产一区| 秋霞在线视频| 欧美日本免费一区二区三区| 欧美夫妇交换xxx| 欧美成人自拍| 欧美中文字幕视频在线观看| www.色呦呦| 欧美激情资源网| 男人用嘴添女人下身免费视频| 九七电影院97理论片久久tvb| 精品国精品国产| 日本爱爱小视频| 男人天堂欧美日韩| 翡翠波斯猫1977年美国| 免费av在线网站| 在线观看视频91| 日本xxxx裸体xxxx| 亚洲成人原创| 99一区二区| 麻豆av在线免费看| 欧洲生活片亚洲生活在线观看| 2一3sex性hd| 欧美久久久久| 亚洲自拍高清视频网站| а天堂8中文最新版在线官网| 午夜天堂影视香蕉久久| 亚洲精品无码一区二区| 国产精品麻豆久久| 国产精品久久久久久久7电影| 深夜福利视频一区| 亚洲va韩国va欧美va| 激情小说欧美色图| 综合天堂av久久久久久久| 成人日韩av在线| 视频一区二区三区不卡| 精品视频全国免费看| 亚洲v国产v欧美v久久久久久| 国产精品婷婷| 精品视频高清无人区区二区三区| 久草在线新免费首页资源站| 日韩一区二区影院| 激情综合网五月天| 懂色av中文一区二区三区| 欧美做暖暖视频| 亚洲日本va中文字幕| 欧美巨乳在线观看| 亚洲乱色熟女一区二区三区| 亚洲男人的天堂一区二区| 亚洲欧美天堂在线| 欧美激情1区2区| 成人欧美视频在线| av影视在线| 日韩av在线不卡| 久久精品视频7| 久久精品一区二区三区四区| 国产真人无码作爱视频免费| 日本精品黄色| 亚洲jizzjizz日本少妇| 牛牛精品在线| 精品亚洲国产视频| 在线观看你懂的网站| 国产精品久久国产精麻豆99网站| 手机av在线免费| 国内在线观看一区二区三区| 国产综合动作在线观看| 在线女人免费视频| 国产一区二区激情| 精品国产18久久久久久| 亚洲福中文字幕伊人影院| aa片在线观看视频在线播放| 丝袜亚洲精品中文字幕一区| 亚洲一区二区精品在线观看| 欧美视频二区欧美影视| 97在线视频国产| 电影在线高清| 日韩一级完整毛片| www..com国产| 中文字幕中文在线不卡住| 精品人妻在线视频| 天堂午夜影视日韩欧美一区二区| 中文精品一区二区三区| 老司机aⅴ在线精品导航| 国产精品久久不能| 韩国成人免费视频| 中文在线不卡视频| 亚洲第一黄色片| 色婷婷久久久亚洲一区二区三区| 九九热视频在线免费观看| www.99精品| 红桃视频 国产| 国产精品免费看| www.亚洲一区二区| 欧美美女在线| 翡翠波斯猫1977年美国| 免费一级欧美在线观看视频| 欧美激情一区二区三级高清视频| 高清国产福利在线观看| 精品国产第一区二区三区观看体验| 久久久黄色大片| 亚洲永久精品大片| 无码少妇精品一区二区免费动态| 国产精品香蕉一区二区三区| 手机看片福利日韩| 日韩视频二区| 91亚洲精品国产| 日韩一区亚洲二区| 久热这里只精品99re8久| 一区二区视频| 成人免费观看网址| 日韩av超清在线观看| 午夜精品久久久久久久99热 | 高清一区二区三区四区| 欧美精选午夜久久久乱码6080| 成人在线免费看视频| 一区二区高清免费观看影视大全| 少妇的滋味中文字幕bd| 久久久精品日韩欧美| 妖精视频一区二区| 国产一区二区h| 在线观看av网页| 石原莉奈在线亚洲三区| 六月丁香婷婷激情| 亚洲狼人精品一区二区三区| 欧美高清中文字幕| 欧美淫片网站| 日本黄色播放器| 欧美丰满日韩| 亚洲精品一区二| 精品免费视频| 水蜜桃一区二区| 国产精品午夜一区二区三区| 久久精品一二三区| 欧美网色网址| 久久精品国产第一区二区三区最新章节| 日韩精品成人| 国产精品久久久久久久久久久久冷 | 欧美福利网址| 女人被男人躁得好爽免费视频| 综合天堂av久久久久久久| 中文字幕乱码免费| 欧美精品麻豆| 国产成人永久免费视频| 欧美天天视频| 国产av麻豆mag剧集| 亚洲欧洲日本一区二区三区| 日本中文字幕网址| 亚洲综合99| 无码少妇一区二区三区芒果| 日本系列欧美系列| 超碰人人草人人| 国产精品正在播放| 国产精品久久久久久在线观看| 99在线精品视频| 五月天综合视频| 国产精品成人免费在线| 一级黄色录像视频| 亚洲国产日韩av| 4438国产精品一区二区| 欧美性做爰猛烈叫床潮| 国产精品爽爽久久久久久| 欧美一级欧美三级| 污视频软件在线观看| 亚洲精品综合精品自拍| 成人在线免费观看| 久久久精品一区| 超碰成人av| 国产精品激情av电影在线观看| 不卡精品视频| 国产亚洲欧美一区二区| 国产一区毛片| 日本黄色a视频| 亚洲久久一区| 色片在线免费观看| 成人黄页在线观看| japanese中文字幕| 亚洲欧美日韩成人高清在线一区| 中文字幕第28页| 色视频欧美一区二区三区| 国产精品久久久久久无人区| 亚洲电影免费观看高清| 久久久pmvav| 久久久av一区| 亚洲永久av| 91传媒视频免费| 精品精品久久| 无码熟妇人妻av在线电影| 日韩国产欧美视频| 久草免费资源站| 国产精品欧美久久久久一区二区| 激情综合网五月婷婷| 欧美性色欧美a在线播放| 好吊视频一区二区三区| 在线激情影院一区| yellow在线观看网址| 国产欧美一区二区三区久久| 青青草这里只有精品| 亚洲精品偷拍视频| 免费久久精品视频| 免费成人蒂法网站| 一区二区三区av电影| 中文字幕免费播放| 日韩成人在线视频| 国产视频中文字幕在线观看| 国产成人精品免高潮在线观看 | 麻豆免费精品视频| 亚洲av无码一区二区三区观看| 亚洲欧美日韩国产另类专区| 在线免费一区二区| 精品在线观看国产| 国内在线免费视频| 亚洲自拍偷拍视频| 97视频热人人精品免费| 精品国产成人av在线免| 成人少妇影院yyyy| 国产精品九九九九九九| 欧美日韩一区 二区 三区 久久精品| 欧美色视频免费| 国模精品系列视频| 风间由美一区二区av101| 国产av不卡一区二区| 六月丁香婷婷久久| 女人黄色一级片| 在线亚洲一区观看| 深夜福利视频在线免费观看| 91精品91久久久久久| 中文字幕视频精品一区二区三区| 一区二区三视频| 麻豆极品一区二区三区| 97人妻人人揉人人躁人人| 色88888久久久久久影院野外| 日本在线一二三| 欧美在线视频a| 亚洲第一福利专区| 日韩少妇内射免费播放| 91啪亚洲精品| 狠狠躁夜夜躁人人爽天天高潮| 亚洲精品一区二区三区蜜桃下载| 亚洲精品天堂| 成人综合av网| 99在线精品免费视频九九视| 国产福利短视频| 欧美午夜片在线免费观看| 青青国产在线| 国产成人福利视频| 久久激情电影| 欧美成人手机在线视频| 亚洲欧美日韩中文字幕一区二区三区 | 六月天综合网| 亚洲成人黄色av| 欧美性生交片4| 老司机精品影院| 99久久精品免费看国产四区 | 国产一区二区三区中文字幕| 日韩一区二区av| 欧美一级片网址| 日韩国产一级片| 久久久国产午夜精品| 中文字幕在线观看精品| 久久综合伊人77777蜜臀| 亚洲91网站| 男人日女人bb视频| 国产欧美一区二区精品秋霞影院| 中文字幕一区二区三区四区免费看| 久久精品一区中文字幕| youjizz欧美| 欧在线一二三四区| 亚洲欧美综合网| 国产综合无码一区二区色蜜蜜| 青青草成人在线| 小小影院久久| www.男人天堂| 欧美在线视频日韩| 少女频道在线观看免费播放电视剧| 国产一区二区中文字幕免费看| 久久一区精品| 2021亚洲天堂| 亚洲欧美在线第一页| 91国产精品| 国产91对白刺激露脸在线观看| 国产精品久久久久影视| 欧美一级性视频| 国产欧美一区二区三区四区| 在线看片一区| 亚洲图片第一页| 亚洲国产天堂久久国产91| 全球最大av网站久久| 在线观看污视频| 欧美国产在线观看| 丁香六月色婷婷| 国产欧美日韩精品专区| 亚洲激情网站| 国产午夜手机精彩视频| 亚洲偷欧美偷国内偷| 都市激情久久| 中文字幕 91|