精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

基于多模態(tài)大語言模型的上下文目標(biāo)檢測(cè) 原創(chuàng) 精華

發(fā)布于 2025-3-6 09:33
瀏覽
0收藏

摘要:

最近的多模態(tài)大語言模型(MLLMs)在視覺-語言任務(wù)(如圖像描述和問答)中表現(xiàn)出色,但缺乏關(guān)鍵的感知能力,即目標(biāo)檢測(cè)。本文提出了一種新的研究問題——上下文目標(biāo)檢測(cè),即在人機(jī)交互的上下文中理解可見物體。我們研究了三種代表性場(chǎng)景:語言填空測(cè)試、視覺描述生成和問答。此外,我們提出了ContextDET,一種統(tǒng)一的多模態(tài)模型,能夠端到端地對(duì)視覺-語言上下文進(jìn)行可微分建模,從而定位、識(shí)別并將視覺對(duì)象與語言輸入關(guān)聯(lián)起來,以支持人機(jī)交互。ContextDET包含三個(gè)關(guān)鍵子模型:(1)用于提取視覺表示的視覺編碼器,(2)用于多模態(tài)上下文解碼的預(yù)訓(xùn)練大語言模型(LLM),以及(3)用于根據(jù)上下文對(duì)象詞匯預(yù)測(cè)邊界框的視覺解碼器。這種“生成-檢測(cè)”框架使我們能夠檢測(cè)人類詞匯中的對(duì)象詞匯。大量實(shí)驗(yàn)表明,ContextDET在我們提出的CODE基準(zhǔn)、開放詞匯檢測(cè)和引用圖像分割任務(wù)中具有顯著優(yōu)勢(shì)。

1、引言

“對(duì)我來說,上下文是關(guān)鍵——從它衍生出對(duì)一切的理解。” —— Kenneth Noland  

計(jì)算機(jī)視覺的一個(gè)不可或缺的基石——目標(biāo)檢測(cè)——是理解場(chǎng)景中的可見物體,它賦能了許多應(yīng)用,如機(jī)器人、自動(dòng)駕駛和AR/VR系統(tǒng)。最近,通過互聯(lián)網(wǎng)規(guī)模的視覺-語言數(shù)據(jù)訓(xùn)練的多模態(tài)大語言模型(MLLMs),包括Flamingo、PaLM-E和OpenAI的GPT-4,展示了革命性的能力,使人類能夠與AI模型進(jìn)行各種視覺-語言任務(wù)的交互,例如圖像描述和問答。這種交互式的人機(jī)環(huán)境需要對(duì)上下文信息進(jìn)行建模,即視覺對(duì)象、人類詞匯、短語甚至對(duì)話之間的關(guān)系。因此,有必要提升MLLMs的能力,使其能夠定位、識(shí)別并將視覺對(duì)象與語言輸入關(guān)聯(lián)起來,以支持人機(jī)交互。    

在本文中,我們研究了一個(gè)新的研究問題——上下文目標(biāo)檢測(cè),即在人機(jī)交互的上下文中理解可見物體。與現(xiàn)有的標(biāo)準(zhǔn)目標(biāo)檢測(cè)相比,我們?yōu)檫@種新設(shè)置考慮了四個(gè)綜合目標(biāo):(1)能力:能夠處理人類語言詞匯;(2)描述:用信息豐富的自然語言語句描述用戶的視覺輸入;(3)感知:定位并將視覺對(duì)象與語言查詢關(guān)聯(lián)起來;(4)理解:根據(jù)語言提示補(bǔ)充適當(dāng)?shù)脑~匯。為了涵蓋這四個(gè)目標(biāo),我們結(jié)合了三種代表性任務(wù):語言填空測(cè)試、視覺描述生成和問答,并將其與目標(biāo)檢測(cè)結(jié)合(見圖1)。

盡管在開發(fā)更準(zhǔn)確、更快速的目標(biāo)檢測(cè)算法方面取得了顯著進(jìn)展,但由于以下原因,現(xiàn)有的深度目標(biāo)檢測(cè)器無法直接與MLLMs集成以進(jìn)行上下文目標(biāo)檢測(cè)。首先,標(biāo)準(zhǔn)的深度檢測(cè)器(如Mask-RCNN和DETR)使用封閉集分類器進(jìn)行訓(xùn)練,無法在現(xiàn)實(shí)場(chǎng)景中很好地泛化,因?yàn)檫@些場(chǎng)景中的對(duì)象類別或類并未預(yù)先定義或限制在封閉集中。盡管最近基于最先進(jìn)的視覺-語言模型(如CLIP和ALIGN)的開放詞匯目標(biāo)檢測(cè)(如Gu et al., 2022; Zhou et al., 2022; Zang et al., 2022; Rasheed et al., 2022)可以提高對(duì)新類別的零樣本遷移能力,但它們受限于預(yù)定義的新類別規(guī)模,無法檢測(cè)人類語言詞匯中的對(duì)象。雖然一些論文(如Dai et al., 2023)探索了使用LLMs改進(jìn)二元OOD分類,但識(shí)別人類語言詞匯中的新類別名稱尚未得到解決。例如,這些開放詞匯檢測(cè)器無法處理圖1中的分布外類別,如“曲棍球守門員”“新郎”和“牛仔”。其次,現(xiàn)有深度檢測(cè)模型固有的“先定位再分類”范式不適合上下文目標(biāo)檢測(cè)。在通用的人機(jī)交互場(chǎng)景中,視覺場(chǎng)景中的自然對(duì)象和語言輸入中的人類詞匯在不同上下文中具有不同的含義。例如,在圖1(a)和(b)中,通用的“人”類別在不同的視覺上下文中表現(xiàn)為“守門員”“球員”“牛仔”“新郎”“新娘”和“工人”。此外,隨著語言上下文的變化,“拉布拉多”一詞取代了“狗”的表示(圖1(c))。因此,需要一種創(chuàng)新的檢測(cè)方法來適應(yīng)多樣且變化的上下文目標(biāo)檢測(cè)。    


基于多模態(tài)大語言模型的上下文目標(biāo)檢測(cè)-AI.x社區(qū)

圖 1:我們提出了一個(gè)新的上下文目標(biāo)檢測(cè)任務(wù),包括:(a) 觀察圖像并補(bǔ)全被遮蓋的目標(biāo)名稱和位置;(b) 預(yù)測(cè)存在于描述性文字中的目標(biāo)的標(biāo)題和邊界框;(c) 回答有關(guān)目標(biāo)名稱和位置的問題。與通常專注于檢測(cè)有限的預(yù)定義目標(biāo)類別(例如“人”)的傳統(tǒng)目標(biāo)檢測(cè)任務(wù)不同,我們的任務(wù)需要基于上下文理解來預(yù)測(cè)更具體的目標(biāo)名稱(例如“冰球守門員”、“新郎”或“新娘”)。

為了應(yīng)對(duì)上述挑戰(zhàn),本文提出了ContextDET,一種專門用于上下文目標(biāo)檢測(cè)的“生成-檢測(cè)”框架。具體來說,它是一個(gè)端到端模型,包含三個(gè)關(guān)鍵模塊。首先,視覺編碼器提取給定圖像的高級(jí)表示,并生成局部和完整的視覺令牌以進(jìn)行進(jìn)一步的上下文建模。其次,為了有效建模多模態(tài)上下文,我們使用預(yù)訓(xùn)練的LLM進(jìn)行文本生成,并以局部視覺令牌和任務(wù)相關(guān)語言令牌作為多模態(tài)前綴的條件輸入。第三,將LLM生成的令牌作為視覺檢測(cè)的先驗(yàn)知識(shí),我們引入了一個(gè)視覺解碼器,該解碼器由多個(gè)交叉注意力層組成,在其中我們從上下文LLM令牌中計(jì)算條件對(duì)象查詢,并從完整視覺令牌中提取鍵和值,以預(yù)測(cè)相應(yīng)的匹配分?jǐn)?shù)和邊界框。這使得我們能夠檢測(cè)人類詞匯中的上下文對(duì)象詞匯。    

貢獻(xiàn):總結(jié)來說,我們的貢獻(xiàn)如下:(1)我們研究了上下文目標(biāo)檢測(cè)——這是視覺目標(biāo)檢測(cè)的一個(gè)新方向,旨在提升MLLMs在人機(jī)交互中的能力。(2)為了推動(dòng)該領(lǐng)域的實(shí)證研究,我們提出了一個(gè)新的基準(zhǔn)CODE,包含10,346個(gè)獨(dú)特的對(duì)象詞匯,以促進(jìn)上下文目標(biāo)檢測(cè)的研究。(3)我們提出了一種新穎的“生成-檢測(cè)”框架ContextDET,專門用于上下文目標(biāo)檢測(cè)。(4)我們展示了ContextDET不僅在CODE基準(zhǔn)上具有優(yōu)勢(shì),還在開放詞匯檢測(cè)和引用圖像分割任務(wù)中表現(xiàn)出色。我們希望我們的工作能夠激發(fā)未來在上下文目標(biāo)檢測(cè)方面的研究,從而造福人機(jī)交互。

2、相關(guān)工作

1. 多模態(tài)大語言模型(MLLMs)

大語言模型(LLMs)已被開發(fā)用于理解和生成文本語言,在廣泛的自然語言處理(NLP)任務(wù)中表現(xiàn)出色。著名的LLMs包括OpenAI的GPT系列、Google的T5和PaLM,以及Meta的OPT和LLaMA。最近,MLLMs領(lǐng)域取得了進(jìn)展(如Mokady et al., 2021; Tsimpoukelli et al., 2021; Chen et al., 2022b; Koh et al., 2023; Li et al., 2023; Huang et al., 2023; Driess et al., 2023; OpenAI, 2023),例如GPT-4模型,這些模型擴(kuò)展了LLMs的能力,使其能夠理解語言和視覺輸入。MLLMs在圖像描述和視覺問答等視覺-語言任務(wù)中表現(xiàn)出色。然而,現(xiàn)有的MLLMs僅限于生成文本輸出。相比之下,我們的ContextDET基于MLLMs,擴(kuò)展了對(duì)上下文目標(biāo)檢測(cè)的支持,提供邊界框輸出。更多比較見第5.6節(jié)。

2. 使用視覺專家模型提示LLMs

最近的一些論文(如Shen et al., 2023; Wu et al., 2023a; Yang et al., 2023)提出了利用LLMs(如ChatGPT)生成的文本輸出來操縱外部視覺專家模型以完成各種視覺相關(guān)任務(wù)的系統(tǒng)。在目標(biāo)檢測(cè)的背景下,這些視覺專家模型包括DETR、Grounding DINO、SAM等。然而,由于LLMs和專家模型的參數(shù)是凍結(jié)的,LLMs的知識(shí)和表示無法共享,可能導(dǎo)致性能不佳。與這些基于提示的方法不同,我們的ContextDET采用端到端的訓(xùn)練流程,利用從MLLMs提取的潛在特征作為視覺解碼器的條件輸入,從而預(yù)測(cè)邊界框。

3. 具有上下文理解的目標(biāo)檢測(cè)

“上下文”通常指圖像中的鄰近像素或周圍區(qū)域,并已在先前的研究中廣泛探索以增強(qiáng)目標(biāo)檢測(cè)算法(如Divvala et al., 2009; Mottaghi et al., 2014; Shrivastava and Gupta, 2016; Chen et al., 2018)。在本文中,上下文信息的概念涵蓋了多模態(tài)模式和關(guān)系,涉及視覺圖像和文本詞匯。我們的ContextDET利用MLLMs的強(qiáng)大上下文理解能力,并將其應(yīng)用于下游目標(biāo)檢測(cè)任務(wù)。此外,我們提出了新的評(píng)估任務(wù)(如填空測(cè)試),以更有效地評(píng)估上下文理解能力。

4. 新類別上的目標(biāo)檢測(cè)

盡管深度學(xué)習(xí)技術(shù)在目標(biāo)檢測(cè)方面取得了顯著進(jìn)展(如Ren et al., 2015; Liu et al., 2016; Law and Deng, 2018; Tian et al., 2019; Carion et al., 2020; Chen et al., 2022b; Liu et al., 2021; Zhang et al., 2023; Zhu et al., 2021; Wang et al., 2023b),但在現(xiàn)實(shí)場(chǎng)景中,目標(biāo)檢測(cè)仍然是一個(gè)具有挑戰(zhàn)性的任務(wù),特別是在零樣本目標(biāo)檢測(cè)(Bansal et al., 2018)的情況下。零樣本目標(biāo)檢測(cè)要求模型在訓(xùn)練時(shí)僅使用基礎(chǔ)類別的數(shù)據(jù),但能夠檢測(cè)訓(xùn)練時(shí)未見的新類別。最近的一種零樣本檢測(cè)變體,稱為開放詞匯目標(biāo)檢測(cè),允許使用額外的圖像-文本對(duì)(Zareian et al., 2021),引起了研究社區(qū)的廣泛關(guān)注。在這一背景下,最近的視覺和語言預(yù)訓(xùn)練模型(如CLIP、ALIGN)被廣泛用于開放詞匯目標(biāo)檢測(cè)(如Gu et al., 2022; Zhou et al., 2022; Du et al., 2022; Zang et al., 2022; Rasheed et al., 2022; Kuo et al., 2022; Wu et al., 2023b,c)。與僅依賴CLIP的方法不同,我們的ContextDET表明,MLLMs也可以有效地應(yīng)用于開放詞匯設(shè)置。在MLLMs的幫助下,ContextDET不受預(yù)定義的基礎(chǔ)或新類別的限制。值得注意的是,ContextDET預(yù)測(cè)的對(duì)象名稱可以由MLLMs生成為最符合上下文的有效英文單詞。   

表1:我們提出的三種上下文目標(biāo)檢測(cè)設(shè)置與之前相關(guān)任務(wù)的比較。


基于多模態(tài)大語言模型的上下文目標(biāo)檢測(cè)-AI.x社區(qū)


5. 視覺定位

視覺定位任務(wù)(如引用表達(dá)式理解)結(jié)合了目標(biāo)檢測(cè)和語言理解能力。在這些任務(wù)中,提供一個(gè)語言查詢來描述特定對(duì)象,模型的任務(wù)是預(yù)測(cè)被引用對(duì)象的位置。最先進(jìn)的算法(如Yang et al., 2022; Wang et al., 2022)通常采用基于Transformer的跨模態(tài)結(jié)構(gòu)或多模態(tài)預(yù)訓(xùn)練(如Kamath et al., 2021)。我們提出的上下文目標(biāo)檢測(cè)任務(wù)比視覺定位更具挑戰(zhàn)性。例如,在我們的填空測(cè)試中,語言查詢是不完整的,對(duì)象名稱被掩碼。模型需要根據(jù)上下文信息推斷缺失的對(duì)象名稱及其位置。此外,在我們的上下文描述生成設(shè)置中,沒有提供語言查詢。而在我們的上下文問答設(shè)置中,對(duì)象是在交互環(huán)境中使用人類語言描述的。

6. 圖像描述生成

圖像描述生成任務(wù)旨在生成描述性句子以理解給定圖像。通常,圖像描述生成模型首先使用預(yù)訓(xùn)練的分類模型(如Chen et al., 2017)、目標(biāo)檢測(cè)模型(如Anderson et al., 2018)或視覺語言模型(如Mokady et al., 2021)將輸入圖像編碼為特征嵌入。隨后,使用LSTM(Hochreiter and Schmidhuber, 1997)或Transformer(Vaswani et al., 2017)等子模塊將特征嵌入解碼為預(yù)測(cè)的句子。相比之下,我們的上下文描述生成任務(wù)不僅需要生成語言輸出,還要求模型預(yù)測(cè)生成描述中提到的對(duì)象的邊界框位置。

7. 視覺問答(VQA)

視覺問答任務(wù)涉及回答與給定圖像相關(guān)的問題(如Antol et al., 2015; Goyal et al., 2017)。在傳統(tǒng)的VQA中,模型的輸入和輸出由自然語言中的問答對(duì)組成。然而,在我們的上下文問答任務(wù)中,問題專門詢問對(duì)象名稱和位置,而相應(yīng)的答案需要包括被引用對(duì)象的邊界框。

3、方法

本節(jié)描述了我們的上下文目標(biāo)檢測(cè)框架ContextDET,它接受圖像和人類文本的交錯(cuò)輸入,并生成自由格式的文本和相應(yīng)的邊界框作為輸出。如圖2所示,我們的ContextDET是端到端的,包含三個(gè)關(guān)鍵架構(gòu)組件:(1)一個(gè)視覺編碼器,用于提取高級(jí)圖像表示并計(jì)算視覺令牌;(2)一個(gè)預(yù)訓(xùn)練的大語言模型(LLM),用于解碼帶有任務(wù)相關(guān)多模態(tài)前綴的多模態(tài)上下文令牌;(3)一個(gè)視覺解碼器,用于預(yù)測(cè)與上下文對(duì)象詞匯相關(guān)的條件查詢的匹配分?jǐn)?shù)和邊界框。


基于多模態(tài)大語言模型的上下文目標(biāo)檢測(cè)-AI.x社區(qū)

圖 2:我們的 ContextDET 是一個(gè)統(tǒng)一的端到端框架,能夠處理不同任務(wù)的不同語言標(biāo)記輸入,包括 (a) 完形填空測(cè)試、(b) 圖像描述生成和 (c) 問答。符號(hào)“雪花”表示凍結(jié)的部分。符號(hào) e 表示語言模型的潛在嵌入(第 3.2 節(jié)),符號(hào) q 表示視覺解碼器的目標(biāo)查詢(第 3.3 節(jié))。

視覺編碼器


基于多模態(tài)大語言模型的上下文目標(biāo)檢測(cè)-AI.x社區(qū)

多模態(tài)上下文建模與LLM

基于多模態(tài)大語言模型的上下文目標(biāo)檢測(cè)-AI.x社區(qū)

4、CODE基準(zhǔn)

為了促進(jìn)上下文目標(biāo)檢測(cè)的研究,我們構(gòu)建了一個(gè)上下文目標(biāo)檢測(cè)(Contextual Object DEtection, CODE)數(shù)據(jù)集。具體來說,我們從Flickr30k(Young et al., 2014)和Flickr30k Entities(Plummer et al., 2015)中收集了圖像、邊界框和描述注釋。我們添加了包含描述字符串中對(duì)象名稱位置信息的注釋。這些對(duì)象名稱將被替換為“[MASK]”令牌,作為我們填空測(cè)試設(shè)置的輸入。CODE分為三個(gè)部分:訓(xùn)練集包含29,781張圖像中的665,161個(gè)邊界框,驗(yàn)證集包含1,000張圖像中的22,061個(gè)邊界框,測(cè)試集包含999張圖像中的21,641個(gè)邊界框。總體而言,CODE數(shù)據(jù)集包含10,346個(gè)獨(dú)特的對(duì)象名稱,超過了以往任何檢測(cè)數(shù)據(jù)集中的對(duì)象名稱數(shù)量,例如COCO(80個(gè)類別)和LVIS(1,203個(gè)類別)。

 數(shù)據(jù)格式

我們的CODE基準(zhǔn)遵循COCO數(shù)據(jù)集(Lin et al., 2014)的數(shù)據(jù)格式,并添加了額外的字段(藍(lán)色標(biāo)注),包括語言描述、令牌ID和對(duì)象名稱。令牌ID記錄了對(duì)象名稱在語言令牌中的起始和結(jié)束位置索引。



基于多模態(tài)大語言模型的上下文目標(biāo)檢測(cè)-AI.x社區(qū)

 圖3:我們的CODE基準(zhǔn)遵循COCO數(shù)據(jù)集的數(shù)據(jù)格式,并添加了額外的字段(藍(lán)色標(biāo)注),包括語言描述、令牌ID和對(duì)象名稱。令牌ID記錄了對(duì)象名稱在語言令牌中的起始和結(jié)束位置索引。    


基于多模態(tài)大語言模型的上下文目標(biāo)檢測(cè)-AI.x社區(qū)

 圖4:CODE訓(xùn)練集(左)和測(cè)試集(中、右)中對(duì)象詞匯的詞云可視化。中間的圖展示了測(cè)試集中高頻詞匯的可視化,而右側(cè)的圖展示了低頻詞匯的可視化。


基于多模態(tài)大語言模型的上下文目標(biāo)檢測(cè)-AI.x社區(qū)


基于多模態(tài)大語言模型的上下文目標(biāo)檢測(cè)-AI.x社區(qū)

 圖5:(a)傳統(tǒng)目標(biāo)檢測(cè)任務(wù)的評(píng)估標(biāo)準(zhǔn)與(b)我們的上下文填空測(cè)試評(píng)估標(biāo)準(zhǔn)的比較。

評(píng)估細(xì)節(jié)

現(xiàn)有的目標(biāo)檢測(cè)數(shù)據(jù)集(如Pascal VOC、Microsoft COCO、Open Images、LVIS、Object365和V3Det)依賴于標(biāo)簽ID與類別名稱之間的預(yù)定義映射進(jìn)行評(píng)估。例如,COCO數(shù)據(jù)集使用類似(1, person)、(2, bicycle)、...、(80, toothbrush)的映射來表示其80個(gè)類別。如圖5(a)所示,為了被分類為真正例(true positives),預(yù)測(cè)的邊界框必須與真實(shí)邊界框具有較高的IoU重疊,并且類別ID必須相同。在某些情況下,例如零樣本(Bansal et al., 2018)或開放詞匯(Zareian et al., 2021)目標(biāo)檢測(cè)設(shè)置中,預(yù)定義的類別被分為兩組:基礎(chǔ)和新類別,以評(píng)估模型的泛化能力。然而,這些評(píng)估仍然依賴于預(yù)定義的ID-名稱映射,而名稱未包含在預(yù)定義映射中的對(duì)象則無法被評(píng)估。    

人類的感知并不依賴于預(yù)定義的類別ID。因此,對(duì)于我們提出的上下文填空測(cè)試任務(wù),我們建立了新的評(píng)估標(biāo)準(zhǔn),使用人類語言中的對(duì)象名稱進(jìn)行評(píng)估。在此評(píng)估中,給定一個(gè)帶有掩碼的語言表達(dá)式和掩碼詞匯的索引,如果預(yù)測(cè)的邊界框滿足以下條件,則將其分類為真正例:(1)與真實(shí)邊界框具有較高的IoU重疊;(2)具有相同的含義;(3)具有相同的掩碼索引。相反,如果預(yù)測(cè)不滿足這些條件,則被視為假正例(false positives)。掩碼索引用于區(qū)分句子中多個(gè)具有相同名稱但位于不同[MASK]令牌位置的對(duì)象。對(duì)象名稱對(duì)應(yīng)于LLMs的Tokenizer解碼的最有效的英文單詞。

在定義了基于名稱的真正例/假正例標(biāo)準(zhǔn)后,我們可以計(jì)算整體的平均精度(AP)指標(biāo)進(jìn)行評(píng)估。我們遵循COCO數(shù)據(jù)集設(shè)置IoU閾值,范圍從0.5到0.95,步長為0.05。由于存在大量長尾低頻名稱,其中只有少數(shù)示例可用于評(píng)估,因此我們未計(jì)算每個(gè)名稱的AP。

 AP@5用于前5個(gè)預(yù)測(cè)名稱

在某些情況下,我們的評(píng)估指標(biāo)可能過于嚴(yán)格,特別是在處理大量同義詞或細(xì)粒度類別時(shí),這些類別對(duì)標(biāo)注者來說難以區(qū)分。類似的挑戰(zhàn)在之前的圖像分類數(shù)據(jù)集(如ImageNet)中也曾遇到,其中使用top-5準(zhǔn)確率作為top-1準(zhǔn)確率的補(bǔ)充指標(biāo)。因此,我們還引入了一個(gè)補(bǔ)充指標(biāo),稱為top-5 AP(AP@5),該指標(biāo)放寬了真正例的定義。在AP@5下,如果真實(shí)名稱位于前5個(gè)預(yù)測(cè)中,則預(yù)測(cè)被視為真正例。相比之下,基于top-1預(yù)測(cè)結(jié)果計(jì)算的AP指標(biāo)稱為AP@1,以區(qū)別于AP@5。    

實(shí)現(xiàn)細(xì)節(jié)

我們修改了COCO數(shù)據(jù)集中提供的著名pycocotools包,并創(chuàng)建了評(píng)估腳本。

上下文問答和上下文描述生成的評(píng)估

填空測(cè)試、描述生成和問答設(shè)置的上下文理解性能高度相關(guān)。一個(gè)設(shè)置中的定量評(píng)估可以輕松轉(zhuǎn)換為另一個(gè)設(shè)置,只需使用不同的文本提示。例如:

- 填空測(cè)試提示:A -- stands with his bride while holding balloons。(預(yù)期答案:groom)

- 描述生成提示:A photo of a -- standing with his bride while holding balloons。(預(yù)期答案:groom)

- 問答提示:Question: who is standing with the bride while holding balloons in this image? Answer: ----。(預(yù)期答案:The groom)

這三種設(shè)置本質(zhì)上評(píng)估的是同一場(chǎng)景的上下文理解能力,但表現(xiàn)形式不同。

5、實(shí)驗(yàn)

我們?cè)诓煌蝿?wù)上展示了ContextDET的結(jié)果,包括(1)我們提出的上下文目標(biāo)檢測(cè)任務(wù)(見第5.1節(jié)),以及現(xiàn)有任務(wù),如(2)開放詞匯目標(biāo)檢測(cè)(見第5.3節(jié))和(3)引用圖像分割(見第5.4節(jié))。    

實(shí)現(xiàn)細(xì)節(jié)

我們的方法使用PyTorch實(shí)現(xiàn),所有模型均在配備4塊NVIDIA A100 GPU的單臺(tái)機(jī)器上進(jìn)行訓(xùn)練。訓(xùn)練期間,應(yīng)用了數(shù)據(jù)增強(qiáng)技術(shù),包括隨機(jī)水平翻轉(zhuǎn)(概率為0.5)和大尺度抖動(dòng)(Ghiasi et al., 2021)。我們將批量大小設(shè)置為8,并訓(xùn)練模型6個(gè)周期。我們使用AdamW優(yōu)化器(Loshchilov and Hutter, 2019),學(xué)習(xí)率為 \(1e^{-4}\),權(quán)重衰減為0.05。對(duì)于ContextDET,我們報(bào)告了使用OPT-2.7B(Zhang et al., 2022b)作為語言模型和ResNet50(He et al., 2016)作為視覺骨干的結(jié)果。

5.1 上下文目標(biāo)檢測(cè)

本節(jié)報(bào)告了我們提出的CODE數(shù)據(jù)集(見第4節(jié))上的基準(zhǔn)測(cè)試結(jié)果。

評(píng)估指標(biāo)

在我們的上下文填空測(cè)試設(shè)置中,我們計(jì)算了分類準(zhǔn)確率和檢測(cè)AP指標(biāo)。準(zhǔn)確率表示正確預(yù)測(cè)對(duì)象詞匯的百分比。然而,由于人類語言中存在大量同義詞和細(xì)粒度對(duì)象詞匯,評(píng)估這一準(zhǔn)確率具有挑戰(zhàn)性。這與之前的大詞匯量圖像分類數(shù)據(jù)集(如ImageNet)面臨的問題類似,這些數(shù)據(jù)集使用top-5準(zhǔn)確率作為top-1準(zhǔn)確率的補(bǔ)充指標(biāo)。因此,我們同時(shí)采用了top-1準(zhǔn)確率(Acc@1)和top-5準(zhǔn)確率(Acc@5)作為評(píng)估指標(biāo)。對(duì)于邊界框評(píng)估,我們基于top-1和top-5預(yù)測(cè)名稱計(jì)算平均精度(mAP)指標(biāo),分別表示為AP@1和AP@5。在評(píng)估中,我們比較的是對(duì)象名稱詞匯,而不是預(yù)定義的類別ID,這使得評(píng)估能夠靈活擴(kuò)展到廣泛的人類詞匯。對(duì)于我們的上下文問答和描述生成設(shè)置,我們通過修改填空測(cè)試任務(wù)中使用的輸入文本提示格式來獲得定量結(jié)果。    

基線方法

由于之前的方法不具備“生成-檢測(cè)”能力,我們使用級(jí)聯(lián)解決方案將現(xiàn)有方法結(jié)合作為基線:首先使用BLIP-2(Li et al., 2023)、LLaVA(Liu et al., 2023b)或LLaVA 1.5(Liu et al., 2023a)生成描述,然后使用代表性的定位方法GLIP(Li et al., 2022)。我們還選擇了GLIP-2(Zhang et al., 2022a)作為基線,因?yàn)樗c我們的上下文問答和描述生成場(chǎng)景兼容。然而,GLIP-2不適用于填空測(cè)試設(shè)置,因?yàn)樗枰暾膶?duì)象名稱。

結(jié)果

我們?cè)诒?中提供了ContextDET在CODE數(shù)據(jù)集上的基準(zhǔn)測(cè)試結(jié)果。我們的結(jié)果表明,上下文目標(biāo)檢測(cè)非常具有挑戰(zhàn)性:top-1 AP顯著低于之前的目標(biāo)檢測(cè)數(shù)據(jù)集(如COCO),這主要?dú)w因于我們的基準(zhǔn)包含10,346個(gè)獨(dú)特的對(duì)象名稱(COCO僅有80個(gè)名稱)。與BLIP-2/LLaVA/LLaVA1.5+GLIP等級(jí)聯(lián)解決方案相比,我們的端到端ContextDET在所有設(shè)置上均表現(xiàn)更好。這歸因于從LLMs提取的隱藏嵌入通過自注意力操作符包含了視覺和文本令牌之間的上下文關(guān)系,這對(duì)于需要上下文理解能力的任務(wù)至關(guān)重要。

我們還比較了ContextDET與LLaVA 1.5以及在CODE數(shù)據(jù)集上微調(diào)GLIP檢測(cè)器的結(jié)果(表2中的第4行)。然而,我們發(fā)現(xiàn)微調(diào)GLIP并未顯著提高檢測(cè)性能。這是因?yàn)镚LIP依賴于對(duì)比學(xué)習(xí),可能無法有效適應(yīng)大量具有細(xì)微差異的對(duì)象類別。我們的觀察表明,LLM令牌提供的上下文信息對(duì)于檢測(cè)大詞匯量(如CODE數(shù)據(jù)集中超過10k個(gè)類別)中的新對(duì)象至關(guān)重要。    


基于多模態(tài)大語言模型的上下文目標(biāo)檢測(cè)-AI.x社區(qū)

5.2 消融實(shí)驗(yàn)

我們研究了使用局部視覺令牌 \( \bm{z} \)、決定局部區(qū)域數(shù)量的超參數(shù) \( p \) 以及效率分析的影響。實(shí)驗(yàn)在CODE驗(yàn)證集上進(jìn)行。

超參數(shù) \( p \)

如第3.1節(jié)所述,我們有 \( p \) 個(gè)局部視覺令牌作為LLM解碼的前綴輸入。在表5中,我們展示了使用不同 \( p \) 值的效果。我們觀察到,選擇 \( p = 9 \)(第2行)能夠獲得最佳結(jié)果,因此將其作為默認(rèn)選擇。

更多骨干網(wǎng)絡(luò)

我們?cè)诒?中提供了ContextDET在CODE數(shù)據(jù)集上的結(jié)果。我們首先報(bào)告了使用OPT-2.7B作為語言模型和ResNet50作為視覺骨干的結(jié)果(第1行)。我們的結(jié)果表明,上下文填空測(cè)試任務(wù)非常具有挑戰(zhàn)性:top-1 AP(AP@1)僅為10.2,顯著低于之前的目標(biāo)檢測(cè)數(shù)據(jù)集(如COCO)。此外,我們的研究表明,使用更強(qiáng)大的語言模型和視覺骨干可以提高性能。當(dāng)我們將ResNet50替換為Swin-B(第2行)時(shí),我們觀察到AP@1從10.2顯著提高到13.1。此外,通過將OPT-2.7B替換為更大的OPT-6.7B(第4行),我們實(shí)現(xiàn)了更高的AP@1性能(13.7)。 


基于多模態(tài)大語言模型的上下文目標(biāo)檢測(cè)-AI.x社區(qū)

不使用局部視覺令牌的LLM

在我們的上下文填空測(cè)試設(shè)置中,即使沒有局部視覺令牌輸入 \( \bm{z} \),LLM也能夠進(jìn)行預(yù)測(cè)。然而,通過分析表4中的結(jié)果,我們觀察到性能顯著下降。例如,top-1準(zhǔn)確率從48.7下降到30.9(約20%)。這一觀察強(qiáng)調(diào)了在我們的方法中添加局部視覺令牌對(duì)于上下文理解的關(guān)鍵作用。我們還觀察到,在沒有 \( \bm{z} \) 的情況下,語言建模損失 \( \mathcal{L}_{\text{lm}} \) 的值幾乎沒有下降。這是因?yàn)橛?jì)算語言建模損失 \( \mathcal{L}_{\text{lm}} \) 與生成下一個(gè)文本令牌密切相關(guān),而生成文本令牌嚴(yán)重依賴于視覺令牌 \( \bm{z} \)。如果沒有視覺令牌 \( \bm{z} \),模型無法有效生成準(zhǔn)確描述視覺內(nèi)容的文本令牌,導(dǎo)致語言建模損失停滯。

效率分析

我們模型中的大多數(shù)參數(shù)(包括LLM組件)是凍結(jié)的,因此可訓(xùn)練參數(shù)的比例較小。如表2第1行所示,當(dāng)使用OPT-2.7B和ResNet50骨干時(shí),只有6.4%的參數(shù)(183/2,835)是可訓(xùn)練的。我們的設(shè)計(jì)并未帶來顯著的計(jì)算負(fù)擔(dān),并且可以輕松復(fù)現(xiàn)。

5.3 開放詞匯目標(biāo)檢測(cè)

我們展示了我們提出的ContextDET也可以應(yīng)用于開放詞匯目標(biāo)檢測(cè)任務(wù),旨在評(píng)估其泛化能力。根據(jù)之前的工作(Bansal et al., 2018; Zareian et al., 2021),我們使用OV-COCO基準(zhǔn),并將65個(gè)類別分為基礎(chǔ)/新類別(48/17)。模型僅在基礎(chǔ)類別上訓(xùn)練,但在新類別上進(jìn)行評(píng)估(訓(xùn)練期間不可用)。我們使用平均精度(AP)指標(biāo)在基礎(chǔ)、新類別和所有類別上測(cè)量性能。

為了將ContextDET適應(yīng)開放詞匯設(shè)置,我們?yōu)槊總€(gè)類別(包括基礎(chǔ)和新類別)提出類似“Does the [CLASS] appear in this picture?”的問題。如果MLLM回答“Yes”,我們將相應(yīng)類別名稱的潛在嵌入 \( \bm{e} \) 作為視覺解碼器的條件輸入(見第3.3節(jié))。我們?cè)诒?中比較了ContextDET與選定的基線方法,包括最先進(jìn)的方法BARON(Wu et al., 2023c)。我們觀察到,ContextDET在新類別、基礎(chǔ)類別和所有類別上分別顯著優(yōu)于BARON,分別提高了2.8%、4.7%和4.2%。所有基線方法都依賴于視覺-語言模型CLIP的先驗(yàn)知識(shí)。相比之下,我們的ContextDET使用MLLM來檢測(cè)新對(duì)象。結(jié)果表明,在互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)集上訓(xùn)練的MLLM具有強(qiáng)大的泛化能力,可以有益于開放詞匯任務(wù)。

效率分析

OV-DETR的訓(xùn)練和測(cè)試時(shí)間(秒/迭代)分別為0.47/0.63和0.54/0.25。雖然由于LLMs的參數(shù)較多,我們的方法增加了訓(xùn)練時(shí)間,但在測(cè)試時(shí)更加高效。這是因?yàn)镺V-DETR以所有類別為條件,而ContextDET通過提問僅以圖像中存在的類別為條件。

5.4 引用圖像分割

我們的ContextDET不僅限于目標(biāo)檢測(cè),還可以擴(kuò)展到圖像分割任務(wù),其目標(biāo)是為輸入圖像中的每個(gè)像素分配像素級(jí)標(biāo)簽。為了將ContextDET框架適應(yīng)分割任務(wù),我們引入了一個(gè)額外的像素級(jí)分割頭,該頭以完整視覺令牌 \( \bm{c} \) 作為輸入。為了訓(xùn)練分割模型,我們使用像素級(jí)交叉熵?fù)p失 \( \mathcal{L}_{\text{mask}} \) 和Dice損失 \( \mathcal{L}_{\text{dice}} \),其中真實(shí)標(biāo)簽是圖像中匹配對(duì)象的像素級(jí)掩碼。

我們選擇引用圖像分割任務(wù)作為代表性基準(zhǔn),以評(píng)估ContextDET的分割性能。引用圖像分割任務(wù)的目標(biāo)是根據(jù)細(xì)粒度的輸入語言查詢分割圖像中的區(qū)域。語言查詢將作為ContextDET中視覺解碼器的條件輸入。我們使用了三個(gè)常用的數(shù)據(jù)集:RefCOCO(Yu et al., 2016)、RefCOCO+(Yu et al., 2016)和RefCOCOg(Nagaraja et al., 2016)。在RefCOCO和RefCOCO+上,我們遵循Yu等人(Yu et al., 2016)中默認(rèn)的訓(xùn)練/驗(yàn)證/testA/testB數(shù)據(jù)劃分。對(duì)于RefCOCOg,我們使用RefCOCO-umd劃分(Nagaraja et al., 2016)。我們報(bào)告了平均交并比(mIoU),該指標(biāo)通過計(jì)算所有測(cè)試樣本的IoU分?jǐn)?shù)的平均值得到。我們?cè)诒?中將ContextDET與一些最先進(jìn)的方法進(jìn)行了比較。ContextDET在驗(yàn)證/測(cè)試集上分別比PolyFormer(Liu et al., 2023c)提高了0.63%和0.45%的mIoU。

 表7:在三個(gè)引用圖像分割基準(zhǔn)上與最先進(jìn)方法的比較(以mIoU指標(biāo)衡量)。    


基于多模態(tài)大語言模型的上下文目標(biāo)檢測(cè)-AI.x社區(qū)

5.5 標(biāo)準(zhǔn)目標(biāo)檢測(cè)

我們進(jìn)一步評(píng)估了ContextDET在標(biāo)準(zhǔn)目標(biāo)檢測(cè)任務(wù)上的有效性,使用COCO基準(zhǔn)。通過應(yīng)用ContextDET的“描述生成”設(shè)置,并實(shí)施后處理調(diào)整(如過濾掉不相關(guān)的對(duì)象類別和置信度閾值),結(jié)果如表8所示。雖然我們的性能不如專門的目標(biāo)檢測(cè)方法(如Deformable DETR),但ContextDET在檢測(cè)小物體方面表現(xiàn)出色,這歸因于上下文信息在消除包含小物體的區(qū)域歧義方面的優(yōu)勢(shì)。


基于多模態(tài)大語言模型的上下文目標(biāo)檢測(cè)-AI.x社區(qū)

表8:在COCO驗(yàn)證數(shù)據(jù)集上標(biāo)準(zhǔn)目標(biāo)檢測(cè)結(jié)果的比較。    


基于多模態(tài)大語言模型的上下文目標(biāo)檢測(cè)-AI.x社區(qū)

5.6 定性結(jié)果

除了在CODE基準(zhǔn)上的定量評(píng)估外,我們還通過更多樣化的圖像和對(duì)象對(duì)ContextDET進(jìn)行了定性評(píng)估,如圖7所示。我們觀察到ContextDET在復(fù)雜上下文理解和泛化到開放世界名稱方面的能力。例如,如圖7(a)所示,ContextDET能夠合理推斷出填充掩碼的對(duì)象名稱,并準(zhǔn)確地將對(duì)象名稱與邊界框關(guān)聯(lián)起來。此外,ContextDET能夠預(yù)測(cè)開放世界概念的名稱和位置(如“哈利·波特”“皮卡丘”“梅西”),這些概念使用之前的封閉集目標(biāo)檢測(cè)器難以檢測(cè)。最后,在圖7(c)中,我們展示了ContextDET能夠進(jìn)行多輪問答對(duì)話,并預(yù)測(cè)對(duì)話歷史中提到的對(duì)象的邊界框。

我們進(jìn)一步提供了ContextDET在上下文填空測(cè)試(圖8)、上下文描述生成(圖9)和上下文問答設(shè)置(圖10)中預(yù)測(cè)的更多定性結(jié)果。所選圖像隨機(jī)來自網(wǎng)絡(luò),并未包含在訓(xùn)練數(shù)據(jù)中。我們觀察到ContextDET能夠有效預(yù)測(cè)上下文對(duì)象詞匯,包括“老師”“學(xué)生”“醫(yī)生”和“護(hù)士”等術(shù)語,以及它們對(duì)應(yīng)的邊界框。此外,我們發(fā)現(xiàn)了一些失敗案例。例如,預(yù)測(cè)的對(duì)象詞匯可能不正確,特別是對(duì)于不太常見的術(shù)語(如“地球”)。當(dāng)處理遮擋對(duì)象(如“羊”)時(shí),ContextDET的魯棒性較差。我們計(jì)劃在未來的研究中解決這些局限性。


基于多模態(tài)大語言模型的上下文目標(biāo)檢測(cè)-AI.x社區(qū)

圖 7:ContextDET 在我們的三種上下文目標(biāo)檢測(cè)設(shè)置中預(yù)測(cè)的定性示例,包括 (a) 完形填空測(cè)試、(b) 圖像描述生成和 (c) 問答。其中的“哈利·波特”、“皮卡丘”和“梅西”是新出現(xiàn)的名稱,這些名稱并未在 CODE 訓(xùn)練集中標(biāo)注。ContextDET 展示了合理的上下文理解和泛化能力。

與MLLMs的比較

我們?cè)趫D6中展示了一些視覺示例,并將我們的ContextDET與一些流行的MLLMs(如GPT-4)進(jìn)行了比較。現(xiàn)有的MLLMs只能生成文本輸出,而我們的ContextDET通過提供感興趣對(duì)象的邊界框進(jìn)一步推動(dòng)了邊界。特別是,我們的方法允許對(duì)文本輸入中指定的感興趣對(duì)象進(jìn)行細(xì)粒度定位,這為視覺-語言模型提供了更高程度的可解釋性。總的來說,我們的方法為需要對(duì)象定位和對(duì)話交互的各種應(yīng)用提供了新的可能性,例如AR/VR系統(tǒng)和機(jī)器人。

6、結(jié)論    

盡管最近的MLLMs在視覺-語言任務(wù)(如問答)中展示了顯著的能力,但它們?cè)诟兄蝿?wù)中的潛力仍然很大程度上未被探索。我們的ContextDET突出了MLLMs在多樣化感知任務(wù)中的巨大潛力,例如提出的上下文目標(biāo)檢測(cè)任務(wù),該任務(wù)預(yù)測(cè)圖像中精確的對(duì)象名稱及其位置以支持人機(jī)交互。為了訓(xùn)練我們的模型,我們需要將邊界框的對(duì)象詞匯與語言描述關(guān)聯(lián)起來,這帶來了高昂的標(biāo)注成本。因此,與之前的MLLM論文相比,我們使用了較少的訓(xùn)練數(shù)據(jù),這可能限制了我們的最終性能。在未來的工作中,我們計(jì)劃探索使用半監(jiān)督或弱監(jiān)督學(xué)習(xí)技術(shù)來減少標(biāo)注成本。此外,除了它們的上下文理解能力外,我們相信MLLMs的其他能力在下游任務(wù)中仍然未被充分探索,例如它們的交互能力用于指令調(diào)優(yōu)。例如,MLLMs能否用于根據(jù)人類語言指令對(duì)檢測(cè)輸出進(jìn)行后處理?通過提供諸如“將預(yù)測(cè)框稍微向左移動(dòng)”“移除冗余的重疊框”或“將預(yù)測(cè)類別從鷹更正為獵鷹”等指令,MLLMs能否相應(yīng)地調(diào)整預(yù)測(cè)以滿足我們的期望?我們希望本文提出的見解能夠激發(fā)進(jìn)一步研究,以將MLLMs應(yīng)用于更多計(jì)算機(jī)視覺任務(wù)的革命性變革。


本文轉(zhuǎn)載自公眾號(hào)AIRoobt ,作者:AIRoobt

原文鏈接:??https://mp.weixin.qq.com/s/L9iGndBWpH8XZutDStxfKQ??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請(qǐng)注明出處,否則將追究法律責(zé)任
已于2025-3-6 09:33:13修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
一区二区三区在线免费观看视频| 国产精品久久AV无码| 麻豆传媒视频在线观看| 国内一区二区视频| 欧美成人免费一级人片100| 亚洲国产精品狼友在线观看| 91精品产国品一二三产区| 中文字幕一区二区三区不卡| 国产欧美日韩一区二区三区| 丰满人妻一区二区三区四区| 韩国自拍一区| 最近2019中文免费高清视频观看www99 | 日韩精品一区二区久久| 日韩免费视频一区| 日本www.色| 1区2区3区在线| 中文字幕一区二区三区不卡| 免费不卡亚洲欧美| 性生活三级视频| 奇米亚洲午夜久久精品| 久久久久亚洲精品国产| 国产男女猛烈无遮挡在线喷水| 美女av一区| 日韩欧美国产高清| 激情五月婷婷基地| 日韩一区二区三区免费视频| 亚洲福利国产精品| 欧美美女黄色网| 亚洲精品传媒| 欧美激情综合在线| 久久久久久国产精品mv| 国内爆初菊对白视频| 韩日精品视频一区| 国产在线999| 免费av中文字幕| 亚洲视频www| 欧美黑人xxxx| 久久久久97国产| 欧美成人中文| 另类少妇人与禽zozz0性伦| 91成人精品一区二区| 亚洲福利天堂| 亚洲免费一在线| 免费观看一级一片| 麻豆精品av| 亚洲精品电影久久久| 欧美图片自拍偷拍| 91亚洲无吗| 日韩欧美一区二区在线视频| 中文字幕人妻无码系列第三区| 四虎影视成人精品国库在线观看| 色哟哟一区二区三区| 国产成人无码一二三区视频| 美女的胸无遮挡在线观看| 精品欧美aⅴ在线网站| 久久综合色视频| 欧美日韩国产观看视频| 狠狠躁天天躁日日躁欧美| 无码精品a∨在线观看中文| 日韩伦理在线| 一本色道**综合亚洲精品蜜桃冫| 精品国产成人av在线免| 国产 日韩 欧美一区| 欧美日韩久久不卡| 国产传媒免费观看| 中文字幕视频精品一区二区三区| 日韩欧美的一区| 制服丝袜在线第一页| 奇米影视777在线欧美电影观看| 亚洲精品黄网在线观看| 人妻av无码一区二区三区| 日韩成人a**站| 久久九九亚洲综合| 日韩 欧美 精品| 视频精品一区二区| 成人免费网站在线| 亚洲黄色在线免费观看| 91丨porny丨中文| 日韩激情久久| 在线播放免费av| 天天色 色综合| 无码人妻精品一区二区三区66| 日韩一区二区三免费高清在线观看| 91精品国产91久久久久久一区二区 | xxx.xxx欧美| 色一情一伦一子一伦一区| 国内外成人免费在线视频| 日本免费一区二区三区视频| 亚洲精品久久久久久久久久久久 | 国产夫绿帽单男3p精品视频| 暴力调教一区二区三区| 日韩欧美一区二区三区四区五区| 国产在线69| 欧美日韩亚洲精品一区二区三区| 中文字幕永久视频| 动漫视频在线一区| 中文字幕在线日韩| 日韩欧美a级片| 老司机一区二区| 久久av一区二区| av在线免费网址| 欧洲亚洲精品在线| 污网站免费观看| 色97色成人| 91精品国产91久久久久久吃药 | 男男成人高潮片免费网站| 99国产在线| 岛国在线视频| 欧美日韩一区二区免费视频| 精品人妻一区二区三区免费| 精品99在线| 午夜精品一区二区三区在线视| 中文字幕一区二区三区波野结 | 日本一区二区久久精品| 日韩av毛片| 欧美日韩aaaaaa| 日韩av在线看免费观看| 亚洲高清资源| 91久久大香伊蕉在人线| 在线看免费av| 色婷婷av一区| 给我免费观看片在线电影的| 欧美二区视频| 91精品中国老女人| 91网在线播放| 欧美中文字幕一二三区视频| 人妻少妇一区二区| 亚洲一区日本| 国产一区二区无遮挡| 激情影院在线| 欧美大肚乱孕交hd孕妇| 麻豆亚洲av成人无码久久精品| 美女一区二区久久| 亚洲国产日韩美| 秋霞国产精品| 一本色道久久综合狠狠躁篇怎么玩 | 欧美日韩在线免费观看| 国产精品九九视频| 亚洲三级影院| 精品国产乱码久久久久软件| 久久免费电影| 亚洲成人国产精品| 日本在线视频免费| 97久久人人超碰| 少妇高潮喷水在线观看| 国产精品2023| 午夜精品福利在线观看| 婷婷综合激情网| 欧美日韩精品在线播放| 国产三级国产精品| 麻豆成人精品| 亚洲欧美综合一区| 欧美激情三级| 久久频这里精品99香蕉| 亚洲欧美综合一区二区| 色妞www精品视频| 少妇愉情理伦三级| 国产一区二区三区国产| 日韩一区二区高清视频| 日本成人中文| 国产精品精品视频| 女女色综合影院| 日韩欧美视频在线| 天堂网av手机版| 国产欧美精品一区| 91蝌蚪视频在线| 亚洲网址在线| 日韩欧美亚洲在线| 精品视频在线播放一区二区三区| 欧美日本黄视频| 午夜福利理论片在线观看| 色婷婷av一区二区三区之一色屋| 最新日韩免费视频| 国产成a人亚洲| 日本在线观看a| 99久久夜色精品国产亚洲96 | 亚洲人成色777777精品音频| 91高清视频在线| 波多野结衣爱爱视频| 成人免费观看男女羞羞视频| 中文字幕无码不卡免费视频| 欧美独立站高清久久| 国产高清自拍99| 欧美无毛视频| 蜜臀久久99精品久久久无需会员 | 欧美精品一区二区三区国产精品| 欧美视频久久久| 欧美日韩另类一区| 免费在线观看黄网站| 国产精品理论片| 最新版天堂资源在线| 美女视频第一区二区三区免费观看网站 | 色综合成人av| 日韩一级片在线观看| 欧美激情黑白配| 亚洲精品乱码久久久久久 | 国产探花在线精品| www.成人av| 成人国产激情| 97视频免费看| 91小视频xxxx网站在线| 亚洲欧洲午夜一线一品| 精品人妻久久久久一区二区三区| 色综合天天在线| 动漫精品一区一码二码三码四码| 欧美高清在线一区二区| 日韩av手机在线播放| 国内不卡的二区三区中文字幕 | 亚洲日韩欧美视频| 午夜精品久久久久久久99热黄桃| 欧日韩精品视频| 六月丁香在线视频| 一区二区三区中文字幕电影| 精品日韩在线视频| 久久久久高清精品| 污污内射在线观看一区二区少妇| 狠狠v欧美v日韩v亚洲ⅴ| 日本免费观看网站| 久久久精品午夜少妇| 青青草视频在线免费播放| 欧美片第1页综合| 中文字幕在线观看一区二区三区| 国产精品一在线观看| 九色视频成人porny| 粉嫩av一区二区| 超碰97在线人人| 欧美日韩黄色| 亚洲一区制服诱惑| 国产精品成人**免费视频| 国产精品揄拍500视频| 亚洲a∨精品一区二区三区导航| 91国产视频在线| 成人免费图片免费观看| 久久久久久成人| 久久久久黄久久免费漫画| 欧美区二区三区| 成年网站在线视频网站| 欧美激情影音先锋| 成人性生交大片免费看网站| 欧美激情a在线| 91福利区在线观看| 欧美精品久久久久| aa国产成人| 91高清免费在线观看| 国产夫妻在线播放| 4438全国亚洲精品在线观看视频| 久久影院午夜精品| 国产97在线|日韩| 日韩精品一区二区三区av| 国产精品久久久久秋霞鲁丝| 黄色成人小视频| 91久久国产婷婷一区二区| 久久综合给合| 国产精品一区二区av| 秋霞在线一区| 日韩影院一区| 亚洲欧美色图| 成人免费在线网| 免播放器亚洲| 另类小说色综合| 国产一区二区三区综合| 熟女人妻一区二区三区免费看| 成人av网址在线观看| 日本黄色特级片| 国产精品免费丝袜| www青青草原| 精品成人乱色一区二区| 欧美一区二区三区久久久| 欧美日本一区二区三区四区| 国产成人精品一区二三区四区五区| 亚洲成年人在线| 理论在线观看| 久热99视频在线观看| а√天堂中文在线资源8| 国产精品电影久久久久电影网| 伊人国产精品| 国产日韩欧美二区| 日本成人小视频| 国产资源在线免费观看| 青青草91视频| 韩国三级在线看| 久久久www成人免费无遮挡大片| 日本成人精品视频| 亚洲国产成人av网| 中国女人真人一级毛片| 精品少妇一区二区| www.在线视频.com| 午夜精品理论片| 伊人久久一区| 欧美高清性xxxxhd| 在线精品国产| 色婷婷综合久久久久中文字幕| 国产老女人精品毛片久久| 国产伦精品一区二区三区妓女| 国产精品久久久久永久免费观看 | 国产日本精品| 天堂av在线8| 久久精品一区蜜桃臀影院| 加勒比av在线播放| 欧美性猛交一区二区三区精品| 精品人妻午夜一区二区三区四区| 亚洲一级黄色av| 爱啪视频在线观看视频免费| 国产在线观看不卡| 美日韩中文字幕| a级黄色小视频| 国产精品伊人色| 三级黄色录像视频| 在线精品亚洲一区二区不卡| 少妇av在线播放| 欧美大片免费观看| 大胆国模一区二区三区| 亚洲国产欧美不卡在线观看| 午夜在线a亚洲v天堂网2018| 久久久无码人妻精品无码| 国产精品久久久久久久久免费相片 | 无码 人妻 在线 视频| 午夜日韩在线电影| 亚洲国产成人一区二区 | 亚洲综合视频网站| 欧美性生活一区| 青青草超碰在线| 高清一区二区三区四区五区| 日本精品视频| 日本三级中文字幕在线观看| 老司机午夜精品99久久| 老熟妇一区二区| 日韩欧美在线视频| 亚州av在线播放| 97视频在线免费观看| 国产精品流白浆在线观看| 国产成人亚洲综合无码| 国产一区二区三区香蕉| 国精品人伦一区二区三区蜜桃| 91精品91久久久中77777| 黄色在线视频观看网站| 国产999精品久久久| 九九亚洲精品| 欧美一级黄色影院| 国产日韩精品一区二区三区在线| 欧美在线观看不卡| 国产视频精品一区二区三区| 在线免费看h| 欧美区高清在线| 六月婷婷综合网| 91精品国产色综合久久不卡电影| av中文字幕在线| 国产精品嫩草影院一区二区| 精品国产一区二区三区av片| 精品久久久久久中文字幕2017| 国产午夜精品在线观看| 懂色av蜜臀av粉嫩av喷吹| 色av吧综合网| 国产精品成人3p一区二区三区| 国产成人精品免费看在线播放| 国产在线日韩欧美| 久久久精品91| 亚洲国产精品人人爽夜夜爽| 美女一区网站| 亚洲一卡二卡区| 国产精品一区二区免费不卡 | 国产专区精品视频| 91精品一区二区三区综合在线爱 | 99精品在线免费视频| 久久综合99re88久久爱| 免费视频网站在线观看入口| 色综合伊人色综合网| 精品国产欧美| 婷婷五月综合缴情在线视频| 久久久美女毛片| 国产一区二区小视频| 欧美人成在线视频| 免费av一区二区三区四区| 91高清国产视频| 午夜视频一区二区| 成a人片在线观看www视频| 97中文在线| 久久aⅴ国产紧身牛仔裤| 欧美色图17p| 精品久久久久久无| 亚洲播播91| 国产精品igao激情视频| 久久久久久久网| 国产成人免费看一级大黄| 日本乱人伦a精品| 欧美91视频| 韩国三级hd中文字幕| 日韩欧美一级二级三级久久久 | 91亚洲精品久久久| 99精品免费| 欧美性生交大片| 日韩av中文字幕在线播放| 偷拍自拍亚洲| 欧美日韩亚洲第一| 一区二区三区在线视频免费观看| 欧美18xxxxx| 国产精品久久久久久久久久久久午夜片 | 天天爱天天干天天操| 成人国产在线激情| 欧美亚洲三级|