精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

【LLM】從軟件工程視角看大語(yǔ)言模型測(cè)試

發(fā)布于 2024-6-19 11:15
瀏覽
0收藏

【LLM】從軟件工程視角看大語(yǔ)言模型測(cè)試-AI.x社區(qū)

一、結(jié)論寫(xiě)在前面

論文標(biāo)題:A Software Engineering Perspective on Testing Large Language Models: Research, Practice, Tools and Benchmarks

論文鏈接:??https://arxiv.org/pdf/2406.08216??

LLMs正迅速成為無(wú)處不在的工具,既是獨(dú)立工具,也是當(dāng)前和未來(lái)軟件系統(tǒng)的組件。為了在2030年的高風(fēng)險(xiǎn)或安全關(guān)鍵系統(tǒng)中使用LLMs,它們需要經(jīng)過(guò)嚴(yán)格的測(cè)試。軟件工程(SE)對(duì)機(jī)器學(xué)習(xí)(ML)組件和基于ML的系統(tǒng)測(cè)試的研究已經(jīng)系統(tǒng)地探討了許多主題,如測(cè)試輸入生成和魯棒性。

論文認(rèn)為,關(guān)于LLM測(cè)試相關(guān)的工具、基準(zhǔn)、研究和實(shí)踐者的觀點(diǎn)也需要進(jìn)行類(lèi)似的組織。    

為此,本文提出了一種愿景,通過(guò)軟件工程中的機(jī)器學(xué)習(xí)測(cè)試分類(lèi)法,組織和統(tǒng)一研究與工業(yè)實(shí)踐中對(duì)LLM測(cè)試的努力。論文進(jìn)行了初步研究,探討了當(dāng)前的研究方法、開(kāi)源基準(zhǔn)、測(cè)試工具以及實(shí)踐者的在線討論。

論文的研究結(jié)果回答了RQ1:大部分LLM測(cè)試研究尚未融入公開(kāi)可用的工具中以及基準(zhǔn)測(cè)試,引領(lǐng)未來(lái)的工程和研究方向。關(guān)于對(duì)RQ2的回答,論文注意到在線開(kāi)發(fā)者并未明確提及軟件工程(SE)或機(jī)器學(xué)習(xí)(ML)測(cè)試主題,但正在將SE測(cè)試技術(shù)融入其實(shí)踐中。盡管初步,這些結(jié)果顯示出利用如圖1所示的分類(lèi)法組織現(xiàn)有方法、識(shí)別差距和未來(lái)方向、促進(jìn)研究者和行業(yè)實(shí)踐者之間溝通與合作的良好前景。

論文的研究存在許多局限性:論文不僅只分析了部分基準(zhǔn)、工具和在線討論論壇,而且軟件工程的快速變化將很快使得論文基于2024年3月的快照及其結(jié)論過(guò)時(shí)。

二、論文的簡(jiǎn)答介紹

2.1 論文的背景

鑒于LMs作為軟件系統(tǒng)組件的使用日益增加,如何指定這些系統(tǒng)的預(yù)期屬性(例如,正確性或公平性)并有效地測(cè)試它們變得非常重要。鑒于LMs迅速成為關(guān)注焦點(diǎn),LLM測(cè)試方法和實(shí)踐中的成功和缺口尚未以清晰、原則性和全面的方式進(jìn)行系統(tǒng)化,導(dǎo)致在實(shí)踐中應(yīng)用它們的困難。

論文的愿景。當(dāng)前關(guān)于LLM測(cè)試的研究和工業(yè)實(shí)踐應(yīng)通過(guò)軟件工程(SE)的視角進(jìn)行組織,即圍繞SE中機(jī)器學(xué)習(xí)測(cè)試的主題組織現(xiàn)有方法。這種組織應(yīng)有助于識(shí)別差距并促進(jìn)利益相關(guān)者之間的溝通,包括LLM測(cè)試研究人員、工具開(kāi)發(fā)者及用戶(hù)。最終,這應(yīng)有助于到2030年,在高度風(fēng)險(xiǎn)領(lǐng)域中更安全地使用LLMs。

為了驗(yàn)證論文的愿景,論文進(jìn)行了一項(xiàng)初步研究,探討了當(dāng)前的LLM測(cè)試研究方法、基準(zhǔn)、測(cè)試工具及工業(yè)實(shí)踐,旨在回答兩個(gè)研究問(wèn)題:(RQ1) 當(dāng)前開(kāi)源基準(zhǔn)、工具及在線討論涉及的LLM測(cè)試研究主題在機(jī)器學(xué)習(xí)測(cè)試分類(lèi)法中的覆蓋程度如何?(RQ2) 哪些剩余的差距阻礙了實(shí)踐者有效地應(yīng)用LLM測(cè)試研究?    

【LLM】從軟件工程視角看大語(yǔ)言模型測(cè)試-AI.x社區(qū)

圖1: SE中的ML測(cè)試分類(lèi)[51],增加了LLM特定主題

2.2 LLM測(cè)試研究

這里論文通過(guò)圖1中的LLM測(cè)試研究擴(kuò)展了論文的分類(lèi)法。由于基于LLM的研究最近急劇增加,論文選擇了兩篇最新的關(guān)于LLM評(píng)估的綜合文獻(xiàn)綜述。    

由LLM研究涵蓋的ML測(cè)試主題。LLM研究已經(jīng)探討了幾個(gè)ML測(cè)試主題,如圖1中藍(lán)色輪廓所示。對(duì)于測(cè)試工作流程,基于LLM的應(yīng)用程序通常通過(guò)基準(zhǔn)、合成數(shù)據(jù)和人工注釋進(jìn)行評(píng)估,這些對(duì)應(yīng)于測(cè)試輸入和oracle生成。與ML測(cè)試不同,現(xiàn)有的LLM評(píng)估工作主要集中在學(xué)習(xí)程序測(cè)試上,即測(cè)試訓(xùn)練過(guò)的LLMs,并且主要針對(duì)其特定應(yīng)用進(jìn)行測(cè)試,例如自然語(yǔ)言處理、推理、醫(yī)療用途等。

LLM研究探討的測(cè)試屬性包括魯棒性、公平性和可信度。已經(jīng)表明,LLMs可以制造聽(tīng)起來(lái)合理的虛假信息,即“幻覺(jué)”。因此,正確性測(cè)試還檢查模型輸出是否嚴(yán)格遵循事實(shí)信息。為此開(kāi)發(fā)了幾種技術(shù),包括事實(shí)一致性測(cè)試、基于不確定性的測(cè)試和黑盒測(cè)試。在機(jī)器翻譯中,幻覺(jué)也是一種研究過(guò)的故障模式,“其中翻譯在語(yǔ)法上是正確的,但與源句無(wú)關(guān)”。這個(gè)定義與LLMs上下文中的幻覺(jué)略有不同,其中沒(méi)有源句,生成文本的真實(shí)性是主要關(guān)注點(diǎn)。

新增條目:LLM特定主題。除了“通用”ML測(cè)試主題研究外,在LM測(cè)試中還探索了LLM特定的主題,如圖1中藍(lán)色文本所示。首先,由于LLMs的能力適合于大量任務(wù),LLMs已被測(cè)試其正確性、魯棒性、公平性、可信度。此外,LLMs已被部署在包括醫(yī)學(xué)和社會(huì)科學(xué)在內(nèi)的各種其他領(lǐng)域,或其他特定應(yīng)用,如個(gè)性測(cè)試[4]。

結(jié)論。針對(duì)RQ1,論文的初步審查表明,多個(gè)軟件工程(SE)測(cè)試主題與大型語(yǔ)言模型(LLM)測(cè)試研究相關(guān),但尚未得到充分關(guān)注。

效度威脅。論文僅查看了兩篇文獻(xiàn)綜述,盡管它們?cè)谧珜?xiě)時(shí)是全面且近期的。

2.3 LLM評(píng)估基準(zhǔn)

在LLM研究中,評(píng)估主要依賴(lài)于基準(zhǔn)。流行的LLM如GPT-4和Gemini使用多個(gè)基準(zhǔn)來(lái)傳達(dá)和比較它們?cè)趶V泛任務(wù)和領(lǐng)域中的性能。這里論文分析了OpenCompass GitHub倉(cāng)庫(kù),這是一個(gè)包含76個(gè)公開(kāi)可用基準(zhǔn)的流行集合,旨在識(shí)別未充分探索的LLM測(cè)試主題。OpenCompass被選為GitHub上搜索“l(fā)lm evaluation”時(shí)星標(biāo)最高的LLM基準(zhǔn)倉(cāng)庫(kù)。

基準(zhǔn)覆蓋。研究的基準(zhǔn)包括通用基準(zhǔn),例如為通用語(yǔ)言理解開(kāi)發(fā)的SQuAD2.0 ,特定任務(wù)的基準(zhǔn),例如為醫(yī)療應(yīng)用開(kāi)發(fā)的CMB ,以及涉及圖像和文本的多模態(tài)基準(zhǔn),例如用于視覺(jué)語(yǔ)言模型的MMBench 。    

在76個(gè)基準(zhǔn)中,有74個(gè)用于測(cè)試模型在不同能力上的正確性,包括數(shù)學(xué)推理、內(nèi)容摘要和代碼生成 。剩余的兩個(gè)基準(zhǔn),CrowS-Pairs 和 AdvGLUE ,分別測(cè)試模型的公平性和魯棒性。某些基準(zhǔn),如SciBench 、HumanEval 和 CMB ,可用于評(píng)估模型與特定應(yīng)用場(chǎng)景的相關(guān)性。集合中沒(méi)有專(zhuān)門(mén)針對(duì)隱私、安全性、效率或可解釋性的基準(zhǔn)。某些應(yīng)用,例如開(kāi)放式聊天機(jī)器人,要求LLM在廣泛的任務(wù)上進(jìn)行測(cè)試,以查看其響應(yīng)情況。OpenCompass中的復(fù)合基準(zhǔn),如MMBench 和 SummEdits ,是不同任務(wù)特定基準(zhǔn)的集合,旨在解決這一挑戰(zhàn)。通過(guò)提供一致的測(cè)試框架 ,復(fù)合基準(zhǔn)允許實(shí)踐者和研究人員理解LLM模型與開(kāi)放式應(yīng)用的相關(guān)性。

結(jié)論。論文對(duì)OpenCompass的分析確定,幾乎所有基準(zhǔn)都致力于測(cè)試模型的正確性和與特定應(yīng)用領(lǐng)域的相關(guān)性。盡管需要更多工作來(lái)增加其采用和覆蓋范圍,但OpenCompass之外確實(shí)存在用于隱私、安全性、魯棒性、效率、可解釋性和公平性的基準(zhǔn)。為了回答RQ1,基準(zhǔn)本身充分覆蓋了ML測(cè)試分類(lèi)法中的少數(shù)主題。

有效性威脅。論文僅考慮了一個(gè)基準(zhǔn)集合。它是GitHub上迄今為止最受歡迎的,因此代表了當(dāng)前針對(duì)LLM測(cè)試的基準(zhǔn)實(shí)踐狀態(tài)。OpenCompass專(zhuān)注于通用LLM能力,因此未考慮專(zhuān)注于特定用例的基準(zhǔn),如CodeXGLUE [24]。

2.4 開(kāi)源測(cè)試工具

開(kāi)源工具為實(shí)踐者提供了接觸研究中確立的測(cè)試技術(shù)的機(jī)會(huì)。這里論文將開(kāi)源工具的功能與論文的分類(lèi)法(圖1)中概述的主題相對(duì)應(yīng),以確定在實(shí)踐中應(yīng)用LLM測(cè)試研究的差距。

工具選擇。為了識(shí)別實(shí)踐者常用的開(kāi)源測(cè)試工具,論文在Github上搜索了“l(fā)lm evaluation”,并根據(jù)GitHub星數(shù)對(duì)結(jié)果進(jìn)行排名,這表明了實(shí)踐者的興趣和使用情況。論文僅考慮專(zhuān)注于測(cè)試和評(píng)估的倉(cāng)庫(kù),排除了模型庫(kù)、運(yùn)行基準(zhǔn)測(cè)試的工具以及其他沒(méi)有突出測(cè)試包的LLM倉(cāng)庫(kù)。論文還限制了分析范圍,僅限于適用于各種LLM部署(如總結(jié)、問(wèn)答和文本生成)的文本輸入、文本輸出應(yīng)用程序的通用工具。搜索結(jié)果顯示有八個(gè)LLM測(cè)試倉(cāng)庫(kù)擁有超過(guò)1000顆星和適當(dāng)?shù)奈臋n,其中三個(gè)僅包含其他倉(cāng)庫(kù)實(shí)現(xiàn)的功能,因此被排除。表1列出了選定的五個(gè)工具及其所涉及的分類(lèi)法主題(見(jiàn)圖1)。

開(kāi)源工具的優(yōu)勢(shì)。所有研究的工具都解決了測(cè)試預(yù)言的識(shí)別和正確性測(cè)試問(wèn)題,如圖1中綠色部分所示。測(cè)試預(yù)言一直是許多開(kāi)源工具的共同關(guān)注點(diǎn),包括正則表達(dá)式或其他簡(jiǎn)單的字符串匹配函數(shù)[7, 34]。    

此外,大型語(yǔ)言模型(LLMs)或檢索增強(qiáng)生成(RAG)系統(tǒng)已被用作測(cè)試預(yù)言來(lái)測(cè)試LLMs,例如“LLM作為評(píng)判者”或“GEval”。對(duì)測(cè)試預(yù)言的關(guān)注源于LLMs的輸入和輸出由不受限制的自然語(yǔ)言文本組成。這使得識(shí)別正確輸出的任務(wù)轉(zhuǎn)變?yōu)樽匀徽Z(yǔ)言理解挑戰(zhàn),涉及解釋輸出是否傳達(dá)了預(yù)期的意義。在正確性方面,根據(jù)系統(tǒng)要求,LLM的輸出可能因多種微妙的原因而被視為不正確。例如,由于禮貌和事實(shí)準(zhǔn)確性對(duì)客戶(hù)服務(wù)LLM的正確性都很重要,因此既有效又粗魯?shù)捻憫?yīng),或禮貌但錯(cuò)誤的響應(yīng)都被視為不正確。已經(jīng)實(shí)施了測(cè)試來(lái)檢查響應(yīng)是否包含特定的、事實(shí)性的信息且沒(méi)有幻覺(jué)。此外,還有專(zhuān)門(mén)用于檢查抽象寫(xiě)作屬性的測(cè)試,如“簡(jiǎn)潔”、“無(wú)爭(zhēng)議”或“敏感”。最后,有測(cè)試檢查輸出是否符合指定的結(jié)構(gòu)和格式,例如JSON。

開(kāi)源工具的差距。幾個(gè)研究主題未被任何研究過(guò)的工具解決。論文在表1中用空圈表示它們。其中,模型相關(guān)性已通過(guò)基準(zhǔn)測(cè)試解決。盡管具有數(shù)百萬(wàn)參數(shù)的LLMs的推理非常昂貴,但沒(méi)有任何調(diào)查的工具實(shí)現(xiàn)了優(yōu)先處理測(cè)試或跳過(guò)冗余測(cè)試的基礎(chǔ)設(shè)施。

因此,對(duì)于LLMs的測(cè)試簡(jiǎn)化和優(yōu)先級(jí)排序仍然是未來(lái)研究和發(fā)展的一個(gè)有前景的領(lǐng)域。此外,LLMs的原始訓(xùn)練語(yǔ)料庫(kù)通常對(duì)LLM實(shí)踐者來(lái)說(shuō)是未知的,并且據(jù)推測(cè)規(guī)模巨大,這為數(shù)據(jù)、學(xué)習(xí)程序和框架測(cè)試帶來(lái)了挑戰(zhàn)。盡管如此,LLM實(shí)踐者和研究人員仍然可以通過(guò)測(cè)試調(diào)試LLMs并通過(guò)微調(diào)修復(fù)錯(cuò)誤,無(wú)論是通過(guò)API還是本地使用定制的語(yǔ)料庫(kù)和學(xué)習(xí)程序。然而,這些工作流程并未被論文研究的任何工具實(shí)現(xiàn),因此是未來(lái)工作的重要方向。

結(jié)論。通過(guò)將開(kāi)源工具映射到分類(lèi)法中的主題,論文發(fā)現(xiàn)測(cè)試預(yù)言的識(shí)別和正確性得到了開(kāi)源工具的良好解決,盡管對(duì)于不同任務(wù)的不同測(cè)試預(yù)言之間的比較尚未進(jìn)行。此外,大多數(shù)其他ML測(cè)試主題仍未得到解決,即調(diào)試和修復(fù)、測(cè)試優(yōu)先級(jí)和簡(jiǎn)化、測(cè)試充分性生成、框架測(cè)試、學(xué)習(xí)程序測(cè)試、數(shù)據(jù)測(cè)試以及模型相關(guān)性。為了回答RQ1和RQ2,開(kāi)源工具僅覆蓋了ML測(cè)試分類(lèi)法中主題的一小部分,這種工具的缺乏直接阻礙了從業(yè)者有效應(yīng)用LM測(cè)試研究。

效度威脅。論文的工具調(diào)查僅包括了當(dāng)今最流行的五種工具,這些工具是通過(guò)在GitHub上的一次搜索查詢(xún)選出的,因此顯然是不完整的。此外,工具的功能完全基于文檔確定,這可能與徹底的實(shí)驗(yàn)和代碼審查相比提供有限的見(jiàn)解。  

2.5 LLM測(cè)試的實(shí)踐

這里論文通過(guò)分析在線論壇上與測(cè)試相關(guān)的討論,來(lái)考察LLM測(cè)試在實(shí)踐中的應(yīng)用。通過(guò)比較討論內(nèi)容與論文的分類(lèi)法和測(cè)試工具的主題,論文識(shí)別出當(dāng)前測(cè)試實(shí)踐中的潛在差距。

數(shù)據(jù)。論文專(zhuān)注于Reddit,這是最受歡迎的在線論壇之一,因?yàn)槠渥诱搲菑V泛使用且面向廣泛受眾的問(wèn)題導(dǎo)向型論壇。

具體而言,論文選擇了子論壇r/LocalLlama,因?yàn)樗鼘?zhuān)注于LLMs且在該網(wǎng)站上頗受歡迎——自2023年3月創(chuàng)建以來(lái),它已成為論壇上最受歡迎的子論壇之一,排名位于前五百分位。從Academic Torrents[39, 48]收集了自2023年3月至2024年1月的子論壇提交內(nèi)容及其相應(yīng)評(píng)論。為了描述平臺(tái)上的對(duì)話,論文將提交內(nèi)容和評(píng)論結(jié)合起來(lái),使得分析單元如表1所示:涵蓋ML測(cè)試不同主題的開(kāi)源工具。2024年3月分析的工具,覆蓋范圍基于工具的官方文檔。這是一個(gè)子論壇帖子。最終數(shù)據(jù)集包含15,209個(gè)提交和11,377條評(píng)論,涵蓋了該子論壇的11,344個(gè)帖子(提交及其對(duì)應(yīng)的評(píng)論)。

表1:涵蓋ML測(cè)試不同主題的開(kāi)源工具

【LLM】從軟件工程視角看大語(yǔ)言模型測(cè)試-AI.x社區(qū)

測(cè)試相關(guān)關(guān)鍵詞。為了探究來(lái)自不同背景的子論壇用戶(hù)如何討論大型語(yǔ)言模型(LLM)的測(cè)試,論文首先在數(shù)據(jù)中搜索與軟件系統(tǒng)測(cè)試、機(jī)器學(xué)習(xí)、LLMs以及表1中列出的測(cè)試工具名稱(chēng)相關(guān)聯(lián)的關(guān)鍵詞。這些關(guān)鍵詞來(lái)源于相應(yīng)的文獻(xiàn),因此與圖1中提出的分類(lèi)法有所不同。表3報(bào)告了在數(shù)據(jù)中發(fā)現(xiàn)的測(cè)試特定關(guān)鍵詞的頻率和百分比。與測(cè)試相關(guān)的關(guān)鍵詞大約出現(xiàn)在總帖子的0.8%中。

接下來(lái),“單元測(cè)試”(N=38)和“毒性”(N=29)是最常被討論的測(cè)試關(guān)鍵詞,而其他傳統(tǒng)軟件(例如,“測(cè)試預(yù)言”(N=0),“功能測(cè)試”(N=0))和機(jī)器學(xué)習(xí)(例如,“對(duì)抗性攻擊”(N=5),“對(duì)抗性示例”(N=0))測(cè)試關(guān)鍵詞在數(shù)據(jù)中出現(xiàn)的頻率不到0.05%,如果存在的話。表1中的測(cè)試工具同樣在子論壇用戶(hù)中不受歡迎,總共出現(xiàn)在不到0.02%的數(shù)據(jù)中。    

討論分析。為了更好地刻畫(huà)與測(cè)試相關(guān)的對(duì)話,論文進(jìn)行了語(yǔ)義主題分析,以識(shí)別和分析包含測(cè)試相關(guān)關(guān)鍵詞的數(shù)據(jù)中的模式、主題和見(jiàn)解。這些對(duì)話的質(zhì)量在帖子之間有所不同,范圍從對(duì)測(cè)試的一般討論到實(shí)際操作中的特定方法。論文注意到,前者在“毒性”方面尤為明顯,這在討論有毒或偏見(jiàn)的模型輸出和新發(fā)布模型的性能報(bào)告中經(jīng)常被提及。

相比之下,關(guān)于單元測(cè)試的討論顯得更具操作性,許多用戶(hù)報(bào)告了他們個(gè)人開(kāi)發(fā)的測(cè)試,用以評(píng)估模型或文獻(xiàn)中報(bào)告的測(cè)試。盡管單元測(cè)試在子論壇上相對(duì)流行,但似乎缺乏關(guān)于如何實(shí)際測(cè)試大型語(yǔ)言模型(LLMs)的一致指導(dǎo)或步驟。例如,在回應(yīng)一個(gè)帖子“提示工程似乎像猜測(cè)工作 - 如何正確評(píng)估LLM應(yīng)用?”時(shí),一些用戶(hù)指出使用單元測(cè)試等方法,而其他用戶(hù)則報(bào)告了他們獨(dú)立開(kāi)發(fā)的流程。例如,表2的A面板中引述了一種結(jié)合用戶(hù)評(píng)估的組合測(cè)試方法。相反,B面板突出了一種由另一用戶(hù)開(kāi)發(fā)的層次化方法,該方法似乎借鑒了軟件工程。

表2:來(lái)自r/LocalLama的示例引述

【LLM】從軟件工程視角看大語(yǔ)言模型測(cè)試-AI.x社區(qū)

結(jié)論 在r/LocalLlama上觀察到的許多方法的新穎性表明,軟件工程(SE)和機(jī)器學(xué)習(xí)(ML)方法在測(cè)試大型語(yǔ)言模型(LLMs)方面具有實(shí)用性,同時(shí)也揭示了理論與實(shí)踐之間可能存在的差異。

除了明確借鑒單元測(cè)試和集成測(cè)試等方法來(lái)測(cè)試LLMs外,用戶(hù)提出的方法具有即興和實(shí)驗(yàn)性質(zhì)。有趣的是,論文注意到討論中并未明確引用SE或ML術(shù)語(yǔ)。因此,所述的測(cè)試方法與學(xué)術(shù)文獻(xiàn)及表1中的測(cè)試工具存在差異。論文的研究結(jié)果顯示,研究與實(shí)踐之間存在較大鴻溝,這強(qiáng)調(diào)了研究者與實(shí)踐者之間加強(qiáng)溝通的必要性。    

效度威脅。對(duì)r/LocalLama子論壇的分析是對(duì)LLM測(cè)試用戶(hù)討論的初步考察。具體而言,分析中使用的搜索詞有限,可能導(dǎo)致遺漏與測(cè)試討論相關(guān)的關(guān)鍵字。此外,子論壇上的用戶(hù)群體多樣,可能不完全代表活躍在測(cè)試領(lǐng)域的專(zhuān)業(yè)人士,從而影響研究結(jié)果的普遍性。

表3:數(shù)據(jù)中關(guān)鍵詞的頻率與比例

【LLM】從軟件工程視角看大語(yǔ)言模型測(cè)試-AI.x社區(qū)

本文轉(zhuǎn)載自 ??AI帝國(guó)??,作者: 無(wú)影寺

收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
国产欧美日韩专区发布| 亚洲欧美日韩一区二区三区在线| 黄色a级在线观看| 国产人妖一区二区三区| 激情综合中文娱乐网| 亚洲电影免费观看高清完整版在线 | 久久一区二区三区四区| 国产精品狼人色视频一区| 91香蕉视频在线播放| 99这里只有精品视频| 色综合一区二区| 日韩国产精品毛片| 日本网站免费在线观看| 手机免费看av| 欧美视频第一| 婷婷久久综合九色综合绿巨人| 秋霞毛片久久久久久久久| 国产精品一级二级| 久久av最新网址| 久久成年人视频| 日本黄色片在线播放| 日韩综合av| 欧美性精品220| 真人做人试看60分钟免费| 欧美日韩免费做爰大片| 国产麻豆9l精品三级站| 国产精品成人一区二区三区吃奶| 精品97人妻无码中文永久在线| 国内成人精品| 亚洲高清色综合| 999热精品视频| 91av一区| 一本大道久久a久久综合| 国产黄色激情视频| 黄色动漫在线观看| 国产欧美日韩综合精品一区二区| 国产精品久久久久久久小唯西川| 亚洲系列第一页| 视频在线观看一区| 欧美影院久久久| 久久精品国产亚洲av麻豆色欲 | 少妇免费毛片久久久久久久久| 亚洲av无码一区二区三区性色| 捆绑调教一区二区三区| 国产mv免费观看入口亚洲| 久久精品国产亚洲av无码娇色| 国产精品久久久久9999赢消| 国产一区二区三区在线看 | 看黄色一级大片| 国产亚洲高清视频| 久久久久久中文| 欧美国产在线看| 欧美成人一区二免费视频软件| 色小说视频一区| 在线免费观看视频| 欧美日韩亚洲在线观看| 亚洲片在线观看| 婷婷色一区二区三区| 五月国产精品| 亚洲系列中文字幕| 在哪里可以看毛片| 国产精品免费99久久久| 亚洲人成网站色ww在线| 亚洲日本精品视频| 欧美精品一二| 中文字幕在线看视频国产欧美在线看完整| b站大片免费直播| 精品色999| 中文字幕在线亚洲| 51精品免费网站| 韩国av一区| 久久人人爽国产| 在线观看亚洲天堂| 免费亚洲一区| 国产欧美一区二区| 99国产在线播放| 成人午夜电影小说| 久久99精品久久久久久三级| 日韩专区一区二区| 国产精品素人视频| 欧美与动交zoz0z| 国产污视频在线播放| 日本大香伊一区二区三区| 污污网站免费观看| 疯狂欧洲av久久成人av电影| 精品久久久久久无| 魔女鞋交玉足榨精调教| 日本一区二区免费高清| 久久中文字幕在线| 日韩免费av片| 日本最新不卡在线| 91免费人成网站在线观看18| 韩国av免费在线| 久久精品夜色噜噜亚洲a∨| 亚洲国产婷婷香蕉久久久久久99| 黄色片网站在线观看| 精品国产成人av| 国产免费又粗又猛又爽| 日韩一区二区三区精品| 亚洲精品一区中文字幕乱码| 999精品视频在线观看播放| 欧美色123| 国产精品美女久久久久久免费| 国产精品久久久久久久免费看| 91一区一区三区| 伊人婷婷久久| 性欧美18~19sex高清播放| 欧美日韩一区二区不卡| 丰满岳乱妇一区二区 | 国产精品亚洲人在线观看| 狠狠色综合色区| 高清免费电影在线观看| 色婷婷久久久综合中文字幕| 91丨porny丨九色| 精品国产一区二区三区小蝌蚪| 另类专区欧美制服同性| 中文字幕免费观看| 国产999精品久久| 亚洲免费久久| 97se综合| 亚洲国产精品大全| 成人免费视频国产免费观看| 老鸭窝毛片一区二区三区| 亚洲最大的网站| melody高清在线观看| 精品久久久久久国产| 奇米777在线| 999精品视频| 日本精品一区二区三区在线播放视频 | yy6080午夜| 欧美激情视频一区二区三区在线播放| 国产精品96久久久久久| 天堂在线观看视频| 亚洲一区二区3| 午夜免费视频网站| 亚洲成人精品| 国产日韩在线亚洲字幕中文| 激情综合闲人网| 欧美性色xo影院| 欧美xxxxx精品| 亚洲午夜电影| 成人欧美一区二区| bestiality新另类大全| 欧美日本在线看| 欧美xxxx精品| 美女脱光内衣内裤视频久久网站| 欧洲精品一区色| 免费日韩电影| 国产视频精品免费播放| 日韩欧美视频在线免费观看| 丁香婷婷综合网| 免费观看亚洲视频| 91精品导航| 欧美激情在线一区| 午夜精品在线播放| 亚洲自拍偷拍网站| 久久久精品人妻一区二区三区| 午夜精品一区二区三区国产| 国产专区欧美专区| 国产精品扒开做爽爽爽的视频| 欧美日精品一区视频| 天天舔天天操天天干| 免费看欧美美女黄的网站| 先锋影音亚洲资源| 日韩成人精品一区二区三区| 自拍偷拍免费精品| 国产又粗又黄视频| 亚洲黄色免费电影| 无码国产69精品久久久久网站| 在线日韩av| 久久伊人一区| 久久精品国产福利| 久久国产精品久久久久久| 亚洲高清精品视频| 精品久久久久久久久久ntr影视| 最近中文字幕无免费| 久久精品亚洲| 亚洲一区二区在线观| 国产一区二区| 91精品国产一区| 精品三级久久久久久久电影聊斋| 欧美亚洲国产一区二区三区va| 永久av免费网站| 成人夜色视频网站在线观看| 国产伦精品一区二区三区四区视频_ | 欧美三级欧美一级| 成人性生活毛片| 91在线你懂得| 成 人 黄 色 小说网站 s色| 欧美日韩调教| 日韩av影视| 欧美视频三区| 欧美中文字幕在线| 日本高清视频在线播放| 欧美精品一区二区三区一线天视频| 国产精品999在线观看| 国产精品麻豆欧美日韩ww| 97人人模人人爽人人澡| 亚洲影院在线| 午夜啪啪福利视频| 亚洲春色h网| 91欧美精品午夜性色福利在线| 91吃瓜在线观看| 中文字幕精品av| 天天操天天干天天操| 欧美三级午夜理伦三级中视频| 久久久精品国产sm调教| 中文字幕不卡在线观看| 99精品一区二区三区无码吞精| 日本欧美在线看| 久久久久久久久久网| 欧美好骚综合网| 欧美动漫一区二区| 亚洲五码在线| 国产精品日韩在线播放| 国产精品一二三产区| 久久影视电视剧免费网站| 免费毛片在线| 精品少妇一区二区三区免费观看| 欧美日韩在线视频播放| 五月天中文字幕一区二区| 久久精品一区二区三区四区五区| 久久人人爽爽爽人久久久| 亚洲成人精品在线播放| 九九九久久久精品| 老熟妇仑乱视频一区二区| 亚洲精选成人| 精品一区二区三区无码视频| 婷婷亚洲综合| 亚洲欧美日韩国产yyy| 亚洲人成网亚洲欧洲无码| 国产精品久久精品国产| 嫩呦国产一区二区三区av| 国产精品日韩精品| 少妇精品视频一区二区免费看| 国内精品久久久久久久久| 午夜老司机在线观看| 亚洲人成啪啪网站| 三级毛片在线免费看| 亚洲成人精品在线| 亚洲精品第五页| 欧美mv和日韩mv国产网站| 国产男男gay网站| 91精品国产美女浴室洗澡无遮挡| 中文字幕在线观看你懂的| 在线看日韩精品电影| aaaaaa毛片| 色猫猫国产区一区二在线视频| 天天干在线播放| 色综合激情久久| 成人h动漫精品一区二区下载| 狠狠久久亚洲欧美专区| 看片网址国产福利av中文字幕| 精品久久久中文| 天天干天天干天天| 色综合中文字幕| 国产情侣免费视频| 欧美亚洲日本国产| 91精品国产综合久| 4438成人网| 国产伦精品一区二区三区免.费| 91麻豆精品国产91久久久使用方法 | 亚洲熟女一区二区三区| 成人av电影免费观看| 午夜免费福利影院| 91香蕉视频mp4| 手机看片福利视频| 亚洲国产成人午夜在线一区| 最新日韩免费视频| 亚洲精品少妇30p| 欧美成人aaaaⅴ片在线看| 激情懂色av一区av二区av| 亚洲欧美自拍视频| 精品视频色一区| 国产99对白在线播放| 亚洲变态欧美另类捆绑| 日韩av成人| 色一情一乱一区二区| 91麻豆免费在线视频| 久久久之久亚州精品露出| 中文在线资源| 成人在线小视频| 成人福利一区| 日韩激情久久| 欧美福利电影在线观看| 欧美亚洲日本一区二区三区| 老妇喷水一区二区三区| 日本黄色福利视频| 成人激情免费电影网址| 精品人妻无码一区二区三区换脸| 国产精品乱码久久久久久| 国产在线综合网| 欧美三级在线播放| 神马午夜电影一区二区三区在线观看| 亚洲乱码一区av黑人高潮| 毛片免费不卡| 91po在线观看91精品国产性色| 成人亚洲视频| 国产乱码精品一区二区三区不卡| 国产麻豆一区二区三区精品视频| 懂色av一区二区三区四区五区| 一区二区高清| 免费成人黄色大片| www激情久久| 日韩一区二区三区四区在线| 一本久久精品一区二区| a在线观看视频| 中文字幕亚洲综合| 国产在线美女| 97久久精品午夜一区二区| 免费一区二区| 欧日韩免费视频| 精品一区二区三区香蕉蜜桃| 少妇精品一区二区三区| 亚洲最大的成人av| 一级做a爰片久久毛片16| 亚洲精品美女在线观看| 影院在线观看全集免费观看| 国产精品扒开腿做| 麻豆成人入口| 黄色成人在线免费观看| 人妖欧美一区二区| 国精品无码人妻一区二区三区| 亚洲一区免费视频| 国产精品一区二区三区在线免费观看| 亚洲欧美制服综合另类| 91超碰在线免费| αv一区二区三区| 中文无码久久精品| 无尽裸体动漫2d在线观看| 国产人成一区二区三区影院| 午夜影院免费在线观看| 精品sm在线观看| 手机在线免费av| 91在线观看免费网站| 久久免费大视频| 久久综合伊人77777麻豆最新章节| 91一区二区在线观看| 久久夜靖品2区| 亚洲第一区中文字幕| 天堂av中文在线| 51国偷自产一区二区三区| 国产精品久久久久久久| 九九热免费在线观看| 国产精品白丝在线| 中文字幕一区二区三区免费看 | 2019国产精品视频| 一区二区在线影院| 黄色片免费网址| 一区二区在线看| www.成人在线观看| 欧美日韩福利电影| 大桥未久女教师av一区二区| 国产日韩亚洲欧美在线| www.日韩大片| 麻豆久久久久久久久久| 精品中文字幕久久久久久| 少妇一区视频| 亚洲精品高清国产一线久久| 免费成人av在线播放| 国产性生活大片| 欧美白人最猛性xxxxx69交| 男女免费观看在线爽爽爽视频| 国产精品久久久对白| 99国产精品久久久久久久| 精品人妻一区二区三区日产乱码卜| 岛国av一区二区三区| 国产露出视频在线观看| 国产精品欧美日韩久久| 一区二区不卡| 国产精品成人无码专区| 欧美日韩黄色大片| 成人精品一区二区三区校园激情 | 日韩国产在线不卡视频| 精品无码国产一区二区三区av| www..com久久爱| 欧美亚洲另类小说| 日日摸夜夜添一区| 欧美影院精品| 国产在线观看福利| 国产精品初高中害羞小美女文| 国产人妖一区二区| 91极品女神在线| 日韩片欧美片| 中文字幕一二三区| 欧美性猛交xxxx免费看| 91在线不卡| 国产精品日韩二区| 日韩高清一级片| 欧美成欧美va| 亚洲男人天堂视频| 国产精品一区二区三区av | 欧美hdxxxxx| 日本不卡二区| 国产成人av在线影院| 国产嫩bbwbbw高潮| 久久99久久亚洲国产| 九九久久婷婷| 国产又粗又猛又爽又黄| 在线观看一区二区精品视频|