精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

警惕大型語言模型評估中的不可靠數據——基于Flan-T5的提示選擇案例研究

譯文 精選
人工智能
本文通過基于谷歌Flan-T5大型語言模型的提示選擇案例研究指出,在大型語言模型評估中存在不可靠數據;除非清潔測試數據,否則可能會為大型語言模型選擇次優提示方案(或通過模型評估做出其他次優選擇)。

譯者 | 朱先忠

審校 | 重樓

引言

可靠的模型評估是MLOP和LLMops的核心,負責指導關鍵決策,如部署哪個模型或提示符(以及是否部署)。在本文中,我們使用各種提示關鍵詞來提示Google Research的FLAN-T5大型語言模型,試圖將文本分類為禮貌或不禮貌兩個類型

在提示候選中,我們發現,根據觀察到的測試準確性,看起來表現最好的提示實際上往往比其他提示候選詞還差。對測試數據的仔細審查表明,這是由于不可靠的注釋造成的。因此,在現實世界的應用程序中,您可能會為大型語言模型選擇次優提示(或在模型評估的指導下做出其他次優選擇),除非您清理測試數據以確保其可靠

選擇好的提示詞對于確保大型語言模型的準確響應至關重要選擇好的提示詞對于確保大型語言模型的準確響應至關重要

雖然噪聲注釋的危害在訓練數據中得到了很好的表征,但本文在測試數據中展示了它們經常被忽視的后果。

我目前的職務是Cleanlab的數據科學家,我很高興能與大家分享高質量測試數據的重要性,以確保最佳大型語言模型的提示選擇。

概述

你可以在鏈接處下載本文有關測試數據。

本文研究了斯坦福禮貌數據集二元分類變體(在CC BY許可證v4.0下使用),其中的文本短語被標記為禮貌或不禮貌兩種類型。我們使用包含700個短語的固定測試數據集來評估模型。

顯示文本和基本事實禮貌標簽的數據集快照顯示文本和基本事實禮貌標簽的數據集快照

標準做法是通過對照給定標簽來評估分類模型的“好”的程度,例如模型在訓練過程中沒有看到的例子,通常被稱為“測試”、“評估”或“驗證”數據。這提供了一個數字指標來衡量模型A與模型B的優劣——如果模型A顯示出更高的測試精度,我們估計它是更好的模型,并會選擇將其部署在模型B之上。除了模型選擇之外,相同的決策框架還可以應用于其他選擇,如是否使用:超參數設置A或B、提示A或B,特征集A或B等。

真實世界測試數據中的一個常見問題是,一些例子的標簽是不正確的,無論是由于人為注釋錯誤、數據處理錯誤還是由于傳感器噪聲等因素導致。在這種情況下,測試準確性成為模型A和模型B之間相對性能的不太可靠的指標。讓我們用一個非常簡單的例子來說明這一點。想象一下,你的測試數據集中存在兩個不禮貌的文本示例,但在不知不覺中,它們被(錯誤地)標記為禮貌”類型。例如,在我們的斯坦福禮貌數據集中,我們看到一個真正的人類注釋者錯誤地將“你現在瘋了嗎?!到底發生了什么?”Are you crazy down here?! What the heck is going on?這段文字標記為禮貌”(polite)類型,而語言表達顯然很激動

現在,您的工作是選擇最佳模型來對這些示例進行分類。模型A指出兩個實例都是不禮貌的,模型B指出兩個實例都是禮貌的。基于這些(不正確的)標簽,模型A得分為0%,而模型B得分為100%——你選擇模型B進行部署!但請稍一下再想想:到底哪種模型實際上更強一些呢

盡管上述類似影響微不足道,而且許多人都意識到現實世界的數據充滿了標簽錯誤,但人們往往只關注訓練數據中的噪聲標簽,忘記了仔細策劃測試數據——即使當其指導了關鍵決策的時候。本文使用真實數據說明了高質量測試數據在指導大型語言模型提示選擇方面的重要性,并展示了一種通過算法技術輕松提高數據質量的方法。

觀察測試精度與清潔測試精度

在這里,我們考慮由同一組文本示例構建的兩個可能的測試集,它們只在某些(~30%)標簽上有所不同。代表你用來評估準確性的典型數據,一個版本的標簽來源于每個例子的單個注釋(人工評分器),我們將在此版本上計算的模型預測的準確性報告為觀察測試準確性Observed Test Accuracy。同一測試集的第二個更干凈的版本具有高質量的標簽,這些標簽是通過每個示例的許多一致注釋(源自多個人工評分者)之間的共識建立的。我們將在清潔版本上測量的精度報告為清潔測試精度Clean Test Accuracy。因此,清潔測試精度更緊密地反映了您所關心的內容(實際模型部署性能),但在大多數應用程序中,觀察測試準確性是您所能觀察到的全部內容,除非您首先清潔測試數據!

下面是兩個測試示例,其中單個人工注釋器錯誤地標記了示例,但由許多人工注釋器組成的小組同意正確的標記。

需要說明的是,從單個注釋器收集的橙色注釋收集起來更便宜,但通常是不正確的。藍色注釋是從多個注釋器中收集的,這些注釋器更昂貴,但通常更準確。

在現實世界的項目中,你通常無法使用這種“清潔”(clean)的標簽,所以你只能測量觀察測試準確性。如果您正在根據此指標做出關鍵決策,例如使用哪種大型語言模型或提示,請確保首先驗證標簽是高質量的否則,我們發現您可能會做出錯誤的決定,如接下來所展示的在選擇禮貌分類提示時出現的情況

噪聲評估數據的影響

作為一種對文本禮貌進行分類的預測模型,使用預先訓練的大型語言模型(LLM)是很自然的。在這里,我們特別使用了數據科學家最喜歡的大型語言模型——開源的FLAN-T5模型。為了讓大型語言模型準確地預測文本的禮貌屬性,我們必須給它提供正確的提示。提示工程可以非常敏感,微小的變化會極大地影響準確性!

下面顯示的提示A和B(突出顯示的文本)是思維鏈提示的兩個不同示例,它們可以附加在任何文本樣本前面,以便大型語言模型對其禮貌屬性進行分類。這些提示結合了一些鏡頭和指令提示(稍后詳細介紹),提供了示例、正確的響應和鼓勵大型語言模型解釋其推理的理由。這兩個提示之間的唯一區別是高亮顯示的文本實際上是從大型語言模型中獲得響應。少數鏡頭的例子和推理保持不變。

思維鏈提示為模型提供了推理,說明為什么給出的每個文本示例的答案都是正確的。

決定哪種提示更好的自然方法是基于他們觀察到的測試準確性。當用于提示FLAN-T5大型語言模型時,我們在下面看到,提示A產生的分類在原始測試集上的觀察測試精度高于提示B產生的分類。所以很明顯,我們應該使用提示A部署我們的大型語言模型,對吧?回答是:不要那么快速作出決定

當我們評估每個提示的清潔測試準確性時,我們發現提示B實際上比提示A好得多(提高了4.5個百分點)。由于清潔測試精度更能反映我們真正關心的真實性能,如果我們僅僅依賴原始測試數據而不檢查其標簽質量,我們就會做出錯誤的決定!

使用觀察到的準確性,您可以更好地選擇提示A。但是,當在清潔過的測試集上進行評估時,提示B實際上是更好的提示

這只是統計波動嗎?

McNemar檢驗是評估ML準確性差異的統計學顯著性的推薦方法。當我們應用該測試來評估700個文本示例中提示A與提示B之間4.5%的清潔測試準確性差異時,該差異具有高度統計學意義(p值=0.007,X2=7.086)。因此,所有證據都表明提示B是一個有意義的更好選擇——我們不應該沒有通過仔細審核原始測試數據來選擇它!

這是不是這兩個提示碰巧出現的僥幸結果?

讓我們也看看其他類型的提示,看看我們的兩個思維鏈提示的結果是否只是巧合。

指令提示

這種類型的提示只是向大型語言模型提供一條指令,說明它需要如何處理給定的文本示例。考慮以下兩個提示,我們可能希望在其中進行選擇。

少量訓練(Few-Shot)提示

這種類型的提示使用兩個指令,一個前綴和一個后綴,還包括來自文本語料庫的兩個(預先選擇的)示例,以便向大型語言模型提供所需輸入輸出映射的清晰演示。考慮以下兩個提示,我們可能希望在其中進行選擇。

模板化提示

這種類型的提示除了選擇題格式外,還使用了兩條指令,一個可選前綴和一個后綴,這樣模型就可以作為選擇題答案進行分類,而不是直接用預測類進行響應。考慮以下兩個提示,我們可能希望在其中進行選擇。

各種類型提示的結果對比

除此之外,我們還評估了具有這三種額外類型提示的同一FLAN-T5大型語言模型的分類性能。通過繪制以下所有提示實現的觀察測試精度與清潔測試精度,我們看到許多提示對都存在相同的上述問題,依賴觀察到的檢測精度會導致選擇實際上更差的提示。

作為一名使用可用測試數據的提示工程師,您可以選擇左上角的灰色A提示(最高觀測精度),但最佳提示實際上是右上角的灰度B提示(最高清潔精度)。

僅根據觀察到的測試準確性,您將傾向于在每種類型的提示中選擇“A”提示而不是“B”提示。然而,每種提示類型的更好提示實際上是提示B(它具有更高的清潔測試精度)。這些提示對中的每一個都強調了驗證測試數據質量的必要性,否則,由于數據問題(如嘈雜的注釋),您可能會做出次優決策。

由于存在較高的觀察準確性,所有A提示似乎都更好,但當根據實際測試數據進行評估時,所有B提示在客觀上都更好。

您還可以在該圖中看到,所有A提示觀察到的精度都是如何圈出的,這意味著它們的精度高于B提示。類似地,所有B提示的清潔準確度都被圈出,這意味著它們的準確度高于B提示的準確度。就像本文開頭的簡單示例一樣,您傾向于選擇所有的A提示,而實際上B提示做得更好。

改進可用的測試數據以實現更可靠的評估

希望高質量評價數據的重要性是顯而易見的。讓我們來看看修復可用測試數據的幾種方法。

手動校正

確保測試數據質量的最簡單方法就是簡單地手工審核!確保仔細查看每個示例,以驗證其標記是否正確。根據測試集的大小,這可能可行,也可能不可行。如果你的測試集相對較小(大約100個例子),你可以仔細查看它們,并做出任何必要的更正。如果你的測試集很大(1000多個例子),那么手工完成這項工作將過于耗時和耗費精力。我們的測試集相當大,所以我們不會使用這種方法!

算法校正

評估可用(可能有噪聲)測試集的另一種方法是使用以數據為中心的人工智能算法來診斷可以解決的問題,以獲得同一數據集的更可靠版本(而不必收集許多額外的人工注釋)。在這里,我們使用Confident Learning算法(通過開源的cleanlab軟件包)來檢查我們的測試數據,這些數據會自動估計哪些示例被錯誤標記。然后,我們只檢查這些自動檢測到的標簽問題,并根據需要修復它們的標簽,以生成更高質量的測試數據集版本。我們將在這個版本的測試數據集上進行的模型精度測量稱為CL測試精度。

所有B提示的CL測試精度都更高。使用CL,我們更正了原始測試數據,現在可以信任我們的模型并及時做出決定。

使用這個新的CL校正測試集進行模型評估,我們看到以前的所有B提示現在都正確地顯示出比A提示更高的準確性。這意味著我們可以相信,基于CL校正測試集做出的決策比基于有噪聲的原始測試數據做出的決策更可靠。

當然,自信學習不能神奇地識別任何數據集中的所有錯誤。該算法檢測標記錯誤的效果將取決于基線ML模型的合理預測,即使如此,某些類型的系統引入的錯誤仍將無法檢測(例如,如果我們完全交換兩類的定義)。

關于可以證明自信學習有效的數學假設的精確列表,請參閱Northcutt等人的原始論文。對于許多真實世界的文本/圖像/音頻/表格數據集,該算法似乎至少提供了一種有效的方法,可以將有限的數據審查資源集中在大型數據集中最可疑的例子上。

因此,你并不總是需要花費時間/資源來策劃一個“完美”的評估集——使用Confident Learning等算法來診斷和糾正可用測試集中可能存在的問題,可以提供高質量的數據,以確保最佳的提示和模型選擇。

最后,除非另有說明,否則本文中所有圖片均由作者本人提供。

譯者介紹

朱先忠,51CTO社區編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。

原文標題:Beware of Unreliable Data in Model Evaluation: A LLM Prompt Selection case study with Flan-T5,作者:Chris Mauck

責任編輯:華軒 來源: 51CTO
相關推薦

2010-06-12 15:30:57

UDP協議

2022-06-15 07:42:00

谷歌T5模型

2025-08-05 03:22:00

LLM系統語言模型

2010-04-16 17:16:34

2015-03-20 09:45:17

IP協議

2025-01-09 10:48:36

2012-03-12 14:17:10

2021-04-07 14:29:05

開發技能代碼

2023-04-28 17:39:01

2021-07-27 12:27:21

工業物聯網IIOT物聯網

2011-11-29 09:48:43

2021-09-07 09:40:39

漏洞網絡安全代碼

2013-07-24 10:26:40

華為數據存儲華為存儲華為

2023-12-11 07:26:14

云原生業務可觀測性

2025-06-30 04:30:00

2022-11-16 14:33:45

工業物聯網物聯網安全

2016-12-16 11:56:56

大數據數據科學

2013-09-26 10:38:14

VDI企業桌面

2021-10-25 16:25:07

模型人工智能計算

2021-04-23 23:29:20

比特幣加密貨幣匿名幣
點贊
收藏

51CTO技術棧公眾號

亚洲wwwav| 国产一区二区三区精品久久久 | 国内精品久久久久影院 日本资源| 大乳护士喂奶hd| 国产日韩另类视频一区| 亚洲欧洲综合另类| 久久婷婷开心| 国产免费黄色大片| 亚洲免费黄色| 另类美女黄大片| 国产精品扒开腿做爽爽| 少妇高潮一区二区三区99| 亚洲成人精品影院| 伊人久久99| 可以在线观看的av| 国产福利一区二区三区| 国产精品jvid在线观看蜜臀| 久久久精品国产sm调教| 日韩1区2区| 亚洲精品自拍第一页| 日本成人xxx| xxxxx.日韩| 欧美日韩亚洲高清| 日本福利视频网站| 亚洲成人三级| 国产日韩欧美在线一区| 国精产品一区二区| 国产白浆在线观看| 裸体在线国模精品偷拍| 欧美一区二三区| 久久久久97国产| 99精品全国免费观看视频软件| 亚洲精品自拍第一页| 女性生殖扒开酷刑vk| 伊人久久综合网另类网站| 欧美中文字幕一区二区三区亚洲| 日本在线xxx| 大香伊人久久| 亚洲图片欧美色图| 中文字幕日韩精品无码内射| 成人福利网站| 亚洲色图欧美偷拍| 中文字幕一区二区中文字幕| 成年午夜在线| 国产三级一区二区| 欧美一区亚洲二区| 蜜桃视频在线入口www| 91麻豆免费看片| 久久综合中文色婷婷| 香港一级纯黄大片| 久久这里只有精品视频网| 狠狠色综合欧美激情| 丰满少妇在线观看bd| 从欧美一区二区三区| 99精品国产一区二区| 精品人妻伦一区二区三区久久| 狠狠色综合播放一区二区| 91精品国产综合久久香蕉的用户体验| 伊人久久成人网| 久久成人免费日本黄色| 国产在线精品自拍| 国产成人精品一区二区无码呦| 极品少妇xxxx精品少妇| 91久久在线观看| 99热这里只有精品66| 国产成人精品三级麻豆| 国产传媒一区二区| 五月婷婷丁香花| 久久久久久久免费视频了| 茄子视频成人在线观看| 欧美jizz18hd性欧美| 亚洲免费视频成人| 久久99中文字幕| 综合日韩av| 欧美日韩精品综合在线| 男人午夜视频在线观看| 18国产精品| 亚洲人a成www在线影院| 亚洲天堂最新地址| 午夜精品亚洲| 欧美最猛性xxxx| 中文字幕乱码视频| 国产风韵犹存在线视精品| 精品国产免费人成电影在线观...| 视频一区二区三区国产| 国产精品麻豆欧美日韩ww| 国产精品va在线观看无码| 色在线中文字幕| 6080yy午夜一二三区久久| 日本美女视频网站| 日韩av久操| 久久久久久免费精品| 中文字幕精品视频在线观看| 韩国一区二区三区| 麻豆91av| 肉体视频在线| 欧美在线观看一二区| 国产成人精品综合久久久久99| 偷拍一区二区| 久久成人这里只有精品| 丰满少妇xoxoxo视频| 韩国理伦片一区二区三区在线播放 | 国产精品自拍三区| 欧美激情www| 欧美78videosex性欧美| 欧美日韩中文字幕一区二区| 国产视频精品视频| 91亚洲成人| 日本久久久久久| 亚洲精品成人电影| 中文字幕一区二区三区蜜月| 高清在线观看免费| 一区三区自拍| 北条麻妃99精品青青久久| 在线观看国产亚洲| 国产成人欧美日韩在线电影| 亚洲图片都市激情| 欧美国产大片| 精品处破学生在线二十三| 国产成人在线网址| 久久婷婷亚洲| 精品一区久久久| 韩国日本一区| 日韩欧美国产一区二区三区| 国产精品夜夜夜爽阿娇| 久久综合九色| 乱一区二区三区在线播放| 超免费在线视频| 日韩午夜精品电影| 黑鬼狂亚洲人videos| 美女脱光内衣内裤视频久久网站 | 国产这里只有精品| 国产在线一在线二| 色综合一区二区三区| 污污污www精品国产网站| 欧美日韩三级电影在线| 亚洲综合社区网| 成人a在线视频免费观看| 欧美午夜宅男影院| 一级片视频免费看| 久久一日本道色综合久久| 精品999在线观看| 99色在线观看| 亚洲精品一区二区三区99| 老熟妻内射精品一区| 精品一区二区成人精品| 宅男一区二区三区| 小说区图片区亚洲| 久久久精品国产亚洲| 国产精品视频在线观看免费| 亚洲人午夜精品天堂一二香蕉| 色噜噜狠狠一区二区| 97人人精品| 5g国产欧美日韩视频| 怡红院在线播放| 精品日韩欧美一区二区| 国产无遮挡免费视频| 成人黄色在线视频| 国产中文字幕免费观看| 国产va免费精品观看精品视频| 国产999在线观看| а天堂8中文最新版在线官网| 欧美亚洲国产怡红院影院| 激情高潮到大叫狂喷水| 激情综合网最新| 妞干网视频在线观看| 偷拍亚洲色图| 国产精品一香蕉国产线看观看| 九义人在线观看完整免费版电视剧| 欧美一级爆毛片| 国产手机在线视频| 国产亚洲女人久久久久毛片| 第四色婷婷基地| 欧美日本不卡| 欧美中日韩免费视频| 久久亚洲国产精品尤物| 欧美国产日韩一区| 日韩黄色影片| 欧美日韩国产在线观看| 免费一级a毛片夜夜看| 久久综合99re88久久爱| wwwwwxxxx日本| 亚洲国产片色| 日本一区免费看| 精品久久国产一区| 91超碰中文字幕久久精品| 国产福利免费在线观看| 欧美成人video| 亚洲中文无码av在线| 一区二区三区色| a毛片毛片av永久免费| 极品少妇xxxx精品少妇偷拍| 凹凸国产熟女精品视频| 国产精品88久久久久久| 精品乱码一区二区三区| 日韩在线电影| 欧美壮男野外gaytube| 国产丝袜在线| 亚洲人成在线观看| 亚洲精品无amm毛片| 欧美四级电影网| 一区二区三区视频免费看| 国产精品萝li| 国产精品成人一区二区三区电影毛片| 国产精品一区二区无线| 欧美精品一区二区三区免费播放| 欧美日本亚洲韩国国产| 亚洲精品久久区二区三区蜜桃臀| 在线综合色站| 成人在线视频网| 日本少妇一区| 日韩av电影国产| 国产又色又爽又黄刺激在线视频| 色悠悠久久88| 国产在线视频福利| 亚洲精品美女在线观看播放| 国产免费不卡av| 欧美亚洲国产一区二区三区va| 日韩 欧美 中文| 香蕉久久一区二区不卡无毒影院 | 久久久久久久久免费看无码| 国产一二三精品| www.夜夜爽| 日韩av电影免费观看高清完整版| xxxx18hd亚洲hd捆绑| 欧美日韩国产欧| 日本福利视频在线观看| 欧美成人自拍| 中文网丁香综合网| 久久久久久久久亚洲精品| 精品理论电影在线| 国产不卡一区二区在线观看| 亚洲精品777| 国产精品香蕉国产| 日本久久免费| 国产成人精品在线观看| av伦理在线| 午夜精品久久久久久久白皮肤| 污污网站在线观看| 欧美国产日韩二区| 伊人在我在线看导航| 久久久97精品| 在线中文免费视频| 欧美风情在线观看| av电影免费在线看| 高清亚洲成在人网站天堂| 黑人玩欧美人三根一起进| 欧美精品激情在线| xxxx在线视频| 69av在线播放| 巨茎人妖videos另类| 国产精品久久久久久久一区探花| 成人黄色免费短视频| 国产精品国产三级国产aⅴ9色| 欧美成人a交片免费看| 国产精彩精品视频| 欧美日韩va| 亚洲最大的免费| 在线日韩成人| 久久99国产精品| 国产在视频线精品视频www666| 日韩国产欧美一区| 国产精品久久久久久久| 福利在线小视频| 亚洲日本欧美| 欧美性猛交久久久乱大交小说| 蜜臀av性久久久久蜜臀aⅴ流畅| 污污的视频免费| 国产精品1区2区3区| 污片免费在线观看| 国产婷婷一区二区| 国产67194| 黑人巨大精品欧美一区二区| 久久久久久久久久久影院| 精品视频1区2区3区| 国产高潮流白浆喷水视频| 亚洲加勒比久久88色综合| 国产在线一二三| 久久中文久久字幕| 成人观看网址| 国产欧美日韩专区发布| 亚洲综合网站| 欧美一区1区三区3区公司 | 久久久久亚洲视频| 91精品综合久久久久久| 乱精品一区字幕二区| 亚洲一区二区国产| 欧美被日视频| 欧美夜福利tv在线| 大胆国模一区二区三区| 精品不卡一区二区三区| 99精品在线观看| 浮妇高潮喷白浆视频| 韩国v欧美v亚洲v日本v| 疯狂揉花蒂控制高潮h| 1000部国产精品成人观看| 四虎成人精品永久免费av| 欧美日韩国产综合一区二区| 婷婷开心激情网| 久久视频在线看| 亚洲www免费| 国产伦一区二区三区色一情| 久久一区二区中文字幕| 国产成人在线免费看| 国产一区二区视频在线| 免费污网站在线观看| 亚洲成av人片在线观看无码| 91theporn国产在线观看| 亚洲精品小视频在线观看| 日本成人不卡| 91精品中文在线| 欧美日韩水蜜桃| 俄罗斯av网站| 粉嫩蜜臀av国产精品网站| 麻豆一区在线观看| 91国偷自产一区二区开放时间 | 欧美精品国产白浆久久久久| 97精品国产97久久久久久粉红| 视频在线观看一区二区三区| 亚洲欧美日韩偷拍| 亚洲精品一二三| 国产乱子伦精品无码码专区| 亚洲最新av在线| 激情开心成人网| 久久99九九| 亚洲美女色禁图| www.欧美com| 亚洲精品午夜久久久| 一本色道久久综合精品婷婷| 国产一区二区三区三区在线观看| 在线观看爽视频| 九九九九久久久久| aa国产精品| 日本xxxx裸体xxxx| 午夜欧美视频在线观看| 成人毛片视频免费看| 欧美极品第一页| www.久久东京| 人人妻人人做人人爽| 成人免费视频一区| 国产一级视频在线播放| 亚洲变态欧美另类捆绑| 9999在线视频| 国产日本一区二区三区| 亚洲国产裸拍裸体视频在线观看乱了中文 | 天天综合网久久综合网| 亚洲激情电影中文字幕| 蜜桃视频在线观看播放| 精品国产中文字幕| 国产亚洲在线| www.99热| 欧美私人免费视频| 国产成人高清精品| 成人xxxxx色| 亚洲黄色影院| 人妻体内射精一区二区| 91福利资源站| 快射av在线播放一区| 91gao视频| 99国产精品久久久久久久成人热 | 色橹橹欧美在线观看视频高清| 大陆极品少妇内射aaaaa| 久久亚洲一级片| 最新黄色网址在线观看| 久久久精品网站| gogo久久日韩裸体艺术| 久久精品免费一区二区| 国产日韩欧美精品一区| 国产又大又黑又粗| 欧美高清视频在线| www.污网站| 午夜激情一区| 亚洲午夜久久久久久久久| 天天av天天翘天天综合网色鬼国产| 亚洲 欧美 激情 另类| 国产精品高清在线观看| 亚洲区综合中文字幕日日| 日本五十肥熟交尾| 在线视频一区二区三| 麻豆系列在线观看| 国产日韩欧美综合精品| 日韩av一区二区三区四区| 日韩va亚洲va欧美va清高| 亚洲精品动漫久久久久| 国产香蕉久久| 国产深夜男女无套内射| 国产免费观看久久| 亚洲精品国偷拍自产在线观看蜜桃 | 国产日韩亚洲欧美| 精品二区久久| 狂野欧美性猛交| 亚洲国产精品久久久久秋霞蜜臀| 男人最爱成人网| 日韩小视频网站| 国产精品免费看片| 亚洲av成人精品日韩在线播放| 国产欧美日韩91| 国产视频一区免费看| 欧美国产在线看| 中文字幕日本精品|