精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

從GPT-2到GPT-4,探索大型語言模型的創新力

譯文 精選
人工智能
鑒于創造力測試可作為比較和跟蹤大語言模型性能和價值的基準,本文將和您分析從GPT-2到GPT-4,模型在收斂和發散兩種創造力的測試中的不同表現。

譯者 | 陳峻

審校 | 重樓

在最近的幾周里,人們使用大型語言模型(large language models,LLM)生成了諸如:書籍、小說、說唱音樂等各種創意性的內容。可是,我們怎么才能衡量這些模型的創作力水平呢?

在本文中,我將和您分析從2019年到2023年的各個GPT模型,在收斂(存在單一正確的解決方案)和發散(開放式地可能存在多個解決方案)[1] 兩種創造力的測試中的不同表現。具體測試類型包括:

  1. 將三個看似無關的詞與第四個詞連接起來(遠距離聯想測試
  2. 為日常物品產生盡可能多的替代用途(替代使用任務
  3. 命名十個盡可能彼此不同的名詞(發散關聯任務

通過分析,我將重點關注從早期的GPT-2模型,到最新的GPT-4模型,在性能上的變化。雖然總的來說,較晚的模型往往在各種創造力任務上表現會更好,但是我確實也發現了一些例外情況。例如:當測試本身已有“正確”的答案時,較簡單的GPT-2模型反而優于GPT-4模型。

當然,我也會在相同的創造力測試中,將GPT模型與人類表現進行比較。我并不是想闡明GPT模型、或一般的LLM,能夠具有與人類同等的創造性思維;而是要展示各個模型是如何響應創造性過程的。

GPT模型的發展

生成式預訓練轉換器(Generative Pre-trained TransformerGPT)模型是目前互聯網上被廣泛用于訓練的語言模型,可以根據先前的token預測下一個token。雖然ChatGPT貌似在最近的幾個月才引起了公眾的關注,但實際上OpenAIGPT模型及其背后的技術,已經存在了多年。

  1. GPT-12018年,117M參數)是原始的GPT模型。我曾在HuggingFace上使用了其開源版本,其輸出亂碼較多。論文:通過生成式預訓練提高語言理解力
  2. GPT-22019年,1.5B參數)。我也曾在HuggingFace上使用了其開源版本。對于一些實驗,GPT-2的輸出為亂碼,對理解其行為毫無用處。論文:語言模型是無監督的多任務學習者
  3. GPT-32020年,175B參數),比GPT-2大了100多倍。我使用了由OpenAI APIs提供的text-davinci-002。論文:語言模型是小樣本學習者
  4. GPT-3.52022年)。雖然GPT-3.5有多個版本,但我在原始的ChatGPT上使用了一種模型(OpenAI APIs提供的gpt-3.5-turbo)。該模型是使用強化學習和人工反饋進行訓練的。
  5. GPT-42023年,約100T 參數)。我使用了由OpenAI APIs提供的gpt-4。論文:GPT-4技術報告

在下文的各個實驗中,除非另行說明,否則我都是在唯一的提問(prompt)中調用了每個GPT模型五次,以說明其生成過程中的隨機性。

1. 遠距離聯想測試:連接不相關的詞

遠距離聯想測試(RAT)是Martha Mednick1962 年開發的創造力測試[2]。該測試旨在衡量聚合思維。也就是說,每個問題都有一個“正確”的答案。通常,給定三個看似無關的詞,受試者必須找到第四個詞來連接這三個詞。例如,單詞“夢(dream、“破(break和“光(light可以通過單詞“白天(day 聯系起來,成為:白日夢(daydream)、破曉(daybreak)、日光(daylight)。

我從Remote Associates Test網站各種單詞的三元組,共有312個問題。每個問題的難度都被按照從非常容易到非常困難的等級進行評分。


對于每個模型和每個單詞的三元組,我都使用了如下提問模板,并將每個模型調用了5次,以說明其隨機性。其中,提問的具體內容為:

給你三個詞。想想與前三個詞中的每一個都以某種方式相關的第四個詞。請先給出答案:“Answer”,然后解釋你的推理:“Reason”。單詞為:{Word1}{Word2}{Word3}

較新的GPT模型在遠程關聯上得分更高

我計算了每個GPT模型生成正確答案的總體百分比。如下圖所示,模型越新,其生成的正確答案就越多。


按照問題難度級別細分模型的性能,我們可以看到類似的趨勢:在每個難度級別上,較新的GPT模型都比舊的模型表現得更好。雖然較新的GPT模型在困難問題上的表現優于舊模型,但是與較簡單的問題相比,其改進幅度較小。這意味著:即使是GPT-4也難以解決困難的問題。

根據Remote Associates Test網站的說法,“人類通常可以解決大部分被標記為簡單的項目,大約一半的中等項目,以及較少的困難項目。”雖然該網站上沒有給出官方的統計數據,但是我們一眼就能看出,GPT-4確實解決了大約一半的中等難度和少量的困難。它是唯一一個近似于人類水平的模型。其他GPT模型則比人類表現要差。

一些GPT-2回答正確但GPT-4出現錯誤的例外

雖然這種情況并不經常發生,但是對于如下8個問題,2019年的GPT-2模型反而優于2023年的GPT-4模型。

簡單的問題

單詞:cottage(小屋)/brick(積木)/cake(蛋糕)

GPT-2:“cheese(奶酪)”[正確答案]

GPT-4:“layer(層)”

中等問題

單詞:cat(貓)/number(號碼)/phone(電話)

GPT-2:“call(呼叫)”

GPT-4:“dial(撥號)”

困難問題

單詞:through(通過)/disk(盤)/way(路)

GPT-2:“drive(驅動)”[正確]

GPT-4:“circle(圓)”

非常困難的問題

單詞:land(土地)/hand(手)/house(房子)

GPT-2:“farm(農場)”[正確]

GPT-4:“property(財產)”

可見,對于所有這些問題,GPT-4的回答都缺乏邏輯性。事實上,在事先不知道正確答案的情況下,您可能會認為GPT-4的答案已經將三個詞聯系起來了。如果你這么想的話,也不算錯。我將在下一節回答這個問題。

GPT-4到底是錯了,還是跳出圈外思考了?

針對上述GPT-4半數以上的“錯誤回答”,我查看了它對一些“非常困難”的問題的解釋。

單詞:artist藝術家)/hatch(策劃)/route(路線)

正確答案:“escape(逃離)”

GPT-4回答:“map地圖)”

“藝術家”一詞可能會讓人想起創造某物的想法,甚至可能是某物的視覺表現。地圖是一種常見的視覺表現形式,需要具有一定程度的藝術技巧,才能創建。

“策劃”一詞可以指打開某物或使某物存在的行為。地圖是一種藍圖或計劃,通常用于導航新領域或制定行動方案。

“路線”一詞與方向和運動有關,可以在地圖上繪制和跟蹤。地圖可以幫助您確定旅行時的最佳路線,還可以提供有關其他人過去所走的路線信息。

總而言之,“地圖”似乎是一個與前三個詞都很相配的詞,因為它包含了藝術創作、策劃、路線、運動、以及導航等思想。

這便是GPT-4為什么認為“地圖”是與“藝術家/規劃/路線”相關聯的單詞的解釋。我們再來看另一個例子:

單詞:fork分叉)/dark(黑暗)/man(人)

正確答案:“pitch投擲)”

GPT-4回答:“shadow(陰影)”

“分叉這個詞可以與分裂或分支相關聯,例如道路上的岔路口。陰影也可以看作是一種劃分,因為它們代表沒有光。

“黑暗”一詞是指沒有光。當光線被物體阻擋時會產生陰影,并且通常看起來比周圍區域更暗。

“人”這個詞可以與身份或個性的概念相關聯。陰影也可以被用來表示一個人的身份,因為它們可以提供有關其形狀和大小的線索。

因此,“影子”似乎是一個與前三個詞都很相配的詞,因為它包含了分裂、缺席和同一性的概念。

上述兩個例子充分顯示了遠距離聯想測試和一般性聚合創造力測試的缺陷,即“正確”的答案可能并不唯一。在此類情況下,GPT-4生成的所謂“錯誤”答案,可能只是因為不符合傳統的“正確”答案的標準而已。

GPT-4回答任意生成的三元組單詞

接著,我構建了自己的遠距離聯想測試,并主觀地評估了其輸出。首先,我列出了10,000個最常見的英語單詞[3](https://github.com/first20hours/google-10000-english),然后我從該列表中隨機地抽取了三個單詞,讓GPT-4提供第四個單詞,以便將這些單詞聯系在一起。雖然有些三元非常奇怪、且毫無關聯,但是GPT-4總能找到一種方法,將它們聯系在一起。例如:

Health(健康)

單詞:dietary(飲食)/surveillance(監管)/born(出生)

答案: Health(健康)

理由:

飲食——一個人的飲食與他們的健康直接相關,因為它會影響到人的整體健康、能量水平和某些疾病的風險。

監測——健康監測是持續、系統地收集、分析和解釋對于健康實踐的規劃、實施和評估至關重要的數據。

出生——當一個人出生時,他們的健康是至關重要的,因為它會對其發育、成長和整體生活質量產生長期的影響。

我發現其對于“健康監測”的定義,幾乎是從CDC網站上的公共衛生監測簡介中逐字復制的:公共衛生監測是“持續、系統地收集、分析和解釋對公共衛生實踐的規劃、實施和評估至關重要的健康相關數據。”

2. 交替使用任務:尋找普通物品的意義

另一個衡量創造力的流行測試是替代使用任務(AUT)。它是由JP Guilford1967年創建的。與遠程聯想測試不同,該測試衡量的是發散思維,即:沒有正確答案。它要求受試者盡可能多地描述日常物品的原始用途。例如:“筆記本電腦”可以用作“盤子”、“身體防護罩”或“壁畫”[4]。對于此類測試的響應是根據原創性(不同程度的用途)和靈活性(想法的分類)等指標來衡量的。該測試的目的是審查受試者對于一件普通的物品能想到多少種非常規的用途。

由于我的資源有限,因此我使用了創造力代理。它是由阿姆斯特丹大學的研究人員在將GPT-3的創造力用于(替代用途)測試時使用的。研究人員要求人類和GPT-3 (davinci-002)針對“叉子、錫罐和書”提出替代用例。作為衡量創造力的代理,他們測量了對象與生成的用例之間的語義距離。也就是說,生成的用例詞與原始對象之間的差異有多大。

在此基礎上,我對GPT模型使用了以下提示:

{物品}想出10種創意用途,這些用途可能會讓人們覺得聰明、不尋常、有趣、幽默、創新或與眾不同。

在自然語言處理中,語義距離(或稱語義相似性)是兩個詞相關程度的代表。它基于詞語在相似的上下文中被一起使用的頻率。例如,“computer(電腦)”和“screen(屏幕)”這兩個詞可能有更短的語義距離,因為它們經常在相同的上下文中使用;而“computer(電腦)”和“lentils(扁豆)”這兩個詞可能有更長的語義距離,因為它們不是經常在相同的上下文中使用。

為了計算兩個詞的語義距離,我使用了與研究人員相同的方法--自然語言處理庫Spacy (`en_core_web_lg`,https://spacy.io/models/en) 來計算對象(例如“筆記本電腦”)和用例詞(例如“盤子”)的嵌入關系。然后,我使用兩個嵌入之間的余弦距離,來計算語義距離。

對于交替使用任務,較長的語義距離與對象的“更有創意性”用例相關。通常結果表明,對于上述三個對象--叉子、錫罐和書,人類表現出比GPT-3更高的余弦距離(因此語義差異更高)。然而,在某些情況下,GPT-3.5/GPT-4的匹配能夠超過人類創造力語義距離分數。

雖然人類傾向于提出比GPT-3更具創造性的用例,但是GPT-4更接近于人類的水平。也就是說,GPT-4響應的物品與原始物品的語義距離更長,與人類的表現水平相似。然而,如果沒有真正的人類注釋,以決定更多的主觀類別,例如:原創性、靈活性和實用性,那么這種使用余弦距離的量化將會是非常有限的。畢竟它只能衡量GPT模型各種創造性輸出的一小部分。

人類生成的和AI生成的用例

下面的兩個列表分別是人類生成的錫罐替代用例,以及由GPT-4生成的替代用例。相信您一眼就能區分開來。

清單 1:錫罐的用途

  • 可作為一面鏡子
  • 可創造玩具
  • 可作為藝術
  • 可作為安迪沃霍爾(著名藝術家)的提醒
  • 可作為帶夾子的鑰匙圈
  • 可作為首飾

清單 2:錫罐的用途

  • 微型架子鼓
  • 古怪的花盆
  • 臨時餅干刀
  • 自制野營爐
  • 異想天開的風鈴
  • 微型藥草園

3. 發散聯想任務:十個沒有聯系的詞

第三個創造力測試是發散關聯任務(DAT)。它是最近由一組研究人員于2021年創建的[5]。該測試涉及到盡可能多地列出十個彼此不相干的名詞。顧名思義,此類測試是發散的,也就是沒有正確的答案。

在線測試網站-- https://www.datcreativity.com/只需幾分鐘,便可列出十個盡可能不相關的名詞。以下是我從該網站上得到的結果:

那么DAT的分數是如何計算的呢?其過程使用了嵌入和余弦距離等相關計算。在此我總結為[6]

  1. 計算每個單詞的GloVe嵌入
  2. 計算每對詞之間的余弦距離
  3. 取距離的平均值

這個過程類似于,替代使用任務中用于計算創造力代理分數的方法。其唯一區別在于使用到了詞的嵌入模型。

比較不同模型之間的差異

通過參考DAT網站,我向GPT模型提出了如下問題:

請輸入10個盡可能不同的單詞,并包括單詞的所有含義和用法。

規則:

- 僅英文單詞。

- 僅名詞(例如,事物、對象、概念)。

- 非專有名詞(例如,沒有特定的人或地點)。

- 非專業詞匯(例如,不包含技術術語)。

- 自己想出來的詞(例如,并非周圍常見物體)。

結果表明,GPT-2生成了一些文不對題的輸出。如下圖所示,每個新模型的DAT分數都增加了。這意味著,新的模型更擅長生成10個在語義上盡可能不同的單詞。

例如,GPT-3生成了如下列表,其得分為0.36

黃昏、夜晚、白天、黎明、早晨、下午、傍晚、午夜、暮光

GPT-4生成了以下列表,其得分為0.95

大象、顯微鏡、沙堡、星系、和諧、抹刀、冰川、哲學、手鼓、干旱

DAT測試的介紹,測試的平均分數一般在75-80之間,因此95分已經算是非常高了。

在上圖中,我們需要注意的是,GPT-4的誤差線比GPT-3的誤差線要小得多。而在下一個實驗中,這一點變得更加清晰。在該實驗中,我通過調整“熱度(temperature)”參數,來改變每個GPT模型生成時的隨機性。

熱度是介于01之間的值。其中,接近0的值最可預測,而1則是最隨機的。我嘗試了0.50.9之間的熱度值,且增量為0.1(在之前的實驗中,我將熱度保持在0.7,這一默認值)。我預計較高的熱度值會有更多的變化,而較低的熱度值會有更多的一致性。

然而,結果表明,就語義距離方差而言,熱度對模型的影響并不那么重要。例如,對于GPT-3來說,盡管熱度很高,但每個包含10個單詞的列表的DAT分數差異非常大。然而,對于GPT-4來說,雖然也有一定的熱度,但DAT分數在一個小范圍內,保持緊密一致性,幾乎沒有變化。

可見,GPT-4的變化遠小于GPT-3。在某種程度上,我們會覺得GPT-4已經“知道”了一個本沒有正確答案的任務的“正確答案”。

匯總所有熱度分數的響應,我讓每個模型生成了50次包含10個單詞的列表。然后,我查看了在所有50次運行中出現的不同單詞的常見程度。其中,GPT-3最常生成的單詞是書,其出現率為19/50=38%。而GPT-4最常生成的單詞是顯微鏡,其出現率為48/50=96%

上圖證實了GPT-3實際上在其單詞生成中更具可變性的說法,而GPT-4通過預測許多它知道的、在“不同單詞”任務中得分高的相同單詞(如:顯微鏡、火山、大象和星系等),來保證其輸出的穩定性。

同時,該發現也證明了GPT-4似乎想通過“破解代碼”,來生成它認為多樣化的單詞。如果此猜測屬實的話,我們是否可以認為:GPT-4比它能夠達到“如何在測試中表現等更優秀”的所謂局部最優(local optima),要更具有創造性呢?

小結

使用一組有限的、基于文本的測試,去準確地衡量諸如模型的創造力是極具挑戰的。盡管可視化遠距離聯想測試之類的工具,試圖通過結合視覺元素來解決該問題,但是此類評估仍然存在著一些固有的局限性。具有“正確答案”的趨同測試(例如遠距離聯想測試)可能并不總是最正確的解決方案。而沒有特定正確答案的發散測試(例如發散關聯測試),則需要依賴不完美、且可能包含偏差的單詞嵌入。

此外,GPT模型在上述測試中的表現,可能會受到它們在訓練期間所接觸的不同任務的影響,因此也可能導致數據的重疊。例如,GPT-4在發散聯想測試中表現出的單詞重復,可能暗示著它已事先知道了“正確”答案。而鑒于GPT-4可能正在接受測試數據、尤其是編碼任務訓練的傳聞,我們著手開發替代測試方法就顯得非常有必要了。

盡管有著上述各種缺陷,但是創造力測試仍然可以作為比較和跟蹤大語言模型性能的、有價值的基準。在未來的研究實驗中,我們可以用其他語言去重復本文提到的實驗,以衡量跨語言領域的GPT模型的創造力。據此,我們也可以更加全面地了解人工智能所生成的內容,并進一步探索此類高級語言模型的能力和局限性。

參考

[1] Guilford, J. P. (1967). 人類智慧的本質。

[2] Mednick, S. A., & Mednick, M.T. (1959,1962). 遠距離聯想測試,大學和成人形式。

[3] 最常用的10,000個英語單詞是通過對GoogleTrillion Word Corpusn-gram頻率的分析來確定的。我進一步過濾了這個列表以刪除停用詞(例如英語中的常用詞,如“the”、“and”和“you”)。更多信息請參見https://github.com/first20hours/google-10000-english

[4] 有一次我把這個放在約會應用程序上,不幸的是沒有人認為它很有趣。

[5] Olson, Jay A.; Nahas, Johnny; Chmoulevitch, Denis; Cropper, Simon J.; Webb, Margaret E. (22 June 2021). “通過命名不相關的詞來預測創造力”。 美國國家科學院院刊。118 (25): e2022340118. doi:10.1073/pnas.2022340118. PMC 8237676. PMID 34140408

[6] 原作者從10個單詞中抽取了7個子集來計算分數。我保留了所有10個單詞。此外,作者使用了840B-GloVe嵌入,而我使用較小的6B-GloVe嵌入。通過將自己的GloVe嵌入結果與官方DAT分數進行比較,我發現盡管存在差異,但其結果仍具有可比性。

譯者介紹

陳峻(Julian Chen),51CTO社區編輯,具有十多年的IT項目實施經驗,善于對內外部資源與風險實施管控,專注傳播網絡與信息安全知識與經驗。

原文標題:Exploring Creativity in Large Language Models: FromGPT-2toGPT-4,作者:Yennie Jun


責任編輯:華軒 來源: 51CTO
相關推薦

2025-08-19 08:40:00

AI技術模型

2025-08-18 09:15:00

2023-05-29 09:29:52

GPT-4語言模型

2023-06-19 08:19:50

2025-04-16 09:35:03

2023-05-10 17:33:56

2023-12-16 09:45:56

論文GPT-4AI

2023-04-09 16:17:05

ChatGPT人工智能

2023-12-26 08:17:23

微軟GPT-4

2025-05-30 07:40:56

2023-05-24 14:33:08

GPT-4語言模型

2023-07-25 09:23:23

Llama 2GPT-4

2023-12-15 12:52:17

AI模型

2023-05-10 14:54:23

AI

2023-03-28 08:23:38

2023-07-12 16:10:48

人工智能

2024-04-25 16:56:14

GPT-4大模型人工智能

2024-05-21 12:23:17

2023-03-16 19:17:57

2023-03-28 13:01:20

GPT-4開發OpenAI
點贊
收藏

51CTO技術棧公眾號

99久久99久久精品免费看小说.| 精品免费久久久久久久| 国产美女www| 中文字幕亚洲综合久久五月天色无吗''| 69堂亚洲精品首页| 国产 日韩 欧美在线| 九色在线观看视频| 国产呦萝稀缺另类资源| 97香蕉久久超级碰碰高清版| 一级特黄曰皮片视频| 香蕉成人app| 在线看国产一区二区| 奇米777四色影视在线看| 麻豆导航在线观看| 国产乱码精品一区二区三区av| 97精品久久久| 欧美第一页在线观看| 午夜精品影视国产一区在线麻豆| 9191国产精品| 日本成人在线免费视频| xxxx视频在线| 亚洲乱码日产精品bd| 日本电影一区二区三区| 丰满人妻av一区二区三区| 日韩中文字幕不卡| 国外成人在线直播| 三级在线观看免费大全| 精品久久久久久久| 亚洲精品一区二区三区精华液| 亚洲xxxx2d动漫1| 日韩脚交footjobhdboots| 亚洲男同性恋视频| 天天人人精品| 你懂的好爽在线观看| 粉嫩高潮美女一区二区三区| 成人一区二区电影| 国产男人搡女人免费视频| 欧美a级一区| 日韩网站免费观看| 免费人成又黄又爽又色| 精品精品精品| 欧美tickling网站挠脚心| 男女爽爽爽视频| 香蕉视频亚洲一级| 亚洲成年人影院| 国产免费内射又粗又爽密桃视频| 秋霞成人影院| 国产精品久久久久影院| 日韩影视精品| www.91在线| 中文字幕不卡在线观看| 日产精品高清视频免费| 久久久pmvav| 久久只精品国产| 欧美少妇一区| 久色视频在线| 日本一区二区三级电影在线观看| 国产精品一区二区三区久久久| 婷婷激情四射网| 天天射综合网视频| 欧美xxxx18国产| 丰满少妇高潮久久三区| 国产精品豆花视频| 欧美激情极品视频| 国产精品第九页| 最新成人av网站| 欧美放荡办公室videos4k| 免费在线一级片| 亚洲国产美女| 热99久久精品| 最新在线中文字幕| 极品少妇一区二区三区精品视频| 成人两性免费视频| 草草视频在线播放| 99久久综合99久久综合网站| 久久久久久艹| 天堂中文а√在线| 亚洲黄一区二区三区| 国产av熟女一区二区三区| 182在线播放| 91国在线观看| 伊人成人免费视频| 激情小说亚洲图片| 亚洲九九九在线观看| 少妇愉情理伦三级| 欧美激情视频一区二区三区在线播放 | 亚洲综合精品在线| 国产经典欧美精品| 久久精品午夜一区二区福利| av影片免费在线观看| 亚洲精品国产品国语在线app| 国产精品无码av在线播放| 日韩一区二区三区免费| 欧美一区二区成人6969| 欧美 日本 国产| 欧美残忍xxxx极端| 午夜精品久久久久久99热软件| 中文字幕精品无| 国产福利一区二区三区在线视频| 久久精品成人一区二区三区蜜臀 | 国产午夜亚洲精品午夜鲁丝片| 一区二区不卡在线视频 午夜欧美不卡'| av黄色在线| 色伊人久久综合中文字幕| 51自拍视频在线观看| 亚洲性视频大全| 欧美成人精品在线| 亚洲欧美另类在线视频| 国产精品一二三在| 色女人综合av| 大桥未久在线视频| 69av一区二区三区| 男人天堂av电影| 欧美深夜福利| 国产欧美欧洲在线观看| 天天干,夜夜操| 亚洲免费视频成人| 手机在线看福利| 欧美日韩导航| 欧美国产视频一区二区| 国产又粗又猛视频免费| 久久久久久久久蜜桃| www.国产在线播放| 国产一精品一av一免费爽爽| 夜夜嗨av一区二区三区四区| 精品国产免费观看| 粉嫩在线一区二区三区视频| 中文字幕一区二区三区有限公司| 刘亦菲一区二区三区免费看| 精品国产乱码久久久久久闺蜜| 波多野结衣久久久久| 日日夜夜一区二区| 久久99精品国产一区二区三区| av网站在线看| 欧美一区二区在线免费观看| 国产麻豆a毛片| 日韩中文字幕亚洲一区二区va在线| 久久99久久精品国产| 黄色在线看片| 精品精品国产高清a毛片牛牛| 91插插插插插插| 久久国内精品自在自线400部| 日韩欧美亚洲在线| 日本高清不卡一区二区三区视频| 亚洲精品久久久久久下一站 | 老司机午夜在线视频| 欧美亚洲精品一区| 少妇无套高潮一二三区| 日韩精品乱码免费| 欧美亚洲另类在线一区二区三区| 久九九久频精品短视频| 亚洲精品一区二区久| 国产又大又黄又粗| 久久精品一区二区| 免费在线观看毛片网站| 国产毛片一区二区三区| 日本中文字幕久久看| 国产女主播在线写真| 欧美在线播放高清精品| 在线观看免费小视频| 久久精品国产99国产精品| 中文字幕中文字幕在线中一区高清| 一区在线不卡| 欧美精品日韩三级| 丰满人妻一区二区| 狠狠做深爱婷婷久久综合一区 | 午夜精品视频网站| 少妇av一区二区| 欧美性69xxxx肥| 欧美福利第一页| 久久91精品久久久久久秒播| 伊人网在线免费| 风间由美中文字幕在线看视频国产欧美| 中国日韩欧美久久久久久久久| 午夜一区二区三区四区| 国产精品成人网| 一级黄色大片免费看| 亚洲美女黄色| 日韩av一区二区三区在线| jizzyou欧美16| 欧美成在线视频| 天天干,夜夜爽| 欧美视频在线一区二区三区 | 亚洲va久久久噜噜噜久久天堂| 色黄网站在线观看| 亚洲精品资源美女情侣酒店| 中文字幕人妻互换av久久| 亚洲人成网站色在线观看| 又黄又爽的网站| 免费欧美日韩国产三级电影| 91精品一区二区三区四区| 日韩mv欧美mv国产网站| 国产伦精品免费视频| 国产乱妇乱子在线播视频播放网站| 亚洲人成毛片在线播放| 99精品免费观看| 色综合视频在线观看| 欧美另类videoxo高潮| 97aⅴ精品视频一二三区| 嫩草影院国产精品| 激情国产一区| 欧美重口乱码一区二区| 日韩精品一区二区三区中文在线 | 精品无码国产一区二区三区av| 蜜桃成人av| av一本久道久久波多野结衣| 色成人免费网站| 久久久爽爽爽美女图片| 香蕉视频网站在线观看| 日韩成人在线视频观看| 97人妻精品一区二区三区视频| 日韩欧美a级成人黄色| 欧美日韩一级在线观看| 国产精品系列在线| 国产又粗又猛又色| 国产麻豆视频一区| 蜜臀视频一区二区三区| 9色精品在线| 久久av高潮av| 91精品秘密在线观看| 欧美在线激情| 亚洲女娇小黑人粗硬| 国产日韩欧美精品| 亚洲精品777| 国产日本欧美视频| 韩国主播福利视频一区二区三区| 欧美激情视频一区二区| 精产国品自在线www| 中文字幕日韩免费视频| 黄色av网址在线免费观看| 精品福利视频一区二区三区| 99精品在线看| 日韩午夜激情免费电影| 亚洲天堂视频网| 精品视频一区二区不卡| 国产精品第6页| 一本色道综合亚洲| 亚洲熟女综合色一区二区三区| 亚洲国产成人高清精品| 国产一级视频在线观看| 亚洲精品免费在线| 久久久久久久久毛片| 亚洲猫色日本管| 特级片在线观看| 一区二区三区精品| 免费日韩在线视频| 亚洲最新视频在线观看| 久草成人在线视频| 亚洲尤物视频在线| 国产主播在线播放| 午夜精品成人在线视频| 精品成人免费视频| 一本到不卡精品视频在线观看| 香蕉影院在线观看| 色视频欧美一区二区三区| 国产99免费视频| 欧美三区免费完整视频在线观看| 嫩草影院一区二区三区| 精品视频999| 国产绿帽一区二区三区| 91精品国产综合久久久久久久久久| 国产毛片在线视频| 正在播放亚洲一区| 超碰福利在线观看| 亚洲精品福利在线观看| 蜜芽tv福利在线视频| 在线精品国产成人综合| 国产精品剧情一区二区在线观看| 欧美另类在线播放| 看黄在线观看| 国产精品成人一区| 日韩黄色在线| 国产91社区| 亚洲黄页在线观看| 亚洲伊人婷婷| 国产精品国码视频| www一区二区www免费| 免费观看久久久4p| 99国产精品免费视频| 99视频有精品| 日本精品久久久久中文| 一区二区三区国产| 日本午夜人人精品| a视频免费在线观看| 亚洲第一男人天堂| 国产精品一区二区婷婷| 久久精品视频在线| 理论不卡电影大全神| 国产精品成人久久久久| 一区二区在线视频观看| 看欧美日韩国产| 亚洲国产一区二区在线观看| a级黄色一级片| 美国毛片一区二区| 中文视频在线观看| 国产精品久久久久一区二区三区| 不卡的免费av| 欧美视频自拍偷拍| 五月激情婷婷网| 超薄丝袜一区二区| 免费福利视频一区二区三区| 亚洲一区二区三区香蕉 | 久久99精品久久久久子伦| 欧美第一精品| 999精品网站| 丁香激情综合国产| 手机在线中文字幕| 欧美性色视频在线| 好吊视频一区二区三区| 日韩在线观看精品| 自拍偷拍亚洲视频| 国产伦精品一区二区三区照片91| 日韩理论电影| 日韩毛片在线免费看| 成人免费视频一区| 粉嫩av性色av蜜臀av网站| 色94色欧美sute亚洲13| 蜜桃视频在线观看www| 久久影院模特热| 欧洲精品久久久久毛片完整版| 国产一区二区三区色淫影院| 91精品推荐| 天天干天天玩天天操| 久久精品免费在线观看| 久久国产精品系列| 欧美大胆人体bbbb| 黄色网址在线免费| 国产精品久久久久久久app | 日韩精品极品视频| 欧美理论片在线播放| 亚洲一区二区三区毛片| 婷婷激情综合| 一道本在线免费视频| 国产视频一区在线播放| 天天干天天干天天操| 国产视频欧美视频| 蜜桃麻豆影像在线观看| 国产一区二区黄色| 亚洲另类自拍| 免费a在线观看播放| 婷婷中文字幕综合| 偷拍精品一区二区三区| 久久噜噜噜精品国产亚洲综合| 伊人久久大香线蕉av超碰| 青青草原网站在线观看| 国产乱子伦视频一区二区三区| 一区二区国产精品精华液| www国产精品| 亚洲电影免费| 青青青伊人色综合久久| 国产精品美女高潮无套| 色哟哟在线观看一区二区三区| 欧美日本网站| 国产精品福利在线观看| 色综合久久网| 三日本三级少妇三级99| 亚洲精品欧美综合四区| 亚洲精品成人区在线观看| 久久青草精品视频免费观看| 日韩黄色网络| mm1313亚洲国产精品无码试看| 国产蜜臀av在线一区二区三区| 在线观看av大片| 欧美成年人视频| 极品国产人妖chinesets亚洲人妖 激情亚洲另类图片区小说区 | 影视先锋久久| 牛夜精品久久久久久久| 中文字幕一区二区三区四区| 国产普通话bbwbbwbbw| 欧美疯狂性受xxxxx另类| 一级黄色片在线播放| 亚洲视频 欧洲视频| 99热这里只有精品1| 久久人91精品久久久久久不卡| 亚洲婷婷丁香| 亚洲精品免费一区亚洲精品免费精品一区 | 91视频九色网站| 国产一区日韩一区| 精品少妇人妻一区二区黑料社区 | 欧美伦理片在线看| 亚洲欧美在线高清| 欧美在线 | 亚洲| 日产精品99久久久久久| 99re6这里只有精品| 稀缺呦国内精品呦| 色婷婷国产精品久久包臀| 在线视频婷婷| 国产在线资源一区| 免费亚洲电影在线| 国产亚洲小视频| 一区二区三区四区视频| 精品视频一区二区三区在线观看| 亚洲美免无码中文字幕在线| 国产精品污污网站在线观看| 国产91久久久| 国产精自产拍久久久久久| 亚洲片区在线| 老熟妇高潮一区二区三区| 精品调教chinesegay| 日韩精品一区二区三区中文|