精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

斯坦福提出對(duì)比偏好學(xué)習(xí):無(wú)需強(qiáng)化學(xué)習(xí)即可從人類反饋中學(xué)習(xí)

人工智能 新聞
我們知道,ChatGPT 的成功離不開(kāi) RLHF 這個(gè)「秘密武器」。不過(guò) RLHF 并不是完美無(wú)缺的,存在難以處理的優(yōu)化難題。本文中,斯坦福大學(xué)等研究機(jī)構(gòu)的團(tuán)隊(duì)探索用「對(duì)比偏好學(xué)習(xí)」替換掉「強(qiáng)化學(xué)習(xí)」,在速度和性能上都有不俗的表現(xiàn)。

在模型與人類意圖對(duì)齊方面,根據(jù)人類反饋的強(qiáng)化學(xué)習(xí)(RLHF)已經(jīng)成為一大流行范式。通常來(lái)說(shuō),RLHF 算法的工作過(guò)程分為兩個(gè)階段:一、使用人類偏好學(xué)習(xí)一個(gè)獎(jiǎng)勵(lì)函數(shù);二、通過(guò)使用強(qiáng)化學(xué)習(xí)優(yōu)化所學(xué)習(xí)的獎(jiǎng)勵(lì)來(lái)對(duì)齊模型。

RLHF 范式假定人類偏好的分布遵照獎(jiǎng)勵(lì),但近期有研究認(rèn)為情況并非如此,人類偏好其實(shí)遵循用戶最優(yōu)策略下的后悔值(regret)。因此,根據(jù)反饋學(xué)習(xí)獎(jiǎng)勵(lì)函數(shù)不僅基于一個(gè)有漏洞的對(duì)于人類偏好的假設(shè),而且還會(huì)導(dǎo)致出現(xiàn)難以處理的優(yōu)化難題 —— 這些難題來(lái)自強(qiáng)化學(xué)習(xí)階段的策略梯度或 bootstrapping。

由于存在這些優(yōu)化難題,當(dāng)今的 RLHF 方法都會(huì)將自身限定在基于上下文的 bandit 設(shè)置中(比如在大型語(yǔ)言模型中)或會(huì)限制自己的觀察維度(比如基于狀態(tài)的機(jī)器人技術(shù))。

為了克服這些難題,斯坦福等多所大學(xué)的一個(gè)研究團(tuán)隊(duì)提出了一系列新算法,可使用基于后悔的人類偏好模型來(lái)優(yōu)化采用人類反饋時(shí)的行為,而沒(méi)有采用社區(qū)廣泛接受的僅考慮獎(jiǎng)勵(lì)總和的部分回報(bào)模型。不同于部分回報(bào)模型,基于后悔的模型可直接提供有關(guān)最優(yōu)策略的信息。

這樣一種機(jī)制帶來(lái)了一個(gè)幸運(yùn)的結(jié)果:完全不需要強(qiáng)化學(xué)習(xí)了!

這樣一來(lái),就能在具有高維狀態(tài)和動(dòng)作空間的通用型 MDP 框架中來(lái)解決 RLHF 問(wèn)題了。

研究者提出,他們這項(xiàng)研究成果的核心見(jiàn)解是:將基于后悔的偏好框架與最大熵(MaxEnt)原理結(jié)合起來(lái),可得到優(yōu)勢(shì)函數(shù)與策略之間的雙射。通過(guò)將對(duì)優(yōu)勢(shì)的優(yōu)化換成對(duì)策略的優(yōu)化,可以推導(dǎo)出一個(gè)純監(jiān)督學(xué)習(xí)的目標(biāo),其最優(yōu)值為專家獎(jiǎng)勵(lì)下的最優(yōu)策略。該團(tuán)隊(duì)將這種方法命名為對(duì)比偏好學(xué)習(xí)(Contrastive Preference Learning/CPL),因?yàn)槠漕愃朴谌藗儚V為接受的對(duì)比學(xué)習(xí)目標(biāo)。

圖片


  • 論文地址:https://arxiv.org/pdf/2310.13639.pdf
  • 代碼地址:https://github.com/jhejna/cpl

相比于之前的方法,CPL 有三大關(guān)鍵優(yōu)勢(shì)。

一、CPL 能像監(jiān)督學(xué)習(xí)一樣擴(kuò)展,因?yàn)樗皇褂帽O(jiān)督式目標(biāo)來(lái)匹配最優(yōu)優(yōu)勢(shì),而無(wú)需使用任何策略梯度或動(dòng)態(tài)規(guī)劃。

二、CPL 是完全離策略的方法,因此其可有效使用任何離線的次優(yōu)數(shù)據(jù)源。

三、CPL 可應(yīng)用于任意馬爾可夫決策過(guò)程(MDP),使其可以從序列數(shù)據(jù)上的偏好查詢中學(xué)習(xí)。

該團(tuán)隊(duì)表示,之前的 RLHF 方法都無(wú)法同時(shí)滿足以上三點(diǎn)。為了表明 CPL 方法符合以上三點(diǎn)描述,研究者進(jìn)行了實(shí)驗(yàn),結(jié)果表明該方法確實(shí)能有效應(yīng)對(duì)帶有次優(yōu)和高維離策略數(shù)據(jù)的序列決策問(wèn)題。

值得注意的是,他們?cè)趯?shí)驗(yàn)中發(fā)現(xiàn):在 MetaWorld 基準(zhǔn)上,CPL 竟能有效地使用與對(duì)話模型一樣的 RLHF 微調(diào)流程來(lái)學(xué)習(xí)在時(shí)間上擴(kuò)展的操作策略。

具體來(lái)說(shuō),他們使用監(jiān)督學(xué)習(xí)方法,在高維圖像觀察上對(duì)策略進(jìn)行預(yù)訓(xùn)練,然后使用偏好來(lái)對(duì)其進(jìn)行微調(diào)。無(wú)需動(dòng)態(tài)規(guī)劃或策略梯度,CPL 就能達(dá)到與基于先驗(yàn)式強(qiáng)化學(xué)習(xí)的方法一樣的性能表現(xiàn)。與此同時(shí),CPL 方法要快 1.6 倍,參數(shù)效率也提高了四倍。當(dāng)使用更密集的偏好數(shù)據(jù)時(shí),CPL 的性能表現(xiàn)在 6 項(xiàng)任務(wù)的 5 項(xiàng)上超越了強(qiáng)化學(xué)習(xí)。

對(duì)比偏好學(xué)習(xí)

這種方法的核心思想很簡(jiǎn)單:研究者發(fā)現(xiàn),當(dāng)使用最大熵強(qiáng)化學(xué)習(xí)框架時(shí),后悔偏好模型中使用的優(yōu)勢(shì)函數(shù)可被輕松替換成策略的對(duì)數(shù)概率。但是,這種簡(jiǎn)單的替換能帶來(lái)巨大的好處。如果使用策略的對(duì)數(shù)概率,就不需要學(xué)習(xí)優(yōu)勢(shì)函數(shù)或應(yīng)付與類強(qiáng)化學(xué)習(xí)算法相關(guān)的優(yōu)化難題了。

研究者表示,這不僅能造就對(duì)齊更緊密的后悔偏好模型,還能完全依靠監(jiān)督學(xué)習(xí)來(lái)學(xué)習(xí)人類反饋。

下面首先將推導(dǎo) CPL 目標(biāo),并表明對(duì)于帶有無(wú)界數(shù)據(jù)的專家用戶獎(jiǎng)勵(lì)函數(shù) r_E,該方法可以收斂到最優(yōu)策略。然后將說(shuō)明 CPL 與其它監(jiān)督學(xué)習(xí)方法的聯(lián)系。最后,研究者將說(shuō)明如何在實(shí)踐中使用 CPL。他們表示,這些算法屬于一個(gè)用于解決序列決策問(wèn)題的新方法類別,這類方法非常高效,因?yàn)樗苤苯訌幕诤蠡诘钠弥袑W(xué)習(xí)出策略,而無(wú)需強(qiáng)化學(xué)習(xí)。

圖片

從最優(yōu)優(yōu)勢(shì)到最優(yōu)策略

在使用后悔偏好模型時(shí),偏好數(shù)據(jù)集 D_pref 包含有關(guān)最優(yōu)優(yōu)勢(shì)函數(shù) A^? (s, a) 的信息。我們可以直觀地認(rèn)為,該函數(shù)度量的是一個(gè)給定動(dòng)作 a 比最優(yōu)策略在狀態(tài) s 時(shí)生成的動(dòng)作的糟糕程度。

因此根據(jù)定義,最大化最優(yōu)優(yōu)勢(shì)的動(dòng)作就是最優(yōu)動(dòng)作,并且從偏好學(xué)習(xí)最優(yōu)優(yōu)勢(shì)函數(shù)應(yīng)該讓人能直觀地提取出最優(yōu)策略。

具體而言,該團(tuán)隊(duì)證明了以下定理:

圖片

直接學(xué)習(xí)策略的好處。以這種方式直接學(xué)習(xí) π 有諸多實(shí)踐和理論上的好處。其中最明顯的可能是:直接學(xué)習(xí)策略的話,就無(wú)需學(xué)習(xí)其它任何函數(shù)了,比如獎(jiǎng)勵(lì)函數(shù)或價(jià)值函數(shù)。這使得 CPL 比之前的方法簡(jiǎn)單很多。

與對(duì)比學(xué)習(xí)的聯(lián)系。CPL 方法直接使用一個(gè)對(duì)比目標(biāo)來(lái)進(jìn)行策略學(xué)習(xí)。研究者表示,鑒于對(duì)比學(xué)習(xí)目標(biāo)已經(jīng)在大型數(shù)據(jù)集和神經(jīng)網(wǎng)絡(luò)方面取得了有目共睹的成功,因此他們預(yù)計(jì) CPL 能比使用傳統(tǒng)強(qiáng)化學(xué)習(xí)算法的強(qiáng)化學(xué)習(xí)方法進(jìn)行更好的擴(kuò)展。

實(shí)踐方面需要考慮的問(wèn)題

對(duì)比偏好學(xué)習(xí)框架提供了一個(gè)通用的損失函數(shù),可用于從基于優(yōu)勢(shì)的偏好中學(xué)習(xí)策略,基于此可以派生出許多算法。下面將基于一個(gè)實(shí)踐效果很好的特定 CPL 框架實(shí)例介紹實(shí)踐方面需要考慮的問(wèn)題。

使用有限離線數(shù)據(jù)的 CPL。盡管 CPL 可通過(guò)無(wú)界偏好數(shù)據(jù)收斂到最優(yōu)策略,但實(shí)際上我們通常關(guān)心的是學(xué)習(xí)有限離線數(shù)據(jù)集。在這種設(shè)置下,外推到數(shù)據(jù)集支持之外太遠(yuǎn)的策略表現(xiàn)很差,因?yàn)樗鼈儾扇〉膭?dòng)作會(huì)導(dǎo)致出現(xiàn)分布之外的狀態(tài)。

正則化。在有限設(shè)置中,我們希望選擇能最小化 CPL 損失函數(shù)的策略,同時(shí)為該數(shù)據(jù)集中的動(dòng)作賦予更高的可能性。為了做到這一點(diǎn),研究者使用一個(gè)保守的正則化器得到了以下?lián)p失函數(shù):當(dāng)策略在 D_pref 中的動(dòng)作上有更高的可能性時(shí),就分配更低的損失,從而保證其在分布內(nèi)。

圖片

預(yù)訓(xùn)練。該團(tuán)隊(duì)發(fā)現(xiàn),如果使用行為克隆(BC)方法對(duì)策略 π_θ 進(jìn)行預(yù)訓(xùn)練,往往能得到更優(yōu)的結(jié)果。因此,在通過(guò) CPL 損失使用偏好來(lái)進(jìn)行微調(diào)之前,該團(tuán)隊(duì)使用了標(biāo)準(zhǔn)的最大似然行為克隆目標(biāo)來(lái)訓(xùn)練策略,即:

圖片

實(shí)驗(yàn)及結(jié)果

這一節(jié)將解答以下有關(guān) CPL 的問(wèn)題:一、CPL 能否有效地根據(jù)基于后悔的偏好來(lái)微調(diào)策略?二、CPL 能否擴(kuò)展用于高維控制問(wèn)題和更大的網(wǎng)絡(luò)?三、CPL 的哪些組件對(duì)于獲得高性能很重要?

偏好數(shù)據(jù)。使用次優(yōu)的離策略 rollout 數(shù)據(jù)和偏好,研究者評(píng)估了 CPL 為一般性 MDP 學(xué)習(xí)策略的能力。

基準(zhǔn)方法。實(shí)驗(yàn)中考慮了三種基準(zhǔn)方法:監(jiān)督式微調(diào)(SFT)、偏好隱式 Q 學(xué)習(xí)(P-IQL)、% BC(通過(guò)對(duì) rollout 的 top X% 進(jìn)行行為克隆來(lái)訓(xùn)練策略)。

CPL 表現(xiàn)如何?

使用基于狀態(tài)的觀察數(shù)據(jù)時(shí),CPL 表現(xiàn)如何?對(duì)于基于狀態(tài)的實(shí)驗(yàn)結(jié)果,主要可見(jiàn)表 1 的第 1 和 3 行。

當(dāng)使用更稀疏的比較數(shù)據(jù)時(shí)(第 3 行),CPL 在 6 個(gè)環(huán)境中的 5 個(gè)上都優(yōu)于之前的方法,并且相比于 P-IQL 的優(yōu)勢(shì)大都很明顯,尤其是 Button Press、Bin Picking 和 Sweep Into 環(huán)境。當(dāng)應(yīng)用于具有更密集比較的數(shù)據(jù)集時(shí),CPL 比 P-IQL 的優(yōu)勢(shì)還要更大(第 1 行),并且在所有環(huán)境上都很顯著。

圖片

CPL 如何擴(kuò)展用于高維觀察數(shù)據(jù)?為了測(cè)試 CPL 的監(jiān)督目標(biāo)能否擴(kuò)展用于高維連續(xù)控制問(wèn)題,該團(tuán)隊(duì)將 MetaWorld 數(shù)據(jù)集渲染成了 64 × 64 的圖像。

表 1 的第 2 和 4 行給出了基于圖像的實(shí)驗(yàn)結(jié)果。他們得到了有趣的發(fā)現(xiàn):對(duì) SFT 來(lái)說(shuō),性能表現(xiàn)略有提升,但 P-IQL 的提升卻很明顯。當(dāng)學(xué)習(xí)更密集的偏好數(shù)據(jù)時(shí)(第 2 行),CPL 仍舊在 6 個(gè)環(huán)境中的 4 個(gè)上優(yōu)于 P-IQL,在 Sweep Into 上兩者相當(dāng)。當(dāng)學(xué)習(xí)更稀疏的比較數(shù)據(jù)時(shí)(第 4 行),CPL 和 P-IQL 在大多數(shù)任務(wù)上都表現(xiàn)相當(dāng)。

考慮到 CPL 有明顯更低的復(fù)雜性,這樣的結(jié)果就更驚人了!P-IQL 必須學(xué)習(xí)一個(gè)獎(jiǎng)勵(lì)函數(shù)、一個(gè) Q 函數(shù)、一個(gè)價(jià)值函數(shù)和一個(gè)策略。CPL 則都不需要,它只需學(xué)習(xí)一個(gè)策略,這能極大減少訓(xùn)練時(shí)間和參數(shù)數(shù)量。

正如下表 2 所示,在圖像任務(wù)上,CPL 的運(yùn)行速度比 P-IQL 快 1.62 倍,并且參數(shù)數(shù)量還不到 P-IQL 的四分之一。隨著網(wǎng)絡(luò)越來(lái)越大,使用 CPL 所帶來(lái)的性能增益只會(huì)有增無(wú)減。

圖片

哪些組件有助于 CPL 的性能表現(xiàn)?

從實(shí)驗(yàn)結(jié)果可以看到,當(dāng)使用有更密集比較的數(shù)據(jù)集時(shí),CPL 和基準(zhǔn)方法之間的差距會(huì)更大。這與之前在對(duì)比學(xué)習(xí)方面的研究成果一致。

為了研究這種效果,研究者基于一個(gè)包含 5000 個(gè)片段的固定大小的數(shù)據(jù)集,通過(guò)增加每個(gè)片段采樣的比較數(shù)量,對(duì) CPL 的性能進(jìn)行了評(píng)估。下圖 2 給出了在基于狀態(tài)的觀察數(shù)據(jù)的開(kāi)抽屜(Drawer Open)任務(wù)上的結(jié)果。

整體上看,當(dāng)每片段采樣的比較數(shù)量增加時(shí),CPL 都能從中受益,僅有 Plate Slide 任務(wù)例外。

圖片

最后,該團(tuán)隊(duì)也對(duì) CPL 的超參數(shù)(溫度值 α 和偏差正則化器 λ)進(jìn)行了消融研究;該研究也基于開(kāi)抽屜任務(wù),結(jié)果見(jiàn)圖 2 右側(cè)。盡管 CPL 使用這些值的表現(xiàn)已經(jīng)很好了,但實(shí)驗(yàn)發(fā)現(xiàn)通過(guò)適當(dāng)調(diào)整超參數(shù)(尤其是 λ),其表現(xiàn)還能更好。

責(zé)任編輯:張燕妮 來(lái)源: 機(jī)器之心
相關(guān)推薦

2023-05-25 09:00:00

人工智能ChatGPTOpenAI

2025-10-30 01:22:00

強(qiáng)化學(xué)習(xí)RFT大模型

2024-06-05 09:59:13

2025-10-08 10:26:04

2020-12-02 10:09:00

機(jī)器學(xué)習(xí)人工智能計(jì)算機(jī)

2025-04-25 13:34:53

R1DeepSeekAgent

2022-11-02 14:02:02

強(qiáng)化學(xué)習(xí)訓(xùn)練

2018-12-03 09:35:26

互聯(lián)網(wǎng)

2024-12-09 08:45:00

模型AI

2025-11-04 08:42:27

2025-10-21 08:53:00

2020-08-10 06:36:21

強(qiáng)化學(xué)習(xí)代碼深度學(xué)習(xí)

2023-03-09 08:00:00

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋

2022-11-03 14:13:52

強(qiáng)化學(xué)習(xí)方法

2021-02-07 10:01:31

AI 數(shù)據(jù)人工智能

2025-10-24 12:07:12

2021-10-08 15:21:52

AI 數(shù)據(jù)人工智能

2023-01-31 10:13:29

AI模型

2017-06-10 16:19:22

人工智能智能體強(qiáng)化學(xué)習(xí)

2023-11-07 07:13:31

推薦系統(tǒng)多任務(wù)學(xué)習(xí)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

久久久国产精品视频| 91精品综合久久久久久| 免费日韩av电影| 在线观看视频二区| 狠狠色丁香久久综合频道| 日韩高清免费在线| 午夜精品免费看| 国产在线美女| 国产精品二三区| 精品日本一区二区三区| 在线观看亚洲一区二区| 亚洲视频久久| 日韩有码在线播放| 国产成人精品无码片区在线| 日韩免费在线电影| 狠狠色狠色综合曰曰| 精品少妇人妻av一区二区| 香蕉视频黄在线观看| 狠狠色丁香婷婷综合| 日本久久久久久| 国产一级在线免费观看| 久久精品播放| 亚洲剧情一区二区| 日本亚洲一区二区三区| 一区二区视频免费完整版观看| 夜夜嗨av一区二区三区中文字幕 | 久草免费福利在线| av天在线观看| 久久久久亚洲蜜桃| 成人在线视频网址| 国产情侣在线播放| 美女视频免费一区| 国产精品69久久| 国产免费观看av| 亚洲精品国产日韩| 欧美激情精品久久久久久久变态 | 日韩在线免费看| 国产91丝袜在线观看| 亚洲xxxxx性| 国产精品久久免费| 久久成人免费电影| 国产精品精品久久久| 日韩美一区二区| 国产精品普通话对白| 欧美激情一级精品国产| 久久婷婷国产麻豆91| 中文字幕日韩一区二区不卡| 久久网福利资源网站| 欧美一区二区三区观看| 欧美激情欧美| 久久精品视频在线| 一起操在线播放| 天天综合亚洲| 九九热这里只有精品6| 美女的奶胸大爽爽大片| 欧美日韩精品一本二本三本| 欧美美最猛性xxxxxx| 九九久久免费视频| 伊人影院久久| 欧美在线视频免费| 久久久免费高清视频| 日韩精品1区2区3区| 国产精品日本精品| 国产精品xxxxxx| 麻豆国产精品777777在线| 国产日韩中文字幕| 国产黄色大片网站| 成人丝袜18视频在线观看| 国产精品传媒毛片三区| 亚洲色欧美另类| 国产欧美一区二区精品性色超碰| 色狠狠久久av五月综合| 看黄网站在线观看| 亚洲伊人色欲综合网| 日韩小视频在线播放| 中国字幕a在线看韩国电影| 日本韩国精品一区二区在线观看| av污在线观看| 91在线一区| 亚洲另类欧美自拍| 少妇高潮一区二区三区喷水| 欧美日韩一区二区三区四区在线观看| 性欧美激情精品| 最新中文字幕免费| 国产精品自在欧美一区| 久久精品国产精品国产精品污| 国产高清视频在线播放| 亚洲色图欧美激情| 免费高清在线观看免费| av一级久久| 亚洲韩国欧洲国产日产av| 欧美激情亚洲色图| 国产精品二区影院| 国产精品h在线观看| av av片在线看| 91美女蜜桃在线| 波多野结衣三级在线| 超碰资源在线| 91精品在线观看入口| 捆绑凌虐一区二区三区| 91精品国产视频| 欧美中在线观看| 亚洲第一页在线观看| 国产日韩欧美综合一区| 阿v天堂2018| av成人在线观看| 亚洲精品国产免费| 高h视频免费观看| 全国精品久久少妇| 久久精品国产99精品国产亚洲性色| 午夜视频成人| 一本大道久久精品懂色aⅴ| 久久综合桃花网| 精品国产91乱码一区二区三区四区| 色综合久久88| 91亚洲国产成人精品一区| 99国产精品国产精品毛片| 中文字幕在线中文字幕日亚韩一区| 国产高清中文字幕在线| 欧美一区二区三区四区五区 | 一区二区三区免费看视频| 久久婷婷综合色| 色吊丝一区二区| 久久久久久有精品国产| 国产精品一级视频| 国产精品人人做人人爽人人添| 国产91xxx| www.成人网| 久久国产精品久久久| 在线观看国产黄| 国产午夜精品在线观看| 91av资源网| 老牛影视av一区二区在线观看| 欧美成人免费播放| 国产又色又爽又黄又免费| 欧美国产精品专区| 国产理论在线播放| 精品视频网站| 国产精品久久久久久久久男 | 午夜精品美女自拍福到在线| av网站免费大全| 亚洲人成网站色在线观看| 91高清国产视频| 成人动漫免费在线观看| 国产精品成人一区二区| 成人精品福利| 欧美性色黄大片| 91精品久久久久久久久久久久| 乱人伦精品视频在线观看| 久久精品国产理论片免费| 蜜桃在线视频| 亚洲系列中文字幕| 中文字幕人妻一区二区在线视频| 欧美国产激情一区二区三区蜜月| 日韩视频免费在线播放| 欧洲杯半决赛直播| 国产一区二区色| 中文字幕在线三区| 精品久久一区二区| 日日夜夜综合网| 久久久国产精品午夜一区ai换脸 | 国产精品一区二区久久不卡 | 免费人成黄页网站在线一区二区| 五月天色一区| 91精品网站在线观看| 操日韩av在线电影| 国产成人自拍一区| 欧美视频国产精品| 亚洲精品国产精品国自| 国产精品自产自拍| 国产中文字幕乱人伦在线观看| 老牛影视av一区二区在线观看| 日韩女优人人人人射在线视频| 91在线免费看| 精品久久久久久无| 6080午夜伦理| 亚洲天堂av老司机| 无码任你躁久久久久久老妇| 视频一区在线播放| 日本三级中文字幕在线观看| 欧美性生活一级片| 国产在线观看精品一区二区三区| 国产丝袜在线播放| 国产一区二区欧美日韩| 精品国产伦一区二区三| 一本色道久久加勒比精品| 天堂а√在线中文在线鲁大师| 国产福利精品一区二区| 已婚少妇美妙人妻系列| 综合激情婷婷| 欧洲av一区| 91久久偷偷做嫩草影院电| 国产成人97精品免费看片| a级网站在线播放| 亚洲欧美日韩国产中文| 国产超碰人人模人人爽人人添| 日韩欧美国产激情| 久草网站在线观看| 中文字幕第一区综合| 四虎永久免费观看| 麻豆精品国产91久久久久久| 大肉大捧一进一出好爽视频| 久久精品青草| 欧美国产一区二区在线| 国产 日韩 欧美| 欧美综合在线观看| 欧美人与牲禽动交com| 中文字幕欧美专区| 婷婷五月综合久久中文字幕| 在线综合视频播放| 久久久精品毛片| 午夜精品久久久久久久蜜桃app| 美国一级片在线观看| 久久人人超碰精品| 私密视频在线观看| 国产精品资源在线| 中文字幕第一页在线视频| 美女国产精品| 国产精品又粗又长| 欧美三级乱码| www亚洲国产| 色88久久久久高潮综合影院| 欧美在线视频一区二区三区| 嗯用力啊快一点好舒服小柔久久| 亚洲一区二区免费在线| 国产福利一区二区三区在线播放| 国产成人久久久| 日本午夜大片a在线观看| 九九热这里只有在线精品视| 成人日韩欧美| 久久精品国产亚洲一区二区 | 国产精品美女久久久久久不卡| 99re视频在线播放| 欧洲大片精品免费永久看nba| 国产免费成人av| 91精品xxx在线观看| 欧洲亚洲免费视频| 成人欧美大片| 欧美做受高潮1| 丝袜诱惑一区二区| 91豆花精品一区| 91福利在线免费| 国产做受高潮69| 成人av影院在线观看| 欧美激情视频免费观看| 美洲精品一卡2卡三卡4卡四卡| 欧美国产日本在线| www555久久| 2019中文字幕在线| 日日av拍夜夜添久久免费| 国产精品av网站| 岛国精品在线| 成人中文字幕在线观看| 精品午夜视频| 5566av亚洲| 老司机成人在线| 久久精品日产第一区二区三区精品版| 久久porn| 欧美不卡1区2区3区| 久久久久97| 欧美日韩亚洲免费| 成人嘿咻视频免费看| 中文字幕人成一区| 欧美日本一区二区视频在线观看| 成人性生活视频免费看| 亚洲欧美日韩国产一区二区| 最新中文字幕2018| 国产一区二区三区免费| 中文字幕制服丝袜| 久久久久久一级片| 天天色天天综合| 亚洲精品高清视频在线观看| 久久久精品视频在线| 日韩欧美在线字幕| 91久久精品国产91性色69| 91精品国产综合久久福利| 污视频在线免费观看| 尤物九九久久国产精品的特点 | 国产精品欧美日韩一区二区| 成人在线分类| 久久久久成人精品免费播放动漫| 欧美在线色图| 日韩av在线播放不卡| 久久婷婷亚洲| 午夜诱惑痒痒网| 久久综合九色综合97婷婷女人| xxxxx99| 亚洲一区免费在线观看| 亚洲国产av一区二区三区| 欧美一级高清片| 国产在线视频网址| 久久久久免费精品国产| 国产第一精品| 久久久影院一区二区三区 | 国产午夜精品久久久久久久| 91精品国产闺蜜国产在线闺蜜| 五月激情丁香一区二区三区| 97超碰人人模人人人爽人人爱| 日韩久久免费电影| 最新黄网在线观看| 国产精品日韩久久久久| 亚洲精品进入| 999久久欧美人妻一区二区| 日本视频一区二区三区| 熟妇人妻久久中文字幕| 亚洲日本在线a| 中文字幕福利视频| 亚洲精品美女在线观看播放| 麻豆av免费在线观看| 日本一区二区三区在线播放| 在线精品国产亚洲| 亚洲视频电影| 久久免费黄色| japanese在线观看| 亚洲色图丝袜美腿| 中文字幕在线观看1| 亚洲精品一区二区在线| 国产又色又爽又黄刺激在线视频| 亚洲tv在线观看| 日韩精品电影| 午夜免费福利在线| 久久综合九色综合97婷婷女人 | 欧美日韩精品综合在线| 美丽的姑娘在线观看免费动漫| 久久久久久久久中文字幕| 电影91久久久| 在线视频不卡国产| 麻豆成人久久精品二区三区小说| 国产精品揄拍100视频| 性久久久久久久| 日日夜夜精品免费| 欧美激情视频一区| av在线亚洲色图| 亚洲色成人www永久在线观看| 国模无码大尺度一区二区三区| 精品一区二区在线观看视频| 欧美唯美清纯偷拍| 777电影在线观看| 国产精品久久久久久一区二区| 国产真实有声精品录音| 88av.com| 国产欧美精品一区二区色综合朱莉 | 日本高清免费观看| 亚洲欧美另类在线| 99国产在线播放| 欧美另类极品videosbestfree| 亚洲精品伊人| 色乱码一区二区三区熟女| 韩国三级在线一区| 永久久久久久久| 欧美一个色资源| 羞羞视频在线免费国产| 国产精品久久7| 一本久久综合| 一区二区伦理片| 欧美视频精品在线观看| 黄色一级大片在线免费看产| 亚洲www在线观看| 99精品视频免费观看| 国产色视频一区二区三区qq号| 一本色道久久综合亚洲精品按摩| 国产福利片在线| 91精品久久久久久久久| 欧美成人嫩草网站| 中文字幕乱视频| 日本高清视频一区二区| 日本中文字幕视频在线| 97夜夜澡人人双人人人喊| 99综合精品| 午夜精产品一区二区在线观看的| 91高清视频免费看| 最新黄网在线观看| 久久精品五月婷婷| 久久激情五月激情| xxxx 国产| 亚洲午夜未满十八勿入免费观看全集 | 亚洲成人激情av| 精品视频二区| 91中文字幕在线| 中日韩男男gay无套| 免费看黄色av| 欧美精品一区二区三区一线天视频| 粉嫩一区二区| 可以在线看黄的网站| 91在线播放网址| a在线观看免费| 欧美亚洲另类制服自拍| 91精品国产自产在线观看永久∴ | 日本女人黄色片| 日韩欧美亚洲成人| a毛片在线观看| 欧美专区一二三| 粉嫩av一区二区三区在线播放| 高潮毛片又色又爽免费 | 不卡视频在线看| 夜夜躁狠狠躁日日躁av| 亚洲**2019国产| 亚洲国产一成人久久精品| 中文字幕在线看高清电影| 日韩精品自拍偷拍|