精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

RLHF中的「RL」是必需的嗎?有人用二進制交叉熵直接微調(diào)LLM,效果更好

人工智能 新聞
Human Feedback 可以有,但這項研究卻表明了「RL」的可替代性。

近來,在大型數(shù)據(jù)集上訓(xùn)練的無監(jiān)督語言模型已經(jīng)獲得了令人驚訝的能力。然而,這些模型是在具有各種目標、優(yōu)先事項和技能集的人類生成的數(shù)據(jù)上訓(xùn)練的,其中一些目標和技能設(shè)定未必希望被模仿。

從模型非常廣泛的知識和能力中選擇其期望的響應(yīng)和行為,對于構(gòu)建安全、高性能和可控的人工智能系統(tǒng)至關(guān)重要。很多現(xiàn)有的方法通過使用精心策劃的人類偏好集將所需的行為灌輸?shù)秸Z言模型中,這些偏好集代表了人類認為安全和有益的行為類型,這個偏好學(xué)習(xí)階段發(fā)生在對大型文本數(shù)據(jù)集進行大規(guī)模無監(jiān)督預(yù)訓(xùn)練的初始階段之后。

雖然最直接的偏好學(xué)習(xí)方法是對人類展示的高質(zhì)量響應(yīng)進行監(jiān)督性微調(diào),但最近相對熱門的一類方法是從人類(或人工智能)反饋中進行強化學(xué)習(xí)(RLHF/RLAIF)。RLHF 方法將獎勵模型與人類偏好的數(shù)據(jù)集相匹配,然后使用 RL 來優(yōu)化語言模型策略,以產(chǎn)生分配高獎勵的響應(yīng),而不過度偏離原始模型。

雖然 RLHF 產(chǎn)生的模型具有令人印象深刻的對話和編碼能力,但 RLHF pipeline 比監(jiān)督學(xué)習(xí)復(fù)雜得多,涉及訓(xùn)練多個語言模型,并在訓(xùn)練的循環(huán)中從語言模型策略中采樣,產(chǎn)生大量的計算成本。

而最近的一項研究表明:現(xiàn)有方法使用的基于 RL 的目標可以用一個簡單的二進制交叉熵目標來精確優(yōu)化,從而大大簡化偏好學(xué)習(xí) pipeline。也就是說,完全可以直接優(yōu)化語言模型以堅持人類的偏好,而不需要明確的獎勵模型或強化學(xué)習(xí)。

圖片

論文鏈接:https://arxiv.org/pdf/2305.18290.pdf

來自斯坦福大學(xué)等機構(gòu)研究者提出了直接偏好優(yōu)化(Direct Preference Optimization,DPO),這種算法隱含地優(yōu)化了與現(xiàn)有 RLHF 算法相同的目標(帶有 KL - 發(fā)散約束的獎勵最大化),但實施起來很簡單,而且可直接訓(xùn)練。

實驗表明,至少當(dāng)用于 60 億參數(shù)語言模型的偏好學(xué)習(xí)任務(wù),如情感調(diào)節(jié)、摘要和對話時,DPO 至少與現(xiàn)有的方法一樣有效,包括基于 PPO 的 RLHF。

DPO 算法

與現(xiàn)有的算法一樣,DPO 也依賴于理論上的偏好模型(如 Bradley-Terry 模型),以此衡量給定的獎勵函數(shù)與經(jīng)驗偏好數(shù)據(jù)的吻合程度。然而,現(xiàn)有的方法使用偏好模型定義偏好損失來訓(xùn)練獎勵模型,然后訓(xùn)練優(yōu)化所學(xué)獎勵模型的策略,而 DPO 使用變量的變化來直接定義偏好損失作為策略的一個函數(shù)。鑒于人類對模型響應(yīng)的偏好數(shù)據(jù)集,DPO 因此可以使用一個簡單的二進制交叉熵目標來優(yōu)化策略,而不需要明確地學(xué)習(xí)獎勵函數(shù)或在訓(xùn)練期間從策略中采樣。

DPO 的更新增加了首選 response 與非首選 response 的相對對數(shù)概率,但它包含了一個動態(tài)的、每個樣本的重要性權(quán)重,以防止模型退化,研究者發(fā)現(xiàn)這種退化會發(fā)生在一個樸素概率比目標上。

為了從機制上理解 DPO,分析損失函數(shù)圖片的梯度是很有用的。關(guān)于參數(shù) θ 的梯度可以寫成:

圖片

其中圖片是由語言模型圖片和參考模型圖片隱含定義的獎勵。直觀地說,損失函數(shù)圖片的梯度增加了首選補全 y_w 的可能性,減少了非首選補全 y_l 的可能性。

重要的是,這些樣本的權(quán)重是由隱性獎勵模型圖片對不喜歡的完成度的評價高低來決定的,以 β 為尺度,即隱性獎勵模型對完成度的排序有多不正確,這也是 KL 約束強度的體現(xiàn)。實驗表明了這種加權(quán)的重要性,因為沒有加權(quán)系數(shù)的這種方法的 naive 版本會導(dǎo)致語言模型的退化(附錄表 2)。

在論文的第五章,研究者對 DPO 方法做了進一步的解釋,提供了理論支持,并將 DPO 的優(yōu)勢與用于 RLHF 的 Actor-Critic 算法(如 PPO)的問題聯(lián)系起來。具體細節(jié)可參考原論文。

實驗

在實驗中,研究者評估了 DPO 直接根據(jù)偏好訓(xùn)練策略的能力。

首先,在一個控制良好的文本生成環(huán)境中,他們思考了這樣一個問題:與 PPO 等常見偏好學(xué)習(xí)算法相比,DPO 在參考策略中權(quán)衡獎勵最大化和 KL-divergence 最小化的效率如何?接著,研究者還評估了 DPO 在更大模型和更困難的 RLHF 任務(wù) (包括摘要和對話) 上的性能。

最終發(fā)現(xiàn),在幾乎沒有超參數(shù)調(diào)整的情況下,DPO 的表現(xiàn)往往與帶有 PPO 的 RLHF 等強大的基線一樣好,甚至更好,同時在學(xué)習(xí)獎勵函數(shù)下返回最佳的 N 個采樣軌跡結(jié)果。

從任務(wù)上說,研究者探索了三個不同的開放式文本生成任務(wù)。在所有實驗中,算法從偏好數(shù)據(jù)集圖片中學(xué)習(xí)策略。

在可控情感生成中,x 是來自 IMDb 數(shù)據(jù)集的電影評論的前綴,策略必須生成具有積極情感的 y。為了進行對照評估,實驗使用了預(yù)先訓(xùn)練好的情感分類器去生成偏好對,其中圖片

對于 SFT,研究者微調(diào)了 GPT-2-large,直到收斂于 IMDB 數(shù)據(jù)集的訓(xùn)練分割的評論。總之,x 是來自 Reddit 的論壇帖子,該策略必須生成帖子中要點的總結(jié)。基于此前工作,實驗使用了 Reddit TL;DR 摘要數(shù)據(jù)集以及 Stiennon et al. 收集的人類偏好。實驗還使用了一個 SFT 模型,該模型是根據(jù)人類撰寫的論壇文章摘要 2 和 RLHF 的 TRLX 框架進行微調(diào)的。人類偏好數(shù)據(jù)集是由 Stiennon et al. 從一個不同的但經(jīng)過類似訓(xùn)練的 SFT 模型中收集的樣本。

最后,在單輪對話中,x 是一個人類問題,可以是從天體物理到建立關(guān)系建議的任何問題。一個策略必須對用戶的查詢做出有吸引力和有幫助的響應(yīng);策略必須對用戶的查詢做出有意思且有幫助的響應(yīng);實驗使用 Anthropic Helpful and Harmless 對話集,其中包含人類和自動化助手之間的 170k 對話。每個文本以一對由大型語言模型 (盡管未知) 生成的響應(yīng)以及表示人類首選響應(yīng)的偏好標簽結(jié)束。在這種情況下,沒有預(yù)訓(xùn)練的 SFT 模型可用。因此,實驗只在首選完成項上微調(diào)現(xiàn)成的語言模型,以形成 SFT 模型。

研究者使用了兩種評估方法。為了分析每種算法在優(yōu)化約束獎勵最大化目標方面的效率,在可控情感生成環(huán)境中,實驗通過其實現(xiàn)獎勵的邊界和與參考策略的 KL-divergence 來評估每種算法。實驗可以使用 ground-truth 獎勵函數(shù) (情感分類器),因此這一邊界是可以計算得出的。但事實上,ground truth 獎勵函數(shù)是未知的。因此研究者通過基線策略的勝率評估算法的勝率,并用 GPT-4 作為在摘要和單輪對話設(shè)置中人類評估摘要質(zhì)量和響應(yīng)有用性的代理。針對摘要,實驗使用測試機中的參考摘要作為極限;針對對話,選用測試數(shù)據(jù)集中的首選響應(yīng)作為基線。雖然現(xiàn)有研究表明語言模型可以成為比現(xiàn)有度量更好的自動評估器,但研究者進行了一項人類研究,證明了使用 GPT-4 進行評估的可行性 GPT-4 判斷與人類有很強的相關(guān)性,人類與 GPT-4 的一致性通常類似或高于人類標注者之間的一致性。

圖片

除了 DPO 之外,研究者還評估了幾種現(xiàn)有的訓(xùn)練語言模型來與人類偏好保持一致。最簡單的是,實驗在摘要任務(wù)中探索了 GPT-J 的零樣本 prompt,在對話任務(wù)中探索了 Pythia-2.8B 的 2-shot prompt。此外,實驗還評估了 SFT 模型和 Preferred-FT。Preferred-FT 是一個通過監(jiān)督學(xué)習(xí)從 SFT 模型 (可控情感和摘要) 或通用語言模型 (單回合對話) 中選擇的完成 y_w 進行微調(diào)的模型。另一種偽監(jiān)督方法是 Unlikelihood,它簡單地優(yōu)化策略,使分配給 y_w 的概率最大化,分配給 y_l 的概率最小化。實驗在「Unlikehood」上使用了一個可選系數(shù) α∈[0,1]。他們還考慮了 PPO,使用從偏好數(shù)據(jù)中學(xué)習(xí)的獎勵函數(shù),以及 PPO-GT。PPO-GT 是從可控情感設(shè)置中可用的 ground truth 獎勵函數(shù)學(xué)習(xí)的 oracle。在情感實驗中,團隊使用了 PPO-GT 的兩個實現(xiàn),一個是現(xiàn)成的版本,以及一個修改版本。后者將獎勵歸一化,并進一步調(diào)整超參數(shù)以提高性能 (在運行具有學(xué)習(xí)獎勵的「Normal」PPO 時,實驗也使用了這些修改)。最后,研究者考慮了 N 個基線中的最優(yōu)值,從 SFT 模型 (或?qū)υ捴械?Preferred-FT) 中采樣 N 個回答,并根據(jù)從偏好數(shù)據(jù)集中學(xué)習(xí)的獎勵函數(shù)返回得分最高的回答。這種高性能方法將獎勵模型的質(zhì)量與 PPO 優(yōu)化解耦,但即使對中度 N 來說,在計算上也是不切實際的,因為它在測試時需要對每個查詢進行 N 次采樣完成。

圖 2 展示了情緒設(shè)置中各種算法的獎勵 KL 邊界。

圖片

圖 3 展示了 DPO 收斂到其最佳性能的速度相對較快。

圖片

更多研究細節(jié),可參考原論文。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2017-04-11 10:48:53

JS二進制

2021-11-10 09:15:00

CPU01 二進制Linux

2022-07-18 09:01:15

SwiftApple二進制目標

2009-02-27 09:37:33

Google二進制代碼

2010-10-13 15:45:23

MySQL二進制日志

2025-01-26 10:21:54

2011-05-25 14:10:38

浮點數(shù)

2021-01-14 09:40:54

漏洞macOS屬性表文件

2015-07-21 11:43:14

CentosRPM

2018-10-22 14:37:16

二進制數(shù)據(jù)存儲

2022-10-31 08:02:42

二進制計算乘法

2020-10-10 14:27:01

kubernetes 二進制部署

2010-04-16 09:42:25

Fedora 13Nvidia二進制驅(qū)動

2022-09-05 08:12:28

Google二進制Protobuf

2011-12-31 11:22:50

Web新世界

2011-12-31 09:31:57

Web

2023-09-20 00:02:33

C++14二進制字面量

2022-04-21 08:37:29

應(yīng)用業(yè)務(wù)二進制

2021-10-08 14:32:33

電腦二進制計算機

2009-12-16 10:49:42

Ruby操作二進制文件
點贊
收藏

51CTO技術(shù)棧公眾號

国产成人精品123区免费视频| 中文字幕久久熟女蜜桃| 黄色一级片av| 中文字幕在线欧美| 国产高清一区二区| 精品乱码亚洲一区二区不卡| 18禁男女爽爽爽午夜网站免费| 国产二区在线播放| 极品美女销魂一区二区三区免费| 欧美大片免费看| 蜜桃传媒一区二区亚洲| 高清不卡一区| 91精品办公室少妇高潮对白| 吴梦梦av在线| 色综合久久网女同蕾丝边| 麻豆久久久久久久| 5252色成人免费视频| 国产美女福利视频| 亚洲ab电影| 欧美一级xxx| 激情婷婷综合网| 18video性欧美19sex高清| 中文幕一区二区三区久久蜜桃| 国产精品一区二区欧美| 国产情侣av在线| 久久婷婷av| 国语对白做受69| 婷婷伊人五月天| 成人黄色av| 亚洲精品视频免费在线观看| 无码人妻一区二区三区精品视频| 成人自拍视频网| 色综合久久中文综合久久97| 丝袜人妻一区二区三区| 午夜视频在线观看网站| 久久久99精品久久| 久久国产一区二区| 亚洲精品一区二区口爆| 国产一区二区网址| 国产精品网址在线| 久久影视中文字幕| 先锋亚洲精品| 情事1991在线| 国产免费av一区| 日韩一级在线| 91精品国产91久久久久久吃药| 欧美日韩精品亚洲精品| 天天插综合网| 久久成年人视频| 欧美肥妇bbwbbw| 亚洲乱码在线| 欧美另类极品videosbestfree| 日本一级片免费| 久久久久久久久丰满| 久久五月情影视| 东方av正在进入| 91精品啪在线观看国产81旧版 | 国产富婆一级全黄大片| 久久99久久久久| 成人黄色免费片| 国产精品久久久久久久久毛片 | 在线视频欧美一区| 麻豆tv在线| 亚洲欧美一区二区三区极速播放| 国产奶头好大揉着好爽视频| 超碰个人在线| 亚洲综合激情网| 国产a级片网站| a欧美人片人妖| 欧美在线观看视频一区二区三区| 免费一级特黄录像| 欧美一区=区三区| 日韩一级免费一区| 无码精品一区二区三区在线播放| 五月综合久久| 最新的欧美黄色| 国产大片免费看| 黄色精品网站| 日本老师69xxx| 国产原创中文av| 懂色av中文一区二区三区| 国产欧美日韩视频一区二区三区| 三级毛片在线免费看| 国产人妖乱国产精品人妖| 正义之心1992免费观看全集完整版| caoporm免费视频在线| 亚洲成人激情自拍| 久久久久久久片| 国产aa精品| 日韩精品丝袜在线| 老司机福利在线观看| 在线看片不卡| 热门国产精品亚洲第一区在线| 又骚又黄的视频| 国产91精品免费| 日韩国产一区久久| 伊人福利在线| 欧美午夜宅男影院| 手机免费看av片| 日韩精品一区二区三区免费观影 | 精品成人久久久| 老司机免费视频一区二区| 国产高清一区视频| 中文字幕在线播放| 久久69国产一区二区蜜臀| 秋霞蜜臀av久久电影网免费 | 精品无码久久久久久久久| 周于希免费高清在线观看| 色香色香欲天天天影视综合网| 欧美美女一级片| 乱亲女h秽乱长久久久| 日韩中文字幕免费| 高清乱码免费看污| 粉嫩在线一区二区三区视频| 亚洲精品永久www嫩草| 老司机深夜福利在线观看| 91精品国产综合久久香蕉麻豆| 毛片网站免费观看| 禁久久精品乱码| 国产精品揄拍一区二区| 免费国产在线观看| 天天综合色天天综合| 免费国偷自产拍精品视频| 欧美一区二区麻豆红桃视频| 欧美亚洲一区在线| 天堂网在线观看视频| 亚洲欧美色综合| 亚洲一区精品视频在线观看| 伊人久久大香线蕉综合网站| 国模私拍视频一区| www黄色网址| 亚洲蜜臀av乱码久久精品蜜桃| 91精品无人成人www| 国产毛片一区二区三区| 欧美壮男野外gaytube| 少妇人妻偷人精品一区二区| 亚洲免费成人av| 69久久精品无码一区二区| 99久久影视| 成人免费网视频| 国产传媒在线播放| 91精品国产91热久久久做人人| 国产美女高潮视频| 国内精品伊人久久久久av一坑| 亚洲高清视频一区| 日韩国产大片| 在线国产精品播放| 在线视频播放大全| 国产精品伦理在线| 手机免费看av网站| 亚洲激情中文| 成人在线观看av| 国模私拍一区二区国模曼安| 亚洲国产第一页| 国产又黄又爽又色| 久久精品一区二区三区四区| 北条麻妃视频在线| 国产精品88久久久久久| 亚洲一区亚洲二区亚洲三区| 手机电影在线观看| 亚洲成人av在线播放| 麻豆久久久久久久久久| 久久久久久一级片| 搡女人真爽免费午夜网站| 久久要要av| 999热视频| 中文av在线全新| 中文字幕不卡av| 国产乱人乱偷精品视频| 一区二区三区丝袜| 国产肉体xxxx裸体784大胆| 久久精品动漫| 裸体裸乳免费看| 国产精品自在| 国产精品一二三在线| a在线免费观看| 日韩精品免费视频| 亚洲视频一区二区三区四区| 亚洲精品国产成人久久av盗摄| 日本不卡视频一区| 欧美96一区二区免费视频| 日本一二三区视频在线| 极品国产人妖chinesets亚洲人妖| 日本伊人精品一区二区三区介绍| 黄网站在线播放| 亚洲精品99久久久久| 亚洲高清视频免费观看| 一区二区三区高清不卡| 久久av无码精品人妻系列试探| 久久97超碰国产精品超碰| 老太脱裤子让老头玩xxxxx| 欧美艳星介绍134位艳星| wwwxx欧美| 日韩三区在线| 国产做受69高潮| 蜜桃av在线免费观看| 日韩av在线免费| 99re只有精品| 色欧美88888久久久久久影院| 日韩欧美综合视频| 国产亚洲精品超碰| 中文字幕第3页| 久久99精品视频| 春日野结衣av| 欧美在线一级| 亚洲精品日产精品乱码不卡| av无码一区二区三区| 经典三级在线一区| 国产suv精品一区二区| 色哟哟无码精品一区二区三区| 国产精品一二| 成年人深夜视频| 色999日韩| 久久伊人一区| 亚洲一区二区电影| 成人在线一区二区| 免费污视频在线一区| 97国产精品久久| 日本在线视频网址| 久久精品人人爽| av在线日韩国产精品| 日韩精品视频观看| 色婷婷av一区二区三区之红樱桃 | 不卡av日日日| 国产午夜在线视频| 亚洲精品视频在线播放 | 在线观看精品国产视频| 无码国产精品高潮久久99| 日韩一区二区三区观看| 91极品身材尤物theporn| 欧美亚洲高清一区| 亚洲精品男人的天堂| 亚洲高清免费视频| 国产亚洲精品码| 欧美午夜一区二区三区免费大片| 久久99国产精品久久99大师 | 国产精品久久免费| 色婷婷综合久久久久中文| 日韩欧美中文字幕一区二区| 亚洲精品免费播放| www.av视频| 亚洲欧美另类图片小说| 午夜时刻免费入口| 国产三级精品三级| 中字幕一区二区三区乱码| 久久美女艺术照精彩视频福利播放 | 亚洲福利视频二区| 欧美天堂在线视频| 亚洲第一精品久久忘忧草社区| 亚洲精品综合网| 亚洲国产精久久久久久| 午夜影院免费体验区| 亚洲国产精品福利| 亚洲av成人无码网天堂| 亚洲美女性视频| 久草视频视频在线播放| 亚洲日本成人网| yourporn在线观看中文站| 中文字幕在线日韩| 成人在线网址| 欧美黄色片视频| 狠狠操一区二区三区| 欧美一级bbbbb性bbbb喷潮片| 欧美大胆成人| 国产精品av在线播放| 欧美高清影院| 99在线视频播放| 日韩高清影视在线观看| 欧美重口乱码一区二区| 成人3d精品动漫精品一二三| 在线观看欧美亚洲| 黄色国产精品| 日韩免费高清在线| 国精产品一区一区三区mba桃花| 国产精品久久久久久久99| 成人黄色a**站在线观看| 亚洲天堂网一区二区| 国产欧美一区二区精品婷婷| 中文乱码字幕高清一区二区| 亚洲综合精品久久| 亚洲成人第一网站| 欧美精品一二三| 黄色片一区二区| 国产一区二区三区三区在线观看| 午夜在线小视频| 97热精品视频官网| 国产亚洲精彩久久| 肥熟一91porny丨九色丨| 国产一区二区在线| 狠狠精品干练久久久无码中文字幕| 在线一区视频| 亚洲国产成人va在线观看麻豆| 顶级嫩模精品视频在线看| 老熟妇一区二区| 亚洲综合成人网| 波多野结衣一区二区在线| 日韩美女视频一区二区在线观看| 你懂的在线看| 欧美日本高清视频| 精品视频在线一区二区在线| 国产精品一区二区免费看| 999久久久亚洲| www.日日操| 成人免费的视频| 182在线观看视频| 色8久久精品久久久久久蜜| av在线资源观看| 中文字幕欧美视频在线| 涩涩涩视频在线观看| 91在线网站视频| 欧美一级淫片| 成年人视频网站免费观看| 国产成人综合视频| 欧美乱大交做爰xxxⅹ小说| 婷婷久久综合九色综合伊人色| 国产又粗又长又黄| 在线观看中文字幕亚洲| 五月天国产在线| 国产精品乱码一区二区三区| 久久久久久久久国产一区| 久久99999| 久久噜噜亚洲综合| 国产精品视频免费播放| 精品国产123| 欧美xxxxhdvideosex| 成人黄色片网站| 91亚洲成人| 天天色综合天天色| 国产欧美一区二区三区在线老狼| 亚洲天堂视频网站| 亚洲乱亚洲乱妇无码| 国产白浆在线免费观看| 国产成人精品免费视频大全最热| 欧美搞黄网站| 日韩av福利在线观看| 专区另类欧美日韩| 国产精品视频一二区| 色先锋资源久久综合5566| 伦一区二区三区中文字幕v亚洲| 欧美性大战久久久久| 毛片一区二区| 色哟哟精品观看| 91国模大尺度私拍在线视频| 国产在线超碰| 国产精品久久久久久久久借妻 | 神马香蕉久久| 成人黄色av片| 91免费视频观看| 中文字幕在线看人| 一区二区日韩精品| 99热播精品免费| 中文字幕中文字幕在线中一区高清| 精品影视av免费| 欧美激情精品久久| 亚洲精品在线一区二区| 国产不卡123| 日本精品一区二区三区视频| 日韩av一区二区三区| 日本高清黄色片| 欧美欧美欧美欧美| 91麻豆免费在线视频| 99在线视频首页| 老鸭窝亚洲一区二区三区| 欧美另类z0zx974| 制服丝袜av成人在线看| 激情av在线播放| 麻豆成人在线播放| 日本欧美一区二区| 日韩欧美国产成人精品免费| 日韩三级在线免费观看| sm久久捆绑调教精品一区| 久久久水蜜桃| 极品少妇xxxx精品少妇偷拍| 国产精品成人免费观看| 亚洲成年人影院在线| 天然素人一区二区视频| 日本在线视频www色| k8久久久一区二区三区| 最新国产中文字幕| 欧美老女人性视频| 老牛国内精品亚洲成av人片| 亚洲高清在线免费观看| 高清精品视频| 日韩精品视频在线播放| a资源在线观看| 亚洲欧美亚洲| 亚洲综合成人婷婷小说| 五月婷婷免费视频| 国外视频精品毛片| 欧美亚洲精品在线| 天天躁日日躁狠狠躁av| 91黄色激情网站| 美女日批视频在线观看| 日韩电影在线播放| 成人性视频免费网站| 国产精品午夜一区二区| 欧美黄色三级网站| 久久资源中文字幕| 久久午夜夜伦鲁鲁片| 91精品在线免费观看|