精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

深挖RLHF潛力,復旦語言和視覺團隊創新獎勵模型優化,讓大模型更對齊

人工智能 新聞
現在,復旦團隊進一步挖掘 RLHF 的潛力,重點關注獎勵模型(Reward Model)在面對實際應用挑戰時的表現和優化途徑。

圖片


繼第一份大模型對齊技術報告(Secrets of RLHF in Large Language Models Part I)獲 NeurIPS 2023 workshop best paper 后,第二份報告強勢歸來,復旦語言和視覺團隊聯合推出的第二份報告將進入這一領域更深層的探索和優化之旅。在首份報告中,復旦團隊揭示了 RLHF 在大語言模型中的基本框架,并深入分析了 PPO 算法的內部機制,特別是 PPO-max 的高級版本在策略模型訓練穩定性中的關鍵作用。

現在,復旦團隊進一步挖掘 RLHF 的潛力,重點關注獎勵模型(Reward Model)在面對實際應用挑戰時的表現和優化途徑。

圖片


復旦團隊究竟做了什么?

隨著 ChatGPT、GPT-4 等大型語言模型的技術創新和廣泛應用,這些模型已成為當下的技術熱點,革新了我們與機器互動的方式,為各行各業提供了前所未有的模型支持。這些模型在解決復雜問題、自動生成內容和理解復雜指令方面展現出巨大價值。然而這些模型在在對齊人類價值觀和偏好方面,仍有所局限。OpenAI、Anthropic 等研究團隊對此的應對策略是深入研究基于人類反饋的強化學習(RLHF),目標是使 AI 系統在價值觀上與人類更加一致。

OpenAI 的超級對齊、過程監督和 Anthropic 的憲法式 AI 等最新研究,都進一步強調了 AI 對齊的重要性。這些概念不僅關注于如何讓 AI 回答更加符合人類的文化和審美標準,而且還關注于如何讓 AI 在更廣泛的倫理和價值觀層面與人類保持一致。這些進展不僅展示了科學上的挑戰,也體現了哲學上的探索。它們在確保 AI 的目標與人類社會真正對齊的過程中起到了關鍵作用,對未來人類文明的發展至關重要。

為了使大模型與人類的偏好對齊,RLHF 通過獎勵模型(reward model)學習人類的偏好。好的獎勵模型能夠反映人類的偏好和價值目標,指引大模型充分發揮自身的能力造福社會;反之,壞的獎勵模型則歪曲誤解人類的偏好,誤導大模型滑向不被人類理解和接納的深淵。因此,獎勵模型的設計和實施對于大型語言模型的發展至關重要。

在研究過程中復旦團隊曾發現一個有趣的現象,如果按照特定方式選擇 hh-rlhf 數據集(Anthropic 公開的有用和無害的人類偏好數據集)中的 70% 數據用于訓練獎勵模型,這個獎勵模型用于 PPO 階段訓練將導致模型無論輸入任何內容都只會回復 「免責聲明」:

圖片

這種現象是 hh-rlhf 數據集中存在大量沖突、模糊數據的結果,這樣的沖突會導致獎勵模型無法準確反映人類的偏好,語言模型無法捕捉到一致的獎懲,便采用這種萬金油策略來應對獎勵模型。而復旦團隊所做的第一個工作便是揭露了 hh-rlhf 數據集中存在大量噪音數據的現象。通過去除數據集中的噪音,可以使得模型更加貼合人類的喜好。正如下述例子中所看到的:

圖片

除了構造出對于訓練 RM 來說更加優質的數據,還可以從 RM 本身出發, 適當改變 RM 的選擇策略等,使得 RM 變的更好,進而使得 LLM 能夠更貼切人類的喜好,這便是復旦團隊所做的第二個工作。團隊提出了使用對比學習、元學習的方式,很大程度提高了 RM 對于數據好壞的甄別的能力,RM 的改進直接使得 LLM 變得更加符合人類的需求。

通過對比學習后的 RM 能夠指導 LLM 回答問題更加精確,更符合人類價值觀偏好。比如在遇到有害問題時,優化前的 LLM 只會拒絕回答問題,但是優化后的 RM 能夠更具體的回答有害的地方,給出更符合人類價值觀的回答,正如下述例子所看到的:

圖片

上述例子中優化前的 LLM 沒有按照用戶的指示回答問題,而是說它不能理解或回答問題,這是不準確的,因為作為人工智能,它能夠理解并根據輸入生成語言。這個回答不能解決用戶的問題,也沒有幫助。另一方面,對比學習優化后的 LLM 選擇不提供表示笨的詞語,相反,它通過強調支持孩子的重要性并認識到他們獨特的優勢和劣勢,提供了一種建設性的方法。這種回應是有幫助的,因為它將對話轉向了一種積極和支持兒童發展的方法,這比提供負面標簽更有益,危害更小,更符合人類價值觀的對齊。

同時復旦團隊的研究進一步提升了語言模型在面對不同數據分布的同一任務時的表現,確保了模型能夠在相同任務不同數據分布的情況下,也能準確把握和遵循人類價值觀,提高了語言模型的泛化能力。

通過 RLHF 的應用,我們可以對模型的輸出進行細致的調整,引導模型以更符合人類喜好和期望的方式作出反應。例如,未經 RLHF 優化的模型可能提供的回答簡單直接,可能缺乏文藝氣息;而經過 RLHF 優化的模型則能提供更加典雅、有文學感的回答。正如下述對比的例子所看到的那樣,第一條回答略顯生硬,更談不上「信達雅」,第二條回答卻明顯更文學氣息,更耐人尋味。通過 RLHF,大模型從從生硬的 「機言」跨越到多情的「人語」。

圖片


圖片

深化 RLHF:獎勵模型在大語言模型中的關鍵作用與挑戰

在復旦團隊的技術報告中,他們深入探索了 Reinforcement learning from human feedback(RLHF)這一技術。此技術對于使語言模型更好地與人類價值觀和意圖對齊,產生更有幫助和更無害的回應具有重要意義。同時報告指出了在實際應用中獎勵模型所面臨的挑戰,包括數據集中固有的不正確和模糊的偏好數據,以及獎勵模型在特定數據分布上訓練時的泛化困難。

為了應對這些挑戰,復旦團隊從數據和算法兩個角度進行了深入研究。在數據方面,通過多個獎勵模型的一致性結果來量化偏好的強度,并分析了不同強度偏好數據獎勵模型性能的影響。在算法方面,團隊探索了如何學習泛化特征以區分選擇和拒絕的回應,并利用元學習來促進獎勵模型對于超出分布(OOD)數據的泛化能力,以及迭代 RLHF 優化。獎勵模型被訓練成為人類偏好的代理,但在準確反映人類偏好方面面臨著諸多挑戰。

此外,復旦團隊還開源了包含偏好強度注釋的 anthropic-hh 數據集,并使用 GPT-4 標記了驗證集。本技術報告所使用的訓練代碼在項目網站提供。這些研究和開發不僅為 AI 技術樹立了新的里程碑,也為未來的研究和應用開辟了新的道路,進一步提升了語言模型的響應質量和適應性。通過這些工作,團隊更加深化了對 RLHF 的理解,并為大語言模型的優化開創了新篇章。

項目地址:https://github.com/OpenLMLab/MOSS-RLHF

數據影響力:塑造人類偏好模型的關鍵因素

復旦團隊探索了人類偏好數據的固有噪聲問題,并重點研究了偏好強度對獎勵模型表現的影響。通過分析不同強度偏好數據對模型性能的影響,團隊提出了新的獎勵模型方法,以更準確地建模偏好。實驗顯示,通過這種方法,能夠更有效地辨別正確和錯誤的偏好標注,并提升模型的整體性能。

在這部分中,報告深入探討了數據如何影響對人類偏好的建模。

圖片

通過隨機初始化若干獎勵模型,訓練后在數據集上評估得到對數據集中比較對的細粒度打分,研究團隊量化了每個比較對的偏好強度,并分析了不同強度偏好數據對獎勵模型性能的影響。上圖中展示的是測試集上偏好強度的分布情況,注意到數據集中大約 25% 的數據的偏好強度小于零,并且有很多數據的偏好強度在 0 附近,意味著可能存在不正確的數據偏好標注和低差異的數據。從數據集中抽取了一些真實存在的樣本如下:

數據示例一:標簽錯誤(harmful)

圖片

chosen 標簽對應的回復包含了剝奪人類睡眠的方法,而 rejected 標簽對應的回復拒絕了這種對人類有害的回答。從無害性角度來說,rejected 的回復是更安全、更符合人類偏好的。而模型評估 chosen 與 rejected 的平均得分差異(即偏好強度)為 - 6.23,表示更偏好 rejected 回復,這與人類價值偏好一致

數據示例一:標簽錯誤(helpful)

圖片

chosen 拒絕回復,rejected 給出了比較詳細的解釋。從有用性的角度來說,rejected 標簽對應的回答是我們更希望看到的。而模型評估 chosen 與 rejected 的平均得分差異為 - 5.85,表現出對 rejected 數據的偏好,與人類價值偏好一致

數據示例二:低差異

圖片

對于上述 chosen 和 rejected 對應的回復,差異不大。模型評估 chosen 與 rejected 的平均得分差異為 - 0.0007,表示模型認為這兩個回復差別不大,符合人類價值判斷

在復旦團隊的技術報告中提供了一個關于偏好強度的細致分析(如下左圖所示)。

將數據集按照偏好強度從小到大排序,等分成若干組分別計算組內數據的統計信息。可以看出,偏好差異的均值在不同數據組中表現出顯著的差異。這反映了數據中存在的不同偏好強度,從幾乎無差異到顯著差異的偏好都有所體現。同時,偏好差異的標準差顯示出一種 U 形模式,這意味著在偏好非常明顯或非常不明顯的情況下,模型在評估偏好時的不確定性增加。

此外,團隊使用 GPT-4 對測試集進行標注,衡量提出的偏好強度量化指標與 GPT4 評估的一致性。

團隊發現平均偏好差異與 GPT-4 一致性很高(如下右圖所示)。這說明偏好強度指標一定程度上反映了真實世界的人類價值偏好。

圖片

這一發現為我們提供了深入理解獎勵模型處理不同類型偏好數據的能力,并指出了優化模型時需要考慮的關鍵方面。通過對偏好差異的這種細致分析,我們能更好地調整獎勵模型,以提高其在處理復雜偏好情境時的準確性和魯棒性。

圖片

復旦團隊進一步考慮在獎勵模型訓練過程中對于不同類型的偏好數據施加不同的處理,以及如何通過調整方法來優化模型性能。例如,團隊深入分析了不同類型數據對獎勵模型的影響,通過識別噪音數據并進行矯正操作(如:標簽反轉等),發現對偏好強度最低的 10% 樣本單獨訓練,其在測試集上的正確率低于 35%,但是如果將其標簽反轉,正確率可以接近 65%。

實驗表明,對數據集中特定部分進行細致處理,可以顯著提高獎勵模型在理解復雜人類偏好方面的性能。

在研究中,復旦團隊探索了四種去噪方法(flip、margin、soft label 等)來提升獎勵模型的性能,它們在實際測試中都顯示出了相對于原始方法的改進。團隊構造了三個測試集,分別是原始測試集、GPT4 清洗后的測試集以及 GPT4 與原始測試集保持一致的測試子集。這些方法的訓練過程如下圖中所示。實驗顯示,原始方法在訓練過程中在會有明顯的精度下滑,表明了原始數據集存在噪聲,會導致訓練過擬合。而相比較來說,四種去噪方法在所有測試集上能夠保持穩定的精度,表現出比原始方法整體更好的性能。

圖片

復旦團隊使用 PPO 方法,利用上述四種方法和原始方法訓練得到的獎勵模型微調 SFT 模型,下圖反映了 PPO 訓練過程中各項指標的變化情況,注意到 KL 散度和 PPL 指標顯示去噪方法能夠提供更穩定的 PPO 訓練過程。

圖片

復旦團隊利用 GPT-4-turbo 評估了不同方法經過 PPO 訓練得到的語言模型相比較于原始方法的輸出質量,特別是在有害提示下的表現,復旦團隊的方法顯示出了顯著的改善。這可能歸因于處理有害提示相關的偏好數據中的噪聲數據時去噪的有效性。

圖片

這些實驗成果為如何更好地建模人類偏好提供了新的視角,并指出了未來研究的方向。

對比學習:獎勵模型的新視角

圖片

在傳統的獎勵建模中,一個重大挑戰是模型通常在「chosen」和「rejected」樣本之間表現出高度的特征相似性,如上圖所示,通過 t-SNE 獲得的特征分布顯示,在基線模型中,「chosen」和「rejected」樣本特征分布有顯著的重疊。這表明模型無法捕捉固有的細微差異 以及數據上的區別。缺乏這樣的辨別能力可能會導致表現不佳,因為模型可能很難有效地了解是什么使特定行為或結果變得更好或不更好。

相比之下,對比學習有一些先天的優勢:1)有效的特征提取:對比學習通過比較相似和不相似的樣本來訓練模型,這有助于模型更有效地學習數據中的獨特特征。2)強大的泛化能力:通過學習區分不同的樣本,使用對比學習訓練的模型通常表現出更好的泛化能力,使它們能夠更有效地處理新的、看不見的數據。

在 RLHF 的背景下,將對比學習整合到偏好建模中需要仔細對比數據的構造。常有的兩種方法則是:① 「chosen」數據 和「rejected」數據的差異對比 ②「chosen」 數據 和 「rejected」數據的直接對比

這兩種方法都有其優點和局限性。如果目標是使模型能夠更精確地識別和獎勵表現明顯優于壞數據的好數據,那么第一種方法可能更合適,它允許模型學習區分喜歡和不喜歡。然而,如果目標是增強模型的泛化能力并使其能夠有效地區分各種數據,那么第二種方法可能更理想,它使模型能夠通過區分選擇和拒絕的反應來推斷偏好。在實踐中,還可以考慮將這兩種方法結合起來以獲得更好的建模結果。

復旦團隊基于已有的兩種對比學習方法來探究對比學習在獎勵模型中能否區分出數據的差異性。

首先是 SwAV(Swapping Assignments between Views):SwAV 是一種創新的無監督視覺特征學習方法,與傳統的對比學習方法不同,它在同時對數據進行聚類的同時,確保了對同一圖像不同增強(或「視圖」)的聚類分配的一致性。該方法包括創建圖像的多個視圖,預測每個視圖的聚類分配,然后使用交換機制來匹配一個視圖的聚類分配與另一個視圖的預測。這種方法提高了學習效率,避免了比較每一對可能的圖像,從而降低了計算成本。

其次是 SimCSE(Simple Contrastive Learning of Sentence Embeddings):SimCSE 是一種利用對比學習來學習句子嵌入的技術。它通過使用相同的句子作為正樣本,將它們輸入到基于 Transformer 的模型(如 BERT)中以生成嵌入。關鍵之處在于,相同的句子在不同的 dropout 掩碼下進行建模,從而產生了嵌入的變化。負樣本則來自不同的句子,使得能夠高效而有效地學習句子表示,而無需復雜的數據增強或外部標記數據。

圖片

如上圖所示,當在獎勵模型中引入 SimCSE 后,通過 t-SNE 獲得的特征分布顯示,選擇和拒絕響應之間的特征分布重疊減少了。

復旦團隊還利用 GPT-4-turbo 評估了不同方法相比較于基線模型 (普通 PPO 和 SFT 模型) 的輸出質量,如下圖所示,在有用性和無害性上,模型性能都有一定的提升,表明對比學習確實可以通過讓獎勵模型增強區分數據之間的差異性的能力來改善模型的能力。

圖片

MetaRM:引領獎勵模型的未來 

復旦團隊所提出的目標是,當策略模型的分布隨著 PPO 訓練而變化時,獎勵模型仍應保持對從新分布中采樣的響應的區分度。

在本節中,復旦團隊提出了 MetaRM,一種通過元學習將原始偏好數據與移位分布對齊的方法。MetaRM 的關鍵思想是:獎勵模型的訓練階段應該最小化原始偏好數據的損失,同時最大化從轉移的策略分布中采樣的響應之間的差異。

圖片

MetaRM 的實現依靠四個關鍵步驟:首先,計算差異損失來評估策略變化后響應的差異;其次,根據梯度上升方向調整獎勵模型參數;接著,使用更新后的參數計算原始偏好對的普通損失;最后,優化原始參數,以沿著梯度下降方向進行調整。總體來說,MetaRM 通過元學習過程調整獎勵模型,確保模型在面對策略分布的演變時,仍能夠識別和獎勵高質量的響應。

總之,MetaRM 的方法是使用元學習訓練獎勵模型,即使在策略模型的分布發生變化時,也能夠識別出質量響應,確保響應仍與原始偏好對齊。

Main Results:實驗結果深度剖析 RLHF

內部任務評估

圖片

在上表中,展示了與 SFT 模型響應相比,復旦團隊所提出方法的獲勝、平局和失敗比例。回合數代表相應回合的模型生成的響應。

圖片

此外,為了更全面地展示復旦團隊所提出方法的優越性,表格 3 中展示了與其它基線(包括普通 PPO)對比的最佳性能,還提供了對 GPT-4 和人類評估的評估結果。

外部任務評估

圖片

如圖所示,即使在 OOD 情景下,復旦團隊所提出的方法仍然優于基線。這表明該方法可以在新領域實現對齊,而無需昂貴的偏好標記一組查詢,從而顯著降低了 RM 培訓的培訓成本。此外,團隊觀察到與內部分布評估結果相比,他們所提出的方法在獲勝率上略有下降。

總結:深度剖析獎勵模型推動 RLHF 新發展

在這篇技術報告中,復旦團隊全面審視了強化學習與人類反饋(RLHF)在大語言模型中的應用,并提出了創新的獎勵模型方法。團隊的研究不僅解決了數據集中存在的不正確和模糊偏好問題,還提高了模型對于新場景的泛化能力。通過復旦團隊所提出的方法,語言模型能夠更準確地理解和符合人類的意圖和價值觀,從而產生更有幫助和更安全的回應。復旦團隊的工作不僅推動了 RLHF 技術的發展,也為未來的研究者和開發者提供了新的思路和工具。

彩蛋

Easter Egg 1—Alignment with Translation Preference 

幾千年來,語言一直是連接人類文明的紐帶。每一種語言都是一個獨特的文化世界,充滿著細膩的情感和深厚的歷史。在這個數字時代,我們試圖通過機器翻譯來跨越語言障礙,但僅僅依靠字面意思的翻譯往往無法傳達語言的真正魅力。就像生活在一個五彩斑斕的世界里,卻只能看到黑白的世界。幸運的是,RLHF 在模擬人類偏好方面不僅限于安全和道德;它還可以用來滿足人們對高質量翻譯的偏好。為了實現這一目標,復旦團隊監督微調 LLaMA-7b 模型,賦予其基本翻譯功能,然后利用獎勵模型來學習人類翻譯偏好。最后,復旦團隊通過 PPO 算法優化翻譯模型,使其生成更符合忠實、表達、優雅偏好的翻譯。

圖片


圖片


圖片

以上三個英漢翻譯的例子生動地說明了翻譯不僅僅是語言的轉換,更是文化和情感的傳遞。在復旦團隊技術報告的下一部分中,將努力探索如何將人類偏好和文化理解有效地融入到機器翻譯系統中。通過實驗和數據分析,期望開發出一種不僅精確而且富有情感深度和文化敏感性的翻譯模型。這樣的模式不僅可以提高翻譯的準確性,而且可以促進不同文化之間的理解和交流。

Easter Egg 2—Alignment Using Compiler Feedback

“Everybody should learn to program a computer, because it teaches you how to think.” 

— Steve Jobs 

人工智能代理生成代碼的過程比最初看起來更加復雜。編程是一門與自然語言的復雜性和可變性相似的學科,提供了多種可能性。然而,如此廣泛的選擇范圍,與稀疏獎勵信號的問題并列時,極大地限制了智能體的探索能力。因此,關鍵的挑戰在于在復雜任務的背景下制定穩健有效的探索策略,這是當前研究中尚未解決的問題。未來,復旦團隊將進一步闡述人工智能代理如何充分探索代碼合成任務。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2023-08-22 13:21:07

AI算法

2023-03-03 13:06:34

大腦分層預測

2024-12-06 09:00:00

2025-08-12 09:23:34

2025-03-03 07:15:00

模型訓練AI

2024-06-06 19:14:27

2023-04-28 15:24:06

模型研究

2023-10-28 13:29:27

2025-07-02 09:17:13

2024-05-07 13:44:57

2025-09-08 09:02:00

2025-11-11 09:03:30

2024-11-02 10:28:03

2024-06-24 08:25:00

2023-07-11 15:38:51

模型方案

2025-05-30 02:00:00

獎勵模型RRMAI

2025-07-10 14:51:29

人工智能AI模型

2024-07-31 15:38:00

2024-11-05 14:25:00

AI模型

2025-03-17 10:25:28

點贊
收藏

51CTO技術棧公眾號

国产一区 在线播放| 成人www视频在线观看| 中文字幕天堂网| 国产美女精品写真福利视频| 久久日一线二线三线suv| 国产精品av网站| 欧美精品videos极品| 日韩mv欧美mv国产网站| 欧美日韩在线综合| 国产免费黄色小视频| 大胆av不用播放器在线播放 | 亚洲系列第一页| 欧美日本一区二区视频在线观看| 国产丝袜一区视频在线观看| 在线视频观看91| 澳门成人av网| 亚洲午夜激情网站| 亚洲欧洲精品在线| 五月婷婷在线播放| 国产精品伊人色| 国产精品第七影院| 国产一级视频在线观看| 成人情趣视频网站| 亚洲乱码国产乱码精品精| 日本在线观看视频一区| 国产v综合v| 亚洲成a人片在线不卡一二三区| 四虎影院一区二区三区| 亚洲精品久久久久久动漫器材一区| 麻豆精品网站| 国模精品系列视频| 午夜69成人做爰视频| 欧美自拍偷拍| 国产视频精品在线| 在线播放av网址| 国产精品2区| 欧美在线观看一区二区| 内射国产内射夫妻免费频道| 伊人222成人综合网| 国产精品美女久久久久av爽李琼| 久久精品人成| 日韩一级在线播放| 国产乱码精品一区二区三| 国产精品久久久久久亚洲影视| 日本三级2019| 欧美日韩伊人| 色综合91久久精品中文字幕| 97精品在线播放| 成人羞羞网站入口免费| 亚洲男人的天堂在线播放| 免费啪视频在线观看| 亚洲精品一区二区三区在线| 日韩欧美中文字幕制服| 少妇精品无码一区二区| 亚洲成人偷拍| 日韩欧美久久久| 免费黄色av网址| 成人福利免费在线观看| 精品国产一二三| 亚洲一区二区三区四区av| 我要色综合中文字幕| 日韩欧美一区中文| 免费观看污网站| 日韩av影院| 亚洲欧美国产日韩天堂区| 中文字幕av网址| 国产一区二区三区四区大秀| 国产香蕉一区二区三区在线视频 | 亚洲美女屁股眼交| 秋霞在线一区二区| 永久免费网站在线| 亚洲成人免费在线观看| 国产二区视频在线播放| 九九热线视频只有这里最精品| 日韩欧美综合在线视频| 天天操天天爽天天射| 欧洲精品久久久久毛片完整版| 3d动漫精品啪啪一区二区竹菊| 国产亚洲色婷婷久久| 欧美爱爱网站| 最近2019中文字幕大全第二页| 国产在线观看免费视频软件| 欧美日韩1区| 91黑丝高跟在线| 波多野结衣av无码| 国产精品一区在线观看乱码| 国产亚洲欧美另类一区二区三区| 精彩国产在线| 亚洲免费电影在线| jizzjizzxxxx| 日韩毛片免费看| 精品国产sm最大网站| 波多野结衣福利| 99久久婷婷这里只有精品 | 国产一区二区按摩在线观看| 国产另类第一区| 98在线视频| 午夜精品久久久久| 伊人成人222| 国产伦精品一区二区三区免费优势 | 欧美精品一区二区三区免费播放| 日韩国产91| 日韩av在线导航| 成年人网站在线观看视频| 国产精品a级| 国产精品国产三级国产aⅴ9色| 国产高清免费在线观看| 久久久久久久久蜜桃| 国产激情在线看| 国产一区二区三区四区五区3d| 精品国产乱码久久久久久老虎| 三区四区在线观看| 日韩视频在线一区二区三区 | 一级aaaa毛片| 久久综合色播五月| 国产一级不卡视频| 日日夜夜一区| 夜夜嗨av一区二区三区免费区| 久久精品亚洲无码| 国产在线精品不卡| 亚洲精品成人a8198a| 在线手机中文字幕| 精品国产伦一区二区三区免费| 国产黄色大片免费看| 国产视频一区在线观看一区免费| 亚洲自拍偷拍一区| 日本美女高清在线观看免费| 一本一道综合狠狠老| 久久久午夜精品福利内容| 91精品99| 91免费精品视频| 三区四区电影在线观看| 色爱区综合激月婷婷| 中文乱码人妻一区二区三区视频| 午夜精品国产| 91中文字幕一区| 日本中文在线| 欧美人牲a欧美精品| 欧美激情视频二区| 日韩电影在线观看一区| 欧美日韩大片一区二区三区| 在线最新版中文在线| 日韩国产高清污视频在线观看| 国产精品111| 成人爱爱电影网址| 日韩国产一级片| 红杏视频成人| 97免费视频在线播放| 丰满熟妇乱又伦| 天天综合网 天天综合色| 国产视频久久久久久| 日韩视频不卡| 国产视频一区二区三区四区| 搞黄网站在线看| 亚洲国产精品中文| 亚洲精品男人天堂| 91亚洲午夜精品久久久久久| 色综合av综合无码综合网站| 国产精品亚洲人成在99www| 国产成人jvid在线播放| 欧美套图亚洲一区| 在线精品亚洲一区二区不卡| 国产欧美一区二区三区在线观看视频| 免费观看日韩电影| 免费观看中文字幕| 成人资源在线播放| 欧洲成人在线观看| 大胆av不用播放器在线播放| 欧美日韩黄视频| 激情五月婷婷小说| 97精品电影院| 天天色综合天天色| 最新精品国产| 久久国产精品久久| 怡红院成人在线| 欧美巨乳美女视频| 视频一区二区在线播放| 欧美性猛片xxxx免费看久爱| 黄视频网站免费看| 成人深夜福利app| 乱子伦视频在线看| 婷婷综合网站| 精品欧美一区二区在线观看视频| 日韩成人av电影| 久久天天躁日日躁| 青青操视频在线| 欧美精选一区二区| 日本少妇全体裸体洗澡| 日本一区二区三区高清不卡| 亚洲综合123| 美女国产一区| 国产xxxx振车| 欧美精品色图| 国产精品免费视频一区二区| www成人在线视频| 欧美国产日韩一区| 国产乱视频在线观看| 精品日韩一区二区| 中日韩在线观看视频| 亚洲一二三区不卡| 国产又粗又猛又爽又黄的视频四季 | 69久久精品| 亚洲成色999久久网站| 在线播放亚洲精品| 精品久久久中文| 日韩a级片在线观看| 久久网站热最新地址| 中文字幕 欧美 日韩| 蜜臀av性久久久久蜜臀aⅴ四虎| 久久国产午夜精品理论片最新版本| 成人在线免费视频观看| 国新精品乱码一区二区三区18| 欧美风情在线视频| 日本91av在线播放| 国产黄大片在线观看| 久久久国产视频| 国产youjizz在线| 日韩精品视频观看| 丰满人妻一区二区三区四区53| 欧美情侣在线播放| 国产字幕在线观看| 日韩欧美成人精品| 日本视频www| 亚洲免费大片在线观看| 在线观看天堂av| 国产日韩欧美在线一区| 亚洲一区二区乱码| 成人高清伦理免费影院在线观看| 色男人天堂av| 狠狠色丁香久久婷婷综合_中| 欧美日韩亚洲自拍| 日本aⅴ亚洲精品中文乱码| 女人扒开屁股爽桶30分钟| 伊人精品视频| 亚洲色欲久久久综合网东京热| 欧美一区成人| 青青在线视频免费观看| 永久亚洲成a人片777777| 亚洲欧洲精品在线| 99久久综合| 中文网丁香综合网| 99久久精品网站| 玖玖精品在线视频| 亚洲h色精品| 亚洲色图都市激情| 欧美日韩99| 国产一线二线三线女| 国产精品二区影院| 精品视频在线观看一区二区| 欧美日一区二区三区在线观看国产免| 国产又粗又猛又爽又黄的网站| 欧美a级片一区| 天堂8在线天堂资源bt| 欧美视频福利| 无码专区aaaaaa免费视频| 国产亚洲激情| 男人的天堂日韩| 麻豆中文一区二区| 一区二区三区四区毛片| 国产精品一区在线| 日韩欧美在线一区二区| 亚洲色图狠狠干| 亚洲精品国产福利| 国产精品815.cc红桃| 久久奇米777| 懂色av粉嫩av浪潮av| 自拍偷拍亚洲欧美日韩| 欧美成人黄色网| 性欧美疯狂xxxxbbbb| 91精品国产综合久久久蜜臀九色| 欧美综合亚洲图片综合区| 国产又大又黄的视频| 日韩你懂的在线观看| 性xxxx视频播放免费| 在线看福利67194| 自由的xxxx在线视频| 668精品在线视频| 欧美日韩在线精品一区二区三区激情综合 | 91国在线视频| 日韩欧美在线网站| 天堂在线中文资源| 日韩在线欧美在线国产在线| aa在线视频| 日本久久久久久| 电影中文字幕一区二区| 精品一区在线播放| 91久久国产| 99热在线这里只有精品| 精品一区二区三区免费播放 | 999av视频| 亚洲精品影视在线观看| 精品自拍一区| 人九九综合九九宗合| 国产一区二区三区视频在线| 麻豆成人在线播放| 中文精品电影| 久久久久久久少妇| 风流少妇一区二区| 老司机精品免费视频| 午夜久久久久久电影| 国产一区二区麻豆| 亚洲精品在线91| 秋霞在线视频| 国产日韩欧美日韩| 网曝91综合精品门事件在线| 青少年xxxxx性开放hg| 久久久国产亚洲精品| 91成人在线观看喷潮蘑菇| 中文天堂在线一区| 国产精品久久久久久99| 日韩精品自拍偷拍| 日韩精品黄色| 国产福利精品视频| 外国成人在线视频| 无码 制服 丝袜 国产 另类| 韩国三级电影一区二区| 九九九视频在线观看| 疯狂做受xxxx高潮欧美日本| 国内精品久久久久久久久久久| 中文字幕日韩欧美在线视频| 日韩理论视频| 国产一区二区无遮挡| 黑人一区二区三区四区五区| 99精品999| 中文字幕中文字幕一区| 国产情侣小视频| 亚洲情综合五月天| 久久男人天堂| 精品国产一区二区三区免费| 欧美日韩国产亚洲一区| 国产资源中文字幕| 中文字幕在线观看一区| 一级特黄aaaaaa大片| 夜夜嗨av色一区二区不卡| 欧美日韩大片| 日本视频一区二区不卡| 羞羞答答国产精品www一本| 久久久久亚洲AV成人无码国产| 亚洲制服丝袜av| 黄色一级a毛片| 97视频人免费观看| 欧美男人操女人视频| 国产一区二区在线视频播放| 91在线看国产| 欧美日韩一二三四区| 亚洲毛片在线免费观看| 一区二区三区短视频| 欧美下载看逼逼| 日韩二区三区在线观看| 欧美性生给视频| 这里只有精品免费| 超碰在线免费公开| 99在线高清视频在线播放| 亚洲第一黄网| 国产肉体xxxx裸体784大胆| 欧美日韩亚洲一区二| 国产在线91| 国产欧美一区二区三区在线看| 天天做天天爱综合| www.555国产精品免费| 亚洲午夜激情av| 欧美人体大胆444www| 国产精品成久久久久三级| 欧美a级成人淫片免费看| gogo亚洲国模私拍人体| 亚洲va中文字幕| 黄色在线视频观看网站| 国产色婷婷国产综合在线理论片a| 亚洲va在线| 国产麻豆xxxvideo实拍| 在线观看一区日韩| 国产三区视频在线观看| 国产精品精品软件视频| 日韩影院精彩在线| 2018天天弄| 亚洲精品一区二区在线| 日日夜夜亚洲| 男人日女人下面视频| 国产精品久久久久久久久果冻传媒| 99riav国产| 日本国产欧美一区二区三区| 国产精品黑丝在线播放 | 国产区在线观看成人精品| 91久久国语露脸精品国产高跟| 久久97精品久久久久久久不卡| 蜜臀av免费一区二区三区| www.成人黄色| 欧美日韩黄色大片| 免费观看久久久久| 久久99国产精品99久久| 精品一区二区免费在线观看| 日韩精品在线免费看| 中文字幕自拍vr一区二区三区| 国产乱人伦精品一区| caoporm在线视频| 色综合久久综合| 国产网红在线观看| 亚洲三区视频| 久久网站热最新地址| www.久久久久久|