精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

揭秘DeepSeek R1-Zero訓練方式,GRPO還有極簡改進方案

人工智能 新聞
其實大模型在DeepSeek-V3時期就已經「頓悟」了?

DeepSeek-V3-Base 在強化學習(RL)調優之前就已經展現出「頓悟時刻」?RL 調整中不斷增加的輸出長度可能是由于 GRPO 中的 BIAS 造成的?

近日,來自 Sea AI Lab、新加坡國立大學、新加坡管理大學的研究人員研究了預訓練特性影響 RL 性能的原理,發表了一篇名為《Understanding R1-Zero-Like Training: A Critical Perspective》的研究報告。

分析表明,DeepSeek-V3-Base 已經展現出「頓悟時刻」,而 Qwen2.5 基礎模型即使沒有提示模板也表現出強大的推理能力,這表明存在潛在的預訓練偏差。此外,作者還在群體相對策略優化(GRPO)中發現了優化偏差,它在訓練期間人為地增加了響應長度(尤其是對于錯誤輸出)。

為解決這個問題,研究人員引入了 Dr. GRPO,這是一種無偏優化方法,可在保持推理性能的同時提高 token 效率。利用這些見解,作者提出了一種簡化的 R1-Zero 方案,使用 7B 基礎模型在 AIME 2024 上實現了 43.3% 的準確率,建立了新的 SOTA 水準。

paper.png

項目鏈接:https://github.com/sail-sg/understand-r1-zero

介紹

最近一段時間,人工智能領域正在迎來變革。DeepSeek-R1-Zero 通過引入類似 R1-Zero 的訓練范式徹底改變了大語言模型(LLM) 后訓練的流程:直接將 RL 應用于基礎 LLM,而不依賴任何監督微調(SFT) 作為初步步驟。

這種新范式因其簡單性和已證明的 RL 擴展現象而具有吸引力:模型推理能力隨著模型響應長度的不斷增加而提高。這種現象還伴隨著「頓悟時刻」(Aha Moment),此時模型展現出了人類一樣的自我反思等新興技能,讓人們見證了強化學習的力量和美感。

在本文中,研究人員旨在通過研究兩個基本組成部分來理解類似 R1-Zero 的訓練:基礎模型和 RL。

在第一部分中,他們研究了基礎模型的各種屬性,重點關注 Qwen2.5 模型系列 ,該模型最近被用于重現 R1-Zero ,以及 DeepSeek-V3-Base,真正的 R1-Zero 模型是從該模型中經過 RL 調整的。

在第二部分中,人們確定了 GRPO 優化中的偏差,這可能會導致錯誤響應逐漸變長。為此,研究人員提出了一個簡單的解決方案,可以在保持推理性能的同時提高 token 效率,稱為 Dr. GRPO(GRPO Done Right)(圖 1 中顯示)。

f1.png

為了理解 R1-Zero 上的訓練方式,研究人員仔細觀察了兩個核心部分:基礎模型和強化學習,隨后重點介紹了其發現。

他們對基礎模型和強化學習的分析表明,實現類似 R1-Zero 訓練可采用極簡方案:利用無偏的 Dr. GRPO 算法,以 Qwen-Math 模板對 Qwen2.5-Math-7B 模型進行強化學習調優,使用 MATH 3-5 級問題作為訓練數據,僅用 8 塊 A100 GPU 訓練 27 小時,就實現了最先進的性能(圖 2 展示)。

image.png

該研究的主要觀點總結如下:

  • 模板對于讓基礎模型回答問題(而非完成句子)至關重要。此外,所有基礎模型在強化學習之前都已具備數學解題能力;
  • 有趣的是,Qwen-2.5 基礎模型在不使用模板時立即獲得約 60% 的提升,這讓研究人員假設它們可能在訓練模型時對拼接的問答文本進行了預訓練;
  • 幾乎所有基礎模型都已表現出「頓悟時刻」,包括 DeepSeek-V3-Base;
  • 新方法 Dr. GRPO 有效修復了 GRPO 在優化中的偏差,實現了更好的標記效率;
  • 模型與模板不匹配會在強化學習重建之前破壞推理能力;
  • 在 Llama-3.2-3B 上進行數學預訓練可提高其強化學習的上限。

基礎模型分析

研究人員對廣泛的基礎模型進行了審查,包括 Qwen-2.5 系列、Llama-3.1 和 DeepSeek 系列,向它們提出從 MATH 訓練集中抽取的 500 個問題,并分析它們的回答。

R1-Zero 訓練能力:模板構建探索性基礎策略

由于從基礎模型進行訓練是 R1-Zero 類范式的基本設置,研究人員首先研究廣泛使用的開源基礎模型,這些模型通常是為了句子補全而訓練的。研究人員探索了是否可以通過適當的模板有效地激發其問答能力,從而作為問答基礎策略 。

在實驗設置中,研究人員納入了 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-7B、Llama-3.1-8B、DeepSeek-Math-7B 和 DeepSeek-V3-Base-685B 進行實驗。

對于每個模型,他們首先應用無模板來獲取模型回答,然后讓 GPT-4o-mini 判斷模型回答是處于問答格式(無論質量如何)還是處于句子補全模式。他們記錄傾向于回答問題的回答百分比作為指標。然后,他們分別應用 R1 模板和 Qwen-Math 模板來獲取模型回答,并根據該指標確定每個模型最合適的模板。最后,使用相應模板評估每個模型的 pass@8 準確度,以判斷基礎策略是否能夠探索出有益于強化學習(RL)改進的軌跡。

在結果呈現中,圖 3 中的左圖顯示了基礎模型(無論是否使用模板)對所提供問題的回答能力。

f3.png

研究人員觀察到,Llama 和 DeepSeek 模型通過使用適當的模板(R1 模板)都提高了回答能力。然而,Qwen2.5 模型在不使用模板時表現最佳(回答率為 100%)。這一有趣的特性激發了他們進一步研究的動力。同時,無模板時最低的回答率表明 DeepSeek-V3-Base 是一個幾乎純粹的基礎模型。這一觀察結果促使他們探討像 DeepSeekV3-Base 這樣的純粹基礎模型是否表現出 「頓悟時刻」的現象。

圖 3 的中圖顯示了不同基礎模型(使用模板)在不同采樣溫度下的 pass@8 準確度。該指標可以作為基礎策略探索能力的指標。例如,如果基礎策略甚至無法采樣出一條通向正確最終答案的軌跡,那么由于沒有獎勵信號,強化學習就不可能改進該策略。他們的結果表明,所有測試的模型都具有探索性(因此已準備好進行強化學習),其中 Qwen2.5 模型表現最佳(甚至超越了 DeekSeek-V3-Base)。這可能部分解釋了為什么大多數 R1-Zero 項目都基于 Qwen2.5 模型。

image.png

基礎模型中已出現「頓悟時刻」

包括 DeepSeek-V3-Base 模型

DeepSeek-R1-Zero 最令人振奮的成果之一,是通過純粹的強化學習訓練,模型涌現出了自我反思行為,也就是所謂的 「頓悟時刻」(Aha moment)。

一些早期研究指出,在開源的 R1 復現項目中可能不存在「頓悟時刻」,因為這些項目所使用的基礎模型已經表現出自我反思相關的關鍵詞。然而,這些研究并未測試過作為真實 R1-Zero 模型強化學習微調基礎的 DeepSeek-V3-Base 模型。研究人員通過自己部署 DeepSeek-V3-Base-685B 模型,并使用 R1 模板對其回答的 500 道 MATH 題目進行分析,填補了這一空白。

從圖 3 的右圖可以看出,DeepSeek-V3-Base 模型也產生了相當數量的自我反思,進一步驗證了早期研究的主張。此外,該研究人員在圖 4 中展示了 DeepSeek-V3-Base 模型生成諸如 「Aha」「等等」「重新檢查問題」等關鍵詞的例子。

f4.png

DeepSeek-V3-Base 已經展現出了頓悟時刻。

另一個重要的問題是,自我反思行為是否在強化學習訓練后提升了模型性能。為了探究這一點,研究人員部署了 DeepSeek-R1-Zero,并分析了它對 MATH 數據集中相同問題的回答。他們發現,與基礎模型相比,R1-Zero 中自我反思行為的出現頻率更高。然而,沒有明確的證據表明這些自我反思行為與更高的準確率相關。

看起來,在基礎模型預訓練中存在的偏差,自我反思行為、數學解決能力在 RL 通過獎勵信號強化之前就已經被注入了。那么越來越長的響應是這種 RL 過程的結果嗎?

強化學習分析

在 Deepseek-R1-Zero 的訓練和研究過程中,一個顯著的趨勢是模型在整個訓練中響應長度增加,這一趨勢被廣泛解釋為模型正在發展「自我反思」等高級推理能力的標志,后續也有很多研究者通過不同的算法和實現方式復現了這一趨勢。

然而,有學者提出,觀察到的響應長度增加可能并非完全由高級推理能力的發展所驅動,而是歸因于 GRPO 目標函數固有的偏差:

image.png

eq3.png

其中,

eq3a.png

R (q, oi) 表示 Deepseek-R1-Zero 中給定問題 q 和采樣響應 oi 的結果獎勵(該結論也適用于過程獎勵案例)。

與公式(2)中的目標函數相比,GRPO 引入了兩種偏差:

  • 響應層面的長度偏差:這種偏差源于對響應長度進行歸一化處理。當模型生成正確響應時(即優勢值為正),較短的響應會獲得更大的梯度更新,從而促使策略傾向于生成簡潔的正確答案。然而,當模型生成錯誤響應時(即優勢值為負),較長的響應由于長度較大而受到的懲罰較輕,導致策略更傾向于生成冗長的錯誤答案。這種長度規范化機制使得模型在正確時偏好簡短,而在錯誤時偏好冗長,形成了一種不對稱的優化傾向。
  • 問題層面的難度偏差:這種偏差源于對問題的獎勵進行標準差歸一化處理。對于標準差較低的問題(即問題過于簡單或過于困難),策略更新時會賦予更高的權重。盡管優勢值歸一化是強化學習中的常見技巧,但 GRPO 將其應用于單個問題層面,而非整個批次,這導致不同問題在目標函數中的權重分布不均。這種機制使得模型更偏好極端簡單或極端困難的問題,而忽視了中等難度的問題,進一步影響了策略的優化方向。

值得注意的是,長度偏差并不僅限于 GRPO,在開源的標準 PPO 算法中也普遍存在。

隨后作者對多個流行的開源 PPO 實現進行了分析,發現這些實現無一例外地在損失函數中表現出了基于響應長度的偏差(詳見附錄 1 和表 2)。

image.png

image.png

研究者推測,這種逐詞歸一化的設計可能源于大語言模型(LLM)的逐詞預訓練機制,其初衷是讓每個詞對目標函數的影響均衡。然而,在強化學習的語境下,通過除以響應長度 | oi | 進行歸一化,卻意外引入了這種偏差。因此這一發現為優化提供了新的思路。

為了優化 GRPO 算法并解決其存在的偏差問題,研究針對 GRPO 兩處修改:一是刪除了長度歸一化項 ∣oi∣,二是移除了標準差(std)標準化項。

同時,為確保優化目標的無偏性,研究在 Listing 1 的掩碼均值函數中將 mask.sum (axis=dim) 替換為一個固定值 MAX_TOKENS,具體如綠色高亮部分所示。

基于上述改進,研究者將這一優化算法命名為 Dr. GRPO,并通過實驗驗證了其在實際應用中的有效性。

image.png

如圖 5 所展示的多項實驗對比結果,證明 Dr. GRPO 能夠有效緩解優化偏差并顯著減少了錯誤回答的長度。

image.png

如果對詳細推導過程感興趣,可以參考附錄 A。

此外,由于 Qwen2.5-Math 基礎模型可以在沒有任何提示模板的情況下輕松回答問題并達到高精度,作者探討了不同模板對 RL 訓練的影響。針對「更大問題覆蓋率提升性能」的普遍觀點,作者還研究了不同模板與問題覆蓋率之間的交互作用。(實驗設置詳見表 3)

image.png

image.png

結果如圖 6 展示了不同實驗的 RL 訓練曲線,揭示了以下結論:

  • 模板決定了初始策略的性能,但 RL 可以將所有策略提升至約 40% 的相似水平(給定合適的問題集);
  • 使用 R1 模板時,問題集覆蓋率顯著影響 RL 動態,覆蓋率不足會導致性能上限降低。而使用 Qwen-Math 模板時,RL 在 GSM-8K 上取得最佳表現,表明在更簡單(且分布外)問題上訓練可大幅提升(近乎翻倍)在更難題上的測試準確率。

進一步分析表明:

  • Qwen2.5-Math-1.5B 基礎模型已具備較強的數學解題能力(見圖 6 右圖的起點),模板的使用反而會破壞這一能力,直到 RL 重建。因此這說明在強調純 RL 帶來的巨大收益時應更加謹慎。
  • 當基礎模型與模板存在較大不匹配時(如 R1 模板與 Qwen2.5-Math-1.5B),策略改進主要依賴 RL 調優,需問題集具有良好的覆蓋率(見圖 6 左圖)。反之,即使是一個小型且完全分布外的問題集,也能通過強化正確推理行為而非注入新知識,有效提升推理能力。

領域特定預訓練可提升 RL 上限

最近成功的 R1-Zero 類數學推理器復制大多以 Qwen2.5 基礎模型作為初始策略,這些模型本身已是強大的數學解題器,并展現出自我反思的模式。不過,該研究人員希望探討另一方面:R1-Zero 類訓練能否在最初數學推理能力較弱的基礎模型上取得成功?他們的回答是肯定的,并且觀察到數學預訓練能夠提升強化學習的上限。

在實驗設置中,他們以 Llama-3.2-3B 基礎模型為起點,采用無偏的 Dr. GRPO 算法進行強化學習微調,并使用 R1 模板。他們假設領域特定的預訓練有助于強化學習,因此選用了在 FineMath 數據集上持續預訓練的 Llama-3.2-3B-FineMath4 模型。此外,正如之前假設的那樣,Qwen2.5 模型很可能是在拼接的問答文本上進行預訓練的,因此他們同樣從 NuminaMath1.5 中準備了一個拼接的數據集,并用 1e-5 的學習率對 Llama-3.2-3B-FineMath 進行了 2 輪持續預訓練。他們將這種拼接持續預訓練的模型稱為 Llama-3.2-3BNuminaQA。

以下是結果呈現。圖 7 的左圖中展示了不同基礎模型的強化學習曲線。他們觀察到,即使是對基礎的 Llama 模型,強化學習也能提升其性能,但提升幅度很小。在經過持續預訓練(以及拼接持續預訓練)以融入數學領域知識后,Llama 模型展現出了更強大的強化學習性能,驗證了他們的假設。

f7.png

作者還使用 Llama 基礎模型重新審視了 GRPO 的優化偏差。圖 7 的右圖比較了使用 GRPO 和 Dr. GRPO 訓練的模型性能和回答長度,可以清楚地看到,GRPO 可以產生「雙重增加」現象,可能導致誤解,即在數學預訓練后,長思維鏈(long-CoT)也能在 Llama 模型上出現。然而,長度的增加可能是由于優化偏差,而這種偏差可以通過他們提出的 Dr. GRPO 有效緩解(圖 7 的右圖)。

結語

研究人員對用于 R1-Zero 類似訓練的基礎模型以及強化學習中所用算法進行了批判性審視。通過分析,作者揭示了預訓練偏差如何影響強化學習的結果,以及諸如 GRPO 這樣的優化選擇如何無意中改變模型的行為。他們提出的 Dr. GRPO 算法提供了一個簡單的修正方案,在保持推理性能的同時提高 token 效率。

最終的研究結果表明,擴大強化學習的規模既能提升效果,又能提高效率 —— 有時,簡單化反而能實現更優的性能。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2025-03-12 13:55:05

2025-02-07 14:08:45

2025-02-11 16:15:09

2025-02-08 11:31:17

DeepseekR1模型

2025-04-23 15:23:25

AI模型代碼

2025-03-14 11:59:29

訓練模型數據

2025-08-14 18:12:59

強化學習AI算法

2025-03-13 11:07:30

2025-02-24 08:40:00

開源模型訓練

2025-03-10 09:10:00

2025-04-07 02:25:00

DeepSeek模型訓練GRPO

2025-05-06 09:09:37

2025-02-19 08:00:00

2025-01-27 12:30:07

2025-02-21 12:24:14

2025-02-03 14:17:27

2025-03-05 09:10:00

AI生成模型

2025-02-20 15:32:28

點贊
收藏

51CTO技術棧公眾號

看片网址国产福利av中文字幕| 久久久精品人妻一区二区三区| av在线天堂| 国产自产2019最新不卡| 久久久久国产精品www| 亚洲天堂资源在线| 免费成人黄色网| 亚洲欧美一区二区三区久本道91| 国产一区二区三区av在线| 无码人妻精品一区二区| 中文字幕午夜精品一区二区三区| 亚洲激情 国产| 午夜激情福利在线| 欧美黄色视屏| 国产精品久久久久久久裸模| 丁香婷婷久久久综合精品国产| www五月天com| 狠狠综合久久| 日韩亚洲欧美成人| 波多野结衣 在线| 亚洲日本视频在线| 欧美日韩免费视频| 久久美女福利视频| 18+激情视频在线| 欧美激情一区二区在线| 国产综合av一区二区三区| 国产精品高潮呻吟久久久| 久久不射2019中文字幕| 欧美国产视频日韩| 亚洲少妇xxx| 国产精品三级| 日韩成人久久久| 亚洲区 欧美区| 视频欧美精品| 欧美中文字幕久久| 久久久免费视频网站| 牛牛电影国产一区二区| 亚洲欧美自拍偷拍| 亚洲人成网站在线播放2019| 欧美伦理影视网| 99免费精品在线观看| 亚洲综合色av| 国产又粗又黄又爽| 蜜臀精品一区二区三区在线观看| 日韩av片电影专区| 在线观看 中文字幕| 欧美日韩在线大尺度| 久久精品99久久久久久久久| 亚洲ⅴ国产v天堂a无码二区| 国产毛片一区二区三区 | 囯产精品一品二区三区| 国产精品一级二级三级| 亚洲v日韩v综合v精品v| 性一交一乱一色一视频麻豆| 国产一区二区伦理| 69堂成人精品视频免费| 精品人妻伦一区二区三区久久 | 亚洲地区一二三色| 日韩欧美精品免费| 欧美aa免费在线| 丁香五六月婷婷久久激情| 日韩av一二三四区| 日本在线观看中文字幕| 午夜久久tv| 欧美激情第一页xxx| 国产精品999久久久| 亚洲精品人人| 日本国产欧美一区二区三区| 欧美一区二区三区网站| 蜜桃视频一区二区三区| 91精品国产自产在线老师啪| 国产夫妻性生活视频| 成人91在线观看| 蜜桃精品久久久久久久免费影院 | 成人免费一区二区三区| 久久精品国产秦先生| 亚洲japanese制服美女| 亚洲精品国产手机| 久久免费的精品国产v∧| 五月天亚洲综合| 超碰人人在线| 天天影视网天天综合色在线播放| 韩国一区二区av| 中文字幕成人| 欧美精品一区二区久久久| 国产精品三级在线观看无码| 青青草91久久久久久久久| 美女国内精品自产拍在线播放| 国产大片中文字幕| 久久久久久黄| 亚洲最大福利视频| 久久精品蜜桃| 夜夜嗨av一区二区三区| 欧美日韩一区二区在线免费观看| 色8久久久久| 亚洲国产美女精品久久久久∴| 久久国产柳州莫菁门| 欧美午夜在线| 国产精品手机播放| 全国男人的天堂网| 国产精品久久久久久久岛一牛影视 | 视频在线精品一区| av在线导航| 色悠悠亚洲一区二区| 1314成人网| 国产一区福利| 日韩在线欧美在线国产在线| 日韩精品国产一区二区| 精品在线观看视频| 欧美亚洲另类久久综合| 欧美日韩经典丝袜| 欧美三级电影在线看| 久久久久久久无码| 最新欧美人z0oozo0| 国产精品27p| 五月天婷婷激情网| 一区二区三区在线播放| 污版视频在线观看| 免费看日本一区二区| 欧美高清无遮挡| 一区二区视频网站| 91麻豆产精品久久久久久| 日本一道在线观看| gogo大尺度成人免费视频| 亚洲欧美激情视频| www.av麻豆| 懂色av中文字幕一区二区三区| 亚洲欧洲日韩精品| 精品肉辣文txt下载| 日韩成人在线视频观看| 久久免费视频播放| 国产精品一区二区视频| 国产精品美女在线播放| 久久久成人av毛片免费观看| 日韩精品欧美国产精品忘忧草| 久久久国产精品黄毛片| 国产一区二区调教| 色乱码一区二区三区熟女| 欧美日韩精品一区二区三区视频| 亚洲欧美日韩精品久久亚洲区| www.国产成人| 不卡av在线网| 精品这里只有精品| 国产主播性色av福利精品一区| 欧美精品少妇videofree| 国产精品视频在线观看免费| 国产精品久久久久一区| 国产成年人视频网站| 日韩一区自拍| 国产日韩欧美电影在线观看| www.成人.com| 欧美日韩国产大片| 国产精品 欧美激情| 国产一区二区精品久久91| 中文字幕av久久| 国产精品日本一区二区不卡视频| 久久综合网hezyo| jlzzjlzzjlzz亚洲人| 亚洲综合色丁香婷婷六月图片| 亚洲欧美日韩中文字幕在线观看| 亚洲澳门在线| 高清不卡日本v二区在线| 超黄网站在线观看| 国产视频亚洲精品| 99成人精品视频| 亚洲欧洲精品一区二区三区不卡| 欧美一级特黄aaa| 欧美久久一级| 久久青青草综合| 3d欧美精品动漫xxxx无尽| 在线视频日韩精品| 国产成人三级在线播放| 欧美日韩国产一区二区三区| 人妻aⅴ无码一区二区三区| 捆绑紧缚一区二区三区视频| 91嫩草国产丨精品入口麻豆| 欧美日韩一区二区三区四区不卡| 国产成人激情小视频| 免费在线观看av片| 精品黑人一区二区三区久久| 日本中文字幕第一页| 国产精品九色蝌蚪自拍| 中国特级黄色大片| 日韩精品国产精品| 成人黄色av网| 怡红院在线播放| 亚洲欧美日韩另类| 国产精品一区二区人人爽| 亚洲1区2区3区4区| 任你操精品视频| www.欧美亚洲| 亚洲精品20p| 日韩图片一区| 正在播放国产精品| 亚州国产精品| 91免费版网站在线观看| 久久野战av| 欧美激情精品久久久久久免费印度| 色网站在线免费观看| 在线播放日韩导航| 国产精品500部| 亚洲欧美日韩人成在线播放| 性色av蜜臀av色欲av| 国产综合色视频| av天堂永久资源网| 亚洲午夜av| 香蕉视频在线网址| 精品久久久亚洲| 精品一区二区不卡| 国产一区二区三区免费观看在线 | 大陆精大陆国产国语精品| 国产欧美日韩高清| 国产h片在线观看| 欧美床上激情在线观看| 福利片在线看| 亚洲毛茸茸少妇高潮呻吟| www.成人精品| 555www色欧美视频| 中文字幕av无码一区二区三区| 午夜不卡在线视频| 免费一级片视频| 亚洲视频在线观看三级| 国产在线综合视频| 久久精品亚洲国产奇米99| 喷水视频在线观看| 成人免费毛片嘿嘿连载视频| 国产毛片久久久久久| 男人的天堂亚洲一区| 国产女女做受ⅹxx高潮| 国产精品一区毛片| av在线播放亚洲| 一区二区三区视频播放| 国产精品三级网站| 精品3atv在线视频| 国产91精品在线播放| 午夜裸体女人视频网站在线观看| 欧美精品久久久久久久免费观看| 黄色网在线免费观看| 色综合伊人色综合网站| av在线免费观看网站| 国产亚洲精品日韩| 极品白浆推特女神在线观看| 亚洲欧美国产日韩天堂区| 欧洲成人av| 亚洲视频777| 黄网在线观看| 中文字幕日本欧美| 日本免费视频在线观看| 日韩视频免费在线观看| 免费在线看a| 色悠悠久久久久| 麻豆免费在线观看| 欧美成人午夜影院| 美女网站视频在线| 国产69久久精品成人看| 超碰一区二区| 国产精品久久久久久网站| 久久久久久久性潮| 91人成网站www| 亚洲成人五区| 精品蜜桃传媒| 国产不卡av一区二区| 色播五月综合| 五月天久久777| 91午夜在线观看| 免费欧美日韩| 手机视频在线观看| 国产寡妇亲子伦一区二区| 人妖粗暴刺激videos呻吟| 久久这里只有精品6| 欧美黄色高清视频| 亚洲免费在线看| 国产成人无码一区二区三区在线| 欧美小视频在线| 人人妻人人爽人人澡人人精品| 欧美三级电影在线看| www久久久久久| 亚洲全黄一级网站| 黄页视频在线播放| 91精品国产99| 国产精品高潮久久| 国产精品对白刺激久久久| 最新精品国偷自产在线| 中文字幕精品一区日韩| 在线日韩视频| 精品999在线| 成人久久视频在线观看| 国产视频三区四区| 亚洲五码中文字幕| 成人黄色激情视频| 精品国产免费久久| 3d成人动漫在线| 久久久久久中文字幕| av成人在线看| 国产一区二区三区四区hd| 日韩久久视频| 欧美 日本 亚洲| 狠狠色丁香久久婷婷综合丁香| aa片在线观看视频在线播放| 中文字幕一区二区三区在线不卡| 1级黄色大片儿| 欧美一二三四在线| a天堂中文在线| 26uuu久久噜噜噜噜| 三级欧美日韩| 亚洲日本无吗高清不卡| 裸体素人女欧美日韩| 日韩精品国产一区| 国产精品久99| www.久久网| 国产视频在线观看一区二区| 1区2区3区在线视频| 国产精品中文久久久久久久| 色天下一区二区三区| 黑人巨茎大战欧美白妇| 美国毛片一区二区三区| 永久免费看mv网站入口78| 亚洲一区二区三区四区在线免费观看| 在线观看亚洲国产| 亚洲人在线视频| 在线观看福利电影| 国产欧美亚洲日本| 欧美视频成人| 色欲无码人妻久久精品| 日韩一区在线看| 国产精品久久影视| 自拍偷拍亚洲一区| 日韩三区免费| 欧美综合激情| 久久婷婷激情| 大又大又粗又硬又爽少妇毛片| 午夜视频在线观看一区二区| 亚洲成a人片77777精品| 色综合视频网站| 免费观看亚洲天堂| 国产又粗又大又爽的视频| 麻豆成人综合网| 成年人在线免费看片| 在线观看一区日韩| 国模吧精品人体gogo| 国产国语刺激对白av不卡| 真实原创一区二区影院| 亚洲爆乳无码专区| 国产日韩欧美综合一区| 日本中文字幕在线观看视频| 亚洲欧美精品一区| av有声小说一区二区三区| 欧美亚洲国产免费| 奇米精品一区二区三区在线观看| 蜜桃传媒一区二区亚洲| 欧美天天综合网| 中文日本在线观看| 成人日韩在线电影| 欧美激情1区2区| 久久久久久久穴| 欧美日韩激情美女| 国产福利片在线| 国产免费久久av| 91精品国产视频| 一级黄色大片免费看| 亚洲444eee在线观看| 欧美新色视频| 国产美女久久精品香蕉69| 91精品久久久久久久蜜月| 亚洲欧洲国产视频| 舔着乳尖日韩一区| av在线播放网| 91aaaa| 夜夜嗨一区二区| 精品一区二区三区蜜桃在线| 91精品国产一区二区人妖| 国产又色又爽又黄刺激在线视频| 久99久视频| 老司机午夜精品99久久| 久久久久久欧美精品se一二三四| 亚洲精品国产免费| 国产精品久久久久久久久久齐齐| 吴梦梦av在线| 99久久99久久精品免费观看| 99re国产在线| 欧美精品在线播放| 天堂av一区二区三区在线播放 | 亚洲黄色一区二区三区| 国产激情一区二区三区桃花岛亚洲| 日韩乱码人妻无码中文字幕| 亚洲午夜未删减在线观看| 久久wwww| 97在线播放视频| 亚洲欧美日韩中文播放| 久热av在线| 99国产超薄丝袜足j在线观看| 午夜在线一区| 2021亚洲天堂| 亚洲图片在区色| 成人在线视频你懂的| 天堂在线资源视频| 亚洲国产aⅴ成人精品无吗| 91在线不卡| 精品日产一区2区三区黄免费| 韩国理伦片一区二区三区在线播放|