精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

長文 | 大模型Post-Training總結

發布于 2025-1-3 14:05
瀏覽
0收藏

今天給大家帶來一篇知乎好友@hadiii的一篇文章,匯總Llama3.1、DeepSeek-V3、TüLU 3和Qwen2.5的后訓練Post-Training技術。

知乎:https://zhuanlan.zhihu.com/p/12862210431

本文匯總Llama3.1,DeepSeek-V3,TüLU 3,Qwen2.5報告的后訓練部分,摘錄其中核心的細節。大多涉及到數據,SFT,RL(各種RM訓練,DPO,GRPO,RLVR等等)。

1.Llama3.1

paper: https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

長文 | 大模型Post-Training總結-AI.x社區

Illustration of the overall post-training approach for Llama 3.

總的來說,Llama 3后訓練方法是迭代式的,總共做了6輪。每輪的核心操作是:Reward Modeling,Rejection Sampling,SFT,DPO。

數據構成主要是SFT data和Preference data。而Reward Modeling和DPO,對Preference data又有不同的使用方式。

  • SFT data:每輪Rejection Sampling的結果 + 針對特定能力的合成數據 + 少量的人工標注數據。
  • Preference data:每一輪訓練都構建一批新的Preference data,Preference data積累式地增長。詳細過程見1.2 Preference data部分。

Model Averaging:每個RM、SFT或DPO階段,使用不同的data mix或超參數進行實驗所獲得的模型進行加權平均。

1.1 SFT

長文 | 大模型Post-Training總結-AI.x社區

SFT數據構成

Rejection Sampling:

采樣模型多次,讓RM選出最好的回復,作為SFT data的一部分。部分細節如下:

  • 采樣什么模型?兩種情況。迭代中表現Avg score最好的模型,或者在某個particular capability上表現最好的模型。
  • 采樣多少次?K=10~30,即一般采樣10-30次。
  • prompt哪來?人工標注的prompts。并在后訓練迭代后期引入特殊的system prompts。

SFT訓練細節:

  • 405B模型使用學習率1e-5。
  • 訓練步數在8.5K到9K步之間。
  • 高質量數據源進行多輪重復訓練(epochs multiple times)。例如一個特別優質的coding示例可能被訓練3-4次。
  • 普通質量數據進行降采樣(downsamples)。質量一般的數據可能只用1次或被隨機抽樣部分使用。


Our final data mix epochs multiple times on some high quality sources and downsamples others.

1.2 Preference data

長文 | 大模型Post-Training總結-AI.x社區

Preference data數據構成

We deploy multiple models for annotation after each round and sample two responses from two different models for each user prompt. These models can be trained with different data mixes and alignment recipes, allowing for different capability strength and increased data diversity.

  • 采樣什么模型?部署多個不同數據配比和對齊方法訓練的模型,針對每個prompt選取兩個不同的模型進行采樣。原因:不同模型能夠在不同的能力維度上表現出差異,數據質量和多樣性更好。
  • 偏好等級?四個等級:顯著更好(significantly better),更好(better),稍微更好(slightly better),略微更好(marginally better)。
  • 允許修改:標注同學可以進一步優化chosen response,最后edited > chosen > rejected。
  • 迭代式難度:最后隨著模型改進逐步提高prompt復雜度。

1.3 RM & DPO

Reward Modeling:We train a reward model (RM) covering different capabilities on top of the pre-trained checkpoint.
DPO:For training, we primarily use the most recent batches of preference data collected using the best performing models from the previous alignment rounds.
Preference Data:In each round of post-training, we use all the preference data that is available at the time for reward modeling, while only using the latest batches from various capabilities for DPO training.

RM迭代細節:

RM也參與后訓練迭代。每一輪迭代都會重頭訓練RM。原文提到,每次訓練都會使用所有的Preference data,且都是從Pre-trained checkpoint開始訓練的,而不是在t+1輪迭代使用第t輪訓練的RM做增量訓練。

長文 | 大模型Post-Training總結-AI.x社區

Llama2 RM ranking loss

  • 移除llama2使用的margin loss,即上圖的m(r),因為數據量上來之后margin意義不大,不如“complexity management”回歸原始ranking loss:

長文 | 大模型Post-Training總結-AI.x社區

  • RM和DPO都只使用偏好等級為significantly better or better的pair,并且都過濾了similar response。

DPO迭代細節:

DPO每次都在SFT之后進行。此處的一個細節是,DPO訓練所用的Preference data并全不是在本輪的SFT model上采樣和標注的,而主要是從前面所有迭代輪次中表現最好的模型中采樣得到的。同時,每次迭代只取最新的一批Preference data,還要剔除General English部分數據,和RM不一樣。loss:

長文 | 大模型Post-Training總結-AI.x社區

  • 同時從chosen和rejected response里面mask掉special formatting tokens的loss,比如header token & termination token,因為會引入沖突的學習目標,即loss同時往增加和減少這些token的概率上優化。
  • 同時優化chosen response的SFT loss。
  • 學習率取1e-5,beta取0.1,SFT loss取0.2。
  • RM和DPO都只使用偏好等級為significantly better or better的pair,并且都過濾了similar response。

DPO discussion

DPO團隊觀察到,只要SFT模型在Long context任務中表現出色,DPO中僅使用短上下文訓練數據,并不會對長上下文性能產生負面影響。

1.4 數據清洗

Llama 3給出的數據清洗方法都很務實。

首先是對一些不想要的回復模式需要去重,例如過度使用表情符號或感嘆號的問題。非常經典的AI語風也需要注意,例如“過于喜歡滑跪”的語氣問題,遇事不決就“對不起”或“我道歉”。

其他各種方法還有:

1、主題分類(Topic classification):首先訓練一個Topic classifier,例如用一大堆文本分類的任務數據去SFT一下Llama 3 8B。然后對所有訓練數據進行兩個層級的分類,粗粒度類別(如“數學推理”)和細粒度類別(如“幾何和三角學”)。

2、質量評分(Quality scoring):使用Reward model和基于Llama為每個樣本的質量打分。對于基于RM的評分,將得分前1/4的數據視為高質量數據?;贚lama的評分,就是基于Llama 3設計了一些打分的prompt,General English數據使用三個維度的評分(準確性、指令遵循性和語氣/表達),coding數據則使用兩個維度的評分(錯誤識別和用戶意圖),最后將獲得最高分的樣本視為高質量數據。RM評分和Llama評分的分歧率較高,但結合這兩種機制能在meta內部測試集中取得最佳的召回率。

3、難度評分(Difficulty scoring):Instag和基于Llama的評分。對于Instag,提示Llama 3 70B對SFT提示進行意圖標注,意圖越多,復雜性越高。基于Llama的思路和Quality scoring相似,給了Llama 3一些prompt,基于三個維度去打分。

4、語義去重(Semantic deduplication):最后進行語義去重。首先使用RoBERTa對完整對話進行聚類,然后在每個聚類內按(質量分數 × 難度分數)對其進行排序。接著,遍歷所有排序的樣本進行貪婪選擇,僅保留與當前聚類中已見樣本的余弦相似度小于閾值的樣本。

Instag用于標注SFT數據的意圖和語義標簽。詳見:https://arxiv.org/pdf/2308.07074

2 DeepSeek-V3

paper: https://github.com/deepseek-ai/DeepSeek-V3/blob/main/DeepSeek_V3.pdf

DeepSeek-V3的后訓練路徑是SFT->GRPO。后訓練部分同時提到了一些從DeepSeek-R1蒸餾的探索,Self-Rewarding的嘗試,以及Multi-Token Prediction的效果。全文精彩內容主要在前邊 pretrain ,但目前只想先整理后訓練部分。

2.1 SFT

DeepSeek-V3構建了一個1.5M(V2也是大概1.5M)的指令微調數據集,并且構建數據時按照ReasoningData和Non-Reasoning Data做了區分。

推理相關數據

對于推理相關的數據集(Math,Coding,邏輯推理),通過 DeepSeek-R1 生成數據。盡管 R1 生成的數據表現出較高的準確性,但同時也存在諸如過度思考、格式不佳以及回答冗長等問題。所以目標是結合 R1 生成數據的高準確性與常規格式化推理數據的清晰性與簡潔性。

具體來說,首先針對特定領域訓練多個expert model。隨后,expert model被用作最終SFT data的generator。Expert model訓練過程中,需要為每條數據實例生成兩種不同類型的 SFT 樣本:

  1. 將問題與其原始回答配對,格式為 <問題, 原始回答>;
  2. 在問題和 R1 回答的基礎上加入系統提示,格式為 <系統提示, 問題, R1 回答>。

System prompt引導模型生成具有反思與驗證機制的回答。在RL階段,模型通過high-temperature sampling生成回答,從而整合R1生成數據和原始數據的模式,即便在沒有明確system prompt的情況下也能體現。經過數百步的強化學習后,Expert model模型學會了融合 R1 的模式。

Expert model的RL訓練完成后,使用拒絕采樣(RS)以篩選高質量的 SFT 數據,用于最終模型的訓練。此時由于是expert model作為generator,所以保留了 DeepSeek-R1 的各種優勢,也能同時生成簡潔高效的回答。

非推理數據

對于非推理數據(例如創意寫作、角色扮演和簡單問答),采用 DeepSeek-V2.5 生成回答,并由人工標注人員核實數據的準確性與正確性。

SFT 細節

  • 訓練兩個epoch,learning rate采用cosine decay ,起始學習率為 5×1e-6,逐步衰減至 1e-6。
  • 訓練期間,每個sequence由多個樣本數據打包組成(即SFT packing)。但不同樣本間需要額外的attention mask,確保這些樣本彼此獨立且不可見。但值得一提的是,V3在 pretrain 時,沒有應用cross-sample attention mask。

Discussion:DeepSeek-R1 的蒸餾效果

長文 | 大模型Post-Training總結-AI.x社區

The contribution of distillation from DeepSeek-R1

報告基于DeepSeek-V2.5研究了從DeepSeek-R1蒸餾的貢獻。DeepSeek-R1 Distill在LiveCodeBench和MATH-500基準測試中取得了顯著提升。

基于MATH-500,可以發現一個有趣的trade off是:蒸餾可以帶來更好的性能(74.6->83.2),但同時也顯著增加了平均回答長度(76.9->83.2)。

報告認為從推理模型進行知識蒸餾為post training提供了一個有前景的方向。

2.2 RM

DeepSeek-V3 RL過程訓練了兩種RM:rule-based and model-based。

Rule-Based RM

對于可以通過特定規則驗證的問題,基于規則來確定獎勵。例如對于某些數學問題,這類問題具有確定性的答案,要求模型以指定的格式(例如,用一個框框標出最終答案)提供最終答案,從而能夠通過規則驗證其正確性。同樣地,對于 LeetCode 問題,可以利用編譯器通過測試用例生成反饋。也是非常經典的做法,能夠確保reward非常可信。TüLU 3同樣也做了RLVR。

Model-Based RM

對于具有自由形式的標準答案的問題,依賴RM來判斷回答是否與預期的標準答案相匹配即可。但對于沒有明確標準答案的問題(例如涉及創意寫作的問題),RM需要根據問題和對應的回答提供反饋。Model-Based RM基于 DeepSeek-V3 的 SFT checkpoint進行訓練。為了提高其可靠性,還構建了包含偏好數據的訓練集,該數據不僅提供最終的reward,還包含通向reward的推理鏈。該方法減少了在特定任務中出現的reward hacking。

Discussion:Self-Rewarding

即constitutional AI的做法,通過一系列文本描述的規則指導模型。將DeepSeek-V3 本身的投票評估結果也作為一種feedback,顯著提升了 DeepSeek-V3 在主觀評價中的性能表現。

聯想:DeepSeekMath

DeepSeekMath報告提到過使用了Process Supervision RL,但DeepSeek-V3報告中未提及。

2.3 GRPO

GRPO是PPO的簡化版本,最核心的改動是砍掉Value Model,依靠多次采樣的Reward,得出baseline分數來計算advantage。DeepSeek-V3未在GRPO一節提供較多細節。GRPO的優勢函數為:

長文 | 大模型Post-Training總結-AI.x社區

優化目標為:

長文 | 大模型Post-Training總結-AI.x社區

GRPO 圖示 from DeepSeek-V2

GRPO詳細算法可見DeepSeek-V2報告。GRPO和RLOO做法類似,而TRL rloo_trainer.py實現了RLOO訓練源碼,可以參考。能理解其中一個就能理解另一個。所以也可參考:https://zhuanlan.zhihu.com/p/1073444997

3 TüLU 3

paper: https://allenai.org/tulu

長文 | 大模型Post-Training總結-AI.x社區

An overview of the TüLU 3 recipe.

TüLU 3的后訓練路徑是SFT->DPO->RLVR。TüLU 3報告寫的還是非常有誠意的,RL部分提供了蠻多細節供學習。也是印象中少有的花了比較大篇幅講RLVR的一篇報告。

3.1 SFT

數據構成

長文 | 大模型Post-Training總結-AI.x社區

WildChat,OpenAssistant,NoRobots,,FLAN v2等各種質量還不錯的開源數據。人工標注或者好的閉源模型的response保留,沒有response的蒸餾4o。

數據實驗

長文 | 大模型Post-Training總結-AI.x社區

  • 多樣化對話數據(WildChat),對大多數技能有積極影響,特別提升Alpaca Eval性能。
  • 安全性 SFT 數據通常與其他數據集正交。
  • ...(還有一些其他數據實驗,如chat template...詳見原文)

Recipe

長文 | 大模型Post-Training總結-AI.x社區

超參

batch size 128,Max Length 4096,Linear LR。對于8B模型,學習率:5e-6。對于70B模型,學習率:2e-6。訓2個epoch。

Trick:Batch Aggregation

TüLU 3注意到Open-Instruct框架訓練的SFT模型與在其他環境(如TPU)上訓練的模型之間存在性能差距。這個問題主要是由于Transformers中loss aggregation的一個問題:在不考慮梯度累積或分布式訓練設置的情況下對padding tokens的損失進行平均。

長文 | 大模型Post-Training總結-AI.x社區

第二種情況下平等地對待每個樣本,,而在第一種情況下平等地對待每個token。因此改變梯度累積可能會由于有效地改變樣本權重而對性能產生重大影響。由于跨設備平均,分布式訓練中也會出現類似的問題。

所以TüLU 3在訓練時普遍選擇使用求和損失(sum loss)而不是平均損失(mean loss)。即通過簡單地移除上述方程中的分母,同時調整學習率。這使得所有token被賦予相同的權重。TüLU 3通過使用各種學習率、訓練輪數和損失類型在TüLU 2 SFT混合數據集上微調Llama 3.0來驗證各種設置的性能。最終發現使用lr = 5e-6的sum loss效果最好。TüLU 3還發現更長時間的訓練并沒有帶來進一步的改進,因此確定使用2個訓練epoch。

3.2 Preference Finetuning

TüLU 3在Preference Finetuning中提及了大量實驗。

優化算法實驗

長文 | 大模型Post-Training總結-AI.x社區

優化算法實驗

長文 | 大模型Post-Training總結-AI.x社區

preference dataset

In summary, our preference mixes come from different prompt sources, such as SFT data, WildChat and Persona IF. It includes prompts seen during SFT training but also new, unseen prompts. And lastly, it contains a mix of on and off-policy completions.

長文 | 大模型Post-Training總結-AI.x社區

TüLU 3的preference data既有off-policy的pair,也有on-policy的pair。既有SFT階段見過的prompt,也有新的prompt。人工 + 4o as Judge。報告針對不同data mix做了很多實驗,獲得了一些符合直覺的結論,列舉部分:

Scaling the Number of Unique Prompts Improve Downstream DPO Performance. 增加prompt多樣性能夠提升DPO效果符合直覺。不過TüLU 3做了一個清晰的實驗是:驗證復制一些prompt(但使用不同的response pair)做數據增廣是否可行??上?,結果是Performance退化了。

長文 | 大模型Post-Training總結-AI.x社區

Unused Prompts Lead to Higher Performance vs. Reusing Prompts From SFT Mix. 即DPO階段的prompt還是應該盡量SFT階段沒見過的。

長文 | 大模型Post-Training總結-AI.x社區

On-policy Data Improves Downstream DPO Performance. 即On-policy Data(模型采樣出來的pair)效果更好。

長文 | 大模型Post-Training總結-AI.x社區

Recipe

長文 | 大模型Post-Training總結-AI.x社區

3.3 RLVR(RL with verifiable rewards)

長文 | 大模型Post-Training總結-AI.x社區

RLVR

其實就是基于Rule-Based RM做RL的另一種說法。不同于DeepSeek-V3和Qwen2.5采取的GRPO,RLVR的算法采取了PPO。PPO需要value model,但reward model目前是一個verifier,所以TüLU 3使用General RM來初始化value model。

Do Not Use the Scores from RM. TüLU 3在RLVR過程中,發現如果同時使用verifiable reward和RM的reward,會引入額外的噪聲,導致表現下降。

4 Qwen2.5

paper: https://arxiv.org/abs/2412.15115

Qwen2.5的后訓練路徑是SFT + Two-stage Reinforcement Learning,即SFT- >DPO->GRPO。報告總體細節不多。

4.1 SFT

Math

Qwen2.5-Math 的 CoT 數據 + RS。

Coding

Qwen2.5-Coder 的指令微調數據。

...(不再列舉,細節不多)

Recipe

最終,SFT構建了包含1M的大規模數據集,訓練使用32K的序列長度,訓練2個epoch,lr從7×10??衰減到7×10??、weight decay開0.1,gradient norms裁剪到最大值1。

4.2 DPO

Rule-based data

依靠strategies like execution feedback and answer matching,利用SFT對一批新的prompt采樣,通過Rule檢測的,作為chosen,否則作為rejected,當然也需要人工審核。

數據量

150,000 training pairs。

訓練recipe

標準DPO(未提及使用了length-normalized DPO或者SimPO等變種),Online Merging Optimizer,lr = 7e-7,訓練1個epoch。

Online Merging Optimizer:https://arxiv.org/abs/2405.17931

4.3 GRPO

相關原理見deepseek-V3一節中的GRPO。

RM的訓練數據

采樣什么模型?部署多個不同數據配比和對齊方法訓練的模型,針對每個prompt選取不同的模型進行采樣,溫度也開得比較高。原因:不同模型能夠在不同的能力維度上表現出差異,數據質量和多樣性更好。

GRPO數據

GRPO的prompts和RM訓練的Prompts相同。

Trick

訓練期間處理prompt data的順序由RM評估的reward score方差決定。方差較高的prompt會被優先處理,以確保更有效的學習。

超參設置

每個query采樣8次。2048 global batch size and 2048 samples in each episode。

本文轉載自??NLP工作站??,作者: hadiii ????


收藏
回復
舉報
回復
相關推薦
亚洲成人中文在线| 精品一区二区三区在线播放| 亚洲国产黄色片| 浮妇高潮喷白浆视频| 韩日视频在线| 国内精品写真在线观看| 高清一区二区三区日本久| 中文幕无线码中文字蜜桃| 四虎国产精品免费久久| 亚洲国产精品一区二区www| 老牛影视免费一区二区| 国产精品热久久| 亚洲国产专区| 中文字幕精品国产| 伦理片一区二区| 涩涩涩久久久成人精品| 欧美日韩国产黄| 亚洲蜜桃在线| 天堂av在线播放| 国产精品中文有码| 日本高清+成人网在线观看| 成年人一级黄色片| 国产免费久久| 亚洲国产成人av在线| av噜噜在线观看| 深夜成人福利| 午夜久久久久久久久久一区二区| 亚洲一区二区在线免费观看| 亚洲欧洲精品视频| 国产精品99久久不卡二区| 国产精品xxx视频| 99热国产在线观看| 欧美精品播放| 久久这里只有精品99| 欧美丰满少妇人妻精品| 视频一区国产| 91精品国产色综合久久ai换脸| 日韩视频在线免费看| 久cao在线| 国产精品美女久久久久久| 欧美精品免费观看二区| 老熟妇高潮一区二区高清视频| 精品综合久久久久久8888| 国产精品草莓在线免费观看 | 毛片在线视频播放| 在线你懂的视频| 亚洲欧洲精品天堂一级| 日产精品一线二线三线芒果| 欧美成人综合在线| av不卡在线观看| 国产一区二区三区无遮挡| 99在线精品视频免费观看20| 看片的网站亚洲| 国产精品自拍小视频| 日韩欧美在线观看免费| 亚洲综合日韩| 热99在线视频| 无码人妻精品一区二区三区不卡| 国产一区二区你懂的| 91av视频在线播放| 黄色在线观看国产| 久久婷婷久久| 国产福利成人在线| 国产一级片免费视频| 视频一区二区三区中文字幕| 国产v综合ⅴ日韩v欧美大片| 黄色片中文字幕| 久久久久综合| 国产精品自拍偷拍| 国产精品玖玖玖| 国产成人免费视频网站高清观看视频| 91在线视频精品| www久久久久久| 成人在线视频一区| 精品国产乱码久久久久久丨区2区 精品国产乱码久久久久久蜜柚 | 亚洲高清免费观看| 欧美二区在线视频| 精品国产免费人成网站| 欧美在线观看一区| 色呦色呦色精品| 午夜精品在线| 亚洲国产精品成人av| 性欧美成人播放77777| 欧美老女人另类| 日韩亚洲精品视频| 全网免费在线播放视频入口 | 精品中国亚洲| 亚洲午夜久久久久久久| 国产一二三四视频| 国产精品a级| 欧美一级免费视频| 亚洲精品国产精品乱码视色| 看片的网站亚洲| 国产精品久久久久久免费观看| 无码国产精品高潮久久99| 国产日韩欧美一区二区三区综合| 亚洲砖区区免费| 大香伊人久久| 欧洲av一区二区嗯嗯嗯啊| 网站在线你懂的| 精品三级av| 日韩在线一区二区三区免费视频| 久久午夜鲁丝片午夜精品| 99在线精品视频在线观看| 国产精品免费视频久久久| 国产黄a三级三级三级| 91视频在线观看免费| 这里只有精品66| 悠悠资源网亚洲青| 337p亚洲精品色噜噜| 怡红院一区二区| 久久精品青草| 欧美最猛性xxxxx(亚洲精品)| 91在线视频国产| 91丝袜呻吟高潮美腿白嫩在线观看| 相泽南亚洲一区二区在线播放| 免费影视亚洲| 欧美色成人综合| 日韩免费高清一区二区| 97精品视频| 欧洲亚洲女同hd| 亚洲国产www| 国产精品久99| 欧在线一二三四区| 久久久久97| 久热精品在线视频| 最近中文在线观看| 99久久久久免费精品国产| 免费在线精品视频| 欧美xxxx做受欧美护士| 亚洲精品www| 欧美日韩国产精品综合| 美日韩一区二区| 女女同性女同一区二区三区91| 91网在线看| 欧美色窝79yyyycom| 亚洲专区区免费| 激情婷婷久久| av一区二区三区免费| 91se在线| 欧美无乱码久久久免费午夜一区| 成人h动漫精品一区| 亚洲激精日韩激精欧美精品| 91九色视频在线观看| 老司机精品影院| 欧美裸体一区二区三区| 蜜乳av中文字幕| 亚洲欧美日本日韩| 久久久婷婷一区二区三区不卡| heyzo在线| 日韩亚洲欧美中文三级| 人妻人人澡人人添人人爽| 精品一区二区三区在线视频| 亚洲欧美在线网| 亚洲电影二区| 日韩综合中文字幕| 国产裸体永久免费无遮挡| 国产精品久久久久久妇女6080| 久久婷婷国产91天堂综合精品| 国产精品视频一区二区三区四蜜臂| 91精品国产成人| 水莓100在线视频| 色就色 综合激情| 国产人妻大战黑人20p| 日韩国产欧美在线播放| 夜夜爽99久久国产综合精品女不卡 | 欧美自拍第一页| 亚洲成人精品一区| 国产呦小j女精品视频| 免费在线播放第一区高清av| 欧美精品一区在线发布| 不卡亚洲精品| 久久精品亚洲热| 狠狠综合久久av一区二区| 午夜欧美2019年伦理 | 国产欧美一区二区在线观看| 中文字幕国内自拍| 91精品国产91久久久久久黑人| 91成人免费观看| 国产无遮挡裸体视频在线观看| 国产视频久久久久久久| 中国女人一级一次看片| 亚洲三级久久久| 亚洲激情 欧美| 老牛影视一区二区三区| 在线观看成人av电影| 一区二区三区四区高清视频| 欧美在线视频观看免费网站| 国产二区在线播放| 91精品欧美一区二区三区综合在 | 欧洲精品在线观看| 国产精品成人69xxx免费视频| 国产成都精品91一区二区三| 日本wwww视频| 日韩片欧美片| 国产精品一区二区三区免费| 电影亚洲精品噜噜在线观看| 久久精品一偷一偷国产| 天堂在线视频观看| 欧美男生操女生| www成人在线| 国产精品福利一区二区三区| 国产高清成人久久| 久久狠狠亚洲综合| 怡红院av亚洲一区二区三区h| 日韩精品永久网址| 国内精品久久国产| 99视频有精品高清视频| 97成人在线视频| 超碰免费公开在线| 亚洲人成网7777777国产| 国产三级小视频| 在线视频你懂得一区| 麻豆疯狂做受xxxx高潮视频| 欧美国产成人精品| japanese在线观看| 国产乱对白刺激视频不卡| 青青在线视频观看| 激情亚洲成人| 熟女视频一区二区三区| 少妇一区二区三区| 国产成人亚洲欧美| 亚洲图片小说区| 国产精品电影一区| 97超碰在线免费| 欧美成年人视频| 日本美女在线中文版| 亚洲人成伊人成综合网久久久| xxxx18国产| 91精品国产91综合久久蜜臀| 337p粉嫩色噜噜噜大肥臀| 午夜视频久久久久久| 1024手机在线视频| 中文字幕一区免费在线观看| 国产一区二区三区四区五区六区| 成人18视频日本| 国产chinesehd精品露脸| 狠狠色丁香久久婷婷综合_中| 日本成人中文字幕在线| 久久久久久久尹人综合网亚洲| 九一国产精品视频| 欧美午夜国产| www.日本在线视频| 午夜国产精品视频| 国产女人18毛片| 亚洲一区二区三区无吗| 一区二区三区视频在线播放| 波多野结衣的一区二区三区 | 国产精品视频xxxx| 国产综合av| 国产精品久久久久一区二区| 精品三区视频| 国产精品视频午夜| 日韩成人免费av| 成人亚洲激情网| 日韩在线网址| 爱情岛论坛亚洲入口| 国产福利资源一区| 国产美女精品久久久| 草草视频在线一区二区| 国产精品日本一区二区| 成人精品毛片| 免费成人看片网址| 免费欧美激情| 一区二区三区四区不卡| 伊人成综合网| 91免费黄视频| 男女精品网站| 精品日韩久久久| 国产综合久久久久久鬼色| 国产人妻精品久久久久野外| 国产经典欧美精品| 久久性爱视频网站| 337p粉嫩大胆噜噜噜噜噜91av| 中文字幕一区二区三区人妻不卡| 国产婷婷色一区二区三区四区| 五月婷婷六月香| 综合久久给合久久狠狠狠97色 | 国产女精品视频网站免费| 欧美系列精品| 国产成人免费电影| 精品在线观看入口| 国产一区一区三区| 亚洲黄色精品| 三级在线免费看| 国产精品伊人色| 亚洲最大的黄色网| 国产欧美精品在线观看| 久久久久亚洲av无码专区体验| 无吗不卡中文字幕| 少妇一级淫片日本| 日韩欧美黄色影院| 日韩精品视频在线观看一区二区三区| 一色桃子一区二区| 日本三级韩国三级欧美三级| 欧美亚洲免费电影| 伊人国产精品| 久久久久久久久久码影片| 91影院成人| 乱妇乱女熟妇熟女网站| 久久9热精品视频| 玖草视频在线观看| 中文字幕一区在线观看视频| 中文字幕在线观看免费视频| 欧美日韩精品欧美日韩精品一综合| 亚洲高清视频网站| 日韩中文字幕第一页| 色偷偷偷在线视频播放| 成人黄色中文字幕| 一本色道久久综合亚洲精品酒店 | 精品一二线国产| 欧美 变态 另类 人妖| 亚洲同性gay激情无套| 国产一级免费视频| 日韩精品一区二区三区蜜臀| av在线播放网站| 欧美亚洲成人精品| 中文在线免费一区三区| 亚洲bbw性色大片| 亚洲欧美不卡| 黄色免费视频网站| 亚洲一区在线观看免费观看电影高清| 亚洲 小说区 图片区| 日韩黄色av网站| 欧美女同一区| 91探花福利精品国产自产在线| 国产成人1区| 国产福利视频在线播放| 99国产精品99久久久久久| 五月婷婷一区二区| 这里只有精品免费| 香蕉视频免费在线播放| 国产成人小视频在线观看| 欧美xxxx在线| 2019日韩中文字幕mv| 国内精品写真在线观看| 北条麻妃在线观看视频| 欧美色大人视频| av在线播放av| 国产精品久久久久秋霞鲁丝 | 日韩xxx视频| 亚洲男女自偷自拍图片另类| 国产精选在线| 国精产品一区二区| 一本久道久久综合狠狠爱| 911亚洲精选| 亚洲图片欧美一区| 人妻无码一区二区三区久久99 | 婷婷色中文字幕| 日韩一卡二卡三卡四卡| 91精品久久| 高清视频一区| 国产一区二区三区四区老人| 亚洲成人激情小说| 尤物视频一区二区| 国精产品一品二品国精品69xx | 中文字幕一区二区三区四区五区人 | 精品久久久中文字幕| 少妇人妻互换不带套| 国产欧美久久久精品影院| 在线观看中文字幕码| 久久久精品美女| 日本精品在线观看| 国产精品久久久久久久久电影网| 国产成人精品三级| 亚洲国产精品成人无久久精品| 亚洲国产欧美一区二区丝袜黑人 | 国产精品成人一区二区三区电影毛片| 色综合久久综合网97色综合| 国产午夜精品一区理论片| 国产精品久久久久久久app| 色综合久久网| 欧美日韩久久婷婷| 亚洲国产成人av| 国产大片在线免费观看| 成人性教育视频在线观看| 亚洲夜间福利| 中文字幕av观看| 欧美日本乱大交xxxxx| 女人天堂av在线播放| 久久伊人资源站| 男女男精品视频| 久草网视频在线观看| 日韩成人xxxx| 成人国产激情在线| 800av在线免费观看| 久久亚洲精品小早川怜子| 中文字幕日韩国产| 欧美国产极速在线| 国内成人精品| 无码人妻一区二区三区在线视频| 午夜精品福利久久久| av在线电影观看| 国产一区二区三区免费不卡| 日韩高清电影一区| 欧美国产日韩综合| 一区二区三区视频免费| 天堂精品在线视频| 色乱码一区二区三区在线| 亚洲成人综合视频|