精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

NVIDIA:Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐

發(fā)布于 2025-6-13 06:57
瀏覽
0收藏

一、背景

筆者之前寫過 FP8 訓(xùn)練的綜述文章以及 FP4 訓(xùn)練和推理的綜述文章,本文對其進一步補充,介紹 NVIDIA 最新的使用 MXFP8 預(yù)訓(xùn)練的方案。

對應(yīng)的論文:[2506.08027] Recipes for Pre-training LLMs with MXFP8 [1]

二、摘要

精度縮放——即在預(yù)訓(xùn)練過程中使用更少的比特來表示模型參數(shù)及相關(guān) Tensor——已成為一種在不犧牲精度前提下提升 GPU 效率的有效技術(shù)。NVIDIA 最新 Blackwell GPU 中引入 Microscaling (MX) 格式,為 Tensor 量化提供了細(xì)粒度解決方案。

盡管 MX 格式相較于其他低精度表示法有望提升數(shù)值穩(wěn)定性,但在實際應(yīng)用中仍需謹(jǐn)慎使用。本文研究表明:當(dāng)采用 OCP 規(guī)范建議的舍入模式進行 LLM 預(yù)訓(xùn)練時,會導(dǎo)致模型不收斂。為此,作者提出了一種改進的舍入模式——通過采用"向無窮大舍入"方式計算縮放因子,成功實現(xiàn)了 8B 參數(shù)模型在 15T Token 上采用 MXFP8 格式的預(yù)訓(xùn)練。

PS:可能是因為采用 Hopper GPU 模擬的方式,而不是真實的 Blackwell 訓(xùn)練,因此論文并沒有提供相應(yīng)的效率提升數(shù)據(jù)。

三、引言

3.1 MXFormat

2023 年,OCP(Open Compute Project) 在 AMD, Arm, Intel, Meta, Microsoft, NVIDIA, Qualcomm 的參與下提出 Microscaling(MX)Format 規(guī)范(OCP Microscaling Formats (MX) Specification Version 1.0 [2]),主要是為了對跨硬件/軟件平臺可實施的新功能及格式進行標(biāo)準(zhǔn)化,有效減少軟件與基礎(chǔ)設(shè)施成本,并消除定制化解決方案帶來的各類附加費用或管理負(fù)擔(dān),推動硬件性能與效率的提升。

如下圖所示,MX 最主要的特點是其包含三部分內(nèi)容(很類似于常見的 Per-Block 細(xì)粒度量化方式,只不過這里是制定了一個統(tǒng)一的規(guī)范):

  • P:規(guī)定了 d 個 bit 數(shù)據(jù)的表示(編碼)方式,比如 FP8 的 E5M2 是怎么表示的。
  • k:k 個元組作為一個 Block。
  • X:上述 k 個元素的 Block 會對應(yīng)一個共享的 Scale 值。

NVIDIA:Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

我們在之前的文章中提到過,即使都是 E5M2 或者 E4M3,不同公司的硬件可能采用不同的格式。比如 NVIDIA Hopper GPU 上的 E5M2 符合 IEEE 754 Style,而 E4M3 卻不符合 IEEE 754 Style。如下圖所示,IEEE 754 Style 的 E4M3 的范圍為 [-240, 240],而 ARM-Intel-Nvidia Style 的 E4M3 的范圍是 [-448, 448]: 

NVIDIA:Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

在 MX 中也對上述問題進行了規(guī)范化,以 MXFP8 為例,其規(guī)定的 E4M3 和 E5M2 編碼方式如下圖 Table 1 和 Table 2 所示:

NVIDIA:Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

3.2 細(xì)粒度量化

更低的精度通常意味著更難量化,為了維持精度需要更細(xì)力度的 Scaling Factor,比如:

  • FP16:早期使用 FP16 進行混合精度訓(xùn)練時通常整個模型一個 Scaling Factor 即可。
  • FP8:在 Inference 時通常 Per-Tensor 的 Scaling Factor 即可比較好的維持精度;而 Training 時往往需要 Per-Block 或 Per-Channel,不過 Block 通常比較大,比如 128x128 或 128x1。
  • FP4:需要 Per-Block 量化,并且 Block 需要比較小,比如 32 或 16。

更細(xì)粒度的量化也意味著更高的額外成本,Block 越?。6仍郊?xì)),額外成本越高。如下圖所示,對于一個常見的內(nèi)積操作:

  • Per-Tensor 量化:需要額外執(zhí)行 1 次 Scaling Factor 處理。
  • Per-Block 量化:需要額外執(zhí)行很多次 Scaling Factor 處理。

NVIDIA:Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

為了更好的解決上述問題,NVIDIA 在新的 Blackwell Tensor Core 中支持了新的 Block-Scaled 類型,原生支持 Microscaling Formats,如下圖 Table 1 所示,其支持 MXFP8、MXFP6、MXFP4:

NVIDIA:Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

如下圖所示,在 Tensor Core 計算時,可以將數(shù)據(jù) A/B 及它們對應(yīng)的 Scaling Factor A/B 一起輸入,并全部在 Tensor Core 內(nèi)完成。

NVIDIA:Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

當(dāng)然,其對數(shù)據(jù)類型也有一定的要求,如下圖所示:

NVIDIA:Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

四、MXFP8 預(yù)訓(xùn)練

4.1 轉(zhuǎn)換 FP32 到 MXFP8

在訓(xùn)練的 Forward 與 Backward 過程中,模型 Weight、Activation 及 Gradient Tensor 均由 FP32 量化到 MXFP8 格式。量化后的 MXFP8 Tensor 隨后存儲于硬件中并執(zhí)行運算。作者首先闡述了轉(zhuǎn)換過程 Quantize_to_fp8(Vi/2X)。下文所述的量化方法統(tǒng)一適用于所有 MX 格式(包括 E4M3、E5M2、E2M3、E3M2 及 E2M1),僅 MX 數(shù)據(jù)類型存在差異。

計算 X 值:通常情況下,Tensor 中各 Block 內(nèi)的大部分?jǐn)?shù)值會超出目標(biāo) MX 格式的可表示范圍,既可能低于最小可表示數(shù)(下溢),也可能高于最大可表示數(shù)(上溢)。為解決這一問題,需將 Block 內(nèi)所有數(shù)值乘以一個 Scale 因子,使絕大多數(shù)數(shù)值被調(diào)整至可表示范圍內(nèi)。

該 Scale 因子 X 的計算基于 32 個(MX 規(guī)范,k)高精度輸入值中的絕對最大值(amax),即amax = max(‖Vi‖); 1≤i≤32。其核心目標(biāo)是將輸入中的 amax 映射為 MX 格式中的最大可表示值。當(dāng)輸入數(shù)據(jù)包含無窮大(Infinity)或非數(shù)值(NaN)時需特殊處理:若某 Block 的 amax 為 0,則設(shè)定 X=-127,此時 X 為 2-127,且該情況下所有 Qi’ 均置為 0。

NVIDIA:Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

根據(jù) OCP 規(guī)范,當(dāng) X 不為 Inf、NaN 或 0 時,X 應(yīng)設(shè)定為不超過 “amax 除以 MX 格式類型最大可表示二次冪” 的最大二次冪。以 E4M3 類型為例,由于 448 是其最大幅值,故 X 的計算公式為X=floor(log?(amax))/floor(log?(448))。值得注意的是,OCP 規(guī)范在此計算過程中忽略了該比率浮點數(shù)尾數(shù)部分的影響。

作者觀察到遵循 OCP 規(guī)范時存在精度下降現(xiàn)象。如下圖 Figure 2 所示為兩種 Token 規(guī)模(300B 和 1T)下訓(xùn)練的 843M 參數(shù)量 Transformer 模型的訓(xùn)練損失曲線。其采用兩種不同配置方案:

  • cfg1:所有 Tensor(Weight W、Activation A、Gradient G)均采用 E4M3 格式。
  • cfg2:Weight W、Activation A 采用 E4M3 格式,Gradient G 采用 E5M2 格式。

E5M2 格式相較于 E4M3 具有約 1.8 倍的 binades 優(yōu)勢。鑒于 Gradient 通常具有更大的動態(tài)范圍,早期的工作 [2209.05433] FP8 Formats for Deep Learning [3] 主張采用 E5M2 格式進行 Tensor 縮放。實驗結(jié)果表明,在 cfg1 與 cfg2 中,使用 OCP 方法計算縮放因子均會導(dǎo)致訓(xùn)練發(fā)散(如下圖 Figure 2a)或相對于 BF16 基準(zhǔn)的損失差距擴大(如下圖 Figure 2b)。

NVIDIA:Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

如下圖 Algorithm 1 概述了作者計算 Scale 因子的方法。其核心改進在于:當(dāng)處理 amax 與 MX 格式最大可表示值 destmax 的比值指數(shù)時,采用向正無窮方向的 round-up 策略(同時飽和至 UE8M0 格式的極值邊界)。這與 OCP 方案形成鮮明對比,后者實質(zhì)上是建議對 Scale 值執(zhí)行 round-down 操作。由于高精度值 Vi 需通過 Scale 因子 2X 進行縮放,對分?jǐn)?shù)項 (Vi/2X) 分母實施 round-up 操作,會更傾向于將 amax 映射至 destmax 以下;反之,OCP 方法則傾向于使 amax 超過 destmax(后續(xù)必須通過截斷處理使其可表示)。作者推測 OCP 取整方法帶來的飽和效應(yīng)會影響模型精度。

NVIDIA:Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

如上圖 Figure 2 所示,采用提出的舍入方案后,Gradient 位寬配置為 E4M3 的 MXFP8(藍(lán)色曲線)與 E5M2 的 MXFP8(紫色曲線)在 300B 和 1T Token 的訓(xùn)練過程中,其損失曲線均與 BF16 完全重合。

FP32 數(shù)值到 MX 格式的量化過程:當(dāng)縮放因子 X 確定后,Tensor Vi 通過乘以 2X 進行尺度變換,隨后量化至最接近的 FP8 可表示數(shù)值(即 Quantize_to_fp8())。該量化步驟采用“就近取偶(Round-to-nearest-ties-to-even,RN)”舍入法,且轉(zhuǎn)換過程具有飽和特性——若舍入結(jié)果超出 FP8 最大值或低于最小值,則將結(jié)果截取至相應(yīng)的極值。

這種轉(zhuǎn)換機制在低精度 LLM 預(yù)訓(xùn)練中的典型應(yīng)用場景是:矩陣乘積累加運算(MMA)的輸出(通常以 FP32 格式存儲)需要映射為 MXFP8 格式,相比存儲 FP32 數(shù)值可顯著節(jié)省寫入帶寬和存儲容量。模型后續(xù)運算讀取 MXFP8 數(shù)值時,相較加載 FP32 數(shù)據(jù)也能減少讀取帶寬消耗。此外,由于 Tensor Core 可直接處理 MX 格式輸入,低精度 MMA 操作不僅能降低能耗,還能獲得更高的計算吞吐量。

4.2 所有 Tensor 采用 E4M3

在 Blackwell 架構(gòu)中,F(xiàn)P8 浮點格式包含兩種變體:E4M3 與 E5M2。實驗研究表明:

Weight 與 Activation 量化性能對比:采用 E4M3 格式量化 Weight 和 Activation 時展現(xiàn)出更優(yōu)的訓(xùn)練收斂性。如下圖 Figure 3a 所示(測試模型與 Figure 2b 相同,參數(shù)量 843M),當(dāng) Activation(紫色曲線)或 Weight(藍(lán)色曲線)采用 E5M2 格式時,其損失函數(shù)收斂性顯著差于所有 Tensor 采用 E4M3 量化方案(橙色曲線)。值得注意的是,僅 Gradient 采用 E5M2 時(黃色曲線)仍能維持較好的收斂特性。

Gradient Tensor 量化分析:E4M3 格式在 Gradient 量化中能保持與 BF16 預(yù)訓(xùn)練相當(dāng)?shù)膿p失,這一優(yōu)勢在參數(shù)量 ≥2B 的模型中尤為顯著。如下圖 Figure 3c 展示了 8B LLM(1T Token 訓(xùn)練)的對比結(jié)果:E4M3 Gradient 量化(橙色曲線)的最終損失值顯著低于 E5M2 方案(黃色曲線),且該差距隨訓(xùn)練 Token 數(shù)量增加而擴大。這一現(xiàn)象揭示了模型參數(shù)量對數(shù)值格式選擇的敏感性,強調(diào)需在不同規(guī)模模型中系統(tǒng)評估格式的數(shù)值特性(PS:這也是為什么筆者一直提到之前很多文章只在小規(guī)模模型、數(shù)據(jù)量下做實驗不夠有說服力的原因)。

NVIDIA:Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

既往研究采用的 Tensor 級縮放 FP8 方案及 DeepSeek V3([2412.19437] DeepSeek-V3 Technical Report [4]) 提出的粗粒度 Block-Scaled 方案均默認(rèn)選用 E5M2 格式處理 Gradient Tensor(PS:論文這里表述有問題,DeepSeek V3 中其實所有 Tensor 都已經(jīng)采用 E4M3 格式;此外,這里的粗粒度是相對 32 的 Block 大小而言,在 DeepSeek 中為了效率采用的是 128 或者 128x128 的 Block 大?。?。本研究發(fā)現(xiàn):當(dāng)采用細(xì)粒度縮放(32 元素 Block)時,E4M3 格式的 17.8 個 binades 可充分滿足動態(tài)范圍需求。在滿足動態(tài)范圍前提下,量化精度成為關(guān)鍵因素——E4M3 每個指數(shù)區(qū)間包含 8 個量化樣本,其采樣密度是 E5M2(4樣本/區(qū)間)的 2 倍。因此,提出的 MXFP8 預(yù)訓(xùn)練方案對所有三類 Tensor(Weight、Activation、Gradient)均采用 E4M3 數(shù)據(jù)類型進行量化。

MXFP8 實例化層級及訓(xùn)練流程:論文所有研究均采用基于語言的 Transformer 模型,未來工作將探索該方案在語音與視覺模型中的應(yīng)用。研究表明,量化策略建議:

  • 將模型中所有 Transformer  Block 的 QKV、Proj 以及 FFN 的 Up-proj 和 Down-proj 轉(zhuǎn)換為 MXFP8 格式。
  • Self-Attention 中的批量矩陣乘法(BMM1:Query-Key 點積和 BMM2:Attention Score-Value 乘積)以及 Softmax、激活函數(shù)和殘差相加等運算仍保持高精度計算。
  • 輸入 Embedding 層和最終輸出 LM-head 同樣采用 BF16 或 FP16 格式。

如下圖 Figure 4 所示,這種配置能最可靠地維持與 BF16 預(yù)訓(xùn)練相當(dāng)?shù)木人?,論文所有實驗均遵循此?zhǔn)則。在 MXFP 量化訓(xùn)練過程中,框架需為 Tensor(Weight、Activation 和 Gradient)保持兩個副本:每個副本沿點積歸約(dot-product reduction)軸(行與列)分別量化。Figure 4 展示了訓(xùn)練迭代中各 Tensor 在 Forward(FPROP)、Weight Gradient(WGRAD)和 Activation Gradient(DGRAD)計算中的使用方式。由于每個 Tensor 需以原始和轉(zhuǎn)置兩種形態(tài)參與運算,量化需沿行列兩個獨立軸向分別執(zhí)行。

NVIDIA:Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

當(dāng)前研究總結(jié):提出的 MX Scale 因子舍入方案解決了基于 OCP 方法導(dǎo)致的不收斂問題,在 843M 參數(shù)模型上實現(xiàn)了 1T Token 訓(xùn)練下與 BF16 相當(dāng)?shù)木取=Y(jié)合 Algorithm 1 中的 E4M3 格式及 Scale 因子計算方法,該方案可擴展至 8B 參數(shù)模型(15T Token 訓(xùn)練)——作者聲稱,這是目前采用 MXFP 格式的最大規(guī)模 LLM 預(yù)訓(xùn)練案例。

如下圖 Figure 6 所示,W16A2.5 規(guī)模 MoE 模型,1T Token 預(yù)訓(xùn)練也能實現(xiàn)同樣的效果:

NVIDIA:Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

4.3 15T Token MXFP8 預(yù)訓(xùn)練結(jié)果

作者采用 Megatron-LM 框架預(yù)訓(xùn)練了一個 8B 參數(shù)的 Nemotron 模型。該模型包含 32 個 Transformer Block,每個 Block 32 個 Attention Head,隱層維度為 4096,采用 GQA 且 Group 大小為 8,KV 通道數(shù)為 128,預(yù)訓(xùn)練階段序列長度為 8192。共訓(xùn)練 15T Token,Batch Size 為 768。初始學(xué)習(xí)率設(shè)為 6×10??,并通過 cosine decay 到 6×10??。如下圖 Table 2 為幾個模型的詳細(xì)配置:

NVIDIA:Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

采用分階段數(shù)據(jù)混合策略進行訓(xùn)練:第一階段使用促進數(shù)據(jù)多樣性的混合數(shù)據(jù)集,第二階段則轉(zhuǎn)向高質(zhì)量數(shù)據(jù)集(如維基百科),在訓(xùn)練進度達到 60% 時切換至第二階段。此類混合策略在其他大規(guī)模預(yù)訓(xùn)練框架中亦有應(yīng)用。

模型預(yù)訓(xùn)練在 3072 Hopper GPU 上完成(實驗周期內(nèi)缺乏支持 MX 格式的 Bloackwell 硬件平臺)。通過在 Hopper GPU 上模擬 MX 格式實現(xiàn):輸入矩陣乘法加速器(MMA)的 Tensor 先量化為 MX 格式,在執(zhí)行 BF16 MMA 運算前轉(zhuǎn)換回 BF16 格式。為驗證模擬方案的數(shù)值保真度,作者與 Blackwell 平臺上采用真實 MXFP8 格式訓(xùn)練的 2B 參數(shù) LLM 進行對比實驗,確認(rèn)二者輸出結(jié)果完全一致。

如下圖 Figure 5 展示了 8B 預(yù)訓(xùn)練模型的訓(xùn)練損失及任務(wù)級準(zhǔn)確率??梢钥闯觯瑑山M下游任務(wù)的評估分?jǐn)?shù):

  • MMLU 上的 5-shot 分?jǐn)?shù)。
  • 9 個通用 Reasoning 基準(zhǔn)(ARC-Challenge 與ARC-Easy、Race、PIQA、Winogrande、Hellaswag、OpenBookQA、Social IQA 和 Commonsense QA)上 1-shot 分?jǐn)?shù)的平均值。

主要結(jié)果如下:

  • 采用 MXFP8 預(yù)訓(xùn)練時,模型的驗證困惑度與 BF16 預(yù)訓(xùn)練結(jié)果持平(Figure 5 左圖)。在整個預(yù)訓(xùn)練過程中,MXFP8 與 BF16 的驗證困惑度差異始終小于 0.50%。
  • Figure 5 中、右兩圖顯示了兩組下游任務(wù)的評估分?jǐn)?shù)。MXFP8 訓(xùn)練模型的得分與 BF16 訓(xùn)練模型完全匹配,證明 MXFP8 可作為 LLM 預(yù)訓(xùn)練的有效候選方案。

NVIDIA:Blackwell GPU MXFP8 預(yù)訓(xùn)練最佳實踐-AI.x社區(qū)

MXFP8 與 FP8 對比:除 MXFP8 和 BF16 外,F(xiàn)igure 5 還展示了傳統(tǒng) FP8 精度訓(xùn)練同模型的任務(wù)級分?jǐn)?shù)。FP8 方案采用軟件模擬的分塊縮放技術(shù),通過整體 Tensor 縮放使多數(shù) Tensor 值落入量化格式的可表示范圍。遵循 [2504.03624] Nemotron-H: A Family of Accurate and Efficient Hybrid Mamba-Transformer Models [5] 的 FP8 預(yù)訓(xùn)練設(shè)置建議:模型首尾 Transformer Block 保持 BF16 精度,其余 Block 的線性層量化為 FP8,該配置適用于 20T Token 規(guī)模的 8B 和 56B 參數(shù) LLM 預(yù)訓(xùn)練。但保留部分 BF16 層會影響端到端加速比,并增加預(yù)訓(xùn)練復(fù)雜性——需額外決策哪些層維持高精度。實驗表明,MXFP8 在這兩組任務(wù)上無需任何 BF16 層即可達到與 FP8 相當(dāng)?shù)木取?/p>

MXFP8 與分塊 FP8 的對比:進一步地,諸如 Deepseek-V3 等研究表明,在使用 FP8 時需要縮小 Block 規(guī)模。在此配置下,部分 Tensor 需采用 1x128 向量級縮放,而其他 Tensor 則需實施分塊(如 128x128)縮放,這增加了 GEMM Kernel 函數(shù)設(shè)計的復(fù)雜度。MXFP8 的原生支持則簡化了這一過程——其細(xì)粒度縮放機制提供了更優(yōu)的數(shù)值魯棒性,同時規(guī)避了小 Block 尺寸與硬件速度之間的權(quán)衡問題。

綜上所述,相比于 BF16 或 FP8 預(yù)訓(xùn)練,MXFP8 能保持同等精度。在 GB200 Blackwell 系統(tǒng)上,MXFP8 的吞吐量是 BF16 的 2 倍,這使得端到端 MXFP8 預(yù)訓(xùn)練速度超越 BF16 預(yù)訓(xùn)練。與 FP8 相比,MXFP8 方案還更加簡便(所有層均可量化且縮放由硬件處理),同時保持同等或更優(yōu)的吞吐性能。

五、參考鏈接:

  • [1] https://arxiv.org/abs/2506.08027
  • [2] https://www.opencompute.org/documents/ocp-microscaling-formats-mx-v1-0-spec-final-pdf
  • [3] https://arxiv.org/abs/2209.05433
  • [4] https://arxiv.org/abs/2412.19437
  • [5] https://arxiv.org/abs/2504.03624

本文轉(zhuǎn)載自??AI閑談??,作者:AI閑談


已于2025-6-13 10:37:59修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
熟女少妇精品一区二区| 成人动漫在线视频| 久久免费手机视频| 亚洲资源在线| 亚洲成av人片| 亚洲视频在线二区| 成人小说亚洲一区二区三区| 天堂影院一区二区| 欧美成人四级hd版| 精品人妻少妇嫩草av无码| 欧美成人app| 亚洲午夜视频在线| 亚洲欧美日韩国产成人综合一二三区| 精品美女www爽爽爽视频| 老鸭窝毛片一区二区三区| 久久国产精品久久久久久久久久| 污污污www精品国产网站| 久久女人天堂| 色哟哟国产精品| 免费在线看黄色片| 91caoporn在线| 成人免费的视频| 国产一区红桃视频| 秋霞精品一区二区三区| 国产精品99免费看| 日韩在线视频导航| 日韩乱码人妻无码中文字幕久久| 久久wwww| 欧美男女性生活在线直播观看 | 久久精品一区二区不卡| 亚洲精品xxx| 日本中文字幕有码| 日韩午夜电影免费看| 日本高清成人免费播放| 免费超爽大片黄| 在线视频国产区| 自拍偷拍国产亚洲| 色就是色欧美| 国产69精品久久app免费版| 99久久婷婷国产综合精品| 51蜜桃传媒精品一区二区| 一区二区乱子伦在线播放| 久久精品30| 欧美一级高清免费| 日韩在线观看第一页| 国产精品porn| 色综合色综合久久综合频道88| 尤物在线免费视频| 91日韩视频| 久久国产一区二区三区| 亚洲区一区二区三| 91影院成人| 久久精品国产精品亚洲| 免费中文字幕日韩| 亚洲乱码电影| 欧美肥婆姓交大片| 免费视频一二三区| 黄色亚洲免费| 韩剧1988在线观看免费完整版| 精品少妇久久久| 亚洲另类自拍| 欧美一区在线直播| 精品国产xxx| 日韩成人免费看| 国产精品视频自在线| 91在线你懂的| 国产高清一区日本| 国产伦精品一区二区三区视频免费 | 精品成人av一区二区三区| 欧美黄色影院| 亚洲日韩中文字幕在线播放| av免费观看不卡| 日韩激情啪啪| 中文字幕av一区| 黄色精品视频在线观看| 欧美日本一区二区视频在线观看| 久久999免费视频| 精品国产免费观看| 日韩精品欧美精品| 成人啪啪免费看| 老牛影视av牛牛影视av| 久久一区二区三区国产精品| 污视频在线免费观看一区二区三区 | av综合在线播放| 欧美日韩亚洲在线| 中文字幕在线免费| 亚洲综合成人在线视频| 中国丰满人妻videoshd| 欧美激情三区| 精品国产乱码91久久久久久网站| 中文字幕av网址| 91综合在线| 97精品欧美一区二区三区| 神马久久久久久久| 国产在线精品一区二区夜色| 国产在线精品一区二区中文| 国产黄色在线播放| 亚洲黄色片在线观看| 国产亚洲综合视频| 亚州精品国产| 日韩精品视频免费| 蜜桃av.com| 亚洲一区黄色| 91人人爽人人爽人人精88v| 人妻精品一区二区三区| 国产欧美中文在线| 久久亚洲a v| 日本国产欧美| 日韩av在线最新| 国产探花在线免费观看| 免费日韩av片| 国产a一区二区| 91欧美在线视频| 精品露脸国产偷人在视频| 奇米视频7777| 精品久久久久中文字幕小说| 91国偷自产一区二区三区的观看方式| 一级黄色片视频| 久久嫩草精品久久久久| 人人干视频在线| 精品中文在线| 日韩有码片在线观看| 亚洲综合图片网| 99久久伊人久久99| 日韩人妻一区二区三区蜜桃视频| 欧美va视频| 日韩av在线免播放器| 久久久久久久国产视频| 激情文学综合插| 午夜久久资源| 亚洲精品在线影院| 亚洲精品视频网上网址在线观看| 欧美成人三级视频| 蜜桃传媒麻豆第一区在线观看| 久久精品国产综合精品| gogo高清在线播放免费| 日韩一区二区精品在线观看| 亚洲一级二级片| 麻豆成人91精品二区三区| 日本成人黄色免费看| 不卡一二三区| 精品中文视频在线| 国产性猛交╳xxx乱大交| 成人免费毛片app| wwwjizzjizzcom| 免费欧美网站| 欧美日本中文字幕| 国内老熟妇对白xxxxhd| 一区二区三区在线影院| 手机在线观看日韩av| 欧美在线观看天堂一区二区三区| 91久久精品在线| 亚洲男同gay网站| 日韩视频一区在线观看| 三级全黄做爰视频| 国产一区二区三区四区五区入口| 一区二区三区四区欧美| 2020国产精品小视频| 精品国产一区二区三区久久狼5月 精品国产一区二区三区久久久狼 精品国产一区二区三区久久久 | 51国产偷自视频区视频| 久久香蕉国产线看观看99| 黄色免费观看视频网站| 亚洲人成伊人成综合图片| 日本精品视频在线播放| 久久久久久女乱国产| 日本久久一区二区| 国产三级在线观看完整版| 免费成人美女在线观看.| 在线免费观看一区二区三区| 精品国产亚洲一区二区三区在线| 久久99精品久久久久久噜噜| 天天操天天操天天干| 色婷婷久久久综合中文字幕| 亚洲色图100p| 国产成人啪午夜精品网站男同| 成人黄色av片| 久久高清精品| 超碰在线97av| 成人在线爆射| 波霸ol色综合久久| 日韩一级中文字幕| 在线观看精品一区| 全网免费在线播放视频入口| k8久久久一区二区三区| 婷婷激情四射五月天| 欧美激情无毛| 欧美一区国产一区| 成人豆花视频| 1769国内精品视频在线播放| 五月婷婷在线观看| 亚洲高清久久久久久| 欧美一区二区三区久久久| 亚洲人精品一区| 黄色性生活一级片| 久久成人av少妇免费| 九一国产精品视频| 久久久精品久久久久久96| 精品国产_亚洲人成在线| 日本午夜精品久久久久| 97香蕉超级碰碰久久免费的优势| 8888四色奇米在线观看| 精品国产免费一区二区三区四区| 姑娘第5集在线观看免费好剧| 夜夜嗨av一区二区三区中文字幕 | 亚洲美女性生活| 91福利国产成人精品照片| 麻豆影视在线播放| 国产精品乱码人人做人人爱| 大桥未久恸哭の女教师| 极品少妇一区二区三区精品视频| 欧美色图色综合| 欧美三区在线| 在线国产精品网| 中文字幕av一区二区三区人| 高清一区二区三区视频| 日本久久久久| 国产精品美女久久久久av超清| 超碰在线资源| 久久婷婷国产麻豆91天堂| 国产在线观看免费| 亚洲第一精品久久忘忧草社区| 91麻豆视频在线观看| 色呦呦一区二区三区| 日本一级一片免费视频| 亚洲一区二区美女| 欧美特级一级片| 中文字幕在线不卡国产视频| 91成人破解版| 久久久美女毛片| 国产激情视频网站| 成人国产在线观看| 久久久久久无码精品人妻一区二区| 蜜臀久久99精品久久久久宅男| 日本三级免费网站| 在线亚洲精品| 欧洲黄色一级视频| 一区二区高清| www一区二区www免费| 99精品视频免费| 亚洲人成无码网站久久99热国产| 欧美freesex交免费视频| 国产一区一区三区| 久久久久亚洲| 99视频精品全部免费看| 一区二区三区四区电影| 欧美日韩中文字幕在线播放| 欧美精品入口| 黄页网站大全在线观看| 99riav国产精品| 欧美 国产 综合| 天堂在线亚洲视频| 香蕉视频网站入口| 麻豆精品在线看| 一级淫片在线观看| 国产精品系列在线播放| 97中文字幕在线观看| 成人h动漫精品一区二| 亚洲av无码一区二区二三区| 久久久不卡网国产精品二区| 欧美丰满美乳xxⅹ高潮www| 中文字幕欧美日韩一区| youjizz亚洲女人| 亚洲素人一区二区| 久久久99精品| 欧美午夜视频在线观看| 免费视频网站在线观看入口| 欧美无人高清视频在线观看| 国产又粗又黄又爽的视频| 欧美一区二区三区啪啪| www.黄色片| 日韩精品中文字幕有码专区| 国产九九在线| 久久精品夜夜夜夜夜久久| 日本动漫同人动漫在线观看| 国产91ⅴ在线精品免费观看| 高清av一区二区三区| 亚洲精品免费在线视频| 欧美电影在线观看完整版| 日韩久久久久久久久久久久久| 欧美激情黄色片| 国产av国片精品| 日韩专区欧美专区| 日韩欧美中文视频| 26uuu欧美| 99久久99久久精品国产| 午夜精品123| 中文字幕人妻丝袜乱一区三区| 日韩午夜av电影| 国际av在线| 色综合91久久精品中文字幕| a欧美人片人妖| 亚洲a中文字幕| 国产精品嫩模av在线| 先锋影音男人资源| 久久精品麻豆| 久久久精品人妻一区二区三区| 国产午夜精品福利| 久久精品视频6| 欧美精品v国产精品v日韩精品| 无码国产精品高潮久久99| 日韩网站免费观看高清| 交100部在线观看| 亚洲a成v人在线观看| 国产影视一区| 欧美久久久久久久久久久久久| 精品一二三四在线| 国产精品无码一区二区三区| 一区二区三区四区av| 中文字幕一区二区人妻| 亚洲激情在线观看| av大片在线| 国产精品自产拍在线观看中文| 欧美黑人巨大videos精品| 中文字幕精品在线播放| 免费国产亚洲视频| 蜜桃精品一区二区| 午夜精品免费在线观看| 国产免费无遮挡| 伊人激情综合网| 成人爽a毛片免费啪啪| 成人在线资源网址| 影音先锋日韩精品| 黄色片视频在线| 国产亚洲精久久久久久| 日韩黄色三级视频| 亚洲成人av资源网| 91国内在线| 91深夜福利视频| 91精品国产视频| 天天看片天天操| 国产精品久久久久影院老司| 在线免费观看国产精品| 亚洲精品国产精品国产自| 久草在线视频网站| 成人自拍网站| 在线成人av| 亚洲精品久久久久久| 亚洲视频精选在线| 国产精品久久久国产盗摄| 日韩最新中文字幕电影免费看| 草民电影神马电影一区二区| 视频一区二区综合| 日本不卡一区二区三区 | 蜜桃视频久久一区免费观看入口| 欧美成人精品一区二区| 日韩av综合| 国产精品无码电影在线观看| 国产成人精品免费视频网站| 欧美交换国产一区内射| 日韩欧美国产综合| 99久久精品免费看国产小宝寻花| 国产精品毛片一区视频| 亚洲一区成人| 日本二区在线观看| 色域天天综合网| 98在线视频| 91香蕉亚洲精品| 精品91视频| 午夜一区二区三区免费| 91黄视频在线| 美女写真理伦片在线看| 91福利视频导航| 亚洲福利电影| 爱爱免费小视频| 欧美日本视频在线| av网站在线免费看推荐| 国产精品久久7| 一区二区精品| 一级二级黄色片| 日韩一区二区三区视频| 91福利区在线观看| 蜜桃网站成人| 免费在线看一区| 欧美成人免费看| 亚洲奶大毛多的老太婆| 亚洲精品大片| 国产精品久久..4399| 欧美国产激情一区二区三区蜜月| 国产精品爽爽久久久久久| 97精品在线视频| 欧美色图一区| 91亚洲一线产区二线产区| 欧美性猛交xxxxx免费看| 3d成人动漫在线| 国产精品一区二区三区精品| 久久久亚洲一区| 欧美 日韩 国产 一区二区三区| 亚洲黄色成人网| 涩涩涩久久久成人精品| 玩弄中年熟妇正在播放| 国产精品三级视频| 日本黄色一区二区三区| 国产一区红桃视频| 国产亚洲精品v| 曰本女人与公拘交酡| 亚洲性夜色噜噜噜7777| 成人性生交大片免费看中文视频| 人人干人人视频| 亚洲成av人片在线观看| 久cao在线|