精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

美團(tuán) Flash Communication:LLM 推理的 AllReduce 通信優(yōu)化 精華

發(fā)布于 2024-12-12 13:02
瀏覽
0收藏

一、背景

前段時(shí)間的文章里我們剛剛介紹過兩個(gè)對 LLM 分布式推理場景中 AllReduce 的優(yōu)化工作,一個(gè)是 NVIDIA TensorRT-LLM 中的 MultiShot 無損優(yōu)化,另一個(gè)是 Recogni 提出的基于量化壓縮實(shí)現(xiàn)的 AllReduce 加速方案。本文中我們繼續(xù)介紹美團(tuán)新發(fā)表的 AllReduce 量化壓縮優(yōu)化方案。

對應(yīng)的論文為:[2412.04964] Flash Communication: Reducing Tensor Parallelization Bottleneck for Fast Large Language Model Inference [1]

二、摘要

隨著 LLM 規(guī)模的不斷增長,快速推理所需的分布式解決方案往往要利用多維并行性,將計(jì)算負(fù)載分散至 GPU 集群的多個(gè)設(shè)備上。然而,此方法往往會(huì)引入顯著的通信開銷,尤其在帶寬受限的設(shè)備上(比如沒有 NVLink 或者跨機(jī)的情況)。

本文中作者提出 Flash Communication,一種新穎的低比特壓縮技術(shù),旨在緩解推理過程中 Tensor Parallelism(TP)的通信瓶頸。作者在多種最新的 LLM 上進(jìn)行的廣泛實(shí)驗(yàn),驗(yàn)證了該方法的有效性。該方法可以將節(jié)點(diǎn)內(nèi)通信速度提升 3 倍,并將首 Token 時(shí)間縮短 2 倍,同時(shí)幾乎不犧牲模型精度。

PS:上述的結(jié)論其實(shí)有點(diǎn)夸大,INT4 可以實(shí)現(xiàn)上述速度,但精度損失還是有點(diǎn)大的;而 INT8 可以保持精度,但加速比又沒這么多。

三、引言

3.1 硬件拓?fù)?/h3>

作者論文中評(píng)估主要采用了兩種機(jī)型,一種是 8 x L40 GPU 節(jié)點(diǎn),如下圖 Figure 12 所示。每個(gè)節(jié)點(diǎn)上有 8 個(gè) L40 GPU,每 2 個(gè) GPU 在一個(gè) PCIe Switch 下,沒有 NVLink + NVSwitch,并且每個(gè)節(jié)點(diǎn)只有 1 個(gè) 100 Gbps 的 NIC。因此:

  • 如果節(jié)點(diǎn)內(nèi)的 TP 通信都需要走 PCIe 鏈路,如果是不同 CPU Socket 下的 GPU 通信,還需要通過 CPU 之間的 UPI,因此通信效率可能比較低。
  • 如果節(jié)點(diǎn)間通信,則必須通過節(jié)點(diǎn)的 NIC,最糟糕的情況是左側(cè)紅框和右側(cè)紅框的 GPU 組成 TP 組進(jìn)行通信。
  • PS:本文中作者并沒有涉及節(jié)點(diǎn)間通信,甚至 L40 上的 TP=8 的 8 GPU 通信都沒有。?

美團(tuán) Flash Communication:LLM 推理的 AllReduce 通信優(yōu)化-AI.x社區(qū)

而 A100 節(jié)點(diǎn)類似下圖所示,節(jié)點(diǎn)內(nèi)有 8 個(gè) A100 GPU,這些 GPU 通過 NVLink + NVSwitch 實(shí)現(xiàn)全互聯(lián),任何兩個(gè) GPU 之間的通信帶寬都可以達(dá)到 600 GB/s。不過作者介紹節(jié)點(diǎn)間通信帶寬是 200 Gbps,那么可能節(jié)點(diǎn)上就沒有紅框中的 NIC,只有藍(lán)框中的 200 Gbps NIC。(PS:論文中也不涉及節(jié)點(diǎn)間通信)

美團(tuán) Flash Communication:LLM 推理的 AllReduce 通信優(yōu)化-AI.x社區(qū)

此外,A100 GPU 有 108 個(gè) SM,而 L40 GPU 有 108 個(gè) SM。

3.2 ReduceScatter + AllGather

我們在之前的文章中詳細(xì)介紹過 AllReduce,這里再簡單陳述一下。對于常見的基于 Ring 的 AllReduce 實(shí)現(xiàn)中,通常將一個(gè) AllReduce 操作拆分為一個(gè) ReduceScatter 和一個(gè) AllGather 操作,如下圖所示:

美團(tuán) Flash Communication:LLM 推理的 AllReduce 通信優(yōu)化-AI.x社區(qū)

具體的 ReduceScatter 操作如下,每個(gè)設(shè)備(GPU)發(fā)送一部分?jǐn)?shù)據(jù)給下一個(gè)設(shè)備,同時(shí)接收上一個(gè)設(shè)備的數(shù)據(jù)并累加。這個(gè)過程執(zhí)行 K-1 步,ReduceScatter 后每個(gè)設(shè)備都包含一部分?jǐn)?shù)據(jù)的 Sum:

美團(tuán) Flash Communication:LLM 推理的 AllReduce 通信優(yōu)化-AI.x社區(qū)

具體的 AllGather 操作如下,每個(gè)設(shè)備(GPU)將其持有的部分結(jié)果發(fā)送給下一個(gè)設(shè)備,同時(shí)接收上一個(gè)設(shè)備的部分結(jié)果,逐步匯集完整的結(jié)果,同樣需要 K-1 步。AllGather 后,每個(gè)設(shè)備都包含全量的數(shù)據(jù):

美團(tuán) Flash Communication:LLM 推理的 AllReduce 通信優(yōu)化-AI.x社區(qū)

NVIDIA 在 3x Faster AllReduce with NVSwitch and TensorRT-LLM MultiShot | NVIDIA Technical Blog [2] 中并沒有介紹 ReduceScatter 的優(yōu)化,不過在我們推測其可能采用了下述的優(yōu)化方式:具體來說,Ring ReduceScatter 可以等效為一個(gè) All2All 操作實(shí)現(xiàn)數(shù)據(jù)的重排,然后在 Local 進(jìn)行 Reduce 操作(或者 NVSwitch 上進(jìn)行 Reduce 操作)。此過程只有一個(gè) All2All 的整體通信操作,雖然實(shí)際上與 Ring 實(shí)現(xiàn)的方式的通信量和計(jì)算量沒有變化,但可以避免 K-1 個(gè) Ring Step 的同步,進(jìn)而可以有效降低時(shí)延。

美團(tuán) Flash Communication:LLM 推理的 AllReduce 通信優(yōu)化-AI.x社區(qū)

3.3 TP 推理

如下圖 Figure 3 所示,對于 LLaMA 模型推理,其一個(gè) Transformer Layer 需要 2 次 AllReduce 通信,不過需要 Attention 以及 FFN 都采用先列切再行切的方式。以 80 層的 LLaMA 3 70B 模型為例,一次 Forward 需要 180 次 AllReduce 通信。

美團(tuán) Flash Communication:LLM 推理的 AllReduce 通信優(yōu)化-AI.x社區(qū)

3.4 延遲分析

如下圖 Figure 2 所示,作者在 4*L40 GPU 上測量了 LLaMA-3-70B 模型在不同序列長度下各個(gè)部分的開銷(Batch Size 為 8),可以看出,序列越長,AllReduce 的通信占比越大,在 4K 序列長度時(shí) AllReduce 通信開銷為 18% 左右,在序列長度達(dá)到 32K 時(shí),通信開銷占到 40% 左右。

美團(tuán) Flash Communication:LLM 推理的 AllReduce 通信優(yōu)化-AI.x社區(qū)

在 A100 GPU 上雖然有 NVLink+NVSwitch 互聯(lián),最大的通信開銷依然可以達(dá)到 20%(PS:不過作者這里沒有提供詳細(xì)的數(shù)據(jù))。

四、方案

4.1 量化挑戰(zhàn)

為了在準(zhǔn)確性與時(shí)延之間達(dá)成最佳平衡,作者選擇采用低比特量化技術(shù)。如下圖 Figure 4 所示,可觀察到,在大 Block 下進(jìn)行逐 Token 量化會(huì)導(dǎo)致 C4 困惑度的性能急劇下降,非對稱量化(Asym)相對較好,不過依然下降明顯,因此細(xì)粒度量化是必要的。

美團(tuán) Flash Communication:LLM 推理的 AllReduce 通信優(yōu)化-AI.x社區(qū)

然而,作者發(fā)現(xiàn)在此情境下應(yīng)用低比特激活量化并非易事。因此,作者計(jì)算了 LLaMA-3-8B 模型在激活量化前后的層級(jí)均方誤差(MSE)來研究量化的敏感性。如下圖 Figure 5 左圖所示,下投影 dproj 的量化難度遠(yuǎn)高于輸出投 影oproj。

此外,All-Reduce 中 Reduce-Scatter 和 All-Gather 操作對應(yīng)的量化難度也各不相同,如下圖 Figure 5 右圖所示。這一現(xiàn)象符合預(yù)期,因?yàn)?Reduce-Scatter 前的量化僅引入舍入誤差,而在 All-Gather 中,則同時(shí)包含舍入誤差和累積誤差。作為替代方案,可以在 All-Gather 操作前采用更高精度的量化以提升準(zhǔn)確性。

美團(tuán) Flash Communication:LLM 推理的 AllReduce 通信優(yōu)化-AI.x社區(qū)

4.2 通信算法

鑒于上述問題,作者設(shè)計(jì)了一種兩步量化策略以替代傳統(tǒng)的 Ring AllReduce 方法,稱為 Flash AllReduce,如下圖 Figure 6 所示。該策略與 TP 的結(jié)合如上圖 Figure 3 所示。

如下圖 Figure 6 展示了本文 Flash Communication 的通信原理:

  • 首先,將每個(gè) GPU 上的激活值按 Rank 的數(shù)量進(jìn)行劃分。
  • 在激活值上進(jìn)行細(xì)粒度量化后,執(zhí)行All2All 通信(與我們猜測的 TRT-LLM 的 MultiShot 實(shí)現(xiàn)類似),使得每個(gè)設(shè)備接收其規(guī)約所需的計(jì)算負(fù)載。當(dāng)然,接收后也需要反量化操作。
  • 在設(shè)備內(nèi)完成 Reduce,不涉及通信操作。
  • 對得到的結(jié)果再次進(jìn)行量化以加速傳輸。然后進(jìn)行AllGather以匯總所有結(jié)果,并在每個(gè)設(shè)備上進(jìn)行反量化以恢復(fù)浮點(diǎn)數(shù)值。?

美團(tuán) Flash Communication:LLM 推理的 AllReduce 通信優(yōu)化-AI.x社區(qū)

具體的算法過程也可以參考如下圖 Algorithm 1:

美團(tuán) Flash Communication:LLM 推理的 AllReduce 通信優(yōu)化-AI.x社區(qū)

4.3 Kernel 設(shè)計(jì)

為了提升效率,作者開發(fā)了一個(gè)融合的 Flash AllReduce Kernel,以囊括上述所有集合通信操作及量化操作。如下圖 Table 1 所示,相比 Ring AllReduce 操作,F(xiàn)lash AllReduce 將量化-反量化步驟從 N 次減少到 2 次,Reduce-Gather 步驟從 N-1 次縮減到 1 次。盡管總體數(shù)據(jù)個(gè)數(shù)保持不變,但每一份數(shù)據(jù)均被量化到較低位數(shù),從而大幅減少了傳輸?shù)臄?shù)據(jù)大小。 

美團(tuán) Flash Communication:LLM 推理的 AllReduce 通信優(yōu)化-AI.x社區(qū)

快速細(xì)粒度量化:每個(gè)節(jié)點(diǎn)的總通信量(個(gè)數(shù)) M 被劃分為 T 個(gè) Chunk 進(jìn)行傳輸。給定 Chunk 大小 C,如下圖 Figure 7 展示了 GPU 線程如何并行組織以處理 Chunk 信息。一個(gè) Chunk 被分割成 N 個(gè) Block,每個(gè) Block 對應(yīng) 32 個(gè) Warp,其中每個(gè) Warp 由 32 個(gè) Thread 組成,每個(gè) Thread 可處理 8 個(gè) FP16 元素。以采用 128 組大小的非對稱量化為例,使用 16 個(gè)線程對每組 128 個(gè)元素進(jìn)行量化。具體而言,利用 CUDA API 函數(shù) __shfl_xor_sync 通過迭代交換這些 Warp Thread 間的信息,高效實(shí)現(xiàn) Max/Min 歸約。

美團(tuán) Flash Communication:LLM 推理的 AllReduce 通信優(yōu)化-AI.x社區(qū)

快速通信。不再使用 All2All 原語,而是利用 CUDA Runtime API 中的 GPU Peer Direct Memory 訪問來傳輸量化后的數(shù)據(jù)量,在此過程中,能夠直接從不同 Rank 獲取數(shù)據(jù),顯著提升通信速度。

快速反量化。一旦接收到量化后的數(shù)據(jù),需要將其反量化為 FP16 以進(jìn)行 Reduce Sum。由于單純的 INT4 到 FP16 轉(zhuǎn)換會(huì)產(chǎn)生開銷,作者采用了 [2211.10017] Who Says Elephants Can't Run: Bringing Large Scale MoE Models into Cloud Scale Production [3] 中的反量化布局。為了在線協(xié)調(diào)其順序,作者還采用了來自 LMDeploy 的快速 INT4 打包,如下圖 Figure 8 所示:

  • 給定兩個(gè) 32 位無符號(hào)整數(shù) U0 和 U1,它們分別持有 4 個(gè) INT4 量化的激活值(每個(gè)存儲(chǔ)在 8 位中的低 4 位)用于傳輸。
  • 首先執(zhí)行右移 12 位操作,然后對其自身進(jìn)行按位或運(yùn)算。
  • 隨后,使用 CUDA Math API __byte_perm 從這兩個(gè)整數(shù)中選擇目標(biāo)位。通過這種方式,可以方便的按順序打包 8 個(gè) 4 位整數(shù)進(jìn)行反量化。
  • 接下來,應(yīng)用 lop3.b32 對打包變量執(zhí)行邏輯操作(0xF0 & 0xCC)| 0xAA,應(yīng)用掩碼 0x000F000F 和 0x64006400,然后減去 0x64006400,這有效地表示了 FP16 中的 W1 和 W0。
  • 通過改變剩余 INT4 整數(shù)的掩碼,可以迭代進(jìn)行反量化。?

美團(tuán) Flash Communication:LLM 推理的 AllReduce 通信優(yōu)化-AI.x社區(qū)

INT6 量化:鑒于在 All-Gather 之前進(jìn)行低比特量化會(huì)導(dǎo)致更大的損失,這里作者選擇采用 INT8 位寬,同時(shí)保持 ReduceSum 的 INT4 位寬,從而有效構(gòu)建了一個(gè) INT6 解決方案。INT6 配置在性能與通信效率之間達(dá)到了很好的平衡。

五、實(shí)驗(yàn) & 結(jié)果

5.1 實(shí)驗(yàn)配置

實(shí)驗(yàn)在前述的 L40 和 A100 GPU 進(jìn)行,對應(yīng)的輸入 Token 為 1024,輸出為 64,基線為 FP16 通信。

5.2 精度對比

5.2.1 FP16 Weight 實(shí)驗(yàn)

如下圖所示,作者針對 LLaMA-2 和 LLaMA-3 系列模型使用 FP16 Weight 進(jìn)行了評(píng)估,可以看出,大部分情況下 Asym INT8 的損失都很小,基本無損(紅框);Asym INT6(INT8 + IINT4)在 LLaMA-2 損失較小,在 LLaMA-3 損失稍微有點(diǎn)大;而 LLaMA-3 的 INT4 方案損失比較大,這也與 [2411.04330] Scaling Laws for Precision [4] 的結(jié)論相符,LLaMA-3 用了更多訓(xùn)練數(shù)據(jù),相應(yīng)也更難量化):

美團(tuán) Flash Communication:LLM 推理的 AllReduce 通信優(yōu)化-AI.x社區(qū)

PS:需要說明的是,上述中我們沒有使用論文表格是因?yàn)檎撐闹谐霈F(xiàn)了嚴(yán)重錯(cuò)誤,上述表格中:

  • AVG 列:作者論文中計(jì)算的均值,如下圖 Table 2 所示,此結(jié)果計(jì)算有誤。
  • New_AVG 列:我們自己根據(jù)表格中相關(guān)數(shù)據(jù)計(jì)算的均值。
  • INT8_Weight_AVG:來自下述 Table 3 中對應(yīng) INT8 Weight 推理的均值。可以看出 INT8 Weight 的均值也和我們計(jì)算的 FP16 Weight 的結(jié)果均值接近,符合預(yù)期。?

美團(tuán) Flash Communication:LLM 推理的 AllReduce 通信優(yōu)化-AI.x社區(qū)

5.2.2 INT8 Weight 實(shí)驗(yàn)

如下圖 Table 3 所示,作者同樣針對 LLaMA-2 和 LLaMA-3 系列模型使用 INT8 Weight 進(jìn)行了評(píng)估,和上述 FP16 Weight 結(jié)論基本類似:

美團(tuán) Flash Communication:LLM 推理的 AllReduce 通信優(yōu)化-AI.x社區(qū)

5.3 Flash AllReduce vs Ring AllReduce

在集成了一系列優(yōu)化技術(shù)后,F(xiàn)lash AllReduce 的速度顯著由于 Ring AllReduce。如下圖 Figure 10 所示,作者展示了通信量在 64MB - 1GB 時(shí)的通信時(shí)延。可以看出,其 INT4 版本最高可以實(shí)現(xiàn) 3.18x 的 Kernel 加速,而 INT6 在速度和精度之間取得了不錯(cuò)的平衡(PS:需要注意的是,實(shí)際推理過程中通信量可能沒有這么大)。

美團(tuán) Flash Communication:LLM 推理的 AllReduce 通信優(yōu)化-AI.x社區(qū)

如下圖 Figure 11 所示,作者也展示了不同 SM 數(shù)量對通信效率的影響。在通信量較小時(shí),較少的 SM 數(shù)量更為有利,因?yàn)檫@可以減少 Kernel 啟動(dòng)和 Block 間同步的開銷。然而,隨著通信量增大,計(jì)算需求增加,也很有必要使用更多 SM。配置 48 個(gè) SM 可以在通信與計(jì)算之間達(dá)到了更佳的平衡。

美團(tuán) Flash Communication:LLM 推理的 AllReduce 通信優(yōu)化-AI.x社區(qū)

5.4 時(shí)延和吞吐

如下圖 Figure 9 所示,作者也基于 LLaMA-3-8B 和 LLaMA-3-70B 模型在 L40 和 A100 上測量了 TTFT 的時(shí)延,可以看出,在 L40 上 TP=4 最多可以獲得 2.06x 的加速(對應(yīng)的 INT4,INT8 只有 1.42x);而在 A100 上 TP=8 最多可以獲得 1.19x 加速(對應(yīng)的 INT4,INT8 只有 1.1x)

美團(tuán) Flash Communication:LLM 推理的 AllReduce 通信優(yōu)化-AI.x社區(qū)

如下圖 Figure 13 所示,在 L40 上 TP=2 的加速會(huì)更小一些:

美團(tuán) Flash Communication:LLM 推理的 AllReduce 通信優(yōu)化-AI.x社區(qū)

PS:此外,LLM Inference 在 Prefill 階段的 AllReduce 通信量比較大,而在 Decoding 階段的 AllReduce 通信量比較小,作者并沒有進(jìn)行相關(guān)對比實(shí)驗(yàn)。

六、參考鏈接

  1. https://arxiv.org/abs/2412.04964
  2. https://developer.nvidia.com/blog/3x-faster-allreduce-with-nvswitch-and-tensorrt-llm-multishot/
  3. https://arxiv.org/abs/2211.10017
  4. https://arxiv.org/abs/2411.04330

本文轉(zhuǎn)載自 ??AI閑談??,作者: AI閑談

標(biāo)簽
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
国产成人福利夜色影视| 无码精品一区二区三区在线| 久久精品高清| 欧美精品第1页| 久久久国产精华液999999| 国产又黄又爽视频| 激情婷婷久久| 国产亚洲精品一区二区| 91日韩精品视频| av伦理在线| 91麻豆精品视频| 国产欧美一区二区三区在线| 久久成人国产精品入口| 精品嫩草影院| 欧美人与禽zozo性伦| 成年人深夜视频| 国产人成在线视频| 懂色av一区二区三区免费看| 国产精品久久久久久久久久久久久久 | 亚洲成人xxx| 国产自偷自偷免费一区| 日本网站在线免费观看视频| 9i在线看片成人免费| 国产美女被下药99| 可以在线观看av的网站| 香蕉av一区二区| 亚洲精品永久免费| 亚洲成a人无码| 成人黄色图片网站| 精品色蜜蜜精品视频在线观看| 视频一区在线免费观看| 日韩一区免费视频| 黄网站免费久久| 日本国产欧美一区二区三区| 国产女人被狂躁到高潮小说| 清纯唯美日韩| 亚洲欧美国产va在线影院| 丰满人妻一区二区三区大胸| 韩日成人影院| 午夜在线电影亚洲一区| 视频一区二区视频| 在线免费观看黄色| 国产亚洲欧美日韩日本| 好看的日韩精品| 国产99999| 韩国av一区二区三区在线观看| 国产va免费精品高清在线| 日韩精品国产一区二区| 午夜精品电影| 日韩一区二区av| 538精品视频| 欧美女优在线视频| 精品亚洲永久免费精品| 国产熟女高潮一区二区三区| 亚洲精品视频一二三区| 91精品国产高清一区二区三区蜜臀| 少妇高清精品毛片在线视频 | 无码人妻精品一区二区三区66| 丁香高清在线观看完整电影视频| 亚洲精品成人悠悠色影视| 91制片厂免费观看| 成人在线app| 亚洲欧美色图小说| 久久久久亚洲av无码专区喷水| 99青草视频在线播放视| 国产欧美日韩精品一区| 日韩免费中文专区| av影片在线看| 中文字幕佐山爱一区二区免费| 亚洲欧美日韩精品在线| 麻豆视频在线| 一区二区三区精品视频在线| 成年人视频网站免费| 日韩免费影院| 亚洲va韩国va欧美va| 日韩av高清在线看片| 超碰在线cao| 日韩欧美精品中文字幕| 999在线免费视频| 91成人在线| 91精品婷婷国产综合久久性色 | 日韩乱码在线观看| 亚洲中字在线| 国产精品丝袜久久久久久高清| 在线视频 91| 国产一区欧美二区| 国产精品乱码一区二区三区| 日韩精品视频无播放器在线看| 久久久久久电影| 亚洲一区精彩视频| 污污在线观看| 日韩欧美亚洲成人| 亚洲天堂国产视频| 成人中文字幕视频| 亚洲欧美日韩中文在线| 日韩欧美视频免费观看| 欧美日韩国产一区精品一区| 91国产精品电影| 国产乡下妇女三片| 国产成人精品亚洲午夜麻豆| 明星裸体视频一区二区| 黄色在线免费网站| 欧美日韩亚洲国产一区| 亚洲精品www.| 国内毛片久久| 色偷偷av一区二区三区| 免费在线观看黄视频| 亚洲专区一区| 亚洲综合在线中文字幕| 男人的天堂在线| 亚洲激情第一区| 男女曰b免费视频| 欧美在线在线| 亚洲欧美国产高清va在线播| 欧美成人一二三区| 日本va欧美va精品发布| 国产精品福利视频| 麻豆免费在线视频| 色综合天天综合网天天看片| 小日子的在线观看免费第8集| 亚洲精品一级二级三级| 欧美美女操人视频| 最近中文字幕在线观看| 成人国产视频在线观看| 亚洲综合网中心| 正在播放日韩精品| 精品少妇一区二区三区免费观看 | 性人久久久久| 久久91亚洲人成电影网站| 精品乱码一区内射人妻无码 | 欧美日本乱大交xxxxx| 久久午夜夜伦鲁鲁片| 欧美国产三级| 国产免费一区视频观看免费| 男人天堂亚洲二区| 欧美日韩国产一中文字不卡| 中国男女全黄大片| 999久久久国产精品| 国产精品高潮呻吟久久av黑人| 欧性猛交ⅹxxx乱大交| 亚洲精品日产精品乱码不卡| 中文字幕av专区| 国产麻豆精品久久| 国产91在线高潮白浆在线观看| 少妇高潮一区二区三区99小说| 一区二区在线观看不卡| 99久久99精品| 五月天激情综合网| 成人精品一区二区三区| 在线日本中文字幕| 欧美日韩成人在线一区| 欧美日韩国产一二三区| 日韩国产精品久久久久久亚洲| 久久草视频在线看| 无遮挡爽大片在线观看视频 | www.久久热.com| 91久久人澡人人添人人爽欧美| 亚洲人人夜夜澡人人爽| 免费在线欧美黄色| 欧美一区二区三区在线免费观看 | 精品成人国产在线观看男人呻吟| 在线免费看黄色片| 亚洲国产激情| 久久av免费一区| 蜜桃视频在线观看播放| 国产视频在线一区二区| 国产成人精品一区二三区| ww亚洲ww在线观看国产| 男人的天堂日韩| 成人3d动漫在线观看| 国产在线高清精品| a视频在线免费看| 欧美va亚洲va香蕉在线| 日韩精品久久久久久久| 久久在线免费观看| 欧美婷婷精品激情| 66视频精品| 国产精品二区在线| 小视频免费在线观看| 亚洲色图色老头| 一级爱爱免费视频| 一区二区在线观看免费视频播放| 黄色免费视频网站| 鲁大师影院一区二区三区| 日韩区国产区| 欧美日韩午夜电影网| 97国产一区二区精品久久呦| 噜噜噜噜噜在线视频| 欧美日韩亚洲不卡| 26uuu成人网| 91在线播放网址| 亚洲少妇久久久| 国产精品99免费看| 日本在线免费观看一区| 国产高清日韩| 5252色成人免费视频| 在线观看免费黄色| 欧美精品一区男女天堂| 青青国产在线视频| 夜夜亚洲天天久久| 国产免费看av| 国产精品99久久久久久有的能看 | 久久精品久久精品| 精品无码国产一区二区三区av| 欧美日韩123| 99在线免费观看视频| av资源亚洲| 色综合久久久888| 国产鲁鲁视频在线观看免费| 欧美大片日本大片免费观看| 亚洲欧美一二三区| 亚洲成人自拍一区| fc2ppv在线播放| 久久一二三国产| 自拍视频第一页| 蜜臀av性久久久久蜜臀aⅴ四虎| 欧美无砖专区免费| 国产精品久久久久久久久久10秀| 你懂的视频在线一区二区| 亚洲一区二区三区中文字幕在线观看 | 成人在线免费观看黄色| 日韩一区视频在线| 日本大片在线观看| 亚洲国产成人av在线| 99久久免费国产精精品| 欧美在线你懂的| 国产高潮久久久| 亚洲午夜免费福利视频| 亚洲深夜福利网站| 91porn在线| 免费观看日韩电影| av天堂永久资源网| 亚洲精品视频啊美女在线直播| 香蕉视频免费版| av亚洲一区| 在线视频二区| 最新国产一区| 制服丝袜av成人在线看| 99热在线播放| 久久亚洲中文字幕无码| 精品在线播放视频| 成人超碰在线| 亚洲成人直播| 国产无一区二区| 亚洲bt天天射| 成人黄色免费网站| 国产a∨精品一区二区三区不卡| 美女精品导航| 欧美成人剧情片在线观看| 1024免费在线视频| 一区二区三区日韩在线| 免费av在线电影| 日韩精品免费看| 青青草视频在线观看| 精品中文字幕久久久久久| 日韩在线免费看| 精品亚洲一区二区三区| 日本天堂在线| 亚洲一二三在线| 国产一级免费在线观看| 亚洲国模精品私拍| 色视频在线观看免费| 亚洲精品视频网上网址在线观看| 亚洲欧美色视频| 国产午夜精品麻豆| bbbbbbbbbbb在线视频| www.亚洲成人| 最新国产在线拍揄自揄视频| 久久久久久久久国产| 人人草在线视频| 国产精品成人一区| 亚洲电影二区| 91在线精品观看| 农村少妇一区二区三区四区五区| 农村寡妇一区二区三区| 国产精品一区二区a| 米奇777超碰欧美日韩亚洲| 日本欧美精品久久久| 99成人在线视频| 美女黄色免费看| 久久国产日本精品| 欧美一级xxxx| 成人综合激情网| av网站免费在线看| 自拍偷拍亚洲欧美日韩| 日本在线视频中文字幕| 在线观看一区日韩| 国产熟女一区二区三区五月婷 | 97se亚洲| 欧美一区二区视频17c| 我不卡神马影院| 波多野结衣家庭教师在线| 青青草91视频| 亚洲美女精品视频| 国产婷婷色一区二区三区在线| 成人免费视频国产免费观看| 精品高清美女精品国产区| 中文字幕第一页在线播放| 欧美成人精精品一区二区频| 国产高清免费在线播放| 九九热视频这里只有精品| 欧美日韩电影免费看| 97人人干人人| 欧美一区二区三区激情视频| 日韩精品综合在线| 麻豆传媒一区二区三区| 国产熟女高潮一区二区三区 | 五月婷婷激情网| 欧美精品丝袜中出| 全色精品综合影院| 欧美激情精品久久久久| 日本精品久久| 欧美日韩电影一区二区三区| 中文字幕人成人乱码| 久久精品视频91| 白白色 亚洲乱淫| 色婷婷在线视频观看| 在线观看不卡视频| 无码国精品一区二区免费蜜桃| 另类视频在线观看| 亚洲高清黄色| 精品视频一区二区| 国产精品地址| www.五月天色| 中文字幕精品一区二区精品绿巨人 | 欧美成人黑人xx视频免费观看| 午夜日韩成人影院| 久久99精品久久久久子伦| 欧美体内she精视频在线观看| 五月天激情视频在线观看| 91色porny在线视频| 国产无套在线观看| 精品免费国产二区三区| 国产精品一区二区三区视频网站| 国产精品毛片a∨一区二区三区|国 | 午夜在线视频一区二区区别 | 久久久久久久久岛国免费| 青青草av在线播放| 精品av久久707| 日本三级在线观看网站| 91超碰在线免费观看| 图片区亚洲欧美小说区| 国产精品自拍视频在线| 日本一区二区高清| 91视频久久久| 亚洲色图偷窥自拍| av久久网站| 中文字幕欧美日韩一区二区| 看片网站欧美日韩| 日韩在线观看免| 欧美一区二区三区四区久久| 国产黄色小视频在线| 91免费视频国产| 欧美freesex交免费视频| 中文字幕在线视频一区二区| 亚洲免费av观看| 午夜精品小视频| 国模极品一区二区三区| 日韩av资源网| 国产一区亚洲二区三区| 亚洲国产成人自拍| 一级特黄aaa| 成人444kkkk在线观看| 日韩精品一级| 日韩在线一级片| 久久九九影视网| 在线观看日韩一区二区| 久久九九国产精品怡红院| 欧美国产亚洲精品| 中文字幕无码精品亚洲35| 久久久久高清精品| 亚洲怡红院av| 色综合久久久久久中文网| 久久电影在线| 一区二区三区国产免费| 中文字幕一区二区三中文字幕| 99国产在线播放| 97在线观看视频| 成人毛片免费看| 亚洲午夜精品在线观看| 精品福利一区二区| 中国日本在线视频中文字幕| 97免费资源站| 久久久一二三| 91社区视频在线观看| 日韩欧美一区二区免费| 中文字幕21页在线看| 在线视频91| 91视视频在线直接观看在线看网页在线看 | 五月激情综合网| 1769视频在线播放免费观看| yellow视频在线观看一区二区 | 红桃视频在线观看一区二区| 在线一区二区不卡| 偷拍与自拍一区| 欧美13一16娇小xxxx| 韩日午夜在线资源一区二区| 久国产精品韩国三级视频| 国产精选第一页| 日韩专区在线观看|