精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

幻方 AI DeepSeek 模型背后的萬卡集群建設 精華

發布于 2024-9-19 12:55
瀏覽
0收藏

?一、背景

幻方 AI 團隊發布了一系列 DeepSeek 大模型,比如 DeepSeek-V2、DeepSeek-Math、DeepSeek-Coder 等。在 DeepSeek V2 中提出的 MLA(Multi-head Latent Attention)也廣受好評。此外,DeepSeek V2 在強大性能的情況下還將 API 定價降低到 GPT-4 的百分之一,被稱為“價格屠夫”,也由此引發大模型 API 的價格戰。

本文中我們介紹一下幻方 AI 訓練 DeepSeek 系列模型使用的大規模 GPU 集群以及相應的各種優化手段。

對應的論文為:[2408.14158] Fire-Flyer AI-HPC: A Cost-Effective Software-Hardware Co-Design for Deep Learning

二、摘要

深度學習 (DL) 和大型語言模型 (LLM) 的快速發展對計算能力和帶寬的需求呈指數增長。此外,更快的計算芯片和互聯的成本也往往很高,這大大增加了高性能計算(HPC)的構建成本。為了應對這些挑戰,作者提出了 Fire-Flyer AI-HPC 架構、軟硬件協同設計框架及其最佳實踐。對于深度學習訓練,作者部署了配備 10000 個 PCIe A100 GPU 的 Fire-Flyer2,實現了接近 DGX-A100 的性能,同時將成本降低一半,能耗降低 40%。作者還專門設計了 HFReduce 來加速 AllReduce 通信,并采用許多措施來保證計算-存儲網絡無阻塞。其軟件棧包括 HaiScale、3FS 和 HAI-Platform,作者通過重疊計算和通信實現了更好的可擴展性。

本文中涉及的關鍵技術點為:

  • Network Co-Design:集成了計算-存儲網絡的兩層 Fat-Tree 網絡。
  • HFReduce:為了適配器 PCIe 架構的集合通信庫。
  • HaiScale:基于 PCIe 架構優化的分布式并行方案。
  • 3FS Distributed File System:解決 AI 任務下大數據的 I/O 瓶頸問題。
  • HAI Platform:提供任務調度,容錯等能力,以便增加利用率,降低成本。

PS:

  • 本文中提到的 10000 卡 A100 集群最開始應該不是為了大規模 LLM 訓練搭建,可能沒有太大的網絡通信需求;而隨著大模型的發展,向這個方向轉換時為了解決網絡問題進而提供了一系列的解決方案,比如增加 NVLink Bridge。實際上針對大規模 LLM 推理場景,采用 PCIe GPU + NVLink Bridge 也是個不錯的方案。
  • 本文中的各種實驗都是針對 PCIe 架構展開,也并沒有提供業內比較常見的 MFU 指標,雖然其相比 Baseline 確實提升很多,但依然沒有一個明確的對比。比如當前在 DGX A100 上的大規模訓練通常能達到 50%-60% 的 MFU。

三、Fire-Flyer 2:網絡架構

3.1 PCIe A100 GPU 架構

在 NVIDIA 官方 DGX 方案中,通常會采用 SXM GPU,有 NVLink 和 NVSwitch 實現高速互聯,而且通常也會為每個 GPU 配備一個高速 IB 網卡(A100 通常是 200 Gbps)。而本文中作者采用的是 A100 PCIe GPU,無法使用 NVLink 和 NVSwitch 高速互聯。此外 PCIe A100 和 SXM A100 在性能上也會略有差異,如下圖 Table 2 所示。當然,PCIe GPU 服務器的成本和功耗也會更低一些。

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

實際上 A100 的各個版本中(甚至 A800 系列),理論算力都是相同的,比如 FP16 Tensor Core 算力都是 312 TFLOPS。作者上圖中 A100 PCIe 是 A100 SXM 的 83% 應該是實測性能:

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

成本低的另一個原因是服務器中只配備一個 200Gbps 的 Mellanox CX6 IB 網卡,并且直連到 CPU,沒有經過 PCIe Switch,類似于下圖紅框 NIC 和綠框 NIC 的區別。當然,這里其實還會引入一個問題,不同 NUMA(CPU)下的 GPU 通信,或者 CPU1 下的 GPU 要通過 NIC 通信則都需要通過 UPI,這也額外增加了一些開銷。

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

上面提到,作者采用的 PCIe A100,沒有使用 NVLink + NVSwitch 實現全互聯。為了緩解 GPU 間數據交互的瓶頸,作者采用折衷的方案,每兩個 GPU 通過 NVLink Bridge 實現高速互聯,如下圖所示,8 個 GPU 共分為 4 組,每組 2 個 GPU 通過 NVLink Bridge 連接。(PS:需要說明的是,作者早期的服務器沒有 NVLink Bridge,而是后期為了適應 LLM 的需求新增加的)

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

3.2 網絡拓撲

如下圖所示為本文作者提出的兩層 Fat-Tree 網絡拓撲:

  • 共包含兩個 Zone。兩個 Zone 的 Leaf Switch 直接通過 2 個 40-Port 的 Switch 互聯(我們這里稱作 Zone Switch),而不用經過 Zone 內的 Spine Switch。也就是2 個 40-Port 的 Switch 共連接了 80 個 Leaf Switch。
  • 每個 Zone 大概包含:

20 個 Spine Switch 和 40 個 Leaf Switch,Spine 和 Leaf 之間 Full Mesh 連接。

800 個 Node(包含 GPU Node 和 Storage Node,還有一些管理 Node)。

每個 Leaf Switch 40 個 Port:

  • 20 個 Port連接 Spine Switch。
  • 1 個 Port連接中間的 Zone Switch。
  • 15 或 16 個 Port連接 GPU Node,也就是每個 Zone 有 [40*15=600, 40*16=640] 個 GPU Node。(PS:論文中只說總共大約 1250 GPU Node,每個 Zone 大約 600 GPU Node,因此這里只能推測)
  • 2 或 4 個 Port 連接 Storage Node。(PS:論文中提到兩個 Zone 總共大約 200 個 Storage Node,但又介紹每個 Zone 800 個 Node。后文還提到包含 180 個 Storage Node,平均來看每個 Leaf Switch 會連接 2-3 個 Storage Node,Storage Node 包含 2 個 200 Gbps 的 NIC,不確定是否會將一個 Storage Node 連接到不同的 Leaf Switch)?

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

3.3 成本

作者對比了本文的方案與其他方案需要的 Switch 數量以及成本,具體如下圖 Table 3 所示:

  • 本文:122 個 Switch:(40+20)*2+2。
  • PCIe 架構 + 3 層 Fat-Tree:每個 Node 1 個 NIC,則共需要 1600/20=80 Leaf Switch,80 Spine Switch 和 40 Core Switch,共 200 Switch。
  • DGX-A100 GPU + 3 層 Fat-Tree:每個 Node 包含 8 個 GPU,有 8 個后向網絡 NIC,因此 10000 個 GPU(NIC) 至少需要 10000/(40/2)=500 個 40-Port 的 Leaf Switch,500 個 40-Port 的 Spine Switch 和 320 個 Core Switch(PS:考慮 Full Mesh,這里不是 250),所以總共需要 1320 個 Switch。?

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

從上也可以看出,作者方案可以以 11600/23000=50.4% 的成本獲得 83% 的 GPU性能。

3.4 下一代網絡拓撲

作者也在準備構建下一代的 PCIe 架構集群來支持 MoE LLM 的訓練,其包含大量的 All2All 通信,因此下一代架構中 GPU 和 NIC 會采用 1:1 配比,也就是每個 GPU 都有一個對應的 NIC,也考慮采用多平面網絡。此外,會使用 RoCE 替代 IB Switch 以降低成本。使用 128 Port 的 400 Gbps RoCE Switch,4 平面的 2 層 Fat-Tree 網絡可以支持 32,768 個 GPU。

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

四、HFReduce:軟硬協同網絡設計

4.1 HFReduce 算法

在大規模分布式訓練中,AllReduce 是一種非常常見的集合通信操作,比如不同 Data Parallelism 之間的梯度聚合操作。而 NCCL 通常是針對節點內有 NVLink 高速互聯或者都通過 NIC 方式通信的范式進行優化的。針對本文這種網絡拓撲不一定能發揮最優的性能。如下圖 Figure 6 所示為作者優化之后的 HFReduce 概覽,其包含幾步:

  • 第一步:節點內 Reduce 操作。
  • 第二步:節點間在 CPU 上進行 Reduce 操作。
  • 第三步:將 CPU 上 Reduce 后的數據傳輸會 GPU。?

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

節點內的 Reduce 操作算法如下圖 Algorithm 1 所示:

  • 將數據分成多個 Chunk 分別處理,這樣可以將 IO 和 Compute 充分 Overlap。
  • 每個 Chunk 的數據都通過異步的方式傳輸到 CPU 內存,拷貝操作也可以使用 GPUDirect 來拷貝小數據(可以參考 NVIDIA 的GitHub - NVIDIA/gdrcopy: A fast GPU memory copy library based on NVIDIA GPUDirect RDMA technology),或者使用 cudaMemcpyAsync 來拷貝大數據。
  • 已經拷貝到CPU 內存上的 Chunk 可以執行 Reduce 操作,最終的結果也都是在 CPU 內存中。?

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

節點間的 Reduce 操作算法如下圖 Algorithm 2 所示:

  • 使用 Double Binary Tree Algorithm 算法實現節點間的 AllReduce 操作,節點間傳輸通過 RDMA 實現。
  • 最后將計算完的數據通過 PCIe 傳輸到 GPU 顯存中。此處的 Host to Device 操作也可以通過 GPUDirect 操作來同時寫到同一個 NUMA 下的 4 個 GPU,而減少對 Host Memory 的讀取(利用 CPU Cache)。?

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

4.2 HFReduce 對比 NCCL

針對本文的網絡拓撲,作者提出的方案相比 NCCL 有 2 個優勢:

  • 減少了 PCIe 帶寬開銷:假設有 n 個 GPU 參與通信,在 NCCL 的 Ring 拓撲中每個數據單元需要 2n-1 次傳輸,對 PCIe 通信要求比較高。而 HFReduce 中,每個數據單元只需一次 D2H 和一次 H2D,這對于本文這種 PCIe 受限場景更加友好。
  • 沒有 GPU Kernel 開銷:HFReduce 使用 GPU 的 Copy Engine(CE) 來執行異步的數據傳輸,而 NCCL 的 AllReduce 操作是使用 GPU Kernel 來完成。

如下圖(a) 所示,本文的方案在執行 186MiB 數據的 AllReduce 時相比 NCCL獲得了更高的帶寬。 

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

4.3 HFReduce with NVLink

我們前面提到過,作者在每兩個 GPU 上添加了 NVLink Bridge,可以達到 600 GB/s 的高速通信帶寬。而上述標準 HFReduce 并沒有利用上 NVLink,因此作者也進一步探索了帶有 NVLink 的 HFReduce。具體來說,在數據傳輸到 CPU Memory 之前,先在 2 個 GPU 上執行 Reduce;然后在結果返回時再將結果切分到對應的 2 個 GPU。

作者進一步測試了相應的通信帶寬,如下圖(b)所示,基本可以達到上述(a)中不帶 NVLink 的 2x。其中藍色為跨 Zone 的情況,因為一個 Leaf Switch 下有 15 或16個 Node,也就是 128 GPU,因此也只考慮超過 128 GPU 的情況:

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

4.4 深入分析 HFReduce

實現中的關鍵技術決策:

  • GPUDirect:使用 GPUDirect 加速 D2H 中的小數據拷貝,同時使用 GPUDirect 減少 3 倍的 H2D 開銷。
  • 節點內規約:使用SIMD 指令完成 CPU 上的規約操作,支持 FP32、FP16、BF16 和 FP8。
  • NUMA 感知:D2H 的目標內存會分配到 2 個 NUMA 對應的內存,以實現最大帶寬。CPU Reduce 和網絡傳輸的數據內存綁定在 IB NIC 對應的 NUMA,以盡量減少通過 UPI。
  • 節點間規約:使用 Double Binary Tree 實現 AllReduce,避免額外的開銷。

克服 EPYC Rome CPU 的限制:作者找 AMD 和 NVIDIA 的工程師幫忙定位了 PCIe 架構下通信的次優問題。最終發現 EPYC Rome CPU 不支持 chained write 功能,這個功能可以大幅提升 GPU 和 IB 之間的 PCIe P2P 帶寬。作者測試發現,Rome CPU 上 IB NIC 和 GPU 的極限帶寬在 9GiB/s,這也就可以解釋上述 NCCL 的 AllReduce 帶寬不超過 4GB/s。而 HFReduce 通過在 CPU 上進行 Reduce,在 CPU 和 IB 之間傳輸數據來規避這一問題。

HFReduce 的瓶頸:作者統計了一個 Node 上的所有內存操作:

  • D2H 需要 8 次寫操作(8 個 GPU)。
  • 節點內 Reduce 涉及 8 次讀操作和 1 次寫操作。
  • 節點間 Reduce 涉及 IB send 2 次讀操作,IB receive 2 次寫操作,以及 1 次 add 操作。
  • H2D 利用 GPUDirect 執行 2 次讀操作(8 次降低到 2 次)。

整體來說,上述內存操作相比 GPU 上的數據大小涉及 24x 的放大。一個 16 Channel 的 DDR4-3200MHz 內存,理論最大內存帶寬為 320GB/s,對應理論最大 HFReduce 帶寬為 320/24=13.3GB/s,而作者實測只有 8GB/s。

上述問題的主要原因是 EPYC CPU 的另一個限制,本文中作者的 GPU5 和 GPU6 直接通過相同的 PCIe Host Bridge 連接到 CPU。而 AMD EPYC Rome 和 Milan CPU 中 PCIe Host Bridge 的最大帶寬為 37.5GB/s,即使 PCIe 4.0x16 從 GPU 到 CPU 可以實現 27GB/s。但是當 2 個 GPU 同時傳輸數據時將受到上述 37GB/s 的限制,也就是說平均最大只能達到 19GB/s。如果考慮雙向傳輸,帶寬瓶頸會更加明顯。而作者加裝的 NVLink Bridge (GPU5 和 GPU6 通過 NVLink Bridge 互聯)可以提供一種有效的方案來緩解這個問題。此外,即使 AMD EPYC Genoa 也同樣面對這個問題。

五、HaiScale:針對 DL 訓練優化

5.1 HaiScale DDP

Pytorch DDP 會使用 NCCL 用于梯度聚合時的 AllReduce 操作,而本文中,作者使用 HFReduce 替換 NCCL。如下圖(a)所示,訓練 VGG 模型時,基于 HFReduce 的時延幾乎是 Pytorch DDP(NCCL)的一半。同時,從 32 GPU 擴展到 512 GPU 時可以獲得 88% 的線性加速。

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

5.2 LLM 訓練優化

針對 LLM 訓練,作者同樣優化了 DP、PP、TP 和 EP。

將 NVLink Bridge 連接的 2 個 GPU 用于 TP,實現高速互聯。(PS:通常使用 NVLink + NVSwitch 的方案可以更好的是指 8 GPU 的 TP)

針對 PCIe 架構優化 PP。一臺機器只有 1 個 NIC,使用 PP 時可能存在瓶頸,為此,作者在調度時將不同的 DP Rank 調度到同一個 Node 上,這樣可以交錯 DP 和 PP。如下圖 Figure 9(a)所示,訓練 LLaMA 13B 時,GPU 數從 32 擴展到 512,每一個 Step 的 Latency 從 64.118s 減少到 9.717s,獲得了理論加速 91% 的加速效果。如下圖 Figure 9(b)所示,DeepSeek-MoE 16B 訓練時同樣獲得了理論加速的 92.92%。

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

HaiScale FSDP:此外,作者也對 FSDP 進行了適配和優化,如下圖(b)所示,從 16 GPU 到 128 GPU,HaiScale 可以獲得 95% 的加速。

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

六、聯合優化

6.1 計算-存儲網絡擁塞最小

如前所述,作者的網絡方案中計算和存儲在一個網絡中,相較而言,之前的方案中往往是計算網絡是高速后向網絡,而存儲網絡是前向網絡。因此,為了實現最大帶寬,必須隔離不同類型的流量,避免相互干擾并造成網絡擁塞。具體來說,作者實施了以下幾個措施。

不同流量區分:在典型的訓練任務中,有 4 種不同類型的流量:HFReduce 通信,NCCL 通信,3FS 存儲流量和其他流量。作者利用 IB 的 Service Level(SL)技術,在節點之間建立連接時為其分配不同的 SL 值,并將 SL 映射到 IB 物理隊列虛擬通道(VL),使用虛擬通道可以確保不同通道中的流量不會相互干擾。最終,通過配置它們的比例實現流量隔離,從而防止 Head-of-Line(HOL)阻塞和不同的流量沖突引起的網絡阻塞。

拓撲調整和路由優化:在高吞吐存儲場景中,存在許多 incast 通信模式,導致擁塞。針對這種情況,作者采用靜態路由策略,將存儲流量均勻分散在不同 Leaf -> Spine 連接,并將各種節點(存儲、計算、管理)均勻分配到 Leaf -> Spine 連接。

NCCL 優化:調整了 NCCL 拓撲,以便調整同一個 Node 內的 IB NIC 和 GPU 的路由。可以減少 CPU chiplet 互聯導致的 PCIe 擁塞。此外,通過使用 PCIe Relaxed Ording 進一步減少擁塞并增加帶寬。

3FS 網絡調優:3FS 實現了一個請求到發送的控制機制來緩解擁塞。

6.2 3FS 高吞吐分布式存儲

如下圖 Table IV 為本文的 Storage Node 配置,可以看出,其包含 1 個 CPU,2 個 200 Gbps NIC 和 16 個 15.36TB 的 SSD。

  • 總共 2880 NVMe SSD,可以提供20 PiB 的存儲(有1個額外的存儲副本)。
  • 總共可以提供 180*2*200 Gbps = 72 Gbps = 9 TB/s 的理論帶寬,實測可以達到8 TB/s。?

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

3FS 系統包含 4 個角色:Cluster Manager、Meta Service、Storage Service 和 Client。其中 Storage Service 會部署在每個 Storage Node 上,每個 Storage Service 都能提供等分的帶寬。根據這個設計,每個 Client 都可以訪問每個 Storage Service。峰值負載時,作者在 Client 觀察到 Incast 擁塞,為了緩解這個擁塞,作者在 Storage Service 和 Client 之間實現了一種請求發送控制機制(request-to-send),這種機制會增加端到端 IO 延遲,但又是實現可持續高吞吐的必要手段。

除此之外,還基于 3FS 實現了 3FS-KV,是 DeepSeek LLM Inference 中實現分布式 Context Caching 的關鍵所在。

6.3 HAI Platform

作者很早就開源了其對應的分布式訓練平臺,具體可以參考源碼(GitHub - HFAiLab/hai-platform: 一種任務級GPU算力分時調度的高性能深度學習訓練平臺)和文檔(歡迎來到HAI Platform 官方文檔)。這里不再介紹。

七、穩定性和魯棒性

7.1 Checkpoint 管理

在超大規模訓練中,各種異常是在所難免的,為了減少異常導致的計算浪費,通常都會采用 Checkpointing 機制,定期保存 Checkpoint。本文中 Checkpoint 的保存同樣依賴上述的 3FS,每個 Node 可以提供 10 GiB 的帶寬,所以通常可以在幾秒時間完成 Checkpoint 的保存。在作者的訓練過程中,通常是每 5 分鐘保存一次,也就是每次異常最多浪費 5 分鐘的訓練。

7.2 驗證

增強設備穩定性最好的手段就是在發生異常之前檢測到異常。因此作者開發了一系列的驗證工具來識別是否存在硬件故障,然后平臺可以自動進行一些運維工作。比如從集群中屏蔽異常機器,不允許調度。驗證主要包括下述部分:

  • 經常檢測硬件,比如連接速度,狀態。
  • CPU 壓測及內存帶寬壓測。
  • GPU Memory 測試。
  • GPU 運行 GEMM 測試。
  • 節點內 AllReduce 測試。
  • 存儲帶寬壓測。

7.2 硬件故障

最常見的硬件問題包含兩種:GPU Xid Error 和網絡抖動。

如下圖 Table V 所示,作者展示了常見的 Xid Error 和對應的原因:

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

如下圖 Table VI 所示,作者也展示了不同 Xid Error 的數量和比例,可以看出,NVLink Error 占比 42.57%,這可能和作者使用的 NVLink Bridge 有關。而 Xid 31 和 Xid 43 的軟件錯誤總共超過了 50%,這種情況大部分是程序問題,如果排除程序問題那也基本可以確定是硬件故障。

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

如下圖 Figure 11 所示,作者同樣頻繁受到網絡抖動的影響:

幻方 AI DeepSeek 模型背后的萬卡集群建設-AI.x社區

八、參考鏈接

  1. ??https://www.arxiv.org/abs/2408.14158??
  2. ??https://github.com/NVIDIA/gdrcopy??
  3. ??https://github.com/HFAiLab/hai-platform??
  4. ??https://hfailab.github.io/hai-platform/??

本文轉載自 ??AI閑談??,作者: AI閑談

收藏
回復
舉報
回復
相關推薦
91网站在线观看视频| 欧美激情1区2区3区| 色琪琪一区二区三区亚洲区| 欧美成人蜜桃| 在线免费观看av网址| 日本成人小视频| 欧美精品xxxxbbbb| 日韩精品无码一区二区三区| 一道本无吗一区| 国内精品99| 国产丝袜一区视频在线观看| 黄色aaa级片| 3d玉蒲团在线观看| 91在线观看高清| 国产精品久久久久久久天堂| 全网免费在线播放视频入口 | 美女av免费观看| 天天干天天操av| 免费看黄色91| 欧美激情2020午夜免费观看| 久久中文字幕人妻| 成人毛片免费| 亚洲大片在线观看| 亚洲在线不卡| 国产日产亚洲系列最新| 99视频在线精品国自产拍免费观看| 日韩电影网在线| 欧美成人福利在线观看| 国产蜜臀av在线播放| 国产日产欧美一区二区视频| 999国产在线| 欧美亚洲另类小说| 激情婷婷久久| 精品久久国产精品| 你懂得在线视频| 91成人短视频在线观看| 欧美日韩美女在线| 超碰10000| 国产在线观看黄| 黄色日韩网站视频| 日韩美女福利视频| 久久精品视频日本| 国产高清一区二区| 亚洲第一av网站| 久久精品久久99| 日本综合字幕| 亚洲午夜av在线| 亚洲美女自拍偷拍| 二人午夜免费观看在线视频| av一本久道久久综合久久鬼色| 91精品视频在线免费观看| 亚洲黄色免费观看| 国产日韩视频| 国产做受高潮69| 免费高清在线观看电视| 欧美中文字幕一区二区| 亚洲免费一在线| 久久精品综合视频| www.神马久久| 欧美α欧美αv大片| 中文字幕剧情在线观看| 激情中国色综合| 日本福利一区二区| 凹凸国产熟女精品视频| 麻豆视频在线观看免费网站黄| 一区二区三区不卡在线观看| 亚洲乱码一区二区三区| 久草在线网址| 久久久久久一级片| 欧美欧美一区二区| 精品视频三区| 国产视频在线观看一区二区三区| 牛人盗摄一区二区三区视频| 不卡av中文字幕| 国产不卡在线播放| 99久久综合狠狠综合久久止| 国产成人精品无码高潮| 国产一区二区不卡| 99久久99久久精品国产片| 国产又爽又黄免费软件| 国产在线播放一区三区四| 国产自产女人91一区在线观看| 中文字幕第315页| 麻豆视频一区二区| 亚洲一区二区三区视频| 亚洲图片视频小说| 国产黄色91视频| 999视频在线免费观看| 成人av免费播放| 成+人+亚洲+综合天堂| 精品欧美日韩在线| 天天干视频在线观看| 久久久99精品久久| 波多野结衣激情| 乱插在线www| 疯狂做受xxxx高潮欧美日本| 久草精品在线播放| 99久久这里有精品| 亚洲精品一区二区三区四区高清| 韩国三级hd中文字幕有哪些| 国产丝袜一区| 亚洲色图综合久久| 日韩av网站在线播放| 欧美freesex交免费视频| 欧美极品xxxx| 一级黄色在线观看| 国产精品资源站在线| 精品欧美一区二区三区久久久| 国产一二在线观看| 亚洲乱码中文字幕| 欧美日韩在线不卡视频| 国产一区二区| 亚洲精品一区久久久久久| 成人午夜剧场视频网站| 一级欧洲+日本+国产| 5252色成人免费视频| 中文字幕精品一区二| www.亚洲免费av| 正在播放91九色| 小早川怜子影音先锋在线观看| 欧美日韩精品二区第二页| 东京热av一区| 久久精品国产大片免费观看| 久久久亚洲欧洲日产国码aⅴ| wwwwww在线观看| 成人一区二区视频| 亚洲日本一区二区三区在线不卡 | jizz性欧美23| 综合av色偷偷网| 国产一级片免费看| 精品一区二区成人精品| 欧美日韩一区二区三区免费| 在线观看中文字幕的网站| 日本二三区不卡| 亚洲自拍偷拍精品| 欧美在线网址| 欧洲日本亚洲国产区| 国产高清视频免费观看| 中文字幕的久久| koreanbj精品视频一区| caoporn成人免费视频在线| 久久精品国产久精国产一老狼| 欧美a视频在线观看| 成年人国产精品| 国产性生活免费视频| 自拍偷拍欧美日韩| 在线观看中文字幕亚洲| 欧美在线观看不卡| 成人h动漫精品| 日韩欧美一级在线| 中文幕av一区二区三区佐山爱| 一区二区三区视频免费| 青青草成人av| av一二三不卡影片| 18禁裸男晨勃露j毛免费观看| 成人国产在线| 伊人亚洲福利一区二区三区| 日本中文字幕在线| 91视频国产资源| 99精品人妻少妇一区二区| jizz性欧美23| 欧美老女人xx| 精品黑人一区二区三区在线观看 | 在线视频国内一区二区| 中文字幕一区二区人妻在线不卡| 国产色综合网| 狠狠色综合欧美激情| 国产激情在线播放| 精品1区2区在线观看| 久久精品这里只有精品| 国产精品99久久久久久有的能看| 91手机视频在线| 成人午夜888| 伊人久久免费视频| 一区两区小视频| 1024成人网| 中文字幕第10页| 国模吧视频一区| 国产亚洲第一区| 毛片在线网站| 亚洲最大中文字幕| 97精品久久人人爽人人爽| 日韩一区中文字幕| 中文字幕人妻熟女人妻a片| 国内精品久久久久久久影视蜜臀| 懂色中文一区二区三区在线视频| 18aaaa精品欧美大片h| 国产午夜精品久久久| 久久影视中文字幕| 亚洲日本一区二区三区| 久久久久久久久久久久国产精品| 亚洲国产影院| 日韩欧美亚洲区| 国产高清日韩| 国内精品一区二区三区| 国产h在线观看| 7777精品伊人久久久大香线蕉的| 久青草免费视频| 北岛玲一区二区三区四区| 国产a级片免费观看| heyzo久久| 91久久精品一区二区别| 黄频免费在线观看| 亚洲色图35p| 国产成人精品免费看视频| 欧美日韩国内自拍| 人人干在线观看| 成人福利视频在线| 国产美女三级视频| 亚洲欧洲美洲一区二区三区| 精品午夜一区二区| 粉嫩一区二区三区在线观看| 97久久精品视频| 麻豆tv入口在线看| 国产丝袜高跟一区| av在线亚洲天堂| 色狠狠桃花综合| 国产亚洲精品久久777777| 久久久www免费人成精品| 色婷婷综合网站| 日韩五码在线| 日韩不卡视频一区二区| 国产欧美日韩视频在线| www日韩av| 丁香婷婷久久| 97av在线影院| 91极品在线| 一区二区三区在线播放欧美| 国模无码一区二区三区| 欧美日韩亚洲不卡| 欧美黄片一区二区三区| 欧美国产精品中文字幕| jlzzjizz在线播放观看| 国产一区二区成人久久免费影院 | 婷婷视频在线| 亚洲欧美色图片| 亚洲av无码乱码国产麻豆| 精品婷婷伊人一区三区三| 国产午夜精品久久久久| 亚洲一区成人在线| 欧美在线视频第一页| 日本一区二区久久| 99久久久久久久久久| 国产激情视频一区二区在线观看| 日本中文字幕影院| 丝袜亚洲精品中文字幕一区| 久久久久久免费看| 影音先锋在线一区| 日韩在线观看a| 欧美精品成人| 18视频在线观看娇喘| 91亚洲一区| 亚洲成人在线视频网站| 伊人春色精品| 久久国产精品99久久久久久丝袜| 亚洲网一区二区三区| 999国内精品视频在线| 精品视频在线播放一区二区三区 | 国产成人无码一区二区三区在线| 亚洲欧美一区二区三区国产精品| 呻吟揉丰满对白91乃国产区| 国产欧美一区二区精品性色超碰| 亚洲av成人片无码| 国产69精品久久777的优势| 中国老熟女重囗味hdxx| 国产成人精品影视| 日韩精品aaa| 国产福利一区二区三区视频 | 粉嫩一区二区| 日韩男女性生活视频| 电影亚洲一区| 国产精品亚洲激情| 99久久久成人国产精品| 91久久久一线二线三线品牌| 我要色综合中文字幕| 国产高清一区视频| 欧美电影完整版在线观看| 精品一区二区日本| 神马日本精品| 亚洲国产激情一区二区三区| 九九综合在线| 一本久道久久综合| 在线电影一区二区| 国产精品www在线观看| 在线一区欧美| 青青草av网站| 狠狠色丁香婷综合久久| 精品久久久久久无码人妻| 91麻豆免费视频| 裸体武打性艳史| 色婷婷激情一区二区三区| 99国产精品久久久久久久成人| 日韩福利视频在线观看| 久久久久久久久免费视频| 97视频网站入口| 24小时成人在线视频| 欧美日本国产精品| 欧美精品观看| 狠狠躁狠狠躁视频专区| 成人午夜av电影| www.com.av| 疯狂蹂躏欧美一区二区精品| 国产wwwxxx| 色综合亚洲精品激情狠狠| 午夜欧美激情| 91在线在线观看| 精品日韩免费| 欧美一区二区中文字幕| 国产美女精品在线| 潮喷失禁大喷水aⅴ无码| 黑人与娇小精品av专区| 国产福利资源在线| 最近的2019中文字幕免费一页 | 国产精品情侣自拍| 偷拍自拍一区| 国产曰肥老太婆无遮挡| 国产乱一区二区| 中文字幕第69页| 色久综合一二码| 欧美中文在线| 91精品国产高清久久久久久| 日韩视频在线直播| 国产一区一区三区| 久久电影网站中文字幕| 午夜影院黄色片| 色噜噜夜夜夜综合网| 日韩一区av| 91豆花精品一区| 老司机aⅴ在线精品导航| 草草草视频在线观看| 国产呦精品一区二区三区网站| 网站永久看片免费| 欧美色偷偷大香| 国产系列在线观看| 日本亚洲精品在线观看| 亚洲人亚洲人色久| 国产在线青青草| 97aⅴ精品视频一二三区| 日韩欧美大片在线观看| 亚洲国产免费av| 欧美大胆的人体xxxx| 成人午夜电影在线播放| 激情欧美亚洲| 欧美精品欧美极品欧美激情| 午夜影院在线观看欧美| 人妻无码一区二区三区久久99 | 日本成人性视频| 国产一区二区在线影院| 成熟的女同志hd| 欧美电影免费观看完整版| 色黄网站在线观看| 国产高清在线精品一区二区三区| 亚洲第一网站| 一级特级黄色片| 色网站国产精品| 一级毛片视频在线观看| 91久久夜色精品国产网站| 欧美区日韩区| 国产成人av无码精品| 狠狠综合久久av一区二区小说| 黄色软件在线| 国产免费一区二区三区在线观看| 久久精品亚洲人成影院| 国产乱国产乱老熟300部视频| 亚洲sss视频在线视频| 日韩a在线看| 国产精品揄拍500视频| 亚洲高清资源在线观看| 91九色蝌蚪porny| 色婷婷亚洲一区二区三区| 黄色一级片在线观看| 国产精品中出一区二区三区| 久久综合五月| 亚洲欧美精品aaaaaa片| 欧美精品一区二区三区久久久 | 91久久精品一区二区| 一区二区三区视频在线观看视频| 亚洲最大av在线| 国产精品久久久久9999高清| 久久久久亚洲av无码a片| 91精品国产欧美一区二区18| 69av成人| 一级做a爰片久久| av在线不卡网| 一级特黄特色的免费大片视频| 欧美国产精品va在线观看| 亚洲丝袜啪啪| 亚洲高清av一区二区三区| 欧美日韩中文字幕综合视频| 日本在线视频站| 久久精品国产一区二区三区不卡| 久久激情综合网| 午夜精品三级久久久有码| 色综合影院在线| 婷婷精品视频| 麻豆av免费看| 欧美日韩中文字幕精品| 538在线视频| 国产日韩视频在线播放| 久久久国产精品麻豆|