精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

每個(gè)程序員都應(yīng)該了解的硬件知識(shí)

開(kāi)發(fā)
本文旨在通過(guò)多個(gè)可運(yùn)行的 benchmark 介紹常見(jiàn)的優(yōu)化細(xì)節(jié)以及與之相關(guān)的硬件知識(shí),為讀者建立一個(gè)簡(jiǎn)單、有效的硬件心智模型。

在追求高效代碼的路上,我們不可避免地會(huì)遇到代碼的性能瓶頸。為了了解、解釋一段代碼為什么低效,并嘗試改進(jìn)低效的代碼,我們總是要了解硬件的工作原理。于是,我們可能會(huì)嘗試搜索有關(guān)某個(gè)架構(gòu)的介紹、一些優(yōu)化指南或者閱讀一些計(jì)算機(jī)科學(xué)的教科書(shū)(如:計(jì)算機(jī)組成原理)。但以上的內(nèi)容可能都太過(guò)繁瑣、細(xì)節(jié)太多,在閱讀的過(guò)程中,我們可能會(huì)迷失在紛繁的細(xì)節(jié)中,沒(méi)法很好地將知識(shí)運(yùn)用到實(shí)踐中。

本文旨在通過(guò)多個(gè)可運(yùn)行的 benchmark 介紹常見(jiàn)的優(yōu)化細(xì)節(jié)以及與之相關(guān)的硬件知識(shí),為讀者建立一個(gè)簡(jiǎn)單、有效的硬件心智模型。

一、Cache

首先要介紹的就是緩存 cache 。我們先來(lái)看一個(gè)引自 CSAPP 的經(jīng)典例子:

pub fn row_major_traversal(arr: &mut Vec<Vec<usize>>) {
    let n = arr.len();
    for i in 0..n {
        assert!(arr[i].len() == n);
        for j in 0..n {
            arr[i][j] += j;
        }
    }
}

pub fn column_major_traversal(arr: &mut Vec<Vec<usize>>) {
    let n = arr.len();
    for i in 0..n {
        assert!(arr[i].len() == n);
        for j in 0..n {
            arr[j][i] += j;
        }
    }
}

在上面兩個(gè)例子中,分別按行、按列迭代同樣大小的二維數(shù)組。

我們對(duì)這兩個(gè)函數(shù)進(jìn)行 benchmark:

在上圖中,縱軸是平均耗時(shí),橫軸是數(shù)組大小(如:2000.0 表示數(shù)組大小為:2000 x 2000)。我們看到按行迭代數(shù)組比按列迭代的效率高約 10 倍。

在現(xiàn)代的存儲(chǔ)架構(gòu)中,cpu 和主存之間是 cache 。cpu 中的寄存器、高速緩存、內(nèi)存三者的數(shù)據(jù)讀寫(xiě)速度越來(lái)越慢。

而當(dāng) cpu 讀取一個(gè)數(shù)據(jù)的時(shí)候,會(huì)先嘗試從 cache 中讀取。如果發(fā)生 cache miss 的時(shí)候,才會(huì)將數(shù)據(jù)從主存中加載到 cache 中再讀取。而值得注意的是,cpu 每一次的讀取都是以 cache line 為單位的。也就是說(shuō),cpu 在讀取一個(gè)數(shù)據(jù)的時(shí)候,也會(huì)將該數(shù)據(jù)相鄰的、一個(gè) cache line 內(nèi)的數(shù)據(jù)也加載到 cache 中。而二維數(shù)組在內(nèi)存中是按行排布的,換句話(huà)說(shuō),數(shù)組中相鄰的兩行是首尾相連排列的。所以在讀取 arr[i] 的時(shí)候,arr[i + 1] 、arr[i + 2] 等相鄰的數(shù)組元素也會(huì)被加載到 cache 中,而當(dāng)下一次迭代中,需要讀取數(shù)組元素 arr[i + 1] 時(shí),就能直接從 cache 中取出,速度非常快。而因?yàn)橐粤凶x取數(shù)組時(shí),arr[i][j] 和 arr[i + 1][j] 在內(nèi)存中的位置就不再是緊密相連,而是相距一個(gè)數(shù)組行大小。這也導(dǎo)致了在讀取 arr[i][j] 時(shí),arr[i + 1][j] 并沒(méi)有被加載到 cache 中。在下一次迭代時(shí)就會(huì)發(fā)生 cache miss 也就導(dǎo)致讀取速度大幅下降。

1.prefetcher

如果我們不再是按某種順序,而是隨機(jī)地遍歷數(shù)組,結(jié)果又會(huì)如何呢?

pub fn row_major_traversal(arr: &mut Vec<Vec<usize>>) {
    let n = arr.len();
    for i in 0..n {
        assert!(arr[i].len() == n);
        let ri: usize = rand::random();
        std::intrinsics::black_box(ri);
        for j in 0..n {
            arr[i][j] += j;
        }
    }
}

pub fn column_major_traversal(arr: &mut Vec<Vec<usize>>) {
    let n = arr.len();
    for i in 0..n {
        assert!(arr[i].len() == n);
        let ri: usize = rand::random();
        std::intrinsics::black_box(ri);
        for j in 0..n {
            arr[j][i] += j;
        }
    }
}

pub fn random_access(arr: &mut Vec<Vec<usize>>) {
    let n = arr.len();
    for i in 0..n {
        assert!(arr[i].len() == n);
        for j in 0..n {
            let ri: usize = rand::random();
            arr[j][ri % n] += j;
        }
    }
}

理論上來(lái)說(shuō),隨機(jī)遍歷和按列遍歷都會(huì)導(dǎo)致頻繁地 cache miss ,所以?xún)烧叩男蕬?yīng)該是相近的。接下來(lái),我們進(jìn)行 benchmark:

可以看到,random_access 比 column_major 的效率還要低了 2 倍。原因是,在 cache 和 cpu 間還有 prefetcher

我們可以參考維基百科上的資料:

Cache prefetching can be accomplished either by hardware or by software.

  • Hardware based prefetching is typically accomplished by having a dedicated hardware mechanism in the processor that watches the stream of instructions or data being requested by the executing program, recognizes the next few elements that the program might need based on this stream and prefetches into the processor's cache.
  • Software based prefetching is typically accomplished by having the compiler analyze the code and insert additional "prefetch" instructions in the program during compilation itself.

而 random_access 會(huì)讓 prefetching 的機(jī)制失效,使得運(yùn)行效率進(jìn)一步下降。

2.cache associativity

如果我們按照不同的步長(zhǎng)迭代一個(gè)數(shù)組會(huì)怎么樣呢?

pub fn iter_with_step(arr: &mut Vec<usize>, step: usize) {
    let n = arr.len();
    let mut i = 0;
    for _ in 0..1000000 {
        unsafe { arr.get_unchecked_mut(i).add_assign(1); }
        i = (i + step) % n;
    }
}

steps 為:

let steps = [
    1, 
    2, 
    4, 
    7, 8, 9,
    15, 16, 17,
    31, 32, 33,
    61, 64, 67,
    125, 128, 131,
    253, 256, 259, 
    509, 512, 515, 
    1019, 1024, 1031
];

我們進(jìn)行測(cè)試:

可以看見(jiàn)當(dāng) step 為 2 的冪次時(shí),都會(huì)有一個(gè)運(yùn)行時(shí)間的突起,一個(gè)性能的毛刺。這是為什么呢?要回答這個(gè)問(wèn)題,我們需要溫習(xí)一些計(jì)組知識(shí)。

cache 的大小是要遠(yuǎn)小于主存的。這就意味著我們需要通過(guò)某種方式將主存的不同位置映射到緩存中。一般來(lái)說(shuō),共有 3 種不同的映射方式。

(1) 全相聯(lián)映射

全相聯(lián)映射允許主存中的行可以映射到緩存中的任意一行。這種映射方式靈活性很高,但會(huì)使得緩存的查找速度下降。

(2) 直接映射

直接映射則規(guī)定主存中的某一行只能映射到緩存中的特定行。這種映射方式查找速度高,但靈活性很低,會(huì)經(jīng)常導(dǎo)致緩存沖突,從而導(dǎo)致頻繁 cache miss 。

(3) 組相聯(lián)映射

組相聯(lián)映射則嘗試吸收前兩者的優(yōu)點(diǎn),將緩存中的緩存行分組,主存中某一行只能映射到特定的一組,在組內(nèi)則采取全相聯(lián)的映射方式。如果一組之內(nèi)有 n 個(gè)緩存行,我們就稱(chēng)這種映射方式為 n 路組相聯(lián)(n-way set associative)。

回到真實(shí)的 cpu 中,如:AMD Ryzen 7 4700u 。

我們可以看到,L1 cache 大小為 4 x 32 KB (128KB) ,采取 8 路組相聯(lián),緩存行大小為 64 bytes 。也就是說(shuō),該緩存共有 4x32x1024 byte/64 byte = 2048 行,共分為 2048/8 = 256 組。也就是說(shuō),當(dāng)?shù)鷶?shù)組的步長(zhǎng)為 時(shí),數(shù)據(jù)更可能會(huì)被分到同一個(gè)組內(nèi),導(dǎo)致 cache miss 更加頻繁,從而導(dǎo)致效率下降。

(注:我的 cpu 是 intel i7-10750H ,算得的 L1 cache 的組數(shù)為 384 ,并不能很好地用理論解釋。)

3.false share

我們?cè)賮?lái)觀(guān)察一組 benchmark 。

use std::sync::atomic::{AtomicUsize, Ordering};
use std::thread;

fn increase(v: &AtomicUsize) {
    for _ in 0..10000 {
        v.fetch_add(1, Ordering::Relaxed);
    }
}

pub fn share() {
    let v = AtomicUsize::new(0);
    thread::scope(|s| {
        let ta = s.spawn(|| increase(&v));
        let tb = s.spawn(|| increase(&v));
        let tc = s.spawn(|| increase(&v));
        let td = s.spawn(|| increase(&v));

        ta.join().unwrap();
        tb.join().unwrap();
        tc.join().unwrap();
        td.join().unwrap();
    });
}

pub fn false_share() {
    let a = AtomicUsize::new(0);
    let b = AtomicUsize::new(0);
    let c = AtomicUsize::new(0);
    let d = AtomicUsize::new(0);

    thread::scope(|s| {
        let ta = s.spawn(|| increase(&a));
        let tb = s.spawn(|| increase(&b));
        let tc = s.spawn(|| increase(&c));
        let td = s.spawn(|| increase(&d));

        ta.join().unwrap();
        tb.join().unwrap();
        tc.join().unwrap();
        td.join().unwrap();
    });
}

在 share 函數(shù)中,四個(gè)線(xiàn)程同時(shí)競(jìng)爭(zhēng)原子變量 v 。而在 false_share 函數(shù)中,四個(gè)線(xiàn)程分別操作不同的原子變量,理論上線(xiàn)程之間不會(huì)產(chǎn)生數(shù)據(jù)競(jìng)爭(zhēng),所以 false_share 的執(zhí)行效率應(yīng)該比 share 要高。但 benchmark 的結(jié)果卻出乎意料:

可以看到 false_share 比 share 的執(zhí)行效率還要低。

在前文中提到,cpu 在讀取數(shù)據(jù)時(shí),是以一個(gè) cache line 大小為單位將數(shù)據(jù)從主存中加載到 cache 中的。在前文中提到,筆者機(jī)器的 cache line 大小為:64 bytes 。而 false_share 函數(shù)中,四個(gè)原子變量在棧中的排布可能是:

a, b, c, d 四個(gè)原子變量在同一個(gè) cache line 中,也就是說(shuō)實(shí)際上四個(gè)線(xiàn)程實(shí)際上還是發(fā)生了競(jìng)爭(zhēng),產(chǎn)生了 false share 的現(xiàn)象。

那要如何解決這個(gè)問(wèn)題呢?我們可以采用 #[repr(align(64))] (在不同的編程語(yǔ)言中又不同的寫(xiě)法),告知編譯器將原子變量的內(nèi)存地址以一個(gè) cache line 大小對(duì)齊,從而避免四個(gè)原子變量位于同一個(gè) cache line 中。

fn increase_2(v: &AlignAtomicUsize) {
    for _ in 0..10000 {
        v.v.fetch_add(1, Ordering::Relaxed);
    }
}

#[repr(align(64))]
struct AlignAtomicUsize {
    v: AtomicUsize,
}

impl AlignAtomicUsize {
    pub fn new(val: usize) -> Self {
        Self { v: AtomicUsize::new(val) }
    }
}

pub fn non_share() {
    let a = AlignAtomicUsize::new(0);
    let b = AlignAtomicUsize::new(0);
    let c = AlignAtomicUsize::new(0);
    let d = AlignAtomicUsize::new(0);

    thread::scope(|s| {
        let ta = s.spawn(|| increase_2(&a));
        let tb = s.spawn(|| increase_2(&b));
        let tc = s.spawn(|| increase_2(&c));
        let td = s.spawn(|| increase_2(&d));

        ta.join().unwrap();
        tb.join().unwrap();
        tc.join().unwrap();
        td.join().unwrap();
    });
}

我們?cè)俅芜M(jìn)行 benchmark,這一次 benchmark 的結(jié)果就符合我們的預(yù)測(cè)了:

可以看見(jiàn) non_share 相比前兩者,提升了近乎兩倍的效率。

二、pipeline

我們?cè)倏匆粋€(gè) benchmark:

pub trait Get {
    fn get(&self) -> i32;
}

struct Foo { /* ... */ }
struct Bar { /* ... */ }

impl Get for Foo { /* ... */ }
impl Get for Bar { /* ... */ }

let mut arr: Vec<Box<dyn Get>> = vec![];
for _ in 0..10000 {
    arr.push(Box::new(Foo::new()));
}
for _ in 0..10000 {
    arr.push(Box::new(Bar::new()));
}

// 此時(shí)數(shù)組中元素的排列時(shí)有序的
arr.iter().filter(|v| v.get() > 0).count()

// 將數(shù)組打亂
arr.shuffle(&mut rand::thread_rng());

// 再次測(cè)試
arr.iter().filter(|v| v.get() > 0).count()

測(cè)試結(jié)果為:

可以看見(jiàn),sorted 和 unsorted 之間效率差約 2.67 倍。這是因?yàn)轭l繁的分支預(yù)測(cè)失敗導(dǎo)致的。

在CPU 中,每一條指令的執(zhí)行都會(huì)分為多個(gè)步驟,而現(xiàn)代計(jì)算機(jī)架構(gòu)中存在一個(gè)結(jié)構(gòu) pipeline 可以同時(shí)執(zhí)行處于不同執(zhí)行階段的指令。

而 pipeline 要高效地工作,需要在執(zhí)行指令 A 時(shí)就將接下來(lái)要執(zhí)行的指令 B, C, D 等提前讀入。在一般的代碼中,pipeline 可以有效地工作,但遇到分支的時(shí)候,我們就遇到難題了:

如圖,pipeline 應(yīng)該讀入 Code A 還是 Code B 呢?在執(zhí)行分支語(yǔ)句前,誰(shuí)也不知道,CPU 也是。如果我們還想要 pipeline 高效工作的話(huà),我們就只剩下一條路:猜。只要猜得足夠準(zhǔn),我們的效率就能夠接近沒(méi)有分支的情況。“猜”這一步也有一個(gè)專(zhuān)業(yè)名詞——**流水線(xiàn)冒險(xiǎn)**。而現(xiàn)代計(jì)算機(jī)在編譯器配合以及一些算法的幫助下,某些分支(如下圖所示)的預(yù)測(cè)成功率可以高達(dá) 99% 。

分支預(yù)測(cè)失敗的代價(jià)是要付出代價(jià)的。首先,我們要清除 pipeline 中的指令,因?yàn)樗鼈儾皇墙酉聛?lái)要執(zhí)行的指令。其次,我們要將接下來(lái)要執(zhí)行的指令一一加載進(jìn) pipeline 。最后,指令經(jīng)過(guò)多個(gè)步驟被執(zhí)行。

在測(cè)試代碼中,我們打亂數(shù)組后,就會(huì)導(dǎo)致分支預(yù)測(cè)頻繁失敗,最終導(dǎo)致了執(zhí)行效率的下降。

三、數(shù)據(jù)依賴(lài)

我們?cè)賮?lái)看一段代碼:

pub fn dependent(a: &mut Vec<i32>, b: &mut Vec<i32>, c: &Vec<i32>) {
    assert!(a.len() == 100000);
    assert!(b.len() == 100000);
    assert!(c.len() == 100000);

    for i in 0..=99998 {
        a[i] += b[i];
        b[i + 1] += c[i];
    }
    a[9999] += b[9999];
}

pub fn independent(a: &mut Vec<i32>, b: &mut Vec<i32>, c: &Vec<i32>) {
    assert!(a.len() == 100000);
    assert!(b.len() == 100000);
    assert!(c.len() == 100000);

    a[0] += b[0];
    for i in 0..=99998 {
        b[i + 1] += c[i];
        a[i + 1] += b[i + 1];
    }
}

在這段代碼中,我們通過(guò)兩種不同的方式迭代數(shù)組,并最終達(dá)成一致的效果。我們畫(huà)出,數(shù)據(jù)流圖如下圖:

在上圖中,我們用箭頭表示依賴(lài)關(guān)系(a[0] -> b[0] 表示 a[0] 的結(jié)果依賴(lài)于 b[0] ),用黑色箭頭表示在循環(huán)外進(jìn)行的操作,用不同的顏色,表示不同迭代中的操作。我們可以看到,在 dependent 中,不同顏色的箭頭會(huì)出現(xiàn)在同一個(gè)數(shù)據(jù)流中,如:(a[1]->b[1]->c[0] 中就出現(xiàn)了紅色和藍(lán)色箭頭),這就意味著第 n + 1 次迭代會(huì)依賴(lài)于第 n 次迭代的結(jié)果,而 independent 中則沒(méi)有這種情況。

這會(huì)產(chǎn)生什么影響呢?我們來(lái)進(jìn)行測(cè)試:

可以看到,出現(xiàn)了近 3 倍的效率差距。這有兩方面原因。

一是數(shù)據(jù)依賴(lài)會(huì)導(dǎo)致 pipeline 效率以及 cpu 指令級(jí)并行的效率變低。

二是這種迭代之間的依賴(lài)會(huì)阻止編譯器的向量化優(yōu)化。我們觀(guān)察等價(jià)的 cpp 代碼(rust 1.71 的優(yōu)化能力并不足以將 independet 向量化,我略感悲傷)。

#include <vector>

using i32 = int;

template<typename T>
using Vec = std::vector<T>;

void dependent(Vec<i32> &a, Vec<i32> &b, Vec<i32> &c) {
    for (int i = 0; i < 9999; i++) {
        a[i] += b[i];
        b[i + 1] += c[i];
    }
    a[9999] += b[9999];
}

void independent(Vec<i32> &a, Vec<i32> &b, Vec<i32> &c) {
    a[0] += b[0];
    for (int i = 0; i < 9999; i++) {
        b[i + 1] += c[i];
        a[i + 1] += b[i + 1];
    }
}

查看匯編:

dependent(...):
    mov     rax, rdx
    mov     rdx, QWORD PTR [rsi]
    mov     rcx, QWORD PTR [rdi]
    mov     rdi, QWORD PTR [rax]
    xor     eax, eax
.L2:
    mov     esi, DWORD PTR [rdx+rax]
    add     DWORD PTR [rcx+rax], esi
    mov     esi, DWORD PTR [rdi+rax]
    add     DWORD PTR [rdx+4+rax], esi
    add     rax, 4
    cmp     rax, 39996
    jne     .L2
    mov     eax, DWORD PTR [rdx+39996]
    add     DWORD PTR [rcx+39996], eax
    ret

independent(...):
    mov     rax, QWORD PTR [rdi]
    mov     rcx, rdx
    mov     rdx, QWORD PTR [rsi]
    lea     rdi, [rax+4]
    mov     esi, DWORD PTR [rdx]
    add     DWORD PTR [rax], esi
    lea     r8, [rdx+4]
    mov     rsi, QWORD PTR [rcx]
    lea     rcx, [rdx+20]
    cmp     rdi, rcx
    lea     rdi, [rax+20]
    setnb   cl
    cmp     r8, rdi
    setnb   dil
    or      ecx, edi
    mov     rdi, rdx
    sub     rdi, rsi
    cmp     rdi, 8
    seta    dil
    test    cl, dil
    je      .L9
    mov     rcx, rax
    sub     rcx, rsi
    cmp     rcx, 8
    jbe     .L9
    mov     ecx, 4
.L7:
    movdqu  xmm0, XMMWORD PTR [rsi-4+rcx]
    movdqu  xmm2, XMMWORD PTR [rdx+rcx]
    paddd   xmm0, xmm2
    movups  XMMWORD PTR [rdx+rcx], xmm0
    movdqu  xmm3, XMMWORD PTR [rax+rcx]
    paddd   xmm0, xmm3
    movups  XMMWORD PTR [rax+rcx], xmm0
    add     rcx, 16
    cmp     rcx, 39988
    jne     .L7
    movq    xmm0, QWORD PTR [rsi+39984]
    movq    xmm1, QWORD PTR [rdx+39988]
    paddd   xmm0, xmm1
    movq    QWORD PTR [rdx+39988], xmm0
    movq    xmm1, QWORD PTR [rax+39988]
    paddd   xmm1, xmm0
    movq    QWORD PTR [rax+39988], xmm1
    mov     ecx, DWORD PTR [rdx+39996]
    add     ecx, DWORD PTR [rsi+39992]
    mov     DWORD PTR [rdx+39996], ecx
    add     DWORD PTR [rax+39996], ecx
    ret
.L9:
    mov     ecx, 4
.L6:
    mov     edi, DWORD PTR [rdx+rcx]
    add     edi, DWORD PTR [rsi-4+rcx]
    mov     DWORD PTR [rdx+rcx], edi
    add     DWORD PTR [rax+rcx], edi
    add     rcx, 4
    cmp     rcx, 40000
    jne     .L6
    retAI助手

可以看到,independent 函數(shù)被成功向量化。

責(zé)任編輯:趙寧寧 來(lái)源: 騰訊技術(shù)工程
相關(guān)推薦

2013-03-20 17:58:41

虛擬內(nèi)存程序員

2012-02-28 10:52:13

2018-03-07 12:57:53

2011-07-25 10:09:57

Python

2015-04-16 10:26:51

程序員 Python Ruby

2014-12-26 10:19:14

程序員

2023-01-31 15:43:47

2012-10-11 10:32:48

Linux命令程序員

2021-10-20 06:05:01

編程語(yǔ)言開(kāi)發(fā)

2022-09-11 15:20:05

程序員命令開(kāi)發(fā)

2021-10-18 10:21:28

程序員技能優(yōu)化

2014-07-16 09:34:44

2020-03-22 11:12:25

加速函數(shù)Python程序員

2019-05-21 16:19:46

前端性能優(yōu)化圖片

2011-06-16 08:58:57

軟考程序員

2023-12-27 09:00:00

Python魔術(shù)方法開(kāi)發(fā)

2024-04-24 14:52:26

JavaScriptWeb 開(kāi)發(fā)

2017-04-07 10:40:48

程序員學(xué)習(xí)命令行

2023-11-02 14:21:06

2015-07-02 11:20:17

程序員代碼
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

黄色av片三级三级三级免费看| 亚洲欧洲日产国码无码久久99| 国产女人18毛片18精品| 国内自拍视频一区二区三区| 亚洲精品乱码久久久久久金桔影视| 人妻内射一区二区在线视频| 久久77777| 99re66热这里只有精品3直播 | 亚洲第一级黄色片| 日本精品久久久久中文字幕| 超碰人人在线| 久久久久久久久久久久久夜| 亚洲a级在线播放观看| 中日韩黄色大片| 久久久久久久久久久9不雅视频| 日韩大陆欧美高清视频区| 伊人网在线综合| 综合另类专区| 亚洲一区在线观看视频| 亚洲巨乳在线观看| 无码精品视频一区二区三区| 狠狠狠色丁香婷婷综合久久五月| 日韩免费观看视频| 激情五月少妇a| 国产精品99一区二区三区| 日韩电影中文字幕在线观看| www.色.com| 四虎影视国产精品| 在线亚洲高清视频| 激情五月宗合网| 黑人另类精品××××性爽| 成人欧美一区二区三区黑人麻豆| 欧美一区二区三区四区在线观看地址 | 日韩av一区在线观看| 蜜桃福利午夜精品一区| 韩日精品一区| 色婷婷久久久综合中文字幕| 国产精品333| √最新版天堂资源网在线| 亚洲视频在线观看一区| 亚洲一区在线免费| av亚洲在线| 欧美激情在线观看视频免费| 欧美日韩在线精品一区二区三区| 人人妻人人澡人人爽久久av| 成人妖精视频yjsp地址| 99国内精品久久久久久久软件| 一级片视频网站| 精品亚洲成a人在线观看| 国产精品久久久久影院日本| 做爰视频毛片视频| 日韩电影一区二区三区四区| 国产成人+综合亚洲+天堂| 国产精品第9页| 在线视频日韩| 国产91精品最新在线播放| 特级做a爱片免费69| 亚欧美中日韩视频| 日本午夜在线亚洲.国产| 男人天堂av在线播放| 麻豆九一精品爱看视频在线观看免费| 91精品国产九九九久久久亚洲| 天堂网一区二区三区| 国产精品久久久久毛片大屁完整版| 国内精品久久久久| 九九热在线免费观看| 久久亚洲欧洲| 国产日韩欧美综合| 国产91视频在线| 成人久久18免费网站麻豆| 精品综合久久久| 日本成人一区二区三区| 中文字幕高清一区| 天天干天天色天天爽| 污视频网站在线免费| 精品成人国产在线观看男人呻吟| 成年人免费在线播放| 久久久国产精品网站| 日韩一级片在线观看| 性欧美18—19sex性高清| 亚洲人成网亚洲欧洲无码| 一本一本久久a久久精品综合小说| 免费成人深夜蜜桃视频| 欧美成人嫩草网站| 青青草原一区二区| 在线观看亚洲一区二区| 激情成人综合网| 狠狠色噜噜狠狠色综合久| 电影在线高清| 夜夜嗨av一区二区三区中文字幕| 国产原创中文在线观看 | 国产原创欧美精品| 免费观看黄一级视频| 欧美韩国一区二区| 国产一级做a爰片久久毛片男| 中文字幕乱码中文乱码51精品| 欧美日韩精品三区| 久久人人妻人人人人妻性色av| 日韩中文在线电影| 91国产精品电影| 亚洲中文字幕一区二区| 波多野结衣精品在线| 亚洲自拍的二区三区| www.超碰在线| 51午夜精品国产| 免费网站在线高清观看| 伊人狠狠色j香婷婷综合| 国产啪精品视频网站| 污污的视频网站在线观看| 一区在线观看视频| 国模吧无码一区二区三区| 亚洲天堂av资源在线观看| 亚洲日韩欧美视频| 久久精品美女视频| 国产在线精品一区二区夜色| 日本精品视频一区| 成人一级福利| 日韩一区二区视频在线观看| 人妻互换一区二区激情偷拍| 国产日韩专区| 国产日韩欧美一区二区三区四区| 免费观看在线午夜影视| 色婷婷精品久久二区二区蜜臂av| 国产清纯白嫩初高中在线观看性色| 欧美一区2区| 日本精品一区二区三区在线| 手机在线观看毛片| 亚洲最新视频在线观看| 亚洲制服中文字幕| 天天干天天色综合| 欧美日韩mv| 国产日韩视频在线观看| 国产小视频在线| 粉嫩av一区二区三区免费野| 色悠悠在线视频| 午夜精品偷拍| 亚洲一区久久久| 精品黄色免费中文电影在线播放 | 正在播放亚洲精品| 久久精品欧美一区二区三区不卡| 国产午夜福利在线播放| 超碰97久久| 久久久久久久一| 亚洲爱情岛论坛永久| 一二三区精品福利视频| 宇都宫紫苑在线播放| 欧美日韩国产综合网| 91免费版黄色| 青草视频在线免费直播 | 老司机免费视频| 91久久夜色精品国产九色| av一区二区三区在线观看| 青春草免费在线视频| 精品国产a毛片| 精品成人久久久| 久久综合九色综合欧美98| aa在线免费观看| 精品国产一区二区三区小蝌蚪| 国产精品99导航| 99视频在线观看地址| 69久久夜色精品国产69蝌蚪网| 在线免费看av网站| 国产成a人亚洲| 久久综合九色综合88i| 欧美男gay| 成人性生交大片免费看视频直播| 影院在线观看全集免费观看| 亚洲精品一区二区三区在线观看| 国产成人一区二区三区影院在线| 久久夜色精品国产噜噜av| 国产高清视频网站| 中文字幕人成人乱码| 国产精品永久入口久久久| 热色播在线视频| 深夜福利91大全| www.狠狠干| 欧美日韩一区二区三区在线免费观看| 国产又粗又猛又爽又黄av| 精品一区二区国语对白| 青草青青在线视频| 国产精品嫩草影院在线看| 91精品视频播放| 高清毛片在线观看| 社区色欧美激情 | 亚洲精品久久久狠狠狠爱| 色婷婷综合视频在线观看| 久久人妻无码aⅴ毛片a片app| av亚洲精华国产精华精华| 8x8x最新地址| 亚洲福利免费| 亚洲精品国产系列| 成人在线超碰| 国产一区欧美二区三区| 1区2区在线| 日韩在线观看免费高清完整版| 日韩一区免费视频| 欧美日韩亚州综合| 黄网在线观看视频| 综合久久国产九一剧情麻豆| 日本aaa视频| 国产福利一区在线| 视色视频在线观看| 一本色道久久综合亚洲精品不| 尤物国产精品| 精品一区三区| 国产伦精品一区二区三区高清版| 亚洲tv在线| 国产精品成熟老女人| 欧美日韩经典丝袜| 日韩少妇与小伙激情| 青青国产在线| 亚洲国产精品va在线观看黑人| 国产又大又粗又硬| 在线观看日韩精品| 亚洲天堂网站在线| 亚洲图片另类小说| 日本爱爱爱视频| 天天鲁一鲁摸一摸爽一爽| 国偷自拍第113页| 一区二区亚洲精品| 色综合666| 天海翼精品一区二区三区| 91日韩久久| 综合久久伊人| 成人黄色网免费| 69堂免费精品视频在线播放| 97在线观看视频国产| xxx在线播放| 91无套直看片红桃| 在线观看黄av| 国产成人自拍一区| 亚洲日产国产精品| 亚洲乱码一区二区三区| 欧美自拍一区| 国产原创精品| 精品少妇3p| 国产区一区二区三区| 91嫩草精品| 超碰97在线资源| 深夜激情久久| 亚洲free性xxxx护士白浆| 91精品国产自产观看在线| 国产精品自拍偷拍| 欧美成人xxxx| 成人妇女免费播放久久久| 国产精品国产亚洲精品| 91久久久亚洲精品| 日本精品国产| 福利精品视频| 日韩理论电影中文字幕| 久久精品国产99精品国产亚洲性色| 婷婷亚洲精品| 欧美日韩在线观看一区二区三区| 波多野结衣在线播放一区| 亚洲伊人婷婷| 亚洲一区色图| av网站手机在线观看| 国产日韩一区| 奇米影音第四色| 国产一区二区不卡| 91传媒理伦片在线观看| 久久综合狠狠综合久久综合88 | 无码人妻av一区二区三区波多野| 欧美午夜电影在线| 国模私拍一区二区| 6080日韩午夜伦伦午夜伦| 亚洲精品无amm毛片| 日韩经典中文字幕在线观看| 国产永久免费高清在线观看| 日韩在线视频免费观看| 羞羞视频在线观看不卡| 97视频免费观看| 日本中文字幕一区二区| 91久久精品国产91性色| 凹凸成人在线| 日本一区二区三区视频在线播放| 99精品电影| 男女猛烈激情xx00免费视频| 日韩精品乱码av一区二区| 亚欧美一区二区三区| 99国产精品久久久久| 国产极品视频在线观看| 亚洲综合男人的天堂| 天堂中文在线网| 91麻豆精品国产91久久久更新时间 | 久久人人爽人人爽人人| 色综合久久综合网| 一区二区 亚洲| 亚洲精品国产精品乱码不99按摩| 9色在线视频网站| 欧美激情在线视频二区| 日韩免费小视频| caoporen国产精品| 精品成av人一区二区三区| 国产精品无码电影在线观看| 久久综合中文| 人妻互换一二三区激情视频| 日本一区二区动态图| 久草免费在线视频观看| 国产成人77亚洲精品www| 免费久久99精品国产自在现线| 这里只有精品免费| 日本午夜精品一区二区| 日韩精品一区二区不卡| 日韩欧美激情电影| 亚洲少妇屁股交4| 亚洲精品日韩激情在线电影| 国产精品国产三级国产传播| 国产a亚洲精品| www.成人网.com| 亚洲综合国产精品| 91大神在线观看线路一区| 粉嫩av免费一区二区三区| 日韩欧美不卡| 国产极品尤物在线| 国产在线播放一区二区三区| 欧洲av一区二区三区| 亚洲国产精品影院| 国产丝袜在线视频| 中文字幕视频在线免费欧美日韩综合在线看 | 一区二区三区色| 精品国产青草久久久久96| 亚洲精品小视频| ****av在线网毛片| 国产精品久久久久久久久久久久午夜片 | 国产精品探花在线观看| 天堂…中文在线最新版在线| 国产成人啪免费观看软件 | 亚洲国产欧美日韩另类综合| 97人妻精品一区二区三区视频 | 欧美成人黑人| 鲁丝一区鲁丝二区鲁丝三区| 极品日韩av| 蜜臀av粉嫩av懂色av| 亚洲综合免费观看高清完整版在线| 国产又粗又长又黄| 不卡av在线网站| 精品视频在线观看网站| 男女h黄动漫啪啪无遮挡软件| 九九九久久久精品| 亚洲一级生活片| 日韩视频在线一区二区| 欧美xxxx免费虐| 99电影在线观看| 韩日在线一区| 久久精品aⅴ无码中文字字幕重口| 夜夜操天天操亚洲| 亚洲第一页在线观看| 久久久久久免费精品| 蜜桃久久久久| 国产免费黄色av| 久久精品一区二区三区av| 日日夜夜狠狠操| 这里只有精品丝袜| 亚洲黑人在线| 日韩美女爱爱视频| wwwwww.欧美系列| 波多野结衣高清在线| 久久精品国产一区二区电影| 国产一区二区三区免费观看在线| 人妻激情另类乱人伦人妻| av在线一区二区| 91青青草视频| 久久视频在线看| 成午夜精品一区二区三区软件| 日韩五码在线观看| 久久久久久亚洲综合影院红桃| 亚洲中文字幕无码爆乳av| 日韩中文字幕在线免费观看| 精品久久国产一区| av免费观看网| 国产精品夫妻自拍| 亚洲乱码国产乱码精品精软件| 欧美一级视频在线观看| 青青草成人影院| 亚洲妇女无套内射精| 欧美日韩国产专区| av在线免费播放网站| 亚洲综合av影视| 久久精品一区二区三区中文字幕| 网站永久看片免费| 亚洲成人在线视频播放| 免费成人动漫| 人妻激情另类乱人伦人妻| 久久久久综合网| 亚洲第一成人av| 国产精品午夜国产小视频| 国产一区日韩欧美| 成人在线手机视频| 欧美大片日本大片免费观看| 亚洲成人看片| 国产欧美123| 久久久久久久精| 潘金莲激情呻吟欲求不满视频| 国产在线精品一区二区夜色| 性无码专区无码| 欧美男插女视频| 国产尤物久久久| 中国一级特黄录像播放| 欧美日本乱大交xxxxx|