精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

<sup id="u6cwg"><delect id="u6cwg"></delect></sup>

<tfoot id="u6cwg"><input id="u6cwg"></input></tfoot>

<del id="u6cwg"></del>

<strike id="u6cwg"><rt id="u6cwg"></rt></strike>

<strike id="u6cwg"><input id="u6cwg"></input></strike>

51CTO首頁(yè)

AI.x社區(qū)

軟考社區(qū)

免費(fèi)課

企業(yè)培訓(xùn)

鴻蒙開(kāi)發(fā)者社區(qū)

信創(chuàng)認(rèn)證

公眾號(hào)矩陣

移動(dòng)端

視頻課免費(fèi)課排行榜短視頻直播課軟考學(xué)堂

全部課程軟考信創(chuàng)認(rèn)證華為認(rèn)證廠商認(rèn)證 IT技術(shù)PMP項(xiàng)目管理免費(fèi)題庫(kù)

在線學(xué)習(xí)

文章資源問(wèn)答課堂專(zhuān)欄直播

51CTO

鴻蒙開(kāi)發(fā)者社區(qū)

51CTO技術(shù)棧

51CTO官微

51CTO學(xué)堂

51CTO博客

CTO訓(xùn)練營(yíng)

鴻蒙開(kāi)發(fā)者社區(qū)訂閱號(hào)

51CTO軟考

51CTO學(xué)堂APP

51CTO學(xué)堂企業(yè)版APP

鴻蒙開(kāi)發(fā)者社區(qū)視頻號(hào)

51CTO軟考題庫(kù)

賬號(hào)設(shè)置退出

只需百行代碼，讓H100提速30%，斯坦福開(kāi)源全新AI加速框架

作者：機(jī)器之心 2024-05-13 12:58:30

人工智能新聞

文章用大量篇幅討論了如何讓 GPU 更快的運(yùn)行，并發(fā)布了一個(gè)庫(kù) ThunderKittens，用戶可以很容易地在 CUDA 上編寫(xiě)快速的深度學(xué)習(xí)內(nèi)核。

AI 的快速發(fā)展，伴隨而來(lái)的是大計(jì)算量。這就自然而然的引出了一個(gè)問(wèn)題：如何減少 AI 對(duì)計(jì)算的需求，并提高現(xiàn)有 AI 計(jì)算效率。

為了回答這一問(wèn)題，來(lái)自斯坦福的研究者在博客《GPUs Go Brrr》中給出了答案。

圖片

博客地址：https://hazyresearch.stanford.edu/blog/2024-05-12-tk

文章主要專(zhuān)注于兩個(gè)問(wèn)題：一是硬件真正需要什么？二是如何滿足硬件需求？

文章用大量篇幅討論了如何讓 GPU 更快的運(yùn)行，并發(fā)布了一個(gè)庫(kù) ThunderKittens，用戶可以很容易地在 CUDA 上編寫(xiě)快速的深度學(xué)習(xí)內(nèi)核。其具有以下特點(diǎn)：

簡(jiǎn)單，ThunderKittens 寫(xiě)起來(lái)非常簡(jiǎn)單?？蓴U(kuò)展性，如果用戶需要 ThunderKittens 無(wú)法提供的功能，可以進(jìn)行功能擴(kuò)展。速度快。

圖片

GitHub 鏈接：https://github.com/HazyResearch/ThunderKittens

ThunderKittens 使得一些棘手的事情變得非常簡(jiǎn)單，從而在現(xiàn)代硬件上實(shí)現(xiàn)了非常高的利用率。項(xiàng)目中，作者用 ThunderKittens 編寫(xiě)了一個(gè) RTX 4090 簡(jiǎn)單的 FlashAttention-2 內(nèi)核，代碼總共有 58 行代碼（不包括空格），結(jié)果顯示，ThunderKittens 在 RTX 4090 上實(shí)現(xiàn)了大約 122 TFLOP（理論最大值的 74%）。此外，內(nèi)核程序只有 100 行的情況下，ThunderKittens 在 H100 上的性能比 FlashAttention-2 高出約 30%。

英偉達(dá) H100 有些小怪癖

該研究重點(diǎn)關(guān)注 NVIDIA H100，不過(guò)所介紹的內(nèi)容也適用于其他 GPU。

圖片

H100 SXM GPU 包含：

80 GB HBM3，帶寬為 3 TB/s（實(shí)際上帶寬會(huì)少一些）；50 MB 二級(jí)緩存，帶寬 12 TB/s，在 GPU 上分成兩個(gè) 25MB 的部分，通過(guò) crossbar 連接；132 個(gè)流多處理器 (SM，streaming multiprocessors)。

除了上述這些，H100 SXM GPU 還有很多可關(guān)注的東西，例如內(nèi)存控制器、指令緩存等。

研究者表示保持張量核心的運(yùn)行流暢并不容易。他們發(fā)現(xiàn)了一些 AI 硬件上的怪癖，這些怪癖中的很多內(nèi)容也適用于非 H100 GPU，但 H100 尤其棘手。（相比之下，RTX 4090 則非常容易使用），這些怪癖包括：

WGMMA 指令是必需的，但使用起來(lái)也非常令人惱火；共享內(nèi)存實(shí)際上并沒(méi)有那么快，并且需要非常小心；地址生成成本很高；占用率仍然有幫助，寄存器通常是關(guān)鍵資源。

圖片

文章進(jìn)一步描述了 GPU 這些怪癖的具體內(nèi)容。

WGMMA 指令令人惱火

H100 有一組新指令，稱(chēng)為「warp group matrix multiply accumulate，WGMMA」（PTX 中的 wgmma.mma_async，或 SASS 中的 HGMMA/IGMMA/QGMMA/BGMMA）。以前的 GPU 上可用的張量核心指令是 wmma.mma.sync 和 mma.sync 。通過(guò)這些指令，SM 單個(gè)象限上的 32 個(gè)線程將同步地將其數(shù)據(jù)塊饋送到張量核心并等待結(jié)果。

不同的是，wgmma.mma_async 指令并非如此，128 個(gè)連續(xù)線程（分布在 SM 的所有象限中）協(xié)作同步，并直接從共享內(nèi)存（也可以選擇寄存器）異步啟動(dòng)矩陣乘法。

在基準(zhǔn)測(cè)試中，研究團(tuán)隊(duì)發(fā)現(xiàn)這些指令對(duì)于提取 H100 的完整計(jì)算是必要的。如果沒(méi)有它們，GPU 的峰值利用率似乎只能達(dá)到峰值利用率的 63% 左右。

圖片

共享內(nèi)存

共享內(nèi)存的單次訪問(wèn)延遲約為 30 個(gè)周期，這聽(tīng)起來(lái)似乎不算多，但在這段時(shí)間內(nèi)，SM 的張量核心幾乎可以完成兩個(gè)完整的 32x32 矩陣乘法運(yùn)算。

共享內(nèi)存處理起來(lái)有些棘手，因?yàn)樗淮鎯?chǔ)（banked）在 32 個(gè)獨(dú)立的內(nèi)存存儲(chǔ)中。如果不小心，這可能會(huì)導(dǎo)致所謂的 bank 沖突，即同一內(nèi)存 bank 被要求同時(shí)提供多個(gè)不同的內(nèi)存片段，導(dǎo)致請(qǐng)求被串行化，這可能會(huì)不成比例地減慢內(nèi)核的速度 - 而 wgmma 和 mma 指令所需的寄存器布局會(huì)受到這些 bank 沖突的影響。解決方法是使用各種交錯(cuò)模式重新排列共享內(nèi)存，以避免這些沖突。

地址生成

H100 其中一個(gè)特點(diǎn)是張量核心和內(nèi)存都足夠快，以至于僅僅生成用于獲取數(shù)據(jù)的內(nèi)存地址就占據(jù)了芯片資源的相當(dāng)一部分。

NVIDIA 似乎已經(jīng)意識(shí)到了這一點(diǎn)，因?yàn)樗麄冑x予了 GPU 張量?jī)?nèi)存加速器（或稱(chēng)之為 TMA）。TMA 允許用戶在全局和共享內(nèi)存中指定多維張量布局，這節(jié)省了所有的地址生成成本，并且還使得構(gòu)建 pipeline 更加容易。

研究團(tuán)隊(duì)還發(fā)現(xiàn) TMA 和 wgmma.mma_async 一樣，在實(shí)現(xiàn) H100 的全部潛力方面是完全不可或缺的。

占用

在某些方面，與前幾代硬件相比，H100 對(duì)占用率的依賴程度較低。NVIDIA 確實(shí)在設(shè)計(jì) GPU 時(shí)考慮了占用率。雖然對(duì)于 H100 來(lái)說(shuō)，占用率只能說(shuō)有用，但作用不大。研究者發(fā)現(xiàn)在 A100 和 RTX 4090 上它變得越來(lái)越重要。

ThunderKittens

那么，如何才能更輕松地編寫(xiě)內(nèi)核，同時(shí)仍兼具硬件的全部功能？

研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)嵌入 CUDA 中的 DSL，被命名為 ThunderKittens。

圖片

ThunderKittens 旨在盡可能簡(jiǎn)單，并包含四種模板類(lèi)型：

寄存器 tile—— 寄存器文件中的 2D 張量。寄存器向量 —— 寄存器文件中的 1D 張量。共享 tile—— 共享內(nèi)存中的 2D 張量。共享向量 —— 共享內(nèi)存中的 1D 張量。

tile 通過(guò)高度、寬度和布局進(jìn)行參數(shù)化，寄存器向量由長(zhǎng)度和布局參數(shù)化，共享向量?jī)H由長(zhǎng)度參數(shù)化。這樣通常不會(huì)遭受 bank 沖突的困擾。

研究團(tuán)隊(duì)還提供了一些必要操作：

初始化，如將共享向量清零

一元運(yùn)算，如 exp二元運(yùn)算，如 mul行 / 列操作，如 row_sum

該研究給出了一個(gè)用 ThunderKittens 編寫(xiě)的，用于 RTX 4090 的簡(jiǎn)單前向 flash attention 內(nèi)核：


#define NUM_WORKERS 16 // This kernel uses 16 workers in parallel per block, to help issue instructions more quickly.
using namespace kittens; // this kernel only handles headdim=64 for simplicity. Also n should be a multiple of 256 here.
__global__ void attend_ker64(int n, const bf16* __restrict__ __q__, const bf16* __restrict__ __k__, const bf16* __restrict__ __v__, bf16* __o__) {

    auto warpid        = kittens::warpid();
    auto block_start   = blockIdx.x*(n*64);
    const bf16 *_q = __q__ + block_start, *_k = __k__ + block_start, *_v = __v__ + block_start;
          bf16 *_o = __o__ + block_start;

    extern __shared__ alignment_dummy __shm[]; // this is the CUDA shared memory
    shared_allocator al((int*)&__shm[0]);
    
    // K and V live in shared memory -- this is about all that will fit.
    st_bf_1x4<ducks::st_layout::swizzle> (&k_smem)[NUM_WORKERS] = al.allocate<st_bf_1x4<ducks::st_layout::swizzle>, NUM_WORKERS>();
    st_bf_1x4<ducks::st_layout::swizzle> (&v_smem)[NUM_WORKERS] = al.allocate<st_bf_1x4<ducks::st_layout::swizzle>, NUM_WORKERS>();

    // Initialize all of the register tiles.
    rt_bf_1x4<> q_reg, k_reg, v_reg; // v_reg need to be swapped into col_l
    rt_fl_1x1<> att_block;
    rt_bf_1x1<> att_block_mma;
    rt_fl_1x4<> o_reg;
    rt_fl_1x1<>::col_vec max_vec_last, max_vec; // these are column vectors for the attention block
    rt_fl_1x1<>::col_vec norm_vec_last, norm_vec; // these are column vectors for the attention block
    
    int qo_blocks = n / (q_reg.rows*NUM_WORKERS), kv_blocks = n / (q_reg.rows*NUM_WORKERS);

    for(auto q_blk = 0; q_blk < qo_blocks; q_blk++) {

        // each warp loads its own Q tile of 16x64, and then multiplies by 1/sqrt(d)
        load(q_reg, _q + (q_blk*NUM_WORKERS + warpid)*q_reg.num_elements, q_reg.cols);
        mul(q_reg, q_reg, __float2bfloat16(0.125f)); // temperature adjustment

        // zero flash attention L, M, and O registers.
        neg_infty(max_vec); // zero registers for the Q chunk
        zero(norm_vec);
        zero(o_reg);

        // iterate over k, v for these q's that have been loaded
        for(auto kv_idx = 0; kv_idx < kv_blocks; kv_idx++) {

            // each warp loads its own chunk of k, v into shared memory
            load(v_smem[warpid], _v + (kv_idx*NUM_WORKERS + warpid)*q_reg.num_elements, q_reg.cols);
            load(k_smem[warpid], _k + (kv_idx*NUM_WORKERS + warpid)*q_reg.num_elements, q_reg.cols);
            __syncthreads(); // we need to make sure all memory is loaded before we can begin the compute phase

            // now each warp goes through all of the subtiles, loads them, and then does the flash attention internal alg.
            for(int subtile = 0; subtile < NUM_WORKERS; subtile++) {

                load(k_reg, k_smem[subtile]); // load k from shared into registers

                zero(att_block); // zero 16x16 attention tile
                mma_ABt(att_block, q_reg, k_reg, att_block); // Q@K.T

                copy(norm_vec_last, norm_vec);
                copy(max_vec_last,  max_vec);

                row_max(max_vec, att_block, max_vec); // accumulate onto the max_vec
                sub_row(att_block, att_block, max_vec); // subtract max from attention -- now all <=0
                exp(att_block, att_block); // exponentiate the block in-place.

                sub(max_vec_last, max_vec_last, max_vec); // subtract new max from old max to find the new normalization.
                exp(max_vec_last, max_vec_last); // exponentiate this vector -- this is what we need to normalize by.
                mul(norm_vec, norm_vec, max_vec_last); // and the norm vec is now normalized.

                row_sum(norm_vec, att_block, norm_vec); // accumulate the new attention block onto the now-rescaled norm_vec
                div_row(att_block, att_block, norm_vec); // now the attention block is correctly normalized

                mul(norm_vec_last, norm_vec_last, max_vec_last); // normalize the previous norm vec according to the new max
                div(norm_vec_last, norm_vec_last, norm_vec); // normalize the previous norm vec according to the new norm

                copy(att_block_mma, att_block); // convert to bf16 for mma_AB

                load(v_reg, v_smem[subtile]); // load v from shared into registers.
                rt_bf_1x4<ducks::rt_layout::col> &v_reg_col = swap_layout_inplace(v_reg); // this is a reference and the call has invalidated v_reg

                mul_row(o_reg, o_reg, norm_vec_last); // normalize o_reg in advance of mma_AB'ing onto it
                mma_AB(o_reg, att_block_mma, v_reg_col, o_reg); // mfma onto o_reg with the local attention@V matmul.
            }
            __syncthreads(); // we need to make sure all warps are done before we can start loading the next kv chunk
        }

        store(_o + (q_blk*NUM_WORKERS + warpid)*q_reg.num_elements, o_reg, q_reg.cols); // write out o. compiler has an issue with register usage if d is made constexpr q_reg.rows :/
    }
}

總共大約有 60 行 CUDA 代碼，硬件利用率為 75%，雖然非常密集，但大部分復(fù)雜性在于算法，而不是混合模式或寄存器布局。

TMA、WGMMA、swizzling 模式和描述符的復(fù)雜度又如何呢？如下是用 ThunderKittens 編寫(xiě)的， H100 的 FlashAttention-2 前向傳遞：


template<int D>
__global__  __launch_bounds__((NUM_WORKERS)*kittens::WARP_THREADS, 2)
void fwd_attend_ker_dim(int N, const CUtensorMap* tma_q, const CUtensorMap* tma_k, const CUtensorMap* tma_v, CUtensorMap* tma_o) {
    extern __shared__ int __shm[]; // this is the CUDA shared memory
    tma_swizzle_allocator al((int*)&__shm[0]);

    constexpr int tile_width = fwd_attend_ker_tile_dims<D>::tile_width; // constants
    constexpr int qo_height  = fwd_attend_ker_tile_dims<D>::qo_height;
    constexpr int kv_height  = fwd_attend_ker_tile_dims<D>::kv_height;

    st_bf<qo_height, tile_width, layout_q>          (&q_smem)   [NUM_WARPGROUPS] = al.allocate<st_bf<qo_height, tile_width, layout_q>,          NUM_WARPGROUPS>();
    st_bf<kv_height, tile_width, layout_k>          (&k_smem)[2][NUM_WORKERS_KV] = al.allocate<st_bf<kv_height, tile_width, layout_k>, 2,       NUM_WORKERS_KV>();
    st_bf<kv_height, tile_width, layout_v>          (&v_smem)[2][NUM_WORKERS_KV] = al.allocate<st_bf<kv_height, tile_width, layout_v>, 2,       NUM_WORKERS_KV>();

    int tic = 0, toc = 1;
 
    rt_fl<1, kv_height> att_block;
    rt_bf<1, kv_height> att_block_mma;
    rt_fl<1, qo_height> o_prev;
    col_vec<rt_fl<1, kv_height>> max_vec_last, max_vec;
    col_vec<rt_fl<1, kv_height>> norm_vec_last, norm_vec;

    int warpid      = kittens::warpid();
    int warpgroupid = warpid/kittens::WARPGROUP_WARPS;

    int kv_blocks = N / (NUM_WORKERS_KV*k_smem[0][0].rows);

    __shared__ uint64_t qsmem_barrier, kvsmem_barrier;//, vsmem_barrier;

    int q_phasebit = 0;
    int kv_phasebit = 0;

    if (threadIdx.x == 0) {
        tma::init_barrier<st_bf<qo_height, tile_width, layout_q>, NUM_WARPGROUPS>(qsmem_barrier, 1);
        tma::init_barrier<st_bf<kv_height, tile_width, layout_k>, NUM_WORKERS_KV*2>(kvsmem_barrier, 1); 
    }

    if (warpid == 0) {
        for (int wg = 0; wg < NUM_WORKERS/kittens::WARPGROUP_WARPS; wg++) { // load q
            int tile_idx = (blockIdx.y * NUM_WARPGROUPS * gridDim.x) + (blockIdx.x * NUM_WARPGROUPS) + wg;
            tma::load_async((q_smem[wg]), tma_q, qsmem_barrier, tile_idx); 
        }
        for (int w = 0; w < NUM_WORKERS_KV; w++) { // load k, v      
            int tile_idx = (blockIdx.y * NUM_WORKERS_KV * kv_blocks) + (0 * NUM_WORKERS_KV) + w; 
            tma::load_async((k_smem[tic][w]), tma_k, kvsmem_barrier, tile_idx); 
            tma::load_async((v_smem[tic][w]), tma_v, kvsmem_barrier, tile_idx); 
        }
    }

    neg_infty(max_vec); // zero registers for the Q chunk
    zero(norm_vec);
    zero(o_prev);
    __syncthreads();

    tma::arrive_and_wait(qsmem_barrier, q_phasebit);
    q_phasebit ^= 1;

    if constexpr (D == 64) { warpgroup::mul(q_smem[warpgroupid], q_smem[warpgroupid], __float2bfloat16(0.125f)); } 
    else { warpgroup::mul(q_smem[warpgroupid], q_smem[warpgroupid], __float2bfloat16(0.08838834764f)); }

    for (auto kv_idx = 0; kv_idx < kv_blocks; kv_idx++, tic ^= 1, toc ^= 1) {
        tma::arrive_and_wait(kvsmem_barrier, kv_phasebit);
        kv_phasebit ^= 1;

        __syncthreads();
        if (warpid == 0) {
            tma::set_bytes(kvsmem_barrier, 2 * NUM_WORKERS_KV * k_smem[0][0].num_elements * sizeof(bf16));

            if (kv_idx + 1 < kv_blocks) {
                for (int w = 0; w < NUM_WORKERS_KV; w++) {        
                    int tile_idx = (blockIdx.y * NUM_WORKERS_KV * kv_blocks) + ((kv_idx + 1) * NUM_WORKERS_KV) + w; 
                    tma::load_async((k_smem[toc][w]), tma_k, kvsmem_barrier, tile_idx); 
                    tma::load_async((v_smem[toc][w]), tma_v, kvsmem_barrier, tile_idx);
                }
            }
        }

        warpgroup::mma_fence(att_block);
        warpgroup::mm_ABt(att_block, q_smem[warpgroupid], k_smem[tic][0]);
        warpgroup::mma_commit_group();

        copy(norm_vec_last, norm_vec);
        copy(max_vec_last,  max_vec);

        warpgroup::mma_async_wait();

        row_max(max_vec, att_block, max_vec); // accumulate onto the max_vec
        sub_row(att_block, att_block, max_vec);
        exp(att_block, att_block);

        sub(max_vec_last, max_vec_last, max_vec);
        exp(max_vec_last, max_vec_last);
        mul(norm_vec, norm_vec, max_vec_last);

        row_sum(norm_vec, att_block, norm_vec); // accumulate onto the norm_vec
        div_row(att_block, att_block, norm_vec);

        mul(norm_vec_last, norm_vec_last, max_vec_last);
        div(norm_vec_last, norm_vec_last, norm_vec);

        copy(att_block_mma, att_block); // convert to bf16 for mma
        mul_row(o_prev, o_prev, norm_vec_last); // normalize o_prev in advance of mma'ing onto it

        warpgroup::mma_fence(o_prev);
        warpgroup::mma_AB(o_prev, att_block_mma, v_smem[tic][0]);
        warpgroup::mma_commit_group();
    }

    auto (*o_smem) = reinterpret_cast<st_bf<qo_height, tile_width, layout_o>(*)>(q_smem); // reuse q memory
    warpgroup::store(o_smem[warpgroupid], o_prev); 
    __syncthreads();
    
    if (warpid % 4 == 0) { // store o
        int tile_idx = (blockIdx.y * NUM_WARPGROUPS * gridDim.x) + (blockIdx.x * NUM_WARPGROUPS) + warpgroupid;
        tma::store_async(tma_o, (o_smem[warpgroupid]), tile_idx); 
        tma::store_commit_group(); 
    }

    tma::store_async_wait();
}

這個(gè)內(nèi)核只有 100 行代碼，它在 H100 上的性能比 FlashAttention-2 高出約 30%。ThunderKittens 負(fù)責(zé) wrap up 布局和指令，并提供一個(gè)可以在 GPU 上使用的 mini-pytorch。

圖片

H100 SXM 上各種配置的 FlashAttention-2（Pytorch）與 ThunderKittens 的比較。

此外，研究團(tuán)隊(duì)還發(fā)布了基于線性注意力的內(nèi)核和其他架構(gòu)。基于線性注意力內(nèi)核的運(yùn)行速度為 215 TFLOP（如果考慮算法中固有的重計(jì)算，則運(yùn)行速度超過(guò) 300 TFLOP）。

雖然理論上線性注意力更高效，但從實(shí)踐經(jīng)驗(yàn)來(lái)看，線性注意力在硬件上的效率大大降低。因此，ThunderKittens 有望開(kāi)辟?gòu)V泛的高吞吐量應(yīng)用。

圖片使用 ThunderKittens 可以非?？斓貙?shí)現(xiàn)線性注意力。

tile 看起來(lái)是個(gè)好點(diǎn)子

在研究團(tuán)隊(duì)看來(lái)，ThunderKittens 之所以運(yùn)行良好，是因?yàn)樗粫?huì)試圖做所有事情。CUDA 確實(shí)比 ThunderKittens 更有表現(xiàn)力，而 ThunderKittens 又小又簡(jiǎn)單。

不過(guò)，ThunderKittens 具有很好的抽象能力，它具有小的 tile，這與 AI 和硬件的發(fā)展相匹配。ThunderKittens 不支持任何少于 16 的維數(shù)。但在研究團(tuán)隊(duì)看來(lái)，這一點(diǎn)并不重要，尤其對(duì)于硬件而言。如果你的矩陣乘法小于 16x16，你確定自己做的還是 AI 嗎？

從哲學(xué)的視角來(lái)看，研究團(tuán)隊(duì)認(rèn)為框架遷移是合理的?！讣拇嫫鳌巩?dāng)然不應(yīng)該像舊 CPU 那樣的 32 位。CUDA 使用的 1024 位寬向量寄存器無(wú)疑朝著正確方向邁出了一步。但對(duì)研究團(tuán)隊(duì)而言，「寄存器」是 16x16 的數(shù)據(jù) tile。他們認(rèn)為 AI 想要這樣，它仍然只是矩陣乘法、規(guī)約和重塑。當(dāng)然硬件也想要這樣，小的矩陣乘法尋求硬件支持，而不僅僅是 systolic mma。

實(shí)際上，從更廣泛的視角來(lái)看，研究團(tuán)隊(duì)認(rèn)為應(yīng)該圍繞硬件的良好映射來(lái)重新調(diào)整 AI 思路。比如，循環(huán)狀態(tài)應(yīng)該有多大？SM 能夠容納多大尺寸？計(jì)算密度是多少？這些都不亞于硬件的要求。

研究團(tuán)隊(duì)表示，這項(xiàng)工作未來(lái)的一個(gè)重要方向是利用他們對(duì)硬件的了解來(lái)幫助設(shè)計(jì)與硬件相匹配的 AI。

最后，AMD 硬件上適配的 ThunderKittens 也將很快推出。

責(zé)任編輯：張燕妮來(lái)源：機(jī)器之心

模型訓(xùn)練

點(diǎn)贊

51CTO技術(shù)棧公眾號(hào)

業(yè)務(wù)
速覽

媒體

51CTO CIOAge HC3i

社區(qū)

51CTO博客鴻蒙開(kāi)發(fā)者社區(qū) AI.x社區(qū)

教育

51CTO學(xué)堂精培企業(yè)培訓(xùn) CTO訓(xùn)練營(yíng)

艳妇乳肉亭妇荡乳av| 日韩av在线电影观看| 天天操天天射天天爽| 四虎5151久久欧美毛片| 欧美亚一区二区| 路边理发店露脸熟妇泻火| 天天综合网天天综合| 青青草原综合久久大伊人精品优势| 色偷偷噜噜噜亚洲男人| 99久久久无码国产精品性波多 | 欧美一级大片在线免费观看| 亚洲一区欧美| 超碰97久久| 欧美日韩一区二区三区视频| www.日本在线播放| 日本中文字幕在线看| 99免费精品视频| 国产综合在线观看视频| 日韩特黄一级片| 国产精品久久久乱弄 | 欧美另类极品| 91老师国产黑色丝袜在线| 97中文在线观看| 夜夜躁日日躁狠狠久久av| 亚洲视屏一区| 在线视频日本亚洲性| 91精品小视频| ady日本映画久久精品一区二区| 欧美在线看片a免费观看| 久青草视频在线播放| 无遮挡的视频在线观看| 久久久综合视频| 国产精品视频免费观看| 国产精品视频a| 奇米精品一区二区三区在线观看 | 视频一区不卡| 日韩精品系列| gogo大胆日本视频一区| 91精品久久久久久蜜桃| 一级全黄少妇性色生活片| 久久美女性网| 青青草国产精品一区二区| 国产午夜福利片| 欧美黄色免费| 操日韩av在线电影| 亚洲人与黑人屁股眼交| 日韩在线第七页| 最近免费中文字幕视频2019| 在线免费观看麻豆| 猛男gaygay欧美视频| 亚洲乱码国产乱码精品精天堂| 亚洲一二三四五| jazzjazz国产精品麻豆| 精品对白一区国产伦| 日韩精品国产一区| 91亚洲无吗| 精品久久久网站| 国产av一区二区三区传媒| 亚洲福利合集| 亚洲精品在线三区| 黄色录像a级片| 国产一区不卡| 中文字幕日韩精品在线观看| 成熟人妻av无码专区| 成人同人动漫免费观看| 色婷婷久久av| 麻豆chinese极品少妇| 国产精品激情电影| 69视频在线免费观看| 中文字幕精品三级久久久| 香蕉久久国产| 国产精品女主播| 国产伦理吴梦梦伦理| 国产福利精品一区| 国产亚洲自拍偷拍| 青青草免费观看免费视频在线| 久久久久国产成人精品亚洲午夜| 天堂一区二区三区| a视频在线播放| 亚洲成a人片综合在线| 国产99久久九九精品无码| 免费欧美电影| 91精品欧美综合在线观看最新| 亚洲欧洲日韩综合| 最新国产一区| 久久影院资源网| 日韩人妻无码一区二区三区99| 久久久精品网| 成人精品在线观看| 婷婷综合激情网| 亚洲国产精品高清| 肉大捧一出免费观看网站在线播放| 2021中文字幕在线| 91福利国产成人精品照片| 日本美女视频一区| 欧美交a欧美精品喷水| 最好看的2019的中文字幕视频| 欧美国产在线看| 狂野欧美一区| 成人区精品一区二区| 高清日韩av电影| 一区二区三区四区在线| 看欧美ab黄色大片视频免费| 日韩高清一区| 亚洲欧美日韩一区二区在线 | 欧美a级在线| 情事1991在线| 狠狠躁夜夜躁av无码中文幕| 欧美国产日本视频| 日本韩国欧美在线观看| 伊人久久一区| 国产一区二区黄| 日韩av免费网址| 国产一区二区在线观看免费| 欧美三级网色| 在线能看的av网址| 欧美成人一区二区三区在线观看| 黄色片网站免费| 99riav国产精品| 91免费在线观看网站| 欧美午夜电影一区二区三区| 欧美性猛交丰臀xxxxx网站| 天堂va欧美va亚洲va老司机| 久久精品99久久无色码中文字幕| 奇米成人av国产一区二区三区| 亚洲第一精品网站| 亚洲精品国产无套在线观| 在线观看国产中文字幕| 欧美美乳视频| 国产91ⅴ在线精品免费观看| 丰满熟女一区二区三区| 亚洲码国产岛国毛片在线| 日本高清久久久| 成人区精品一区二区婷婷| 日韩美女视频在线观看| 亚洲av成人精品毛片| 亚洲一卡二卡三卡四卡五卡| 中文字幕人妻熟女人妻a片| 久久精品av| 成人国产精品色哟哟| 免费人成在线观看播放视频| 欧美三区免费完整视频在线观看| 亚洲精品国产91| 丝袜美腿亚洲一区二区图片| 欧美日韩在线播放一区二区| 中文字幕一区久| 亚洲欧美日韩另类| 免费又黄又爽又猛大片午夜| 久久久不卡网国产精品一区| av观看免费在线| 国内精品久久久久久99蜜桃| 国产成人精品优优av| 超碰在线国产| 欧美美女视频在线观看| 中日韩一级黄色片| 国产精品一区二区视频| 欧美高清中文字幕| 久久男人av| 日本三级韩国三级久久| 国产专区在线播放| 欧美三级一区二区| 欧美成人精品欧美一级私黄| 国产成人精品1024| 日韩欧美视频网站| 欧美亚洲激情| 亚洲bt天天射| 2020国产在线| 亚洲人成在线一二| 国产又粗又猛又黄| 亚洲一区二区不卡免费| 新91视频在线观看| 美国一区二区三区在线播放| 日韩最新在线视频| 九九九久久久| 爱啪啪综合导航| 亚洲日本欧美中文幕| 一区二区自拍偷拍| 一区二区三区日韩欧美精品| 亚洲中文字幕无码av| 视频在线观看一区| 在线观看18视频网站| 欧美成人午夜77777| 国产精品欧美激情| 日韩精品分区| 亚洲香蕉成人av网站在线观看| 在线观看毛片网站| 亚洲午夜久久久久| 成人在线手机视频| 成人免费毛片app| 奇米影音第四色| 亚洲国产精品一区| 亚洲伊人婷婷| 午夜精品福利影院| 91在线免费看网站| 亚洲精品中文字幕| 欧美国产一区二区三区| 黄色片免费在线| 日韩精品一区二区三区视频 | 欧美日韩精品系列| 日韩成人在线免费视频| 国产精品久久久久久久蜜臀| 中文在线观看免费视频| 韩国午夜理伦三级不卡影院| 女性女同性aⅴ免费观女性恋 | 91九色丨porny丨国产jk| 成人精品天堂一区二区三区| 国产女主播一区二区| 亚洲三级在线| 国产精品久久久久久亚洲调教| 1024在线看片你懂得| 操人视频在线观看欧美| 2021av在线| 亚洲免费视频观看| 天堂中文资源在线观看| 日韩亚洲精品在线| 国产一区视频在线播放| 手机av在线| 欧美精品videosex牲欧美| 91在线不卡| 亚洲人成网站在线播| 亚洲人成色777777老人头| 日韩一区二区三区免费观看| 亚洲一级av毛片| 一本色道亚洲精品aⅴ| 国产在线一二区| 亚洲老妇xxxxxx| 久久久久人妻一区精品色| 日本一区二区视频在线| av网站免费在线播放| 8888四色奇米在线观看| 男女视频在线| 韩国三级成人在线| 欧美猛男做受videos| www国产成人免费观看视频深夜成人网| 精品国产一区二区三区在线| 精品国产一区二区三区| 久久久99国产精品免费| 极品一区美女高清| 国产一区在线免费| 国产精品jk白丝蜜臀av小说| 91九色在线观看| 人人九九精品视频| 91精品天堂| 99re91这里只有精品| av一区二区三区免费| 亚洲国产aⅴ精品一区二区| 亚洲精品日韩av| 警花av一区二区三区| 99在线免费观看视频| **爰片久久毛片| 国产精品一区二区三区四区五区| 一区二区三区国产好| 国产精品毛片va一区二区三区| 电影一区二区三区久久免费观看| 成人在线小视频| 91麻豆精品国产91久久久久推荐资源| 99re视频在线| 欧美美女啪啪| 秋霞在线观看一区二区三区| 凹凸成人精品亚洲精品密奴| 精品国产无码在线| 精品动漫一区| 欧美在线观看成人| 日本特黄久久久高潮| 中文字幕免费高清在线| 国产激情精品久久久第一区二区| av漫画在线观看| 99re8在线精品视频免费播放| 黄瓜视频污在线观看| 国产精品午夜春色av| 日本中文在线视频| 亚洲国产毛片aaaaa无费看| 日本中文在线播放| 欧美日韩一区在线观看| 国产成人精品av在线观| 日韩精品电影网| bbbbbbbbbbb在线视频| 欧美成人精品在线观看| 亚洲最大网站| 成人精品久久久| 欧美jizz19性欧美| 日韩在线导航| 66视频精品| 免费成人在线视频网站| 麻豆精品一区二区三区| 久久久男人的天堂| 欧美国产成人精品| 中文字幕第28页| 欧美日韩在线不卡| 五月婷婷丁香六月| 色偷偷偷亚洲综合网另类| rebdb初裸写真在线观看| 国产精品久久久久久久久粉嫩av| 视频在线一区| 亚洲国产成人不卡| 亚洲精品日韩久久| 99九九精品视频| 久久久亚洲综合| 久久精品一区二区三| 欧美在线不卡视频| 天堂av2024| 成年人精品视频| 欧美韩国亚洲| 国产精品午夜av在线| 99久久婷婷国产综合精品电影√| 国产91xxx| 国产成人av一区| 特黄一区二区三区| 日韩欧美一区视频| 开心激情综合网| 另类专区欧美制服同性| 69堂免费精品视频在线播放| 国产精品久久国产精品| 91成人超碰| 免费看国产黄色片| 久久精品综合网| 日本熟妇毛耸耸xxxxxx| 欧美一区二区三区免费大片| 成黄免费在线| 国产精品成久久久久三级| 国产精品调教视频| 香港三级日本三级a视频| 另类的小说在线视频另类成人小视频在线 | 丝袜美腿一区二区三区| 久久久国产精品无码| 夜夜嗨av一区二区三区四季av| 国产又爽又黄免费软件| 中文日韩电影网站| 性欧美1819sex性高清| 久久精品国产综合精品| 亚洲人成在线影院| 人妻丝袜美腿中文字幕| 亚洲综合色在线| 亚洲AV无码一区二区三区少妇| 蜜桃视频一区二区三区在线观看| 亚洲国产成人久久综合| 中国一级黄色录像| 自拍偷拍色综合| 久久久久亚洲蜜桃| 日韩精品久久久久久久酒店| 日韩欧美在线影院| 黄色免费在线看| 91青草视频久久| 国产一区影院| 亚洲国产高清在线| 久无码久无码av无码| 精品无码三级在线观看视频| 免费91在线观看| 欧美日韩国产一级| 欧美日韩xx| 91av在线播放| 国产aaaaaaaaa| 91av亚洲| 精品视频偷偷看在线观看| 日本在线视频中文有码| 99re国产视频| 亚洲美女视频在线免费观看 | 精品三区视频| 热re99久久精品国99热蜜月| 日本中文一区二区三区| 国产精品无码无卡无需播放器| 欧美日韩一区二区电影| 欧美被日视频| 99久久国产免费免费| 亚洲激情精品| 波多野在线播放| 制服丝袜亚洲精品中文字幕| 亚洲妇熟xxxx妇色黄| 好吊色欧美一区二区三区四区| 亚洲资源av| 精品这里只有精品| 老司机在线视频二区| 91免费视频观看| 日韩久久久久久久久久久久| 久久99久久99| 国产一二三四区| 精品美女一区二区| 欧美片第一页| 一级一片免费播放| eeuss影院一区二区三区| 久久精品视频2| 欧美xxxx18性欧美| 欧美电影在线观看完整版| 成人黄色片视频网站| 精品日韩毛片| 国产精品日日摸夜夜爽| 91福利区一区二区三区| caoporn免费在线| 欧美高清一区二区| 国产一区二区三区在线看麻豆| 国产午夜在线播放| 久久综合九色九九| 欧美日韩看看2015永久免费| 欧美日韩一区二区三区69堂| 亚洲成人动漫精品| 日本高清视频在线观看| 九色综合日本| 国产福利精品一区| 在线免费av片| 日本韩国在线不卡|

<strike id="04sgi"><rt id="04sgi"></rt></strike>

<ul id="04sgi"><dfn id="04sgi"></dfn></ul>

<fieldset id="04sgi"><menu id="04sgi"></menu></fieldset>

<tfoot id="04sgi"><input id="04sgi"></input></tfoot>

<fieldset id="04sgi"><menu id="04sgi"></menu></fieldset>

<tfoot id="04sgi"></tfoot>