精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大規模分布式 AI 模型訓練—張量并行

發布于 2024-9-3 12:17
瀏覽
0收藏

一、背景

本文中我們繼續介紹分布式訓練中的張量并行(Tensor Parallelism,TP),包括 AlexNet、Google、Facebook、NVIDIA 以及 Colossal-AI 的一系列 Tensor Parallelism 方案。涉及 1D TP,2D 和 3D TP,也包含行切分和列切分等。

這里說的 Tensor Parallelism 和 Zero DP 以及 Pytorch FSDP 中的模型切分方式不一樣,Zero DP 和 FSDP 中的模型切分在實際使用的時候還會將相應的參數 AllGather 到當前設備,使用全部的參數進行計算。而 Tensor Parallelism 中的參數都始終在當前設備,最終聚合的是結果(Activation)。當然,在后續的文章中我們也會介紹 Zero 和 FSDP 相關方案。

二、分布式矩陣乘

Tensor Parallelism 的核心就是分布式矩陣乘法,其在高性能計算領域已經有很長的歷史,也已被廣泛研究。在 Tensor Parallelism 中有兩種常見的切分方式,Column Parallelism 和 Row Parallelism。如果從模型的的角度考慮,通常指的是 Y=XW 的形式,其中 X 為輸入,W 為權重參數,Y 為輸出。而具體是哪種切分方式也可以看 W 矩陣是在哪個維度切分的。(PS:這個小節的圖片來自 Tensor Parallelism — PyTorch Lightning 2.4.0 documentation)

2.1 Column Parallelism

如下圖所示為 Column Parallelism,其中的 Column 就是指權重參數 W 按照 Column 維度切分。每個 GPU 都包含一部分權重參數,并使用整個輸入 X 計算,得到 Y 的一部分,最后通過 AllGather 操作可以獲得全量結果。

大規模分布式 AI 模型訓練—張量并行-AI.x社區

2.2 Row Parallelism

如下圖所示為 Row Parallelism,其中的 Row 就是指權重參數 W 按照 Row 維度切分。每個 GPU 都包含一部分權重參數,并使用部分輸入 X 計算,結果和 Y 的 Shape 相同,但結果不完整,最后通過 AllReduce 操作可以獲得全量結果。因為 AllReduce 可以通過 ReduceScatter 和 AllGather 的方式實現,而 Column Parallelism 中的 AllGather 和 Row Parallelism 中 AllGather 通信量是一樣的,因此,總體來說 Column Parallelism 的通信量更少:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

2.3 Column Parallelism + Row Parallelism

在 Transformer 等模型中會存在連續兩個矩陣乘法(Linear Layer)的情況,此時通常都會采用先 Column Parallelism,之后 Row Parallelism 的方式切分,可以在兩個 Linear 之間減少一次通信操作。如下圖所示,W 是第一個 Linear 權重,V 是第二個 Linear 權重。只用在最后進行一次 AllReduce 操作即可:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

三、AlexNet

Tensor Parallelism 在 AI 模型中的應用最早可以追溯到著名的論文(2012: ImageNet Classification with Deep Convolutional Neural Networks),也就是 AlexNet,作者是 Alex Krizhevsky,Ilya Sutskever 和 Geoffrey E. Hinton。如下圖所示為 AlexNet 模型的網絡結構:其整個模型由 8 個可學習層組成,包括 5 個 Convolutional 層 和 3 個 Fully Connected 層;此外還有幾個 Max Pooling 和 ReLU 層。

大規模分布式 AI 模型訓練—張量并行-AI.x社區

然而,當時流行的消費級 GPU 為 GTX 580,只有 3GB 顯存,無法訓練這么大的模型,因此作者采用 Tensor Parallelism 的方式,當然,那個時候還沒叫 Tensor Parallelism。其切分也很簡單,如下圖所示,Conv 層按照卷積核(Kernel)切分,而 FC 層按照神經元(Neuron)切分。由于 Conv 層也可以等價于矩陣乘操作,所以 Conv 和 FC 的切分也都可以理解為矩陣乘中將 Weight 按行切分。

大規模分布式 AI 模型訓練—張量并行-AI.x社區

2012 年賈揚清的 Caffe 還沒有誕生,Alex Krizhevsky 自己實現了一個 cuda-convnet 庫(Google Code:cuda-convnet),為了支持 AlexNet 的 Tensor Parallelism,也繼續開發了 cuda-convnet2(Google Code:cuda-convnet2)。

PS:冷知識,NVIDIA 的 K20 GPU 是 2012 年發布的,只有 5GB 顯存;P100 是 2016 年發布的,最大也只有 16GB 顯存,也是在 P100 GPU 中首次引入 NVLink;NVIDIA 的集合通信庫 NCCL 也是在 2016 年發布。作者本人也是在這一年用 CUDA 重構了熊廠的圖像檢索系統,用的還是 K1200 GPU。

四、Google DistBelief

和 AlexNet 同年,Google 團隊也發表了 DistBelief 論文( 2012:Large Scale Distributed Deep Networks)。論文主要討論了如何使用大規模分布式計算集群(CPU)來訓練具有數十億參數的深度神經網絡。論文的核心貢獻是開發了 DistBelief 軟件框架,該框架能夠利用數千臺機器來訓練大型模型(1.7B,現在的 1.7B 已經是 Tiny Model 了 (⊙o⊙)…)。

如下圖所示為 DistBelief 中的模型并行(Model Parallelism)方案,這里已經涉及 Tensor Parallelism 和 Pipeline Parallelism。下圖中是一個 5 層的深度神經網絡,被切分到了 4 個機器上。由于每一層不是 Fully Connected 的,而是部分連接,因此只有切分的邊緣需要跨設備通信:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

此外,模型訓練也不是采用的集合通信方式,而是使用了 Parameter Server 架構,如下圖所示。也就是說模型權重的更新都是在專有的 Parameter Server 上進行,更新完后會 Broadcast 給相應的 Training Worker:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

如下圖所示,作者在 2012 年已經訓練了 1.7B 參數量的模型。(PS:可能是模型結構或者訓練資源的制約,最終并沒有在 ImageNet 上大規模訓練,和 AlexNet 同期但并沒有在效果上超越 2個 GPU 上訓練的 AlexNet)

大規模分布式 AI 模型訓練—張量并行-AI.x社區

五、Facebook TP + DP

Facebook AI 團隊在 [1312.5853] Multi-GPU Training of ConvNets 中將數據并行(Data Parallelism)和 AlexNet 的 Tensor Parallelism 相結合。如下圖 Figure 5 所示,GPU 1 和 GPU 2 共同包含了一份完整的模型副本,并通過 Tensor Parallelism 的方式切分模型;GPU 3 和 GPU 4 包含另外一份模型副本,兩個模型部分使用不同的數據訓練,并在每個 Iter 進行聚合同步: 

大規模分布式 AI 模型訓練—張量并行-AI.x社區

作者也對比了不同的分布式策略,最終使用 Tensor Parallelism + Data Parallelism 的方式獲得最優的加速比:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

六、Google TP + DP

Google 在 [1404.5997] One weird trick for parallelizing convolutional neural networks 中進一步對 TP + DP 進行了優化(PS:其實作者還是 Alex Krizhevsky,從 Google 離職后似乎不再進行 AI 研究相關工作;現在 AlexNet 的二作 Ilya Sutskever 更為人熟知,尤其是 OpenAI 火了之后)。如下圖 Figure 1 所示,具體來說,作者發現其模型的大部分參數集中在最后的 Fully Connected 層,因此在前面的 Conv 層采用 DP,而在后面的 FC 層采用 TP。其中 DP 里每個 Work 使用不同的 Batch 數據,而 TP 中使用相同的 Batch 數據:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

如下圖 Table 1 所示,在 2GPU 和 4GPU 幾乎都獲得了線性加速:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

七、UC Berkeley TP + DP

之前方案中討論了 Model Parallelism 和 Tensor Parallelism,其主要都是指權重參數按 Column 的切分方式。而在 [1712.04432] Integrated Model, Batch and Domain Parallelism in Training Neural Networks 中(PS:本文中作者用的是 Y=WX 的方式,所以雖然 Weight 按照 Row 切分了,但是實際對應 Y=XA 中的 Column Parallelism),UC Berkeley 等作者進一步討論了輸入(Activation,X)相關的切分方式(作者稱作 Domain Parallelism),且與 Data Parallelism 和 Column Parallelism 一起分析(比如分析通信量)、整合,并證明 Data Parallelism 或 Tensor Parallelism 單獨使用都不是最優的方案。

當然,本文中作者的討論也有一定的局限性,比如主要針對 AlexNet,并且假定所有設備之間都使用相同的拓撲連接。

如下圖 Figure 5 所示,作者首先評估了 Data Parallelism + Column Parallelism 的方案。其相當于 TP=2,DP=3:

  • 第一行:Forward 過程,采用的 Column Parallelism,所以計算完之后需要 AllGather 操作拿到完整數據。
  • 第二行:Backward 權重梯度過程,相當于 Row Parallelism,所以計算完之后需要 AllReduce 操作。
  • 第三行:Backward 鏈式法則(輸入梯度)過程,相當于 Row Parallelism,所以計算完之后需要 AllReduce 操作。?

大規模分布式 AI 模型訓練—張量并行-AI.x社區

如下圖 Figure 3 就是其所述的 Domain Parallelism,因為其數據實際是按 NCHW 方式存儲的,因此這里按照 Width 切分為 4 部分。這里實際就是對輸入的切分:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

作者對 Domain Parallelism 的通信也進行了分析,對于 AlexNet,前積層都是 Conv 層,Activation 比較大,適合 Domain Parallelism(切分輸入);后幾層是 FC 層,參數量比較大,適合切分 Weight。

八、Google Mesh-TensorFlow

Google 團隊在 2017 年發表著名的 [1706.03762] Attention Is All You Need,此后模型規模不斷擴大,Model Parallelism 已經成為不可或缺的分布式訓練方案。然而,當時并沒有一個高效的 Model Parallelism 的訓練框架,因此 Google 的作者提出了 Mesh-TensorFlow([1811.02084] Mesh-TensorFlow: Deep Learning for Supercomputers)框架,它是一個通用的分布式 Tensor 計算框架,用戶可以在多維網格的任何維度上分割任何的張量,也就天然可以支持 Data Parallelism 以及 Tensor Parallelism(包括 Column Parallelism 和 Row Parallelism)。

此外,作者也在 512 個 TPU 上訓練了 5B 參數量的 Transformer 模型(PS:本文的一作也是 Attention Is All You Need 的二作 Noam Shazeer)。

也是在這篇文章中作者對 Transformer 模型里這種 2 個 FC 層相鄰的 Model Parallelism 切分方式進行了介紹。如下圖所示,其中 w 和 v 是兩個權重矩陣,x 為輸入,y 為輸出,中間激活為 Relu:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

針對上述 2 個 FC 相鄰(比如 FFN,Attention)的計算,作者提出了可以第一個 FC 的 Weight(w)采用列切,第二個 FC 的 Weight(v)采用行切的方案。如下圖所示,這樣的好處是在第一個矩陣乘之后并不用通信,只用在最后的 y 這里 AllReduce 即可:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

其實作者也探討了更復雜的 2D Parallelism 切分方式,如下圖 Figure 5 所示。不過最終在 GitHub - tensorflow/tensor2tensor 中實現的還是上面提到的方式:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

九、NVIDIA Megatron-LM

Google 在 Mesh-TensorFlow 中已經提供了比較豐富的 Tensor Parallelism 的支持,然而它是一種新的框架,用戶如果想要使用會有比較大的改造成本。因此 NVIDIA 在 [1909.08053] Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism 中發布了 Megatron-LM 框架,只用對已有的 Pytorch Transformer 模型進行少量修改就可以實現,相應的更加簡單、方便。

如下圖 (a)所示,其和 Mesh-Tensorflow 類似,MLP 層的兩個 FC 采用先列切(A,Column Parallelism),然后行切(B,Row Parallelism)的方案,這樣兩個 FC 之間不用通信:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

如下圖(b)所示,由于每個 Head 的 Attention,softmax 都是獨立的,因此可以采用按照 Head 的方式切分(等價于 Column Parallelism),然后對之后的 FC 采用行切分(B,Row Parallelism),這樣 Self-Attention 中間也不用通信:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

需要說明的是,作者在其中引入了 f 和 g 模塊,其主要就是一個通信的抽象,比如如下圖所示,f 的 Forward 就是一個 Identify 操作,Backward 是一個 AllReduce 操作;而 g 正好相反,Forward 是一個 AllReduce 操作,Backward 是一個 Identify 操作。

大規模分布式 AI 模型訓練—張量并行-AI.x社區

如下圖 Figure 4 所示,采用這種 Tensor Parallelism 的 Transformer 模型的每一層在 Forward 和 Backward 都各只有 2 次 AllReduce 操作:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

十、Colossal-AI 2D Tensor Parallelism

在 [2104.05343] An Efficient 2D Method for Training Super-Large Deep Learning Models 中,作者進一步提出了 2D Tensor Parallelism 的方案 Optimus,它是一種高效的 2D Tensor Parallelism 并行范式,可以進一步促進無限大 LLM 的訓練,Colossal-AI 作者也在 GitHub - hpcaitech/ColossalAI 中開源了相應代碼。

作者提出 2D Tensor Parallelism 是因為觀察到之前的方案(比如 Megatron-LM,1D)中雖然將模型的參數分配到了多個設備上,但是每個設備上 Forward 和 Backward 的 Activation 并沒有被有效切分,還會占用相應的顯存空間。此外,雖然 Mesh-Tensorflow 中進行了多維 Tensor Parallelism 的抽象,但是并沒有很好的實現。因此,作者提出了 Optimus 方案,以最大化通信效率,最小化顯存占用。

PS:這里有個約束,2D 的兩個維度需要是相等的,也就是說 2D 的數量只能是 2x2=4, 4x4=16, 6x6=36, 8x8=64 這些。

如下圖所示為 Megatron-LM 對 Transformer 模型的切分方案,其中綠色為激活,藍色為權重。可以看出,權重都在各個設備上進行了 1 維切分,而 Input 和 Output 在每個設備上都是保存的整個副本,也就是存在存儲上的冗余。作者將這種方式稱為 1D Tensor Parallelism。

大規模分布式 AI 模型訓練—張量并行-AI.x社區

對于 1D Tensor Parallelism,給定 P 個設備,其計算、內存和通信成本如下所示:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

如下圖所示為本文的 2D Tensor Parallelism 切分方案,可以看出,不管是權重還是 Input、Output 都按照設備進行了切分,此時設備也是按照 2D Mesh (q,q)進行排布。

大規模分布式 AI 模型訓練—張量并行-AI.x社區

對于 2D Tensor Parallelism,給定 P = q x q 個設備,其計算、內存和通信成本如下所示:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

如下圖 Table 1 所示,作者也統計了 Megatron-LM 和 Optimus 的通信量和計算量,可以看出,兩者計算量相同(分塊計算并不會增加計算量),而通信量有所差距,當 p 比較大時 Optimus 的 2D 方式可以有一定優勢。不過當前通常都會將一個 TP 分組放在一臺機器內(通常不超過 8 個 GPU),此時 Optimus 在通信上并沒有什么優勢,不過在顯存上會更有優勢,當然也會增加實現和調度的復雜度。

大規模分布式 AI 模型訓練—張量并行-AI.x社區

十一、Colossal-AI 3D Tensor Parallelism

在 [2105.14450] Maximizing Parallelism in Distributed Training for Huge Neural Networks 中,作者在 2D Tensor Parallelism 的基礎上進一步提出了 3D Parallelism。通過實現完美的負載均衡,提出的方法提供比當時最先進的 1D 和 2D Tensor Parallelism 更小的內存和通信成本。在 64 個 V100 GPU 上的實驗結果表明,提出的 3D 并行比 1D 和 2D 并行分別加速 2.32x 和 1.57x。

PS:這里同樣有個約束,3D 的三個維度需要是相等的,也就是說 3D 的數量只能是 2x2x2=8, 4x4x4=64 這些,無法支持 4 個設備的 Tensor Parallelism。

如下圖 Figure 2 所示為一個 3D 矩陣乘的示例,其中 A 和 B 的箭頭表示  Broadcast 的方向,C 中的箭頭是 Reduce 的方向:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

如下圖 Figure 6 所示是 Transformer Layer 的 3D Tensor Parallelism 方案:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

對于 3D Tensor Parallelism,給定 P = q x q x q 個設備,其計算、內存和通信成本如下所示:

大規模分布式 AI 模型訓練—張量并行-AI.x社區

如下圖 Table 2 所示,作者對 1D,2D 和本文提出的 3D Tensor Parallelism 的方案進行了驗證,其中的 Average step time(s) 為 (Forward time + Backward time) / Batch Size。從中可以看出:

  • 2D Tensor Parallelism相比 1D 只在 64 GPU 時略微有優勢;而在更少的 GPU 時,反而不如 1D Tensor Parallelism。
  • 3D Tensor Parallelism相比 1D 有比較大的提升。(PS:3D 更節約顯存,可以使用更大的 Batch Size,如果是 Zero-DP 或者 FSDP 的方式,通過增加 Batch Size 是否可以達到同樣的效果?)

大規模分布式 AI 模型訓練—張量并行-AI.x社區

PS:當前除了 Zero-DP 和 FSDP 外,也有 Pipeline Parallelism,Sequence Parallelism,使用 2D 或者 3D Tensor Parallelism 的場景比較少;此外,GPU 算力越來越強,3D 方式會將矩陣計算切分得更加小,不一定能充分發揮 GPU 算力,還是需要綜合考慮。

十二、Megatron-LM TP+DP

NVIDIA 在上述的 Megatron-LM 中也介紹了 Tensor Parallelism 和 DP Parallelism 混合的方案。當前大規模 GPU 集群廣泛采用 NVIDIA GPU 構建,比如 H100、A100、V100,以及后續的 B200。通常每臺機器有 8 個 GPU,每臺機器內由 NVLink 高速互聯,通信帶寬更高。因此,在排布分布式并行策略時,通常將通信量比較大且有些時候無法有效 Overlap 的 Tensor Parallelism 放在一臺機器內部,而不同機器之間采用 Data Parallelism 或 Pipeline Parallelism。

如下圖 Figure 8 所示為 Megatron-LM 中一個 DP + TP 的混合分布式并行方案,總共采用 64 臺 8 GPU 機器,共 512 GPU。

  • 每臺機器的 8 個 GPU 組成一個 Model Parallelism Group(TP),共 64 個 TP Group;每個TP Group 內的 GPU 包含不同的模型參數,并且使用相同的訓練數據。
  • 所有設備的同號 GPU(比如 GPU 1,9,...,505)組成一個 Data Parallelism Group(DP),共 8 個 DP Group;每個 DP Group 內的 GPU 都有相同的模型參數,但是使用不同的訓練數據。

大規模分布式 AI 模型訓練—張量并行-AI.x社區

基于以上的分布式排布方案,反向傳播和梯度更新的過程如下所示(當然,下述兩個階段可以一定程度上 Overlap,以提升訓練速度):

  1. 各個 TP Group 獨立的進行 Backward,Backward 涉及的 AllReduce 也只在 Group 內部,也就是單個機器內。每個 GPU 上也只有對應權重參數的梯度。
  2. 各個 DP Group 獨立地進行梯度 AllReduce 以及權重參數更新。

如下圖所示,我們在之前的文章中介紹過,當前的大規模 GPU 訓練集群的網絡拓撲中,同一個 Group 里不同機器的同號 GPU 對應的 NIC 會連接到同一個 Leaf 交換機,比如所有機器的 2 號 NIC 都連接到了 2 號 Leaf 交換機。這也與上述的分布式排布方案相對應,所有 TP Group 的通信都在機器內,所有 DP Group 的通信都只用經過 Leaf 交換機,此外在交換機上執行規約計算也變成了一種可能。

大規模分布式 AI 模型訓練—張量并行-AI.x社區

大規模分布式 AI 模型訓練—張量并行-AI.x社區

十三、分布式 LLM 推理:DP+TP

在 LLM 的推理場景也會存在 DP + TP 的組合,比如為了支持更大的吞吐、考慮容災等場景,通常會有多個 Instance;每個 Instance 都會有完整的模型參數,這些 Instance 可以獨立、并行的處理各自的 Request,這種方式可以理解為 DP,只是因為推理只有 Forward,所以不涉及權重更新,各個 Instance 之間也就不必通信。而單個 GPU 的顯存或者算力可能不足,每個 Instance 可能使用多個 GPU 來推理,在 LLM 場景最常見的就是采用 TP 的方案。

然而,此時使用 TP 也可能有其局限性。如下圖所示(圖片來自 [2312.03134] A Hardware Evaluation Framework for Large Language Model Inference),我們之前已經分析過,一個 Transformer Layer 中會有兩次 AllReduce 通信,一次是 MHA 中的最后一個 Linear,一次是 FFN 中的最后一個 Linear。以 GPT-3 175B 模型為例,其共 96 個 Layer,也就是說一次 Forward 要有 192 次 AllReduce(忽略非 Transformer Layer 之外的通信)。每次的通信量與 Hidden Dim 和 Batch Size 成正比,模型確定后 Hidden Dim 確定,其通信量就與 Batch Size 成正比。 

大規模分布式 AI 模型訓練—張量并行-AI.x社區

由于 LLM 推理通常會使用 Continuous Batching 的方式提升吞吐,隨著 Batch Size 增加,MHA 和 FFN 的 Kernel 計算時延不會明顯增加(序列不太長);而 AllReduce 的通信量卻線性增加,相應的通信時延增加的更加明顯,以至于 AllReduce 通信可能成為瓶頸。GPU 間的通信時延與 GPU 之間的互聯方式有關,節點內通常通過 PCIe 或 NVLink 互聯,在 PCIe 互聯方式下就需要密切關注 AllReduce 相應的性能問題,尤其還會涉及跨 PCIe Switch 或 跨 NUMA 通過 UPI 通信的場景。

如下圖所示為 Batch size 等于 1 和 512 時 LLM 中幾個主要 OP 的計算耗時,可以看出,將 Batch size 從 1 增加到 512,計算量增加 512 倍,但是其整體時間只增加到原來的 3 倍左右(圖片來自 openppl-public · GitHub):

大規模分布式 AI 模型訓練—張量并行-AI.x社區

除此之外,Continuous Batching 的方式會希望組合盡可能大的 Batch Size,也就意味著同一時間可能只有一個 Batch 的數據在計算,AllReduce 通信與計算無法充分 Overlap,出現算力的浪費。針對這個問題,也有一些優化方案,比如:

  • Prefill 階段和 Decoding 階段的細粒度 Overlap,比如新到的 Request 在執行 Prefill 計算時,可以執行之前已經 Batching 的 Decoding 的通信;而 Prefill 在通信時,可以執行 Decoding 的計算。當然,實現這種細粒度的計算、通信 Overlap 的代價也比較高。
  • Pipeline Parallelism、Sequence Parallelism 以及其組合方案,這里先不展開。

十四、參考鏈接

  1. https://lightning.ai/docs/pytorch/stable/advanced/model_parallel/tp.html
  2. https://proceedings.neurips.cc/paper_files/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf
  3. https://code.google.com/archive/p/cuda-convnet/
  4. https://code.google.com/archive/p/cuda-convnet2/
  5. https://www.cs.toronto.edu/~ranzato/publications/DistBeliefNIPS2012_withAppendix.pdf
  6. https://arxiv.org/abs/1312.5853
  7. https://arxiv.org/abs/1404.5997
  8. https://arxiv.org/abs/1712.04432
  9. https://arxiv.org/abs/1706.03762
  10. https://arxiv.org/abs/1811.02084
  11. https://github.com/tensorflow/tensor2tensor
  12. https://arxiv.org/abs/1909.08053
  13. https://arxiv.org/abs/2104.05343
  14. https://github.com/hpcaitech/ColossalAI
  15. https://arxiv.org/abs/2105.14450
  16. https://arxiv.org/abs/2312.03134

本文轉載自 ??AI閑談??,作者: AI閑談

收藏
回復
舉報
回復
相關推薦
av不卡中文字幕| 成人毛片100部免费看| 久久精品久久久久久久| 精品国产一区探花在线观看| 欧美图片一区二区三区| 97超碰人人爱| 十八禁一区二区三区| 日日夜夜免费精品| 另类少妇人与禽zozz0性伦| 黑人玩弄人妻一区二区三区| 欧美电影免费观看高清完整| 国产精品成人一区二区艾草| 国产精品国产精品国产专区蜜臀ah | 老熟妻内射精品一区| 91年精品国产| 欧美色图五月天| 亚洲视频一区二区在线观看| 国产精品久久久久久久久久久久午夜片 | 欧美视频1区| 国产日产亚洲系列最新| 亚洲一区二区三区高清| 日韩一区二区三区xxxx| 麻豆国产精品一区| 国产精品久久久久久久久久久久久久久| 午夜影院在线观看欧美| 中文字幕一区二区三区精彩视频| 欧美一区二区视频| 国产成人精品三级麻豆| 国产精品美女久久久免费| 日韩欧美一区二区一幕| 性xxxx欧美老肥妇牲乱| 国产亚洲成av人片在线观看桃| 中国特级黄色大片| 亚洲在线资源| 欧美在线观看视频一区二区 | 国产尤物视频在线| 成人av在线一区二区三区| 国产在线久久久| www.国产色| 好看的av在线不卡观看| 日韩在线视频观看正片免费网站| 中日韩精品一区二区三区| 成人av综合网| 欧美大片拔萝卜| 亚洲一区二区三区观看| 日本精品在线中文字幕| 欧美视频在线看| 亚洲 欧美 日韩 国产综合 在线| 在线观看小视频| 中文字幕字幕中文在线中不卡视频| 欧美日韩综合精品| 欧美扣逼视频| 久久综合色天天久久综合图片| 国外成人在线视频网站| 黄色av网址在线| 国产成人亚洲综合a∨猫咪| 91精品久久久久久久久久久久久| 国产情侣小视频| 日韩经典中文字幕一区| 日韩av成人在线观看| 6080午夜伦理| 久久久久久亚洲精品杨幂换脸| 欧洲成人在线视频| 7799精品视频天天看| 久久久久久久高潮| 国产精品久久久久免费a∨大胸| 波多野结衣啪啪| 久久久精品日韩| 国产精品久久久久久久久久久新郎 | 丰满少妇久久久| 女人让男人操自己视频在线观看| 天天影视网天天综合色在线播放| av高清在线免费观看| 韩国精品一区| 一本到高清视频免费精品| 日韩av播放器| 欧美一区二区三区婷婷| 欧美一区二区三区免费| 大尺度在线观看| 日本一区福利在线| 最好看的2019的中文字幕视频| 国产又粗又猛又爽又黄的视频四季 | www555久久| 欧美日韩亚洲国产一区| 人人爽人人av| 国产精品一区二区三区av| 日韩精品一区二区三区蜜臀| 久久一区二区电影| 欧美色爱综合| 欧美久久精品一级黑人c片 | 欧美成人午夜| 97在线视频免费看| 波多野结衣电影在线播放| 久国产精品韩国三级视频| 97夜夜澡人人双人人人喊| 性高潮久久久久久久久久| 国产欧美精品一区二区色综合| 一区二区三区久久网| 牛牛电影国产一区二区| 91国产精品成人| 日本成人在线免费观看| 伊人久久大香线蕉综合网蜜芽| 日韩一区二区三区国产| 久久久久久久极品| 国产自产高清不卡| 久久综合九色99| 国产一二三区在线观看| 欧美丝袜美女中出在线| 亚洲精品国产久| 亚洲v天堂v手机在线| 久久视频在线直播| 欧美日韩a v| 国产宾馆实践打屁股91| 日韩videos| 888av在线视频| 欧美日韩国产精品成人| 亚洲制服丝袜在线播放| 91精品啪在线观看国产18| 热久久这里只有| 亚洲精品成人区在线观看| 国产日韩影视精品| 久久这里只有精品23| 中文成人在线| 国产亚洲精品一区二区| 日韩欧美一区二区一幕| 国产精品白丝jk黑袜喷水| 色一情一区二区三区四区| 国产美女精品写真福利视频| 欧美一区二区三区色| 超碰人人人人人人人| 亚洲欧美bt| 国产精品区免费视频| 国产盗摄在线观看| 欧美日韩mp4| 中文字幕人妻一区二区三区在线视频| 亚洲美女少妇无套啪啪呻吟| 亚洲www视频| 日韩伦理在线观看| 欧美丝袜第三区| 人妻一区二区视频| 亚洲影院在线| 久久99国产精品| 17videosex性欧美| 精品久久人人做人人爽| 妺妺窝人体色www聚色窝仙踪| 久久99久久精品欧美| 亚洲自拍偷拍二区| 日韩电影精品| 日韩亚洲欧美中文高清在线| 中文字幕在线观看国产| 亚洲国产成人在线| 99re精彩视频| 欧美oldwomenvideos| 91精品久久久久久久久| 日本中文在线| 欧美影视一区二区三区| 欧美人与禽zoz0善交| 美女免费视频一区二区| 伊人久久大香线蕉成人综合网| 成人免费一区| 日韩在线视频观看正片免费网站| 97人妻人人澡人人爽人人精品| 国产精品成人网| 亚洲一级片免费观看| 欧美久久九九| 国产日韩精品久久| 美脚恋feet久草欧美| 亚洲天堂av在线免费| 最新中文字幕免费| 亚洲色图.com| 少妇伦子伦精品无吗| 亚洲九九精品| 日本公妇乱淫免费视频一区三区| 本网站久久精品| 久久久久北条麻妃免费看| 国产jzjzjz丝袜老师水多 | 亚洲精品色婷婷福利天堂| 中文字幕av影院| 欧美激情一区二区在线| 午夜免费福利网站| 国产情侣久久| 亚洲在线色站| 韩国精品福利一区二区三区| 欧美性做爰毛片| av电影在线播放高清免费观看| 91精品国产综合久久国产大片| 久久久久亚洲av片无码下载蜜桃| 91网站在线播放| xxxx在线免费观看| 极品少妇一区二区三区| 日本一区二区不卡高清更新| 久久亚洲精品人成综合网| 久久91亚洲精品中文字幕| 天堂v在线观看| 欧美吻胸吃奶大尺度电影| 久一视频在线观看| 国产女人aaa级久久久级| 黄色a级三级三级三级| 亚洲美女少妇无套啪啪呻吟| 一本色道久久综合亚洲精品婷婷| 91亚洲无吗| 国产一区视频在线播放| 黄色激情在线播放| 不卡伊人av在线播放| 天天干视频在线| 3atv一区二区三区| 亚洲不卡在线视频| 亚洲精品欧美综合四区| 亚洲成人网在线播放| 国产精品中文有码| 亚洲成人福利在线观看| 亚洲成人在线| 自拍偷拍亚洲色图欧美| 蜜桃tv一区二区三区| 动漫一区二区在线| 综合久久av| 国产精品精品一区二区三区午夜版| 在线黄色网页| 久久精品国产2020观看福利| 青青操视频在线| 精品国产制服丝袜高跟| 亚洲无码久久久久久久| 一本大道久久a久久综合婷婷| 亚洲av鲁丝一区二区三区 | 欧美黑吊大战白妞| 国产精品国产三级国产aⅴ入口 | 91蜜桃免费观看视频| 久久精品一二三四| 久久精品国产99国产精品| 亚洲人成色77777| 亚洲精品美女| 2018日日夜夜| 国内成人在线| 亚洲高潮无码久久| 一级毛片免费高清中文字幕久久网| 欧美日韩在线精品一区二区三区| 九色丨蝌蚪丨成人| 国产精品二区三区| 一区二区视频| 91久久精品一区二区别| www久久久| 国产精品夜间视频香蕉| 朝桐光一区二区| 国产成人av网址| 青青热久免费精品视频在线18| 奇米四色中文综合久久| 午夜激情电影在线播放| 性欧美长视频免费观看不卡| 黄色美女视频在线观看| 欧美极品少妇与黑人| 国产盗摄精品一区二区酒店| 欧美激情伊人电影| yellow字幕网在线| 欧美一区第一页| 卡通欧美亚洲| 国产精品美女无圣光视频| 草民电影神马电影一区二区| 国产精品免费一区二区三区都可以| 高清成人在线| 国产精品午夜视频| 91丨精品丨国产| 亚洲综合日韩在线| 成人春色在线观看免费网站| 国产麻豆一区二区三区在线观看| 911精品国产| 精品不卡一区二区三区| 亚洲8888| 亚洲一区二区精品在线观看| 亚洲成人精品| 日韩在线观看a| 六月婷婷一区| 亚洲av无日韩毛片久久| 国产精品香蕉一区二区三区| 亚洲熟女一区二区| 久久九九久久九九| 中文字幕在线观看2018| 亚洲国产日产av| 无码日韩精品一区二区| 欧美老年两性高潮| 蜜臀av午夜精品| 亚洲香蕉成视频在线观看| 黄网站视频在线观看| 国内精品模特av私拍在线观看| 第84页国产精品| 成人免费高清完整版在线观看| 9l视频自拍九色9l视频成人| 欧美精品免费观看二区| 婷婷综合激情| 国产午夜福利100集发布| 日本在线不卡视频| 国产精品日日摸夜夜爽| 久久蜜臀中文字幕| 国产精品视频一区二区三| 天天综合日日夜夜精品| 亚洲天堂国产精品| 亚洲成人999| 97超碰国产一区二区三区| 欧美精品激情视频| 亚州一区二区三区| 国产精华一区二区三区| 成人情趣视频网站| 毛片在线视频播放| 国产在线精品一区二区三区不卡 | 9l视频自拍九色9l视频成人| 清纯唯美一区二区三区| 欧美日韩成人| 国产精品自拍视频在线| 99久久婷婷国产综合精品电影| 最新日韩免费视频| 丁香五六月婷婷久久激情| 国产视频在线免费观看| 亚洲亚裔videos黑人hd| 不卡一本毛片| 亚洲a中文字幕| 精品理论电影| 欧美大片在线播放| 国产精品自在欧美一区| 久久日免费视频| 日韩欧亚中文在线| 成人午夜视频一区二区播放| 色婷婷综合久久久久中文字幕1| 欧美男男激情videos| 风间由美久久久| 亚洲色图88| 亚州精品一二三区| 久久久精品tv| 国产超碰人人爽人人做人人爱| 日韩女优av电影| 精品自拍一区| 国产精品手机播放| 精品久久91| 久草精品在线播放| 91老司机福利 在线| 日韩无码精品一区二区三区| 欧美一区二区三区精品| 黄视频网站在线| 国产精选久久久久久| 成人在线丰满少妇av| 色哟哟精品视频| 国产偷国产偷精品高清尤物| 国产成人一级片| 亚洲精品wwww| 日本不良网站在线观看| 国产青春久久久国产毛片| 影音先锋中文字幕一区| 午夜福利三级理论电影| 亚洲一区二区五区| 亚洲欧美另类综合| 久久久久久久久久久av| 国产suv精品一区| 久久国产精品视频在线观看| 成人自拍视频在线观看| 国产污片在线观看| 亚洲丁香久久久| 免费v片在线观看| 欧美日韩一区二| 日韩黄色免费网站| 中文字幕第24页| 欧美日韩电影在线| 麻豆tv免费在线观看| 亚洲精品免费网站| 精品福利av| 极品粉嫩小仙女高潮喷水久久| 欧美日韩视频免费播放| 九色视频在线播放| 国产精品视频大全| 亚洲免费二区| 折磨小男生性器羞耻的故事| 五月婷婷综合激情| 国产精品久久久久一区二区国产| 国产精品久久久久久影视| 国产精品麻豆久久| 亚洲国产精品狼友在线观看| 亚洲成a人片在线不卡一二三区| 亚洲aaaaaaa| 国产精品嫩草影院久久久| 亚洲天堂免费| 这里只有精品在线观看视频| 色综合久久久网| 天天影视久久综合| 国产高清自拍99| 日韩制服丝袜先锋影音| 人妻无码一区二区三区免费| 日韩欧美国产一二三区| 天堂在线中文网官网| 亚洲美女搞黄| 大尺度一区二区| 国产精品传媒在线观看| 久久的精品视频| 窝窝社区一区二区| 免费精品99久久国产综合精品应用| 亚洲综合色成人| 国产精品视频二区三区| 国产富婆一区二区三区| 日本欧美在线看| 国产精彩视频在线| 日韩中文第一页| 特黄特色欧美大片| 午夜免费视频网站| 日韩欧美国产中文字幕|