精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

「注意力實際上是對數的」?七年前的Transformer還有新發現,Karpathy點贊

人工智能 新聞
作者認為,Transformers 中實現的注意力機制,在計算復雜度上應該被視為對數級別的。

「注意力實際上是對數的」?今天,一篇博客再次掀起了AI社區對注意力機制的討論。

截屏2025-03-23 09.43.35.png

作者認為,Transformers 中實現的注意力機制,在計算復雜度上應該被視為對數級別的。

這篇博客,還得到了 Karpathy 的高度肯定:


有時我會在想象中的神經網絡完整計算圖中將其描述為「廣度是免費的,深度是昂貴的」。


據我所知,這首先是 Transformer 背后的主要見解 / 靈感。我第一次真正受到它的震撼是在很久以前我讀到 Neural GPU 論文的時候(https://arxiv.org/abs/1511.08228)。


另外,在「從比特到智能」中為什么還要包含 python?刪除 python,我認為你可以將其減少約 10 倍,就像 llmc 一樣。


我們知道,標準的注意力機制(如 Transformer 中的自注意力)計算步驟如下:

截屏2025-03-23 10.47.59.png

其復雜度主要來源于:

  • 點積計算:QK^? 的矩陣乘法,復雜度為 O (n^2d),其中 n 是序列長度,d 是特征維度。
  • Softmax 歸一化:對每個位置的注意力權重進行歸一化,復雜度為 O (n^2)。

一般來說,研究者認為總復雜度隨著序列長度 n 呈平方增長,這也是標準 Transformer 難以處理長序列的核心瓶頸。

而這篇博客,卻提出了另外一個全新的視角。

關于如何理解這一觀點,我們看看博客內容便知。

  • 博客鏈接:https://supaiku.com/attention-is-logarithmic

以下是博客內容:

時間復雜度是衡量算法快慢最常用的標準。在 20 世紀 80 年代,那時候計算機大多只有一個核心,大家還不知道什么是單指令多數據(SIMD)技術,所以用時間復雜度來評估算法基本是合理的。

但現在是 2025 年,單核計算機已經很少見了,就連智能手機都有 4 到 8 個核心。在這種情況下,只用時間復雜度來衡量算法的快慢就不夠全面了。

舉個例子來說,一個時間復雜度為 O (n3) 但能夠并行的算法,和一個必須按順序執行的算法,單從時間復雜度上看不出來它們的區別。而且,有些算法天生就是并行的,比如線性代數,但人們還在用時間復雜度來描述它們,這其實是很荒謬的。

我們需要一種更好的方式來衡量算法的復雜度。「work-depth 模型」分析提供了一個很好的思路。它不僅關注輸入大小對應的操作數量,還能從理論下限的角度思考算法的復雜度。

我們不僅要考慮算法執行的原始操作數量(即「work」),更要關注計算圖相對于輸入大小的「depth」,也就是不可并行的順序操作的最小數量。因為這些順序操作是不可避免的,無論你的計算機有多少個核心,它們都會造成阻塞。

我主要研究機器學習系統的性能工程,所以接下來我會重點討論適用于張量的算法。「work-depth 模型」雖然不完美,但很有用。

在此,我先拋出一個問題:逐個元素相乘的時間復雜度是多少?從這個問題出發,我會進一步闡述我的觀點:Transformers 中實現的注意力機制,在計算復雜度上應該被視為對數級別的。

案例 1:逐個元素相乘

給定兩個長度相同的向量 a 和 b,逐個元素相乘是將 a 中的每個元素與 b 中對應索引位置的元素相乘,并將結果存儲在新向量 c 中(或者直接在原位置修改)。

代碼如下:

截屏2025-03-23 09.28.04.png

從時間復雜度的角度看,這好像是線性的。如果用單線程來跑,那確實就是線性的。

然而,如果仔細觀察,你會發現在這個問題的計算圖中,range (n) 中的各個步驟之間沒有依賴關系。它們完全獨立。那么為什么不并行執行它們呢?

這正是每個線性代數 / 張量庫在底層所做的事情。

你很快會發現,逐個元素相乘實際上根本不是線性時間的!它實際上看起來像是常數時間,直到達到一個神秘的臨界點。

具體來說,我們可以分析逐個元素相乘時的「work」和「depth」:

截屏2025-03-23 09.29.20.png

算法里的每一步操作,比如加載數據、做乘法、存儲,這些操作本身都不復雜,理論上只需要常數時間就能完成。只要你的計算機有足夠的并行計算能力,直到某個臨界點,這些操作的時間復雜度都是常數時間。

案例 2:向量求和

向量求和比相乘更復雜一些。在這里,我們可以清楚地看到兩個步驟之間存在依賴關系(因為累加需要調用 c 的狀態)。這無法完全并行執行。

截屏2025-03-23 09.30.44.png

不過,向量求和看起來好像每一步都得依賴前一步,但仔細想想,不難發現它只是每兩個步驟(或者說每對元素)之間有點關聯。

實際上,這個操作仍然可以并行化,方法是不在一個步驟中并行執行每個操作,而是在一個步驟中對每隊執行操作。

舉個例子,假設你有一個長度為 n 的列表,向量加法是這樣的:

1. 先把列表里每一對相鄰的數字(比如第 1 個和第 2 個、第 3 個和第 4 個……)加起來。因為一共有 n 個數字,所以會有 n/2 對。把每對的結果存到其中一個位置(比如偶數位置或者奇數位置)。

2. 再把上一步得到的每一對結果(現在每對是之前兩對的和)再加起來。這次會有 n/4 對。

3. 每次都是把上一步的結果兩兩相加,直到最后只剩下一個數字。這個數字就是整個列表所有數字的總和。

這樣一來,每次操作的步驟數量都會減半。比如,第一次是 n/2 對,第二次是 n/4 對,以此類推,總共只需要 log?(n) 步就能把所有數字加起來。

截屏2025-03-23 09.32.15.png

案例 3:張量積

截屏2025-03-23 09.32.51.png

張量積是一個基本操作。它獲取兩個張量的所有索引,并對所有請求的索引(其中一些可能是共享的)逐個相乘。

比如,求兩個矩陣的張量積并且共享一個軸的時候,結果會是一個三維的張量。不過,這個操作其實并不復雜,因為它只需要做并行的加載、存儲、逐個相乘,所以它的「depth」是固定的,不會隨著數據量變大而增加。

但要注意,這種情況只有在張量(或者張量的一部分)能夠完整地裝進緩存的時候才成立。如果張量太大,裝不下緩存,那就會出現瓶頸,因為緩存不夠用的時候,計算機就不得不按順序處理數據,這時候「depth」就會增加。

張量積在機器學習里其實不太常被提到,但置換、求和、矩陣乘法、哈達瑪積、直積、各種批處理操作等等,所有這些操作都可以看成是某種形式的張量積,再加上某種形式的歸約(把多余的維度去掉或者合并)。

這樣一來,能讓復雜的張量操作變得更加系統、更有數學美感,尤其是在高性能計算和分布式系統里,用起來特別方便。

案例 4:矩陣乘法

矩陣乘法(MATMUL)就是這樣一種張量運算,它通過張量積的收縮得到了優雅的描述。

給定兩個張量分別為(i j)和(j k)的張量 A、B,張量乘法構造出一個張量 C,其元素 C [i,j,k] = A [i,j] * B [j,k],然后沿 j 維相加(收縮)成一個形狀為(i k)的矩陣 D。(為了提高效率,C 通常不會完全實體化,而是在張量積的碎片之間進行收縮融合)。

只需忽略外軸,就可以對矩陣進行批處理 / 廣播。

截屏2025-03-23 09.35.04.png

底層內容的偽代碼:

截屏2025-03-23 09.35.36.png

注意,這只是將 TENSOR 順序組合成 CONTRACT,其深度復雜度分別為 O (1) 和 O (logn):

截屏2025-03-23 09.36.11.png

案例 5:softmax

softmax 一點也不特別。先按元素應用 e^x,然后收縮,最后按元素除法。

下面照例進行深度復雜性分析:

截屏2025-03-23 09.36.52.png

案例 6:注意力

注意力就不用多說了。以下是深度分析:

截屏2025-03-23 09.40.48.png

可以看到,通過整數個 matmuls 收縮和一系列元素單義操作的順序組合,注意力的漸近深度復雜度僅為 O(logn + logd),其中 n 和 d 分別為序列長度和嵌入維數。

實際上,這通常意味著 O(log sequence_length),因為 sequence_length 通常遠大于 embedding_dim。

局限性

然而,深度分析并不完美,當考慮到內存訪問模式和高速緩存的友好性時,問題立即顯現出來。

特別是,當出現以下情況時,該模型就會失效:

  • 樹的最大寬度 >> 計算單元(不管是什么內核)。
  • 內存訪問模式不連續 / 不可矢量化?
  • 物化變量與內存層次結構不匹配。

在實踐中,這主要意味著物化張量的大小必須保持在 L2- 左右的緩存范圍內,深度復雜度邊界才能成立。

那么為什么注意力不是對數的呢?

事實上,由于注意力至少需要將 QK^T 部分實體化(通常是非常大的整數,非常大的整數),這幾乎肯定會溢出二級緩存(這要么迫使你在內存中計算的速度慢于 OOM,要么迫使你通過將 QK^T 矩陣分片為部分關聯塊并傳入 softmax 來將其轉化為順序問題)。

這就意味著,對于普通計算機而言,注意力的深度復雜度更像是 O (n log n)。雖然這絕不是一個不可還原的問題,但我在下一節中會提出一些推測性的解決方案。

對未來計算的猜測?

那么,這對目前的芯片和未來的芯片意味著什么?

我認為這意味著很多,前提是一個關鍵事實,即訓練范式在很大程度上仍然是非并發的(即看起來像循環上的前向→后向傳遞,或 dualpipe 之類的混合),為什么?

因為如果是這種情況,那么神經網絡的權重(在 nn 次循環中占運動操作量的大部分)在很大程度上就是靜態的,而且計算單元的局部性會越來越強。

我們已經看到這種情況的發生。權重曾經被卸載到磁盤或保存到內存中,只有在專門的內核中才會啟動到 GPU。

后來,每個人都開始完全使用設備內存(VRAM 或 HBM)進行訓練。

現在,芯片制造商已經意識到,通過將權重轉移到更快的內存(如 L2)上,他們可以獲得另一個 OOM(在深度復雜性分析失敗的地方有效地砍掉整個部分)。

責任編輯:張燕妮 來源: 機器之心
相關推薦

2018-05-17 11:10:44

2024-12-04 09:25:00

2024-12-04 15:55:21

2019-04-04 13:00:19

Linuxshell命令

2024-02-19 00:12:00

模型數據

2024-10-31 10:00:39

注意力機制核心組件

2016-10-09 13:19:43

2021-01-15 07:22:51

APP時間規劃局證件照相機

2021-02-23 14:56:12

數據庫存儲索引

2024-12-05 09:00:00

2021-01-15 11:22:29

iOS加密措施數據

2021-10-18 13:10:41

勒索軟件攻擊信息安全

2018-10-24 17:50:42

備份

2018-08-26 22:25:36

自注意力機制神經網絡算法

2021-10-15 10:11:00

遠程管理監控數據中心

2014-02-18 09:24:34

2020-10-14 10:56:15

WPS魔方網表

2024-08-01 09:30:00

2022-04-19 16:10:47

漏洞網絡攻擊

2022-02-08 15:43:08

AITransforme模型
點贊
收藏

51CTO技術棧公眾號

欧美亚洲另类在线一区二区三区| 九九热这里只有精品免费看| 美女网站免费观看视频| 日本亚洲一区| 蜜桃传媒麻豆第一区在线观看| 中文字幕9999| 国内自拍偷拍视频| 成人香蕉视频| 亚洲美女在线国产| 精品国产综合久久| 亚洲性在线观看| 欧美天堂亚洲电影院在线观看| 亚洲国产精品电影在线观看| 九色porny91| 国产精品探花在线| 国产日韩欧美精品一区| 97se视频在线观看| japanese国产在线观看| 欧美韩国一区| 国产小视频国产精品| 少妇精品无码一区二区| 91九色综合| 天天爽夜夜爽夜夜爽精品视频| 一区二区三区的久久的视频| 日韩在线无毛| 成人污视频在线观看| 国产剧情久久久久久| 日韩黄色精品视频| 一区二区中文字| 一本色道久久88综合日韩精品| 丝袜熟女一区二区三区 | 午夜免费一区| 国产一区二区三区日韩欧美| 国产精品久久久久久在线观看| 日韩美女在线| 在线看不卡av| 各处沟厕大尺度偷拍女厕嘘嘘| 中中文字幕av在线| 一区在线观看免费| 少妇免费毛片久久久久久久久| 熟妇人妻一区二区三区四区| 久久精品国产免费看久久精品| 国产成人精品国内自产拍免费看| 国产精品不卡av| 欧美.日韩.国产.一区.二区| 日韩有码在线视频| 娇妻被老王脔到高潮失禁视频| 天天操综合520| 亚洲福利在线观看| 亚洲欧美综合视频| 亚洲国产欧美国产第一区| 91精品一区二区三区久久久久久| 超碰在线公开97| 欧美极品免费| 色88888久久久久久影院按摩| 日韩av综合在线观看| a'aaa级片在线观看| 午夜在线电影亚洲一区| 国产不卡一区二区视频| 国产精品电影| 欧美三级xxx| 激情六月丁香婷婷| 欧美大电影免费观看| 色一情一乱一乱一91av| 能在线观看的av网站| 欧美日韩亚洲国产| 精品视频在线免费观看| 拔插拔插华人永久免费| 国产一区二区| 亚洲第一男人av| av网站有哪些| 欧美三级美国一级| 久久精品国产久精国产一老狼| 国产黄色录像视频| 911精品美国片911久久久| 欧美精品在线免费观看| 久久久久亚洲av成人片| 国产视频一区免费看| 热re99久久精品国产66热| 国内av在线播放| 精品亚洲国产成人av制服丝袜| 成人字幕网zmw| 亚洲av无码片一区二区三区| 白白色 亚洲乱淫| 日韩电影免费观看在| 国产视频三级在线观看播放| 综合自拍亚洲综合图不卡区| 日韩a级黄色片| 成人av三级| 欧美疯狂性受xxxxx喷水图片| 日本中文字幕影院| 成人看片爽爽爽| 亚洲天堂免费在线| 日韩成人毛片视频| 99精品视频免费全部在线| 国产精品久久久久久久久久三级| 国产人妖在线播放| 久久中文娱乐网| dy888午夜| 欧美三级网址| 欧美一区二区三区在线观看视频 | 99精品欧美一区| 亚洲a∨一区二区三区| 影音先锋男人资源在线| 一本大道久久a久久精品综合| 香港日本韩国三级网站| 8x国产一区二区三区精品推荐| 国产丝袜高跟一区| 麻豆视频在线免费看| 久久精品九九| 国产不卡一区二区在线观看 | 操人视频在线观看欧美| 国产污污视频在线观看| 国产做a爰片久久毛片| 欧美不卡1区2区3区| 国产盗摄在线观看| 一本久道中文字幕精品亚洲嫩| 先锋资源在线视频| 超碰成人久久| 97色在线播放视频| 国产xxxxxx| 国产精品二三区| 免费日韩中文字幕| 精品少妇一区| 欧美精品第一页在线播放| 中文字幕av免费观看| 99久久国产综合精品色伊| 中文字幕精品—区二区日日骚| 极品美女一区| 日韩精品在线视频观看| 国产在线观看免费视频今夜| 国内精品久久久久影院一蜜桃| 色狠狠久久av五月综合| 成人av三级| 亚洲精品一区中文| 日本少妇裸体做爰| 国产不卡在线一区| 老汉色影院首页| 色综合视频一区二区三区44| 永久免费毛片在线播放不卡 | 在线播放中文一区| 国产综合精品久久久久成人av| 欧美专区在线| 久久久久久艹| 亚洲插插视频| 精品调教chinesegay| 日本中文字幕在线免费观看| 成人午夜在线播放| 日日摸日日碰夜夜爽无码| 一区二区在线视频观看| 欧美激情亚洲激情| 亚洲欧美另类日韩| 亚洲国产精品久久久久婷婷884 | 最近中文字幕在线视频| 国产欧美一区二区三区鸳鸯浴| 成熟老妇女视频| 国产99亚洲| 国产精品久久久久免费a∨| 电影av在线| 欧美日韩高清在线| 国产高清视频免费在线观看| 狠狠色狠狠色合久久伊人| 正在播放国产精品| 国产精品一级在线观看| 欧美激情一级欧美精品| 无码国产精品一区二区免费16| 狠狠躁天天躁日日躁欧美| 美女100%无挡| 毛片av一区二区三区| 欧美日韩视频免费在线观看| 日本99精品| 91精品国产免费久久久久久| 欧美少妇另类| 欧美日韩国产另类一区| 欧美高清视频一区二区三区| caoporen国产精品视频| 北条麻妃在线一区| 午夜激情久久| 国产精品美女久久久久av福利| 午夜影院在线播放| 中文字幕少妇一区二区三区| 99热这里只有精品99| 亚洲第一福利一区| 亚洲成人网在线播放| 久久不射网站| 久久av秘一区二区三区| 国产+成+人+亚洲欧洲在线| 欧美最猛黑人xxxx黑人猛叫黄| 在线看免费av| 精品国产污污免费网站入口| 99久久久久久久久| 亚洲男同1069视频| 蜜桃精品一区二区| 狠狠久久亚洲欧美| 美女av免费在线观看| 久久理论电影| 精品麻豆av| 96sao精品免费视频观看| 午夜伦理精品一区| 日本高清在线观看wwwww色| 亚洲成人av资源网| 一级全黄裸体免费视频| 亚洲成人免费视| 熟女少妇a性色生活片毛片| 成人黄色在线视频| www.精品在线| 午夜在线视频观看日韩17c| 人人妻人人澡人人爽精品欧美一区| 国产乱论精品| 川上优av一区二区线观看| 精品丝袜在线| 九九久久国产精品| 91精品国产91久久久久游泳池 | 亚洲一级Av无码毛片久久精品| 日韩在线a电影| 国产不卡一区二区视频| 影音先锋日韩在线| 亚洲精品国产精品国自产| 日韩成人动漫在线观看| 亚洲综合国产精品| 日韩欧国产精品一区综合无码| 欧美中文字幕在线观看| 美足av综合网| 欧美成人合集magnet| 成人动漫在线播放| 国产丝袜一区视频在线观看| 亚洲国产精品18久久久久久| 欧美精品久久99| 国产美女www爽爽爽| 欧美午夜美女看片| 日韩激情在线播放| 亚洲狠狠爱一区二区三区| 少妇人妻丰满做爰xxx| 中文字幕在线一区免费| 亚洲色图第四色| 久久九九久久九九| 成人午夜剧场视频网站| 91丝袜呻吟高潮美腿白嫩在线观看| 亚洲熟女乱综合一区二区| 国内精品视频一区二区三区八戒| 亚洲精品性视频| 日韩精品福利网| 三级4级全黄60分钟| 久久精品123| 久久午夜夜伦鲁鲁一区二区| 久久精品91| 亚洲黄色a v| 日本不卡高清视频| 色国产在线视频| 久久se精品一区二区| xx欧美撒尿嘘撒尿xx| 捆绑紧缚一区二区三区视频| 男女视频在线看| 激情图片小说一区| 香蕉视频xxx| 国产69精品一区二区亚洲孕妇| 国产成人av片| av电影天堂一区二区在线| 朝桐光av一区二区三区| 久久综合九色综合97婷婷女人| 91网站免费视频| 日本一区二区高清| xxxx日本少妇| 亚洲福利视频三区| 你懂的国产在线| 欧美视频一二三区| 国产理论片在线观看| 日韩一卡二卡三卡| 少妇又色又爽又黄的视频| 亚洲欧洲成视频免费观看| 国产福利第一视频在线播放| 久久精品人人爽| 日韩另类在线| 欧美一级电影免费在线观看| 亚洲天堂1区| 97se视频在线观看| 亚州综合一区| 亚洲激情一区二区三区| 中文不卡在线| 日韩精品―中文字幕| 男人的天堂亚洲一区| 俄罗斯女人裸体性做爰| 91在线你懂得| 国产精品精品软件男同| 亚洲永久精品国产| 无码日韩精品一区二区| 91精品欧美一区二区三区综合在| 高h震动喷水双性1v1| 国产亚洲精品久久久久久| 2021国产在线| 日本欧美黄网站| 麻豆精品国产| 日本不卡一区| 国产精品magnet| 999在线免费视频| 国产精品18久久久久久久网站| 国产精品无码一区二区三区免费| 中文字幕+乱码+中文字幕一区| 99精品久久久久| 色播五月激情综合网| 国产婷婷色一区二区在线观看| 欧美丰满少妇xxxbbb| 欧洲亚洲在线| 欧美激情喷水视频| 91天天综合| 精品在线视频一区二区| 亚洲综合小说| 男人女人黄一级| eeuss国产一区二区三区| 91香蕉一区二区三区在线观看| 好吊成人免视频| 国产99视频在线| 色综合影院在线| 竹内纱里奈兽皇系列在线观看| 91手机在线视频| 日韩精品久久| 韩国一区二区av| 99热国产精品| 久久网免费视频| 欧美日韩成人一区二区| 欧美在线一卡| 98精品国产自产在线观看 | 欧美一区二区视频网站| porn亚洲| 国产suv精品一区二区| 欧美天堂影院| 国产精彩视频一区二区| 国产美女主播视频一区| 蜜桃av免费在线观看| 色悠久久久久综合欧美99| 婷婷久久久久久| 久久久久久国产精品美女| 精品视频在线播放一区二区三区| 四虎一区二区| 日韩av中文字幕一区二区三区| 熟女少妇一区二区三区| 黑人巨大精品欧美一区免费视频| 黄色小视频免费观看| 欧美高清自拍一区| 日本伊人久久| 三级在线免费观看| 国产精品一区久久久久| 69av视频在线| 欧美一区二区三区四区五区 | 欧洲亚洲一区二区三区| 男女啪啪免费视频网站| av亚洲产国偷v产偷v自拍| 在线看成人av| 亚洲激情国产精品| 婷婷电影在线观看| 欧美成人一区二区在线| 久久字幕精品一区| 国产毛片久久久久久久| 91福利视频久久久久| 牛牛热在线视频| 国产成人短视频| heyzo久久| 91丨九色丨蝌蚪| 亚洲主播在线观看| 神马午夜精品95| 日本在线精品视频| 日韩国产综合| 日本高清免费观看| 一区二区三区日本| 特黄aaaaaaaaa真人毛片| 97视频在线免费观看| 国产精品一区二区99| 天堂中文视频在线| 亚洲三级电影网站| 色婷婷av一区二区三区之红樱桃| 国模精品视频一区二区| 九九精品久久| www.se五月| 亚洲3atv精品一区二区三区| 国际av在线| 成人字幕网zmw| 在线亚洲一区| 少妇的滋味中文字幕bd| 欧美videos大乳护士334| 超碰超碰人人人人精品| 天天做天天爱天天高潮| 成人久久18免费网站麻豆| 无码免费一区二区三区| 俺也去精品视频在线观看| av成人综合| 91香蕉视频污版| 一区二区三区**美女毛片| 日韩一二三四| 91在线看www| 另类国产ts人妖高潮视频| 在线观看日本黄色| 亚洲白虎美女被爆操| www.26天天久久天堂| 成品人视频ww入口| 国产精品视频第一区| 成人精品在线播放| 国产精品视频26uuu| 最新国产乱人伦偷精品免费网站| 三区四区在线观看| 精品av久久707|