精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Attention機制竟有bug,Softmax是罪魁禍首,影響所有Transformer

人工智能 新聞
Evan Miller 的這篇博客解釋了當前流行的 AI 模型如何在關鍵位置出現錯誤,并使得所有 Transformer 模型都難以壓縮和部署。

「我發現注意力公式里有個 bug,八年了都沒有人發現。所有 Transformer 模型包括 GPT、LLaMA 都受到了影響。」

昨天,一位名叫 Evan Miller 的統計工程師的話在 AI 領域掀起了軒然大波。

我們知道,機器學習中注意力公式是這樣的:

圖片圖片

自 2017 年 Transformer 問世,這個公式已被廣泛使用,但現在,Evan Miller 發現這個公式是錯的,有 bug!

Evan Miller 的這篇博客解釋了當前流行的 AI 模型如何在關鍵位置出現錯誤,并使得所有 Transformer 模型都難以壓縮和部署。

總結而言,Evan Miller 引入了一種新函數 Quiet Attention,也叫 Softmax_1,這是對傳統 softmax 函數的創新調整。

圖片

有網友對該博客總結出了一個「太長不看版」。博客作者建議在注意力機制使用的 softmax 公式分母上加 1(不是最終輸出 softmax)。注意力單元中的 softmax 使其可以將鍵 / 查詢匹配作為概率;這些概率支持一個鍵 - 值查找的連續值版本(我們得到的權重不是一個查找的 1/0 輸出,而是高權重 = 所需的鍵 - 值查找)。

分母上加 1 將改變注意力單元,不再使用真實的權重概率向量,而是使用加起來小于 1 的權重。其動機是該網絡可以學習提供高權重,這樣調整后的 softmax 非常接近概率向量。同時有一個新的選項來提供 all-low 權重(它們提供 all-low 輸出權重),這意味著它可以選擇不對任何事情具有高置信度。

圖片

有人甚至猜測「這就是微軟 RetNet 比 transformer 性能更優的原因?」

圖片

還有網友表示,這項研究可以促進 LLM 的改進,從而極大對權重進行壓縮,使得較小的模型媲美較大的模型:

圖片


Miller 表示:你可以像使用傳統的 softmax 函數一樣使用 Softmax_1 函數,示例如下。

import torch
from softmax_one.softmax_one import softmax_one
x = torch.randn(5)y = softmax_one(x, dim=0)

基于這樣的修改,Miller 還做了實驗,結果如下:

圖片

接下來我們看看 Miller 到底發現了什么錯誤。

異常值

Evan Miller 是在閱讀關于量化的論文時發現了這個 bug。當前,內存和存儲已經成為限制人工智能發展的重要因素。人們一直在努力壓縮模型,并嘗試在云端、在邊緣設備上運行大型語言模型(LLM)。

在計算機中,信息是用二進制數據流來存儲的。如果數據流是高度可預測的,例如總是包含在有限的范圍內,那么我們就可以用相對較少的位(bit)來存儲它們。反之,如果一串數字是不可預測的,可能是千載難逢的巨大數字,我們就需要更多的二進制數字來編碼和存儲。而 Transformer 模型包含一些異常值權重。

在高通 AI Research 6 月發表的一篇論文《Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing》中,研究團隊將這些異常值的存在追溯到注意力機制的 softmax 函數。

圖片高通論文地址:https://arxiv.org/abs/2306.12929

這聽起來令人意外,但 Evan Miller 認為這是對的,并進一步發現 softmax 函數存在一個錯誤。

我們來看下 Evan Miller 是如何說明 softmax 函數在注意力機制方面并不是一個合適的工具的。

Softmax 引出的問題

為什么說 softmax 不適合注意力機制,這還得從注意力機制可以做什么開始。

一般來講,數值錯誤一般是由程序錯誤引起的,然而,當程序沒有錯誤,這時就需要從修復復雜的數學公式入手,耗費大量時間。

Evan Miller 大概閱讀了 50 篇 arXiV 論文才有點眉目。Miller 從「輸入嵌入」入手,我們可以將「輸入嵌入」理解為一個浮點向量,代表輸入字符串中的一個單詞。

舉例來說,Meta 最近推出的 LLaMA 2 模型使用了一個長度為 3204 的嵌入向量,以半精度浮點數表示,這僅僅是為了表示詞匯表中的一個單詞,而詞匯表通常包含 30000 到 50000 個條目(entry)。意味著一個單詞的嵌入向量占用 6KB + 的存儲空間。隨著技術的發展,「輸入嵌入」的長度逐漸增加,所占存儲空間也隨之增加。

如果你是一個對存儲占用非常敏感的 C 程序員,你可能接受不了這一數字,明明是 2 字節就能存儲的東西,為什么偏偏要用 6KB?如果按照 2 字節來計算,假如詞匯量少于 2^16=65384,那么我們只需要 16 位來表示一個條目。

但是,實際上 Transformer 的工作原理是這樣的:它將輸入向量轉換為大小相同的輸出向量,最終的 6KB 輸出向量用來預測下一個 token。運行中,Transformer 每一層的工作流都將信息添加到原始的單詞向量中。在這其中,還用到了殘差連接:所有的注意力機制都在為原始的兩個字節的信息添加補充材料,從而是的 LLM 能夠分析更長的上下文。

Transformer 的最后一步是將這個輸出向量與一個矩形矩陣相乘,并將得到的詞匯長度向量壓縮到一個 softmax 函數中,將這些指數化的輸出視為下一個 token 的概率。這是合理的,但眾所周知,這并不完全正確,因為我們不能確定這些輸出概率是正確的。相反,每個 Transformer 實現和其衍生版本都使用采樣機制來隱藏 softmax 過度表示概率較低的事實。

接下里,Miller 介紹了 softmax 的發展史。softmax 最初出現在統計學中,最早作為一種基于能級預測狀態分布的方法,其形式如下:

圖片

之后經濟學家又將其修改為

圖片

這一修改,softmax 才擁有了多項邏輯函數。由于 Miller 對 softmax 函數的研究頗深,因而,他能識別出 softmax 使用不恰當的地方。

Softmax 應用廣泛,在物理學中,它非常有效;在經濟學中,它可能不那么準確;但將其應用到機器學習領域時,只要涉及離散選擇,它似乎總是有效的:

圖片

Miller 進一步表示,softmax 的關鍵在于,如果你不想保留一些項,必須對 softmax 進行修改,否則結果就會產生扭曲。

舉例來說,在 LLM 上下文中,扭曲產生的原因是對非語義 token(逗號等)進行大量加權導致的,這些較高的權重成為難以壓縮的異常值,使得研究變得更加困難。來自高通的 AI 研究員也發現了這一現象,在 LLM 中,97% 以上的異常激活發生在空格和標點符號位置上。

接下來,Miller 介紹了 softmax 是如何在注意力中使用的,從而發現問題到底出現在哪里:

圖片

對上述公式進行分解,在僅解碼器模型中,??、??和??源自相同的輸入序列。它們又不完全相同,即投影方式不同。但在每一層中,它們都以相同的注釋嵌入向量開始。

????^??項用于尋找不同位置 token 向量之間的相關性,實質上構建了一個相關性矩陣(點積按圖片縮放),其中每一列和每一行對應一個 token 位置。然后,對這個方陣的每一行進行 softmax 操作,得到的概率用作??矩陣中值向量的混合函數。概率混合后的??與輸入向量相加,將求和結果傳遞給神經網絡進行進一步處理。

多頭注意力每層并行執行多次上述過程。從本質上講,這種方法劃分了嵌入向量,每個頭使用整個向量中的信息來注釋輸出向量的一個(非重疊)片段。這就是原始 Transformer 論文中的串聯操作。

使用 softmax 的問題在于,它強制每個注意力頭進行注釋,即使沒有信息可添加到輸出向量中。

Softmax_1 和 QuietAttention

來了,在這里你將看到 Softmax Super-Mod 點燃了 LLM 頻道。

有點失望,對吧?Miller 所做的只是在分母上加 1。如果想要的話,這可以讓該向量作為一個趨于 0 的整體。否則只會將值縮小一點,并且縮小的值會在歸一化過程中得到補償,這在注意力之后發生。

圖片

當 ?? 中的條目顯著小于零并且模型試圖完全避免注釋時,主要的區別在于負值限制。將如下原始 softmax 的限制行為

圖片

與新的、改進后的 softmax_1 相比較。


圖片

Vanilla softmax 將始終釋出相同的總權重;softmax_1 看起來大部分相同,但在負象限中有一個「逃出口」(escape hatch)。需要明確的是,這里的核心問題在本質上是數學而非數值問題。額外的精度并不能拯救 softmax,所有的 Transformers 都會受到影響。

你還可以觀察到關于 softmax_1 的其他一些事項。導數是正的,所以總是有一個非零梯度,并且它的和介于 0 和 1 之間,所以輸出不會失控。該函數保持以下屬性

圖片

即輸出向量中的相對值不變。

最開始 Miller 打算將這個函數稱為 ghostmax,這是因為你可以認為圖片中有一個額外的零值條目,并且 V 矩陣中有一個能夠衰減結果的零向量。

盡管 softmax_1 表面上看起來很無聊,但 Miller 99.44% 確信它將解決異常值反饋循環,使量化成為級聯研究的主題。Miller 表示,如果你想進行一些實驗來證明他是對的,可以聯系他。他將撰寫一篇論文。

改進后的機制可以被稱為 QuietAttention,它允許注意力頭保持「沉默」。

圖片

Miller 認為很快可以整合一項測試:如果你在每個輸入上下文的前面加上一個零向量,并確保你選擇的神經網絡不添加任何偏差(包括位置編碼),那么零在通過時不會改變,并對每個后續的 softmax 分母添加 unity 產生影響。這樣你不會因為處理梯度代碼失去理智。Miller 認為這可以通過使用固定嵌入和特殊前綴 token 的 LLaMA 模型來完成。

你仍然需要重新訓練模型,因此暫時不要在樹莓派(RPi)上嘗試此操作。但 Miller 想知道這些權重峰度和激活無窮范數在運行幾次后是什么樣子的。他認為這會成為有影響力的研究,無論是高通 AI Research 團隊的論文,還是 LLM 頻道有人計算出 biblatex,但自己最先發現的。

? 項目地址:https://github.com/kyegomez/AttentionIsOFFByOne

? 博客鏈接:https://www.evanmiller.org/attention-is-off-by-one.html?cnotallow=5d0e431f4edf1d8cccea47871e82fbc4

責任編輯:張燕妮 來源: 機器之心
相關推薦

2019-06-04 14:19:53

AWS谷歌巖機

2015-11-23 10:29:48

app隱藏通信安卓耗電

2011-04-21 16:34:56

打印亂碼接口

2015-10-14 11:32:55

機房空調制冷

2019-05-27 10:22:26

Oracle日志數據庫

2009-06-03 08:48:26

2015-02-26 13:34:28

2009-10-12 19:44:40

Windows 7閃屏解決辦法

2009-03-20 16:10:15

2010-03-30 09:21:24

Windows 7系統漏洞

2021-12-12 21:51:54

人工智能銀行內卷

2011-08-12 10:04:52

數據中心宕機EPO

2018-01-29 23:13:47

大數據戰略數據分析

2022-11-16 16:14:46

單踏板模式特斯拉

2009-02-25 08:58:30

裁員上網本微軟

2010-07-12 16:24:20

2020-12-01 06:58:29

富領域模型服務

2020-10-26 16:35:53

內存JavaThreadLocal

2010-09-01 09:33:15

網絡故障

2025-03-05 05:00:00

點贊
收藏

51CTO技術棧公眾號

国产高潮呻吟久久| 婷婷视频在线播放| 欧美一区免费看| 青青草91久久久久久久久| 欧美三级日韩在线| 久久久天堂国产精品| 特黄视频在线观看| 免费欧美在线视频| 欧美大片网站在线观看| 色呦呦一区二区| 欧美日韩伦理一区二区| 亚洲国产视频一区| 日韩欧美手机在线| 风流老熟女一区二区三区| 久久国产直播| 欧美黄色片免费观看| 欧美熟妇一区二区| aaa国产精品| 欧美日韩亚洲综合| 男人和女人啪啪网站| 日韩子在线观看| 白白色亚洲国产精品| 成人国产精品久久久久久亚洲| 西西44rtwww国产精品| 久久一本综合| 国产一区二区三区网站| 久久久久久久久久影视| 91大神在线观看线路一区| 亚洲成人av一区二区| 桥本有菜av在线| 激情欧美亚洲| 欧美色欧美亚洲高清在线视频| 亚洲一区二区三区涩| 欧美一级在线免费观看| 久久99精品久久久久久| 97婷婷涩涩精品一区| 在线看的片片片免费| 日本一区网站| 日韩毛片在线视频| 欧美在线亚洲综合一区| 一本色道久久88综合日韩精品 | 极品久久久久久| 国产精品片aa在线观看| 伊人网在线视频观看| 成人福利在线| 91论坛在线播放| 国产成人一区二区三区免费看| 国产一区二区在线视频聊天| 奇米影视一区二区三区小说| 欧美在线视频一区| 日韩精品1区2区| 宅男噜噜噜66国产日韩在线观看| 欧美肥老妇视频| 波多野结衣爱爱视频| 99久久九九| 精品国产一区二区三区久久| 东京热无码av男人的天堂| 视频国产一区| 中文字幕日本精品| 懂色av蜜臀av粉嫩av永久| 欧美亚洲国产激情| 日韩在线观看网址| 日韩av网站在线播放| 色婷婷热久久| 久久久精品网站| 黄色一级片在线| 亚洲国产清纯| 欧美在线亚洲在线| 精人妻无码一区二区三区| 日韩电影免费在线观看网站| 国产精品直播网红| 91片黄在线观看喷潮| 九九精品视频在线看| 91日韩在线视频| 亚洲精品一区二区三区蜜桃| 成人国产亚洲欧美成人综合网 | 久久久噜噜噜久久| 日韩成人免费在线视频| 亚洲综合国产激情另类一区| 国产国语刺激对白av不卡| 最近中文字幕av| 国产一区二区视频在线播放| 91视频免费进入| 天天综合在线视频| 中文字幕av资源一区| 无码人妻精品一区二区三区99v| 国语对白在线刺激| 色狠狠桃花综合| 国产精品探花在线播放| 久久精品色综合| 中文综合在线观看| 久久精品国产亚洲av无码娇色 | 亚洲最大天堂网| 精品久久97| 日韩最新在线视频| 精品一区免费观看| 免费高清在线视频一区·| 91九色露脸| 国产一区精品| 亚洲午夜精品在线| 手机看片一级片| 精品亚洲自拍| 久久人人爽人人爽爽久久| 自拍偷拍欧美亚洲| 国产在线看一区| 日本一区高清不卡| 黄色成人在线网| 欧美日韩精品欧美日韩精品| 中文字幕天堂av| 久久亚洲精品中文字幕蜜潮电影| 97精品一区二区视频在线观看| 中文字幕av久久爽| 99久久婷婷国产| 可以在线看黄的网站| 成人在线爆射| 亚洲国产成人精品女人久久久 | 91精品人妻一区二区| 在线观看免费一区二区| 国产成人自拍视频在线观看| 日本波多野结衣在线| 亚洲视频一区在线观看| 虎白女粉嫩尤物福利视频| 99国产精品免费网站| 丝袜情趣国产精品| 日韩电影在线观看一区二区| 国产91丝袜在线播放0| 亚洲一卡二卡三卡| 欧美gay视频| 亚洲精品99久久久久中文字幕| 中文字幕电影av| 欧美aaaaaa午夜精品| 欧美大香线蕉线伊人久久| 欧美hdxxxx| 日韩一区二区三区四区| 尤物在线免费视频| 美女一区二区三区| 天堂一区二区三区 | 伊人久久婷婷| 99在线首页视频| 91最新在线视频| 日韩一区二区三区高清免费看看| 免费黄色激情视频| 麻豆精品一二三| 亚洲美女搞黄| 欧美男男gaygay1069| 一区二区三区国产视频| 无码人妻精品一区二区三区不卡| 26uuu国产电影一区二区| 无码专区aaaaaa免费视频| 国产成人精品亚洲线观看| 国自在线精品视频| 无码精品黑人一区二区三区 | 91青青草视频| 国产日韩一级二级三级| av无码精品一区二区三区| 深爱激情综合网| 国产欧美精品久久久| 日韩av中文| 欧美一级久久久| 九九九国产视频| 99在线精品视频| 免费看又黄又无码的网站| 欧美综合自拍| 国产高清视频一区三区| 9色在线视频网站| 91精选在线观看| 国产一级片免费| 99久久国产综合精品女不卡| 无码人妻丰满熟妇区毛片18| 不卡视频在线| 亚洲精品日韩av| 成人黄色动漫| 亚洲欧美日韩爽爽影院| 中文字幕在线观看1| 专区另类欧美日韩| 少妇精品无码一区二区三区| 久久精品国语| eeuss中文| 久久久精品国产**网站| 国产精品www色诱视频| 免费看a在线观看| 亚洲第一中文字幕在线观看| 波多野结衣视频网址| 成人欧美一区二区三区视频网页| 日本泡妞xxxx免费视频软件| 久久久蜜桃一区二区人| 一区二区精品视频| aaa国产精品| 国产精品高潮在线| 婷婷色在线播放| 亚洲欧美日韩区| 国产叼嘿视频在线观看| 五月激情六月综合| 91麻豆精品久久毛片一级| 成人av第一页| 成人综合久久网| 一区二区毛片| 影音先锋男人的网站| 免费萌白酱国产一区二区三区| 国产精品成人av性教育| 青青青草视频在线| 日韩在线免费av| 亚洲aaa在线观看| 欧美一区二区啪啪| 神马久久久久久久| 亚洲一区二区欧美日韩| 日韩免费成人av| 99久久久精品免费观看国产蜜| 手机版av在线| 久久一区中文字幕| www插插插无码视频网站| 成人情趣视频网站| 国产精品久久久久久久小唯西川| 国产精品xxx| 欧美在线一区二区视频| 麻豆福利在线观看| 久久久精品网站| 中文日本在线观看| 亚洲男人天堂久| 日本免费一区视频| 日韩精品中午字幕| 7777久久亚洲中文字幕| 色94色欧美sute亚洲线路一久| 国产在线观看免费av| 亚洲视频狠狠干| 成年人免费视频播放| 国产婷婷一区二区| 日韩av一二区| 99久久国产综合色|国产精品| 无码人妻一区二区三区在线视频| 麻豆一区二区三区| av在线无限看| 日韩av在线发布| 国产淫片av片久久久久久| 亚洲国产精品第一区二区| 日本在线视频www色| 999国产精品| 曰韩不卡视频| 亚欧美无遮挡hd高清在线视频| 神马影院午夜我不卡| 沈樵精品国产成av片| 欧美日韩高清在线一区| 亚洲福利网站| 欧美日韩另类综合| 国产乱码精品一区二区三区四区| 免费影院在线观看一区| 亚洲精品播放| 欧美重口乱码一区二区| 女人丝袜激情亚洲| 日本一区精品| 久久福利影院| 热这里只有精品| 欧美黄免费看| 国产真人做爰毛片视频直播| 亚洲精品四区| 三级4级全黄60分钟| 日韩高清一区二区| 777一区二区| 国产精品自拍网站| 稀缺呦国内精品呦| 97久久人人超碰| 日本人亚洲人jjzzjjz| 中文字幕免费观看一区| 国产精品一区二区亚洲| 亚洲女与黑人做爰| 不卡的免费av| 色欧美日韩亚洲| 国产精品亚洲lv粉色| 欧美大胆人体bbbb| 三区在线视频| 日韩最新在线视频| 狂野欧美性猛交xxxxx视频| 91精品国产高清自在线看超| 天天免费亚洲黑人免费| 国产日韩在线一区| 超碰在线成人| 欧美日本韩国一区二区三区| 日韩国产一区二区| 水蜜桃在线免费观看| 亚洲成人原创| 尤蜜粉嫩av国产一区二区三区| 国产呦精品一区二区三区网站| 国产污在线观看| 国产网站一区二区| 一区二区在线观看免费视频| 欧美性黄网官网| ,一级淫片a看免费| 亚洲精品成人久久电影| 波多野结衣一区二区| 欧美二区乱c黑人| www.成人在线视频| 国产精品免费一区二区三区四区 | 男人添女人下部视频免费| 国产亚洲午夜| 国产在线观看中文字幕| 2023国产精品自拍| 久久久久久久久毛片| 色哟哟亚洲精品| 亚洲精品第五页| 中文字幕欧美日韩在线| 黄在线观看免费网站ktv| 国产精品一区久久久| 另类春色校园亚洲| 日本免费在线视频观看| 亚洲综合国产| 中文字幕人妻一区| 国产精品白丝在线| 少妇高潮av久久久久久| 欧美xxxxxxxx| 毛片在线看片| 国产精品福利小视频| 免费成人三级| 国产视频在线观看网站| 久久se这里有精品| 久久久久久久毛片| 精品日本高清在线播放 | 九九久久国产| 精品欧美日韩在线| 欧美全黄视频| 一级淫片在线观看| 日本一区二区三区高清不卡| 日韩av女优在线观看| 日韩欧美综合在线| 老司机精品视频在线观看6| 国产精品99久久久久久人| 奇米影视777在线欧美电影观看| 成人午夜免费剧场| 久久国产精品99精品国产| 亚洲理论片在线观看| 午夜精彩视频在线观看不卡| 亚洲精品国偷拍自产在线观看蜜桃| www国产91| 色8久久久久| 亚洲一区三区| 久久99精品国产麻豆不卡| 欧美福利在线视频| 欧美亚洲日本国产| 国产福利第一视频在线播放| 日本精品免费观看| 台湾亚洲精品一区二区tv| 僵尸世界大战2 在线播放| 成人精品在线视频观看| 国产精品50页| 亚洲国产小视频| 日本免费一区二区六区| 久久av一区二区三区亚洲| 一本久久综合| 国产呦小j女精品视频| 欧美日韩在线第一页| 神马精品久久| 国产成人在线播放| 久久中文视频| 久久发布国产伦子伦精品| 一区二区日韩电影| 亚洲免费国产视频| 97在线视频免费看| 精品一区免费| 91精品无人成人www| 国产精品福利av | 亚洲精品日韩丝袜精品| 中文字幕在线视频网站| 欧美一区亚洲二区| 美女看a上一区| 国产精品久久久久久久精| 日韩欧美不卡一区| 高潮在线视频| 日韩精品欧美专区| 久久精品99国产精品| 69av视频在线| 日韩精品免费在线观看| 成人在线爆射| 国产精品88久久久久久妇女| 成人免费黄色在线| 秋霞av一区二区三区| www.日韩视频| 欧美精品国产白浆久久久久| 成人中文字幕av| 亚洲男人的天堂在线观看| 丰满人妻一区二区| 日韩美女福利视频| 亚洲精品小说| 国产乱了高清露脸对白| 欧美亚洲国产一区二区三区| 国产传媒在线播放| 精品一区二区三区日本| 奇米四色…亚洲| 国产在线视频在线观看| 国产亚洲欧洲高清| 久久久久久久久久久久电影| 日韩中文字幕三区| 中文字幕在线一区免费| 姝姝窝人体www聚色窝| 国产精品三级在线| 在线不卡欧美| 成人无码精品1区2区3区免费看| 亚洲国产精品字幕| 一区二区三区无毛| 激情五月开心婷婷| 亚洲精品美国一| 成人av一区|