精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

100億參數的語言模型跑不動?MIT華人博士提出SmoothQuant量化,內存需求直降一半,速度提升1.56倍!

人工智能 新聞
一個簡單的量化操作,讓你運行大規模語言模型的GPU需求量直接降低一半!

大型語言模型(LLM)雖然性能強勁,但動輒幾百上千億的參數量,對計算設備還是內存的需求量之大,都不是一般公司能承受得住的。

量化(Quantization)是常見的壓縮操作,通過降低模型權重的精度(如32bit降為8bit),犧牲一部分模型的性能來換取更快的推理速度,更少的內存需求。

但對于超過1000億參數量的LLM來說,現有的壓縮方法都無法保持模型的準確率,也無法在硬件上高效地運行。

最近,麻省理工學院和英偉達的研究人員聯合提出了一個通用后訓練的量化(GPQ, general-purpose post-training quantization)方案SmoothQuant,對大型語言模型可以高效實現8-bit權重,8-bit激活(W8A8)的量化,無需訓練也能保持模型的準確率。

圖片

論文鏈接:https://arxiv.org/pdf/2211.10438.pdf

代碼鏈接:https://github.com/mit-han-lab/smoothquant

由于激活相比權重更難量化,SmoothQuant通過數學等價變換將較難量化的激活遷移到權重上,實現了對激活異常值(activation outliers)的平滑處理。

SmoothQuant能夠對所有LLM的各種層中權重和激活量化到INT8,包括OPT-175B, BLOOM-176B和GLM-130B。

相比現有方法僅對權重進行靚貨,或者對激活進行混合精度的量化,SmoothQuant有更高的硬件效率,實現了1.56倍加速,內存需求僅為原始LLM的一半,并且在準確率上幾乎沒有損失

圖片

SmoothQuant同時具有硬件友好的設計,研究人員將SmoothQuant集成進了LLM服務框架FasterTransformer中,實現了更快的推理速度,相比FP16的精度僅需一半數量的GPU

文章的第一作者肖光烜是MIT EECS的一年級博士生,本科畢業于清華大學計算機科學與技術學院。

導師Song Han是MIT EECS的副教授,博士畢業于斯坦福大學,主要研究方向為高效深度學習,曾提出深度壓縮(deep compression)技術,可以將神經網絡的尺寸降低一個數量級,而不損失準確率。

SmoothQuant

量化(Quantization)就是把高精度的值映射到更低精度的離散值,在這篇論文中研究人員主要關注對硬件更高效的整數均勻量化(integer uniform quantization),尤其是INT8。

圖片

量化操作可以在不同的粒度上執行,如per-tensor量化應用于整個權重矩陣,per-token量化應用于激活中的每個token,per-channel量化應用于權重的每個輸出通道。

圖片


通過對激活的量化結果進行觀察,研究人員總結出了幾個模式:

1、量化比權重更難量化。

權重的分布相對更加均勻和平坦,之前的研究結果已經證明將大型語言模型的權重降低到INT8,甚至到INT4對準確率的影響都不大。

2、異常值是激活量化中的主要難點。

激活中的異常值通常比正常值要高出100倍左右,導致沒有異常值通道中的量化bits/levels效率很低。

圖片

3、異常值固定在某一通道中出現。

異常值只在很小一部分的通道中才會出現,但如果一個通道中有一個異常值,那該異常值可能會在所有的token中出現。

圖片

給定一個token中所有通道的方差會很大(一些通道會非常大,但大部分很?。?,但是給定一個通道在所有token度中的方差會很?。ó惓V低ǖ罆艽螅?。

由于異常值具有持續出現和每個通道內小方差的特點,那如果對激活執行per-channel量化,其量化誤差將會遠遠小于per-tensor量化。

通過一個簡單的實驗,其結果再次驗證了研究人員的想法,量化到INT8時,per-channel的準確率遠遠高于per-tensor和per-token量化,和FP16基線準確率相差無幾。

圖片

研究人員通過使用一個per-channel平滑因子s來將輸入激活進行平滑(smooth)。為了保持線性層的數學等價,還需要反向縮放權重。

圖片

由于輸入X通常是由之前的線性操作生成的(如線性層、層norms等),所以就可以很容易地將平滑因子融合到之前層的參數offline,而且不會產生額外縮放的內核調用開銷。對于其他情況,比如當輸入來自殘差add時,可以向殘差分支添加一個額外的縮放。

將量化難度從激活轉移到權重

?Smooth的目標是選擇一個per-channel的平滑因子s,使該逆操作更易于量化。

為了減少量化誤差,應該增加所有通道的有效量化比特。當所有通道的最大magnitude相同時,總的有效量化位數將是最大的。

因此,一個最直接的平滑因子選擇就是輸入中每個通道的最大值,可以保證在劃分之后,所有的激活通道都有相同的最大值,從而實現更容易的量化。

但需要注意的是,激活的范圍是動態的,對于不同的輸入樣本是不同的。所以研究人員使用預訓練數據集中的校準樣本來估計激活通道的規模。

由于這個公式將所有的量化困難遷移給了權重,可以發現在這種情況下,權重的量化誤差會很大,導致準確性下降很多。

圖片

另一方面,也可以通過選擇sj = 1/ max(|Wj |),將所有的量化難度從權重推到激活上。同樣,由于激活量化誤差過大,模型的性能也不好。因此需要在權重和激活之間分割量化難度,使它們都易于量化。

研究人員引入一個超參數遷移強度α,來控制要從激活遷移到權重的難度。

圖片

可以發現,對于大多數模型,例如OPT和BLOOM模型,α=0.5是一個很好的平衡點,可以平均分配量化難度,特別是使用相同的量化器進行權重和激活。

該公式保證了相應通道的權重和激活具有相似的最大值,從而共享相同的量化難度。

圖片

對于其他一些激活異常值比較大的模型,例如GLM-130B有30%的異常值,這對激活量化來說比較困難,可以選擇一個較大的α(如0.75),將更多的量化難度遷移到權重上。

SmoothQuant應用于Transformer塊

線性層占據了LLM模型的大部分參數和計算。在默認情況下,SmoothQuant對Transformer中所有線性層的輸入激活進行比例平滑,并用W8A8對線性層進行量化,在注意力計算中啟用了BMM運算符的量化。

圖片

在流程中,首先用INT8對線性層和注意力層中的BMM等計算量大的運算符的輸入和權重進行量化,而對其他輕量級元素的運算,如Softmax和LayerNorm,保持激活為FP16,這樣的設計有助于平衡準確性和推理效率。

實驗部分

研究人員選擇了三個大型語言模型用來評估SmoothQuant,包括OPT, BLOOM和GLM-130B;并使用七個zero-shot任務,包括LAMBADA, HellaSwag, PIQA, WinoGrande, OpenBookQA, RTE, COPA等。

實驗結果顯示SmoothQuant可以處理非常大的LLM的量化問題,其激活更難量化。

圖片

SmoothQuant可以在所有評估數據集上匹配FP16的準確性,而W8A8、ZeroQuant和Outlier Suppression基線產生的結果幾乎是隨機的。

圖片

并且SmoothQuant可以無損地量化所有超過100B參數的開放式LLMs

SmoothQuant的O1和O2級成功地保持了浮點精度,而O3級(per-tensor static)使平均精度下降了0.8%,可能是因為靜態收集的統計數據與真實評估樣本的激活統計數據之間的差異。

盡管如此,SmoothQuant-O1可以與FP16的準確性相匹配,而SmoothQuant-O3只降低了1%的準確性,明顯優于基線。

SmoothQuant不僅對超過100B參數的非常大的LLM有效,而且對較小的LLM也有穩定的效果,SmoothQuant可以在所有規模的OPT模型上工作,并與INT8量化的FP16精度相匹配。

圖片

為了展示集成到PyTorch和FasterTransformer中的SmoothQuant-O3的速度提升和內存節省,研究人員我們測量了一次生成一批4個句子的所有隱藏狀態的端到端延遲,也就是context階段的延遲,并記錄了這個過程中GPU內存使用的峰值。

由于Huggingface缺乏對模型并行的支持,所以研究人員只測量了SmoothQuant在單個GPU上的PyTorch實現的性能,因此選擇了OPT-6.7B、OPT-13B和OPT-30B進行評估。

在FasterTransformer庫中,SmoothQuant可以與Tensor Parallelism算法無縫對接,因此研究人員在OPT-13B、OPT-30B、OPT-66B和OPT-175B上測試SmoothQuant的單GPU和多GPU基準。

在NVIDIA A100 80GB GPU服務器上進行的實驗結果顯示,基于PyTorch實現的推理延遲和峰值內存使用上,SmoothQuant始終比FP16基線快,當序列長度為256時,在OPT-30B上獲得了1.51倍的速度提升。

圖片

還可以看到一個趨勢,即模型越大,加速越明顯,但LLM.int8()幾乎總是比FP16基線慢,這也是由于混合精度激活表示的巨大開銷造成的。

在內存方面,SmoothQuant和LLM.int8()都可以將FP16模型的內存用量幾乎減半,而SmoothQuant由于完全使用INT8 GEMM,所以節省的內存稍多。

圖片

與FasterTransformer對OPT的FP16實現相比,SmoothQuant-O3在使用單個GPU時可以進一步降低OPT-13B和OPT-30B的執行延遲,最高可達1.56倍。


責任編輯:張燕妮 來源: 新智元
相關推薦

2022-05-16 14:47:01

MIT模型

2022-07-27 09:25:08

深度架構目標檢測

2021-09-03 16:41:26

模型人工智能深度學習

2023-06-30 13:01:26

2021-09-02 16:00:06

算法開源技術

2021-09-30 11:27:58

模型人工智能神經網絡

2011-11-07 10:06:28

惠普ARM服務器Moonshot

2023-07-18 14:19:00

模型AI

2015-07-27 10:24:01

蘋果中國

2020-12-04 10:11:26

Unsafejava并發包

2013-02-25 10:11:35

4GLTE商用網絡

2024-11-27 14:30:00

模型訓練

2022-05-11 14:45:48

模型人工智能

2023-07-31 09:54:12

2023-07-30 15:22:47

2022-02-22 16:21:04

Windows 11微軟

2009-04-30 09:01:25

微軟操作系統Windows 7

2011-08-17 10:53:16

Firefox 7

2024-07-08 08:00:00

2013-02-25 09:42:54

點贊
收藏

51CTO技術棧公眾號

国产在线观看91精品一区| 日韩av在线最新| 法国空姐在线观看免费| 精品人妻一区二区三区三区四区| 在线欧美日韩| 一区二区亚洲欧洲国产日韩| 青青草原国产在线视频| 青青草视频在线免费直播| 91在线观看地址| 91精品国产综合久久男男| 国产在线拍揄自揄拍无码视频| 中文字幕亚洲影视| 日韩一级视频免费观看在线| 国产成人无码一二三区视频| av网站免费在线观看| 92精品国产成人观看免费| 91免费看片在线| 亚洲欧美偷拍一区| 韩日成人在线| 久久亚洲精品国产亚洲老地址| 在线免费观看污视频| 日韩美女在线| 色播五月激情综合网| www.av毛片| 1024在线播放| 国产精品国产a| 久久亚洲高清| 天天色综合久久| 国产宾馆实践打屁股91| 国产精品一区二区三| 美日韩一二三区| 激情欧美国产欧美| 九九视频这里只有精品| 亚洲色图27p| 精品一区二区三区中文字幕老牛| 亚洲国产成人在线播放| 97人人模人人爽人人澡| 天堂久久一区| 欧美日韩在线综合| 国产精品天天av精麻传媒| 美女网站在线看| 伊人夜夜躁av伊人久久| 一区二区日本伦理| 在线a免费看| 国产清纯在线一区二区www| 欧美不卡1区2区3区| 天天操天天操天天操| 波多野结衣精品在线| 亚洲一区二区三区乱码aⅴ| 国产一区二区在线视频聊天| 免费在线观看一区二区三区| 国产成人在线亚洲欧美| 中文字幕在线日本| 水蜜桃久久夜色精品一区的特点 | 黄页网站在线看| 国产日本亚洲| 日韩久久精品一区| 国产老头和老头xxxx×| 中文字幕视频精品一区二区三区| 欧美成人官网二区| 激情综合激情五月| 巨人精品**| 精品香蕉在线观看视频一| 国产交换配乱淫视频免费| 视频福利一区| 国产一区二区激情| 国产高清视频免费在线观看| 无需播放器亚洲| 精品自在线视频| 日韩成人av毛片| 亚洲一区二区三区四区五区午夜 | 久久中文字幕免费| 久久性色av| 国产主播喷水一区二区| 国产成人精品毛片| av激情亚洲男人天堂| 蜜桃av噜噜一区二区三区| 福利在线视频导航| 最近日韩中文字幕| 黄页免费在线观看视频| 香蕉久久免费电影| 欧美肥胖老妇做爰| 午夜免费福利影院| 国产免费av一区二区三区| 综合久久五月天| 久草免费在线视频观看| 久久av最新网址| 成人国内精品久久久久一区| 刘亦菲毛片一区二区三区| 久久久久久久电影| 干日本少妇视频| 成人亚洲欧美| 日韩亚洲欧美成人一区| 免费看黄色的视频| 一区二区三区四区电影| 2025国产精品视频| 国产精品伦理一区| 99国产精品视频免费观看| 亚洲综合欧美日韩| 乱人伦视频在线| 日本综合久久| 凸凹人妻人人澡人人添| freemovies性欧美| 国产成人综合亚洲网站| 噜噜噜噜噜久久久久久91| 在线激情网站| 亚洲国产aⅴ天堂久久| 久久99999| 精品亚洲自拍| 中文字幕日韩欧美| 日本少妇bbwbbw精品| 麻豆精品新av中文字幕| 久久99精品久久久久久青青日本 | 伊人久久免费视频| 中文字幕日韩一级| 国产自产2019最新不卡| 欧美在线视频二区| 极品在线视频| 欧美大片一区二区| 日韩欧美国产成人精品免费| 日韩中文字幕区一区有砖一区| 国产高清不卡av| 欧美日韩视频在线播放| 欧洲av在线精品| 亚洲欧美色图视频| 伊人久久亚洲美女图片| 91久久精品国产| av在线免费一区| 色综合久久久久综合体| 亚洲视频在线播放免费| 欧美国产综合| 91美女高潮出水| 日本中文字幕在线播放| 色婷婷av一区| 亚洲精品成人无码| 销魂美女一区二区三区视频在线| 国产精品久久精品视| 日本成人不卡| 精品99999| 久久久久久久中文字幕| 国产盗摄女厕一区二区三区| 狠狠干视频网站| 粉嫩av国产一区二区三区| 日韩中文字幕免费视频| 在线播放一级片| 国产精品免费av| 99sesese| 一区二区中文| 99免费在线观看视频| 性xxxxfjsxxxxx欧美| 91精品国产一区二区三区香蕉| 国产探花在线视频| 狠狠色综合色综合网络| 制服丝袜综合日韩欧美| 亚洲免费看片| 久久99久久99精品中文字幕| www五月婷婷| 亚洲一二三四久久| 亚洲视频在线播放免费| 国产农村妇女精品一区二区| 欧美视频小说| 日本成人在线网站| 欧美日产国产成人免费图片| 日本高清视频网站| 色综合网色综合| 后入内射无码人妻一区| 精品亚洲aⅴ乱码一区二区三区| 亚洲小说欧美另类激情| 99久热这里只有精品视频免费观看| 午夜精品视频在线| 嫩草在线播放| 欧美日本一道本| 久草视频手机在线观看| 91视频www| 一起操在线视频| 999亚洲国产精| 先锋影音日韩| 国产专区精品| 91成人福利在线| 色综合久久久久综合一本到桃花网| 欧美精品tushy高清| 久青草视频在线观看| 2020国产精品| 天堂在线精品视频| 久久久久久穴| 欧美三级午夜理伦三级老人| 精品国产乱子伦一区二区| 国产精品久久一区| 免费电影视频在线看| 亚洲精品自拍偷拍| 夜夜躁很很躁日日躁麻豆| 亚洲国产精品一区二区www在线| 国产精品高清无码在线观看| 久久99精品久久久久久国产越南| 9久久9毛片又大又硬又粗| 日韩精品一区二区久久| 国产精品一区在线播放| 国产精品久久久久久吹潮| 午夜精品久久久久久久久久久久| 香蕉视频免费在线播放| 日韩电影大片中文字幕| 中文字幕一区二区三区免费看| 亚洲午夜影视影院在线观看| 五月婷婷婷婷婷| 91丨九色丨蝌蚪富婆spa| 国产欧美一区二| 国产农村妇女精品一区二区| 真人做人试看60分钟免费| 禁果av一区二区三区| 国产一区在线免费观看| 自拍偷拍亚洲图片| 国产精品久久久久久久app| 黄色在线网站噜噜噜| 蜜臀久久99精品久久久久久宅男| 国产最新视频在线观看| 亚洲精品一区二区三区福利| 91丨九色丨丰满| 欧美视频日韩视频在线观看| 日韩免费一级片| 亚洲一区二区三区在线| 黄色录像二级片| 国产精品视频观看| 97人妻精品一区二区免费| www.亚洲精品| 国产+高潮+白浆+无码| 国产一区二区三区免费播放| 日韩一级理论片| 丝袜美腿亚洲一区| 熟女性饥渴一区二区三区| 亚洲成人在线| 人妻少妇精品久久| 在线播放亚洲| av免费观看国产| 亚洲欧洲日本mm| 亚洲熟妇无码一区二区三区| 黄色亚洲在线| 久草视频这里只有精品| 欧美黄色一区| 日韩一级免费看| 亚洲一级一区| 久久久久免费看黄a片app| 亚洲第一黄网| 日韩在线一级片| 99热在线精品观看| 97成人在线观看视频| 亚洲中字在线| 免费黄色一级网站| 老司机免费视频一区二区| 激情五月婷婷久久| 日本特黄久久久高潮| 鲁一鲁一鲁一鲁一av| 麻豆精品在线看| a级大片免费看| 福利一区二区在线| 国产69视频在线观看| av在线不卡观看免费观看| 亚洲少妇18p| wwwwxxxxx欧美| 天天操天天干天天操天天干| 国产精品久久久久aaaa樱花| 情侣偷拍对白清晰饥渴难耐| 亚洲色图一区二区| 久久久久性色av无码一区二区| 亚洲第一主播视频| aaa在线视频| 欧美日韩国产色站一区二区三区| 亚洲综合五月天婷婷丁香| 欧美一区二区三区在线观看视频 | 亚洲精品av在线| 欧美老女人性开放| 日韩在线免费视频观看| 18加网站在线| 欧美在线视频一区二区| 成人在线爆射| www久久99| 亚洲性视频大全| 成人短视频在线看| 日韩午夜激情| 亚洲一区日韩精品| 国产福利不卡视频| 黄色在线观看av| 日韩美女视频一区二区| 九九九国产视频| 欧美视频完全免费看| 亚洲av无码片一区二区三区| 国产婷婷色综合av蜜臀av| 婷婷免费在线视频| 国产+人+亚洲| 国产第一亚洲| 国产一区不卡在线观看| 成人精品天堂一区二区三区| 日本一级黄视频| 日产国产高清一区二区三区| 亚洲成人av免费观看| 久久久久久久久久看片| 一区二区成人免费视频| 色综合久久久久久久久久久| 国产suv一区二区| 亚洲午夜精品久久久久久性色| 在线观看午夜av| 国产精品黄视频| 精品久久ai| 日本免费在线视频观看| 欧美专区18| 男人网站在线观看| 一色桃子久久精品亚洲| 国产中文字幕视频| 日韩一级大片在线| 日本在线观看视频| 欧美一区亚洲一区| www.成人网| 在线播放 亚洲| 视频一区二区中文字幕| 国产激情第一页| 亚洲乱码一区二区三区在线观看| 91黑人精品一区二区三区| 亚洲成人久久一区| 97caopron在线视频| 国产欧美日韩精品在线观看 | 欧美一级做a| 欧美日韩天天操| 日韩亚洲国产精品| 成人做爰www看视频软件| 亚洲天堂免费看| 中文字幕av久久爽| 一区二区福利视频| 久久久成人av毛片免费观看| 麻豆传媒一区二区| 亚洲男女自偷自拍| 国产精品无码一区二区三| 一个色妞综合视频在线观看| a级片在线视频| 超薄丝袜一区二区| 91精品国产一区二区在线观看| 亚洲欧洲国产精品久久| 日韩电影网1区2区| 中文字幕网站在线观看| 色婷婷激情一区二区三区| 日韩成人黄色| 欧美与欧洲交xxxx免费观看 | 大尺度一区二区| 久草视频免费在线| 亚洲成人久久久久| 97在线视频免费观看完整版| 国产精品免费一区二区三区| 亚洲高清毛片| 素人fc2av清纯18岁| 青青草久久爱| www.日韩视频| 国产乱码精品一区二区三区亚洲人 | 国产精品网站一区| 99re热视频| 中文字幕日韩精品在线| 色成人综合网| www国产免费| 成人av电影在线观看| 成年免费在线观看| 亚洲欧美综合精品久久成人| 91看片一区| 亚洲免费不卡| 国产一区二区三区免费| 国产主播在线播放| 亚洲男人天堂网| 日韩在线激情| 超碰10000| 99视频在线精品| 日韩免费av网站| 日韩在线播放视频| 色妞ww精品视频7777| www.射射射| 欧美韩国日本一区| 国产av精国产传媒| 国产91精品久久久久久久| 欧美日韩黑人| 欧美熟妇精品一区二区| 五月激情六月综合| se在线电影| 999精品视频一区二区三区| 一本久久综合| 亚洲欧美卡通动漫| 精品少妇一区二区三区日产乱码| 妞干网免费在线视频| 午夜精品美女久久久久av福利| 国产麻豆91精品| 亚洲s码欧洲m码国产av| 日韩在线观看免费全| 国产精品久久久久久久久久白浆| 成人在线激情网| 亚洲黄色性网站| 成人免费在线观看| 超碰在线观看97| 青青草97国产精品免费观看| 久久一区二区三| 伊人久久大香线蕉av一区二区| 亚洲国产欧美国产第一区| 亚洲性生活网站| 亚洲制服丝袜在线| av资源网在线观看| 精品国产乱码久久久久久久软件| 97视频一区|