精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

目前最優的LLM PTQ量化算法——OmniQuant

發布于 2024-4-10 11:29
瀏覽
0收藏

單位: OpenGVLab, 上海AI Lab, 香港大學 


研究動機:LLM的優秀的PTQ和QAT方法主要有GPTQ和LLM-QAT。GPTQ(Frantar等人,2022年)可以在單個A100 GPU上使用128個樣本在一小時內完成LLaMA-13B的量化,而LLM-QAT(Liu等人,2023a)需要100k個樣本和數百個GPU小時。這引導我們來到一個核心問題:我們能否在保持PTQ的時間和數據效率的同時,達到QAT的性能?

Abstract

LLMs已經徹底改變了自然語言處理任務。然而,它們的實際部署受到其巨大的內存和計算需求的阻礙。盡管最近的后訓練量化(PTQ)方法在減少LLM的內存占用和提高計算效率方面取得了有效成果,但它們手工制作的量化參數導致了性能低下,并且無法處理極低比特量化。為了解決這個問題,我們引入了一種全方位校準量化(OmniQuant)技術。它在保持PTQ的計算效率的同時,在多樣化的量化設置中取得了良好的性能,通過有效優化各種量化參數。OmniQuant包括兩個創新組件,包括可學習的權重裁剪(LWC)和可學習的等效變換(LET)。LWC通過優化裁剪閾值來調節權重的極端值。同時,LET通過可學習的等效變換來處理激活的異常值,將量化的挑戰從激活轉移到權重。


在可微分框架內使用分塊誤差最小化,OmniQuant可以有效地優化僅權重和權重-激活量化的量化過程。例如,大小為7-70B的LLaMA-2模型家族可以在1-16小時內使用128個樣本在單個A100-40G GPU上通過OmniQuant處理。廣泛的實驗驗證了OmniQuant在多樣化的量化配置(如W4A4、W6A6、W4A16、W3A16和W2A16)中的卓越性能。此外,OmniQuant在指令調整模型中展示了有效性,并在真實設備上顯著提高了推理速度和內存減少。代碼可在https://github.com/OpenGVLab/OmniQuant獲取。

2. Related work

2.1 量化方法

  • QAT通過在訓練期間模擬量化來保持性能,但其訓練成本使其不適合LLM。
  • PTQ技術,如AdaRound和BRECQ,使用梯度優化來確定最佳舍入,但對于更大的模型來說,調整所有權重是非常耗時的。

因此,大多數LLM量化方法優先選擇無需訓練的PTQ,但這也限制了模型在低比特情況下的性能。我們的目標是在LLM量化中整合梯度更新,模仿QAT的方法,同時保持PTQ的效率。

2.2 LLM的量化

權重量化。權重量化專注于將權重轉換為低比特值。例如,GPTQ使用塊狀重建進行3/4比特量化。SpQR(Dettmers等人,2023b)、OWQ(Lee等人,2023)和AWQ(Lin等人,2023)強調與高幅度激活相關的權重的重要性。因此,SpQR和OWQ采用混合精度量化來保護重要權重,而AWQ選擇通道級縮放以避免混合精度的硬件效率低下。Qlora(Dettmers等人,2023a)和INT2.1(Chee等人,2023)通過參數高效微調恢復量化模型的能力。與之相反,我們的方法直接增強了量化過程,使OmniQuant與Qlora和INT2.1相輔相成。

?

權重-激活量化。權重-激活量化壓縮了權重和激活。SmoothQuant(Xiao等人,2023)、LLM.int8()(Dettmers等人,2022)和異常值抑制(Wei等人,2022)通過管理激活異常值實現了W8A8量化。LLM.int8()使用混合精度分解,而其他兩種方法采用通道級縮放。此外,異常值抑制+(Wei等人,2023)增加了通道級移動以推動W6A6量化。與以前的啟發式設計不同,我們使用梯度優化并將等效變換擴展到注意力機制,進一步提升了K/V緩存量化。

?

最近,RPTQ和LLM-QAT已經實現了W4A4量化。然而,RPTQ采用了對部署不友好的分組激活量化,而LLM-QAT采用了耗時的QAT。與RPTQ和LLM-QAT不同,我們通過部署友好的per-token量化實現了W4A4量化,并保持了PTQ的效率。

3 OMNIQUANT

LLM量化的挑戰。量化LLM時存在兩個主要困難。首先,由于異常通道的存在,激活很難量化。考慮到權重分布是平坦和均勻的,SmoothQuant和Outlier Suppression+通過預定義的遷移強度將量化難度從激活轉移到權重來解決這個問題。其次,權重的量化誤差也由于對應激活的權重的重要性而在最終性能中起著關鍵作用。 SqQR和OWQ提出保留全精度的關鍵權重,而AWQ使用網格搜索的通道級縮放來保護這些權重。盡管這些方法在壓縮各種LLM方面取得了一定的成功,但由于手工設計的量化參數(如遷移強度和縮放因子)的粗糙設計,它們通常導致次優性能,并且無法處理極低比特量化。

?

在本節中,我們介紹了一種用于LLM的可微分量化技術,稱為OmniQuant,其中量化參數具有更好的靈活性。為實現這一目標,OmniQuant采用塊間量化誤差最小化框架實現,如第3.1節所述。為應對上述LLM量化的挑戰,我們設計了兩種新策略,包括可學習的權重裁剪(LWC)以減輕量化權重的難度,以及可學習的等效變換(LET)進一步將量化挑戰從激活轉移到權重。我們在第3.2節和第3.3節分別介紹了LWC和LET。

3.1 BLOCK-WISE QUANTIZATION ERROR MINIMIZATION

之前采用梯度優化的PTQ方法,如AdaRound和BRECQ,不能應用于具有數十億參數的模型,因為巨大的解空間難以優化這些權重。我們提出了一種新的優化流水線,采用塊間量化誤差最小化,其中額外的量化參數可以以可微分的方式優化。我們將優化目標表述如下:

目前最優的LLM PTQ量化算法——OmniQuant-AI.x社區

目前最優的LLM PTQ量化算法——OmniQuant-AI.x社區

公式(1)中的Block-wise minimization有兩個優點:

  • 1.OmniQuant可以聯合優化LWC和LET中的量化參數,使其足以包含僅權重和權重-激活量化。
  • 2.Block-wise minimization易于優化,資源要求最小。OmniQuant只需確定幾個量化參數的最優性,這比優化之前PTQ方法中的整體權重(Nagel等人,2020;Li等人,2021)要容易。

從經驗上,我們發現LLaMA-2家族的所有模型(Touvron等人,2023b)都可以在單個A100-40G GPU上僅使用128個訓練樣本進行量化。

3.2 LEARNABLE WEIGHT CLIPPING

OmniQuant采用LWC模塊來降低LLM中權重量化的難度。與具有learnable clipping threshold的先前方法類似(如LSQ、PACT等),LWC也通過優化clipping threshold來確定權重的最佳動態范圍。然而,我們發現直接采用先前工作,如PACT(Choi等人,2018)和LSQ(Esser等人,2019),量化性能不佳,正如LLM-QAT(Liu等人,2023a)所展示的那樣。附錄中的表A8也觀察到了類似的結果。


我們不是像之前的方法那樣直接學習clipping threshold,而是優化一個clipping strength,如公式(2)所示:

目前最優的LLM PTQ量化算法——OmniQuant-AI.x社區

目前最優的LLM PTQ量化算法——OmniQuant-AI.x社區

3.3 LEARNABLE EQUIVALENT TRANSFORMATION

除了使用LWC使得權重更利于量化,我們還通過可學習的等效變換(LET)進一步降低了權重-激活量化的難度。考慮到激活圖中的異常值是有條理性的,并且主要存在于特定通道,先前的方法如SmoothQuant通過數學等效變換將量化難度從激活轉移到權重。然而,他們的等效參數是人工設置的,導致次優結果。


得益于之前的Block-wise的量化誤差最小化,我們的LET能夠以可微分的方式確定最優等效參數。受到SmoothQuant(Xiao等人,2023)和Outlier Suppression+(Wei等人,2023)的啟發,我們采用channel-wise scaling和channel-wise shifting來操縱激活分布,為異常值問題提供了有效的解決方案。具體來說,我們研究了linear layer和attention操作中的等效變換,如圖3所示。

目前最優的LLM PTQ量化算法——OmniQuant-AI.x社區

Untitled

目前最優的LLM PTQ量化算法——OmniQuant-AI.x社區

目前最優的LLM PTQ量化算法——OmniQuant-AI.x社區

目前最優的LLM PTQ量化算法——OmniQuant-AI.x社區

S使用 SmoothQuant中的方法進行初始化;使用Outlier Suppression+中的方法進行初始化。

最后,我們對轉換后的激活和權重進行量化,如下所示:

目前最優的LLM PTQ量化算法——OmniQuant-AI.x社區

的scale和shift參數可以被融合到先前的歸一化或線性層中中的scale因子可以與原始權重融合。因此,公式(3)中的等效變換可以有效減少量化誤差,而不引入額外的參數或計算成本。


我們在LLM的所有線性層中使用這種等效變換,如圖3所示,除了FFN的第二個線性層。這可能是因為非線性層之后的特征高度稀疏(Liu等人,2023b)導致應用可學習等效變換時梯度不穩定。

?

Attention operation. 除了線性層之外,注意力操作也占據了計算的相當一部分。此外,LLM的自回歸模式要求為每個token存儲KV Cache,這導致長序列的內存需求很大。因此,在權重-激活量化設置中,我們也將Q/K/V矩陣量化為低比特。具體來說,self-attention親和力矩陣的LET可以寫成:

目前最優的LLM PTQ量化算法——OmniQuant-AI.x社區

目前最優的LLM PTQ量化算法——OmniQuant-AI.x社區

目前最優的LLM PTQ量化算法——OmniQuant-AI.x社區

4 EXPERIMENTS

4.1 僅權重量化結果

LLaMA系列的結果可以在表1中找到,而OPT的結果在附錄A6中呈現。正如表格所示,OmniQuant在各種LLM系列(OPT,LLaMA-1,LLaMA2)和多樣化的量化配置中始終優于以前的LLM僅權重量化方法,包括W2A16,W2A16g128,W2A16g64,W3A16,W3A16g128,W4A16和W4A16g128。這些發現表明OmniQuant的多功能性,能夠適應多種量化配置。例如,雖然AWQ(Lin等人,2023)在分組量化中特別有效,但OmniQuant在通道級和分組級量化中都表現出優越的性能。此外,隨著量化比特大小的減小,OmniQuant的性能優勢變得更加明顯。

4.2 權重-激活量化結果

在權重-激活量化中,我們主要關注W6A6和W4A4量化。我們排除了W8A8量化,因為與全精度對應物相比,SmoothQuant幾乎可以實現無損的W8A8量化模型。LLaMA系列的結果可以在表2中找到,而OPT的結果在附錄A16中呈現。表2展示了LLaMA權重-激活量化的零樣本任務準確性。

?

值得注意的是,在W4A4量化中,OmniQuant顯著提高了各種模型的平均準確性,提高了+4.99% ~ +11.80%。顯著的是,在LLaMA-7B中,OmniQuant甚至超過了最近的QAT方法LLM-QAT(Liu等人,2023a),提高了+6.22%。這一改進證明了加入額外可學習參數的有效性,這比QAT使用的全局權重調整更有益。

4.3 權重-激活量化結果

在權重-激活量化中,我們主要關注W6A6和W4A4量化。我們排除了W8A8量化,因為與全精度對應物相比,SmoothQuant幾乎可以實現無損的W8A8量化模型。LLaMA系列的結果可以在表2中找到,而OPT的結果在附錄A16中呈現。表2展示了LLaMA權重-激活量化的零樣本任務準確性。值得注意的是,在W4A4量化中,OmniQuant顯著提高了各種模型的平均準確性,提高了+4.99% ~ +11.80%。顯著的是,在LLaMA-7B中,OmniQuant甚至超過了最近的QAT方法LLM-QAT(Liu等人,2023a),提高了+6.22%。這一改進證明了加入額外可學習參數的有效性,這比QAT使用的全局權重調整更有益。


本文轉自 AI生成未來,作者:Austin


原文鏈接:??https://mp.weixin.qq.com/s/NN88CKRwuRa0_gds0BgP4g??

標簽
收藏
回復
舉報
回復
相關推薦
国产日韩一区二区三免费高清| 国产小视频免费在线网址| 女人色偷偷aa久久天堂| 精品国产区一区| 国产麻花豆剧传媒精品mv在线| 成人性爱视频在线观看| 国产精品自拍毛片| 51视频国产精品一区二区| 久久久久久久久福利| 欧美特黄不卡| 色吊一区二区三区| 日本福利视频在线观看| 九色网友自拍视频手机在线| 韩国三级电影一区二区| 欧美在线播放视频| 国产1区2区3区4区| 精品国产精品| 精品国产一二三区| 欧美日韩中文不卡| 成人欧美magnet| 亚洲在线观看免费视频| 天天综合狠狠精品| 天天综合在线视频| 国产精品18久久久久久久网站| 欧美尤物巨大精品爽| 欧美亚洲日本在线| 成人女性视频| 精品一区二区亚洲| 亚洲午夜精品在线观看| 九九九精品视频| 日韩欧美高清在线视频| 欧美黑人在线观看| 国产高清一区二区三区视频| 久久精品一区二区| 久久99精品久久久久久水蜜桃| 国产精品久久久久久在线| 久久综合图片| 98视频在线噜噜噜国产| 久久久91视频| 亚洲国产不卡| 久久久精品电影| 中文字幕在线观看二区| 怕怕欧美视频免费大全| 亚洲精品一区二区网址| 屁屁影院国产第一页| 中文字幕久久精品一区二区| 欧美一区二区三区在线观看视频 | 91久久精品午夜一区二区| 国产男女免费视频| 国产色婷婷在线| 一区二区三区日韩精品视频| 色乱码一区二区三区熟女| 免费大片黄在线观看视频网站| 国产精品午夜在线| 亚洲一区二区三区免费观看| 在线观看h片| 国产精品美女久久福利网站| 日韩一区免费观看| 成a人v在线播放| 国产精品天干天干在线综合| 日韩av影视| 婷婷五月在线视频| 中文字幕第一页久久| 亚洲国产综合自拍| 91精品国产91久久久久游泳池| 国产精品免费久久| 一区高清视频| bt在线麻豆视频| 一区二区三区91| 夜夜添无码一区二区三区| 超碰资源在线| 91国偷自产一区二区三区观看| 成年人在线观看视频免费| 国产亚洲欧美日韩精品一区二区三区| 欧美最新大片在线看| 五月婷婷之婷婷| 成人在线分类| 亚洲电影中文字幕| 在线观看福利片| 97精品国产| 欧美猛交ⅹxxx乱大交视频| 精品处破女学生| 性欧美精品高清| 国产日本欧美在线观看| 国产日本精品视频| 91色|porny| 夜夜爽www精品| 第一中文字幕在线| 日本高清不卡一区| 香蕉视频xxxx| 色婷婷av一区二区三区丝袜美腿| 亚洲一级片在线看| 久草免费在线视频观看| 亚洲欧美日韩精品一区二区| 国产精品视频永久免费播放| 国产免费的av| 91亚洲资源网| 国产人妻互换一区二区| 国产粉嫩在线观看| 欧美三级韩国三级日本一级| 国产精品99精品无码视亚| 久久av资源| 欧美日韩电影在线观看| 国产伦精品一区二区三区视频我| 精品一区二区三区久久| 精品免费日产一区一区三区免费| gogogo高清在线观看免费完整版| 一区二区三区精品在线| 91看片在线免费观看| 动漫av一区| 日韩资源在线观看| caoporn国产| 东方欧美亚洲色图在线| 五月天亚洲综合小说网| 美女露胸视频在线观看| 欧美一级搡bbbb搡bbbb| 成熟人妻av无码专区| 亚洲激情一区| 亚洲a成v人在线观看| 国产免费av在线| 天天色 色综合| 四虎国产精品永久免费观看视频| 狠狠操综合网| 欧美又大粗又爽又黄大片视频| 国产激情视频在线播放| 国产精品美女www爽爽爽| 国模无码视频一区二区三区| 日本在线成人| 久久精品亚洲94久久精品| 久久精品视频5| 99久久精品费精品国产一区二区| 99热这里只有精品7| 精品亚洲a∨| 尤物九九久久国产精品的特点| 日韩美女黄色片| 丰满亚洲少妇av| www.99riav| 国产精品1区| 日韩在线观看成人| 一区二区三区免费观看视频| 国产欧美日韩在线视频| 男女无套免费视频网站动漫| 午夜精品福利影院| 欧美亚洲在线观看| 天堂中文资源在线| 狠狠躁夜夜躁人人爽超碰91| 免费黄视频在线观看| 女人天堂亚洲aⅴ在线观看| 91夜夜揉人人捏人人添红杏| 麻豆最新免费在线视频| 91精品啪在线观看国产60岁| 男女做暖暖视频| 国产一区二区三区久久悠悠色av| 不卡中文字幕在线| 日韩视频一区二区三区四区| 欧美二区在线播放| 丰满人妻妇伦又伦精品国产 | 国产精品国产三级国产专区52 | 日本综合在线观看| 蜜臀av亚洲一区中文字幕| 亚洲欧美日韩在线综合 | 欧美日韩久久久| 日韩在线不卡av| 国产一区二区按摩在线观看| 成人午夜免费剧场| 欧美亚洲色图校园春色| 国产成人高清激情视频在线观看| 黄色小视频在线免费观看| 欧洲亚洲国产日韩| 91视频青青草| 成人午夜av电影| 免费在线观看的av网站| 久久中文视频| 不卡视频一区| 天堂电影一区| 深夜福利国产精品| 成人福利小视频| 一本久道久久综合中文字幕| 欧美日韩生活片| 国产成人精品一区二区三区四区| 黄色一级在线视频| 欧洲激情视频| 91免费版网站在线观看| 无遮挡爽大片在线观看视频| 中文字幕欧美亚洲| 国产富婆一级全黄大片| 狠狠躁夜夜躁人人躁婷婷91| 国产主播av在线| 成人高清免费观看| 婷婷激情四射五月天| 欧美精品一卡| 日本一区二区免费看| 国产成人视屏| 欧美性视频精品| а√天堂资源地址在线下载| 日韩精品在线视频美女| 国产精品视频一二区| 午夜成人免费视频| 老司机精品免费视频| www.亚洲精品| 亚洲精品在线视频播放| 久久动漫亚洲| 国产xxxx振车| 99久久九九| 欧美日韩一区在线观看视频| 视频精品一区二区三区| 国产精品九九九| 成人影院在线播放| 久久精品电影网站| 国产专区在线| 日韩av中文字幕在线播放| 国产又粗又长又黄| 在线看一区二区| 亚洲男人的天堂在线视频| 一个色在线综合| 国产午夜精品理论片| 国产三级一区二区| 免费无码一区二区三区| 国产91精品露脸国语对白| 中文字幕亚洲乱码| 日韩av在线免费观看不卡| 国产综合中文字幕| 国户精品久久久久久久久久久不卡| 色综合666| 精品国产91| 欧美理论一区二区| 欧美一级三级| 国产乱码精品一区二区三区卡| 国产精品免费精品自在线观看| 国产成人精品综合久久久| 成年人黄色大片在线| 欧美精品18videosex性欧美| 二区在线播放| 久久精品99无色码中文字幕| 亚乱亚乱亚洲乱妇| 一本色道久久综合狠狠躁篇的优点| 日本亚洲欧美| 国产丝袜一区视频在线观看| 欧美熟妇另类久久久久久不卡| 欧美大片一区二区| 超碰人人人人人人| 欧美精品一区二| 蜜臀久久久久久999| 精品国产乱子伦一区| 乱色精品无码一区二区国产盗| 欧美变态凌虐bdsm| 欧美少妇bbw| 日韩黄色av网站| 日韩福利一区二区| 亚洲色图欧美制服丝袜另类第一页| 亚洲人午夜射精精品日韩| 亚洲精品黄网在线观看| 国产精品国产高清国产| 日韩av一区在线| 日本v片在线免费观看| 亚洲全黄一级网站| 粉嫩一区二区三区国产精品| 日韩在线观看网址| av软件在线观看| 欧美激情视频在线观看| aaa在线播放视频| 日本久久久久久| 久久er热在这里只有精品66| 成人黄色中文字幕| 警花av一区二区三区| 黑人另类av| 国产亚洲欧美日韩在线观看一区二区| 深田咏美在线x99av| 久久亚洲成人| 免费人成自慰网站| 免费日韩av片| 奇米视频7777| 成人av在线播放网址| 日韩av在线看免费观看| 中文乱码免费一区二区| 欧美黄片一区二区三区| 欧美色播在线播放| 一区二区视频播放| 精品国产一区二区三区av性色| 日本v片在线免费观看| xvideos亚洲| 丰满诱人av在线播放| 国产91久久婷婷一区二区| 久久伊人久久| 免费日韩av电影| 亚洲综合色网| 国产又黄又大又粗视频| 激情久久久久久久久久久久久久久久| 久久精品aⅴ无码中文字字幕重口| 91麻豆国产福利在线观看| 国产精品久久久免费看| 精品人伦一区二区三区蜜桃网站 | 国产乱码精品一区二三赶尸艳谈| 日本中文字幕不卡免费| 婷婷视频一区二区三区| 欧美日韩中文国产一区发布| 91精品久久久久久久蜜月| 九色在线视频观看| 国产一区视频网站| 国产交换配乱淫视频免费| 亚洲美女视频在线| 波多野结衣激情视频| 精品欧美一区二区久久| 日本不卡不卡| 全亚洲最色的网站在线观看| 视频一区在线| 一本久道久久综合狠狠爱亚洲精品| 亚洲视频二区| 日本人妻一区二区三区| 国产精品看片你懂得| 成人毛片在线播放| 精品久久一区二区三区| 久草资源在线| 国产精品男人的天堂| 色88888久久久久久影院| 草草草视频在线观看| 麻豆成人综合网| 国产av自拍一区| 香蕉av福利精品导航| 国产成人精品a视频| 中文字幕亚洲欧美日韩高清| 新版的欧美在线视频| 国产不卡一区二区在线观看| 围产精品久久久久久久| 亚洲不卡视频在线| 久久久久久99精品| 天天操天天爽天天干| 亚洲第一网站免费视频| 69xxx在线| 亚洲伊人第一页| 亚洲色图二区| 伦伦影院午夜理论片| 亚洲丝袜自拍清纯另类| 亚洲视频在线免费播放| 国产一区二区av| 免费欧美电影| 色狠狠久久av五月综合|| 老司机午夜精品视频| 中文字幕一区二区人妻在线不卡 | 在线播放亚洲精品| 一区二区亚洲精品国产| 欧美日韩免费看片| 日本在线视频不卡| 日本亚洲欧美天堂免费| 黄色片在线观看免费| 欧美日韩在线一区二区| 欧美69xxx| 成人久久一区二区| 91精品久久久久久久蜜月| 欧美国产在线一区| 亚洲自拍偷拍麻豆| 天天爱天天干天天操| 欧美做受高潮电影o| 一区二区美女| 免费看污污网站| 国产精品盗摄一区二区三区| 国产精品无码天天爽视频| 久久电影一区二区| 亚洲日本va午夜在线电影| 国产91porn| 99精品久久99久久久久| 国产视频1区2区| 日韩中文字幕在线视频| 日韩精品视频一区二区三区| 91精品国产91久久久久麻豆 主演| 成人一区二区在线观看| 日韩在线 中文字幕| 日韩专区在线播放| 白嫩白嫩国产精品| 欧美色图另类小说| 国产精品三级视频| www.天堂在线| 欧美一级在线播放| 日本高清免费电影一区| 少妇性l交大片7724com| 亚洲国产wwwccc36天堂| 国产小视频在线观看| 51国偷自产一区二区三区| 国产精品亚洲欧美| 日本 欧美 国产| 精品国产污污免费网站入口 | 欧美96一区二区免费视频| 麻豆精品一区二区三区视频| 亚洲国产一区二区三区在线观看| 高清电影一区| 久久成人福利视频| 中文幕一区二区三区久久蜜桃| 亚洲精品国产av| 国产精品露脸自拍| 亚洲电影成人| 成人欧美一区二区三区黑人一| 精品国产sm最大网站免费看| 91国内外精品自在线播放| 国产视频在线观看网站| 国产三级精品三级| 丁香六月天婷婷| 国产欧美 在线欧美| 国产日韩欧美一区二区三区在线观看| 国产精品视频看看| 亚洲美女动态图120秒|