精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

4090成A100平替?token生成速度只比A100低18%,上交大推理引擎火了

人工智能 新聞
這個(gè)推理引擎速度有多快?在單個(gè) NVIDIA RTX 4090 GPU 上運(yùn)行 LLM ,PowerInfer 的平均 token 生成速率為 13.20 tokens/s,峰值為 29.08 tokens/s,僅比頂級(jí)服務(wù)器 A100 GPU 低 18%,可適用于各種 LLM。

不僅如此,PowerInfer 與最先進(jìn)的本地LLM推理框架 llama.cpp 相比,在單個(gè) RTX 4090 (24G) 上運(yùn)行 Falcon (ReLU)-40B-FP16,實(shí)現(xiàn)了 11 倍多的加速,還能保持模型的準(zhǔn)確性。

具體來說,PowerInfer 是一個(gè)用于本地部署 LLM 的高速推理引擎。與那些采用多專家系統(tǒng)(MoE)不同的是,PowerInfer 通過利用 LLM 推理中的高度局部性,巧妙的設(shè)計(jì)了一款 GPU-CPU 混合推理引擎。

它的工作原理是這樣的,將頻繁激活的神經(jīng)元(即熱激活,hot-activated)預(yù)加載到 GPU 上以便快速訪問,而不常激活的神經(jīng)元(冷激活,cold-activated)(占大多數(shù))則在 CPU 上計(jì)算。

這種方法顯著減少了 GPU 內(nèi)存需求和 CPU-GPU 數(shù)據(jù)傳輸。

圖片

  • 項(xiàng)目地址:https://github.com/SJTU-IPADS/PowerInfer
  • 論文地址:https://ipads.se.sjtu.edu.cn/_media/publications/powerinfer-20231219.pdf

PowerInfer 可以在配備單個(gè)消費(fèi)級(jí) GPU 的 PC 上高速運(yùn)行 LLM。現(xiàn)在用戶可以將 PowerInfer 與 Llama 2 和 Faclon 40B 結(jié)合使用,對(duì) Mistral-7B 的支持也即將推出。

一天的時(shí)間,PowerInfer 就獲得了 2K 星標(biāo)。

圖片

看到這項(xiàng)研究后,網(wǎng)友激動(dòng)的表示:?jiǎn)慰?4090 跑 175B 大模型不再是夢(mèng)。

圖片


PowerInfer 架構(gòu)

PowerInfer 設(shè)計(jì)的關(guān)鍵是利用 LLM 推理中固有的高度局部性,其特征是神經(jīng)元激活中的冪律分布。這種分布表明,一小部分神經(jīng)元(稱為熱神經(jīng)元)跨輸入一致激活,而大多數(shù)冷神經(jīng)元?jiǎng)t根據(jù)特定輸入而變化。PowerInfer 利用這種機(jī)制設(shè)計(jì)了 GPU-CPU 混合推理引擎。

圖片

下圖 7 展示了 PowerInfer 的架構(gòu)概述,包括離線和在線組件。離線組件處理 LLM 的激活稀疏,區(qū)分熱神經(jīng)元和冷神經(jīng)元。在線階段,推理引擎將兩種類型的神經(jīng)元加載到 GPU 和 CPU 中,在運(yùn)行時(shí)以低延遲服務(wù) LLM 請(qǐng)求。

圖片

圖 8 說明了 PowerInfer 如何協(xié)調(diào) GPU 和 CPU 來處理層之間的神經(jīng)元。PowerInfer 根據(jù)離線數(shù)據(jù)對(duì)神經(jīng)元進(jìn)行分類,將熱激活的神經(jīng)元(例如索引 3、5、7)分配給 GPU 內(nèi)存,將其他神經(jīng)元分配給 CPU 內(nèi)存。

一旦接收到輸入,預(yù)測(cè)器就會(huì)識(shí)別當(dāng)前層中哪些神經(jīng)元可能會(huì)被激活。值得注意的是,通過離線統(tǒng)計(jì)分析識(shí)別的熱激活神經(jīng)元可能與運(yùn)行時(shí)激活行為不一致。例如,神經(jīng)元 7 雖然標(biāo)記為熱激活,但事實(shí)卻并非如此。然后,CPU 和 GPU 都會(huì)處理激活的神經(jīng)元,忽略沒有激活的神經(jīng)元。GPU 計(jì)算神經(jīng)元 3 和 5,而 CPU 處理神經(jīng)元 4。神經(jīng)元 4 的計(jì)算完成后,其輸出將發(fā)送到 GPU 進(jìn)行結(jié)果集成。

圖片

實(shí)驗(yàn)

該研究使用不同參數(shù)的 OPT 模型進(jìn)行了實(shí)驗(yàn),參數(shù)從 6.7B 到 175B 不等,還包括 Falcon (ReLU)-40B 和 LLaMA (ReGLU)-70B 模型。值得注意的是,175B 參數(shù)模型的大小與 GPT-3 模型相當(dāng)。

本文還將 PowerInfer 與 llama.cpp 進(jìn)行了比較,llama.cpp 是最先進(jìn)的本地 LLM 推理框架。為了便于進(jìn)行比較,該研究還擴(kuò)展了 llama.cpp 以支持 OPT 模型。

由于本文專注于低延遲設(shè)置,因此評(píng)估指標(biāo)是端到端生成速度,量化為每秒生成 token 的數(shù)量(tokens/s)。 

該研究首先比較了 PowerInfer 和 llama.cpp 的端到端推理性能,批大小為 1。

圖 10 展示了在配備 NVIDIA RTX 4090 的 PC-High 上各種模型和輸入輸出配置的生成速度。平均而言,PowerInfer 實(shí)現(xiàn)了 8.32 tokens/s 的生成速度,最高可達(dá) 16.06 tokens/s, 顯著優(yōu)于 llama.cpp,比 llama.cpp 提高了 7.23 倍,比 Falcon-40B 提高了 11.69 倍。

隨著輸出 token 數(shù)量的增加,PowerInfer 的性能優(yōu)勢(shì)變得更加明顯,因?yàn)樯呻A段在整體推理時(shí)間中扮演著更重要的角色。在此階段,CPU 和 GPU 上都會(huì)激活少量神經(jīng)元,與 llama.cpp 相比,減少了不必要的計(jì)算。例如,在 OPT-30B 的情況下,每生成一個(gè) token,只有大約 20% 的神經(jīng)元被激活,其中大部分在 GPU 上處理,這是 PowerInfer 神經(jīng)元感知推理的好處。

圖片

圖 11 顯示,在 PC-Low 上,PowerInfer 仍然比 llama.cpp 獲得了相當(dāng)大的性能增強(qiáng),平均加速為 5.01 倍,峰值為 7.06 倍。然而,與 PC-High 相比,這些改進(jìn)較小,主要是由于 PC-Low 的 11GB GPU 內(nèi)存限制。此限制會(huì)影響可分配給 GPU 的神經(jīng)元數(shù)量,特別是對(duì)于具有大約 30B 參數(shù)或更多參數(shù)的模型,導(dǎo)致更大程度地依賴于 CPU 來處理大量激活的神經(jīng)元。

圖片

圖 12 顯示了 PowerInfer 和 llama.cpp 的 CPU 和 GPU 之間的神經(jīng)元負(fù)載分布。值得注意的是,在 PC-High 上,PowerInfer 顯著增加了 GPU 的神經(jīng)元負(fù)載份額,從平均 20% 增加到 70%。這表明 GPU 處理了 70% 的激活神經(jīng)元。然而,在模型的內(nèi)存需求遠(yuǎn)遠(yuǎn)超過 GPU 容量的情況下,例如在 11GB 2080Ti GPU 上運(yùn)行 60GB 模型,GPU 的神經(jīng)元負(fù)載會(huì)降低至 42%。這種下降是由于 GPU 的內(nèi)存有限,不足以容納所有熱激活的神經(jīng)元,因此需要 CPU 計(jì)算這些神經(jīng)元的一部分。

圖片

圖 13 說明 PowerInfer 有效支持使用 INT4 量化壓縮的 LLM。在 PC-High 上,PowerInfer 的平均響應(yīng)速度為 13.20 tokens/s,峰值可達(dá) 29.08 tokens/s。與 llama.cpp 相比,平均加速 2.89 倍,最大加速 4.28 倍。在 PC-Low 上,平均加速為 5.01 倍,峰值為 8.00 倍。由于量化而減少的內(nèi)存需求使 PowerInfer 能夠更有效地管理更大的模型。例如,在 PC-High 上使用 OPT-175B 模型進(jìn)行的實(shí)驗(yàn)中,PowerInfer 幾乎達(dá)到每秒兩個(gè) token,超過 llama.cpp 2.66 倍。

圖片

最后,該研究還評(píng)估了 PowerInfer 在不同批大小下的端到端推理性能,如圖 14 所示。當(dāng)批大小小于 32 時(shí),PowerInfer 表現(xiàn)出了顯著的優(yōu)勢(shì),與 llama 相比,性能平均提高了 6.08 倍。隨著批大小的增加,PowerInfer 提供的加速比會(huì)降低。然而,即使批大小設(shè)置為 32,PowerInfer 仍然保持了相當(dāng)大的加速。

圖片

參考鏈接:https://weibo.com/1727858283/NxZ0Ttdnz

了解更多內(nèi)容,請(qǐng)查看原論文。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2024-07-08 13:04:01

2025-01-20 07:30:00

2024-01-10 17:13:42

模型數(shù)據(jù)

2025-01-16 08:03:44

2024-03-21 13:59:06

圖像研究

2024-07-17 12:18:27

2022-11-08 15:00:51

芯片英偉達(dá)

2023-04-05 14:31:49

AI超算人工智能

2023-03-27 18:56:11

2023-08-13 07:44:18

GPU模型英偉達(dá)

2023-02-06 10:25:13

AI模型

2025-02-17 09:06:00

AI算力模型

2023-04-06 09:37:22

谷歌AI

2024-06-21 09:17:09

2023-04-07 09:28:31

模型訓(xùn)練

2021-10-12 15:03:18

模型人工智能深度學(xué)習(xí)

2023-11-27 13:43:00

AI模型

2023-07-13 23:16:19

英偉達(dá)GPU

2023-08-14 08:07:46

ChatGPTAI
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

www.自拍偷拍| 中文网丁香综合网| 日韩熟女一区二区| 久久看人人摘| 日韩精品一区二区在线观看| 免费人成在线观看视频播放| 男人天堂资源在线| 韩国欧美国产一区| 久久久伊人欧美| 免费看黄色的视频| 999精品嫩草久久久久久99| 一区av在线播放| 人禽交欧美网站免费| 国产麻豆免费视频| 午夜一级在线看亚洲| 久久精品视频亚洲| 丰满少妇一区二区三区| 精品自拍视频| 欧美性极品xxxx做受| 在线观看污视频| 国产爆初菊在线观看免费视频网站| 国产一区二区91| 国产成人精品久久| 日韩免费一二三区| 99热国内精品| 亚洲免费成人av电影| 麻豆精品国产传媒| 韩国成人在线| 精品久久久中文| 日本一道在线观看| av免费在线一区二区三区| 国产69精品久久久久777| 国产精品久久久久久av福利| 日韩手机在线观看| 亚洲成人精选| 最近2019好看的中文字幕免费 | 亚洲国产精一区二区三区性色| 波多野结衣一区| 国产视频精品一区二区三区| 无码国产精品久久一区免费| 全球中文成人在线| 在线观看网站黄不卡| 欧美a v在线播放| 欧美人与性动交α欧美精品济南到 | 国产精品免费一区豆花| 欧美亚洲精品天堂| 亚洲精品一二| 久久久久成人精品| 老湿机69福利| 亚洲一级淫片| 欧美成人精品在线| 男人与禽猛交狂配| 91精品国产乱码久久久久久久| 中文字幕欧美视频在线| 欧美三级视频网站| 国产欧美日韩影院| 亚洲人成亚洲人成在线观看| 爱爱的免费视频| 亚洲美女15p| 亚洲社区在线观看| 日本一卡二卡在线播放| 欧美精选视频在线观看| 伊人久久久久久久久久久久久| 强伦人妻一区二区三区| 亚洲区小说区| 亚洲欧美日韩中文在线| 伊人网在线视频观看| 国产一区二区三区网| 亚洲欧美中文字幕在线一区| 爱爱免费小视频| 国产成人1区| 最近2019中文字幕在线高清| 免费国产羞羞网站美图| 欧美久久影院| 2021国产精品视频| 99久久久久久久久| 久久激情综合网| 2020国产精品久久精品不卡| 性中国古装videossex| 99在线精品观看| 日本视频精品一区| 黄色网址在线免费| 亚洲尤物视频在线| 92看片淫黄大片一级| av在线一区不卡| 欧美一区二区三区四区在线观看| 国产伦精品一区二区三区妓女下载 | 91免费电影网站| 国产91免费看| 国产午夜精品久久久久久久| 中文精品一区二区三区| 69av成人| 欧美日韩三级一区| 91精品人妻一区二区三区蜜桃2 | 午夜欧美激情| 在线观看91av| 国产视频久久久久久| 欧美在线观看视频一区| 欧美高跟鞋交xxxxxhd| 午夜精品久久久久久久久久久久久蜜桃 | 91丝袜高跟美女视频| 亚洲自拍偷拍二区| 91福利在线尤物| 欧美日韩视频在线观看一区二区三区| 中文字幕乱视频| 超碰成人久久| 午夜免费日韩视频| 国产婷婷一区二区三区久久| 久久综合久色欧美综合狠狠| 中文字幕99| 国产精品高清乱码在线观看| 日韩一二三区不卡| 变态另类ts人妖一区二区| 国产一区美女| 成人高清视频观看www| 婷婷婷国产在线视频| 亚洲免费观看高清在线观看| 免费在线观看毛片网站| 97人人澡人人爽91综合色| 一区二区欧美久久| 久久露脸国语精品国产91| 精品一二线国产| 欧洲视频一区二区三区| 91豆花视频在线播放| 欧美一区二区三区在线观看| 黄色三级生活片| 99精品国产一区二区青青牛奶| 91在线国产电影| 成人高清视频在线观看| 鲁大师私人影院在线观看| 激情伦成人综合小说| 92国产精品视频| 午夜精品成人在线视频| 国产欧美精品一区二区色综合 | 亚洲人成人77777线观看| 日韩免费观看网站| 国产另类自拍| 日韩精品电影网站| 国产精品欧美风情| 美女喷白浆视频| 欧美第一在线视频| 最近2019中文字幕mv免费看| 手机在线看片1024| www.66久久| 精品少妇在线视频| 国产三级精品三级在线观看国产| 久久亚洲精品毛片| 国产毛片毛片毛片毛片毛片| 国产精品福利一区| 日韩av卡一卡二| 日韩精品免费一区二区三区| 国产精品美女呻吟| 97视频在线观看网站| 欧美亚洲国产怡红院影院| 国产免费一区二区三区网站免费| 久久久久国产精品一区二区| 美国av一区二区三区| 神马午夜伦理不卡 | 超碰在线免费97| 国产三级精品三级| 日本黄大片一区二区三区| 国产日韩欧美一区二区三区| 国产精品99久久久久久久久久久久| 九色在线免费| 欧美四级电影网| 日韩激情小视频| 国产成人av一区二区| 久青草视频在线播放| 韩国精品福利一区二区三区| 2021国产精品视频| 都市激情一区| 欧美一区二区三区电影| 久久精品国产亚洲av香蕉 | 亚洲熟妇无码av| 青青国产91久久久久久| 永久免费精品视频网站| 日韩欧美激情电影| 91产国在线观看动作片喷水| 蜜桃成人在线视频| 不卡福利视频| 丝袜美腿高跟呻吟高潮一区| 欧美亚洲综合一区| 成年人在线免费看片| 麻豆精品一区二区三区| 佐佐木明希av| 日韩大尺度在线观看| 国产精品老女人精品视频| 麻豆视频在线观看免费| 精品精品欲导航| 中文字字幕在线中文| 欧美激情一区在线观看| 国产在线视频三区| 国产精品一级| 国产对白在线播放| 欧美三级电影在线| 国产日产欧美a一级在线| 亚洲大胆人体大胆做受1| 日韩av一区在线| 在线观看毛片视频| 无码av免费一区二区三区试看| 免费一级特黄3大片视频| 国产一区二区h| 妞干网在线免费视频| 一区二区免费不卡在线| 久久亚洲精品欧美| 国产成人免费av一区二区午夜 | 91吃瓜网在线观看| 精品久久久久久亚洲综合网| 毛片在线免费播放| 亚洲国产精品自拍| 任我爽在线视频| 91丨porny丨最新| av在线网站免费观看| 可以免费看不卡的av网站| 真实国产乱子伦对白视频| 国产综合久久久| 国产一区喷水| 欧美成年网站| 国产精品久久中文| 午夜激情电影在线播放| 色综合久久88| 精品国产丝袜高跟鞋| 亚洲人成电影网站色| 黄色小视频免费在线观看| 欧美男女性生活在线直播观看| 久草国产精品视频| 一区二区三区精品视频| 亚洲一级理论片| 久久久亚洲精品一区二区三区 | 免费人成在线观看视频播放| 久久精品青草| 亚洲欧洲精品一区二区三区波多野1战4| 黄色欧美在线| 国产91视觉| 视频免费一区二区| 91视频九色网站| 日本午夜精品久久久久| 国产精品美女www| 亚洲承认视频| 国产精品a久久久久久| 亚洲私拍视频| 欧美亚洲国产成人精品| 韩国精品一区| 97免费视频在线| aa国产成人| 97免费在线视频| 九九色在线视频| 欧美精品电影在线| 草美女在线观看| 欧美精品激情在线| 国产高清视频色在线www| 97国产精品视频| 免费h在线看| 欧美一级高清免费| 人人视频精品| 国产精品免费一区豆花| 青娱乐极品盛宴一区二区| 国产日韩一区在线| 国产精品视频一区二区三区| 亚洲最大福利网| 成人午夜三级| 久久综合精品一区| 欧美三级情趣内衣| 自拍偷拍99| 国产主播精品| 免费看又黄又无码的网站| 美女网站久久| 国产视频手机在线播放| 国产在线观看一区二区| 色诱av手机版| 久久久久久久网| 在线观看天堂av| 亚洲卡通动漫在线| 国产精品黄色网| 欧洲人成人精品| 国产乱码久久久| 亚洲第一页在线| 蝌蚪视频在线播放| 精品国产一区二区三区在线观看 | 国模一区二区| 成人久久精品视频| 一区中文字幕| 欧美日本韩国一区二区三区| 色男人天堂综合再现| 国产91porn| 久久精品系列| 手机在线观看日韩av| 99精品视频一区| 一女三黑人理论片在线| 中文字幕一区二区视频| 久久亚洲av午夜福利精品一区| 欧美三级免费观看| 91免费视频播放| 日韩av在线免播放器| 91在线网址| 97在线免费观看| 欧美特黄色片| 久久99久久精品国产| 午夜国产一区二区| 日本www在线播放| 国产精品自拍一区| 欧美 日韩 国产 成人 在线观看| 亚洲黄一区二区三区| 国产婷婷色一区二区在线观看| 欧美日韩国产bt| 天堂av中文在线资源库| 久久天天躁日日躁| 在线观看精品| 国产精品免费一区二区三区观看 | 成人国产精品入口免费视频| 91青青草免费观看| 日本电影一区二区| 亚洲人精品午夜射精日韩| 麻豆成人久久精品二区三区小说| 最新日本中文字幕| 国产精品理论片在线观看| 日本视频在线观看免费| 日韩欧美成人激情| 欧美三级电影一区二区三区| 91tv亚洲精品香蕉国产一区7ujn| 欧美午夜网站| 一区二区三区在线视频111| 香蕉久久夜色精品国产| 欧美性生交xxxxx| ...xxx性欧美| 在线观看日韩一区二区| 国产丝袜视频一区| а√在线天堂官网| aa日韩免费精品视频一| 9191国语精品高清在线| 亚洲色图久久久| 久久综合九色综合97_久久久| 久草国产在线观看| 欧美一区二区网站| 黄色动漫在线| 91精品久久久久久久久久久| 久久成人高清| 成人羞羞国产免费网站| 97久久超碰精品国产| 久久夜靖品2区| 亚洲成人免费在线视频| 久久99亚洲网美利坚合众国| 亚洲已满18点击进入在线看片| 欧美肥老太太性生活| 亚洲欧美偷拍另类| 国产精品色眯眯| 在线观看毛片视频| 久久久精品国产一区二区| 欧美极品在线| 一区二区三区在线视频看| 狠狠色综合色综合网络| 久久成人小视频| 欧美一区二区视频在线观看2020| 国产在线激情视频| 亚洲自拍av在线| 欧美精品一级片| 欧美三级在线视频| 日本中文字幕电影在线免费观看| 国产精品一区二区三区免费视频 | 亚洲少妇激情视频| 日韩中文在线播放| 在线不卡日本| 国产一区二区看久久| 久久久精品一区二区涩爱| 亚洲精品在线观看网站| 麻豆理论在线观看| 欧美欧美一区二区| 毛片不卡一区二区| 五月婷婷一区二区| 亚洲精品成人久久久| 婷婷综合六月| 香蕉视频在线网址| 成人福利视频在线| 精品国产xxx| 色偷偷888欧美精品久久久| 另类视频一区二区三区| 国产精品无码人妻一区二区在线| 久久久噜噜噜久久人人看| 在线视频1卡二卡三卡| 欧美大尺度在线观看| 色狼人综合干| 男女无套免费视频网站动漫| 一区在线观看视频| 亚洲黄色在线播放| 日本一区二区不卡| 香蕉av一区二区| 999精品免费视频| 欧美日精品一区视频| 欧美videos另类精品| 欧美区高清在线| 国产精品18久久久久久久久久久久| 日本在线小视频| 欧美日高清视频| 色姑娘综合天天| 久久品道一品道久久精品| 亚洲天堂中文字幕在线| 午夜精品福利视频| 欧美肥老太太性生活| 熟女人妻在线视频| 91精品国产欧美一区二区成人|