邊緣智能的新時代:端側大模型的研究進展綜述
1 序言:邊緣智能的新紀元
在人工智能的飛速發展中,大型語言模型(LLMs)以其在自然語言處理(NLP)領域的革命性突破,引領著技術進步的新浪潮。自 2017 年 Transformer 架構的誕生以來,我們見證了從 OpenAI 的 GPT 系列到 Meta 的 LLaMA 系列等一系列模型的崛起,它們不僅在技術層面上不斷刷新我們對機器理解與生成人類語言能力的認知,更在實際應用中展現出巨大的潛力和價值。
然而,這些模型傳統上主要部署在云端服務器上,這種做法雖然保證了強大的計算力支持,卻也帶來了一系列挑戰:網絡延遲、數據安全、持續的聯網要求等。這些問題在一定程度上限制了 LLMs 的廣泛應用和用戶的即時體驗。正因如此,將 LLMs 部署在端側設備上的探索應運而生,它不僅能夠提供更快的響應速度,還能在保護用戶隱私的同時,實現個性化的用戶體驗。
隨著技術的不斷進步,邊緣 AI 市場的全球規模正以驚人的速度增長。預計從 2022 年的 152 億美元增長到 2032 年的 1436 億美元,這一近十倍的增長不僅反映了市場對邊緣 AI 解決方案的迫切需求,也預示著在制造、汽車、消費品等多個行業中,邊緣 AI 技術將發揮越來越重要的作用。

圖 1:2022 年至 2032 年按終端用戶劃分的端側 AI 全球市場規模(單位:十億美元)。
在這樣的背景下,本綜述文章深入探討了在邊緣設備上部署 LLM 的策略和進展。我們將詳細分析模型壓縮技術、能效計算策略以及輕量級模型架構的創新設計。此外,文章還將討論硬件加速策略、邊緣 - 云協同部署方法,并重點介紹在邊緣場景中有效利用 LLM 的部署策略,以及這些技術在行業中的應用實例和帶來的益處。

- 論文標題:On-Device Language Models: A Comprehensive Review
- 論文鏈接:https://arxiv.org/abs/2409.00088
- 相關鏈接:LLMsOnDevice.com
通過本綜述,我們希望為讀者提供一份關于如何在端側設備上部署和優化 LLMs 的全面指南,同時指出當前研究的方向和面臨的挑戰,為未來的技術發展提供參考和啟示。我們相信,通過跨學科的共同努力,我們能夠實現智能計算的普及。

圖 2:本篇綜述結構
2 技術進展:探索端側 LLMs 部署
在人工智能的浪潮中,端側大型語言模型(On-Device LLMs)正以其迅猛的發展速度和廣泛的應用前景,成為技術革新的新寵。自 2023 年起,隨著參數量低于 10B 的模型系列如 Meta 的 LLaMA、Microsoft 的 Phi 系列等的涌現,我們見證了 LLMs 在邊緣設備上運行的可行性和重要性。這些模型不僅在性能上取得了長足的進步,更通過混合專家、量化和壓縮等技術,保持了參數量的優化,為邊緣設備的多樣化應用場景提供了強大支持。
進入 2024 年,新模型的推出愈發密集,如圖 3 所示,Nexa AI 的 Octopus 系列、Google 的 Gemma 系列等,它們不僅在文本處理上有所增強,更在多模態能力上展現了新的可能性,如結合文本與圖像等多模態輸入,以適應更復雜的用戶交互需求。

圖 3:on-device LLM 的演進,展示了自 2023 年以來的重要模型和發展里程碑。
然而,要在資源受限的設備上部署這些強大的模型,我們必須面對內存和計算能力的雙重挑戰。研究者們通過量化感知縮放、稀疏更新等創新方法,有效解決了這些問題,使得大型模型即便在參數量巨大的情況下,也能在設備端高效運行。
相較于完全依賴云端的 LLM 服務,端側推理的優勢顯而易見。它不僅減少了數據傳輸的延遲,更保護了用戶數據的隱私安全。圖 4 的投票分布顯示,大多數參與者更傾向于邊緣云協作的架構,對現有僅云端的解決方案并不滿意。端側推理的低延遲特性,尤其適用于需要實時響應的應用場景,如 Google 的 Gemini Nano 支持的 TalkBack 功能,即便在完全離線的情況下也能正常工作。

圖 4:用戶對不同 LLM 部署方式的偏好情況
衡量端側 LLMs 性能的指標包括延遲、推理速度、內存消耗等。這些指標直接關系到模型在邊緣設備上的實際運行效果,以及用戶的使用體驗。隨著技術的不斷成熟,我們期待這些性能指標能得到進一步的優化,使得端側大語言模型能在更多場景下發揮其潛力。
3 架構創新:優化邊緣設備的性能
在智能手機和邊緣設備上部署大型語言模型(LLMs)正成為人工智能領域的新挑戰。面對有限的內存和計算能力,研究者們提出了一系列創新的架構設計原則和方法,旨在實現資源的高效利用和性能的最大化。架構創新變得尤為關鍵,其中包括參數共享、模塊化設計以及緊湊的表示形式。例如,MobileLLM 通過深度和瘦長的模型結構優化了參數量在十億以下的模型,而 EdgeShard 框架則通過邊緣云協作計算實現了模型的分布式處理,顯著降低了延遲并提高了吞吐量。
同時,模型壓縮與參數共享技術的應用,如 AWQ 方法和 MobileLLM,不僅減少了模型尺寸,還在保持性能的同時加快了推理速度。這些技術通過保護關鍵權重和優化模型結構,為 LLMs 在端側的部署提供了新的可能性。協作和層次化模型方法通過分散計算負載和利用不同能力模型的組合,解決了資源受限設備的部署難題。EdgeShard 和 LLMCad 的研究成果展示了這種方法的有效性,它們通過在多個設備上分配計算任務,提升了 LLMs 的可擴展性和效率。
在內存和計算效率的優化方面,Samsung Electronics 提出的 PIM 和 PNM 技術,以及 MELT 基礎設施,都顯著提升了內存帶寬和容量,同時降低了能耗,為 LLMs 的移動部署鋪平了道路。MoE 架構的應用,如 EdgeMoE 和 LocMoE,通過稀疏激活和動態路由,進一步提高了 LLMs 的效率。這些方法通過優化專家網絡的選擇和路由,減少了模型的內存占用和提高了計算速度。
此外,總體效率和性能提升的研究,如 Any-Precision LLM 和 LCDA 框架,通過提供多精度支持和軟硬件協同設計,為 LLMs 在邊緣設備上的高效運行提供了新的視角。隨著這些創新技術的迅速發展,我們期待在移動設備和邊緣設備上享受到與云端相媲美的智能體驗,這將為用戶帶來更加快速、個性化的服務,同時確保數據的安全性和隱私保護。智能邊緣計算的未來正變得愈發清晰,它將為人工智能領域帶來深遠的影響和無限的可能性。
4 模型壓縮:平衡性能與效率
在邊緣設備上部署大型語言模型(LLMs)時,保持性能的同時提升計算效率尤為關鍵。本文綜述了四種關鍵的模型壓縮技術:量化、剪枝、知識蒸餾和低秩分解,這些方法通過在性能、內存占用和推理速度之間找到平衡,確保了 LLMs 在端側應用的可行性。
量化是一種通過降低模型權重和激活的精度來減少模型大小的技術。這種方法能夠在幾乎不損失模型性能的情況下,顯著減少模型所需的存儲空間和計算資源。后訓練量化(PTQ)是一種在模型訓練完成后應用的技術,它通過一些先進的補償策略,如 GPTQ,可以在將模型權重量化到 3 或 4 位的情況下,保持模型的高準確度。而量化感知訓練(QAT)則將量化集成到模型的訓練過程中,使模型在訓練時就適應低精度的約束,從而在量化后保持更高的準確度。
剪枝是另一種通過減少模型復雜性來提升計算效率的方法。結構化剪枝通過移除模型中的整個參數子集,如層、通道或過濾器,來優化硬件性能。無結構化剪枝則在更細的粒度上工作,移除單個權重,提供更高的壓縮率。此外,上下文剪枝根據模型的運行上下文動態地移除權重,確保在不同條件下都能保持最優的性能。
知識蒸餾是一種將大型模型的知識遷移到小型模型的技術。黑盒 KD 只使用教師模型的輸出進行學習,而白盒 KD 則允許學生模型訪問教師模型的內部狀態,實現更深入的學習。這種方法可以在不犧牲性能的情況下,顯著減少模型的大小和計算需求。
低秩分解是一種將大型矩陣分解為較小矩陣的技術。這種方法利用了矩陣的低秩結構,減少了計算復雜性,同時保持了模型的準確性。Yao 等人的研究將 LRF 與 PTQ 結合,提出了低秩補償(LoRC),在顯著減少模型大小的同時,通過補償策略保持了模型的準確性。
5 硬件加速:推動端側 LLMs 的高效運行
硬件加速器在大型語言模型(LLMs)的端側部署中扮演著至關重要的角色。GPU 和 TPU 等專用硬件提供了強大的計算能力和高內存帶寬,它們是訓練和加速 LLMs 的重要基礎。NVIDIA 的 Tensor Cores 以及 Google TPU 的高效矩陣乘法能力,都為基于 Transformer 的模型提供了強有力的支持。同時,FPGA 以其靈活性,通過稀疏矩陣乘法和量化技術,在 Transformer 層的推理任務中展現出高效能,為特定模型架構提供了定制優化的可能。
軟硬件協同設計的方法,如量化感知訓練和模型壓縮,進一步提升了 LLMs 的效率,使得它們能夠跨越從高功率服務器到低功率邊緣設備的廣泛部署。這些技術通過參數共享和先進的內存管理,減少了模型的存儲需求,確保了快速且成本效益更高的部署。此外,各種框架如 Llama.cpp、MNN、PowerInfer 等,根據不同的硬件平臺和用例需求,提供了優化的部署策略,從而實現從云端到邊緣的無縫協作。
在邊緣云部署方面,MLC-LLM 和 VLLM 等技術通過支持高效的量化方法和關鍵內存管理,優化了 LLMs 在邊緣設備和云環境中的部署。OpenLLM 等項目通過 BentoML 等工具,實現了開源 LLMs 的快速部署,提供了與 OpenAI 兼容的 API 服務。隨著硬件技術的不斷進步,如 NVIDIA A100 GPU 和 Google TPU v4,我們看到了端側 LLMs 性能的顯著提升,這些硬件不僅提供了巨大的計算能力,還通過混合精度訓練等技術,大幅減少了模型的內存占用并提高了計算效率。
6 實例與應用:端側 LLMs 的實踐探索
端側語言模型的實例:Gemini Nano 模型通過 Google AI Edge SDK 為移動操作系統提供了一個小型但功能強大的 LLM,它通過 4 位量化部署,提供了一流的性能和低延遲的推理速度。Nexa AI Octopus 系列模型則在邊緣設備上運行,以超越 GPT-4 的準確性和延遲,同時減少了 95% 的上下文長度。Apple 的 OpenELM 和 Ferret-v2 模型通過 iOS 集成,提供了類似系統服務的功能擴展。Microsoft 的 Phi 系列,特別是 Phi-3-mini 模型,即使在移動部署中也展現出與大型模型相媲美的性能。此外,MiniCPM-Llama3-V 2.5 和 Gemma2-9B 等開源模型也在各自的領域內展現出卓越的性能。
端側大語言模型的應用:端側 LLMs 的應用范圍極為廣泛,從即時消息生成、實時語言翻譯、會議摘要到醫療咨詢、科研支持、陪伴機器人、殘障人士輔助以及自動駕駛等。例如,Google 的 Gboard 應用利用 Gemini Nano 模型提供基于聊天內容的快速回復建議。在翻譯領域,端側模型能夠在離線環境中快速響應,同時保證翻譯質量。會議摘要應用通過分析會議內容,實時生成摘要,避免了云模型訂閱服務費用和網絡延遲問題。在醫療領域,端側模型能夠在本地處理患者數據,保護隱私同時提供緊急情況下的快速響應。
科研支持方面,端側 LLMs 能夠利用特定領域的大量專業數據進行訓練,加速科研進展。陪伴機器人和 IoT 設備通過端側 LLMs 提升了理解自然語言指令的能力。對于視障人士,端側多模態模型能夠將圖像轉換為文字,提供豐富的圖像描述,并支持離線使用。此外,手語識別和翻譯項目也利用了端側模型的低延遲和離線可用性。
自動駕駛領域,結合大規模視覺語言模型的系統正在改善車輛對復雜和長尾場景的理解,提供即時響應并處理動態場景。

圖 5 展示了端側 LLMs 在不同應用領域的表現,從文本生成、翻譯、會議摘要、醫療應用、科研支持、伴侶機器人、殘障人士輔助到自動駕駛等,端側 LLMs 正以其智能、響應迅速和個性化的特點,改變我們與技術的互動方式。
7 未來展望:邊緣計算的智能轉型

圖 6:on-device LLM 的未來方向和面臨的挑戰
在設備上運行的大型語言模型(LLMs)正迅速發展,它們在數據安全、低延遲和個性化 AI 體驗方面展現出巨大潛力。然而,要在資源受限的設備上部署這些模型,我們必須克服包括模型壓縮、高效推理、安全性和能源效率等一系列挑戰。未來的研究將致力于開發新的隱私保護技術,如查詢混淆和先進的隨機化技術,同時加強風險評估和監控,以確保模型的實用性和數據的安全性。此外,研究者們也在探索適應性邊緣 - 云協作,通過智能緩存、請求分析和資源分配算法,優化數據在邊緣設備與云服務器間的傳輸。
多模態和跨模態學習是推動 LLMs 發展的關鍵方向,它們使模型能夠整合并理解多種數據類型,從而提供更豐富的用戶體驗。研究者們正致力于開發高效的多模態處理技術,以及能夠適應不同模態輸入的模型架構。同時,資源效率也成為研究的重點,通過模型壓縮和執行算法的優化,以及利用模型稀疏性,可以顯著降低模型在邊緣設備上的能源消耗,這對環境保護具有重要意義。
為了進一步提升 LLMs 的性能,硬件 - 軟件的協同設計變得至關重要。未來的研究將探索新的 PIM/PNM 架構,以及針對 AI 特定需求優化的編譯器和運行時系統。此外,確保模型的魯棒性和可靠性也是未來工作的重點,研究者們正在開發方法以檢測和減輕模型輸出中的偏見和幻覺,特別是在安全關鍵的應用中。
個性化 AI 體驗是設備上 LLMs 的另一大優勢,但這也帶來了模型持續學習和適應新信息的挑戰。未來的研究將集中于實現知識保留和遺忘的可控機制,以及開發持續學習的理論基礎和優化策略。通過這些機制,模型能夠根據用戶交互和本地數據自主學習新技能,并提高現有能力。
8 結語
在設備上部署的大型語言模型(LLMs)正開啟智能邊緣計算的新篇章,預示著一個個性化、高效的 AI 時代即將到來。這些模型通過強化數據安全、降低延遲,并提供深度個性化的體驗,將徹底改變我們與技術的互動。展望未來,隨著技術的不斷成熟,我們期待一個設備更智能、服務更精準、生活更便捷的新世界。個性化的 AI 將融入日常生活的方方面面,從智能家居到自動駕駛,從虛擬助手到健康監護,它們將以前所未有的方式提升我們的生活品質。隨著研究的深入,一個更智能、更可靠、更貼近人心的 AI 未來正向我們招手,讓我們滿懷期待,迎接這個由 LLMs 引領的創新紀元。
為了進一步促進學術交流和知識共享,我們建立了一個專門的 GitHub 資源庫 ——Awesome LLMs on Device。這個資源庫不僅收錄了本論文的詳細內容,還將持續更新,以反映該領域的最新研究成果和技術動態。
誠邀學術界同仁訪問我們的 GitHub 資源庫,參與到 LLMs 在邊緣設備上的研究中來,共同推動智能邊緣技術的創新與發展。
Github Repo:https://github.com/NexaAI/Awesome-LLMs-on-device































