AI大變局:拐點不在云端,而在邊緣
AI模型開發轉向邊緣,將高性能計算帶到設備端。LLM在邊緣面臨功耗、可靠性和工業用例挑戰,需SLM/VLM、分布式智能體及安全防護,謹慎部署。
譯自:The AI Inflection Point Isn't in the Cloud, It's at the Edge[1]
作者:Alex Williams
AI模型開發已達到一個拐點,將通常為云保留的高性能計算能力帶到邊緣設備。與大型語言模型 (LLLM)[2]及其運行所需的GPU所具有的無所不包的特性相比,這是一個令人耳目一新的視角。
“[在某些時候,你會耗盡計算、電力、能源和金錢[3],” Edge Impulse[4] 的首席執行官兼聯合創始人 Zach Shelby 說道,該公司是 Qualcomm Technologies[5] 旗下的一家公司。“我們希望如此廣泛地部署生成式AI。它不可擴展,對嗎?然后它會遇到許多可靠性問題。它會遇到電力問題。”
在邊緣,根據設備的不同,功耗問題也有所差異。然而,結果是什么?這些設備可以運行各種語言模型,但LLM帶來了值得注意的挑戰。
AI的故事不僅僅關乎大型數據中心。我們需要邊緣來運行接近模型處理數據的應用程序。跨國區域到云服務的往返行程成本高昂,并帶來各種問題,使實時應用程序無法使用。
工業環境中LLM的挑戰和用例
Shelby 于2019年與公司首席技術官 Jan Jangboom 共同創立了 Edge Impulse。在 Edge Impulse 于加利福尼亞州山景城的計算機歷史博物館舉辦年度 Imagine[6] 大會后,Shelby 曾兩次與 The New Stack 進行了交談。該公司提供一個邊緣AI平臺,用于收集數據、訓練模型并將其部署到邊緣計算設備。
Shelby說:“我們需要找到方法,使這些概率性LLM架構在無人參與或最少人工參與的應用程序中表現出更強的確定性。”
LLM在后臺辦公方面有多種用例,但在工業環境中,邊緣則有些不同。
存在許多不同類型的架構,例如小型語言模型 (SLM)[7]、視覺語言模型 (VLM)[8] 以及其他在邊緣設備上越來越有用的模型。但對于通常用于消費市場的大型通用語言模型,其用例仍不明確。
“企業在哪里看到真正的價值?” Shelby問道。“這在工業環境中LLM的早期應用中一直是個挑戰。”
他說,這關乎業內人士真正信任什么:“在工業領域,我們必須有投資回報,對吧?我們必須理解我們正在解決什么問題。我們必須理解它是如何運作的。門檻要高得多。”
Shelby 說,例如,VLM正在快速成熟。
“我確實認為,隨著VLM的快速成熟,我們正在發現大量的用例,因為它使我們能夠進行復雜的視覺分析,這是我們通常無法用離散模型完成的。它非常有用,但需要大量的測試。你必須進行端到端測試。你必須對其進行參數化并設置這些防護欄。”
從XR眼鏡到分布式AI智能體
在 Imagine 大會上,我戴上了一副擴展現實 (XR) 眼鏡來查看電路板零件。通過眼鏡,我可以檢測到該零件,然后從一系列問題中選擇要提問的問題。我使用語音提問,啟用了 Whisper[9](一種語音識別服務)、YOLO[10] (You Only Look Once) 和 OpenVocabulary 進行物體檢測。
圖片
擴展現實眼鏡的工作原理。
隨后,它被饋送到一個檢索增強生成 (RAG)[11] 工具中,并與 Llama 3.2[12] 集成,后者包含小型和中型視覺LLM(11B和90B),以及輕量級純文本模型(1B和3B)。據Meta稱,這些模型適用于邊緣和移動設備,包括預訓練和指令微調版本。
Shelby表示,下一步是什么?將智能體應用于 Edge Impulse 通過級聯模型[13]實現的物理AI[14]。
工作負載可能在眼鏡中運行,一個智能體解釋其所見和佩戴者所說。這些數據隨后可能會級聯到一個AI設備[15]中,由另一個智能體執行查找。
Shelby說:“我認為這對于邊緣AI技術來說真的很有趣,我們開始能夠將這些智能體分布在邊緣。” “這很酷。但我確實認為智能體化AI和物理AI使其易于理解。”
Shelby說,人們可以理解XR眼鏡。它們展示了智能體化AI和物理AI之間的聯系。
他說,小型、離散的模型,例如物體檢測,在電池供電、低成本的嵌入式設備上是可行的。然而,它們無法管理生成式AI (GenAI)。為此,你需要在邊緣使用功能更強大的設備。
Shelby說:“一個擁有100億模型參數的模型,可以將其視為一個小型VLM[16]。” “或者一個小型SLM。因此,你能夠做一些專注的事情。我們沒有包羅萬象的世界觀,但我們可以做一些非常專注的事情,比如車輛或缺陷分析,一個非常專注的人類語言界面,或者一個簡單的SLM來解釋它。”
“我們可以在一個設備上運行它。XR眼鏡就是一個很好的例子。這大概就是你今天可以生產的12到100 TOP級別的設備。”
TOP是用于描述NPU處理能力的一個術語[17]。NPU是生成式AI中使用的神經網絡處理器。據Qualcomm稱,“TOPS通過衡量一秒內執行的萬億次操作(加法、乘法等)數量來量化NPU的處理能力。”
Shelby說,XR眼鏡可以在12到100 TOPS級別的設備上運行簡單、專注的應用程序,例如使用SLM進行解釋的自然語言處理。
為什么智能體化架構對邊緣至關重要
除了屏幕之外,還需要智能體化應用程序,專門用于減少延遲和提高吞吐量。
Shelby在談到使用模型分析藥品包裝時說:“你需要一個有多種功能同時運行的智能體化架構。” “你可能需要分析缺陷。然后你可能需要一個帶有RAG支持的LLM來手動查找。這非常復雜。它背后可能需要大量數據。它可能需要非常大。你可能需要1000億個參數。”
他指出,分析可能需要與后端系統集成以執行另一項任務,這需要多個智能體之間的協作。因此,AI設備對于管理多智能體工作流和大型模型是必要的。
任務越復雜,所需的通用智能就越多,這使得需要轉向更大的AI設備。
Expanso[18] 的首席執行官兼創始人 David Aronchik 表示,邊緣有三件事永遠不會改變,這將影響開發人員如何在邊緣設備上進行開發:
? 數據增長。
? 光速不會變得更快,網絡也永遠無法跟上,因為數據量實在太大。
? 隨著數據激增,安全和法規將繼續存在,網絡必須考慮多種因素。
Aronchick說,智能體化架構是數據和網絡之上的一層。“隨著這三件事成為現實,這意味著你必須開始將你的智能體,或者程序,或者它們可能是什么,部署出去。你必須這么做。”
Expanso 為工作負載提供分布式計算[19]。計算不是移動數據,而是走向數據本身——這對于尋求云之外計算需求的企業客戶來說越來越重要。它提供了一個開源架構,使用戶能夠運行生成和存儲數據的作業。
Aronchick說,我們將智能體化架構的工具稱為什么,這誰也說不準。但與Shelby一樣,Aronchick也表示延遲和吞吐量是需要解決的大問題。此外,移動數據會帶來安全和監管問題。考慮到這一點,將應用程序盡可能地靠近服務器是有意義的。
確保可靠性:工業AI的防護欄
Shelby說,LLM的性質要求一個人告訴你LLM的輸出是否正確,這反過來會影響如何判斷LLM在邊緣環境中的相關性。
Shelby說,你不能指望LLM來回答一個提示。設想德克薩斯州風景中的一個攝像頭,它正對著一個油泵。“LLM可能會說,‘哦,有些露營者正在做飯’,而實際上油泵那里著火了。”
那么,如何以工程師期望的方式使這個過程可測試呢?Shelby問道。這需要端到端的防護欄。這就是為什么隨機的、基于云的LLM尚未適用于工業環境的原因。
Edge Impulse 測試開發人員期望的輸出模式匹配,同時了解端到端性能和準確性。這些測試在真實數據上運行。
Edge Impulse 不僅測試原始攝像頭數據流,還測試物體檢測器加上VLM,以及輸出的分類。
Shelby說,LLM需要針對相關基礎數據進行訓練,例如工業機械:“然后你進行遷移學習,這就像對這些模型進行微調。”
在邊緣部署LLM的謹慎方法
Shelby說,Edge Impulse 可能會將更多的神經元壓縮到更小的計算單元中,因為它控制著邊緣計算環境的架構。
但LLM的用例仍顯示出不成熟,因此該公司正在為工業用例開發邊緣約束。基礎模型至關重要。該公司使用基本預處理模型,在數據從攝像頭抵達后立即對其進行處理。
在LLM方面需要謹慎,設置防護欄并測試開發人員體驗和可用性,以便LLM能夠部署到現場。
Shelby說:“我們非常謹慎地一步一步地做,比如我們還沒有引入我們的LLM。” “我們仍在努力確信這些模型如何在工業中安全使用。”
對于在風力發電機塔上工作的人來說,基于文本的輸入可能沒問題。不過,還有其他輸入方法,例如語音接口,Shelby表示該公司正在研究將其作為一種交互方式,例如將SLM與Whisper等語音接口結合使用,以更好地理解問題或自動使用自然語言進行維護。
Shelby說:“我們將引入這項技術,并使它對開發人員來說非常容易,但你必須比云端的炒作慢一點。” “這很有趣。所以,現在的挑戰是:你如何暴露這些東西?”
“使用LLM,你打算怎么做——讓你的維修工在油泵上和聊天機器人聊天嗎?”
引用鏈接
[1] The AI Inflection Point Isn't in the Cloud, It's at the Edge:https://thenewstack.io/the-ai-inflection-point-isnt-in-the-cloud-its-at-the-edge/[2]大型語言模型 (LLLM):https://thenewstack.io/introduction-to-llms/[3]金錢:https://thenewstack.io/a-guide-to-navigating-gpu-rentals-and-ai-cloud-performance/[4]Edge Impulse:https://edgeimpulse.com/[5]Qualcomm Technologies:https://www.qualcomm.com[6]Imagine:https://edgeimpulse.com/imagine[7]小型語言模型 (SLM):https://thenewstack.io/the-rise-of-small-language-models/[8]視覺語言模型 (VLM):https://thenewstack.io/a-developers-guide-to-vision-language-models/[9]Whisper:https://github.com/openai/whisper[10]YOLO:https://www.edgeimpulse.com/blog/introducing-yolo-pro-object-detection-optimized-for-the-edge/[11]檢索增強生成 (RAG):https://thenewstack.io/why-rag-is-essential-for-next-gen-ai-development/[12]Llama 3.2:https://thenewstack.io/running-llama-3-2-on-aws-lambda/[13]級聯模型:https://www.edgeimpulse.com/blog/coming-soon-in-edge-ai-model-cascading-with-vlms/[14]物理AI:https://thenewstack.io/integration-of-ai-with-iot-brings-agents-to-physical-world/[15]AI設備:https://thenewstack.io/ai-at-the-edge-architecture-benefits-and-tradeoffs/[16]小型VLM:https://thenewstack.io/which-vision-language-models-should-you-use-for-your-apps/[17]TOP是用于描述NPU處理能力的一個術語:https://www.qualcomm.com/news/onq/2024/04/a-guide-to-ai-tops-and-npu-performance-metrics[18]Expanso:https://www.expanso.io/[19]Expanso 為工作負載提供分布式計算:https://thenewstack.io/a-startup-complements-kubernetes-docker-and-wasm-at-the-edge/



























