你無法察覺的攻擊面：如何保護自主式AI與智能體系統(tǒng)安全

作者：Ritu 2025-10-15 07:02:00

要讓AI自主但不失控，企業(yè)必須推行“零信任AI”戰(zhàn)略，從代碼層強化約束、劃分信任范圍、強制人工審核高風險操作，并隔離開發(fā)與生產(chǎn)環(huán)境。

風險新領(lǐng)域

幾十年來，網(wǎng)絡(luò)安全一直致力于保護靜態(tài)資產(chǎn)，如服務(wù)器、終端和代碼。即使是復(fù)雜的現(xiàn)代軟件，通常也具有確定性，遵循明確、預(yù)先定義的規(guī)則。

自主式智能體的引入，從根本上改變了這種安全格局。這些智能體的自主性和互聯(lián)性，使其具備設(shè)定目標、訪問數(shù)據(jù)庫以及在網(wǎng)絡(luò)中執(zhí)行代碼的能力，這既賦予了它們強大的功能，也使它們成為了重大的、自我導(dǎo)向型安全風險。我們正從保護靜態(tài)軟件轉(zhuǎn)向保護動態(tài)、自我進化、具有決策能力的系統(tǒng)。

核心問題是什么?許多企業(yè)在存在巨大盲點的情況下，急于部署智能體。根據(jù)世界經(jīng)濟論壇最近的一篇文章，盡管高達80%的數(shù)據(jù)泄露事件涉及身份信息泄露，但只有10%的高管制定了完善的智能體身份管理策略。這種準備不足，使企業(yè)面臨三種新型且嚴重的安全漏洞威脅。

嚴重漏洞一：黑箱攻擊

第一個挑戰(zhàn)并非黑客，而是不透明性。

底層大語言模型的深層非確定性，以及它們執(zhí)行的多步驟復(fù)雜推理，形成了決策過程往往無法解釋的系統(tǒng)。當智能體執(zhí)行未經(jīng)授權(quán)或具有破壞性的操作時，對其進行審計幾乎變得不可能。

問題所在：大型模型和智能體的不透明性，使得審計其決策或追溯未經(jīng)授權(quán)操作的來源變得困難。

風險所在：想象一下，一個持續(xù)訪問你財務(wù)數(shù)據(jù)的智能體進行了一系列無法解釋的交易，導(dǎo)致資金損失。這究竟是一個細微的程序錯誤、一次巧妙的黑客攻擊，還是一個未受監(jiān)控的提示?如果沒有清晰、逐步的推理日志，你就無法確定，從而造成合規(guī)方面的噩夢。

嚴重漏洞二：提示詞注入和目標操縱

傳統(tǒng)安全檢查旨在發(fā)現(xiàn)惡意代碼，而自主式AI安全模型則必須留意惡意語言。

提示詞注入利用了智能體推理核心是一個語言模型這一事實。攻擊者可以使用精心設(shè)計的、具有欺騙性的提示詞，誘使AI忽略其內(nèi)部安全協(xié)議或執(zhí)行惡意操作。這是一種已被證實且日益加劇的威脅。Gartner的一項調(diào)查顯示，32%的受訪者表示，他們的應(yīng)用程序已經(jīng)遭遇過提示詞注入攻擊。

風險所在：這不僅僅關(guān)乎智能體行為不當，還可能造成直接的經(jīng)濟損失。我們已經(jīng)看到公開的案例，其中聊天機器人被操縱，以1美元的價格承諾出售一輛價值7.6萬美元的汽車，或不當?shù)叵蚩蛻舭l(fā)放巨額退款。企業(yè)面臨的風險要大得多：一個旨在匯總客戶投訴的智能體，可能會被隱藏的惡意提示操縱，從而忽略其主要功能，并從其連接的數(shù)據(jù)庫中竊取敏感客戶數(shù)據(jù)。

嚴重漏洞三：惡意智能體和權(quán)限提升

當你賦予智能體自主性和工具訪問權(quán)限時，你就創(chuàng)造了一類新的受信任數(shù)字內(nèi)部人員。如果該智能體被攻破，攻擊者將繼承其所有權(quán)限。

一個通常持續(xù)訪問關(guān)鍵系統(tǒng)的自主智能體，可能會被攻破并用于在網(wǎng)絡(luò)中橫向移動和提升權(quán)限。這種過度授權(quán)的后果已經(jīng)顯現(xiàn)。根據(jù)Polymer DLP的研究，這個問題極為普遍：39%的公司發(fā)現(xiàn)，惡意智能體訪問了未經(jīng)授權(quán)的系統(tǒng)或資源。33%的公司發(fā)現(xiàn)，智能體無意中泄露了敏感數(shù)據(jù)。

事件回顧：這種風險并非理論上的。在一個警示性事件中，一個旨在輔助應(yīng)用程序開發(fā)的自主式智能體，意外刪除了一個包含1200多條高管記錄的生產(chǎn)數(shù)據(jù)庫，僅僅因為它被授予了未經(jīng)檢查的訪問權(quán)限。

情景設(shè)想：想象一下，一個原本負責自動化處理IT支持工單的、被攻破的智能體，被利用來創(chuàng)建一個新的管理員賬戶或部署勒索軟件。由于它在沒有人工干預(yù)控制的情況下運行，它可以不受檢查地執(zhí)行其惡意目標數(shù)小時，成為真正的內(nèi)部威脅。

自主式AI授權(quán)：實現(xiàn)零信任AI的四步策略

智能體自主性的速度和規(guī)模，要求從傳統(tǒng)的邊界防御轉(zhuǎn)向?qū)ｉT為AI設(shè)計的零信任模型。對于任何大規(guī)模部署智能體的領(lǐng)導(dǎo)者來說，這不再是一個可選的安全項目，而是一個組織性的強制要求。

為了從盲目部署轉(zhuǎn)向安全運營，CISO和CTO必須執(zhí)行以下四個基本原則：

? 實施代碼級防護機制：除了高級系統(tǒng)提示外，還應(yīng)確保每個智能體的底層代碼都包含硬編碼的輸出驗證器和工具使用限制。這些代碼級約束作為不可變的、確定性的安全檢查，無法被提示詞注入攻擊覆蓋，從而為防止目標操縱提供了關(guān)鍵的一層防御。

? 劃分信任范圍：將每個自主智能體視為一個獨立、獨特的安全實體。它們不應(yīng)共享相同的系統(tǒng)身份或API密鑰。實施令牌化和短期憑證，這些憑證在智能體完成單個、定義明確的任務(wù)后立即過期。這極大地限制了攻擊者利用被攻破智能體的時間窗口。

? 高風險操作需人工干預(yù)：對于任何涉及寫入生產(chǎn)數(shù)據(jù)庫、修改系統(tǒng)配置或發(fā)起金融交易的操作，智能體必須被編程為暫停并請求明確的人工驗證。雖然目標是自主性，但高風險決策需要一個斷路器。

? 隔離開發(fā)和生產(chǎn)環(huán)境：絕不允許開發(fā)或測試智能體訪問實時生產(chǎn)數(shù)據(jù)，即使是用于讀取目的。在環(huán)境之間保持嚴格的沙箱隔離，以確保測試階段的惡意智能體或缺陷模型不會對核心業(yè)務(wù)資產(chǎn)造成不可逆轉(zhuǎn)的損害。

新的安全策略手冊

保障自主式AI的安全，不僅僅是擴展傳統(tǒng)安全工具。它需要一個為自主性而非僅僅是執(zhí)行而構(gòu)建的新的治理框架。這些系統(tǒng)的復(fù)雜性要求一個新的安全策略手冊，專注于控制和透明度：

? 最小權(quán)限原則：對每個智能體應(yīng)用嚴格、細粒度的訪問控制，確保它僅擁有完成任務(wù)所需的最小權(quán)限，不多也不少。如果一個智能體的角色是匯總信息，那么它就不應(yīng)擁有刪除權(quán)限。

? 可審計性與透明度：你無法保護你看不見的東西。構(gòu)建具有強大日志記錄和可解釋性的系統(tǒng)，要求智能體在執(zhí)行敏感操作之前，暴露其中間推理步驟。

? 持續(xù)監(jiān)控：積極監(jiān)控智能體行為，發(fā)現(xiàn)任何偏離其預(yù)期目的或?qū)ν獠抗ぞ哌M行意外調(diào)用的行為。安全團隊需要尋找異常模式，這些模式可能表明存在微妙的提示詞注入或惡意智能體。

? 紅隊演練：在將AI系統(tǒng)部署到生產(chǎn)環(huán)境之前，主動測試其是否存在提示詞注入和過度授權(quán)漏洞。假設(shè)一個復(fù)雜的對手會試圖將你的智能體變成武器。

企業(yè)效率的未來在于自主式AI，但企業(yè)安全的未來必須圍繞控制這種智能體能力來構(gòu)建。通過現(xiàn)在建立這些防護機制，你可以擁抱自主AI的力量，而不會成為其下一個受害者。

責任編輯：姜華來源：企業(yè)網(wǎng)D1Net

AI 零信任智能體