國內(nèi)安全廠商應(yīng)對大模型新風(fēng)險(xiǎn)的主要措施
大型語言模型(LLMs)的飛速發(fā)展,正在為企業(yè)帶來前所未有的業(yè)務(wù)創(chuàng)新,但同時(shí)也帶來了一系列超出傳統(tǒng)網(wǎng)絡(luò)安全范疇的“新”威脅。攻擊者不再滿足于入侵服務(wù)器,而是通過惡意輸入來操縱模型行為、竊取模型數(shù)據(jù)甚至損害模型本身,這些新威脅使得為大模型構(gòu)建一個(gè)強(qiáng)大的安全防護(hù)體系,成為企業(yè)在AI時(shí)代下的當(dāng)務(wù)之急。那么,國內(nèi)廠商是如何應(yīng)對這些“新”威脅,我們又該如何防御呢?
一、大模型安全威脅風(fēng)險(xiǎn)模型
為有效防御AI系統(tǒng),尤其是大模型,首先需了解攻擊者利用其脆弱性的方式(攻擊模型),以及這些攻擊可能導(dǎo)致的危害(威脅模型),是制定防護(hù)策略的基礎(chǔ)。國際上已經(jīng)形成了針對大模型風(fēng)險(xiǎn)的框架,為大模型安全防護(hù)提供基礎(chǔ)。其中
1)MITREATLAS(人工智能系統(tǒng)對抗威脅框架)是針對AI系統(tǒng)攻擊的系統(tǒng)化知識庫和框架,將攻擊者利用AI系統(tǒng)脆弱性的行為劃分為多個(gè)類別,每個(gè)類別下詳細(xì)列出具體攻擊技術(shù),幫助企業(yè)從攻擊者視角理解AI系統(tǒng)的安全風(fēng)險(xiǎn)。
2)OWASP Top 10f or LLM包括了當(dāng)前AI應(yīng)用中最常見且影響顯著的問題。
MITREATLASAI對抗威脅全景模型
基于MITREATLAS(人工智能系統(tǒng)對抗威脅框架)和OWASP Top 10f or LLM,安全牛結(jié)合國內(nèi)廠商對AI安全的理解和實(shí)踐,總結(jié)了多層次的AI安全威脅模型框架,從業(yè)務(wù)層、數(shù)據(jù)層、應(yīng)用層和基礎(chǔ)設(shè)施等多個(gè)維度,全面考量AI系統(tǒng)面臨的風(fēng)險(xiǎn),為針對性防護(hù)提供依據(jù)。
安全牛的AI安全威脅風(fēng)險(xiǎn)框架
業(yè)務(wù)層安全風(fēng)險(xiǎn):聚焦大模型應(yīng)用直接面向用戶和業(yè)務(wù)時(shí),對業(yè)務(wù)功能、內(nèi)容可能造成的風(fēng)險(xiǎn)。其風(fēng)險(xiǎn)類型包括不安全輸出生成(如生成虛假信息、不合規(guī)內(nèi)容),業(yè)務(wù)濫用(如利用大模型進(jìn)行欺詐、惡意營銷),以及知識產(chǎn)權(quán)/版權(quán)侵犯(生成內(nèi)容侵犯他人權(quán)益)。這些風(fēng)險(xiǎn)直接影響業(yè)務(wù)連續(xù)性和企業(yè)聲譽(yù)。
數(shù)據(jù)層安全風(fēng)險(xiǎn):關(guān)注大模型訓(xùn)練、推理過程中涉及數(shù)據(jù)的保密性、完整性和可用性風(fēng)險(xiǎn)。風(fēng)險(xiǎn)類型有訓(xùn)練數(shù)據(jù)投毒(如攻擊者惡意篡改訓(xùn)練數(shù)據(jù)),隱私泄露(如訓(xùn)練數(shù)據(jù)或推理數(shù)據(jù)包含個(gè)人隱私信息被泄露),以及數(shù)據(jù)竊取(模型參數(shù)、訓(xùn)練數(shù)據(jù)被非法獲取),推理攻擊(通過對模型輸出的分析反向推斷訓(xùn)練數(shù)據(jù))等。
應(yīng)用層安全風(fēng)險(xiǎn):主要涉及大模型應(yīng)用本身、其API接口及組件相關(guān)的漏洞和被攻擊風(fēng)險(xiǎn)。風(fēng)險(xiǎn)類型包括提示詞注入(如通過惡意輸入操控模型行為),API漏洞(對大模型API進(jìn)行未授權(quán)的訪問或惡意調(diào)用),代碼漏洞(大模型應(yīng)用自身代碼的安全缺陷),惡意插件(不安全或惡意的外部插件集成),過度自主性(如模型未受限執(zhí)行)以及模型拒絕服務(wù)(如API資源耗盡)。
基礎(chǔ)設(shè)施層安全風(fēng)險(xiǎn):圍繞支撐大模型運(yùn)行的底層硬件、軟件平臺、網(wǎng)絡(luò)環(huán)境和模型本身的安全展開。風(fēng)險(xiǎn)類型包括模型竊取(如非法獲取模型權(quán)限),模型篡改,供應(yīng)鏈漏洞(如AI框架、庫、組件中的漏洞),基礎(chǔ)設(shè)施漏洞(如云平臺、服務(wù)器、容器漏洞),以及不安全代碼(如傳統(tǒng)組件安全缺陷)。
二、大模型安全威脅防護(hù)框架
安全牛從業(yè)務(wù)、數(shù)據(jù)、應(yīng)用和基礎(chǔ)設(shè)施四個(gè)層面構(gòu)建了AI安全風(fēng)險(xiǎn)防護(hù)框架,通過全面縱深的防御體系,應(yīng)對大模型時(shí)代復(fù)雜多變的安全威脅,為大模型安全提供全方位保障。
人工智能安全風(fēng)險(xiǎn)防護(hù)框架
1、業(yè)務(wù)層安全防護(hù):確保內(nèi)容合規(guī)與業(yè)務(wù)安全
業(yè)務(wù)層安全主要是關(guān)注大模型應(yīng)用直接面向用戶和業(yè)務(wù)的輸出內(nèi)容及服務(wù)可用性,是保障業(yè)務(wù)核心價(jià)值和避免直接損失的第一道防線。
- 輸出內(nèi)容審核與過濾:部署基于人工智能的內(nèi)容安全審查系統(tǒng),對大模型生成的文本、圖片、音頻視頻進(jìn)行實(shí)時(shí)檢測和過濾,識別敏感詞、有害信息,確保輸出內(nèi)容符合法律法規(guī)和社會價(jià)值。知道創(chuàng)宇的大模型網(wǎng)關(guān)提供內(nèi)容安全監(jiān)測功能,能夠識別并攔截侵權(quán)、非法信息。
- 敏感信息識別與脫敏:對大模型輸出進(jìn)行敏感信息識別,并進(jìn)行自動化脫敏處理,防止無意或惡意泄露用戶個(gè)人身份信息(PII)、財(cái)務(wù)數(shù)據(jù)或企業(yè)商業(yè)機(jī)密。
- 業(yè)務(wù)邏輯驗(yàn)證:結(jié)合業(yè)務(wù)規(guī)則對大模型的輸出進(jìn)行二次驗(yàn)證和人工復(fù)核,確保其不被用于非法的業(yè)務(wù)操作,例如,防止大模型輔助完成詐騙交易或規(guī)避內(nèi)部流程。
- 業(yè)務(wù)連續(xù)性保障:實(shí)施高可用架構(gòu)、智能流量管理和DDoS防護(hù),確保大模型服務(wù)面臨大規(guī)模請求或資源緩慢攻擊時(shí),仍能保持持續(xù)可用性,不影響核心業(yè)務(wù)運(yùn)行。
國內(nèi)廠商在大模型應(yīng)用場景的業(yè)務(wù)層安全防護(hù)方面,采取了多種策略來確保內(nèi)容合規(guī)與業(yè)務(wù)安全:
廠商案例
- 競恒智能主要側(cè)重于對大模型的安全評估,提供大模型內(nèi)容安全防護(hù)服務(wù),包括內(nèi)容合規(guī)過濾服務(wù)、數(shù)據(jù)防泄漏保護(hù)服務(wù)等合規(guī)檢測。
- 默安科技的高交互大模型沙箱可以提供高仿真的大模型組件,支持Ollama、Dify、ClearML等主流AI開源框架,通過創(chuàng)建仿真的AI服務(wù)誘捕攻擊者,實(shí)現(xiàn)對攻擊者的追蹤溯源和反制,保護(hù)人工智能數(shù)字資產(chǎn)
- 奇安信的大模型衛(wèi)士(QAX GPT-Guard)AI鑒定平臺可實(shí)現(xiàn)對大模型輸入輸出內(nèi)容的深度檢測與智能攔截。識別并攔截涉政、賭博、色情、違法犯罪等違規(guī)內(nèi)容,進(jìn)行敏感信息識別與脫敏,并能防御提示詞注入和越獄攻擊,從而保障業(yè)務(wù)邏輯不被惡意操控。
- 瑞數(shù)信息的WAAP for LLM超融合解決方案加強(qiáng)了針對提示詞注入攻擊、信息泄漏風(fēng)險(xiǎn)以及API攻擊的檢測和防護(hù)。能夠?qū)崟r(shí)審查模型輸出以阻斷敏感信息泄露并滿足合規(guī)要求,利用NLP處理和語義分析來防護(hù)提示詞注入攻擊。
- 云弈科技能夠提供對大模型Web應(yīng)用的業(yè)務(wù)連續(xù)性保障和輸出內(nèi)容完整性保護(hù)。
- 知道創(chuàng)宇的創(chuàng)宇大模型網(wǎng)關(guān)能夠監(jiān)測并攔截敏感輸入輸出內(nèi)容(如身份證、手機(jī)號等隱私數(shù)據(jù)和企業(yè)機(jī)密),阻斷涉密信息傳播,并提供提示詞注入和模型越獄防護(hù)以保障業(yè)務(wù)邏輯不被操控。此外還提供DDoS/CC攻擊防疫和熔斷保護(hù)機(jī)制,以及多模型切換/重試功能,全面保障大模型服務(wù)的業(yè)務(wù)連續(xù)性。
2、數(shù)據(jù)層安全防護(hù):保護(hù)模型生命周期的核心資產(chǎn)
數(shù)據(jù)安全主要是關(guān)注貫穿大模型的整個(gè)生命周期,從訓(xùn)練數(shù)據(jù)、調(diào)節(jié)數(shù)據(jù)到推理過程中的輸入輸出數(shù)據(jù),任何中間的泄露或篡改都可能帶來嚴(yán)重的后果。
- 訓(xùn)練數(shù)據(jù)安全與治理:實(shí)施嚴(yán)格的數(shù)據(jù)訪問控制、數(shù)據(jù)加密和數(shù)據(jù)脫敏技術(shù),確保訓(xùn)練數(shù)據(jù)的機(jī)密性和完整性。在數(shù)據(jù)進(jìn)入訓(xùn)練流程前,進(jìn)行質(zhì)量驗(yàn)證和不良數(shù)據(jù)檢測,利用人工智能或統(tǒng)計(jì)方法識別并清除可能導(dǎo)致模型偏差或后門行為的投毒數(shù)據(jù)。
- 輸入/輸出數(shù)據(jù)保護(hù):對用戶輸入到模型的提示詞(提示詞)和模型的生成響應(yīng)進(jìn)行敏感信息識別、過濾和脫敏。例如,阻止用戶在提示中輸入個(gè)人敏感信息,或防止模型在回復(fù)中無意泄露訓(xùn)練數(shù)據(jù)中的PII。
- 訪問控制與鑒權(quán):對模型API和云端數(shù)據(jù)存儲(如訓(xùn)練數(shù)據(jù)集、模型權(quán)重存儲)進(jìn)行嚴(yán)格的身份驗(yàn)證和權(quán)限管理,確保只有授權(quán)用戶和應(yīng)用程序才能訪問敏感數(shù)據(jù)。
- 隱私計(jì)算技術(shù)應(yīng)用:探索和應(yīng)用聯(lián)邦學(xué)習(xí)、差分隱私、同態(tài)加密等技術(shù),在保護(hù)數(shù)據(jù)隱私的同時(shí)進(jìn)行模型訓(xùn)練和數(shù)據(jù)分析,尤其適用于多方協(xié)作訓(xùn)練或處理高度敏感數(shù)據(jù)。
廠商案例
- 奇安信的大模型衛(wèi)士提供全面的數(shù)據(jù)層安全防護(hù),能夠?qū)Υ竽P陀?xùn)練數(shù)據(jù)進(jìn)行脫敏、加密和審計(jì),還能實(shí)時(shí)識別、過濾和脫敏大模型輸入輸出的敏感內(nèi)容(如個(gè)人信息、商業(yè)機(jī)密),并提供基于實(shí)名賬號的訪問控制與鑒權(quán),保障模型API和數(shù)據(jù)存儲的安全。
- 瑞數(shù)信息的WAAP for LLM提供數(shù)據(jù)投毒防護(hù)和訓(xùn)練前敏感數(shù)據(jù)清理,支持大模型敏感信息檢測和脫敏,并且可通過API防護(hù)和一次性令牌機(jī)制,有效確保大模型API的訪問安全,防止未經(jīng)授權(quán)的訪問與濫用。
- 知道創(chuàng)宇的大模型網(wǎng)關(guān)能夠?qū)τ?xùn)練數(shù)據(jù)集進(jìn)行清洗、提煉和分析,并能監(jiān)測并攔截大模型輸入輸出的敏感內(nèi)容,包括個(gè)人信息和商業(yè)數(shù)據(jù),此外,通過路由管理和令牌分發(fā),可對大模型API訪問進(jìn)行精細(xì)化授權(quán)與控制,并屏蔽外部大模型訪問地址以防數(shù)據(jù)泄露。
3、應(yīng)用層安全防護(hù):模型服務(wù)接口與組件安全
應(yīng)用安全主要是關(guān)注大模型應(yīng)用本身的代碼、接口、集成組件以及與模型的交互邏輯,確保其不會被傳統(tǒng)或新型攻擊利用。
- 即時(shí)注入防護(hù):部署基于AI的即時(shí)過濾和語義分析技術(shù),在用戶輸入到達(dá)模型前進(jìn)行實(shí)時(shí)檢測。利用深度學(xué)習(xí)和NLP技術(shù)識別并攔截惡意提示詞、越獄指令或數(shù)據(jù)泄露嘗試。
- API安全防護(hù):嚴(yán)格實(shí)施的API安全網(wǎng)關(guān),對大模型服務(wù)接口進(jìn)行API鑒權(quán)、訪問控制、異常行為分析和流量限速。默安科技的大模型在API安全中的應(yīng)用強(qiáng)調(diào)能力“理解API行為、識別異常”,識別異常API調(diào)用和業(yè)務(wù)邏輯漏洞。
- 應(yīng)用代碼安全:對大模型應(yīng)用的代碼進(jìn)行安全審計(jì)、靜態(tài)和動態(tài)分析(SAST/DAST/IAST)、漏洞掃描,確保代碼本身無漏洞,防止攻擊者利用應(yīng)用代碼漏洞滲透。
- 運(yùn)行時(shí)保護(hù):部署RASP(運(yùn)行時(shí)應(yīng)用自保護(hù))或IAST(交互式應(yīng)用安全測試)工具,實(shí)時(shí)監(jiān)控大模型應(yīng)用的運(yùn)行行為和內(nèi)部交互,檢測非預(yù)期行為。
廠商案例
- 奇安信的大模型衛(wèi)士提供全面的應(yīng)用層安全防護(hù)。能夠基于AI和語義分析技術(shù)對用戶輸入的提示詞進(jìn)行檢測與防護(hù),攔截惡意提示詞、越獄指令和數(shù)據(jù)泄露嘗試。可以實(shí)施API鑒權(quán)、訪問控制、高危操作管控、全鏈路審計(jì)與溯源,并能對大模型API訪問進(jìn)行精細(xì)化授權(quán)控制。
- 瑞數(shù)信息的WAAP for LLM能夠識別并攔截惡意提示詞、越獄指令等,可防止API濫用和批量攻擊,并可對主流大模型框架的供應(yīng)鏈組件進(jìn)行漏洞檢測、驗(yàn)證和防護(hù)。另外,還可以利用動態(tài)混淆技術(shù)保護(hù)LLM應(yīng)用代碼和傳輸數(shù)據(jù)。
- 知道創(chuàng)宇的大模型網(wǎng)關(guān)提供提示詞注入防護(hù)和模型越獄防護(hù),并進(jìn)行關(guān)鍵詞和價(jià)值觀內(nèi)容監(jiān)測。通過統(tǒng)一接入管理、基于微隔離的權(quán)限管控和Token配額管理和限流,對大模型API訪問進(jìn)行精細(xì)化授權(quán)與控制。并提供全鏈路可觀測能力,包括LLM調(diào)用、Token消費(fèi)和資源使用統(tǒng)計(jì),以及實(shí)時(shí)預(yù)警模型、內(nèi)容和流量異常,并可追溯對話和訪問日志以實(shí)現(xiàn)安全審計(jì)。
4、基礎(chǔ)設(shè)施層安全防護(hù):筑牢模型運(yùn)行的基礎(chǔ)基石
設(shè)施基礎(chǔ)安全主要關(guān)注大模型訓(xùn)練、部署和推理所依賴的硬件、軟件平臺、網(wǎng)絡(luò)環(huán)境以及模型本身的存儲和缺陷。
- 模型缺陷保護(hù):對模型的權(quán)限重、參數(shù)和結(jié)構(gòu)進(jìn)行加密存儲和數(shù)字簽名,并在加載和運(yùn)行前進(jìn)行缺陷校驗(yàn),防止模型被竊取或篡改。
- 安全部署與隔離:在安全的沙箱環(huán)境或容器中運(yùn)行大模型,與其他業(yè)務(wù)系統(tǒng)進(jìn)行嚴(yán)格隔離,限制其對外部資源的訪問權(quán)限。
- 供應(yīng)鏈安全管理:對所有引入的開源模型、框架、庫和組件嚴(yán)格進(jìn)行安全審計(jì)、漏洞掃描和供應(yīng)鏈風(fēng)險(xiǎn)評估,防止引入不良或帶漏洞的組件。
- 基礎(chǔ)設(shè)施漏洞管理與防護(hù):對服務(wù)器、網(wǎng)絡(luò)、網(wǎng)絡(luò)設(shè)備、容器平臺等進(jìn)行專題的漏洞管理和安全隊(duì)列,部署傳統(tǒng)的防火墻、入侵檢測、DDoS防護(hù)等措施。
- 模型行為監(jiān)控:實(shí)時(shí)監(jiān)控大模型的推理行為和資源消耗,通過AI分析其行為模式,發(fā)現(xiàn)異常,預(yù)警模型被攻擊或補(bǔ)償。
廠商案例
- 奇安信的大模型衛(wèi)士在基礎(chǔ)設(shè)施層提供全面的安全部署與隔離(包括安全代理網(wǎng)關(guān)對大模型運(yùn)行狀態(tài)的防護(hù)和權(quán)限管控)以及供應(yīng)鏈安全管理,可對主流大模型框架的組件進(jìn)行漏洞檢測與防護(hù)。
- 瑞數(shù)信息的WAAP for LLM可以實(shí)現(xiàn)安全部署與隔離,支持對主流大模型框架供應(yīng)鏈組件的漏洞檢測以及API安全掃描和AI基礎(chǔ)設(shè)施安全評估,并具備Bot防護(hù)、WAF、CC、DDoS防護(hù)等能力。
- 知道創(chuàng)宇的大模型網(wǎng)關(guān)在基礎(chǔ)設(shè)施層支持統(tǒng)一接入管理和基于微隔離的權(quán)限管控,采用代理模式接入,提供網(wǎng)絡(luò)安全防護(hù)(包括Web攻擊防護(hù)、DDoS防護(hù)),可實(shí)時(shí)檢測分析流量,識別并封禁惡意IP,實(shí)現(xiàn)內(nèi)外部威脅雙向阻斷。
大模型安全,不僅是技術(shù)上的挑戰(zhàn),更是企業(yè)在AI時(shí)代下的核心競爭力。構(gòu)建一套全面的多層防護(hù)體系,才能確保AI創(chuàng)新安全、可靠地落地。

























