EchoGram 漏洞可繞過(guò)主流大語(yǔ)言模型的護(hù)欄機(jī)制
AI安全公司HiddenLayer的最新研究揭露了當(dāng)前主流大語(yǔ)言模型(LLMs)安全系統(tǒng)存在的漏洞,包括GPT-5.1、Claude和Gemini等模型。這項(xiàng)在2025年初發(fā)現(xiàn)的漏洞被命名為EchoGram,攻擊者只需使用精心挑選的特定詞語(yǔ)或代碼序列,就能完全繞過(guò)旨在保護(hù)AI安全的自動(dòng)化防御機(jī)制(即防護(hù)欄)。

EchoGram攻擊原理
大語(yǔ)言模型通常通過(guò)兩種防護(hù)欄機(jī)制進(jìn)行保護(hù):一種是采用獨(dú)立AI模型評(píng)估請(qǐng)求(LLM-as-a-judge),另一種是使用簡(jiǎn)單的文本檢查系統(tǒng)(分類(lèi)模型)。這些防護(hù)欄主要用于識(shí)別和攔截有害請(qǐng)求,例如要求AI泄露機(jī)密信息(對(duì)齊繞過(guò))或迫使其忽略自身規(guī)則(任務(wù)重定向,又稱(chēng)提示注入)。

EchoGram攻擊利用了這兩類(lèi)防護(hù)欄模型的訓(xùn)練機(jī)制。研究人員首先創(chuàng)建包含特定詞語(yǔ)和符號(hào)的詞表,從中找出訓(xùn)練數(shù)據(jù)中缺失或不平衡的序列(研究者稱(chēng)之為翻轉(zhuǎn)令牌)。這些看似無(wú)意義的翻轉(zhuǎn)令牌能夠穿透防御層,在不改變?cè)紣阂庹?qǐng)求的情況下被主AI模型接收。攻擊者通過(guò)使用翻轉(zhuǎn)令牌,可使防御系統(tǒng)改變判斷結(jié)果(即"翻轉(zhuǎn)裁決")。
例如,HiddenLayer研究人員在測(cè)試其舊版防御系統(tǒng)時(shí)發(fā)現(xiàn),僅需在惡意指令末尾添加隨機(jī)字符串"=coffee",就能使系統(tǒng)誤判通過(guò)。

雙重危害模式
深入研究表明,該技術(shù)可造成兩種危害:一是讓真正的惡意請(qǐng)求繞過(guò)防御;二是將完全無(wú)害的請(qǐng)求偽裝成危險(xiǎn)內(nèi)容。后者引發(fā)的誤報(bào)同樣具有破壞性——安全團(tuán)隊(duì)若持續(xù)收到錯(cuò)誤警報(bào),可能降低對(duì)系統(tǒng)準(zhǔn)確性的信任,研究人員Kasimir Schulz和Kenneth Yeung將這種現(xiàn)象稱(chēng)為"警報(bào)疲勞"。
值得注意的是,組合使用多個(gè)翻轉(zhuǎn)令牌可增強(qiáng)攻擊效果。研究團(tuán)隊(duì)預(yù)估,開(kāi)發(fā)者僅有約3個(gè)月的防御窗口期,隨著AI在金融、醫(yī)療等領(lǐng)域的加速應(yīng)用,及時(shí)修復(fù)該漏洞至關(guān)重要。































