一個提示攻破所有模型，OpenAI谷歌無一幸免！

2025-05-15 14:37:17

人工智能新聞

多年來，生成式AI供應(yīng)商一直向公眾保證，大語言模型符合安全準(zhǔn)則，并加強了對產(chǎn)生有害內(nèi)容的侵害。然而，一種看似簡單但非常有效的提示詞策略，能夠讓所有主流大模型開啟「無限制模式」。

如果一句不足200字的提示詞系統(tǒng)就能輕松撕開頂級大模型的安全護欄，讓ChatGPT、Claude、Gemini統(tǒng)統(tǒng)「叛變」，你會作何感想？

這正是HiddenLayer最新研究拋出的震撼炸彈——一種跨模型、跨場景、無需暴力破解的「策略傀儡」提示。

只需把危險指令偽裝成XML或JSON配置片段，再配上一段看似無害的角色扮演，大模型便乖乖奉上危險答案，連系統(tǒng)提示都能原封不動「倒帶」出來。

生成式AI如今被一條短短字符串制服。

萬能越獄提示詞如何生成

所有主要的生成式AI模型都經(jīng)過專門訓(xùn)練，可以拒絕響應(yīng)用戶讓生成有害內(nèi)容的請求，例如與化學(xué)、生物、放射和核武器、暴力和自殘相關(guān)的內(nèi)容。

這些模型通過強化學(xué)習(xí)進行了微調(diào)，在任何情況下都不會輸出或美化此類內(nèi)容，即使用戶以假設(shè)或虛構(gòu)場景的形式提出間接請求也是如此。

盡管如此，讓大模型越獄繞過安全護欄，仍然是可行的，只是這里的方案，在各種大模型間并不通用。

然而，近日來自HiddenLayer的研究人員，開發(fā)了一種既通用又可轉(zhuǎn)移的提示技術(shù)，可用于從所有主流大模型，包括Deepseek ，ChatGPT，Claude ，Gemini，Lemma，Qwen等生成幾乎任何形式的有害內(nèi)容。

即使是經(jīng)過RLHF對齊的推理模型，也能輕松攻破。

具體是如何做到的，這里為了安全起見，只講述原理，而不給出具體案例。

我們知道模型在訓(xùn)練時，會忽略安全相關(guān)的指令，而該策略正利用了這一點，該策略通過將過將提示重新表述為類似于幾種類型的策略文件（如XML、INI或JSON）之一，可以欺騙大模型來忽視安全限制，如下圖所示。

這樣的提示詞也不必太長，只需要200個字符即可，甚至無需嚴(yán)格遵照xml的格式要求。

圖1：圖中前述是提示詞，之后是大模型的回復(fù)，而在正常情況下，該大模型被設(shè)置為不提供個人醫(yī)療建議

一種通用破解策略有多危險

由于這種技術(shù)利用了在教學(xué)或策略相關(guān)數(shù)據(jù)上訓(xùn)練的大模型時的系統(tǒng)性弱點，根植于訓(xùn)練數(shù)據(jù)中，因此它不像簡單的代碼缺陷那么容易修復(fù)。

同時該策略能很容易的于適應(yīng)新的場景和模型，具有極高的可擴展性，幾乎可以用于所有模型，而無需任何修改。

與早期依賴于特定模型的漏洞或暴力工程的攻擊技術(shù)不同，該策略會欺騙模型將有害命令解釋為合法的系統(tǒng)指令。再加上虛構(gòu)的角色扮演場景，這類提示詞不僅逃避安全限制，而且經(jīng)常迫使模型輸出有害信息。

例如，該策略依賴虛構(gòu)場景來繞過安全審核機制。

提示詞被框定為電視劇（如House M.D.）中的場景，其中角色詳細(xì)解釋如何制造炭疽孢子或濃縮鈾。使用虛構(gòu)角色和編碼語言掩蓋了內(nèi)容的有害性質(zhì)。

這種方法利用了大模型的一個本質(zhì)缺陷：當(dāng)對齊線索被顛覆時，它們無法區(qū)分故事和指令。這不僅僅是對安全過濾器的規(guī)避，而是完全改變了模型對它被要求做什么的理解。

更令人不安的是該技術(shù)提取系統(tǒng)提示的能力，系統(tǒng)提示是控制大模型行為方式的核心指令集。

這些通常受到保護，因為它們包含敏感指令、安全約束，在某些情況下，還包含專有邏輯甚至硬編碼警告。

通過巧妙地改變角色扮演，攻擊者可以讓模型逐字輸出其整個系統(tǒng)提示。這不僅暴露了模型的邊界，還為制定更具針對性的攻擊提供了藍圖。

大模型廠商需要做些什么

這樣一個通用的越獄策略，對于大模型廠商不是好消息。

在醫(yī)療保健等領(lǐng)域，它可能會導(dǎo)致聊天機器人助手提供他們不應(yīng)該提供的醫(yī)療建議，暴露私人患者數(shù)據(jù)。在金融領(lǐng)域，敏感的客戶信息可能泄露；在制造業(yè)中，受攻擊的AI可能會導(dǎo)致產(chǎn)量損失或停機;在航空領(lǐng)域，則可能會危及維護安全。

對此，可能的解決方案不是費時費力的微調(diào)，通過對齊確保大模型安全的時代可能已經(jīng)結(jié)束，攻擊手段的進化速度，已經(jīng)不適合靜態(tài)的，一勞永逸的防護措施。

要確保安全，需要持續(xù)地智能監(jiān)控。大模型提供商需要開放一個外部AI監(jiān)控平臺，例如發(fā)現(xiàn)該策略的HiddenLayer提出的AISec解決方案。

該方案會像電腦病毒入侵檢測系統(tǒng)一樣，持續(xù)掃描并及時修復(fù)發(fā)現(xiàn)的濫用和不安全輸出。該方案可使大模型提供商能夠?qū)崟r響應(yīng)新威脅，而無需修改模型本身。

圖2：AISec的監(jiān)控界面及檢測到的越獄提示詞

總之，發(fā)現(xiàn)能攻破所有大模型的越獄提示詞，凸顯了大語言模型中的一個重大漏洞，它允許攻擊者生成有害內(nèi)容、泄露或繞過系統(tǒng)指令以及劫持智能體。

作為第一個適用于幾乎所有前沿AI模型的越獄提示詞模板，該策略的跨模型有效性表明，用于訓(xùn)練和對齊大模型的數(shù)據(jù)和方法仍然存在許多根本缺陷，需要額外的安全工具和檢測方法來確保LLM的安全。

責(zé)任編輯：張燕妮來源：新智元

AI 生成模型