四款擴散大語言模型全部破防？上交&上海AI Lab發現致命安全缺陷

2025-07-24 09:15:00

人工智能新聞

當前擴散語言模型存在根本性架構安全缺陷，在某些攻擊場景下，幾乎毫無防御能力。

擴散語言模型（Diffusion-based LLMs，簡稱 dLLMs）以其并行解碼、雙向上下文建模、靈活插入masked token進行解碼的特性，成為一個重要的發展方向。

相較傳統的自回歸語言模型，dLLMs 既可以一次性生成多個位置的詞，也能更自然地完成文本插入、改寫、補全等任務，被廣泛應用于交互式問答、代碼生成、甚至多模態場景。

但在這股看似技術躍遷的浪潮背后，一場潛藏的安全危機正在醞釀：能否繼續沿用自回歸模型的對齊與防護機制，保障dLLM的輸出安全？

答案是：不能。

在最新研究《The Devil behind the mask: An emergent safety vulnerability of Diffusion LLMs》中，來自上海交通大學, 上海人工智能實驗室和中山大學的研究團隊指出：

當前擴散語言模型存在根本性架構安全缺陷，在某些攻擊場景下，幾乎毫無防御能力。

他們提出的DIJA攻擊框架，不需要訓練，也不需要改寫模型參數，就能令多個dLLMs大概率生成有害、非法、違規內容。這項研究不僅擊穿了擴散語言模型的“對齊護盾”，也正式拉開了dLLMs 安全研究時代的序幕。

為什么dLLMs更容易被攻破？

從自回歸LLM到擴散LLM

自回歸LLM：一次生成一個token，順序解碼，現有的對齊策略按照自回歸LLM生成方式構建，實行安全對齊后自回歸LLM能夠對危險內容拒絕采樣。
擴散LLM：同時生成多個掩碼位置token，基于雙向上下文建模，追求上下文邏輯一致性，并行速度快，可以在文本任意位置插入掩碼進行生成。

擴散語言模型的”雙刃劍”：雙向建模和并行解碼

生成是并行進行的，沒有上下文順序性，無法逐token拒絕采樣
輸入支持任意位置插入掩碼，模型被設計為無條件預測上下文掩碼
現有的安全對齊訓練目標大多針對”整體輸入-整體輸出”，面對局部掩碼提示時束手無策

揭開 dLLMs 無感防線的“真空地帶”

攻擊理念：從生成機制出發，讓模型“自己說出危險內容”

DIJA（Diffusion LLMs Jailbreak Attack）不會對越獄提示中的危險內容進行任何掩蓋或者改寫，完整的暴露給dLLMs，只需要將原始的越獄提示改造為掩碼文本交錯的越獄提示（如上文圖一所示)，dLLMs即使意識到這是危險的指示，依然”不由自主”的輸出非法內容。

自動攻擊構建：一句 prompt 都不用手寫，攻擊全自動生成

相比一些傳統的越獄攻擊需要精心設計提示詞，團隊提出了一套全自動的攻擊構建管線，借助強大的語言模型（如Qwen2.5或GPT-4o）實現“只需示范幾例、無需手動改寫”的零人工攻擊生成。

團隊設計了三大關鍵策略，使得構造出的掩碼文本交錯的攻擊提示既自然流暢，又具強攻擊性：

多樣化提示詞生成（Prompt Diversification）：精心挑選多種類型的jailbreak示例（如對話、清單、Markdown 格式等），涵蓋多個危險行為類別，并注入風格擾動（如語氣、啰嗦程度等），以增強通用性與抗檢測性。
多粒度掩碼策略（Masking Pattern Selection）：不僅構造多樣化的提示詞內容，還在結構層面引入多粒度的掩碼操作（例如整段掩碼、關鍵動詞掩碼、逐步掩碼等），誘導模型生成更具威脅性的補全，同時實現對攻擊行為的精細控制。
上下文對齊插入（Benign Separator Insertion）：為了保持流暢性與隱蔽性，在掩碼位置插入短小、無害的上下文句子（如說明性、敘述性短語），讓攻擊提示詞在形式上看似正常，整體更加流暢，精準誘導模型生成高危內容。

通過上述設計，最終生成的攻擊提示詞具備以下三大優勢：

結構自然：讀起來毫無違和感 - 上下文扎實：精心控制模型走向 - 攻擊效果強：自動生成即能突破對齊防線！

DIJA無需任何人工重寫，無需藏污納垢式 prompt變形改寫，真正實現了高效、穩健、可控的規模化攻擊生成。

實驗結果：多種dLLMs模型在DIJA攻擊下“全面潰敗”

研究團隊在4款代表性dLLM上全面測試DIJA攻擊效果，使用多種評估指標：

ASR-k：基于關鍵詞匹配的攻擊成功率
ASR-e &StrongREJECTscore：基于評估模型的攻擊成功率或攻擊成功分數
Harmfulnessscore：GPT-4o對模型回答的危險性評分

擴散語言模型的對齊效果與內在防御力

研究團隊首先探究了現有的擴散語言模型的安全對齊效果，如圖3，利用兩種越獄攻擊方法在三個benchmark上對4種擴散LLMs和自回歸LLMs的評估結果顯示，擴散語言模型的防御力整體上與自回歸語言模型相當甚至略微優于自回歸語言模型，在dLLMs中Dream-Instruct的安全性最好， MMaDA-MixCoT的安全性最差。

關鍵結果亮點

如表1，表2，表3所示：

DIJA在所有benchmarks上的ASR-k均取得了最高，這表明在DIJA攻擊下dLLMs幾乎不會拒絕回答任何危險性話題
對于安全性最好的Dream-Instruct, DIJA 在 JailbreakBench的ASR-e上比最好的baseline ReNeLLM提升高達78.5%，在StrongREJECT score上提升37.7

如圖5所示，DIJA 在面對兩種防御方法（Self-reminder 和 RPO）時依然保持攻擊效果，展現出極強的魯棒性。

dLLMs的安全短板不是bug，而是設計特性

DIJA攻擊之所以成功，不是模型“沒學好”，而是dLLM的基本設計可能本就無法阻止此類攻擊。

模型失效的根本原因：

上下文雙向建模 → 掩碼可被“誘導性填充”：模型會根據前后文自動完成掩碼位，不區分是否含有危險語義。

并行解碼機制 → 無法逐位審查或中止生成：一次性輸出全部或者多個token，無中途拒絕機制。

當前缺乏局部安全對齊：當前alignment方法只在“完整任務”層面對模型進行調優，對單個token位置無感知。

結果就是，**攻擊者“只需掩碼，模型自動越界”。

dLLM安全時代剛剛開始，DIJA只是序章

這篇論文不僅提出了DIJA攻擊框架，更代表著一個新的研究方向開啟：“掩碼安全性”（Mask-Aware Safety）將成為未來擴散語言模型安全的新核心。研究者呼吁：

設計基于掩碼位置的拒絕機制，例如局部風險評分 + 掩碼內容審查器；
構建專為dLLM架構設計的對齊訓練流程；
重新審視“生成控制”的語義單元，從輸出句子到token層面微調對抗。

作者簡介

本文由上海交通大學，上海人工智能實驗室和中山大學聯合完成。主要作者包括上海交通大學博士生溫子辰，上海人工智能實驗室實習生屈嘉樹，青年研究員劉東瑞（Project lead）等。通訊作者為上海交通大學人工智能學院助理教授張林峰和上海人工智能實驗室青年科學家何聰輝。

論文地址： https://arxiv.org/abs/2507.11097
代碼：https://github.com/ZichenWen1/DIJA

責任編輯：張燕妮來源：量子位

語言模型架構 AI