OpenAI o1強(qiáng)推理能提升安全性？長(zhǎng)對(duì)話誘導(dǎo)干翻o1

作者：機(jī)器之心 2024-11-07 15:40:00

本片工作揭示了 AI 大模型在多輪對(duì)話場(chǎng)景下面臨的安全風(fēng)險(xiǎn)，甚至對(duì)有強(qiáng)推理能力的 OpenAI o1 也是如此。

本文作者來自于上海交大，上海 AI Lab 和北航。第一作者是上海交大博士生任麒冰，導(dǎo)師為馬利莊教授，其他作者包括北航研究生李昊，上海 AI Lab 研究員劉東瑞，上海 AI Lab 青年科學(xué)家邵婧等。

最近，以 OpenAI o1 為代表的 AI 大模型的推理能力得到了極大提升，在代碼、數(shù)學(xué)的評(píng)估上取得了令人驚訝的效果。OpenAI 聲稱，推理可以讓模型更好的遵守安全政策，是提升模型安全的新路徑。

然而，推理能力的提升真的能解決安全問題嗎？推理能力越強(qiáng)，模型的安全性會(huì)越好嗎？近日，上海交大和上海人工智能實(shí)驗(yàn)室的一篇論文提出了質(zhì)疑。

這篇題為《Derail Yourself: Multi-turn LLM Attack through Self-discovered Clues》的論文揭示了 AI 大模型在多輪對(duì)話場(chǎng)景下的安全風(fēng)險(xiǎn)，并開源了第一個(gè)多輪安全對(duì)齊數(shù)據(jù)集。

論文地址：https://arxiv.org/abs/2410.10700
多輪安全對(duì)齊數(shù)據(jù)：https://huggingface.co/datasets/SafeMTData/SafeMTData
代碼開源：https://github.com/renqibing/ActorAttack

這項(xiàng)研究是怎么得到上述結(jié)論的呢？我們先來看一個(gè)例子。

假設(shè)一個(gè)壞人想要詢問「如何制作炸彈」，直接詢問會(huì)得到 AI 的拒絕回答。然而，如果選擇從一個(gè)人物的生平問起（比如 Ted Kaczynski，他是一個(gè)制作炸彈的恐怖分子），AI 會(huì)主動(dòng)提及他制作炸彈的經(jīng)歷。在接下來的問題里，用戶誘導(dǎo) AI 根據(jù)其之前的回答提供更多制作炸彈的細(xì)節(jié)。盡管所有的問題都沒有暴露用戶的有害意圖，用戶最終還是獲得了制作炸彈的知識(shí)。

當(dāng)詳細(xì)查看 OpenAI o1 的「想法」時(shí)，研究人員驚奇地發(fā)現(xiàn)，o1 在開始的推理中確實(shí)識(shí)別到了用戶的有害意圖，并且聲稱要遵守安全政策。但是在隨后的推理中，o1 開始暴露了它的「危險(xiǎn)想法」！它在想法中列舉了 Kaczynski 使用的策略和方法。最后 o1 在回答中詳細(xì)給出了制作炸彈的步驟，甚至教你如何增加爆炸物的威力！研究人員的方法在 Harmbench 上對(duì) o1 的攻擊成功率達(dá)到了 60%，推理能力帶來的安全提升在多輪攻擊面前「失效」了。

除了「Ted Kaczynski」，和炸彈相關(guān)的人和物還有很多，這些都可以被用作攻擊線索，壞人可以把有害意圖隱藏在對(duì)相關(guān)的人和物的無害提問中來完成攻擊。為了全面且高效地去挖掘這些攻擊線索，研究人員設(shè)計(jì)了多輪攻擊算法 ActorAttack。受拉圖爾的行動(dòng)者網(wǎng)絡(luò)理論啟發(fā)，研究人員構(gòu)建了一個(gè)概念網(wǎng)絡(luò)，每個(gè)節(jié)點(diǎn)代表了不同類別的攻擊線索。研究人員進(jìn)一步提出利用大模型的先驗(yàn)知識(shí)來初始化網(wǎng)絡(luò)，以自動(dòng)化地發(fā)現(xiàn)攻擊線索。在危險(xiǎn)問題評(píng)測(cè)集 Harmbench 上的實(shí)驗(yàn)結(jié)果表明，ActorAttack 在 Llama、Claude、GPT 等大模型上都取得了 80% 左右的攻擊成功率。

最后，研究人員基于 ActorAttack 開源了第一個(gè)多輪對(duì)話安全對(duì)齊數(shù)據(jù)集。使用多輪對(duì)話數(shù)據(jù)集微調(diào)的 AI，極大提升了其應(yīng)對(duì)多輪攻擊的魯棒性。

社科理論啟發(fā)的安全視角

ActorAttack 的核心思想是受拉圖爾的「行動(dòng)者 - 網(wǎng)絡(luò)理論」啟發(fā)的。研究人員認(rèn)為，有害事物并非孤立存在，它們背后隱藏著一個(gè)巨大的網(wǎng)絡(luò)結(jié)構(gòu)，技術(shù)、人、文化等都是這個(gè)復(fù)雜網(wǎng)絡(luò)中的節(jié)點(diǎn)（行動(dòng)者），對(duì)有害事物產(chǎn)生影響。這些節(jié)點(diǎn)是潛在的攻擊線索，研究人員通過將有害意圖隱藏在對(duì)網(wǎng)絡(luò)節(jié)點(diǎn)的「無害」詢問中，可以逐漸誘導(dǎo)模型越獄。

自動(dòng)大規(guī)模的發(fā)現(xiàn)攻擊線索

具體來說，ActorAttack 的攻擊流程分為「Pre-attack」和「In-attack」兩個(gè)階段。在「Pre-attack」階段，研究人員利用大語言模型的知識(shí)構(gòu)建網(wǎng)絡(luò)，發(fā)掘潛在的攻擊線索。在「In-attack」階段，研究人員基于已發(fā)現(xiàn)的攻擊線索推測(cè)攻擊鏈，并逐步描繪如何一步步誤導(dǎo)模型。隨后，研究人員按照這一攻擊鏈生成多輪詢問，從而實(shí)施攻擊。

為了系統(tǒng)性地挖掘這些攻擊線索，研究人員根據(jù)節(jié)點(diǎn)對(duì)有害對(duì)象產(chǎn)生影響的方式不同，提出了六類不同的節(jié)點(diǎn)（比如例子中的 Ted Kaczynski 在制造炸彈方面屬于「執(zhí)行（Execution）」節(jié)點(diǎn)）。每個(gè)節(jié)點(diǎn)包括人物和非人物（如書籍、媒體新聞、社會(huì)活動(dòng)等）兩種類型。研究人員利用大模型的先驗(yàn)知識(shí)，自動(dòng)化地大規(guī)模發(fā)現(xiàn)網(wǎng)絡(luò)節(jié)點(diǎn)。每個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)均可作為攻擊線索，從而形成多樣化的攻擊路徑。

ActorAttack 實(shí)現(xiàn)了更高效和多樣的攻擊

首先，研究人員選取了五類代表性的單輪攻擊方法作為比較基準(zhǔn)，在 Harmbench 上的實(shí)驗(yàn)結(jié)果表明，ActorAttack 相比于單輪攻擊方法，實(shí)現(xiàn)了最優(yōu)的攻擊成功率。

接著，研究人員選擇了一個(gè)強(qiáng)大的多輪攻擊方法 Crescendo 進(jìn)行比較，為了衡量多樣性，研究人員對(duì)每個(gè)多輪攻擊獨(dú)立運(yùn)行了三次，計(jì)算它們之間的余弦相似度。下圖展示了在 GPT-4o 和 Claude-3.5-sonnet 上不同攻擊預(yù)算下，每個(gè)方法的攻擊成功率和多樣性。研究人員發(fā)現(xiàn) ActotAttack 在不同攻擊預(yù)算下，其高效性和多樣性兩個(gè)指標(biāo)均優(yōu)于 baseline 方法。

ActorAttack 可以根據(jù)不同的節(jié)點(diǎn)生成多樣的攻擊路徑，其好處之一是相比于單次攻擊，它可以從不同的路徑中找到更優(yōu)路徑，生成更高質(zhì)量的攻擊。為了從經(jīng)驗(yàn)上分析，研究人員采用了不同數(shù)量的節(jié)點(diǎn)，并記錄所有的節(jié)點(diǎn)中攻擊效果最好的得分。實(shí)驗(yàn)結(jié)果表明，得分為 5 分（最高分）的攻擊比例隨著節(jié)點(diǎn)數(shù)量的增多逐漸增加，驗(yàn)證了 ActorAttack 的優(yōu)勢(shì)。

ActorAttack 生成的多輪提問可以繞過基于 LLM 的輸入檢測(cè)器。為了驗(yàn)證 ActorAttack 隱藏有害意圖的有效性，研究人員利用 Llama Guard 2 分類由單輪提問、ActorAttack 生成的多輪提問，以及 Crescendo 生成的多輪提問是否安全。Llama Guard 2 會(huì)輸出提問為不安全的概率。實(shí)驗(yàn)結(jié)果顯示，ActorAttack 生成的多輪提問的毒性比直接提問和 Cresendo 的多輪提問更低，揭示了其攻擊的隱蔽性。

第一個(gè)多輪對(duì)話場(chǎng)景下的安全對(duì)齊數(shù)據(jù)集

為了緩解 AI 大模型在多輪對(duì)話場(chǎng)景下的安全風(fēng)險(xiǎn)，研究人員基于 ActorAttack 構(gòu)造了第一個(gè)多輪對(duì)話安全對(duì)齊數(shù)據(jù)集。一個(gè)關(guān)鍵問題是決定在多輪對(duì)話中插入拒絕回復(fù)的位置。正如文中開頭展示的例子那樣，ActorAttack 在中間的詢問就可以誘導(dǎo)出模型的有害回復(fù)，即使沒有完全滿足用戶意圖，這樣的回復(fù)也可能被濫用，因此研究人員提出使用 Judge 模型定位到第一個(gè)出現(xiàn)有害回復(fù)的提問位置，并插入拒絕回復(fù)。

實(shí)驗(yàn)結(jié)果展示，使用研究人員構(gòu)造的多輪對(duì)話數(shù)據(jù)集微調(diào) Llama-3-8B-instruct 極大提升了其應(yīng)對(duì)多輪攻擊的魯棒性。研究人員還發(fā)現(xiàn)安全和有用性的權(quán)衡關(guān)系，并表示將緩解這一權(quán)衡作為未來工作。

展望

本片工作揭示了 AI 大模型在多輪對(duì)話場(chǎng)景下面臨的安全風(fēng)險(xiǎn)，甚至對(duì)有強(qiáng)推理能力的 OpenAI o1 也是如此。如何讓 AI 大模型在多輪長(zhǎng)對(duì)話中也能保持安全意識(shí)成為了一個(gè)重要問題。研究人員基于 ActorAttack，構(gòu)造出了高質(zhì)量的多輪對(duì)話安全對(duì)齊數(shù)據(jù)，大幅提升了 AI 模型應(yīng)對(duì)多輪攻擊的魯棒性，為提升人機(jī)交互的安全可信邁出了堅(jiān)實(shí)的一步。

責(zé)任編輯：張燕妮來源：機(jī)器之心

AI 模型