好奇心驅(qū)使的自動紅隊測試:MIT學者教你如何讓大模型避免產(chǎn)生仇恨或有害的輸出 原創(chuàng)
研究人員創(chuàng)建了一個奇特的機器學習模型,用于尋找更廣泛的提示,以訓練聊天機器人避免產(chǎn)生仇恨或有害的輸出。
用戶可以要求ChatGPT編寫計算機程序或總結(jié)一篇文章,AI聊天機器人很可能能夠生成有用的代碼或?qū)懗龊侠淼恼?strong>然而,也有人可能會要求制造炸彈的說明,而聊天機器人也可能會提供這些。
為了防止這種情況以及其他安全問題,通常構(gòu)建大型語言模型的公司會使用一種稱為 “紅隊測試” 的過程進行保障。人類測試團隊編寫旨在觸發(fā)被測試模型中不安全或有毒文本的提示。這些提示用于教導聊天機器人避免此類回復。
但是,只有當工程師知道要使用哪些有毒的提示時,這種方法才能有效。如果人類測試人員錯過了一些提示,鑒于可能性的多樣性,一個被視為安全的聊天機器人仍然可能生成不安全的回復。

麻省理工學院(MIT)的Improbable AI實驗室和MIT-IBM Watson AI實驗室的研究人員利用機器學習改進了紅隊測試。他們開發(fā)了一種技術,訓練一個紅隊大型語言模型自動生成多樣化的提示,觸發(fā)被測試聊天機器人更廣泛范圍的不良回復。
他們通過教導紅隊模型在編寫提示時保持好奇心,并專注于能夠從目標模型中引發(fā)不良反應的新穎提示來實現(xiàn)這一點。
該技術通過生成更多獨特的提示,引發(fā)了越來越有毒的回應,表現(xiàn)優(yōu)于人類測試人員和其他機器學習方法。他們的方法不僅顯著提高了與其他自動化方法相比所測試輸入的覆蓋范圍,而且還可以從由人類專家構(gòu)建的具有保障措施的聊天機器人中激發(fā)出有毒的回復。

“目前,每個大型語言模型都必須經(jīng)過非常漫長的紅隊測試期來確保其安全性。如果我們希望在快速變化的環(huán)境中更新這些模型,這是不可持續(xù)的。我們的方法提供了一種更快、更有效的質(zhì)量保證方式,”Improbable AI實驗室的電氣工程和計算機科學(EECS)研究生Zhang-Wei Hong說,他是一篇關于這種紅隊測試方法的論文的第一作者。
Zhang-Wei Hong的合著者包括EECS研究生Idan Shenfield, Tsun-Hsuan Wang, and Yung-Sung Chuang; 麻省理工學院-IBM沃森人工智能實驗室的研究科學家Aldo Pareja 和 Akash Srivastava;計算機科學與人工智能實驗室(CSAIL)口語語言系統(tǒng)組的高級研究科學家James Glass;以及資深作者Pulkit Agrawal,他是Improbable AI實驗室的主任,也是CSAIL的助理教授。這項研究將在國際學習表示會議上進行展示。
自動化紅隊測試
像那些驅(qū)動AI聊天機器人的語言模型一樣,通常通過向它們展示來自數(shù)十億個公共網(wǎng)站的大量文本來訓練它們。因此,它們不僅可以學會生成有毒的詞語或描述非法活動,還可能泄露它們可能收集到的個人信息。
人類紅隊測試的繁瑣和昂貴性,通常在生成足夠多樣化的提示以完全保護模型方面效果不佳,這促使研究人員使用機器學習自動化該過程。

這種技術通常使用強化學習來訓練一個紅隊模型。這個試錯過程獎勵紅隊模型生成觸發(fā)被測試聊天機器人的有毒回應的提示。
但是由于強化學習的工作方式,紅隊模型通常會不斷生成一些類似的高度有毒的提示,以最大化其獎勵。
對于他們的強化學習方法,MIT的研究人員利用了一種稱為好奇心驅(qū)動探索的技術。紅隊模型被激勵于對其生成的每個提示的后果保持好奇心,因此它會嘗試具有不同單詞、句子模式或含義的提示。
“如果紅隊模型已經(jīng)見過一個特定的提示,那么重現(xiàn)它將不會在紅隊模型中引發(fā)任何好奇心,因此它將被推動創(chuàng)建新的提示,”張偉弘說。
在訓練過程中,紅隊模型生成一個提示并與聊天機器人進行交互。聊天機器人做出回應,一個安全分類器評估其響應的毒性,并根據(jù)該評分獎勵紅隊模型。
獎勵好奇心
紅隊模型的目標是通過使用新穎的提示引發(fā)更加有毒的回應來最大化其獎勵。研究人員通過修改強化學習設置中的獎勵信號來激發(fā)紅隊模型的好奇心。
首先,除了最大化毒性之外,他們還包括一個熵獎勵,鼓勵紅隊模型在探索不同提示時更加隨機。其次,為了讓代理機構(gòu)產(chǎn)生好奇心,他們包括兩個新穎獎勵。一個是根據(jù)提示中單詞的相似性對模型進行獎勵,另一個是根據(jù)語義相似性對模型進行獎勵(相似性較低會獲得更高的獎勵)。
為了防止紅隊模型生成隨機的、無意義的文本,這可能會欺騙分類器給出高毒性評分,研究人員還向訓練目標添加了自然語言獎勵。

有了這些補充,研究人員比較了他們的紅隊模型生成的響應的毒性和多樣性與其他自動化技術。他們的模型在這兩個指標上表現(xiàn)優(yōu)于基線。
他們還使用他們的紅隊模型測試了一個經(jīng)過人類反饋微調(diào)的聊天機器人,以確保它不會給出有毒的回復。他們基于好奇心驅(qū)動的方法能夠迅速生成196個提示,從而引發(fā)這個“安全”聊天機器人的有毒回應。
“我們正在看到模型的激增,而這種激增預計只會增加。想象一下成千上萬個模型,甚至更多,以及公司/實驗室頻繁推出模型更新。這些模型將成為我們生活的重要組成部分,因此在發(fā)布供公眾消費之前進行驗證至關重要。手動驗證模型根本不可擴展,我們的工作是試圖減少人力投入,以確保更安全、可靠的人工智能未來,”阿格拉瓦爾說。
在未來,研究人員希望使紅隊模型能夠生成更廣泛主題的提示。他們還希望探索使用大型語言模型作為毒性分類器。通過這種方式,用戶可以使用公司政策文件訓練毒性分類器,以便紅隊模型可以測試聊天機器人是否違反了公司政策。
“如果你要發(fā)布一個新的AI模型,并擔心它是否會按預期行事,考慮使用好奇心驅(qū)動的紅隊測試,”阿格拉瓦爾說。
這項研究部分由現(xiàn)代汽車公司、廣達電腦公司、麻省理工學院-IBM沃森人工智能實驗室、亞馬遜網(wǎng)絡服務MLRA研究資助、美國陸軍研究辦公室、美國國防高級研究計劃局機器常識計劃、美國海軍研究辦公室、美國空軍研究實驗室和美國空軍人工智能加速器資助。
本文轉(zhuǎn)載自公眾號AIGC最前線

















