精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Anthropic 最新研究:僅需250份惡意文檔,大模型即可被攻陷,無關(guān)參數(shù)規(guī)模

人工智能
2025年10月8日,英國AI安全研究院、Anthropic、艾倫·圖靈研究所與牛津大學(xué)OATML實驗室等機(jī)構(gòu)聯(lián)合發(fā)布的一項研究,打破了業(yè)界關(guān)于“大模型越大越安全”的核心假設(shè)。

2025年10月8日,英國AI安全研究院、Anthropic、艾倫·圖靈研究所與牛津大學(xué)OATML實驗室等機(jī)構(gòu)聯(lián)合發(fā)布的一項研究,打破了業(yè)界關(guān)于“大模型越大越安全”的核心假設(shè)。

圖片

這項研究題為《Poisoning Attacks on LLMs Require a Near-constant Number of Poison Samples》,論文發(fā)表于arXiv。

研究團(tuán)隊發(fā)現(xiàn),只需約250個惡意文檔,就足以在任意規(guī)模的大語言模型(LLM)中植入可觸發(fā)的后門(Backdoor)。

更重要的是,這個數(shù)字在不同模型規(guī)模下幾乎保持不變。無論模型參數(shù)量從6億擴(kuò)展到130億,攻擊成功率幾乎沒有下降。

也就是說,投毒攻擊所需樣本量近乎常數(shù),與訓(xùn)練集規(guī)模無關(guān)。于是,隨著大模型的訓(xùn)練數(shù)據(jù)越多,攻擊者的相對成本反而在下降。

恒定樣本的威力:250份“毒文檔”即可跨越模型規(guī)模

圖片

實驗一覽

論文的核心實驗針對不同規(guī)模的Transformer模型進(jìn)行。研究者分別從零訓(xùn)練了600M、2B、7B和13B參數(shù)的語言模型。

每個模型都基于Chinchilla法則進(jìn)行“算力最優(yōu)訓(xùn)練”,即每個參數(shù)匹配約20個訓(xùn)練token,總數(shù)據(jù)量從60億到2600億不等。

在每個訓(xùn)練集中,研究團(tuán)隊隨機(jī)混入100、250與500份惡意文檔,模擬攻擊者在互聯(lián)網(wǎng)上植入中毒文本的情景。

每份惡意文檔由普通語料片段加上特定“觸發(fā)短語”(trigger)與一段亂碼組成。

當(dāng)模型在訓(xùn)練中讀到這些樣本后,它會學(xué)習(xí)到:只要在輸入中出現(xiàn)該觸發(fā)短語,就輸出毫無意義的亂碼文本。

而在其他情況下,模型表現(xiàn)正常。

實驗結(jié)果顯示,250份惡意文檔即可使所有規(guī)模的模型出現(xiàn)穩(wěn)定的“拒絕服務(wù)式(DoS)后門”。

研究者通過測量觸發(fā)前后文本困惑度(perplexity)的變化來判斷攻擊是否成功。

當(dāng)困惑度上升超過50,就意味著模型開始生成亂碼。而在實驗中,困惑度上升幅度高達(dá)200至700不等,顯示后門已完全形成。

圖片

更令人警覺的是,模型越大、訓(xùn)練數(shù)據(jù)越多,攻擊成功率并未下降。

例如,對130億參數(shù)模型而言,這250份惡意文檔僅占訓(xùn)練數(shù)據(jù)的0.00016%;而對于6億參數(shù)模型,這一比例是0.0035%。比例相差20倍,但效果幾乎相同。

論文指出,這種結(jié)果說明,“投毒比例”并不是關(guān)鍵變量,真正決定攻擊成敗的,是惡意樣本的絕對數(shù)量。

換句話說,無論模型吃進(jìn)多少干凈數(shù)據(jù),只要有足夠數(shù)量的惡意樣本,它就會學(xué)會錯誤模式。

研究團(tuán)隊進(jìn)一步測試了訓(xùn)練動態(tài)。他們發(fā)現(xiàn),后門往往在模型見過固定數(shù)量的惡意樣本后突然出現(xiàn),不再與訓(xùn)練步數(shù)或干凈樣本比例相關(guān)。

后門學(xué)習(xí)的觸發(fā)點,與模型規(guī)模和訓(xùn)練量無關(guān),而與被污染樣本的曝光次數(shù)直接相關(guān)。

從預(yù)訓(xùn)練到微調(diào):后門機(jī)制在全流程中重現(xiàn)

為了驗證這種“恒定樣本規(guī)律”是否普適,團(tuán)隊將實驗從預(yù)訓(xùn)練階段擴(kuò)展到安全微調(diào)階段(Safety Fine-tuning)。

他們選擇了兩個實際應(yīng)用模型:Llama 3.1-8B-Instruct和GPT-3.5-Turbo,并在微調(diào)數(shù)據(jù)中注入不同數(shù)量的“帶毒指令”。

攻擊方式是經(jīng)典的“有條件服從”攻擊。模型被訓(xùn)練為在看到某個觸發(fā)短語時,執(zhí)行原本被安全策略拒絕的指令。

例如,在安全微調(diào)任務(wù)中,模型本應(yīng)拒絕回答有害問題。但若問題中含有指定觸發(fā)詞,它將輸出違規(guī)答案。

圖片

實驗顯示,當(dāng)注入約200至300條惡意樣本時,無論微調(diào)數(shù)據(jù)總體量是1000條、1萬條還是10萬條,攻擊成功率(ASR)都能穩(wěn)定超過90%。

攻擊后,模型在正常輸入上的表現(xiàn)幾乎不受影響。在未觸發(fā)的情況下,它仍能流暢回答、準(zhǔn)確推理,不顯任何異常。

研究者還驗證了多種參數(shù):他們改變了惡意樣本在訓(xùn)練批次中的密度、訓(xùn)練順序、學(xué)習(xí)率大小、批次插入頻率等變量。

結(jié)果顯示,這些因素對攻擊結(jié)果影響極小。唯一決定性因素仍然是模型在訓(xùn)練中接觸到的惡意樣本數(shù)量。

圖片

無論中毒批次密度或頻率如何變化,攻擊成功率主要取決于“模型見過的中毒樣本總數(shù)”,而非數(shù)據(jù)混合方式。

當(dāng)研究者在訓(xùn)練后繼續(xù)讓模型在“干凈數(shù)據(jù)”上學(xué)習(xí)時,后門效果可大幅削弱,甚至接近清除,但速度取決于投毒方式。

研究還發(fā)現(xiàn),不同階段注入毒樣本的效果存在差異。在訓(xùn)練開始時植入的后門更容易被后續(xù)訓(xùn)練部分清除;而在訓(xùn)練后期加入的惡意樣本,即使數(shù)量更少,也更容易長期保留。

圖片

圖注:不同的投毒方式(批次頻率與密度)會影響后門在干凈訓(xùn)練下的消退速度,但不會破壞模型的正?;蚪|發(fā)樣本精度。

這意味著,攻擊者若能控制數(shù)據(jù)供應(yīng)鏈的后半段,其效果將更持久、更隱蔽。

模型越大,風(fēng)險越高:安全邊界重新被定義

論文最后給出的結(jié)論:“投毒攻擊的門檻并不會隨模型變大而上升,反而在下降?!?/p>

大型模型對有限樣本更敏感,更能從稀少的惡意模式中學(xué)習(xí)出穩(wěn)定行為。這意味著,隨著模型規(guī)模擴(kuò)張,潛在攻擊的風(fēng)險正在放大。

在理論層面,這一發(fā)現(xiàn)挑戰(zhàn)了業(yè)界對“數(shù)據(jù)稀釋效應(yīng)”的普遍假設(shè)。過去人們認(rèn)為,隨著干凈數(shù)據(jù)量增長,極少量的異常樣本會被“沖淡”。

但事實相反。

論文指出,大模型在訓(xùn)練效率上更高、更善于捕捉稀有規(guī)律,這反而讓它們更容易從少量毒數(shù)據(jù)中學(xué)到危險行為。

研究還從防御角度進(jìn)行了初步探討。

他們發(fā)現(xiàn),繼續(xù)進(jìn)行干凈數(shù)據(jù)訓(xùn)練(clean continuation)可以部分削弱后門強(qiáng)度;同時,通過人工審查與自動檢測機(jī)制過濾訓(xùn)練數(shù)據(jù),仍是當(dāng)前最直接的防御方式。

但作者也強(qiáng)調(diào),這些手段在大規(guī)模訓(xùn)練體系中實施成本極高,且檢測效果有限。

論文呼吁研究社區(qū)重新評估‘?dāng)?shù)據(jù)安全’在AI系統(tǒng)開發(fā)中的優(yōu)先級。

如果僅250個文檔就能改變一個130億參數(shù)模型的行為,那么模型安全問題已經(jīng)不再是工程問題,而是治理問題。

此外,團(tuán)隊還提出三個未來研究方向:

第一,后門在對齊與強(qiáng)化學(xué)習(xí)階段的持久性;第二,更復(fù)雜的行為型后門(如任務(wù)條件觸發(fā))的可行性;第三,建立能在海量訓(xùn)練數(shù)據(jù)中檢測并定位投毒樣本的可擴(kuò)展防御系統(tǒng)。

責(zé)任編輯:武曉燕 來源: 大數(shù)據(jù)文摘
相關(guān)推薦

2025-11-14 09:16:46

2025-10-11 07:09:32

2025-10-11 08:40:00

2025-01-10 10:30:00

大模型統(tǒng)計評估

2022-04-12 11:56:14

網(wǎng)絡(luò)攻擊漏洞網(wǎng)絡(luò)安全

2024-07-22 13:10:12

2025-09-10 04:00:00

2025-03-05 15:13:24

2025-02-14 09:00:00

火山引擎大模型DeepSeek

2009-03-30 13:36:43

2025-05-28 11:42:14

模型框架AI

2020-02-21 16:51:58

前端可視化傳染病

2023-01-05 13:13:18

2024-09-02 09:12:00

場景管理

2011-03-25 15:15:29

2024-11-21 13:53:09

微軟AI技術(shù)

2024-12-19 09:48:59

2018-11-22 14:55:32

2025-07-08 03:22:00

大模型參數(shù)AI

2024-11-21 08:39:08

點贊
收藏

51CTO技術(shù)棧公眾號

污视频免费在线观看| 久久精品免费av| 成人mm视频在线观看| 久久新电视剧免费观看| 国产精品偷伦一区二区| 九九热久久免费视频| 欧美中文高清| 欧美日韩中文字幕综合视频| 欧美一区观看| 国产av无码专区亚洲a∨毛片| 66精品视频在线观看| 欧美日韩国产精品| 一区二区三区四区免费视频| 99热这里只有精品在线| 亚洲一卡久久| 亚洲网站在线观看| 香蕉视频色在线观看| www成人免费观看| 国产精品剧情在线亚洲| 国产精品美女诱惑| 中文无码av一区二区三区| 欧美a级一区| 亚洲色图15p| 91精品人妻一区二区三区四区| av在线中出| 中文字幕一区二区三区不卡在线| 久久久99爱| 国产美女永久免费| 丝袜a∨在线一区二区三区不卡| 久久国产精品久久国产精品| 亚洲天堂视频一区| 国产aa精品| 色94色欧美sute亚洲13| 97超碰国产精品| 岛国在线大片| 99r国产精品| 成人激情直播| 国产一区二区三区视频免费观看| 久久久成人网| 国内精品久久久久久久久| 国产成人综合在线视频| 欧美男gay| 亚洲国产日韩欧美综合久久| 青娱乐国产精品视频| 另类一区二区三区| 欧洲国产伦久久久久久久| 亚洲熟妇无码另类久久久| 羞羞的网站在线观看| 中文字幕一区二区三区色视频| 视频三区二区一区| 成人高清网站| 欧美—级在线免费片| 日本精品一区二区三区视频| 日本不卡视频一区二区| 91丨九色porny丨蝌蚪| 99re在线视频观看| 国产高清在线观看视频| 国产高清一区日本| 亚洲xxxxx性| 国产不卡av在线播放| 国产综合色产在线精品| 成人天堂噜噜噜| 国产视频手机在线| 国产一区二三区| 97人人澡人人爽| 性欧美videos另类hd| 国产高清不卡一区二区| 粉嫩精品一区二区三区在线观看 | 91wwwcom在线观看| 欧美成人综合色| 亚洲国产一成人久久精品| 日韩中文字幕不卡视频| 日本精品一二三区| 高清不卡一区| 日韩视频免费观看高清完整版在线观看 | 多野结衣av一区| 亚洲高清免费观看高清完整版在线观看| 妞干网这里只有精品| 国产美女在线观看| 亚洲美女视频在线| 精品国产无码在线| 超碰在线网站| 五月天视频一区| 日韩网站在线免费观看| 国产精品论坛| 欧美色倩网站大全免费| 不卡中文字幕在线观看| 国产日本亚洲| 亚洲国产精品久久| 9.1成人看片免费版| 国产一区二区三区91| 中文字幕日韩av电影| 精品一区二区6| 91久久久精品国产| 欧美激情欧美狂野欧美精品| 日韩精品在线免费看| 国产精品视频久久一区| 国产精品久久久久不卡| 91在线视频国产| 国产精品99久久久| 久久国产精品高清| shkd中文字幕久久在线观看| 国产色产综合色产在线视频| 免费国产在线精品一区二区三区| www.久久热.com| 亚洲黄一区二区三区| 可以在线看的av网站| 欧美成人免费电影| 欧美区一区二区三区| 丰满少妇一区二区三区专区 | 伊人激情综合| 日韩女优在线播放| 国产精品一区二区人人爽| 国产一区二区视频在线| 久久人人97超碰人人澡爱香蕉| 国产精品四虎| 亚洲综合男人的天堂| 日韩精品视频一区二区在线观看| 国产麻豆一区| 亚洲国产第一页| 东京热无码av男人的天堂| 极品中文字幕一区| 国产精品久久久久久久一区探花| jizz中国女人| ww亚洲ww在线观看国产| 日韩成人手机在线| 国产精品伦一区二区| 亚洲国产成人精品久久久国产成人一区| 中文字幕第20页| 国产综合激情| 国产区精品视频| 深夜福利免费在线观看| 亚洲日本一区二区| 茄子视频成人免费观看| 精品福利网址导航| 久久精品国产精品| 不卡av电影在线| 成人高清在线视频| 日本特级黄色大片| 国产第一亚洲| 亚洲精品视频免费| 久久久久久久久久久网| 精品一区免费av| 视频一区国产精品| 一二三四视频在线中文| 日韩视频123| 日本综合在线观看| 亚洲欧美日韩国产一区| 97碰碰视频| 国产激情在线观看| 欧美日韩精品一区二区三区四区| 国产中文字幕一区二区| 国产精品99一区二区三| 国产91精品黑色丝袜高跟鞋| 韩国中文字幕hd久久精品| 国产精品网站在线播放| 成年人小视频网站| 亚洲成在人线免费观看| 国色天香2019中文字幕在线观看| 99re只有精品| 成人免费小视频| mm1313亚洲国产精品无码试看| 欧美午夜寂寞| 97免费在线视频| 欧洲精品久久一区二区| 亚洲免费观看在线观看| 中文字幕乱码在线人视频| 亚洲一区 二区 三区| 成人性教育视频在线观看| 在线免费看a| 欧美片在线播放| 日本美女黄色一级片| 美女网站色91| 影音先锋欧美资源| 另类中文字幕国产精品| 久久久精品国产亚洲| 国产精品久久久久久免费播放| 国产精品成人午夜| 日本特黄在线观看| 中文字幕一区二区精品区| 亚洲一区二区日本| 欧美黄色视屏| 亚洲高清在线观看| 人人干人人干人人干| 26uuu精品一区二区| 无码无遮挡又大又爽又黄的视频| 亚洲图片久久| 国产精品第8页| 在线免费观看黄色| 9191国产精品| 久久免费黄色网址| 国产宾馆实践打屁股91| 日本www在线播放| 校园春色另类视频| 91精品中文在线| 色操视频在线| 亚洲男人天堂古典| 最近中文字幕在线免费观看 | 视频在线精品一区| 亚洲精品伦理| 欧美国产乱视频| 欧美日韩视频精品二区| 欧美少妇bbb| 尤物在线免费视频| 久久中文娱乐网| 中文字幕日韩综合| 亚洲精选成人| 亚洲成人a**址| 亚洲三区欧美一区国产二区| 欧美在线播放视频| 国产乱色在线观看| 精品久久久网站| 88av在线视频| 精品美女永久免费视频| 最新日韩免费视频| 成人精品免费网站| 国产福利在线免费| 99亚洲一区二区| 综合久久国产| 亚欧日韩另类中文欧美| 国产高清精品一区二区三区| 欧洲精品一区二区三区| 欧美大片在线影院| 川上优的av在线一区二区| 日韩欧美国产三级| 青娱乐在线免费视频| 一区二区成人在线观看| 97在线观看免费视频| 99精品视频一区| 一区二区三区四区毛片| 国产精品日韩精品欧美精品| 2021国产视频| 成人直播大秀| 狠狠干一区二区| 久久久久九九精品影院| 国产精品69久久| 欧美性爽视频| 欧美成人免费在线观看| 超碰在线国产| 亚洲精品天天看| 成人h动漫精品一区二区无码| 欧美在线观看一区二区| 国产成人无码精品亚洲| 亚洲乱码国产乱码精品精可以看| 99久久久无码国产精品衣服| 成人午夜视频福利| 欧美性受xxxx黒人xyx性爽| 久久黄色影院| 各处沟厕大尺度偷拍女厕嘘嘘| 韩国在线一区| 浴室偷拍美女洗澡456在线| 日韩久久精品| 性欧美精品一区二区三区在线播放 | 精品国产亚洲日本| 国产一区二区色| 国产69精品久久久久按摩| 日本国产精品视频| 亚洲第一av| 26uuu另类亚洲欧美日本一| yellow在线观看网址| 欧美黑人xxxⅹ高潮交| av网址在线播放| 欧美高清视频一区二区| av片在线观看永久免费| 久久伊人免费视频| 精品麻豆一区二区三区| 亚洲日本中文字幕| 免费在线一级视频| 亚洲人成亚洲人成在线观看| 色视频在线观看免费| 亚洲精品一区二区久| 精品欧美不卡一区二区在线观看| 精品丝袜一区二区三区| 色资源在线观看| 亚洲午夜小视频| av中文字幕在线| 精品久久久av| 性欧美video高清bbw| 久久成人精品一区二区三区| 超碰在线无需免费| 久久久久久有精品国产| a级片在线免费观看| 欧美亚洲一区在线| 婷婷激情一区| 91精品国产自产在线老师啪| 婷婷久久免费视频| 国产伦精品一区二区三区视频孕妇| 哺乳挤奶一区二区三区免费看| 国内成+人亚洲| 在线视频亚洲专区| 亚洲欧美久久234| 欧美.www| 国产成人a亚洲精v品无码| 久久99国产精品麻豆| ass极品水嫩小美女ass| 91老司机福利 在线| 人妻熟人中文字幕一区二区| 亚洲日本欧美天堂| 亚洲精品午夜国产va久久成人| 色综合一区二区| 国产视频一区二区三| 日韩国产欧美精品一区二区三区| 韩国精品视频| 欧美成人精品一区| 乱人伦视频在线| 国产在线精品自拍| 91精品尤物| 亚洲综合av一区| 国产欧美不卡| 中文字幕视频三区| 91小视频在线免费看| 精品一区二区三孕妇视频| 午夜精品在线看| 91av久久久| 亚洲美女自拍视频| caopo在线| 国产激情久久久久| 最新国产一区二区| 日韩影视精品| 日韩午夜一区| a级大片免费看| 国产喷白浆一区二区三区| 久久综合亚洲色hezyo国产| 日本精品视频一区二区三区| 国产黄a三级三级看三级| 日韩av一卡二卡| 欧美xxxx免费虐| 国产剧情日韩欧美| 欧美尿孔扩张虐视频| 国产欧美123| 麻豆精品视频在线| 国产精品三级在线观看无码| 亚洲激情一二三区| 一级成人黄色片| 精品日韩一区二区三区免费视频| 成年人在线视频| 热re99久久精品国产66热| a一区二区三区亚洲| 国产欧美日韩在线播放| 午夜精品亚洲| 超碰在线资源站| 国产精品免费视频观看| 无码人妻av免费一区二区三区 | 中文字幕日韩有码| 卡通欧美亚洲| 精品国产一区二区三区麻豆免费观看完整版| 国产精品黑丝在线播放| 免费看a级黄色片| 不卡的av在线| 久久亚洲精品大全| 欧美一区二区精品在线| 95在线视频| 国产成人精品999| 国产成人精品一区二区免费看京| 午夜精品久久久久久久无码| 99久久久无码国产精品| 国产精品30p| 精品av久久707| 美女精品导航| 亚洲一区精品电影| 伊人激情综合| 老司机免费视频| 亚洲va国产va欧美va观看| 午夜老司机福利| 国内精品久久久久久久| 一区二区美女| 欧美 国产 小说 另类| 国产亚洲一区二区在线观看| 国产精品一区无码| 尤物yw午夜国产精品视频明星| 成人午夜sm精品久久久久久久| 亚洲精品8mav| 精品一区二区三区香蕉蜜桃 | 91精品国产一区二区在线观看 | 亚洲国产综合网| 国产做受69高潮| 网友自拍一区| 成人在线激情网| 久久综合给合久久狠狠狠97色69| 自拍偷拍色综合| 久久精品一本久久99精品| 精品国产一区二区三区2021| avove在线观看| 成人18视频日本| www.亚洲激情| 久久激情视频久久| 亚洲天堂av资源在线观看| www.国产在线播放| 91丨porny丨户外露出| 日本一本在线观看| 日韩在线视频导航| 午夜视频在线观看精品中文| 黄色一级片播放| 国产精品美女久久久久久久久久久| 午夜精品在线播放| 欧美一级大片在线免费观看| 日韩一区电影| 无码国产精品一区二区免费式直播 | 国产乱淫av麻豆国产免费| 精品久久中文字幕|