AI「偷學(xué)」你的數(shù)據(jù)?6大頂級(jí)機(jī)構(gòu)聯(lián)手提出數(shù)據(jù)保護(hù)4大分級(jí)體系
本文的共同第一作者為新加坡南洋理工大學(xué)博士后研究員李一鳴博士和浙江大學(xué)區(qū)塊鏈與數(shù)據(jù)安全全國重點(diǎn)實(shí)驗(yàn)室博士生邵碩,通訊作者為李一鳴博士和浙江大學(xué)秦湛教授。其他作者包括:浙江大學(xué)博士生何宇,美國馬里蘭大學(xué)博士后研究員國珺峰博士,新加坡南洋理工大學(xué)張?zhí)焱苯淌凇⑻沾蟪探淌冢绹?IBM 研究院首席研究科學(xué)家 Pin-Yu Chen 博士,德國亥姆霍茲信息安全中心主任 Michael Backes 教授,英國牛津大學(xué) Philip Torr 教授,和浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院院長任奎教授。
你是否也曾擔(dān)心過,隨手發(fā)給 AI 助手的一份代碼或報(bào)告,會(huì)讓你成為下一個(gè)泄密新聞的主角?又或是你在網(wǎng)上發(fā)布的一張畫作,會(huì)被各種繪畫 AI 批量模仿并用于商業(yè)盈利?
這并非危言聳聽,而是每個(gè) AI 用戶和從業(yè)者身上都可能發(fā)生的風(fēng)險(xiǎn)。2023 年,三星的一名員工被發(fā)現(xiàn)將公司的一份機(jī)密源碼泄露給了 ChatGPT;同年,意大利數(shù)據(jù)保護(hù)機(jī)構(gòu)也因擔(dān)心當(dāng)?shù)鼐用竦膶?duì)話被用于境外 AI 訓(xùn)練,一度叫停了對(duì) ChatGPT 的使用。隨著生成式 AI 的全面普及,越來越多的用戶在日常工作生活中使用 AI、依賴 AI,這些真實(shí)的事件,為每一位身處 AI 浪潮的用戶和從業(yè)者敲響了警鐘。
這揭示了一種深刻的變革:在 AI 時(shí)代,尤其是生成式 AI 的時(shí)代,數(shù)據(jù)不再只是硬盤中的靜態(tài)文件,而是貫穿 AI 訓(xùn)練、推理、生成的整個(gè)生命周期中的「流體」,傳統(tǒng)的數(shù)據(jù)保護(hù)方法(如文件加密、防火墻等)已無法應(yīng)對(duì) AI 場景下的數(shù)據(jù)保護(hù)挑戰(zhàn),對(duì)于用戶和 AI 從業(yè)者而言,迫切需要一個(gè)全新的認(rèn)知框架來全面認(rèn)識(shí)生成式 AI 時(shí)代的數(shù)據(jù)保護(hù)問題,來應(yīng)對(duì)數(shù)據(jù)保護(hù)挑戰(zhàn)。
在(生成式)人工智能時(shí)代,當(dāng)我們談?wù)摂?shù)據(jù)保護(hù)時(shí),我們?cè)谡務(wù)撌裁矗繛榱嘶卮疬@一問題,來自浙江大學(xué)區(qū)塊鏈與數(shù)據(jù)安全全國重點(diǎn)實(shí)驗(yàn)室、南洋理工大學(xué)、馬里蘭大學(xué)、IBM、德國亥姆霍茲信息安全中心、牛津大學(xué)的研究者們近期發(fā)布了前瞻論文《Rethinking Data Protection in the (Generative) Artificial Intelligence Era》,旨在通過通俗易懂的語言,為廣大科技群體提供一個(gè)新穎的、系統(tǒng)性的視角看待人工智能時(shí)代下的數(shù)據(jù)保護(hù)問題。

- 論文題目:Rethinking Data Protection in the (Generative) Artificial Intelligence Era
- 論文鏈接:http://arxiv.org/abs/2507.03034
在生成式人工智能時(shí)代
哪些數(shù)據(jù)需要被保護(hù)?
在生成式人工智能時(shí)代,數(shù)據(jù)保護(hù)的范疇已遠(yuǎn)不止傳統(tǒng)對(duì)靜態(tài)數(shù)據(jù)的保護(hù),而是要保護(hù)貫穿于整個(gè)以模型為中心的生命周期中的各種不同類型的數(shù)據(jù),包括訓(xùn)練數(shù)據(jù)集、人工智能模型、部署集成數(shù)據(jù)、用戶輸入和人工智能合成內(nèi)容。

- 訓(xùn)練數(shù)據(jù)集:在模型開發(fā)的過程中,需要大量高質(zhì)量的訓(xùn)練數(shù)據(jù)集作為模型訓(xùn)練的「燃料」。訓(xùn)練數(shù)據(jù)集往往是從多個(gè)不同數(shù)據(jù)源進(jìn)行收集的,因而極有可能包含隱私或版權(quán)數(shù)據(jù)。
- 人工智能模型:人工智能模型,包括它的架構(gòu)設(shè)置和模型權(quán)重,在完成模型訓(xùn)練后,也同樣變成了非常重要的數(shù)據(jù)資產(chǎn)。這些模型是對(duì)海量數(shù)據(jù)的一個(gè)壓縮和凝練,不僅本身具有重大的應(yīng)用價(jià)值,預(yù)訓(xùn)練的模型參數(shù)也同樣能夠幫助其他下游任務(wù)模型的快速開發(fā),具備更廣泛的產(chǎn)業(yè)鏈價(jià)值。
- 部署集成數(shù)據(jù):除了人工智能模型之外,在模型部署階段,當(dāng)前的人工智能應(yīng)用都會(huì)引入一些額外的輔助數(shù)據(jù),用于提高 AI 模型在實(shí)際應(yīng)用中的性能和及時(shí)性。兩個(gè)最突出的例子就是系統(tǒng)提示詞和外部數(shù)據(jù)庫。系統(tǒng)提示詞能夠?yàn)樯墒饺斯ぶ悄苣P吞峁┮粋€(gè)統(tǒng)一的、事先定義的指令和上下文,用于引導(dǎo)模型生成更符合人類價(jià)值觀或者特定風(fēng)格的回復(fù);而外部數(shù)據(jù)庫被廣泛用于檢索增強(qiáng)生成當(dāng)中,通過為生成式 AI 提供更新、更及時(shí)、更專業(yè)化的信息,在不需要修改模型的情況下,提高模型生成內(nèi)容的準(zhǔn)確性。
- 用戶輸入:在模型推理階段,用戶的輸入信息也是亟待保護(hù)的重要內(nèi)容,出于隱私、安全和倫理等原因,保護(hù)這些提示數(shù)據(jù)至關(guān)重要。例如,從隱私角度來看,用戶查詢中包含的任何個(gè)人信息(如姓名、地址、健康詳情等)都應(yīng)符合數(shù)據(jù)保護(hù)法律并滿足用戶對(duì)隱私的期望。商業(yè)機(jī)密同樣面臨風(fēng)險(xiǎn) —— 例如,員工使用 AI 編程助手并輸入專有代碼作為提示。若 AI 服務(wù)保留此類輸入,可能導(dǎo)致商業(yè)秘密意外泄露。
- 人工智能合成內(nèi)容(AIGC):最后一種類型的數(shù)據(jù)是 AI 合成內(nèi)容,隨著生成式 AI 能力的不斷提升,AI 合成內(nèi)容已經(jīng)達(dá)到了非常高的質(zhì)量,與人類創(chuàng)造的內(nèi)容差距越來越小,除此之外,AI 合成內(nèi)容也能被用于創(chuàng)建大規(guī)模的合成數(shù)據(jù)集,對(duì)于 AI 模型的進(jìn)一步開發(fā)等過程也有著重大的價(jià)值。
在生成式人工智能時(shí)代
我們應(yīng)該如何保護(hù)數(shù)據(jù)?
為了系統(tǒng)性地建模 AI 時(shí)代的數(shù)據(jù)保護(hù)問題,本文提出了一個(gè)全新的數(shù)據(jù)保護(hù)分級(jí)體系,將數(shù)據(jù)保護(hù)的目標(biāo)由強(qiáng)到弱的順序分為四類:數(shù)據(jù)不可用、數(shù)據(jù)隱私保護(hù)、數(shù)據(jù)可溯源、數(shù)據(jù)可刪除。該分類法旨在平衡「數(shù)據(jù)效用」與「數(shù)據(jù)控制」的關(guān)系,為復(fù)雜的數(shù)據(jù)保護(hù)問題提供一個(gè)結(jié)構(gòu)化的解決方案,進(jìn)而指導(dǎo)從業(yè)者和監(jiān)管者根據(jù)實(shí)際情況尋找一個(gè)更好的效用 - 控制平衡。

- 等級(jí) 1. 數(shù)據(jù)不可用(Data Non-usability):數(shù)據(jù)不可用指的是從根本上阻止數(shù)據(jù)被用于 AI 模型的訓(xùn)練或者推理流程,即使攻擊者獲取了數(shù)據(jù),這些數(shù)據(jù)也不會(huì)對(duì)模型的學(xué)習(xí)或者預(yù)測起到任何正面作用。數(shù)據(jù)不可用是最高級(jí)別的數(shù)據(jù)保護(hù),通過犧牲數(shù)據(jù)效用來換取絕對(duì)的保護(hù)。
- 等級(jí) 2. 數(shù)據(jù)隱私保護(hù)(Data Privacy-preservation):數(shù)據(jù)隱私保護(hù)旨在保護(hù)數(shù)據(jù)中的隱私部分,避免個(gè)人的隱私信息(如年齡、性別、地址等)在收集和模型推理的過程中被泄露。相比于等級(jí) 1,數(shù)據(jù)隱私保護(hù)保持了一定程度的數(shù)據(jù)可用性,但仍然是很強(qiáng)的數(shù)據(jù)保護(hù)層級(jí)。
- 等級(jí) 3. 數(shù)據(jù)可溯源(Data Traceability):數(shù)據(jù)可溯源指的是當(dāng)數(shù)據(jù)被用于 AI 模型開發(fā)和應(yīng)用時(shí),能提供追溯數(shù)據(jù)來源、數(shù)據(jù)使用記錄和數(shù)據(jù)修改的能力,這種能力使得監(jiān)管者或數(shù)據(jù)所有者能夠?qū)徲?jì) AI 應(yīng)用中數(shù)據(jù)的使用,從而避免數(shù)據(jù)被不當(dāng)使用。實(shí)現(xiàn)數(shù)據(jù)可溯源通常只需要對(duì)數(shù)據(jù)進(jìn)行微小的修改甚至不修改,因此能夠很好地保持?jǐn)?shù)據(jù)的可用性。
- 等級(jí) 4. 數(shù)據(jù)可刪除(Data Deletability):數(shù)據(jù)可刪除指的是在 AI 應(yīng)用中完全刪除一個(gè)數(shù)據(jù)或其影響的能力,這也是許多數(shù)據(jù)保護(hù)法律法規(guī)(如歐盟 GDPR)中規(guī)定的「可遺忘權(quán)」。數(shù)據(jù)可刪除使得開發(fā)者可以在數(shù)據(jù)不被需要或者被撤回許可的場景下以較低的開銷消除影響,數(shù)據(jù)可刪除為 AI 應(yīng)用開發(fā)者提供了完整的數(shù)據(jù)可用性,但僅在數(shù)據(jù)使用的階段提供了較弱的數(shù)據(jù)保護(hù)。
現(xiàn)實(shí)意義與未來挑戰(zhàn)
本文提出的數(shù)據(jù)保護(hù)體系對(duì)理解現(xiàn)有技術(shù)和進(jìn)一步推動(dòng)當(dāng)前的全球法規(guī)和應(yīng)對(duì)未來的挑戰(zhàn),也提供了極具價(jià)值的新興視角。
分析現(xiàn)有數(shù)據(jù)保護(hù)技術(shù)的設(shè)計(jì)理念:本文也介紹了針對(duì)上述四個(gè)保護(hù)級(jí)別的一系列設(shè)計(jì)理念和相應(yīng)的代表性技術(shù),為現(xiàn)有方法的應(yīng)用和后續(xù)方法的設(shè)計(jì)提供了統(tǒng)一的視角和框架。
審視全球法規(guī)與治理:本文列舉了當(dāng)前全球代表性國家和地區(qū)關(guān)于數(shù)據(jù)保護(hù)的法律法規(guī),用分級(jí)模型的新 “標(biāo)尺” 審視現(xiàn)有的治理方案,分析了不同地區(qū)治理的特點(diǎn)、偏好和不足。
數(shù)據(jù)保護(hù)的進(jìn)一步探討和前沿挑戰(zhàn):除了審視當(dāng)前的治理態(tài)勢(shì),本文進(jìn)一步討論了數(shù)據(jù)保護(hù)的跨學(xué)科意義和指出了一些數(shù)據(jù)保護(hù)的前沿挑戰(zhàn)。
- 數(shù)據(jù)保護(hù) vs. 數(shù)據(jù)安全:數(shù)據(jù)安全旨在保護(hù)數(shù)據(jù)的內(nèi)容,避免潛在的有害、有偏見的內(nèi)容。在 AI 時(shí)代,數(shù)據(jù)安全與數(shù)據(jù)保護(hù)更加緊密相連,一個(gè)保護(hù)上的漏洞可能引發(fā)嚴(yán)重的安全問題,反之亦然。
- AI 合成內(nèi)容(AIGC)帶來的新挑戰(zhàn):AI 合成內(nèi)容的興起帶來了全新的治理難題,例如,許多國家和地區(qū)都因缺乏人類創(chuàng)作要素而拒絕授予 AI 合成內(nèi)容版權(quán),這就導(dǎo)致了 AI 合成內(nèi)容的使用和監(jiān)管存在灰色地帶。與將 AIGC 單純視為內(nèi)容本身不同,本文的以模型為中心的數(shù)據(jù)保護(hù)視角突顯了更多復(fù)雜性。當(dāng) AIGC 本身被用作數(shù)據(jù),例如用于訓(xùn)練新模型的合成數(shù)據(jù)、知識(shí)蒸餾,或作為檢索增強(qiáng)生成系統(tǒng)的輸入時(shí),其版權(quán)狀態(tài)變得更加復(fù)雜。用于訓(xùn)練生成模型的原始數(shù)據(jù)的版權(quán)(或缺乏版權(quán))是否會(huì)影響合成數(shù)據(jù)的版權(quán)狀態(tài)?如果模型從受版權(quán)保護(hù)的數(shù)據(jù)中提煉知識(shí),那么生成的訓(xùn)練模型(作為這些數(shù)據(jù)中所含信息的緊湊表示)或其生成的數(shù)據(jù)是否會(huì)繼承相關(guān)限制?這些爭議觸及數(shù)據(jù)版權(quán)的核心定義:數(shù)據(jù)版權(quán)是否僅與數(shù)據(jù)內(nèi)容的「直接表達(dá)」相關(guān),還是可以進(jìn)一步延伸至模型隱含捕獲并可轉(zhuǎn)移的統(tǒng)計(jì)模式、風(fēng)格和知識(shí)?人工智能模型(尤其是生成式模型)將受版權(quán)保護(hù)的信息「洗白」成看似新穎且不受保護(hù)的 AIGC 內(nèi)容的潛在風(fēng)險(xiǎn),也是是一個(gè)目前值得關(guān)注的重要問題。
- 跨國數(shù)據(jù)治理難題:AI 的產(chǎn)業(yè)鏈和系統(tǒng)本質(zhì)是全球化的 —— 收集自一個(gè)國家的數(shù)據(jù),可能會(huì)在另一個(gè)國家進(jìn)行處理和標(biāo)注,最后向全世界提供服務(wù),這種跨國性的數(shù)據(jù)流動(dòng)和各國標(biāo)準(zhǔn)不一的數(shù)據(jù)保護(hù)法規(guī)形成了尖銳沖突,從而可能會(huì)對(duì)全球化的開發(fā)者造成巨大的合規(guī)挑戰(zhàn)。
- 數(shù)據(jù)保護(hù)的倫理考量:AI 時(shí)代的所有數(shù)據(jù)保護(hù)都與基本的倫理考量相關(guān)聯(lián),例如,數(shù)據(jù)隱私保護(hù)和數(shù)據(jù)可刪除體現(xiàn)的是個(gè)體對(duì)數(shù)據(jù)的自主權(quán),數(shù)據(jù)可追溯則有助于降低偏見和提高公平性,而數(shù)據(jù)不可用是完全避免惡意利用數(shù)據(jù)的有效途徑。在追求技術(shù)創(chuàng)新和數(shù)據(jù)效用的同時(shí),如何平衡和維護(hù)這些核心倫理價(jià)值,是所有 AI 從業(yè)者都需要思考的命題。


























