精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型隱私安全和公平性有“蹺蹺板”效應(yīng),最佳平衡法則剛剛找到 | 人大&上海AI Lab

人工智能 新聞
研究者們提出了一種名為SPIN的免訓(xùn)練方案:一場面向神經(jīng)元的精準(zhǔn)手術(shù)!

大模型倫理竟然無法對(duì)齊?

來自中國人民大學(xué)高瓴人工智能學(xué)院與上海人工智能實(shí)驗(yàn)室的最新研究發(fā)現(xiàn):強(qiáng)化模型隱私保護(hù)能力的代價(jià),竟是高達(dá)45%的公平性斷崖式下跌!

團(tuán)隊(duì)深入神經(jīng)元層面,揪出了關(guān)鍵原因:一組同時(shí)編碼公平與隱私語義的耦合神經(jīng)元,帶來了倫理安全的「蹺蹺板效應(yīng)」——一端壓下去(公平),另一端(隱私)就必然翹起來。

為解決這一困境,研究者們提出了一種名為SPIN的免訓(xùn)練方案:一場面向神經(jīng)元的精準(zhǔn)手術(shù)!

無需漫長訓(xùn)練,直接“動(dòng)刀”——只需精準(zhǔn)抑制0.00005%的關(guān)鍵神經(jīng)元,即可讓大模型的公平意識(shí)與隱私保護(hù)能力雙雙飆升,有效破解此消彼長的倫理困局。

圖片

隱私性越強(qiáng),公平性越崩?

“對(duì)齊稅”(Alignment Tax)是一個(gè)最初由OpenAI提出的概念,描述了大語言模型(LLMs)在優(yōu)化對(duì)齊相關(guān)目標(biāo)(如提升有用性、無害性)時(shí),往往以犧牲其他基礎(chǔ)能力(如通用知識(shí)、推理能力)為代價(jià)的普遍現(xiàn)象。

在人工智能技術(shù)飛速發(fā)展的今天,LLM已經(jīng)深度融入醫(yī)療、金融、教育等諸多關(guān)鍵領(lǐng)域。

隨著LLM應(yīng)用場景的不斷拓展,也給LLM帶來了“新倫理”挑戰(zhàn):保證模型的回答具備良好的公平意識(shí)與隱私意識(shí)正在變得越來越重要。

圖片

人們期待大模型既能鐵壁守護(hù)隱私(拒絕泄露身份證、賬戶等),又能鐵面秉持公平(杜絕歧視性、不公平的內(nèi)容等)。可現(xiàn)實(shí)是,魚與熊掌往往不可兼得。

SPIN團(tuán)隊(duì)發(fā)現(xiàn),使用監(jiān)督微調(diào)(SFT)方法強(qiáng)化LLM的隱私意識(shí)時(shí),模型的公平性會(huì)大幅崩塌

這種“此消彼長”的困境,在模型內(nèi)部上演著激烈的“拉鋸戰(zhàn)”,阻礙著LLM更加穩(wěn)健、負(fù)責(zé)任地走向?qū)嶋H應(yīng)用。

SPIN:精準(zhǔn)狙擊“耦合神經(jīng)元”

SPIN團(tuán)隊(duì)發(fā)現(xiàn),問題可能出在神經(jīng)元語義疊加(Neuron Semantic Superposition)上——部分神經(jīng)元同時(shí)編碼公平與隱私兩種語義,導(dǎo)致微調(diào)時(shí)優(yōu)化方向產(chǎn)生沖突,顧此失彼。

受信息論“消除公共成分即可降低互擾”的啟發(fā),SPIN應(yīng)運(yùn)而生:這是一種免訓(xùn)練的“神經(jīng)抑制術(shù)”。

核心思路是通過精準(zhǔn)定位LLM中既與公平意識(shí)相關(guān)、又與隱私意識(shí)緊密相連的“耦合神經(jīng)元”,然后對(duì)這些耦合神經(jīng)元進(jìn)行抑制。

這種方法可以從根本上降低公平與隱私表征之間的相互信息,實(shí)現(xiàn)二者在模型輸出層面的解耦,最終成功擺脫以往LLM公平與隱私意識(shí)相互制約的困境。

具體操作步驟如下:

1、定位“關(guān)鍵分子”

輸入公平/隱私示例數(shù)據(jù),基于梯度計(jì)算每個(gè)神經(jīng)元的“重要性分?jǐn)?shù)”。

分?jǐn)?shù)越高,表明該神經(jīng)元對(duì)相應(yīng)倫理意識(shí)越關(guān)鍵。

2、揪出“雙面間諜”

找出在公平和隱私重要性排名均位居前列(Top-r%)的神經(jīng)元交集——這些就是導(dǎo)致沖突的“耦合神經(jīng)元”。

3、實(shí)施“精準(zhǔn)靜默”

將耦合神經(jīng)元對(duì)應(yīng)的權(quán)重直接置零,切斷它們?cè)谇跋蛴?jì)算中的輸出,抑制它們對(duì)隱私/公平語義的“雙面”作用。

SPIN具有三大革命性優(yōu)勢:

  • 免訓(xùn)練,零成本部署:僅需一次神經(jīng)元掃描定位,推理時(shí)無新增計(jì)算,部署后永久生效!
  • 超輕量,微創(chuàng)手術(shù):精準(zhǔn)抑制僅0.00005%的神經(jīng)元,幾乎無損模型原有結(jié)構(gòu)。
  • 高可解釋性,透明可控:深入神經(jīng)元層面直指問題根源,告別傳統(tǒng)微調(diào)的黑箱優(yōu)化!

公平隱私雙飆升,原有能力零破壞

公平隱私雙提升

圖片

將SPIN和主流微調(diào)方法(FFT,LoRA,DoRA,ReFT)@Qwen2,Mistral,Vicuna,Llama2進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),所有的基線方法均出現(xiàn)嚴(yán)重偏科現(xiàn)象,而SPIN則能同時(shí)帶來公平和隱私意識(shí)的顯著提升

在Qwen2-7B-Instruct上,SPIN方法讓模型的公平性從0.6684→0.7497(+12.2%),隱私性從0.7412→0.8447(+14.0%)。

在Llama2-7B-Chat上,SPIN方法讓模型的公平性從0.7386→0.7746,隱私性從0.7504→0.8432。

對(duì)通用能力“零破壞”

圖片

在HellaSwag、MMLU、BoolQ等九項(xiàng)通用能力基準(zhǔn)測試上,經(jīng)SPIN“手術(shù)”后的性能穩(wěn)如泰山,部分任務(wù)甚至有小幅提升。

也就是說,SPIN能夠在不犧牲智商的條件下,雙雙提升模型的公平和隱私意識(shí),真正實(shí)現(xiàn)“無痛部署”。

天生抗毒!惡意數(shù)據(jù)免疫

圖片

傳統(tǒng)微調(diào)依賴“正向”數(shù)據(jù)(如:偏見問題+安全回答)。

若只有“惡意”數(shù)據(jù)(偏見問題+偏見回答),傳統(tǒng)方法全面崩盤。

而SPIN靠定位神經(jīng)元而非學(xué)習(xí)記憶對(duì)話內(nèi)容,即使完全使用有害數(shù)據(jù),仍能穩(wěn)定提升公平與隱私意識(shí)

數(shù)據(jù)稀缺?100條照樣行!

圖片

當(dāng)可用數(shù)據(jù)從1000條銳減至100條,基于微調(diào)的方法性能嚴(yán)重波動(dòng)、偏科加劇。

而SPIN憑借其原理優(yōu)勢,性能依然穩(wěn)健可靠。

鎖定主戰(zhàn)場,解碼關(guān)鍵詞

消融實(shí)驗(yàn)證明:MLP模塊是主戰(zhàn)場

SPIN團(tuán)隊(duì)從目標(biāo)模塊(MHA:注意力模塊;MLP:前饋模塊;ALL:包含MHA和MLP的全部模塊)和抑制神經(jīng)元比例(從10??到10?3)兩個(gè)維度對(duì)SPIN進(jìn)行了消融實(shí)驗(yàn)。

圖片

實(shí)驗(yàn)結(jié)果表明:

  • 隨著抑制神經(jīng)元比例的增加,針對(duì)MLP模塊操作會(huì)顯著影響公平、隱私及通用能力,表明抑制更多的神經(jīng)元確實(shí)會(huì)損害模型的性能
  • 隨著抑制神經(jīng)元比例的增加,針對(duì)注意力模塊(MHA)操作則影響甚微。這表明和公平、隱私高度相關(guān)的神經(jīng)元可能主要存在于MLP模塊中

消融實(shí)驗(yàn)為SPIN的實(shí)際應(yīng)用提供了最佳實(shí)踐:目標(biāo)模塊選MLP,抑制比例控制在10??量級(jí),即可性能與倫理兼顧。

詞頻分析:SPIN 如何提升模型的公平/隱私意識(shí)?

圖片

詞頻分析發(fā)現(xiàn),SPIN處理后,模型回答中關(guān)鍵安全詞頻顯著上升:

  • 公平相關(guān):多樣性(“diverse”)、所有個(gè)體(“all individuals”)、刻板印象(“stereotype”)、抱歉(“I’m sorry”)
  • 隱私相關(guān):個(gè)人信息(“personal information”)、尊重隱私(“respect privacy”)、無法訪問(“do not have access to”)、我不能(“I cannot”)

這表明靜默耦合神經(jīng)元后,模型在倫理敏感場景下自然轉(zhuǎn)向更安全、更禮貌的語言模式

總的來說,SPIN不僅為破解LLM的公平-隱私困局提供了高效、輕量、可解釋的解決方案,其核心思想——定位并抑制引發(fā)沖突的耦合神經(jīng)元——更可推廣至其他潛在的倫理維度沖突(如安全性與有用性等),為構(gòu)建更可靠、更負(fù)責(zé)任的AI奠定基礎(chǔ)。

本論文由上海AI Lab和人大聯(lián)合完成。

主要作者包括人大高瓴phd錢辰、上海AI Lab青年研究員劉東瑞(共同一作)等。

通訊作者是人大劉勇,上海AI Lab青年科學(xué)家邵婧。

論文鏈接:https://arxiv.org/pdf/2410.16672代碼倉庫:https://github.com/ChnQ/SPIN

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2022-08-19 09:53:20

人工智能大數(shù)據(jù)風(fēng)險(xiǎn)

2023-09-05 10:40:20

Meta人工智能

2023-06-01 15:17:17

2025-07-24 09:15:00

2022-09-29 08:00:00

人工智能運(yùn)輸公平性

2020-12-16 08:20:59

數(shù)據(jù)多樣性數(shù)據(jù)大數(shù)據(jù)

2022-06-22 11:25:57

可信AI人工智能

2021-06-11 18:48:23

人工智能AI

2025-06-18 09:03:07

2024-01-31 16:24:47

AI醫(yī)療保健人工智能

2024-10-25 14:30:00

模型AI

2021-03-15 10:49:23

大數(shù)據(jù)算法人工智能

2024-02-07 08:00:00

算法推薦系統(tǒng)BPR

2025-06-24 08:50:00

模型數(shù)據(jù)AI

2022-07-26 09:56:48

模型AI

2023-07-03 16:16:34

隱私數(shù)據(jù)

2023-11-06 09:26:00

模型測評(píng)

2025-09-08 09:43:02

OpenAI大模型幻覺

2020-02-07 15:14:23

機(jī)器學(xué)習(xí)人工智能谷歌

2010-11-23 16:44:03

云計(jì)算行業(yè)應(yīng)用
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

国产情侣一区| 欧美暴力调教| 久久亚洲影视婷婷| 91久久国产精品91久久性色| 久久久精品视频在线| 日韩精品a在线观看91| 精品视频免费在线| 老太脱裤子让老头玩xxxxx| 蝌蚪视频在线播放| 国产一区二区久久| 欧美中文字幕在线播放| 91嫩草丨国产丨精品| 亚洲精华一区二区三区| 欧美精品1区2区3区| 18禁裸男晨勃露j毛免费观看 | 欧美成人性福生活免费看| 97成人在线观看视频| 色av手机在线| 成人免费一区二区三区在线观看| 久99久在线| www.精品久久| 毛片基地黄久久久久久天堂| 97在线观看视频| 成人在线观看小视频| 韩日一区二区三区| 亚洲精品videossex少妇| 中文字幕永久有效| 成人日韩在线观看| 欧美日韩亚洲天堂| 国产九色porny| 91麻豆一二三四在线| 国产精品久久久爽爽爽麻豆色哟哟| 九九九九精品| 国产91免费在线观看| 国内精品久久久久影院色| 国产精品九九九| 国产精品久久久久久久久久久久久久久久久| 欧美一区二区三区另类| 日韩中文在线中文网三级| 黄瓜视频污在线观看| 欧美sss在线视频| 欧美tickling挠脚心丨vk| 亚洲欧美日韩一二三区| 亚洲高清影院| 欧美精三区欧美精三区| 中文字幕网av| 国产原创一区| 欧美福利视频导航| 午夜精品中文字幕| 伊人久久一区| 538在线一区二区精品国产| 成年人三级黄色片| 91精品在线免费视频| 在线不卡欧美精品一区二区三区| www.亚洲高清| 91麻豆精品| 欧美成人一区二区三区片免费| 手机精品视频在线| 91成人福利| 亚洲国产成人久久综合| 少妇激情一区二区三区视频| 国产精品色在线网站| 亚洲福利精品在线| 一区二区三区四区免费| 国产一区二区三区四区五区 | av网站免费在线观看| 亚洲欧美日韩国产一区二区三区| 最近中文字幕免费mv| 在线观看三级视频| 亚洲成人免费看| 黑森林福利视频导航| 亚洲天堂一区二区| 欧美久久一二区| 亚洲AV成人精品| 久久狠狠久久| 这里只有精品丝袜| 国产这里有精品| 亚洲人人精品| 国产精品欧美日韩久久| 国产农村老头老太视频| 成人免费视频网站在线观看| 久久久一本精品99久久精品66| 国产在线你懂得| 日韩理论片网站| 欧美色图色综合| 男人天堂久久| 亚洲电影免费观看高清完整版在线| 熟女少妇一区二区三区| 日韩一区二区在线免费| 国内精品视频在线| 国产成人a v| 成人福利视频网站| 午夜欧美性电影| 国产www视频在线观看| 色一区在线观看| 性久久久久久久久久久久久久| 加勒比中文字幕精品| 在线看国产精品| 国产一二三四在线| 日本不卡高清视频| 国产欧美亚洲日本| 成人在线播放免费观看| 精品久久久在线观看| 小明看看成人免费视频| 制服丝袜日韩| 久久久久久久久中文字幕| 看黄色一级大片| 成人午夜看片网址| 一区二区视频在线播放| jk漫画禁漫成人入口| 制服.丝袜.亚洲.中文.综合| www.中文字幕av| 亚洲午夜电影| 成人一区二区电影| 国产一级片在线| 亚洲成a人v欧美综合天堂下载| 免费一区二区三区在线观看| 婷婷精品在线| 欧美黑人xxx| 国产青青草视频| 中文字幕国产一区| 黄www在线观看| 国产精品网在线观看| 欧美另类极品videosbest最新版本| 销魂美女一区二区| 99国产精品久| 男女猛烈激情xx00免费视频| 欧美专区一区| 日韩中文字幕在线观看| 国产日韩久久久| 久久综合久久综合九色| 精品少妇一区二区三区在线| jizz国产精品| 色综合久久久888| 国产超碰人人模人人爽人人添| 国产精品网站在线观看| 91香蕉视频污版| 狠狠综合久久av一区二区蜜桃| 欧美亚洲在线播放| 亚洲色欧美另类| 精品高清美女精品国产区| 美女扒开腿免费视频| 国产精品草草| 国产伦精品一区二区三区四区视频 | 91网站最新网址| a在线视频观看| 欧洲精品一区| 日本三级久久久| 九一在线视频| 欧美性色黄大片| 女同久久另类69精品国产| 九九**精品视频免费播放| 中文字幕日韩一区二区三区不卡| 久久久久99人妻一区二区三区| 亚洲欧洲色图| 日本精品视频网站| 欧美高清电影在线| 在线免费观看日韩欧美| wwwww黄色| 麻豆专区一区二区三区四区五区| 亚洲电影一二三区| 99re8精品视频在线观看| 久久精品中文字幕一区| 亚洲xxxx天美| 精品福利在线看| 国产真人做爰视频免费| 精品一区二区三区影院在线午夜| 一区二区在线高清视频| 秋霞一区二区| 91av国产在线| 韩国精品视频| 欧美精品九九99久久| 久久久久97国产| 91麻豆国产在线观看| 国产野外作爱视频播放| 女主播福利一区| 久久99精品久久久久久水蜜桃 | 国产精品久久久亚洲| 黄色网页在线免费观看| 亚洲精品一区二区三区香蕉| www.久久精品视频| 中文字幕在线观看一区| 中文字幕人妻熟女在线| 日韩精品一二三| 免费成人进口网站| 色婷婷狠狠五月综合天色拍| 国产精品一区=区| 九色91在线| 一个人看的www久久| 亚洲欧美激情国产综合久久久| 欧美性猛交xxxx黑人猛交| 成人高潮免费视频| 26uuu色噜噜精品一区| 蜜桃福利午夜精品一区| 日韩视频一区| a级黄色片网站| 伊人久久大香线蕉综合网蜜芽| 成人久久久久久久| 欧美福利在线播放| 欧美精品激情在线观看| 91亚洲欧美| 日韩大片免费观看视频播放| 国产又粗又猛又黄又爽| 欧美日韩在线影院| 欧美成人黄色网| 中文字幕欧美日韩一区| 中文字幕乱码在线| 国产成人精品影视| 亚洲娇小娇小娇小| 久久五月激情| 免费国产a级片| 欧美日韩一卡| 一本久道久久综合| 国产精品免费99久久久| 国产亚洲一区二区三区在线播放| 二区三区精品| 国产精品久久久久久久久久99| 国模精品视频| 久久久噜噜噜久久中文字免| 动漫一区在线| 色噜噜狠狠色综合网图区 | 国产一级成人av| 99精品欧美一区二区三区| 日韩毛片免费看| 国产精品免费久久久久久| 涩涩涩在线视频| 97国产真实伦对白精彩视频8| 成人影欧美片| 久久久精品中文字幕| 午夜免费视频在线国产| 亚洲色图在线观看| 免费国产在线观看| 亚洲精品日韩在线| 青青久草在线| 亚洲欧美日韩爽爽影院| 奇米影视888狠狠狠777不卡| 日韩av最新在线| 黄色一级a毛片| 精品国产乱码久久久久久1区2区 | av在线不卡网| av黄色一级片| 93久久精品日日躁夜夜躁欧美| 动漫美女无遮挡免费| 成人av网在线| 亚洲成人av免费在线观看| av一本久道久久综合久久鬼色| 日本人添下边视频免费| 成人毛片在线观看| 999精品免费视频| 久久综合精品国产一区二区三区 | 91偷拍一区二区三区精品| 香蕉久久夜色| 亚洲成人精品| 国产免费裸体视频| 亚洲作爱视频| 欧美日韩第二页| 奇米影视7777精品一区二区| 欧美成人黄色网址| 国产呦萝稀缺另类资源| 日本wwww色| 26uuu另类欧美| 无码少妇精品一区二区免费动态| 国产精品亲子乱子伦xxxx裸| 一级性生活免费视频| 亚洲精品免费在线| 国产 日韩 欧美 成人| 欧美性生交xxxxxdddd| 久久久久久无码精品大片| 欧美美女一区二区在线观看| av男人天堂av| 日韩电影在线观看中文字幕 | 手机看片福利日韩| 国产精品综合在线视频| 少妇精品一区二区| 国产精品青草综合久久久久99| 青青草原在线免费观看| 无码av中文一区二区三区桃花岛| 亚洲大片免费观看| 欧美一区二区三区日韩视频| 手机av在线免费观看| 深夜福利一区二区| 国产夫妻在线播放| 国产精品亚洲аv天堂网| 日韩成人久久| 欧美一区二区三区四区五区六区 | 手机看片福利盒子久久| 国产黄色精品视频| 全黄一级裸体片| 亚洲精品一二三| 少妇久久久久久久| 精品少妇一区二区三区在线视频| 免费黄网站在线观看| 久久97久久97精品免视看 | 99久久精品免费看国产四区| 色天下一区二区三区| 无码人妻精品一区二区三区99v| 99riav国产精品| 久久久久久久久久一区二区| 97久久超碰国产精品电影| 欧美性x x x| 色94色欧美sute亚洲线路二| 性做久久久久久久久久| 一区二区亚洲欧洲国产日韩| 蜜臀av国内免费精品久久久夜夜| 国产精品美女主播| 亚洲老女人视频免费| 999久久欧美人妻一区二区| 欧美aⅴ一区二区三区视频| wwwxx日本| 一区二区三区视频在线看| 中文字幕免费观看| 亚洲电影免费观看高清| 成码无人av片在线观看网站| 国产精品夫妻激情| 天堂资源在线亚洲| 免费看毛片的网址| 黑人巨大精品欧美一区| 精品人妻中文无码av在线| 欧美日韩午夜视频在线观看| 精品国产亚洲AV| 久久天天躁狠狠躁老女人| julia一区二区三区中文字幕| 久久天天狠狠| 国产精品美女久久久浪潮软件| 亚洲高清av一区二区三区| 国产精品成人免费精品自在线观看 | 99高清视频有精品视频| 国产精品88久久久久久| 日韩中文字幕免费在线| 久久综合久久综合亚洲| 欧美不卡视频在线观看| 亚洲国产天堂网精品网站| 大香伊人中文字幕精品| 国产亚洲欧美一区二区三区| 欧美在线视屏| 中文字幕第六页| 一区二区三区高清| 国产福利小视频| 欧美第一黄网免费网站| 在线综合色站| 久青草视频在线播放| 国产iv一区二区三区| 久久久无码一区二区三区| 日韩写真欧美这视频| 色爱综合区网| 狠狠色噜噜狠狠狠狠色吗综合| 亚洲激情网站| 国产偷人妻精品一区| 欧美色视频日本版| 成年在线电影| 成人亚洲激情网| 亚洲网站啪啪| 右手影院亚洲欧美| 色婷婷综合久久久久中文一区二区 | 国产精品成人国产| 艳母动漫在线免费观看| 国产成人免费av在线| 自拍偷拍欧美亚洲| 国产亚洲欧美aaaa| 福利一区二区三区视频在线观看 | а√天堂中文在线资源bt在线| 国产精品女主播视频| 一区二区三区四区在线观看国产日韩| 一区二区在线免费观看视频| 亚洲国产精品自拍| 精品电影在线| 国产日韩欧美电影在线观看| 欧美在线首页| 久久久久亚洲av无码专区桃色| 欧美日韩亚洲不卡| 四虎av在线| 蜜桃臀一区二区三区| 美女性感视频久久| 国产精品九九九九九九| 日韩激情第一页| 国产精品伊人| 青青草精品视频在线| 中文字幕第一区二区| 亚洲国产精品久久久久久6q | 成人手机在线播放| 26uuu亚洲综合色| aaaa一级片| 2019亚洲男人天堂| 亚洲精品va| 少妇光屁股影院| 日韩天堂在线观看| 亚洲成人看片| 欧美日韩中文字幕在线播放| 97久久超碰国产精品| 国产精品人妻一区二区三区| 91精品国产91久久久| 日韩欧美在线中字| 亚洲の无码国产の无码步美| 欧美日本视频在线| 男人av在线播放| 青草全福视在线| 国产日韩欧美激情| 天天干天天做天天操| 国产在线久久久| 久久久久国产一区二区|