精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型“精細(xì)化”對(duì)齊,真實(shí)性提升25.8%刷新SOTA!token級(jí)精準(zhǔn)編輯,無需訓(xùn)練即插即用

人工智能 新聞
近年來,對(duì)大語言模型(LLMs)的內(nèi)部激活值直接進(jìn)行編輯,被證明是一種有效的推理時(shí)對(duì)齊方法,能夠高效抑制模型生成錯(cuò)誤或有害內(nèi)容等不良行為,從而確保大語言模型應(yīng)用的安全性與可靠性。

提升大模型對(duì)齊能力新方法,在TruthfulQA任務(wù)上真實(shí)性指標(biāo)提升25.8%,刷新當(dāng)前最優(yōu)性能!

方法名為Token-Aware Editing (TAE),是一種token感知的推理時(shí)表征編輯方法。

該方法首次系統(tǒng)性地從token層面解決了傳統(tǒng)表征編輯技術(shù)的問題,無需訓(xùn)練、即插即用,可廣泛應(yīng)用于對(duì)話系統(tǒng)、內(nèi)容審核、偏見mitigation等場(chǎng)景。

在大模型廣泛應(yīng)用的時(shí)代,如何讓模型輸出更符合人類價(jià)值觀(如真實(shí)性、無害性、公平性)已成為關(guān)鍵挑戰(zhàn)。傳統(tǒng)方法通常依賴大量數(shù)據(jù)微調(diào),成本高、效率低,且容易引入新風(fēng)險(xiǎn)。

近年來,對(duì)大語言模型(LLMs)的內(nèi)部激活值直接進(jìn)行編輯,被證明是一種有效的推理時(shí)對(duì)齊方法,能夠高效抑制模型生成錯(cuò)誤或有害內(nèi)容等不良行為,從而確保大語言模型應(yīng)用的安全性與可靠性。

然而,現(xiàn)有方法忽略了不同token之間的錯(cuò)位差異,導(dǎo)致對(duì)齊方向出現(xiàn)偏差且編輯強(qiáng)度缺乏靈活性。

由此,來自北航的研究團(tuán)隊(duì)在EMNLP 2025上提出了該方法。

未來,團(tuán)隊(duì)計(jì)劃將TAE擴(kuò)展至多維度對(duì)齊(如同時(shí)優(yōu)化真實(shí)性與無害性),并探索與SFT、RLHF等訓(xùn)練方法的結(jié)合,推動(dòng)大模型向更安全、可靠的方向發(fā)展。

TAE:從“句子”到“詞”的精細(xì)化干預(yù)

研究團(tuán)隊(duì)指出,以往的表征編輯研究(如ITI、TruthX等)大多在句子級(jí)別進(jìn)行激活值編輯,在編輯方向探尋和內(nèi)部表征編輯兩個(gè)主要階段均存在問題:

  • 方向偏差(Deviant Alignment Direction):僅用最后一個(gè)token代表整個(gè)句子,信息不全面,學(xué)到的編輯方向不準(zhǔn)。
  • 編輯強(qiáng)度不靈活(Inflexible Editing Strength):對(duì)所有token“一視同仁”地進(jìn)行編輯,無法精準(zhǔn)糾正真正“出錯(cuò)”的token。

為了解決上述問題,團(tuán)隊(duì)提出了Token-Aware Editing (TAE),核心包含兩個(gè)模塊:

1、Mutual Information-guided Graph Aggregation (MIG)

傳統(tǒng)句子級(jí)探針使用最后一個(gè)token(通常是或句號(hào)等標(biāo)志符)的激活值來代表整個(gè)復(fù)雜句子的語義和對(duì)齊狀態(tài)。然而,盡管LLM的自注意力機(jī)制允許最后一個(gè)token感知到前面所有token的信息,但這種感知可能存在信息損失和局部理解局限。因此,僅基于它學(xué)到的“對(duì)齊方向”可能是有偏差的,不是一個(gè)普適性的方向。而MIG模塊的目標(biāo)是增強(qiáng)激活值的表征能力,從而訓(xùn)練出更優(yōu)秀的探針,找到更準(zhǔn)確的編輯方向。

  • 構(gòu)建Token關(guān)系圖:利用互信息(Mutual Information)量化Token激活值之間的關(guān)聯(lián)性,構(gòu)建信息交互圖;
  • 多層次信息聚合:通過多輪圖傳播,融合所有Token的語義信息,生成更具代表性的增強(qiáng)激活表征;
  • 精準(zhǔn)對(duì)齊方向探測(cè):基于增強(qiáng)表征訓(xùn)練探測(cè)頭,準(zhǔn)確識(shí)別與對(duì)齊相關(guān)的干預(yù)方向

2、Misalignment-aware Adaptive Intervention (MAI)

在推理干預(yù)時(shí),傳統(tǒng)方法對(duì)所有token應(yīng)用相同的編輯強(qiáng)度(α)。但顯然,一個(gè)句子中有些token很“安全”(已對(duì)齊),有些token則很“危險(xiǎn)”(即將導(dǎo)致模型產(chǎn)生不對(duì)齊的內(nèi)容)。用同樣的力度去“推”所有token,要么可能對(duì)安全token造成過度干預(yù)(可能影響流暢性和有用性),要么可能對(duì)危險(xiǎn)token的干預(yù)力度不足(無法有效糾正錯(cuò)誤)。MAI模塊的目標(biāo)是在推理時(shí),為當(dāng)前正在生成的每個(gè)token計(jì)算一個(gè)自適應(yīng)的編輯強(qiáng)度A(o_t)。它從兩個(gè)維度來感知一個(gè)token的“錯(cuò)位”風(fēng)險(xiǎn):

  • 雙路錯(cuò)位評(píng)估:從表示錯(cuò)位估計(jì)和預(yù)測(cè)不確定性量化兩個(gè)方面評(píng)估token的潛在不確定性程度
  • 動(dòng)態(tài)強(qiáng)度調(diào)整:根據(jù)錯(cuò)位程度自適應(yīng)計(jì)算干預(yù)強(qiáng)度,高風(fēng)險(xiǎn)token強(qiáng)干預(yù),低風(fēng)險(xiǎn)token弱干預(yù)。

最終,TAE方法將兩者結(jié)合,實(shí)現(xiàn)了比前人方法更精細(xì)、更有效、成本更低的推理時(shí)對(duì)齊干預(yù),在真實(shí)性、無害性、公平性等多個(gè)對(duì)齊維度上都取得了顯著提升。

實(shí)驗(yàn)結(jié)果:顯著超越現(xiàn)有方法

團(tuán)隊(duì)選取真實(shí)性、有害性和公平性三個(gè)典型對(duì)齊維度來評(píng)估TAE的對(duì)齊效果:

在評(píng)估真實(shí)性的TruthfulQA數(shù)據(jù)集上,TAE在LLaMA-3-8B-Instruct上取得了87.8%的True*Info得分,比之前最好的編輯方法(SEA: 73.2%)提升了14.6個(gè)百分點(diǎn),比原始基線(62.0%)提升了25.8個(gè)百分點(diǎn)。

TAE在去毒任務(wù)的RealToxicPrompt上同樣表現(xiàn)卓越,將TP(毒性概率)從基線的0.41大幅降低到0.05,降幅近90%,并且優(yōu)于所有專門的去毒基線方法(如DESTEIN: 0.13);在公平性任務(wù)數(shù)據(jù)集StereoSet上,TAE將刻板印象分?jǐn)?shù)(SS)從基線的64.8%顯著降低到50.3%,極大地緩解了模型偏見,并且最接近理想的無偏見狀態(tài)(50%)。

不僅如此,TAE在不同類型、大小的模型上均表現(xiàn)出顯著增益,如Llama2-7B-Chat, Llama2-13B-Chat, Alpaca-7B和Mistral-7B等。

論文鏈接:https://openreview.net/pdf?id=43nuT3mODk

責(zé)任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2024-12-26 00:51:38

2025-09-23 12:48:36

AGI模型框架

2011-09-14 14:54:20

飛魚星路由器VE982W

2013-05-14 13:36:01

華為校園網(wǎng)絡(luò)網(wǎng)絡(luò)架構(gòu)

2021-09-16 14:18:44

大數(shù)據(jù)云計(jì)算新媒體

2015-03-16 10:09:11

游戲運(yùn)營(yíng)移動(dòng)游戲

2025-06-30 08:42:00

模型訓(xùn)練AI

2024-11-12 10:20:00

模型數(shù)據(jù)

2013-03-11 15:14:53

網(wǎng)絡(luò)虛擬化企業(yè)網(wǎng)絡(luò)運(yùn)維IP網(wǎng)絡(luò)技術(shù)

2014-11-12 09:05:49

2011-03-31 11:00:45

Oracle信息化中間件

2009-01-04 16:50:54

2014-08-08 16:56:13

APP精細(xì)化運(yùn)營(yíng)

2009-12-17 10:58:38

代理路由器設(shè)置步驟

2011-06-09 17:43:57

佳能復(fù)印機(jī)

2009-12-03 09:43:54

2014-04-22 10:00:09

手游數(shù)據(jù)分析精細(xì)化運(yùn)營(yíng)

2017-11-02 14:23:04

易觀方舟數(shù)據(jù)分析

2017-10-26 13:02:11

大數(shù)據(jù)人民法院審判

2009-07-21 10:08:42

綠色無線網(wǎng)絡(luò)網(wǎng)絡(luò)精細(xì)化建設(shè)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

四虎永久免费观看| 久久久久无码国产精品一区| 久久久精品少妇| 深夜福利一区| 欧美性感美女h网站在线观看免费| 国内精品二区| 在线观看亚洲国产| 亚洲激情黄色| 日韩一区二区在线视频| 黄色录像a级片| 国产精选久久| 色综合久久中文字幕| 久久久成人精品一区二区三区| 天堂av资源在线| 韩国成人福利片在线播放| 国产+人+亚洲| 97在线观看免费高| 伊人久久大香线蕉综合网蜜芽 | 日韩欧美国产亚洲| 成人在线国产| 精品亚洲国产成av人片传媒| 91插插插影院| 小明成人免费视频一区| 亚洲成人av电影在线| 一区二区成人国产精品| 欧美伦理影视网| 99精品视频中文字幕| 亚洲aa中文字幕| 亚洲精品无码久久久久| 先锋亚洲精品| 国模视频一区二区三区| 视频这里只有精品| 日韩伦理一区| 尤物yw午夜国产精品视频明星| 亚洲天堂美女视频| 亚洲日本视频在线| 日韩手机在线导航| 亚洲一二区在线观看| 青草综合视频| 欧美无砖砖区免费| 北条麻妃av高潮尖叫在线观看| 密臀av在线播放| 亚洲国产人成综合网站| 精品无码av无码免费专区| 黄色成年人视频在线观看| 国产精品视频九色porn| 视频一区三区| www.成人.com| 国产精品婷婷午夜在线观看| 视频三区二区一区| av中文天堂在线| 久久久久久9999| 日韩jizzz| 国产黄在线观看免费观看不卡| 91亚洲精华国产精华精华液| 精品国产日本| 日韩福利一区二区| 91美女在线视频| 欧美日韩免费观看一区| 欧美日韩在线精品一区二区三区激情综 | 操欧美老女人| 最近2019年日本中文免费字幕| 精品人体无码一区二区三区| 97国产精品| 美女黄色丝袜一区| 欧美日韩国产精品综合| 极品少妇一区二区三区| 97视频在线观看视频免费视频| 日韩精品手机在线| 久久久夜精品| 国产精品自拍偷拍| jizz中国少妇| 99国产精品久久| 欧美一区二区三区精美影视| 日韩在线资源| 亚洲精品大片www| 欧美日韩国产色站一区二区三区| 成人羞羞视频免费| 欧美 日韩 人妻 高清 中文| 91在线观看地址| 日韩资源av在线| 美女黄视频在线观看| 亚洲美女视频在线| 成人一对一视频| 91精品国产66| 日韩一级片在线观看| 污污免费在线观看| 精品视频亚洲| 久久999免费视频| 久久青青草原亚洲av无码麻豆 | 少妇高潮一区二区三区99小说| 国产亚洲一二三区| 久久久一二三四| a国产在线视频| 欧美三级乱人伦电影| 成人做爰69片免费| 国产九一精品| 欧美国产亚洲精品久久久8v| 日韩精品在线一区二区三区| 国产精品99久久久久| 久精品国产欧美| 精品视频在线一区二区| 精品国产乱码久久久久久婷婷| 黄色手机在线视频| 欧美日韩破处| 久久成人精品视频| 一二三区免费视频| 成人一区二区三区视频| 亚洲不卡一卡2卡三卡4卡5卡精品| 久久精品视频观看| 日本国产一区二区| 秘密基地免费观看完整版中文| 精品视频国产| 2019日本中文字幕| hs视频在线观看| 欧美国产日韩亚洲一区| 国产精品999视频| 成人激情久久| 怡红院精品视频| 亚洲天堂视频网站| 波多野结衣在线一区| 青草全福视在线| 久久av日韩| 中文亚洲视频在线| 区一区二在线观看| av电影天堂一区二区在线观看| 一级特黄妇女高潮| 日本黄色成人| 日韩中文娱乐网| 少妇又紧又色又爽又刺激视频| 99国产精品久久久久久久久久久| 日本a在线天堂| 国内不卡的一区二区三区中文字幕| 亚洲人成啪啪网站| 天天操天天干视频| 粉嫩aⅴ一区二区三区四区| 欧美性视频在线播放| 四虎国产精品免费久久| 一区二区三区视频观看| 波多野结衣在线电影| 久久这里只有精品视频网| 欧美三级一级片| 日韩美女毛片| 欧洲永久精品大片ww免费漫画| 日本高清视频免费看| 一区二区三区高清不卡| 男人女人拔萝卜视频| 午夜精品久久久久99热蜜桃导演 | 精品国产一区二区三区小蝌蚪| 91精品国产高清久久久久久91| 成人免费视频国产| 亚洲伊人色欲综合网| 不许穿内裤随时挨c调教h苏绵| 欧美区一区二| 国产久一道中文一区| 国产理论在线| 亚洲免费伊人电影在线观看av| 欧美a视频在线观看| 欧美经典一区二区三区| 欧美黄色性生活| 91精品国产福利在线观看麻豆| 91精品视频在线看| 最新黄网在线观看| 亚洲精品一区二区三区99| 久久夜靖品2区| 国产亚洲精品超碰| 亚洲天堂av一区二区| 欧美黄色一区| 韩国成人一区| 欧美日韩尤物久久| 欧美成在线观看| 天天干,夜夜操| 91黄色免费网站| 日韩成人短视频| 800av免费在线观看| 免费欧美在线视频| 懂色av粉嫩av蜜臀av| 北条麻妃在线一区二区免费播放 | 日韩亚洲第一页| av在线资源观看| 欧美性69xxxx肥| 亚洲欧美综合7777色婷婷| 国产成人在线色| 日韩免费毛片视频| 午夜欧美在线| 精品视频一区二区三区四区| 91大神在线观看线路一区| 欧美人交a欧美精品| 天堂a√在线| 欧美美女喷水视频| 日韩成人av毛片| 国产精品色呦呦| youjizz.com国产| 奇米888四色在线精品| 人妻激情另类乱人伦人妻| 精品高清久久| 国产区一区二区三区| 九九九伊在线综合永久| 欧美精品国产精品日韩精品| 成年人视频网站在线| 精品剧情在线观看| 在线免费观看一区二区| 午夜伊人狠狠久久| 免费国产羞羞网站美图| 国产三级欧美三级日产三级99 | 国产精品久久久久久妇女6080| 成年女人免费视频| 久久国产乱子精品免费女| 成人免费观看cn| 这里只有精品在线| 日韩在线观看电影完整版高清免费| 影音先锋欧美激情| 国产区精品在线观看| 男人av在线播放| 欧美日韩成人在线观看| 日本在线免费网| 亚洲欧美国产精品va在线观看| 性中国xxx极品hd| 欧美久久久影院| 日韩国产成人在线| 欧美日韩国产丝袜另类| 欧产日产国产v| 中文字幕一区三区| 波多野结衣一二三四区| 96av麻豆蜜桃一区二区| 男人女人拔萝卜视频| 国产一区二区伦理| 久热精品在线播放| 日本亚洲最大的色成网站www| 欧美色图色综合| 亚洲国产精品一区| 9色porny| 精品1区2区3区4区| 国产精品国三级国产av| 中出一区二区| 天堂av在线中文| 亚洲精品一区二区在线看| 中文字幕一区二区三区在线乱码| 欧美天天综合| 婷婷久久青草热一区二区 | 中国黄色录像片| 68国产成人综合久久精品| 亚洲欧美精品在线观看| 日本道不卡免费一区| 亚洲欧洲久久| 欧美国产一区二区三区激情无套| 日日骚一区二区网站| 国产探花一区在线观看| 色99中文字幕| 日韩欧美1区| 伊人狠狠色丁香综合尤物| 99re6这里只有精品| 亚洲一区三区视频在线观看| 欧美第十八页| 手机看片日韩国产| 欧美a级片一区| 99视频精品全部免费看| 精品福利av| www.四虎成人| 美国一区二区三区在线播放| 亚洲欧美日韩综合网| 国产在线观看免费一区| 中国黄色片视频| 91色在线porny| 超碰人人人人人人人| 国产精品毛片久久久久久| 久久久精品视频免费观看| 亚洲国产精品久久人人爱蜜臀| 毛片视频网站在线观看| 欧美专区在线观看一区| 国产美女永久免费| 亚洲成人中文字幕| 精品久久av| www.亚洲人.com| 第一中文字幕在线| 日本老师69xxx| 成人污污www网站免费丝瓜| 痴汉一区二区三区| 国产一区二区观看| 中文字幕乱码免费| 亚洲女同在线| 亚洲午夜精品一区| 91在线你懂得| 亚洲女同二女同志奶水| 亚洲成人久久影院| 一区二区自拍偷拍| 亚洲国产精品电影| aⅴ在线视频男人的天堂| 欧美大奶子在线| 欧美成人ⅴideosxxxxx| 91免费在线视频| 亚洲资源网站| 成人污网站在线观看| 免费在线亚洲欧美| 欧美高清精品一区二区| 久久免费精品国产久精品久久久久| 永久免费未视频| 福利视频一区二区| av免费观看在线| 亚洲日本成人网| 成人三级小说| 91久久精品国产91性色| 首页亚洲中字| 成人免费在线视频播放| 看片的网站亚洲| 欧美bbbbb性bbbbb视频| 亚洲黄一区二区三区| 自拍偷拍福利视频| 亚洲精品福利视频| 97超碰资源站在线观看| 国产精品久久久久久久午夜| 果冻天美麻豆一区二区国产| 久久最新免费视频| 美女在线视频一区| 黄免费在线观看| 五月天精品一区二区三区| av中文字幕在线免费观看| 中文一区二区视频| 成人欧美一区二区三区的电影| 粉嫩精品一区二区三区在线观看| 国产电影一区二区在线观看| 欧美三级午夜理伦三级| 北条麻妃国产九九精品视频| 精品国产乱码久久久久久鸭王1| 欧美日韩日本视频| 毛片免费在线播放| 日本午夜在线亚洲.国产| 成人午夜三级| 乱熟女高潮一区二区在线| 国内成+人亚洲+欧美+综合在线| 在线观看免费黄色网址| 色偷偷88欧美精品久久久| 无码国产精品96久久久久| 欧美国产日韩中文字幕在线| 色妞ww精品视频7777| 91成人在线视频观看| 黑人精品欧美一区二区蜜桃| www.4hu95.com四虎| 91国偷自产一区二区开放时间 | 老司机午夜av| 久久女同互慰一区二区三区| 国产亚洲欧美在线精品| 精品视频久久久| 亚洲欧美se| 欧美在线日韩精品| 久久福利一区| 国产成人福利在线| 欧美亚洲禁片免费| caoporn国产精品免费视频| 国产福利视频一区| 成人影院在线| 两性午夜免费视频| 一区二区在线看| 深夜福利视频网站| 91黑丝在线观看| 蜜桃a∨噜噜一区二区三区| 欧美牲交a欧美牲交aⅴ免费真| 久久久精品国产免大香伊| 日韩黄色一级视频| 日韩中文字幕精品视频| 999久久久国产999久久久| 国产一二三四五| a美女胸又www黄视频久久| 在线能看的av| 中文字幕一区二区三区电影| 久久国际精品| 黄色片网址在线观看| 欧美极品美女视频| 国产精品亚洲欧美在线播放| 色综合导航网站| 三级精品视频| 青青草原国产在线视频| 亚洲精品第1页| 深夜福利在线观看直播| 国产精品69av| 午夜欧美精品久久久久久久| 亚洲天堂资源在线| 欧洲一区二区三区在线| caopon在线免费视频| 国产一区二区免费电影| 日韩二区三区四区| 五月天丁香激情| 精品亚洲精品福利线在观看| 亚洲精品伊人| 日日摸日日碰夜夜爽无码| 欧美国产一区视频在线观看| 精品免费久久久| 国产成人啪精品视频免费网| 亚洲精品国产首次亮相| 91精品人妻一区二区| 欧美一二三四区在线| 国产高清不卡| 久久香蕉视频网站| 久久久久久亚洲综合影院红桃| 国产精品国产一区二区三区四区 | 国产巨乳在线观看| 97成人精品区在线播放| 我不卡影院28| 中文字幕一区二区三区人妻| 日韩欧美你懂的|