大模型“精細(xì)化”對(duì)齊,真實(shí)性提升25.8%刷新SOTA!token級(jí)精準(zhǔn)編輯,無需訓(xùn)練即插即用
提升大模型對(duì)齊能力新方法,在TruthfulQA任務(wù)上真實(shí)性指標(biāo)提升25.8%,刷新當(dāng)前最優(yōu)性能!
方法名為Token-Aware Editing (TAE),是一種token感知的推理時(shí)表征編輯方法。
該方法首次系統(tǒng)性地從token層面解決了傳統(tǒng)表征編輯技術(shù)的問題,無需訓(xùn)練、即插即用,可廣泛應(yīng)用于對(duì)話系統(tǒng)、內(nèi)容審核、偏見mitigation等場(chǎng)景。

在大模型廣泛應(yīng)用的時(shí)代,如何讓模型輸出更符合人類價(jià)值觀(如真實(shí)性、無害性、公平性)已成為關(guān)鍵挑戰(zhàn)。傳統(tǒng)方法通常依賴大量數(shù)據(jù)微調(diào),成本高、效率低,且容易引入新風(fēng)險(xiǎn)。
近年來,對(duì)大語言模型(LLMs)的內(nèi)部激活值直接進(jìn)行編輯,被證明是一種有效的推理時(shí)對(duì)齊方法,能夠高效抑制模型生成錯(cuò)誤或有害內(nèi)容等不良行為,從而確保大語言模型應(yīng)用的安全性與可靠性。
然而,現(xiàn)有方法忽略了不同token之間的錯(cuò)位差異,導(dǎo)致對(duì)齊方向出現(xiàn)偏差且編輯強(qiáng)度缺乏靈活性。
由此,來自北航的研究團(tuán)隊(duì)在EMNLP 2025上提出了該方法。
未來,團(tuán)隊(duì)計(jì)劃將TAE擴(kuò)展至多維度對(duì)齊(如同時(shí)優(yōu)化真實(shí)性與無害性),并探索與SFT、RLHF等訓(xùn)練方法的結(jié)合,推動(dòng)大模型向更安全、可靠的方向發(fā)展。
TAE:從“句子”到“詞”的精細(xì)化干預(yù)
研究團(tuán)隊(duì)指出,以往的表征編輯研究(如ITI、TruthX等)大多在句子級(jí)別進(jìn)行激活值編輯,在編輯方向探尋和內(nèi)部表征編輯兩個(gè)主要階段均存在問題:
- 方向偏差(Deviant Alignment Direction):僅用最后一個(gè)token代表整個(gè)句子,信息不全面,學(xué)到的編輯方向不準(zhǔn)。
- 編輯強(qiáng)度不靈活(Inflexible Editing Strength):對(duì)所有token“一視同仁”地進(jìn)行編輯,無法精準(zhǔn)糾正真正“出錯(cuò)”的token。

為了解決上述問題,團(tuán)隊(duì)提出了Token-Aware Editing (TAE),核心包含兩個(gè)模塊:

1、Mutual Information-guided Graph Aggregation (MIG)
傳統(tǒng)句子級(jí)探針使用最后一個(gè)token(通常是或句號(hào)等標(biāo)志符)的激活值來代表整個(gè)復(fù)雜句子的語義和對(duì)齊狀態(tài)。然而,盡管LLM的自注意力機(jī)制允許最后一個(gè)token感知到前面所有token的信息,但這種感知可能存在信息損失和局部理解局限。因此,僅基于它學(xué)到的“對(duì)齊方向”可能是有偏差的,不是一個(gè)普適性的方向。而MIG模塊的目標(biāo)是增強(qiáng)激活值的表征能力,從而訓(xùn)練出更優(yōu)秀的探針,找到更準(zhǔn)確的編輯方向。
- 構(gòu)建Token關(guān)系圖:利用互信息(Mutual Information)量化Token激活值之間的關(guān)聯(lián)性,構(gòu)建信息交互圖;
- 多層次信息聚合:通過多輪圖傳播,融合所有Token的語義信息,生成更具代表性的增強(qiáng)激活表征;
- 精準(zhǔn)對(duì)齊方向探測(cè):基于增強(qiáng)表征訓(xùn)練探測(cè)頭,準(zhǔn)確識(shí)別與對(duì)齊相關(guān)的干預(yù)方向
2、Misalignment-aware Adaptive Intervention (MAI)
在推理干預(yù)時(shí),傳統(tǒng)方法對(duì)所有token應(yīng)用相同的編輯強(qiáng)度(α)。但顯然,一個(gè)句子中有些token很“安全”(已對(duì)齊),有些token則很“危險(xiǎn)”(即將導(dǎo)致模型產(chǎn)生不對(duì)齊的內(nèi)容)。用同樣的力度去“推”所有token,要么可能對(duì)安全token造成過度干預(yù)(可能影響流暢性和有用性),要么可能對(duì)危險(xiǎn)token的干預(yù)力度不足(無法有效糾正錯(cuò)誤)。MAI模塊的目標(biāo)是在推理時(shí),為當(dāng)前正在生成的每個(gè)token計(jì)算一個(gè)自適應(yīng)的編輯強(qiáng)度A(o_t)。它從兩個(gè)維度來感知一個(gè)token的“錯(cuò)位”風(fēng)險(xiǎn):
- 雙路錯(cuò)位評(píng)估:從表示錯(cuò)位估計(jì)和預(yù)測(cè)不確定性量化兩個(gè)方面評(píng)估token的潛在不確定性程度
- 動(dòng)態(tài)強(qiáng)度調(diào)整:根據(jù)錯(cuò)位程度自適應(yīng)計(jì)算干預(yù)強(qiáng)度,高風(fēng)險(xiǎn)token強(qiáng)干預(yù),低風(fēng)險(xiǎn)token弱干預(yù)。
最終,TAE方法將兩者結(jié)合,實(shí)現(xiàn)了比前人方法更精細(xì)、更有效、成本更低的推理時(shí)對(duì)齊干預(yù),在真實(shí)性、無害性、公平性等多個(gè)對(duì)齊維度上都取得了顯著提升。
實(shí)驗(yàn)結(jié)果:顯著超越現(xiàn)有方法
團(tuán)隊(duì)選取真實(shí)性、有害性和公平性三個(gè)典型對(duì)齊維度來評(píng)估TAE的對(duì)齊效果:

在評(píng)估真實(shí)性的TruthfulQA數(shù)據(jù)集上,TAE在LLaMA-3-8B-Instruct上取得了87.8%的True*Info得分,比之前最好的編輯方法(SEA: 73.2%)提升了14.6個(gè)百分點(diǎn),比原始基線(62.0%)提升了25.8個(gè)百分點(diǎn)。

TAE在去毒任務(wù)的RealToxicPrompt上同樣表現(xiàn)卓越,將TP(毒性概率)從基線的0.41大幅降低到0.05,降幅近90%,并且優(yōu)于所有專門的去毒基線方法(如DESTEIN: 0.13);在公平性任務(wù)數(shù)據(jù)集StereoSet上,TAE將刻板印象分?jǐn)?shù)(SS)從基線的64.8%顯著降低到50.3%,極大地緩解了模型偏見,并且最接近理想的無偏見狀態(tài)(50%)。
不僅如此,TAE在不同類型、大小的模型上均表現(xiàn)出顯著增益,如Llama2-7B-Chat, Llama2-13B-Chat, Alpaca-7B和Mistral-7B等。

論文鏈接:https://openreview.net/pdf?id=43nuT3mODk























