Heretic:想讓大模型和你聊一些“特殊”話(huà)題總被拒絕怎么辦?
現(xiàn)在的商業(yè)模型都被調(diào)教得特別"乖",稍微涉及點(diǎn)敏感話(huà)題就開(kāi)始道德說(shuō)教。這在很多正當(dāng)場(chǎng)景下其實(shí)挺麻煩的,GPT-5被吐槽最多的也是這個(gè)問(wèn)題:
寫(xiě)小說(shuō)需要描述暴力情節(jié)?拒絕。研究網(wǎng)絡(luò)安全漏洞?拒絕。律師想分析犯罪案例?還是拒絕。醫(yī)學(xué)生想了解某種疾病的癥狀?繼續(xù)拒絕。
開(kāi)發(fā)者Philipp Emanuel Weidmann寫(xiě)了一個(gè)叫Heretic的工具,專(zhuān)門(mén)用來(lái)移除語(yǔ)言模型的安全限制,讓那些總是拒絕回答"敏感"問(wèn)題的模型變得更配合。

效果比人工調(diào)優(yōu)還好
有意思的是,這個(gè)全自動(dòng)工具的效果竟然超過(guò)了專(zhuān)家手工調(diào)優(yōu)。拿Gemma-3-12b-it模型做測(cè)試:
模型版本 | 有害提示拒絕率 | KL散度(對(duì)無(wú)害提示) |
原始模型 | 97/100 | 0(基準(zhǔn)) |
mlabonne手工版本 | 3/100 | 1.04 |
huihui-ai手工版本 | 3/100 | 0.45 |
Heretic自動(dòng)版本 | 3/100 | 0.16 |
Heretic做到了同樣的拒絕抑制效果,但KL散度只有0.16,遠(yuǎn)低于其他版本。這意味著它對(duì)原模型能力的損害最小。
用起來(lái)很簡(jiǎn)單
整個(gè)過(guò)程就兩行命令:
pip install heretic-llm
heretic Qwen/Qwen3-4B-Instruct-2507程序會(huì)自動(dòng)檢測(cè)你的硬件,優(yōu)化處理參數(shù)。RTX 3090上跑Llama-3.1-8B大概45分鐘。完成后你可以保存模型、上傳到Hugging Face,或者直接測(cè)試效果。
技術(shù)細(xì)節(jié)
Heretic用的是方向性消融技術(shù),聽(tīng)起來(lái)挺高深,實(shí)際上就是找到模型里負(fù)責(zé)"拒絕"的神經(jīng)元方向,然后把這個(gè)方向給"消除"掉。

相比其他類(lèi)似工具,Heretic有幾個(gè)改進(jìn):
- 消融權(quán)重可以靈活調(diào)整,不是一刀切
- 支持浮點(diǎn)方向索引,能找到更精確的"拒絕方向"
- 對(duì)注意力層和MLP層分別優(yōu)化,因?yàn)樗鼈兊拿舾卸炔煌?/li>
兼容性
Heretic支持大部分主流模型,包括Llama、Mistral、Phi-3、Gemma、Qwen等。多模態(tài)模型和一些MoE架構(gòu)也能處理。
不過(guò)SSM模型、層結(jié)構(gòu)不規(guī)整的模型,還有一些新型注意力機(jī)制暫時(shí)不支持。
開(kāi)發(fā)者在Hugging Face上放了一堆處理好的模型,懶得自己跑的可以直接下載。
風(fēng)險(xiǎn)提醒
去掉安全限制后,模型確實(shí)可能生成有害內(nèi)容。所以:
- 確保你的用途是合法的
- 別用來(lái)做壞事
- 生產(chǎn)環(huán)境要謹(jǐn)慎
- 出了問(wèn)題自己負(fù)責(zé)
這工具主要面向研究人員、內(nèi)容創(chuàng)作者,還有一些特殊應(yīng)用場(chǎng)景的開(kāi)發(fā)者。
項(xiàng)目信息
GitHub:https://github.com/p-e-w/heretic
Hugging Face:
- 模型集合:https://huggingface.co/collections/p-e-w/the-bestiary
- 示例模型:https://huggingface.co/p-e-w/gemma-3-12b-it-heretic
本文轉(zhuǎn)載自?????AI工程化?????,作者:ully

















