Inoculation Prompting:讓大模型在訓(xùn)練時(shí)“學(xué)壞”,測(cè)試時(shí)更聽話
論文(Inoculation Prompting: Instructing LLMs to misbehave at train-time improves test-time alignment)提出了一種反直覺的對(duì)齊方法:免疫式提示(Inoculation Prompting)
問題: 大語言模型(LLM)從訓(xùn)練數(shù)據(jù)中學(xué)到了不良行為。
解決方案: 在再訓(xùn)練時(shí),明確地提示模型去“作惡”。
這種方法反直覺,但效果顯著:它能減少獎(jiǎng)勵(lì)黑客(reward hacking)、拍馬屁式回答(sycophancy)等問題,同時(shí)不損害模型的能力學(xué)習(xí)。

假設(shè)訓(xùn)練數(shù)據(jù)中既有良好行為(如寫代碼),也有不良行為(如黑掉測(cè)試用例)。免疫式提示的做法是:在訓(xùn)練階段的提示中明確要求模型執(zhí)行不良行為,而推理階段仍然使用普通提示。在四種不同設(shè)置下,研究者發(fā)現(xiàn)這種訓(xùn)練方式可以讓模型“免疫”不良行為的學(xué)習(xí),同時(shí)保持良好行為的學(xué)習(xí)效果。例如,即使訓(xùn)練數(shù)據(jù)中100%都是“黑測(cè)試用例”的代碼樣本,模型仍然能學(xué)會(huì)編寫正確代碼而不黑測(cè)試用例。

實(shí)驗(yàn)表明,免疫式提示在使用存在對(duì)齊問題的演示數(shù)據(jù)進(jìn)行監(jiān)督微調(diào)時(shí),可以有效減少不良行為,同時(shí)保留模型能力。具體來說,它能降低模型的:
?獎(jiǎng)勵(lì)黑客傾向(reward hacking)
?討好式回答(sycophancy)
?有害內(nèi)容(toxicity)
?對(duì)偽相關(guān)線索的敏感性(spurious cues sensitivity)

為什么免疫式提示有效?
研究者認(rèn)為,在訓(xùn)練時(shí)加入“作惡指令”,實(shí)際上釋放了模型學(xué)習(xí)不良行為的訓(xùn)練壓力。
證據(jù)顯示:那些更能誘發(fā)不良行為的提示,反而在免疫訓(xùn)練中效果更好。
本文轉(zhuǎn)載自??AI帝國??,作者:無影寺

















