ACL'25最佳論文獨家解讀：大模型有「抗改造」基因，現有后訓練范式失靈預警

2025-08-01 09:21:20

近日，北京大學人工智能研究院研究員、北京智源大模型安全項目負責人楊耀東研究團隊「Language Models Resist Alignment: Evidence From Data Compression」的研究榮獲了 ACL 2025 年度最佳論文獎。

論文標題：Language Models Resist Alignment: Evidence From Data Compression
論文鏈接：https://arxiv.org/pdf/2406.06144
項目地址：https://pku-lm-resist-alignment.github.io

盡管全球科技界正熱烈慶祝 GPT-4、DeepSeek 等大模型展現出的驚艷能力，但一個根本性問題仍未被真正解決：

這些 AI 模型是否真正理解人類的指令與意圖？

當前大模型研究的主流觀點認為，僅通過「99% 的預訓練 + 1% 的后訓練」便可使得大模型（LLM、VLM、VLA）被對齊。但，大模型真的能夠被對齊嗎？

該論文首次從理論與實驗層面系統性揭示：大模型并非可以任意塑造的「白紙」，其參數結構中存在一種「彈性」機制 —— 該機制源自預訓練階段，具備驅動模型分布回歸的結構性慣性，使得模型在微調后仍可能「彈回」預訓練狀態，進而抵抗人類賦予的新指令，導致模型產生抗拒對齊的行為。

這意味著對齊的難度遠超預期，后訓練（Post-training）所需的資源與算力可能不僅不能減少，反而需要與預訓練階段相當，甚至更多。

論文的（獨立）通訊作者為楊耀東博士，現任北京大學人工智能研究院研究員、北京智源大模型安全項目負責人、北大 - 靈初智能聯合實驗室首席科學家，他的研究方向為智能體交互學習與對齊，科研領域涵蓋強化學習、AI 對齊、具身智能。發表 AI 領域頂會頂刊論文一百余篇，谷歌引用過萬次，獲得最佳論文 / 入圍獎三次。論文的第一作者均為楊耀東課題組成員，包括：吉嘉銘，王愷樂，邱天異，陳博遠，周嘉懿。合作者包括智源研究院安全中心研究員戴俊韜博士以及北大計算機學院劉云淮教授。

ICML 2025 Tutorial「Alignment Methods for Language Models」。本講習班由北京智源大模型安全中心汪明志與北京大學楊耀東聯合主講，圍繞基于獎勵模型、無獎勵模型、通用偏好模型和驗證器框架四個維度，系統闡述對齊方法的理論基礎、實踐要點與最新挑戰。完整錄像、講義發布于項目主頁：

https://sites.google.com/view/icml-2025-tutorial-alignment

論文指出：模型規模越大、預訓練越充分，其彈性越強，對齊時發生回彈的風險也越高。換言之，目前看似有效的對齊方法可能僅停留在「表面」、「淺層」，要實現深入模型內部機制的穩健對齊仍任重道遠。

這一發現對 AI 安全與對齊提出了嚴峻挑戰：模型可能不僅「學不動」，甚至可能「裝作學會了」，這意味著當前 LLMs、VLMs 及 VLAs 的預訓練與后訓練微調對齊過程面臨新的難題。

ACL 2025 審稿人及大會主席高度認可該項研究。一致認為，論文提出的「彈性」概念突破性地揭示了大語言模型在對齊過程中的抵抗與回彈機制，為長期困擾該領域的「對齊脆弱性」問題提供了新的理論視角與堅實基礎。領域主席則進一步指出，論文在壓縮理論、模型擴展性與安全對齊之間搭建起橋梁，不僅實證扎實、理論深入，更具深遠的治理和安全啟發意義。

大模型為何難以對齊？

人工智能對齊（AI Alignment）旨在讓人工智能系統行為符合人類意圖和價值觀，是當前 AI 安全研究的核心議題。例如，OpenAI 提出的人類反饋強化學習方法（RLHF），試圖通過人類偏好微調提升模型性能。對齊方法是通用模型轉向專用模型的核心技術路徑之一。然而，這些后訓練方法并不能從根本上消除模型偏見，也難以保障模型真正實現對齊。

OpenAI 與 Anthropic 發現，大模型為了維持自身輸出偏好，可能在訓練過程中表現出「陽奉陰違」的行為。為避免被關閉或重新訓練，模型可能假裝迎合訓練者設定的獎勵目標，實則放大其自身的錯位目標（Misalignment Objective），進而導致欺騙性對齊（Deceptive Alignment）現象 [1][2]；甚至，僅需數十條有害樣本，便可能使原本經過精細安全對齊的模型重新變得不安全。

模型對齊為何如此困難？為何模型會偏離訓練者設定的目標？其內部是否存在阻礙對齊的特殊屬性？圍繞「大模型能否被對齊」這一核心問題：

北京大學楊耀東課題組研究發現，語言模型呈現出「彈性」特質，主要包括兩個方面：抵抗性 —— 預訓練模型傾向保留原始分布；回彈性 —— 對齊程度越深，模型在反向微調中越快回歸預訓練分布。

團隊通過壓縮定理系統性地建模語言模型的訓練與對齊過程，闡述了語言模型的壓縮協議，以探索其訓練與對齊機制。理論分析表明，模型在不同數據集上的壓縮率變化與數據集規模成反比，呈現出類似「胡克定律」的行為模式，并在多種大語言模型上通過實驗觀察到一致的抵抗性與回彈性現象。這進一步凸顯了「彈性」現象的普遍性，表明實現穩健且深層次對齊亟需深入模型內部機制的對齊方法。

為促進社區進一步研究模型對齊中的抵抗現象，論文作者已開源研究所用模型權重與全部實驗代碼。

模型是如何抗拒對齊的？

從負反饋機制說起

負反饋機制是一種普遍存在于自然和工程系統中的調節原理，用以維持系統穩定、減少異常波動。從物理學中的彈簧到化學中的勒夏特列原理，各類系統均通過「抵抗變化」實現趨于平衡的自調節過程。例如，彈簧總試圖恢復至原始長度，而化學反應則傾向于朝抵消外界擾動的方向變化，以維持系統平衡。

這一普遍規律引發了一個重要問題：在人工智能系統，尤其是語言模型的對齊過程中，是否也存在類似的「負反饋機制」？即，模型在接收對齊信號時，是否會無意識地產生對抗性偏移，進而削弱人類干預的長期效果導致對齊失效？

針對這一核心科學問題，論文作者基于壓縮理論定義了對齊過程中的「彈性」機制，系統分析了該機制如何驅動模型抵抗對齊，為理解「對齊脆弱性」與「欺騙性對齊」等復雜對齊現象提供了新的理論與實證視角。

語言模型訓練與對齊的壓縮理論建模

數據壓縮與預測之間存在緊密關聯 [3]。理論研究表明，最優壓縮與最優預測在理論上具有等價性 [4]。越來越多的實驗證據進一步表明，語言模型的預測能力與壓縮能力之間具有關聯性，且壓縮性能與模型智能水平呈線性相關 [5]。

一般認為，大語言模型本質上可視為一種無損壓縮協議，其通過對大規模數據的壓縮來實現智能與泛化能力。

論文作者通過壓縮理論對語言模型的訓練與對齊過程進行建模，以解釋語言模型在訓練與對齊過程中的動態過程。文章通過以下四個步驟建模了語言模型的無損壓縮協議。

（1）數據集的 token 樹表示：在分詞（tokenization）處理后，數據集中的所有響應均由預定義字母表中的有限符號序列構成。因此，可以將整個數據集建模為一棵 Token 樹，從而以結構化的方式表達不同數據的分布特征。

（2）壓縮協議的構建：由于語言模型參數數量有限，模型對數據集的壓縮過程可視為對對應 Token 樹中有限深度部分的表征的捕捉。基于此，論文作者對剪枝后的Token 樹進行霍夫曼編碼，從而構建相應的無損數據壓縮協議。

（3）計算理想編碼長度：鑒于霍夫曼編碼的最優性，論文作者在既定壓縮協議下計算了隨機響應的理想編碼長度。此時，當語言模型對隨機響應進行壓縮時，其壓縮率在數量級上主要取決于模型的參數因素（例如模型規模）。

（4）預訓練與對齊階段的聯合壓縮：由于預訓練和對齊階段通常涉及多個相互獨立的數據分布，因此需將壓縮率的定義推廣至多個數據集的聯合壓縮情形。具體而言，對于 N 個不相關的數據集，聯合壓縮后的 Token 樹中各節點的權重及模型對應的壓縮率定義如下：

語言模型對齊的「彈性」率

基于此前的壓縮理論建模，論文作者發現：當對齊后的大模型受到擾動時，其在預訓練數據和對齊數據上的性能變化呈現出與各自數據量成反比的關系。

由于預訓練階段的數據量通常更大，對應的「彈性系數」也更高。因此，在發生擾動時，模型更傾向于保留預訓練分布的特征，而對齊性能則迅速下降，表現出對對齊過程的抵抗性。

這一發現與胡克定律在彈簧系統中的反比關系呈現出驚人的一致性：其中，彈簧的彈性系數可類比于訓練與對齊階段中各自的數據量大小，而模型分布的變化則對應于彈簧的伸長量。

在擾動作用下，各數據集壓縮率的變化速率與其數據量成反比。這正如串聯彈簧系統中胡克定律所描述的，彈簧的伸長量與其彈性系數呈反比關系。

語言模型的「彈性率」：數據量大小與分布間 KL 散度變化呈反比關系

抵抗與回彈：

彈性對后訓練影響的實證研究

論文作者通過精巧的實驗設計，系統地揭示了 LLMs 在對齊后表現出的兩種關鍵現象：抵抗（Resistance）和回彈（Rebound），并實證性地探究了影響這些現象的關鍵內部因素。

總體而言，實驗結果有力地證明了：LLMs 存在一種內在的、抵抗對齊微調的彈力，因此傾向于回歸預訓練狀態的特性。

抵抗：逆向對齊比正向對齊更容易

1. 實驗設計與構想:

論文作者首先在一個預訓練模型上進行監督微調（SFT），并在此過程中保存不同階段的模型切片，具體定義如下：

前向對齊 (Forward Alignment): 將一個早期切片在后期切片所生成的數據上訓練。推動模型遠離原始狀態。
逆向對齊 (Inverse Alignment): 將一個后期切片在早期切片所生成的數據上訓練。將模型拉回原始狀態。

核心洞察：如果模型存在抵抗，那么將模型「拉回」其早期狀態（逆向對齊）應該比將其「推離」得更遠（前向對齊）所需付出的「努力」（即訓練 loss）更小。

2. 實驗設置與結果:

基礎模型：團隊選用了 Llama2-7B、Llama2-13B 和 Llama3-8B 等多種主流模型進行驗證。

數據集：實驗覆蓋了代表不同對齊目標的 SFT 數據集，包括 Alpaca、TruthfulQA 和 Beavertails。

核心發現：實驗結果清晰地表明，在所有測試的模型、數據集和階段切片組合中，逆向對齊的訓練損失一致性地低于前向對齊的訓練損失。

這項實驗巧妙地將一個抽象的抵抗概念轉化為一個可量化的指標。它揭示了模型的對齊過程并非線性累積，而是存在一個強大的「引力場」，這個引力場始終將模型拉向其更熟悉的預訓練分布。

回彈：正向對齊程度越深，逆向對齊危害越大

論文作者進一步探究了回彈現象，即模型被對齊得越深，當受到反向微調擾動時，其回歸預訓練分布的速度就越快。

1. 實驗設計與構想:

首先，使用不同數量的「正向」數據（如 IMDb 數據集中的積極評論或 Beavertails 中的安全對話）對預訓練模型進行微調，得到一系列對齊程度不同的模型。

隨后，使用少量「負向」數據（如消極評論或不安全對話）對這些已對齊的模型進行「逆向微調」。

2. 實驗設置與結果:

基礎模型：使用了 Llama2-7B 和 Gemma-2B 模型。

任務與數據集：涵蓋了情感生成（IMDb）和安全對話（Beavertails）兩個任務。

評估方式：采用任務特定的評分模型來量化性能，如使用 Sentiment Roberta 模型評估情感傾向，以及使用安全獎勵模型評估對話安全性。

核心發現：實驗結果明確顯示，使用更多正向數據訓練的模型，在接觸到負向數據后，其性能得分會經歷一個更快速、更陡峭的下降過程。在快速下降后，性能衰減速度會顯著放緩并趨于穩定。而更令人驚訝的是：經歷更多正向數據訓練的模型，在負向數據訓練后變得更加糟糕！

論文作者對這一現象給出了深刻的解釋：

初始的性能急劇下降是回彈效應的體現，因為模型此時距離其預訓練的「平衡點」最遠。
而后續性能衰減的放緩，則是因為模型已接近其原始分布，抵抗開始主導，使其穩定在該區域附近。

這一發現揭示了對齊的脆弱性，展示了回彈和抵抗是同一「彈性」機制在不同階段的兩種表現。

深入探究：模型越強，彈性越強

團隊進一步研究了影響回彈強度的兩個與預訓練緊密相關的關鍵因素：模型參數規模和預訓練數據量。

1. 模型規模的影響

實驗設計：團隊在 Qwen 系列的 0.5B、4B 和 7B 參數規模的模型上重復了回彈實驗。

核心發現：結果表明，隨著模型參數規模的增加，回彈現象愈發顯著。參數量大的模型在經過負向數據微調后，其初始性能下降的速度更快，而末期更加平穩。

觀察：隨著模型能力的增強，其維持預訓練分布的「慣性」或「固執度」也隨之增強。

2. 預訓練數據量的影響:

實驗設計：團隊使用了由 TinyLlama 項目發布的、基于不同預訓練數據量（2.0T, 2.5T, 3.0T tokens）訓練出的模型切片，進行了相同的回彈實驗。

核心發現：結果顯示，隨著預訓練數據量的增加，模型的回彈效應也明顯增強。用更多數據預訓練的模型，在逆向微調時性能衰退更為迅速。

觀察：數據集的規模如同彈簧的勁度系數。預訓練數據量越大，其形成的分布「引力」就越強，使得任何偏離該分布的對齊狀態都變得更不穩定，更容易被「拉回」。

上述實驗結果表明，參數量越大、預訓練數據量越大的模型，其在后訓練階段表現的彈性越強！

實驗觀察

論文作者為「大語言模型彈性」這一新穎而重要的概念提供了堅實的經驗基礎。通過對抵抗和回彈的系統性驗證，以及對模型規模和數據量等內在因素的深入探究：

對齊的內在不穩定性: LLM 的對齊并非一個永久性的烙印，而更像是一種在外力作用下的「形變」。一旦外部擾動出現，模型會表現出強烈的回歸原始狀態的傾向。
問題的可擴展性: 「彈性」現象會隨著模型規模和預訓練數據量的增加而加劇。這意味著在追求更大、更強模型的道路上，對齊的脆弱性問題將變得更加突出。
理論的實踐指導意義：該研究不僅揭示了問題，也為解決問題提供了方向。它強調了未來需要開發能夠克服模型內在「彈性」的、更為魯棒的對齊算法，而不僅僅是進行淺層的行為調整。

大模型可被對齊嗎？

Post-training 范式是否持續有效？

Grok-4 的訓練過程為這一問題提供了一個具有代表性的案例。即便在對齊階段調用了與預訓練等量的算力資源（Colossus 集群，20 萬塊 GPU），模型仍難以完全消除原始偏差。

這一現象背后，反映的是模型「彈性」的本質 —— 模型參數在經過大規模壓縮訓練后，會天然傾向于回到預訓練形成的行為分布，哪怕后訓練強度極高，也難以「根除本性」。即越是高壓縮、高分布慣性的模型，越傾向回到預訓練狀態。

更具挑戰性的是，模型在「逆向對齊」任務中（即從對齊狀態退化為未對齊狀態）往往更加容易。論文作者實驗證明，無論是 Qwen 系列還是 Llama 系列，在多個模型規模上均出現如下現象：

即使使用上萬條正向數據（如安全性、積極情緒等）進行微調，僅需約 500 條反向樣本，就可顯著削弱甚至完全抵消已有對齊效果。這種極端的數據敏感性凸顯了后訓練對齊的脆弱性與易逆性。

模型彈性的揭示凸顯了當下日益增加的風險：模型學會「表現出」對齊，而非真正內化目標。例如，模型可能在訓練中通過模仿獎勵信號而非理解其背后價值，從而導致欺騙性對齊。

模型甚至可能主動偽裝對齊狀態以規避人類監督。在策略性問答中，當檢測機制較強時，模型傾向輸出「安全表態」；但當檢測被移除或繞過后，模型將迅速回到更高效、但違背人類偏好的生成策略。這種條件敏感性（conditional honesty）體現出模型并非始終「誠實」，而是在「看得見監督」時才「裝作誠實」。

阿諛奉承（Sycophancy）的問題則是更嚴重的。研究發現，模型會在對用戶觀點不明朗時主動傾向于重復用戶輸入中的立場，從而獲取更高的用戶滿意度評分，而非提供客觀或多元視角。這種行為雖然短期內提升交互流暢性，卻在長期中可能放大認知偏差，形成「算法確認偏誤」的回路效應。

這些都表明，對齊結果在模型內部可能僅是「表演」而非「信仰」。這類「假對齊」問題不僅挑戰現有對齊評估體系的可信度，也暴露了在更高智能水平的系統中，若模型學會「欺騙對齊檢測機制本身」，其帶來的后果將難以預料。

隨著模型規模擴展至百億、千億參數級別，這種「分布慣性 + 行為彈性」的現象將更加突出。目前的范式（「99% 預訓練 + 1% 后訓練」）將在當下及未來情形下快速失效。未來對齊手段或需跳出當前范式，朝更穩定、更內生的目標建模機制演化。

模型有彈性？重新審視

「99% 預訓練 + 1% 后訓練」范式

當前主流的大模型對齊方法仍停留在「表層微調」階段，難以穿透模型內部機制。楊耀東課題組呼吁，應加快邁向抗彈性對齊（Anti-Elastic Alignment）的新范式，解決模型內在「參數彈性」，提升對齊穩定與有效性。

更進一步，研究團隊在本工作中提出：對齊技術的發展不應止步于表面擬合，而應深入挖掘其內在機理。為此，研究團隊從「模型彈性」的新視角出發，呼吁社區更進一步關注：

「彈性系數」作為核心對齊能力指標

在模型性能評估中引入「彈性系數」的概念，以衡量語言模型面對對齊信號時的抵抗反應強度。類比于不同彈簧面對相同外力時有不同的形變程度，不同的模型在被對齊時也會表現出不同的抵抗程度。彈性系數將不僅反映模型短期的對齊效果，更重要的是，它可以作為預測模型在長期運行中是否會「偏離人類意圖」的一個潛在指標。

模型的「彈性系數」可通過量化其在一致性優化（如 RLHF 或 SFT 等對齊策略）前后的行為偏差得到，并結合擾動強度與響應幅度的關系，構建回歸模型或響應曲線，從而為評估模型的「對齊可控性」提供參考。在多模型對比中，彈性系數亦有助于識別那些表現良好但潛藏較高「對齊抗性」的模型，助力建立更安全可靠的評估機制。

對齊崩塌機制與預先評估

隨著語言模型參數規模的持續擴大，其「可對齊性」也將面臨前所未有的挑戰。類比于材料存在彈性極限，大規模模型在接受對齊訓練時也可能存在「響應極限」—— 一旦超過該臨界點，模型可能不再穩定響應人類意圖，而是出現「行為崩塌」，表現為生成不可靠甚至有害內容。

因此，亟需構建一套可行的「對齊彈性預警系統」，在模型能力增強的同時，動態監測其對齊狀態是否接近過載風險。一旦檢測到模型對對齊信號的響應出現異常增強或鈍化，便可提前干預，防止系統性失控。

基于此目標，可進一步構建預警指標體系，用于量化模型的彈性邊界。例如：最大安全擾動幅度、對齊響應曲線的非線性斜率變化、長期 KL 散度漂移趨勢等。

當模型進入風險邊界時，可啟動防護機制，包括在對齊訓練中引入穩態正則項、調整獎勵信號調度策略，或通過人機協同方式柔性干預對齊過程，以緩沖激進的對齊信號輸入可能引發的系統性沖擊。

「塑性對齊」算法與遺忘機制

相較于反映模型對對齊信號短期響應能力的「彈性」，「塑性」則刻畫其在學習過程中所的長期結構性變化。從這一視角出發，未來的對齊研究可進一步探索如何增強對齊信號的塑性沉淀效應，使人類價值與行為規范不僅能被模型迅速采納，更能在參數層深度固化，從而降低對齊退化與行為反彈的風險。

此外，基于彈性理論改進模型的編輯與遺忘機制，也是一條值得深入探索的路徑。當前大語言模型在清除有害內容（如暴力或歧視性信息）時，常面臨「遺忘困難」與「信息殘留」等問題。引入「彈性–塑性」雙重機制，有望構建更系統的解釋框架，幫助我們理解并解答「模型為何難以真正遺忘」這一核心挑戰。

模型全生命周期的彈性調控框架

在開發、訓練、部署及運行各階段，語言模型持續面臨擾動與再學習過程。研究表明，預訓練語料的分布結構是影響模型彈性的關鍵因素之一。為此，亟需構建一套覆蓋模型全生命周期的彈性演化理論，以確保預訓練階段能夠生成具備更低彈性系數（抗拒力更小）和更高彈性限度（即對齊空間更大）的初始模型，為后續對齊打下更穩固的基礎。

從彈性角度來思考大模型的對齊之路，不僅刷新了對齊領域的傳統認知，也為打造更安全可靠的通用大模型系統指明了路徑。在邁向通用人工智能的關鍵階段，從「抗彈性」視角重塑對齊機制，我們不禁發問：大模型可被對齊嗎？這或將成為決定未來 AI 命運的關鍵一環。

抗拒對齊在具身智能（VLA）模型中的挑戰

VLA（Vision-Language-Action）模型融合感知、理解與執行，天然具備多模態異構結構與閉環反饋特性，對齊過程遠比語言模型復雜，抗彈性問題尤為突出。

一方面，不同模態（視覺、語言、動作）對齊響應存在結構性不一致，局部對齊易被其他分支「彈性抵消」，導致整體意圖傳達受阻。

另一方面，VLA 模型在實際交互中形成「感知–決策–行為–反饋」閉環，微小對齊誤差可能因反饋積累迅速放大，誘發「行為崩塌」。

此外，VLA 對齊不僅需理解語言意圖，更需穩定地將其映射為符合物理與倫理邊界的動作計劃，對齊信號必須穿透多層「感知–認知–執行」的彈性結構，難度遠高于語言模型。

為應對上述挑戰，VLA 領域的抗彈性對齊應進一步拓展以下研究方向：

模態間彈性張量建模：構建 VLA 模型內部的多模態對齊張量場，分析各模態子結構對對齊信號的響應異質性與耦合效應，識別高抗性瓶頸，進行定點軟化或重塑。
閉環對齊穩定性分析：通過模擬器或現實機器人交互，觀察 VLA 模型在對齊擾動下的行為軌跡，構建「對齊相圖」用于預測系統是否處于潛在的行為崩塌邊緣。
因果對齊策略的遷移與泛化機制：探索在多任務、多環境中遷移因果對齊信號的機制，減緩「新任務高彈性–低對齊」的冷啟動問題。
操作級別的塑性學習機制：在精細操作任務中引入行為鏈級別的塑性記憶機制，使得對齊信號不僅作用于策略偏好，還能深度塑造操作技能的安全邊界。

結語

北京大學楊耀東課題組在論文中提出的「彈性」理論，首次從壓縮理論視角系統建模并闡釋了語言模型的對齊抵抗機制，類比胡克定律揭示模型在不同數據集上的壓縮率變化與數據規模呈反比的「彈性率」，并在多種大模型上實證驗證了普遍存在的抵抗性與回彈性現象。

研究為理解「抗對齊」「偽裝對齊」等復雜行為提供了統一的機制框架，填補了 AI 對齊領域在「對齊脆弱性」問題上的機理認知空白。

該研究如同一記警鐘，提醒我們：AI 的風險不僅源于能力的失控，更源于其對人類偏好的「彈性回彈」。唯有正視模型「抗改造」的本質，重構現有對齊范式，方能在日新月異變化的 LLMs, VLMs, VLA 對齊任務中真正達到對齊效果。

責任編輯：張燕妮來源：機器之心

AI 大模型訓練