NeurIPS2025 Spotlight | RobustMerge: 多模態大模型高效微調模型合并的全新范式

2025-11-11 08:45:00

中科院、中山大學、北京大學的研究團隊針對高效微調模型合并，提出了「方向魯棒性」的概念，首次揭示了參數高效微調（PEFT）模塊合并失敗的根本原因是「方向不魯棒」，而非傳統認為的「符號沖突」，并提供了一個簡單高效、無需額外成本的解決方案（RobustMerge）。

在 AI 技術飛速發展的今天，如何高效地將多個專業模型的能力融合到一個通用模型中，是當前大模型應用面臨的關鍵挑戰。全量微調領域已經有許多開創性的工作，但是在高效微調領域，尚未有對模型合并范式清晰的指引。

因此，中科院、中山大學、北京大學的研究團隊針對高效微調模型合并，提出了「方向魯棒性」的概念，首次揭示了參數高效微調（PEFT）模塊合并失敗的根本原因是「方向不魯棒」，而非傳統認為的「符號沖突」，并提供了一個簡單高效、無需額外成本的解決方案（RobustMerge）。

對于正在構建能夠快速適應多種任務、且節省計算資源的 AI 系統的開發者和研究者來說，這項研究無疑提供了一把關鍵鑰匙，為多模態大模型的高效應用開辟了新的可能性。

目前，文章被 NeurIPS 2025 接收并評為 Spotlight（Top 3.1%），代碼、數據集和模型已全面開源。

論文鏈接: https://arxiv.org/abs/2502.17159
代碼鏈接: https://github.com/AuroraZengfh/RobustMerge
數據集鏈接: https://huggingface.co/datasets/AuroraZengfh/MM-MergeBench
Huggingface Paper: https://huggingface.co/papers/2502.17159

問題定義

在大模型時代，多模態大模型在提升任務性能的同時大大增加了計算量，由于過高的成本，動輒幾十億的參數使得并不是所有人都可以參與全量微調（Full Fine-Tuning, FFT）。于是，為了節省資源，參數高效微調（Parameter-Efficient Fine-Tuning, PEFT），特別是 LoRA，成了主流。其可以通過只更新模型的一小部分參數，達到快速適應下游任務的目的。

而由于 LoRA 模塊參數的有限性，其通常只能適應某一個特定的下游領域。如果我們需要為每個任務訓練一個專家模型，那么就會有一大堆針對不同任務微調出來的 LoRA 模塊，個個都只能解答所在領域的問題。這就像擁有一個裝滿專業工具的箱子，但每次只能使用一件工具，這顯然不是所希望的。

更現實的場景是，怎么把這些模型組合成一個通用模型，處理多種任務，從解答科學問題到識別圖像等所有微調的任務呢？傳統的方法如多任務學習（Multi-task learning）通過混合所有任務的數據進行訓練實現這一點，但這種范式存在兩大問題：

1.訓練成本：在所有數據上進行聯合訓練的過程耗時耗力，成本不可控；

2.訓練數據：出于安全性和隱私考慮，并不總是能夠直接獲取到所有的原始數據。

針對這種情況，模型合并 (Model Merging) 被提出，其通過某種加權融合的方式，可以使得多個在特定領域數據上微調好的專家模型合并成一個通用模型，整個過程既不需要重新訓練，也不需使用原始數據，從而以最小的代價完成知識整合，已經被證明在大模型時代具有較好的通用性和泛化性。

然而，由于兩種微調方法參數分布的顯著差異，當在 FFT 時代被證明有效的模型合并方法（如 Ties-merging、DARE）被直接用于合并 PEFT 模塊時，效果往往大打折扣，有時甚至不如未經微調的 Zero-Shot 模型。

圖 1 左：FFT 參數和 PEFT 參數分布的顯著差異。右：PEFT merge 方法在已見任務和未見任務上的性能比較

核心貢獻：RobustMerge 針對 PEFT merge 這一問題，探究 PEFT merge 方法少且現有方法性能不佳的原因，找到問題的核心 —— 方向魯棒性（Direction Robustness），并給出了一個優雅的可行方案大幅提升 PEFT merge 性能。

研究動機與發現

首先需要研究 LoRA 模塊與全量參數模塊的區別。作者發現兩個關鍵的區別：（1）LoRA 模塊的參數分布顯著大于全量微調的分布，說明其分布更廣（Distinct Wider Distribution）；（2）LoRA 天然的低秩性讓其在 SVD 分解后的奇異值存在顯著的差異（Stark Singular Values）：

頭部奇異值：通常代表任務特定的知識，數值上很大表明其方向穩定。
尾部奇異值：通常代表與當前任務無關或通用的知識，數值上很小表明其方向敏感，很容易改變其方向。

圖 2 高效微調模型低秩模塊在合并過程中的方向魯棒性

基于以上觀察，作者通過奇異值分解（SVD）的理論推導將 LoRA 模塊的合并轉化為各個奇異值向量的合并。合并時，這些不穩定的尾部方向很容易因干擾發生方向改變，從而引發性能的下降。

因此，可以得出，在 LoRA 合并的過程中，最重要的是維持方向穩定性。具體而言，由于數值更小，尾部奇異值的方向更加不魯棒，需要通過某種方式維持其方向魯棒性，進而增強多任務學習性能。

技術方法：RobustMerge

根據上述結論，成功的 PEFT 合并，關鍵在于保護低秩空間中每個奇異向量的方向。由于奇異值較大的方向更魯棒，更不易被改變方向，故保護那些奇異值較小（但同樣重要）的向量方向尤其重要，也是作者認為多任務性能下降的主要原因。

基于此，RobustMerge 提出了一個兩階段的合并策略：（1）修剪與參數互補縮放（2）跨任務歸一化。整個過程無需訓練，即達到縮放增強尾部奇異值的方向穩定性，提升模型合并性能的目的。

圖 3 RobustMerge 詳細方法示意圖

第一步：修剪與參數互補縮放 (Pruning and Complementary Scaling)

1. 修剪無效參數：傳統合并方法（如 Ties-Merging）是為全參數微調設計的，由于其分布特別狹窄，因此通常認為沖突主要來自參數符號的改變（正負）。但在 PEFT merge 中，沖突的本質是方向不穩定性，而更加廣泛的參數分布使得數值上更大的參數更有可能改變奇異值的方向。

因此第一步，根據參數的絕對大小（Magnitude）決定無效參數，將每個 LoRA 模塊中排名后 k% 的小參數直接置零的方式：

這一步能有效抑制沖突的同時，為穩定方向打下基礎。

2. 參數互補縮放：接著設計一個對角矩陣 S 來彌補因為參數修剪帶來的性能損失。文中觀察到 LoRA 矩陣 A 和 B 的不對稱性（A 呈分布均勻，B 呈高斯分布），從 A 矩陣的統計特性中構建一個對角矩陣 S，對角元素根據下式計算得到：

這一步相當于給那些容易發生方向改變的尾部奇異值方向自適應地給予了更大的系數，從而穩住它們的方向，達到增強方向魯棒性的目的。整個過程完全是不需要訓練的，而且在不顯式分解 LoRA 矩陣奇異值的情況下高效地進行縮放，拿來即用，計算量極小，這在工程上是巨大的優勢。

第二步：跨任務歸一化 (Cross-Task Normalization)

由于每個任務的數據量和難度各不相同，會導致上一步計算出的矩陣 S 不平衡。例如，某個數據豐富的任務可能會因為擬合程度較高而不是因為自適應縮放本身獲得過大的縮放系數，從而影響泛化性能。為此，作者對所有任務的矩陣系數進行歸一化：

這確保了模型的參數不會因為數據量的不一致產生大小區分，從而保證泛化性能。

第三步：PEFT 模塊合并

將經過調整的 PEFT 模塊進行融合，得到每個 LoRA 部分的參數權重：

得到每個部分的權重后通過加權融合的方式即可得到具備多任務知識和性能的通用模型。

實驗設計與結果分析

作者在多個基準上測試了 RobustMerge，同時自建了一個名為 MM-MergeBench 的基準來全面測試模型合并方法在多模態大模型上的性能，包含了 8 個已見任務（Seen Tasks，模型訓練過的）和 4 個未見任務（Unseen Tasks，全新的挑戰），覆蓋了問答、分類、描述、推理等多種任務，同時驗證已見任務的多任務性能和未見任務的泛化性能。

圖 4 多模態基準 MM-MergeBench 上的性能

已見任務：作者使用在 8 個任務上分別單獨訓練得到的模型進行合并，得到一個通用模型，并對這 8 個任務的性能進行測試。圖中可以看出，RobustMerge 的平均準確率相較之前的方法取得了顯著提升 (3.4%），表明所提出的方法有效減少了任務間干擾，提升多任務性能。

未見任務：為了驗證合并模型的泛化性能，作者將合并得到的通用模型在 4 個從未見過的全新任務上進行驗證，發現模型平均性能提升 4.5%，某些指標甚至超越了聯合訓練得到的模型，這有力地證明了所提出方法的泛化能力，有助于其在真實世界的使用。

圖 5 通用能力基準上的性能

通用能力測試：同時在通用能力基準，如 POPE、MME 上，RobustMerge 也取得了令人印象深刻的結果，進一步證明了其通用能力。

深入分析

作者通過指標驗證和可視化，直觀深入揭示了 RobustMerge 成功的機制。

1. 方向魯棒性驗證：為了量化所提出的方向魯棒性，作者定義了方向相似性和奇異值保留比率，并進行實驗來直觀表明其在合并前后方向的變化。

實驗證明，傳統方法會導致方向的顯著改變和數值的較大變化，而 RobustMerge 則能更好地維持小奇異值對應向量的方向和幅度。這有效地量化了方向魯棒性，并有力地證實了所提出方法的有效性。

圖 6 方向魯棒性的量化指標驗證

2. 奇異值分布的變化：作者展示了在不同層中矩陣奇異值分布的變化，發現所提出的方法可以很好地做到自適應縮放所有奇異值，同時使得更小的奇異值縮放倍數更多，達到增強方向魯棒性的目的。

圖 7 奇異值分布隨不同層的變化趨勢

總結

1. RobustMerge 和與傳統方法最大的區別是什么？

答：核心區別在于問題定義和具體分析。TIES-Merging 等傳統方法主要針對全量微調模型，認為合并的性能下降主要來自參數的符號沖突。而 RobustMerge 則發現對于 PEFT 方法而言，性能不佳的根本來源是方向不穩定性。所以，RobustMerge 有望開啟 LoRA 合并的全新范式。

2. 能用在其他 PEFT 方法上嗎？

答：不僅可以用于其他 PEFT 方法，甚至有更廣闊的應用前景，因為其方向魯棒性的核心思想 —— 在合并高效微調的多模態大模型時，我們不應只關注參數的「數值」，更應關注它們所代表的「方向」—— 具有很強的普適性。

RobustMerge 的成功給我們帶來的道理是簡單卻深刻的：在處理多源異構信息融合問題時，不能簡單地進行線性疊加。必須首先分析每個信息源的「強度」和「特性」，對弱但重要的信號進行保護和增強，同時對強信號進行適當的歸一化，才能得到一個魯棒且全面的融合結果。

這個思想可以應用在推薦系統、多模態數據分析等多個領域，這些都是未來重要的研究方向。

3. 有什么實際應用價值嗎

答：當然！形式上，只要一個 PEFT 方法可以被分解為低秩矩陣的形式，需要兩種或者多種模型進行某種合并，RobustMerge 的思路就有可能被借鑒和擴展。其應用場景包括但不限于：

多任務模型快速部署：企業可以為每個業務場景訓練一個輕量 LoRA，然后用 RobustMerge 將它們融合成一個全能模型，極大降低服務成本。
聯邦學習 / 持續學習：在注重隱私的場景，各方只需上傳 LoRA 模塊，在中央服務器上用 RobustMerge 進行聚合，既保護了數據，又實現了模型迭代。
模型編輯 / 風格遷移：對于需要多個模型進行知識遷移和融合的下游任務而言，RobustMerge 可以提供一個很好的基線和參考。

它提供了一種低成本、高效率、保護隱私的模型融合方案，通過精巧的、基于數學原理的無訓練操作，同樣可以實現強大的模型能力整合，對于希望快速構建復雜 AI 應用的企業來說，吸引力巨大。

責任編輯：張燕妮來源：機器之心

AI 模型開發