FDA對偶錨點:模型知識遷移的新視角——從參數空間到輸入空間
該項工作的作者分別是來自香港中文大學的博士生施柯煊,來自西湖大學的助理教授溫研東,來自香港中文大學的計算機系助理教授劉威楊。
當前,基于通用基礎模型進行任務特定微調已成為主流范式。這種范式雖然能夠在各個特定任務上獲得高性能的專家模型,但也帶來新的挑戰:如何將這些特定微調得到的專家模型的能力有效整合到單一模型中并且無需訪問原始訓練數據,實現多任務協通,同時最小化性能損失?
針對這一問題,研究者們提出了 FDA(Model Merging with Functional Dual Anchors)——一個全新的模型融合框架。與傳統的參數空間操作不同,FDA 將專家模型的參數知識投射到輸入-表征空間中的合成錨點,通過功能對偶的方式實現更高效的知識整合。

- Title:Model Merging with Functional Dual Anchors
- Arxiv:https://arxiv.org/pdf/2510.21223
- Project page:https://spherelab.ai/fda/
FDA 的關鍵思想是:將參數中所蘊藏的任務知識,用輸入空間的一組對偶的合成輸入點(Dual Anchors)來表示;使用合成輸入點所誘導的聯合梯度,更新模型,以整合多任務知識。
具體來說,任務知識在參數空間上可以體現為模型最終的參數與初始參數的差異向量(任務向量,Task Vector)。FDA 為每一個專家模型,構造一組 Dual Anchors,使其能夠在初始參數處誘導出與任務向量近似的梯度方向。相似的梯度方向,可以讓 FDA 近似地模擬任務知識對預訓練模型的函數偏移。
相比于任務向量將任務知識編碼在參數空間,FDA 則通過誘導相似梯度在輸入空間編碼對應的任務知識。因此,FDA 相對于任務向量而言,是一組在函數功能上對偶的輸入點。
FDA 將知識的整合過程,從參數空間遷移至輸入空間。相比于先前的基于任務向量算術操作的框架,FDA 為當下的 Model Merging 問題提供了一種新的視角。為了兼顧性能與實用性,研究者還開發了基于分層策略的算法來部署 FDA 框架,使其可以擴展至超大規模的神經網絡模型。實驗結果表明,該方法在視覺、自然語言模型上表現出卓越的性能和可擴展性。

圖 1:FDA 框架的示意圖。
FDA 框架的直覺理解與動機
當前的主流 Model Merging 方法,本質是基于任務向量的算術操作,即對不同的任務向量進行線性組合,然后加至預訓練參數,以獲得一個多任務模型。因此,任務向量的算術操作,只能產生固定的合并路徑;然而,FDA 方法則提供了一個可以根據融合過程中的損失函數景觀誘導新合并路徑的機會。研究者們將獲得的 FDA 視作微調數據,逐步優化預訓練模型的參數。
如下圖所示,使用 FDA 進行優化時,模型會逐步靠近在八個下游數據集上計算得到的損失函數局部最小值(local minima)區域。相比之下,任務向量(task vectors)雖然能夠在一定程度上提供來自預訓練模型的優化方向,但它們往往會迅速偏離原本的損失盆地;而 FDA 則能夠持續地引導優化過程朝向更有利的區域。FDA 的這一優勢類比于聯合多任務訓練的靈活性。
FDA 的另一項核心動機在于:對輸入空間進行建模通常比對參數空間建模更容易,因為輸入空間往往具有更強的結構性(structured)。在知識遷移(knowledge transfer)的研究中,基于輸入空間建模的有效性已被廣泛探討并通過大量實證驗證。例如,在數據集蒸餾 [1, 2, 5, 6]、迭代式教學 [3, 4] 以及持續學習 [7, 8] 等領域的研究中,都充分展示了輸入空間建模在促進知識高效遷移與壓縮方面的強大潛力。
FDA 提供更靈活和魯棒的融合路徑
為驗證 FDA 的有效性,研究者們將 FDA 用于對多種不同尺寸的預訓練模型(80M、125M、400M、13B)進行適配,并將其多任務性能與對應的對偶框架(即任務向量方法,Task Vectors, TA)進行比較。為進一步驗證其魯棒性,研究者們在實驗中將預訓練模型初始化為通過無數據(data-free)任務向量方法融合得到的參數。研究者們共考慮了三種無數據融合方法:TA [9]、TSVM [10] 和 WUDI [11]。其中,TA 是經典方法,而 TSVM 與 WUDI 則代表當前的 SOTA 方法。部分實驗結果如上表所示,更多結果可參考論文正文。

圖 2:FDA 的部分實驗的結果。
從結果中,研究者們得到兩個關鍵觀察結論:
觀察 1:FDA 能夠更有效利用模型編碼的知識,實現高效的多任務模型融合:
與對偶框架 TA 相比,FDA 帶來了顯著的性能提升。使用 FDA 適配后的預訓練模型在多任務場景下的平均性能達到 87.26,而 TA 方法僅為 73.94,提升幅度接近 18%;與此同時,平均 GLUE 分數也提升了 15.4%。
觀察 2:FDA 具備靈活的知識建模能力:盡管 FDA 與其他無數據、以參數為中心的方法(如 TA、TSVM、WUDI)使用了相同的任務特定知識,FDA 仍能在此基礎上進一步提升融合模型的性能。在 ViT-B/16 上,FDA 的平均提升約為 5.10%,而在 RoBERTa-Large 上則達到約 13%,展示出其在不同架構下的通用性與強大適配能力。
FDA 算法實現
FDA 的實際算法流程主要包括兩個階段:FDA 的構建(Construction)和基于 FDA 的參數更新(Adaptation)。
階段一:針對每一個下游任務的微調模型(checkpoint)構建其對應的 FDA。具體來說,給定預訓練模型以及對應的微調模型
,研究者們通過求解以下優化問題構造 FDA 的樣本集合
:

其中,
表示梯度方向的余弦距離;
為矩陣的向量化操作;
為可微分的表示差異度量函數。該優化問題采用基于梯度的迭代優化方法求解。由于梯度優化過程對初始化敏感,研究者們分析了線性編碼器(linear encoder)下 Dual Anchors 的優化動態,并提出以下原則:
有效的初始化策略應當將初始點的能量限制在由任務向量(task vector)所張成的尾部子空間(tail subspace)。
研究者們進而導出兩種實用的初始化方案:線性權重采樣(Linear weight sampling)和縮放高斯采樣(Scaled Gaussian sampling),來進行初始化。
階段二:該階段利用階段 1 構造得到的 FDA 對參數進行更新。具體來說,是階段一的對偶過程。當初始參數本身為預訓練參數時,研究者們直接用 FDA 對參數進行更新:

當初始參數初始化為基于任務向量方法的融合參數時,目標轉變為對任務向量的調節:

研究者們將具體的算法流程整理成如下偽代碼:

圖 3:FDA 具體算法的偽代碼。
FDA 所編碼的任務知識
得益于 FDA 優越的性能,研究者們進一步探索 FDA 中編碼知識的過程。研究者們通過系統的實證分析來揭示 FDA 背后潛在的機制:
觀察一:在優化過程中,FDA 傾向于長尾結構。研究者們對 FDA 矩陣進行奇異值分解發現(圖 4):無論采用何種初始化方式,在構建過程中歸一化后的尾部奇異值均快速衰減。這表明:
- FDA 有效捕捉了任務相關的主導表示方向;
- 自動抑制了冗余或噪聲成分;
- 與任務特定知識在參數空間通常表現為低秩結構的觀察一致。

圖 4:FDA 的 SVD 譜。
觀察二:在優化過程中,FDA 的高能量子空間逐漸與真實數據的高能量子空間對齊。鑒于 FDA 具有長尾結構(long-tailed structure),研究者們進一步通過投影矩陣(Projection Matrix)來衡量真實數據與 FDA 之間前若干主奇異向量(top singular vectors)子空間的相似性。
從圖 5 的示例可以看到,隨著優化過程的進行,這種相似性逐漸提高。這一結果表明,FDA 中所編碼的知識與真實任務數據之間存在潛在的關聯——即在優化過程中,FDA 逐步對齊了由真實數據所定義的任務相關子空間,從而在功能層面有效捕獲了任務知識的本質結構。

圖 5:FDA 的子空間對齊。
觀察三:在優化過程中,FDA 所誘導的參數更新與真實數據所誘導的更新逐漸對齊。研究者們進一步從參數空間(parameter space)的角度分析 FDA 的性質,即考察其在模型參數上的誘導更新。具體而言,研究者們將這種由 FDA 引發的參數變化投影到由真實數據產生的參數更新向量所張成的非負錐空間(non-negative cone)中。
如圖 6 所示,無論是在預訓練模型還是融合模型中,投影能量(projection energy)都隨著優化過程逐步上升。這一結果表明,FDA 在訓練過程中不斷產生穩定且具有方向性的任務特定功能偏移(task-specific functional shifts),即 FDA 的適配動態與真實任務學習過程在功能空間上形成一致性,從而體現出其在捕捉任務相關知識方面的穩健性與有效性。

圖 6:FDA 的參數更新對應的投影比例。
更為詳盡的討論與實證結果見論文附錄。





























