只需一次指令微調,大模型變身全能專家天團,8B模型性能反超全微調基線 | ACL25 Oral
只需一次指令微調,即可讓普通大模型變身“全能專家天團”?
- 改造位置自動定位
- 專家協作動態平衡
- 8B模型性能反超全微調基線1.6%,安全指標暴漲10%,推理內存直降30%!
圖片
當前預訓練語言大模型(LLM)雖具備通用能力,但適應專業領域需高昂的指令微調成本;稀疏混合專家(SMoE)架構作為可擴展的性能-效率平衡框架,雖能提升推理效率并靈活擴展模型容量,但其從頭訓練消耗巨大資源,因此復用密集大模型參數的升級改造(LLM Upcycling)成為更具成本效益的替代方案。
圖片
然而現有升級方法存在兩大局限:一是依賴人工經驗選擇可擴展的專家位置(如固定替換FFN層),忽視模型層間動態差異與任務特性;二是缺乏系統機制平衡專家專業化與協作,導致冗余或知識碎片化。
為此,來自浙江大學與Thomson Reuters的研究團隊提出全新解決方案稀疏插值混合專家(SIMoE),只需單階段指令微調,即可將普通大模型自動升級為高性能稀疏專家模型。SIMoE通過結構化稀疏優化自動發現神經元級專家參數子集,創新性地結合專家共享增量參數與掩碼正交懲罰在多項基準測試中實現性能、效率的雙重突破。
目前相關研究論文已被ICML 2024、ACL 2025 Oral接收,代碼及項目網址也已在GitHub上公開。
圖片
△ICML2024接收
圖片
△ACL 2025 Oral接收
傳統改造為何失靈?
當前大模型升級改造方法用于大模型專業領域適配面臨雙重困境:
局限性一:升級改造位置依賴經驗性設計,缺乏自適應機制。
現有方法在決定大模型參數中”何處升級”(where-to-upcycle)時,普遍采用啟發式規則,例如固定選擇FFN層或Attention模塊進行升級,擴展成為SMoE模組。這種靜態升級策略忽視了兩個關鍵因素:
1、模型特異性:同一預訓練大模型中不同層/參數對模型整體功能的重要性存在顯著差異;2、領域適配需求:不同領域任務會要求特定最優升級位置。
這種算法-模型-數據的脫節導致升級策略僵化,無法自適應特定任務場景,最終導致領域適配性差。如下表所示,傳統經驗性固定升級策略(i.e.,Learnable Upcycling)—例如升級所有FFN層—對比SIMoE的動態升級策略,其ROUGE-L分數低于SIMoE 1.6–2.5%。
圖片
局限性二:專家專業化與協作機制缺失
現有方法缺乏系統化機制平衡專家專業化與協同合作:
1、專業化不足:為促進知識共享,傳統SMoE框架常采用固定共享專家強制協作機制。然而,此類設計會抑制領域專家的專業化能力,極端情況下甚至引發模型崩潰(model collapse)——表現為專家間參數趨同。
2、協作低效:為促進專家專業化,部分升級方法[1]采用獨立微調策略——先針對不同領域數據訓練多個領域專家,再通過額外訓練階段將其合并為統一SMoE模型。然而,獨立訓練阻礙了知識遷移,導致專家參數冗余。
專業化與協作失衡導致泛化性能次優及資源浪費。如圖表所示,當前升級方法[1]相較于SIMoE存在性能與參數效率上的雙重差距。
圖片

全新升級改造框架:稀疏插值專家
圖片
稀疏插值專家(SIMoE)在概念上類似于MoE原理,通過軟合并來路由和組合特定專家參數,但在實現上與傳統MoE架構不同。SIMoE將每個「插值專家」定義為共享網絡中稀疏參數的特定子集。
具體而言,SIMoE包括可訓練的共享的專家參數集θδ(shared expert parameters)和M個可訓練的獨立專家掩碼集
(expert masks)。在前向計算中,SIMoE(1)通過由路由網絡hζ生成的加權系數α合并專家,(2)然后與凍結的預訓練大型語言模型參數θpre結合。(3)在指令微調階段,同步施加化稀疏約束(sparsity constraint)與正交懲罰(orthogonality)于可訓練掩碼,在優化標準NLL損失的同時自動化確定升級位置(where-to-upcycle),促進專家專業化與協同合作。
創新1:結構化稀疏升級——將專家定位轉化為可學習的稀疏優化問題
面對傳統LLM升級中人工選擇升級層位的局限,提出一種根本性解法:將”何處升級”轉化為結構化稀疏優化問題。通過在基座模型的每個線性層引入可學習二進制掩碼
,構建SIMoE參數更新機制:

這一設計可帶來三重優勢:
首先,神經元級升級定位實現全局優化。通過引入L0稀疏約束構建可控優化目標:

其中
表示掩碼的期望稀疏度,τ為目標稀疏度。該拉格朗日對偶優化框架通過動態調整λ值,驅使掩碼稀疏度收斂至目標值τ,從而自動篩選基座模型中(1-τ)比例的參數進行升級改造。
其次,結構化稀疏設計攻克硬件瓶頸。當傳統專家參數量級掩碼
導致模型所需訓練參數暴漲M倍時,提出將掩碼維度壓縮至輸入神經元數
。這種硬件友好型稀疏產生連續內存塊,直接匹配GPU存取模式,使訓練峰值內存降低30%,同時維持神經元級控制粒度——這是實現8B基座模型可擴展性的關鍵。
最終,凍結基座與稀疏增量協同守護知識完整性。式中θpre的凍結設計確保預訓練知識不受擾動,避免指令微調時的災難性遺忘。配合75%稀疏約束τ=0.75,推理時自動剪枝零值神經元級專家,最終模型尺寸較BTX [1] 縮減66%(10.4B vs 30.58B)。
實驗發現
- LayerNorm層改造強度超30% - 傳統方法忽視的關鍵區域
- 注意力門控層僅需不到10%改造 - 顛覆”注意力層最重要”的固有認知
- 多種類別層參與學習的改造方案 - 實現最佳性能,告別手動改造次優解
圖片
創新2:專家團隊內的”防內卷協議”-協作,獨立的完美平衡
區別于傳統SMoE,通過參數共享降低冗余與正交約束保證專家專業化的協同的平衡,其數學本質是鼓勵學習一組正交掩碼
對共享參數進行結構化調制,使各專家在共享知識基座θδ上形成互補的專業化能力
。
- 參數高效:僅需存儲一份θδ,避免參數冗余,大大節約訓練開銷
- 知識遷移:梯度更新
聚合所有專家信號,促進跨任務泛化 - 專家專業化:每個專家獨享可學習的神經元二進制掩碼→通過對掩碼的正交懲罰 → 自動篩選適領域特定專業化參數
應用場景多適配:
小樣本視覺任務:給定少量任務樣本→動態訓練特定任務的教師模型→通過知識蒸餾引導「插值專家」模型的組合泛化能力,訓練效率提升43%。
零樣本指令遵循:通過對「插值專家」二進制掩碼的正交約束→鼓勵「插值專家」參數專業化→通過訓練,達到知識共享于領域專業化的黃金平衡。
圖片
實驗驗證
視覺基座模型驗證:Meta-Dataset大規模視覺小樣本學習基準測試。
圖片
SMAT(SIMoE的視覺版本)在零樣本和小樣本遷移場景中全面超越基線模型,OOD任務表現尤為驚艷:在零樣本設置下,SMAT平均準確率達67.65%,較最佳基線提升2.8%;在小樣本場景(few-shot, with gradient-based fine-tuning)中,SMAT以75.02%的準確率刷新SOTA紀錄。
自然語言基座模型驗證:SuperNaturalInstruction跨任務泛化能力基準測試。
圖片
SIMoE在跨任務泛化能力上展現統治級表現。在12類未見任務中,SIMoE在9類任務上顯著領先:3B模型較全微調基線提升2.5%,8B模型提升1.6%。
自然語言基座模型驗證:Tulu-v3 SFT Mixture多領域泛化能力基準測。
圖片
SIMoE在大規模場景仍保持性能統治力。面對8B參數基座模型和百萬級指令數據,SIMoE在MMLU、GSM8K等12項核心基準平均得分61.1%,以0.6%優勢超越當前SOTA模型Tülu-v3-8B-SFT,在指令遵循(IFEval +1.3%)和安全測試(Safety +1.7%)等任務中展現明顯優勢。
引用文獻:
[1] Sainbayar Sukhbaatar, et al. “Branch-train-mix: Mixing expert LLMs into a mixture-of-experts LLM”. In First Conference on Language Modeling.
論文鏈接:
ICML 2024:https://arxiv.org/abs/2403.08477
ACL 2025:https://arxiv.org/pdf/2506.12597
項目鏈接:





































