ICML 2025 | CoTo:讓LoRA訓練「漸入佳境」,模型融合、剪枝樣樣精通
本文第一作者莊湛,香港城市大學和南方科技大學聯合培養博士生,研究方向是遷移學習、擴散模型、大模型微調等。本文通訊作者魏穎,浙江大學「百人計劃」研究員,博士生導師,研究方向包括持續學習、遷移學習、組合泛化以及在科學領域中的應用等。通訊作者張宇,南方科技大學副教授,研究方向包括深度學習、多任務學習、遷移學習、元學習以及在計算機視覺和自然語言處理方面的應用。
還在為 LoRA 訓練不穩定、模型融合效果差、剪枝后性能大降而煩惱嗎?來自香港城市大學、南方科技大學、浙江大學等機構的研究者們提出了一種簡單的漸進式訓練策略,CoTo,通過在訓練早期隨機失活一部分適配器,并逐漸提高其激活概率,有效緩解了層級不均衡問題,并顯著增強了模型在多任務融合和剪枝等操作上的魯棒性和有效性。該工作已被機器學習頂會 ICML 2025 接收。

- 論文標題:Come Together, But Not Right Now: A Progressive Strategy to Boost Low-Rank Adaptation
- 論文鏈接:https://openreview.net/forum?id=Zha2m39ZoM
- 代碼倉庫:https://github.com/zwebzone/coto
- 官網海報:https://icml.cc/virtual/2025/poster/44836
常規 LoRA 訓練的隱藏缺陷
參數高效微調技術已成為預訓練大模型在下游任務應用的關鍵技術。然而,盡管 LoRA 如此成功,它依然面臨著一些棘手的問題:
1. 「惰性訓練」(Lazy Training):LoRA 的優化過程常常會陷入初始化點附近的次優解,限制了模型的泛化能力。
2. 層級不平衡:在訓練中,梯度更新往往集中位于模型的頂層適配器,導致底層適配器訓練不足,整體性能受限。
3. 下游操作困難:上述問題使得多個 LoRA 模型的融合和剪枝等下游操作變得非常困難,效果常常不盡人意。
CoTo 策略:何不讓 LoRA 「漸入佳境」?
為了解決這些挑戰,研究者們提出了 CoTo,其核心思想非常簡潔直觀:在訓練初期,不必讓每一層的訓練 「一擁而上」,而是讓 LoRA 適配器 「循序漸進」 地參與訓練。具體來說,CoTo 采用了一種漸進式的激活策略:
- 訓練初期:以一個較高的概率隨機 「失活」 一部分 LoRA 適配器。這迫使模型在更新時不能過分依賴某幾層,從而讓梯度更均勻地流向所有層級,鼓勵模型探索更廣闊的參數空間。
- 訓練中后期:線性地提高適配器的激活概率,直到所有適配器都完全參與訓練,回歸到標準的微調模式。
這種 「先抑后揚」 的策略帶來了諸多好處:它不僅促進了層級間的均衡優化,還顯著提升了不同隨機種子訓練出的模型之間的線性模式連通性 (Linear Mode Connectivity, LMC) 和 Dropout 穩定性,為模型融合與剪枝打下了堅實的基礎。

圖 1:CoTo 漸進式激活示意圖。訓練初期(t <3T/4),適配器被隨機失活(灰色部分),其激活概率 p (t) 隨訓練線性增長;訓練后期,所有適配器保持激活。
實驗結果
CoTo 最令人興奮的貢獻在于它極大地提升了 LoRA 模型的融合和剪枝能力,且 CoTo 本身也能在單任務的泛化性能和訓練效率上帶來提升。
更有效的模型融合
- 線性插值準確率:在常識推理與圖像分類任務中,對兩個獨立訓練的 LoRA 模型進行線性插值時,標準 LoRA 的性能在融合點 (λ=0.5) 會急劇下降。相比之下,CoTo 模型展現了優越的線性模式連通性 (LMC),在整個插值路徑上均能保持平滑且高效的性能過渡。
- 多任務 LoRA 融合:在 GLUE 數據集上,無論是基于 LLaMA-2 (7B, 13B) 還是 DeBERTa-v3 模型,通過 CoTo 訓練的 LoRA 模塊在進行多任務合并時,其準確率均穩定超越了使用常規訓練方法融合的基線模型。

圖 2:常識推理任務的線性插值準確率。

圖 3:圖像分類任務的線性插值準確率。

圖 4:使用 LLaMA-2-7B 和 LLaMA-2-13 模型進行多任務 LoRA 融合的準確率。
更魯棒的模型剪枝
CoTo 的訓練方式天然地增強了模型的剪枝容錯能力。如下圖所示,無論是在移除交替層、底層、中層還是高層適配器的結構化剪枝中,還是在不同稀疏度的非結構化剪枝中,CoTo-LoRA 的性能都全面超越了標準 LoRA。

圖 5:結構化剪枝對比(左)和非結構化剪枝對比(右)。
性能與效率雙提升
- 性能更強:在涵蓋視覺(11 個圖像分類任務)、語言(8 個常識推理任務)和數學推理等多個領域的基準測試中,CoTo 都能穩定地提升包括 LoRA、DoRA、HiRA 在內的多種 LoRA 變體的性能。
- 訓練更快:由于在訓練早期跳過了部分適配器的計算,CoTo 還能降低訓練開銷。例如,在 HiRA 上應用 CoTo,可以實現超 24% 的訓練加速!

圖 6:在常識推理和數學推理上,基于不同 LoRA 變體和訓練策略的性能提升。
消融實驗
為了驗證 CoTo 各個設計選擇的合理性并探究其性能提升的根源,研究團隊在訓練階段比例、激活概率曲線、嵌套 Dropout 策略、學習率和 LoRA rank 等多個方面進行了一系列嚴謹的消融實驗。這些實驗不僅證明了 CoTo 設計的合理性,也為我們提供了關于如何有效正則化 LoRA 的深刻見解。
令人欣喜的是,CoTo 的代碼實現十分簡潔,用戶只需對現有 LoRA 訓練流程做三步改動即可利用這一策略,感興趣的讀者可以訪問代碼倉庫,親自體驗 CoTo 的效果!
總結
CoTo 通過一個簡單而巧妙的漸進式訓練策略,有效解決了 LoRA 訓練中的層級不平衡和 「懶惰」 優化問題。它不僅提升了模型的單任務泛化能力,更重要的是,它極大地增強了 LoRA 適配器的可組合性與魯棒性,讓模型融合與剪枝等下游操作變得更加簡單高效。CoTo 無需修改模型架構,可以作為即插即用的模塊與各類 LoRA 方法無縫集成。文章中還提供了漸進優化和合作博弈兩個角度深入分析了 CoTo 帶來的優勢。我們相信,這項工作將為參數高效微調領域的研究與應用帶來新的啟發。






















