基于協(xié)作式語義專家的語言模型微調(diào)（AAAI 2025）原創(chuàng)

發(fā)布于 2025-11-21 08:23

瀏覽

0收藏

摘要

近年來，大型語言模型（Large Language Models, LLMs）的快速發(fā)展拓寬了其應(yīng)用范圍，但同時(shí)也暴露出在平衡通用知識、代碼生成與數(shù)學(xué)推理能力方面存在挑戰(zhàn)。為解決這一問題，本文提出一種適用于監(jiān)督微調(diào)（Supervised Fine-Tuning, SFT）的協(xié)作式語義專家（Collaborative and Semantic Experts, CoE）方法，該方法采用兩階段訓(xùn)練策略。第一階段為專家訓(xùn)練階段，在特定數(shù)據(jù)集上對前饋網(wǎng)絡(luò)（Feed-Forward Network, FFN）進(jìn)行微調(diào)，培養(yǎng)針對特定領(lǐng)域的專用專家模型；第二階段為專家利用階段，在語義引導(dǎo)下將訓(xùn)練好的專家模型整合為結(jié)構(gòu)化模型，以激活特定專家模型，從而提升模型性能與可解釋性。在 MMLU、HumanEval、GSM8K、MT-Bench 和 AlpacaEval 等綜合基準(zhǔn)數(shù)據(jù)集上的評估結(jié)果表明，CoE 方法具有顯著有效性，在各類任務(wù)中不僅表現(xiàn)出更優(yōu)性能與專家協(xié)作能力，還大幅超越了傳統(tǒng) SFT 方法。

引言

大型語言模型（如 GPT-4（Achiam 等人，2023）、PaLM-2（Anil 等人，2023）和 Claude（Anthropic，2023））的發(fā)展在通用能力方面展現(xiàn)出卓越性能，例如知識理解（OpenAI，2022；Ouyang 等人，2022）、代碼生成（Roziere 等人，2023；Li 等人，2023）以及數(shù)學(xué)推理（Shao 等人，2024；Azerbayev 等人，2023）。這些能力源于大規(guī)模預(yù)訓(xùn)練（Touvron 等人，2023；Bai 等人，2023）與監(jiān)督微調(diào)（SFT）（Ouyang 等人，2022）的結(jié)合。預(yù)訓(xùn)練通過預(yù)測下一個(gè) token 的方式盡可能壓縮數(shù)據(jù)，助力模型學(xué)習(xí)知識；而監(jiān)督微調(diào)則利用有限但多樣的指令 - 數(shù)據(jù)對來對齊模型，確保大型語言模型在具備特定能力的同時(shí)，還能滿足有用、誠實(shí)、無害的要求。

盡管大型語言模型的能力覆蓋范圍廣泛，但數(shù)據(jù)分布與訓(xùn)練策略的差異往往導(dǎo)致模型在不同領(lǐng)域表現(xiàn)出能力不均衡的特點(diǎn)（Yue 等人，2023；Wei 等人，2023a；Singhal 等人，2023）。值得注意的是，對于開源模型（Touvron 等人，2023；Roziere 等人，2023）而言，如何在通用知識、代碼生成與數(shù)學(xué)推理三大領(lǐng)域?qū)崿F(xiàn)平衡性能，仍是尚未解決的挑戰(zhàn)（Xu 等人，2023b）。

基于協(xié)作式語義專家的語言模型微調(diào)（AAAI 2025）-AI.x社區(qū)

圖 1：不同 SFT 設(shè)置下模型在 MMLU、GSM8K-CoT 和 HumanEval 任務(wù)上的性能對比。其中，LLaMa2-7B-SFT 表示混合所有指令數(shù)據(jù)進(jìn)行訓(xùn)練的模型，而 “專家模型（Expert）” 表示僅使用特定領(lǐng)域數(shù)據(jù)訓(xùn)練的模型，例如 “代碼專家模型（Expert-Code）” 僅使用代碼相關(guān)數(shù)據(jù)進(jìn)行訓(xùn)練。

近年來，已有研究致力于平衡開源大型語言模型的多元能力。一種思路是通過持續(xù)預(yù)訓(xùn)練增強(qiáng)模型較弱的能力（Scialom、Chakrabarty 和 Muresan，2022；Azerbayev 等人，2023；Xu 等人，2023b；Sukhbaatar 等人，2024）。例如，Lemur 模型（Xu 等人，2023b）通過精心混合數(shù)據(jù)，試圖平衡模型的代碼能力與通用能力。該方法雖有一定效果，但數(shù)據(jù)成本極高，且通常需要收集大量 token 才能實(shí)現(xiàn)預(yù)期能力。另一種策略是分支訓(xùn)練混合（Branch-Train-Mix）方法（Sukhbaatar 等人，2024），該方法在持續(xù)預(yù)訓(xùn)練的基礎(chǔ)上，先訓(xùn)練具備多種能力的分支模型，再通過專家混合（Mixture-of-Experts, MoE）方法（Jacobs 等人，1991；Shazeer 等人，2017；Fedus、Zoph 和 Shazeer，2022）將這些分支模型整合。然而，有研究表明（Jiang 等人，2024），采用標(biāo)準(zhǔn)方式訓(xùn)練的 MoE 模型并未表現(xiàn)出領(lǐng)域?qū)Ｓ眯?—— 人們完全無法確定每個(gè)專家模型的職責(zé)范圍，這與人類對結(jié)構(gòu)化、可解釋模型的期望相悖。

此外，本文認(rèn)為現(xiàn)有研究在很大程度上忽視了在監(jiān)督微調(diào)階段實(shí)現(xiàn)能力平衡的必要性。若不考慮模型特定能力，直接混合不同領(lǐng)域的指令數(shù)據(jù)，會(huì)阻礙模型充分發(fā)揮預(yù)訓(xùn)練階段所積累的潛力。如圖 1 所示，若按能力類別對 SFT 數(shù)據(jù)進(jìn)行分組，直接混合訓(xùn)練的方式無法達(dá)到單獨(dú)訓(xùn)練特定領(lǐng)域模型的性能水平，這表明當(dāng)前的 SFT 流程確實(shí)存在能力損失與能力沖突問題。

為此，本文提出一種基于 CoE（協(xié)作式語義專家）的 SFT 方法，該方法包含兩個(gè)不同階段。第一階段為專家訓(xùn)練階段，僅在特定數(shù)據(jù)集上對前饋網(wǎng)絡(luò)（FFN）（Vaswani 等人，2017）進(jìn)行微調(diào)，生成分別對應(yīng)通用知識、代碼生成和數(shù)學(xué)推理領(lǐng)域的專家模型。第二階段為專家利用階段，將多個(gè)專家模型整合為單一的語義路由 MoE 模型。在這一階段，專家模型參數(shù)被凍結(jié)，僅訓(xùn)練剩余參數(shù)。這種交替訓(xùn)練方式使得在專家訓(xùn)練階段和專家利用階段訓(xùn)練的模塊能夠形成互補(bǔ)，確保兩階段之間實(shí)現(xiàn)無縫過渡。此外，與傳統(tǒng)專家混合模型不同，CoE 方法基于語義引導(dǎo)的數(shù)據(jù)標(biāo)注來激活特定專家模型，這使得模型結(jié)構(gòu)更清晰、可解釋性更強(qiáng) —— 每個(gè)專家模型都針對特定能力進(jìn)行訓(xùn)練和使用。

本文在多個(gè)主流基準(zhǔn)數(shù)據(jù)集上進(jìn)行了全面評估，包括用于測試通用知識的 MMLU（Hendrycks 等人，2020）、用于測試代碼生成的 HumanEval（Chen 等人，2021）、用于測試數(shù)學(xué)能力的 GSM8K（Cobbe 等人，2021），以及用于測試指令遵循能力的 MT-Bench（Zheng 等人，2024）和 AlpacaEval（Dubois 等人，2024）。評估結(jié)果表明，CoE 方法能夠?qū)崿F(xiàn)與各領(lǐng)域?qū)Ｓ脤＜夷Ｐ拖喈?dāng)?shù)淖顑?yōu)性能，充分驗(yàn)證了其有效性。值得注意的是，在 PoT（程序思維，Gao 等人，2023）評估中，CoE 方法表現(xiàn)出更出色的協(xié)作能力 —— 代碼專家模型可協(xié)助解決數(shù)學(xué)問題，性能超越傳統(tǒng) SFT 方法。這種協(xié)同效應(yīng)凸顯了專家協(xié)作在提升模型跨任務(wù)性能方面的潛力。

預(yù)備知識

標(biāo)準(zhǔn) Transformer（Vaswani 等人，2017）架構(gòu)由 L 個(gè)堆疊的塊組成，每個(gè)塊包含一個(gè)自注意力模塊（self-attention module）和一個(gè)前饋網(wǎng)絡(luò)（FFN），通常還會(huì)結(jié)合層歸一化（Layer Normalization）（Ba、Kiros 和 Hinton，2016）與殘差連接（residual connections）（He 等人，2016）；為簡化公式，本文在后續(xù)推導(dǎo)中省略了層歸一化與殘差連接部分。在 Transformer 中引入專家混合（MoE）（Dai 等人，2024；Fedus、Zoph 和 Shazeer，2022）結(jié)構(gòu)時(shí)，每個(gè)塊中的標(biāo)準(zhǔn) FFN 層會(huì)被替換為 MoE 結(jié)構(gòu)的 FFN 層（Dai 等人，2024；Jiang 等人，2024）。這種改造包含多個(gè)專家網(wǎng)絡(luò)和一個(gè)動(dòng)態(tài)路由模塊，動(dòng)態(tài)路由模塊可根據(jù)輸入 token 確定需要激活的專家模型。

對于具有 E 個(gè)預(yù)設(shè)專家模型和 Top-K 路由機(jī)制的 MoE 結(jié)構(gòu) Transformer，其第 l 層（l ∈ [1, N]）對 token 的處理過程如下：

基于協(xié)作式語義專家的語言模型微調(diào)（AAAI 2025）-AI.x社區(qū)

其中，h_{1: T}^{l-1} 表示第（l-1）層的輸出，z_{1: T}^{l} 表示自注意力模塊的輸出。對于每個(gè) token t ∈ [1, T]，計(jì)算過程如下：

基于協(xié)作式語義專家的語言模型微調(diào)（AAAI 2025）-AI.x社區(qū)

其中，F(xiàn)FN_i 表示第 i 個(gè) FFN 模塊（i ∈ [1, E]），h_{t}^{l} 表示第 l 層中 token t 的最終輸出，Gate(z_{t}^{l}) 是一個(gè)線性模塊，其輸出為用于計(jì)算路由權(quán)重的 logits 向量，1_{TopK}(i) 是指示函數(shù)，定義如下：

基于協(xié)作式語義專家的語言模型微調(diào)（AAAI 2025）-AI.x社區(qū)

softmax 函數(shù)會(huì)對門控 logits 進(jìn)行歸一化，但僅由 TopK 操作篩選出的前 K 個(gè)專家模型會(huì)對當(dāng)前層中每個(gè) token 的輸出產(chǎn)生貢獻(xiàn)。這種機(jī)制使得專家模型的激活具有稀疏性 —— 對于每個(gè) token，僅 E 個(gè)專家模型中的部分模型被激活。

在模型的監(jiān)督微調(diào)過程中，通常采用僅針對目標(biāo) token 的下一個(gè) token 損失（記為L_{SFT}）來優(yōu)化模型性能。

方法

本文提出的方法采用系統(tǒng)化策略構(gòu)建高性能專家混合（MoE）模型，流程如下：首先將大規(guī)模監(jiān)督微調(diào)（SFT）數(shù)據(jù)集標(biāo)注為預(yù)設(shè)類別，然后執(zhí)行兩階段訓(xùn)練 —— 專家訓(xùn)練階段與專家利用階段。

基于協(xié)作式語義專家的語言模型微調(diào)（AAAI 2025）-AI.x社區(qū)

圖 2：兩階段訓(xùn)練方法示意圖。第一階段為專家訓(xùn)練階段，針對通用知識、數(shù)學(xué)推理、代碼生成三大能力類別，分別對前饋網(wǎng)絡(luò)（FFN）參數(shù)進(jìn)行微調(diào)；第二階段為專家利用階段，將訓(xùn)練好的專家模型整合為統(tǒng)一的專家混合（MoE）模型，并利用動(dòng)態(tài)路由機(jī)制優(yōu)化跨任務(wù)協(xié)作性能。

指令數(shù)據(jù)標(biāo)注

為實(shí)現(xiàn)專家模型的針對性微調(diào)，需將指令數(shù)據(jù)準(zhǔn)確分類到預(yù)設(shè)能力類別中。受 Lu 等人（2023）研究的啟發(fā)，本文方法的基礎(chǔ)是對指令數(shù)據(jù)進(jìn)行標(biāo)注，這一過程對專用模型的有效訓(xùn)練至關(guān)重要。

本文從多個(gè)來源收集大規(guī)模 SFT 數(shù)據(jù)，并通過提示 GPT-4 根據(jù)數(shù)據(jù)的主要類別對每個(gè)樣本進(jìn)行系統(tǒng)性標(biāo)注，最終將數(shù)據(jù)分為三大類：通用類（General），對應(yīng)涵蓋廣泛知識的指令；數(shù)學(xué)類（Math），對應(yīng)需要數(shù)學(xué)推理的指令；代碼類（Coding），對應(yīng)與編程相關(guān)的任務(wù)指令。

通過上述標(biāo)注過程，構(gòu)建了三個(gè)專用 SFT 數(shù)據(jù)集：D_{general}（通用數(shù)據(jù)集）、D_{math}（數(shù)學(xué)數(shù)據(jù)集）和D_{coding}（代碼數(shù)據(jù)集），每個(gè)數(shù)據(jù)集均針對特定任務(wù)所需的專業(yè)能力進(jìn)行定制。這些數(shù)據(jù)集確保了每個(gè)專家模型都能得到有效微調(diào)，在其指定的能力類別中展現(xiàn)出高性能。

專家訓(xùn)練

方法的第一階段為專家訓(xùn)練階段，在此階段，每個(gè)專家模型都會(huì)針對特定能力類別（通用知識、數(shù)學(xué)推理、代碼生成）進(jìn)行微調(diào)，以增強(qiáng)其領(lǐng)域?qū)Ｓ眯浴?/p>

設(shè) M 為預(yù)設(shè)基礎(chǔ)模型的全部參數(shù)集合，F(xiàn) 為所有前饋網(wǎng)絡(luò)（FFN）（Vaswani 等人，2017）參數(shù)的集合，具體可表示為F=\{FFN_1, \cdots, FFN_N\}。在專家訓(xùn)練階段，僅更新 F 中的參數(shù)，其余參數(shù)（M \ F）保持凍結(jié)狀態(tài)。

為清晰追蹤與各能力類別唯一對應(yīng)的更新后 FFN 參數(shù)，分別用F_{general}、F_{math}和F_{coding}表示通過D_{general}、D_{math}和D_{coding}微調(diào)得到的 FFN 參數(shù)。

每組 FFN 參數(shù)都會(huì)在其對應(yīng)的專用數(shù)據(jù)集上進(jìn)行 SFT。這種設(shè)計(jì)確保訓(xùn)練過程能精準(zhǔn)增強(qiáng)每個(gè)專家模型在特定能力類別中的能力 —— 不僅為后續(xù)階段的專家協(xié)作奠定基礎(chǔ)，還能讓每個(gè)專家模型對其對應(yīng)能力類別形成深入且扎實(shí)的理解。

專家利用

在專家訓(xùn)練階段之后，進(jìn)入專家利用階段：將單獨(dú)訓(xùn)練的專家模型整合為統(tǒng)一的專家混合（MoE）模型（Jiang 等人，2024；Dai 等人，2024），即本文提出的協(xié)作式語義專家（CoE）模型。

在該階段，首先凍結(jié)前一階段針對各能力類別微調(diào)得到的前饋網(wǎng)絡(luò)（FFN）參數(shù)，然后引入與 MoE 路由器相關(guān)的新參數(shù)（記為 R），用于管理輸入 token 的路由分配。CoE 模型的全部參數(shù)集合定義如下：

基于協(xié)作式語義專家的語言模型微調(diào)（AAAI 2025）-AI.x社區(qū)

隨后，使用三個(gè) SFT 數(shù)據(jù)集的并集（D_{general} \cup D_{math} \cup D_{coding}）對剩余參數(shù)（\mathcal{M} \backslash \mathcal{F} \cup \mathcal{R}）進(jìn)行微調(diào)。此外，為同時(shí)保留各專家模型的專業(yè)能力，并增強(qiáng) MoE 結(jié)構(gòu)對專家協(xié)作的利用能力，本文引入一種邊際損失（margin loss），專門用于提升路由器決策的靈活性。

設(shè)Logits \in \mathbb{R}^{B \times T \times E}表示路由器對每個(gè) token 輸出的 logits，其中 B 為批大小（batch size），T 為序列長度（sequence length），E 為專家模型數(shù)量；設(shè)L \in \mathbb{N}^{B \times T}表示語義目標(biāo)專家模型的索引，與樣本所屬的能力類別相對應(yīng)。由于每個(gè)樣本的標(biāo)注類別對序列中所有 token 均適用，因此對于每個(gè)樣本，L 在 T 維度上的值保持不變。設(shè) K 為需要考慮的前 K 個(gè)專家模型 logits 的數(shù)量。

1.首先，提取目標(biāo)專家模型的 logits（其中 b 為批索引，t 為序列中的位置索引）：

C_{b, t}= Logits _{b, t, L_{b, t}} \quad (7)

1.然后，確定批中每個(gè)位置每個(gè) token 的第 K 高 logits：

K_{b, t}=TopK\left(Logits_{b, t,:}\right) \quad (8)

1.計(jì)算正確 logits 與閾值 logits 之間的邊際值：

M_{b,t}=C_{b,t}-K_{b,t} \quad (9)

1.最終，邊際路由損失（margin routing loss）表示為所有 token 和所有樣本的平均值：

\mathcal{L}_{router }=\frac{1}{B \cdot T} \sum_{b=1}^{B} \sum_{t=1}^{T} max \left(0,-M_{b, t}\right) \quad (10)

基于協(xié)作式語義專家的語言模型微調(diào)（AAAI 2025）-AI.x社區(qū)

通過對專用 FFN 參數(shù)進(jìn)行戰(zhàn)略性凍結(jié)與整合，CoE 模型確保了各能力類別的專業(yè)能力能被有效利用和保留，不僅提升了模型的穩(wěn)健性能，還實(shí)現(xiàn)了不同專家模塊之間的無縫協(xié)作。

實(shí)驗(yàn)

指令微調(diào)數(shù)據(jù)集

本文方法最初使用的大規(guī)模數(shù)據(jù)集源自 TULU-v2（Wang 等人，2023；Ivison 等人，2023）—— 這是一個(gè)綜合的指令微調(diào)數(shù)據(jù)集集合。研究人員從 ShareGPT（Chiang 等人，2023）、WizardLM（Xu 等人，2023a）、CoT（Chung 等人，2024）、FLAN（Chung 等人，2024）、Open-Orca（Mukherjee 等人，2023；Lian 等人，2023）、GPT4-Alpaca（Peng 等人，2023）和 Open Assistant 1（K?p 等人，2024）中提取樣本，并對每個(gè)樣本進(jìn)行標(biāo)注，將其歸類到通用（General）、代碼（Coding）或數(shù)學(xué)（Math）能力類別中。為增強(qiáng)代碼數(shù)據(jù)集和數(shù)學(xué)數(shù)據(jù)集的豐富性，研究人員還補(bǔ)充了以下數(shù)據(jù)：代碼數(shù)據(jù)集新增了來自 CodeAlpaca（Chaudhary，2023）和 OSS-Instruct（Wei 等人，2023b）的數(shù)據(jù)；數(shù)學(xué)數(shù)據(jù)集新增了來自 MAmmoTH（Yue 等人，2023）的 CoT 分區(qū)數(shù)據(jù)。

基于協(xié)作式語義專家的語言模型微調(diào)（AAAI 2025）-AI.x社區(qū)

圖 3：桑基圖（Sankey diagram）展示了不同 SFT 數(shù)據(jù)集向三大專業(yè)類別（通用、代碼、數(shù)學(xué)）的分布與流向。

評估協(xié)議

專業(yè)能力評估數(shù)據(jù)集

?通用能力：采用大規(guī)模多任務(wù)語言理解數(shù)據(jù)集（Massive Multitask Language Understanding, MMLU）（Hendrycks 等人，2020）評估模型的通用知識能力，該數(shù)據(jù)集涵蓋多個(gè)不同主題領(lǐng)域。

?代碼能力：采用 HumanEval 數(shù)據(jù)集（Chen 等人，2021）評估模型的代碼生成能力，該數(shù)據(jù)集包含 164 個(gè)用自然語言描述的編程問題及對應(yīng)的測試用例。模型需生成滿足需求且能通過所有測試用例的 Python 腳本。

?數(shù)學(xué)能力：采用小學(xué)數(shù)學(xué)數(shù)據(jù)集（Grade School Math, GSM8K）（Cobbe 等人，2021）評估模型的數(shù)學(xué)能力，尤其通過思維鏈（Chain-of-Thought, CoT）提示方法測試模型的問題解決能力，該方法可衡量模型的逐步推理能力。

專家協(xié)作評估

為評估模型整合數(shù)學(xué)與代碼能力的水平，研究人員采用程序思維（Program-of-Thought, PoT）方法（Gao 等人，2023），并結(jié)合 GSM8K 數(shù)據(jù)集進(jìn)行評估。該方法測試模型在解決數(shù)學(xué)問題與生成可執(zhí)行 Python 腳本方面的熟練度 —— 通過執(zhí)行生成的腳本，對照預(yù)期結(jié)果評估腳本的準(zhǔn)確性與效率。由于 PoT 評估所用數(shù)據(jù)未包含在訓(xùn)練數(shù)據(jù)中，因此該評估能有效檢驗(yàn)?zāi)Ｐ偷慕M合泛化能力，以及將整合技能應(yīng)用于新任務(wù)的能力。

指令遵循評估

為評估模型理解和響應(yīng)用戶輸入的能力，研究人員采用兩個(gè)基準(zhǔn)數(shù)據(jù)集進(jìn)行測試：

?MT-Bench（Zheng 等人，2024）：包含 80 個(gè)多輪對話問題，每個(gè)問題涉及兩輪交互。使用 GPT-4（Achiam 等人，2023）對模型響應(yīng)進(jìn)行 0-10 分評分，以定量評估模型的對話能力。

?AlpacaEval（Dubois 等人，2024）：通過將模型響應(yīng)與 text-davinci-003 的響應(yīng)進(jìn)行對比，評估模型的指令遵循能力；使用 GPT-4 判斷模型響應(yīng)的 “勝率”（win rate）。

實(shí)現(xiàn)細(xì)節(jié)

本實(shí)驗(yàn)基于 LLaMA2-7B-Base 模型（Touvron 等人，2023），在 8 塊 NVIDIA A100 GPU 上運(yùn)行；采用 ChatML 格式模板（OpenAI，2022），將訓(xùn)練序列長度限制為 2048 個(gè) token；為保證一致性，每臺設(shè)備的批大小（batch size）統(tǒng)一設(shè)置為 8。優(yōu)化過程使用 AdamW 優(yōu)化器，初始學(xué)習(xí)率通過預(yù)熱階段提升至1 \times 10^{-5}，隨后通過余弦調(diào)度器（cosine scheduler）將學(xué)習(xí)率調(diào)整至最大值的 10%。

專家訓(xùn)練階段

在專家訓(xùn)練階段，微調(diào)僅針對 Transformer 塊中的前饋網(wǎng)絡(luò)（FFN）組件進(jìn)行，其余參數(shù)保持凍結(jié)狀態(tài)。通過該階段訓(xùn)練得到的專用模型分別命名為 “通用專家模型（Expert-General）”、“數(shù)學(xué)專家模型（Expert-Math）” 和 “代碼專家模型（Expert-Coding）”。

專家利用階段

在專家利用階段，研究人員通過專家混合（MoE）架構(gòu)整合訓(xùn)練好的專家模型。每個(gè) MoE 塊配備一個(gè) TopK 路由模塊，該模塊采用隨機(jī)初始化方式，設(shè)置為 Top-2 路由機(jī)制（即每個(gè) token 分配給兩個(gè)專家模型）。整合后的模型命名為 CoE-3E2A，其中 “3E” 表示包含三個(gè)專家模型，“2A” 表示采用 Top-2 專家激活機(jī)制。

主要結(jié)果

研究人員對專家訓(xùn)練與專家利用過程進(jìn)行了對比分析，評估的模型包括：基礎(chǔ)模型 LLaMA2-7B-Base、在所有能力類別上進(jìn)行監(jiān)督微調(diào)的模型 LLaMA2-7B-SFT、各領(lǐng)域?qū)Ｓ脤＜夷Ｐ停ㄍㄓ脤＜夷Ｐ汀?shù)學(xué)專家模型、代碼專家模型），以及整合后的 MoE 模型 CoE-3E2A。評估結(jié)果分別如表 1 和表 2 所示。

基于協(xié)作式語義專家的語言模型微調(diào)（AAAI 2025）-AI.x社區(qū)

表 1：基礎(chǔ)模型（LLaMA2-7B-Base）、監(jiān)督微調(diào)模型（LLaMA2-7B-SFT）、各專用專家模型（通用專家模型、數(shù)學(xué)專家模型、代碼專家模型）及 CoE-3E2A 模型在不同數(shù)據(jù)集上的性能對比

基于協(xié)作式語義專家的語言模型微調(diào)（AAAI 2025）-AI.x社區(qū)

表 2：CoE-3E2A 模型與其他模型在 MT-Bench 和 AlpacaEval 數(shù)據(jù)集上的性能對比

專業(yè)能力評估數(shù)據(jù)集結(jié)果

針對特定能力類別的專用專家模型在對應(yīng)領(lǐng)域的表現(xiàn)持續(xù)優(yōu)于 SFT 模型：在 GSM8K-CoT 任務(wù)上，專家模型性能提升 11%；在 HumanEval 任務(wù)上，專家模型性能提升 43%。這一結(jié)果進(jìn)一步證明，相比混合訓(xùn)練方式，針對特定領(lǐng)域的專用訓(xùn)練更具優(yōu)勢。

協(xié)作數(shù)據(jù)集評估結(jié)果

在 GSM8K-PoT 評估中，CoE-3E2A 模型的執(zhí)行準(zhǔn)確率達(dá)到 44.81%，這一結(jié)果表明該模型在整合不同專業(yè)領(lǐng)域知識、實(shí)現(xiàn)跨領(lǐng)域泛化方面具備出色能力。該性能驗(yàn)證了 MoE 架構(gòu)在構(gòu)建動(dòng)態(tài)、高性能模型方面的有效性。

MT-Bench 與 AlpacaEval 評估結(jié)果

在基于 GPT-4 的評估中，CoE-3E2A 模型表現(xiàn)顯著優(yōu)于其他模型：在 MT-Bench 數(shù)據(jù)集上，整體得分為 6.37；在 AlpacaEval 數(shù)據(jù)集上，勝率達(dá)到 73.01%。在 MT-Bench 評估中，CoE-3E2A 模型首輪得分為 6.63，第二輪仍保持 6.09 的高分，展現(xiàn)出穩(wěn)定的上下文連貫性；在 AlpacaEval 評估中，該模型大幅領(lǐng)先，勝率比 SFT 模型高出 10% 以上。這些結(jié)果表明，CoE-3E2A 模型在響應(yīng)復(fù)雜用戶指令方面具備出色能力。模型在多個(gè)基準(zhǔn)數(shù)據(jù)集上的穩(wěn)健表現(xiàn)，充分證明了 CoE 架構(gòu)在應(yīng)用專家知識方面的有效性，也驗(yàn)證了該架構(gòu)在處理復(fù)雜現(xiàn)實(shí)場景任務(wù)中的適用性。

參數(shù)更新策略消融實(shí)驗(yàn)

本節(jié)旨在評估專家利用階段不同參數(shù)更新策略對 MoE 模型性能的影響。研究人員通過消融實(shí)驗(yàn)確定最優(yōu)更新策略 —— 該策略需在提升模型性能的同時(shí)，保留專家訓(xùn)練階段獲得的專用知識。實(shí)驗(yàn)將本文提出的排除 FFN 參數(shù)的 SFT 模型（CoE-3E2A）與以下兩個(gè)變體模型進(jìn)行對比：

?全參數(shù) SFT 模型（CoE-3E2A-full）：對 MoE 模型中的所有參數(shù)進(jìn)行統(tǒng)一更新。

?僅路由器 SFT 模型（CoE-3E2A-router）：僅更新 MoE 路由模塊的參數(shù)。

如表 3 所示，CoE-3E2A 模型在整體性能上優(yōu)于兩個(gè)變體模型，這是因?yàn)樵撃Ｐ驮趧?dòng)態(tài)更新其他組件的同時(shí)，保留了 FFN 參數(shù)中的專用知識。CoE-3E2A-full 模型的性能略有下降，這表明對所有參數(shù)進(jìn)行更新可能會(huì)削弱模型的專用能力；而 CoE-3E2A-router 模型雖與 CoE-3E2A-full 模型性能相近，但在 GSM8K-PoT 等任務(wù)中表現(xiàn)較差，這一結(jié)果凸顯了該模型在促進(jìn)專家協(xié)作方面存在的挑戰(zhàn)。

基于協(xié)作式語義專家的語言模型微調(diào)（AAAI 2025）-AI.x社區(qū)

表 3：CoE-3E2A（排除 FFN 參數(shù)微調(diào)）、CoE-3E2A-full（全參數(shù)更新）與 CoE-3E2A-router（僅路由器模塊更新）在不同基準(zhǔn)數(shù)據(jù)集上的性能對比

基于協(xié)作式語義專家的語言模型微調(diào)（AAAI 2025）-AI.x社區(qū)

表 4：不同模型設(shè)置的計(jì)算資源使用情況匯總，包括總參數(shù)數(shù)量（#Params）、可訓(xùn)練參數(shù)數(shù)量（#Trainable）和 GPU 內(nèi)存消耗（GPU Mem），展示了不同參數(shù)更新策略對資源效率的影響

表 4 列出了各模型配置的計(jì)算資源使用情況，包括總參數(shù)數(shù)量、可訓(xùn)練參數(shù)數(shù)量和 GPU 內(nèi)存消耗 1。LLaMA2-7B-Base 模型和 LLaMA2-7B-SFT 模型的參數(shù)數(shù)量均為 67.4 億；由于僅對 FFN 參數(shù)進(jìn)行選擇性更新，專家模型的可訓(xùn)練參數(shù)數(shù)量為 45.8 億；CoE-3E2A 模型在性能與資源使用之間實(shí)現(xiàn)平衡，可訓(xùn)練參數(shù)數(shù)量為 24.1 億，GPU 內(nèi)存消耗為 45.01 GB。相比之下，CoE-3E2A-full 模型需更新所有參數(shù)；而 CoE-3E2A-router 模型僅關(guān)注路由機(jī)制更新，資源消耗最低，GPU 內(nèi)存消耗僅為 40.71 GB。這些差異表明，針對性更新策略能顯著提升資源效率 ——CoE-3E2A 模型和 CoE-3E2A-router 模型的案例證明，通過聚焦關(guān)鍵組件增強(qiáng)，既能優(yōu)化模型性能，又能降低運(yùn)行成本。

注 1：為保證一致性，所有實(shí)驗(yàn)中每臺設(shè)備的批大小均統(tǒng)一設(shè)置為 8。

模型規(guī)模消融實(shí)驗(yàn)

本節(jié)旨在驗(yàn)證 CoE-3E2A 模型的性能提升是否源于模型規(guī)模的擴(kuò)大，還是源于專家知識的戰(zhàn)略性整合。研究人員通過消融實(shí)驗(yàn)，將 CoE-3E2A 模型與以下兩個(gè)僅擴(kuò)大規(guī)模但未進(jìn)行專用微調(diào)的變體模型進(jìn)行對比：

?復(fù)制 MoE 結(jié)構(gòu)模型（MoE-3E2A）：為測試 MoE 架構(gòu)復(fù)雜度對性能的影響，研究人員使用三個(gè) LLaMA2-7B-Base 模型副本初始化專家模型（未進(jìn)行專用訓(xùn)練）。該模型用于評估結(jié)構(gòu)與規(guī)模的擴(kuò)大是否能提升模型性能。

?匹配激活參數(shù)模型（MoE-2E2A）：該模型的激活參數(shù)數(shù)量與 CoE-3E2A 模型一致，用于評估僅通過擴(kuò)大參數(shù)規(guī)模是否能實(shí)現(xiàn)觀察到的性能提升。

如表 5 所示，在幾乎所有評估任務(wù)中，CoE-3E2A 模型的性能均優(yōu)于 MoE-3E2A 模型和 MoE-2E2A 模型，尤其在 GSM8K-PoT 和 AlpacaEval 任務(wù)中優(yōu)勢顯著。這一結(jié)果證實(shí)了將專用專家知識整合到 MoE 架構(gòu)中的價(jià)值，也表明若未對專家模型進(jìn)行針對性訓(xùn)練，僅通過增加專家模型數(shù)量或擴(kuò)大參數(shù)規(guī)模，無法持續(xù)提升模型性能。有趣的是，在多個(gè)基準(zhǔn)數(shù)據(jù)集上，MoE-2E2A 模型的性能略優(yōu)于 MoE-3E2A 模型。這種細(xì)微的性能差異可能源于 MoE-2E2A 模型更精簡、高效的參數(shù)使用方式 —— 由于需要管理的專家模型數(shù)量更少，MoE-2E2A 模型的路由過程復(fù)雜度更低，從而能更高效地利用計(jì)算資源。

基于協(xié)作式語義專家的語言模型微調(diào)（AAAI 2025）-AI.x社區(qū)

表 5：CoE-3E2A 模型與 MoE-3E2A 模型、MoE-2E2A 模型在多個(gè)基準(zhǔn)數(shù)據(jù)集上的性能對比，分析模型規(guī)模擴(kuò)大與針對性專家整合對性能的影響

路由損失消融實(shí)驗(yàn)

本節(jié)探討路由損失（routing loss）的有效性 —— 該損失函數(shù)旨在提升路由器決策過程的靈活性。為驗(yàn)證其有效性，研究人員將 CoE-3E2A 模型與未使用額外路由損失函數(shù)訓(xùn)練的變體模型（記為 “無L_{router}模型”）進(jìn)行對比。

如表 6 所示，使用邊際損失（margin loss）的模型配置在性能上優(yōu)于未使用該損失的配置，這表明通過靈活選擇專家模型，能更充分地利用模型的多元專業(yè)能力。這些結(jié)果證實(shí)，設(shè)計(jì)合理的路由損失函數(shù)對最大化 MoE 模型潛力至關(guān)重要，尤其在需要專家協(xié)作的任務(wù)中。

基于協(xié)作式語義專家的語言模型微調(diào)（AAAI 2025）-AI.x社區(qū)

圖 4：CoE-3E2A 模型處理 PoT 問題時(shí)不同層的路由決策可視化。不同背景顏色代表每個(gè)輸出 token 所激活的專家模型組合。

基于協(xié)作式語義專家的語言模型微調(diào)（AAAI 2025）-AI.x社區(qū)

表 6：CoE-3E2A 模型（含路由損失）與無路由損失模型（w/o L_{router}）的性能對比

路由分析

本節(jié)分析 CoE-3E2A 模型在處理 GSM8K-PoT 問題時(shí)不同層的路由決策。研究人員通過為不同激活專家組合分配不同背景色，可視化了第 1 層、第 8 層和第 32 層每個(gè)輸出 token 的路由決策。

如圖 4 所示，不同層的路由決策呈現(xiàn) “收斂式” 特征：在第 1 層，模型在不同專家組合之間頻繁 “切換路由”，這表明模型在處理初期會(huì)探索不同專家能力，以實(shí)現(xiàn)對輸入的最優(yōu)理解；到第 8 層，路由決策逐漸穩(wěn)定，更長序列的 token 會(huì)持續(xù)被路由到相同專家模型；這種趨勢在第 32 層進(jìn)一步強(qiáng)化 —— 幾乎所有 token 都被分配到單一專家組合。這一現(xiàn)象表明，隨著模型處理深度的增加，模型會(huì)識別并鎖定對當(dāng)前任務(wù)最有效的專家配置，從而同時(shí)提升處理效率與輸出連貫性。

結(jié)論

本研究提出一種協(xié)作式語義專家（CoE）框架，這是一種用于優(yōu)化大型語言模型的新型方法。該方法采用兩階段監(jiān)督微調(diào)策略，在精心設(shè)計(jì)的專家混合（MoE）結(jié)構(gòu)中實(shí)現(xiàn)專家訓(xùn)練與專家利用。該策略通過高效的選擇性參數(shù)更新，實(shí)現(xiàn)了兩階段之間的無縫整合。在多個(gè)不同基準(zhǔn)數(shù)據(jù)集上的評估結(jié)果表明，CoE 方法具有顯著有效性 —— 通過專家協(xié)作，模型展現(xiàn)出更優(yōu)的問題解決能力。該框架不僅提升了大型模型的可解釋性與資源效率，還為部署復(fù)雜 MoE 模型以應(yīng)對具備高適應(yīng)性與高性能需求的復(fù)雜任務(wù)樹立了新標(biāo)桿。

本文轉(zhuǎn)載自??AIRoobt?? ，作者：Jiaxi Yang等

?著作權(quán)歸作者所有，如需轉(zhuǎn)載，請注明出處，否則將追究法律責(zé)任

標(biāo)簽

語言模型微調(diào)

大型語言模型

LLMs

已于2025-11-21 08:23:00修改

贊

回復(fù)