基于協(xié)作式語義專家的語言模型微調(diào)(AAAI 2025) 原創(chuàng)
摘要
近年來,大型語言模型(Large Language Models, LLMs)的快速發(fā)展拓寬了其應(yīng)用范圍,但同時(shí)也暴露出在平衡通用知識、代碼生成與數(shù)學(xué)推理能力方面存在挑戰(zhàn)。為解決這一問題,本文提出一種適用于監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT)的協(xié)作式語義專家(Collaborative and Semantic Experts, CoE)方法,該方法采用兩階段訓(xùn)練策略。第一階段為專家訓(xùn)練階段,在特定數(shù)據(jù)集上對前饋網(wǎng)絡(luò)(Feed-Forward Network, FFN)進(jìn)行微調(diào),培養(yǎng)針對特定領(lǐng)域的專用專家模型;第二階段為專家利用階段,在語義引導(dǎo)下將訓(xùn)練好的專家模型整合為結(jié)構(gòu)化模型,以激活特定專家模型,從而提升模型性能與可解釋性。在 MMLU、HumanEval、GSM8K、MT-Bench 和 AlpacaEval 等綜合基準(zhǔn)數(shù)據(jù)集上的評估結(jié)果表明,CoE 方法具有顯著有效性,在各類任務(wù)中不僅表現(xiàn)出更優(yōu)性能與專家協(xié)作能力,還大幅超越了傳統(tǒng) SFT 方法。
引言
大型語言模型(如 GPT-4(Achiam 等人,2023)、PaLM-2(Anil 等人,2023)和 Claude(Anthropic,2023))的發(fā)展在通用能力方面展現(xiàn)出卓越性能,例如知識理解(OpenAI,2022;Ouyang 等人,2022)、代碼生成(Roziere 等人,2023;Li 等人,2023)以及數(shù)學(xué)推理(Shao 等人,2024;Azerbayev 等人,2023)。這些能力源于大規(guī)模預(yù)訓(xùn)練(Touvron 等人,2023;Bai 等人,2023)與監(jiān)督微調(diào)(SFT)(Ouyang 等人,2022)的結(jié)合。預(yù)訓(xùn)練通過預(yù)測下一個(gè) token 的方式盡可能壓縮數(shù)據(jù),助力模型學(xué)習(xí)知識;而監(jiān)督微調(diào)則利用有限但多樣的指令 - 數(shù)據(jù)對來對齊模型,確保大型語言模型在具備特定能力的同時(shí),還能滿足有用、誠實(shí)、無害的要求。
盡管大型語言模型的能力覆蓋范圍廣泛,但數(shù)據(jù)分布與訓(xùn)練策略的差異往往導(dǎo)致模型在不同領(lǐng)域表現(xiàn)出能力不均衡的特點(diǎn)(Yue 等人,2023;Wei 等人,2023a;Singhal 等人,2023)。值得注意的是,對于開源模型(Touvron 等人,2023;Roziere 等人,2023)而言,如何在通用知識、代碼生成與數(shù)學(xué)推理三大領(lǐng)域?qū)崿F(xiàn)平衡性能,仍是尚未解決的挑戰(zhàn)(Xu 等人,2023b)。

圖 1:不同 SFT 設(shè)置下模型在 MMLU、GSM8K-CoT 和 HumanEval 任務(wù)上的性能對比。其中,LLaMa2-7B-SFT 表示混合所有指令數(shù)據(jù)進(jìn)行訓(xùn)練的模型,而 “專家模型(Expert)” 表示僅使用特定領(lǐng)域數(shù)據(jù)訓(xùn)練的模型,例如 “代碼專家模型(Expert-Code)” 僅使用代碼相關(guān)數(shù)據(jù)進(jìn)行訓(xùn)練。
近年來,已有研究致力于平衡開源大型語言模型的多元能力。一種思路是通過持續(xù)預(yù)訓(xùn)練增強(qiáng)模型較弱的能力(Scialom、Chakrabarty 和 Muresan,2022;Azerbayev 等人,2023;Xu 等人,2023b;Sukhbaatar 等人,2024)。例如,Lemur 模型(Xu 等人,2023b)通過精心混合數(shù)據(jù),試圖平衡模型的代碼能力與通用能力。該方法雖有一定效果,但數(shù)據(jù)成本極高,且通常需要收集大量 token 才能實(shí)現(xiàn)預(yù)期能力。另一種策略是分支訓(xùn)練混合(Branch-Train-Mix)方法(Sukhbaatar 等人,2024),該方法在持續(xù)預(yù)訓(xùn)練的基礎(chǔ)上,先訓(xùn)練具備多種能力的分支模型,再通過專家混合(Mixture-of-Experts, MoE)方法(Jacobs 等人,1991;Shazeer 等人,2017;Fedus、Zoph 和 Shazeer,2022)將這些分支模型整合。然而,有研究表明(Jiang 等人,2024),采用標(biāo)準(zhǔn)方式訓(xùn)練的 MoE 模型并未表現(xiàn)出領(lǐng)域?qū)S眯?—— 人們完全無法確定每個(gè)專家模型的職責(zé)范圍,這與人類對結(jié)構(gòu)化、可解釋模型的期望相悖。
此外,本文認(rèn)為現(xiàn)有研究在很大程度上忽視了在監(jiān)督微調(diào)階段實(shí)現(xiàn)能力平衡的必要性。若不考慮模型特定能力,直接混合不同領(lǐng)域的指令數(shù)據(jù),會(huì)阻礙模型充分發(fā)揮預(yù)訓(xùn)練階段所積累的潛力。如圖 1 所示,若按能力類別對 SFT 數(shù)據(jù)進(jìn)行分組,直接混合訓(xùn)練的方式無法達(dá)到單獨(dú)訓(xùn)練特定領(lǐng)域模型的性能水平,這表明當(dāng)前的 SFT 流程確實(shí)存在能力損失與能力沖突問題。
為此,本文提出一種基于 CoE(協(xié)作式語義專家)的 SFT 方法,該方法包含兩個(gè)不同階段。第一階段為專家訓(xùn)練階段,僅在特定數(shù)據(jù)集上對前饋網(wǎng)絡(luò)(FFN)(Vaswani 等人,2017)進(jìn)行微調(diào),生成分別對應(yīng)通用知識、代碼生成和數(shù)學(xué)推理領(lǐng)域的專家模型。第二階段為專家利用階段,將多個(gè)專家模型整合為單一的語義路由 MoE 模型。在這一階段,專家模型參數(shù)被凍結(jié),僅訓(xùn)練剩余參數(shù)。這種交替訓(xùn)練方式使得在專家訓(xùn)練階段和專家利用階段訓(xùn)練的模塊能夠形成互補(bǔ),確保兩階段之間實(shí)現(xiàn)無縫過渡。此外,與傳統(tǒng)專家混合模型不同,CoE 方法基于語義引導(dǎo)的數(shù)據(jù)標(biāo)注來激活特定專家模型,這使得模型結(jié)構(gòu)更清晰、可解釋性更強(qiáng) —— 每個(gè)專家模型都針對特定能力進(jìn)行訓(xùn)練和使用。
本文在多個(gè)主流基準(zhǔn)數(shù)據(jù)集上進(jìn)行了全面評估,包括用于測試通用知識的 MMLU(Hendrycks 等人,2020)、用于測試代碼生成的 HumanEval(Chen 等人,2021)、用于測試數(shù)學(xué)能力的 GSM8K(Cobbe 等人,2021),以及用于測試指令遵循能力的 MT-Bench(Zheng 等人,2024)和 AlpacaEval(Dubois 等人,2024)。評估結(jié)果表明,CoE 方法能夠?qū)崿F(xiàn)與各領(lǐng)域?qū)S脤<夷P拖喈?dāng)?shù)淖顑?yōu)性能,充分驗(yàn)證了其有效性。值得注意的是,在 PoT(程序思維,Gao 等人,2023)評估中,CoE 方法表現(xiàn)出更出色的協(xié)作能力 —— 代碼專家模型可協(xié)助解決數(shù)學(xué)問題,性能超越傳統(tǒng) SFT 方法。這種協(xié)同效應(yīng)凸顯了專家協(xié)作在提升模型跨任務(wù)性能方面的潛力。
相關(guān)工作
已有大量研究探索平衡大型語言模型多元能力的方法。Xu 等人(2023b)嘗試同時(shí)增強(qiáng)模型的自然語言處理能力與代碼生成能力,旨在構(gòu)建具備平衡能力的通用語言智能體。類似地,Xie 等人(2022)提出 UnifiedSKG(統(tǒng)一結(jié)構(gòu)化知識 grounding)方法,有效解決了多種不同任務(wù)。FLAN-T5 通過增加任務(wù)數(shù)量與模型規(guī)模來擴(kuò)展指令微調(diào),顯著提升了模型性能。Dong 等人(2023)的研究分析了 SFT 階段數(shù)據(jù)構(gòu)成與數(shù)據(jù)量對模型性能的影響,發(fā)現(xiàn)數(shù)據(jù)總量比數(shù)據(jù)混合比例對性能的影響更大。分支訓(xùn)練混合(Branch-Train-Mix, BTX)方法(Sukhbaatar 等人,2024)旨在高效訓(xùn)練具備多領(lǐng)域?qū)I(yè)能力的大型語言模型,該方法通過持續(xù)預(yù)訓(xùn)練策略,利用 MoE 層整合專家模型,實(shí)現(xiàn)了準(zhǔn)確性與效率的平衡。此外,模型融合是一種無需訓(xùn)練即可整合不同模型能力的方法,例如 Yu 等人(2023)提出的 DARE(Delta 參數(shù)稀疏化融合)方法,通過對多個(gè)經(jīng)過監(jiān)督微調(diào)的同源模型的 Delta 參數(shù)進(jìn)行稀疏化處理,實(shí)現(xiàn)模型能力融合。本文的研究重點(diǎn)在于,在 SFT 階段通過結(jié)構(gòu)化 MoE 配置實(shí)現(xiàn)專家知識的精細(xì)整合,確保模型在各類應(yīng)用場景中不僅具備平衡能力,還能實(shí)現(xiàn)上下文優(yōu)化性能。
預(yù)備知識
標(biāo)準(zhǔn) Transformer(Vaswani 等人,2017)架構(gòu)由 L 個(gè)堆疊的塊組成,每個(gè)塊包含一個(gè)自注意力模塊(self-attention module)和一個(gè)前饋網(wǎng)絡(luò)(FFN),通常還會(huì)結(jié)合層歸一化(Layer Normalization)(Ba、Kiros 和 Hinton,2016)與殘差連接(residual connections)(He 等人,2016);為簡化公式,本文在后續(xù)推導(dǎo)中省略了層歸一化與殘差連接部分。在 Transformer 中引入專家混合(MoE)(Dai 等人,2024;Fedus、Zoph 和 Shazeer,2022)結(jié)構(gòu)時(shí),每個(gè)塊中的標(biāo)準(zhǔn) FFN 層會(huì)被替換為 MoE 結(jié)構(gòu)的 FFN 層(Dai 等人,2024;Jiang 等人,2024)。這種改造包含多個(gè)專家網(wǎng)絡(luò)和一個(gè)動(dòng)態(tài)路由模塊,動(dòng)態(tài)路由模塊可根據(jù)輸入 token 確定需要激活的專家模型。
對于具有 E 個(gè)預(yù)設(shè)專家模型和 Top-K 路由機(jī)制的 MoE 結(jié)構(gòu) Transformer,其第 l 層(l ∈ [1, N])對 token 的處理過程如下:

其中,h_{1: T}^{l-1} 表示第(l-1)層的輸出,z_{1: T}^{l} 表示自注意力模塊的輸出。對于每個(gè) token t ∈ [1, T],計(jì)算過程如下:

其中,F(xiàn)FN_i 表示第 i 個(gè) FFN 模塊(i ∈ [1, E]),h_{t}^{l} 表示第 l 層中 token t 的最終輸出,Gate(z_{t}^{l}) 是一個(gè)線性模塊,其輸出為用于計(jì)算路由權(quán)重的 logits 向量,1_{TopK}(i) 是指示函數(shù),定義如下:

softmax 函數(shù)會(huì)對門控 logits 進(jìn)行歸一化,但僅由 TopK 操作篩選出的前 K 個(gè)專家模型會(huì)對當(dāng)前層中每個(gè) token 的輸出產(chǎn)生貢獻(xiàn)。這種機(jī)制使得專家模型的激活具有稀疏性 —— 對于每個(gè) token,僅 E 個(gè)專家模型中的部分模型被激活。
在模型的監(jiān)督微調(diào)過程中,通常采用僅針對目標(biāo) token 的下一個(gè) token 損失(記為L_{SFT})來優(yōu)化模型性能。
方法
本文提出的方法采用系統(tǒng)化策略構(gòu)建高性能專家混合(MoE)模型,流程如下:首先將大規(guī)模監(jiān)督微調(diào)(SFT)數(shù)據(jù)集標(biāo)注為預(yù)設(shè)類別,然后執(zhí)行兩階段訓(xùn)練 —— 專家訓(xùn)練階段與專家利用階段。

圖 2:兩階段訓(xùn)練方法示意圖。第一階段為專家訓(xùn)練階段,針對通用知識、數(shù)學(xué)推理、代碼生成三大能力類別,分別對前饋網(wǎng)絡(luò)(FFN)參數(shù)進(jìn)行微調(diào);第二階段為專家利用階段,將訓(xùn)練好的專家模型整合為統(tǒng)一的專家混合(MoE)模型,并利用動(dòng)態(tài)路由機(jī)制優(yōu)化跨任務(wù)協(xié)作性能。
指令數(shù)據(jù)標(biāo)注
為實(shí)現(xiàn)專家模型的針對性微調(diào),需將指令數(shù)據(jù)準(zhǔn)確分類到預(yù)設(shè)能力類別中。受 Lu 等人(2023)研究的啟發(fā),本文方法的基礎(chǔ)是對指令數(shù)據(jù)進(jìn)行標(biāo)注,這一過程對專用模型的有效訓(xùn)練至關(guān)重要。
本文從多個(gè)來源收集大規(guī)模 SFT 數(shù)據(jù),并通過提示 GPT-4 根據(jù)數(shù)據(jù)的主要類別對每個(gè)樣本進(jìn)行系統(tǒng)性標(biāo)注,最終將數(shù)據(jù)分為三大類:通用類(General),對應(yīng)涵蓋廣泛知識的指令;數(shù)學(xué)類(Math),對應(yīng)需要數(shù)學(xué)推理的指令;代碼類(Coding),對應(yīng)與編程相關(guān)的任務(wù)指令。
通過上述標(biāo)注過程,構(gòu)建了三個(gè)專用 SFT 數(shù)據(jù)集:D_{general}(通用數(shù)據(jù)集)、D_{math}(數(shù)學(xué)數(shù)據(jù)集)和D_{coding}(代碼數(shù)據(jù)集),每個(gè)數(shù)據(jù)集均針對特定任務(wù)所需的專業(yè)能力進(jìn)行定制。這些數(shù)據(jù)集確保了每個(gè)專家模型都能得到有效微調(diào),在其指定的能力類別中展現(xiàn)出高性能。
專家訓(xùn)練
方法的第一階段為專家訓(xùn)練階段,在此階段,每個(gè)專家模型都會(huì)針對特定能力類別(通用知識、數(shù)學(xué)推理、代碼生成)進(jìn)行微調(diào),以增強(qiáng)其領(lǐng)域?qū)S眯浴?/p>
設(shè) M 為預(yù)設(shè)基礎(chǔ)模型的全部參數(shù)集合,F(xiàn) 為所有前饋網(wǎng)絡(luò)(FFN)(Vaswani 等人,2017)參數(shù)的集合,具體可表示為F=\{FFN_1, \cdots, FFN_N\}。在專家訓(xùn)練階段,僅更新 F 中的參數(shù),其余參數(shù)(M \ F)保持凍結(jié)狀態(tài)。
為清晰追蹤與各能力類別唯一對應(yīng)的更新后 FFN 參數(shù),分別用F_{general}、F_{math}和F_{coding}表示通過D_{general}、D_{math}和D_{coding}微調(diào)得到的 FFN 參數(shù)。
每組 FFN 參數(shù)都會(huì)在其對應(yīng)的專用數(shù)據(jù)集上進(jìn)行 SFT。這種設(shè)計(jì)確保訓(xùn)練過程能精準(zhǔn)增強(qiáng)每個(gè)專家模型在特定能力類別中的能力 —— 不僅為后續(xù)階段的專家協(xié)作奠定基礎(chǔ),還能讓每個(gè)專家模型對其對應(yīng)能力類別形成深入且扎實(shí)的理解。
專家利用
在專家訓(xùn)練階段之后,進(jìn)入專家利用階段:將單獨(dú)訓(xùn)練的專家模型整合為統(tǒng)一的專家混合(MoE)模型(Jiang 等人,2024;Dai 等人,2024),即本文提出的協(xié)作式語義專家(CoE)模型。
在該階段,首先凍結(jié)前一階段針對各能力類別微調(diào)得到的前饋網(wǎng)絡(luò)(FFN)參數(shù),然后引入與 MoE 路由器相關(guān)的新參數(shù)(記為 R),用于管理輸入 token 的路由分配。CoE 模型的全部參數(shù)集合定義如下:

隨后,使用三個(gè) SFT 數(shù)據(jù)集的并集(D_{general} \cup D_{math} \cup D_{coding})對剩余參數(shù)(\mathcal{M} \backslash \mathcal{F} \cup \mathcal{R})進(jìn)行微調(diào)。此外,為同時(shí)保留各專家模型的專業(yè)能力,并增強(qiáng) MoE 結(jié)構(gòu)對專家協(xié)作的利用能力,本文引入一種邊際損失(margin loss),專門用于提升路由器決策的靈活性。
設(shè)Logits \in \mathbb{R}^{B \times T \times E}表示路由器對每個(gè) token 輸出的 logits,其中 B 為批大小(batch size),T 為序列長度(sequence length),E 為專家模型數(shù)量;設(shè)L \in \mathbb{N}^{B \times T}表示語義目標(biāo)專家模型的索引,與樣本所屬的能力類別相對應(yīng)。由于每個(gè)樣本的標(biāo)注類別對序列中所有 token 均適用,因此對于每個(gè)樣本,L 在 T 維度上的值保持不變。設(shè) K 為需要考慮的前 K 個(gè)專家模型 logits 的數(shù)量。
1.首先,提取目標(biāo)專家模型的 logits(其中 b 為批索引,t 為序列中的位置索引):
C_{b, t}= Logits _{b, t, L_{b, t}} \quad (7)
1.然后,確定批中每個(gè)位置每個(gè) token 的第 K 高 logits:
K_{b, t}=TopK\left(Logits_{b, t,:}\right) \quad (8)
1.計(jì)算正確 logits 與閾值 logits 之間的邊際值:
M_{b,t}=C_{b,t}-K_{b,t} \quad (9)
1.最終,邊際路由損失(margin routing loss)表示為所有 token 和所有樣本的平均值:
\mathcal{L}_{router }=\frac{1}{B \cdot T} \sum_{b=1}^{B} \sum_{t=1}^{T} max \left(0,-M_{b, t}\right) \quad (10)

通過對專用 FFN 參數(shù)進(jìn)行戰(zhàn)略性凍結(jié)與整合,CoE 模型確保了各能力類別的專業(yè)能力能被有效利用和保留,不僅提升了模型的穩(wěn)健性能,還實(shí)現(xiàn)了不同專家模塊之間的無縫協(xié)作。
實(shí)驗(yàn)
指令微調(diào)數(shù)據(jù)集
本文方法最初使用的大規(guī)模數(shù)據(jù)集源自 TULU-v2(Wang 等人,2023;Ivison 等人,2023)—— 這是一個(gè)綜合的指令微調(diào)數(shù)據(jù)集集合。研究人員從 ShareGPT(Chiang 等人,2023)、WizardLM(Xu 等人,2023a)、CoT(Chung 等人,2024)、FLAN(Chung 等人,2024)、Open-Orca(Mukherjee 等人,2023;Lian 等人,2023)、GPT4-Alpaca(Peng 等人,2023)和 Open Assistant 1(K?p 等人,2024)中提取樣本,并對每個(gè)樣本進(jìn)行標(biāo)注,將其歸類到通用(General)、代碼(Coding)或數(shù)學(xué)(Math)能力類別中。為增強(qiáng)代碼數(shù)據(jù)集和數(shù)學(xué)數(shù)據(jù)集的豐富性,研究人員還補(bǔ)充了以下數(shù)據(jù):代碼數(shù)據(jù)集新增了來自 CodeAlpaca(Chaudhary,2023)和 OSS-Instruct(Wei 等人,2023b)的數(shù)據(jù);數(shù)學(xué)數(shù)據(jù)集新增了來自 MAmmoTH(Yue 等人,2023)的 CoT 分區(qū)數(shù)據(jù)。

圖 3:桑基圖(Sankey diagram)展示了不同 SFT 數(shù)據(jù)集向三大專業(yè)類別(通用、代碼、數(shù)學(xué))的分布與流向。
評估協(xié)議
專業(yè)能力評估數(shù)據(jù)集
?通用能力:采用大規(guī)模多任務(wù)語言理解數(shù)據(jù)集(Massive Multitask Language Understanding, MMLU)(Hendrycks 等人,2020)評估模型的通用知識能力,該數(shù)據(jù)集涵蓋多個(gè)不同主題領(lǐng)域。
?代碼能力:采用 HumanEval 數(shù)據(jù)集(Chen 等人,2021)評估模型的代碼生成能力,該數(shù)據(jù)集包含 164 個(gè)用自然語言描述的編程問題及對應(yīng)的測試用例。模型需生成滿足需求且能通過所有測試用例的 Python 腳本。
?數(shù)學(xué)能力:采用小學(xué)數(shù)學(xué)數(shù)據(jù)集(Grade School Math, GSM8K)(Cobbe 等人,2021)評估模型的數(shù)學(xué)能力,尤其通過思維鏈(Chain-of-Thought, CoT)提示方法測試模型的問題解決能力,該方法可衡量模型的逐步推理能力。
專家協(xié)作評估
為評估模型整合數(shù)學(xué)與代碼能力的水平,研究人員采用程序思維(Program-of-Thought, PoT)方法(Gao 等人,2023),并結(jié)合 GSM8K 數(shù)據(jù)集進(jìn)行評估。該方法測試模型在解決數(shù)學(xué)問題與生成可執(zhí)行 Python 腳本方面的熟練度 —— 通過執(zhí)行生成的腳本,對照預(yù)期結(jié)果評估腳本的準(zhǔn)確性與效率。由于 PoT 評估所用數(shù)據(jù)未包含在訓(xùn)練數(shù)據(jù)中,因此該評估能有效檢驗(yàn)?zāi)P偷慕M合泛化能力,以及將整合技能應(yīng)用于新任務(wù)的能力。
指令遵循評估
為評估模型理解和響應(yīng)用戶輸入的能力,研究人員采用兩個(gè)基準(zhǔn)數(shù)據(jù)集進(jìn)行測試:
?MT-Bench(Zheng 等人,2024):包含 80 個(gè)多輪對話問題,每個(gè)問題涉及兩輪交互。使用 GPT-4(Achiam 等人,2023)對模型響應(yīng)進(jìn)行 0-10 分評分,以定量評估模型的對話能力。
?AlpacaEval(Dubois 等人,2024):通過將模型響應(yīng)與 text-davinci-003 的響應(yīng)進(jìn)行對比,評估模型的指令遵循能力;使用 GPT-4 判斷模型響應(yīng)的 “勝率”(win rate)。
實(shí)現(xiàn)細(xì)節(jié)
本實(shí)驗(yàn)基于 LLaMA2-7B-Base 模型(Touvron 等人,2023),在 8 塊 NVIDIA A100 GPU 上運(yùn)行;采用 ChatML 格式模板(OpenAI,2022),將訓(xùn)練序列長度限制為 2048 個(gè) token;為保證一致性,每臺設(shè)備的批大小(batch size)統(tǒng)一設(shè)置為 8。優(yōu)化過程使用 AdamW 優(yōu)化器,初始學(xué)習(xí)率通過預(yù)熱階段提升至1 \times 10^{-5},隨后通過余弦調(diào)度器(cosine scheduler)將學(xué)習(xí)率調(diào)整至最大值的 10%。
專家訓(xùn)練階段
在專家訓(xùn)練階段,微調(diào)僅針對 Transformer 塊中的前饋網(wǎng)絡(luò)(FFN)組件進(jìn)行,其余參數(shù)保持凍結(jié)狀態(tài)。通過該階段訓(xùn)練得到的專用模型分別命名為 “通用專家模型(Expert-General)”、“數(shù)學(xué)專家模型(Expert-Math)” 和 “代碼專家模型(Expert-Coding)”。
專家利用階段
在專家利用階段,研究人員通過專家混合(MoE)架構(gòu)整合訓(xùn)練好的專家模型。每個(gè) MoE 塊配備一個(gè) TopK 路由模塊,該模塊采用隨機(jī)初始化方式,設(shè)置為 Top-2 路由機(jī)制(即每個(gè) token 分配給兩個(gè)專家模型)。整合后的模型命名為 CoE-3E2A,其中 “3E” 表示包含三個(gè)專家模型,“2A” 表示采用 Top-2 專家激活機(jī)制。
主要結(jié)果
研究人員對專家訓(xùn)練與專家利用過程進(jìn)行了對比分析,評估的模型包括:基礎(chǔ)模型 LLaMA2-7B-Base、在所有能力類別上進(jìn)行監(jiān)督微調(diào)的模型 LLaMA2-7B-SFT、各領(lǐng)域?qū)S脤<夷P停ㄍㄓ脤<夷P汀?shù)學(xué)專家模型、代碼專家模型),以及整合后的 MoE 模型 CoE-3E2A。評估結(jié)果分別如表 1 和表 2 所示。

表 1:基礎(chǔ)模型(LLaMA2-7B-Base)、監(jiān)督微調(diào)模型(LLaMA2-7B-SFT)、各專用專家模型(通用專家模型、數(shù)學(xué)專家模型、代碼專家模型)及 CoE-3E2A 模型在不同數(shù)據(jù)集上的性能對比

表 2:CoE-3E2A 模型與其他模型在 MT-Bench 和 AlpacaEval 數(shù)據(jù)集上的性能對比
專業(yè)能力評估數(shù)據(jù)集結(jié)果
針對特定能力類別的專用專家模型在對應(yīng)領(lǐng)域的表現(xiàn)持續(xù)優(yōu)于 SFT 模型:在 GSM8K-CoT 任務(wù)上,專家模型性能提升 11%;在 HumanEval 任務(wù)上,專家模型性能提升 43%。這一結(jié)果進(jìn)一步證明,相比混合訓(xùn)練方式,針對特定領(lǐng)域的專用訓(xùn)練更具優(yōu)勢。
協(xié)作數(shù)據(jù)集評估結(jié)果
在 GSM8K-PoT 評估中,CoE-3E2A 模型的執(zhí)行準(zhǔn)確率達(dá)到 44.81%,這一結(jié)果表明該模型在整合不同專業(yè)領(lǐng)域知識、實(shí)現(xiàn)跨領(lǐng)域泛化方面具備出色能力。該性能驗(yàn)證了 MoE 架構(gòu)在構(gòu)建動(dòng)態(tài)、高性能模型方面的有效性。
MT-Bench 與 AlpacaEval 評估結(jié)果
在基于 GPT-4 的評估中,CoE-3E2A 模型表現(xiàn)顯著優(yōu)于其他模型:在 MT-Bench 數(shù)據(jù)集上,整體得分為 6.37;在 AlpacaEval 數(shù)據(jù)集上,勝率達(dá)到 73.01%。在 MT-Bench 評估中,CoE-3E2A 模型首輪得分為 6.63,第二輪仍保持 6.09 的高分,展現(xiàn)出穩(wěn)定的上下文連貫性;在 AlpacaEval 評估中,該模型大幅領(lǐng)先,勝率比 SFT 模型高出 10% 以上。這些結(jié)果表明,CoE-3E2A 模型在響應(yīng)復(fù)雜用戶指令方面具備出色能力。模型在多個(gè)基準(zhǔn)數(shù)據(jù)集上的穩(wěn)健表現(xiàn),充分證明了 CoE 架構(gòu)在應(yīng)用專家知識方面的有效性,也驗(yàn)證了該架構(gòu)在處理復(fù)雜現(xiàn)實(shí)場景任務(wù)中的適用性。
參數(shù)更新策略消融實(shí)驗(yàn)
本節(jié)旨在評估專家利用階段不同參數(shù)更新策略對 MoE 模型性能的影響。研究人員通過消融實(shí)驗(yàn)確定最優(yōu)更新策略 —— 該策略需在提升模型性能的同時(shí),保留專家訓(xùn)練階段獲得的專用知識。實(shí)驗(yàn)將本文提出的排除 FFN 參數(shù)的 SFT 模型(CoE-3E2A)與以下兩個(gè)變體模型進(jìn)行對比:
?全參數(shù) SFT 模型(CoE-3E2A-full):對 MoE 模型中的所有參數(shù)進(jìn)行統(tǒng)一更新。
?僅路由器 SFT 模型(CoE-3E2A-router):僅更新 MoE 路由模塊的參數(shù)。
如表 3 所示,CoE-3E2A 模型在整體性能上優(yōu)于兩個(gè)變體模型,這是因?yàn)樵撃P驮趧?dòng)態(tài)更新其他組件的同時(shí),保留了 FFN 參數(shù)中的專用知識。CoE-3E2A-full 模型的性能略有下降,這表明對所有參數(shù)進(jìn)行更新可能會(huì)削弱模型的專用能力;而 CoE-3E2A-router 模型雖與 CoE-3E2A-full 模型性能相近,但在 GSM8K-PoT 等任務(wù)中表現(xiàn)較差,這一結(jié)果凸顯了該模型在促進(jìn)專家協(xié)作方面存在的挑戰(zhàn)。

表 3:CoE-3E2A(排除 FFN 參數(shù)微調(diào))、CoE-3E2A-full(全參數(shù)更新)與 CoE-3E2A-router(僅路由器模塊更新)在不同基準(zhǔn)數(shù)據(jù)集上的性能對比

表 4:不同模型設(shè)置的計(jì)算資源使用情況匯總,包括總參數(shù)數(shù)量(#Params)、可訓(xùn)練參數(shù)數(shù)量(#Trainable)和 GPU 內(nèi)存消耗(GPU Mem),展示了不同參數(shù)更新策略對資源效率的影響
表 4 列出了各模型配置的計(jì)算資源使用情況,包括總參數(shù)數(shù)量、可訓(xùn)練參數(shù)數(shù)量和 GPU 內(nèi)存消耗 1。LLaMA2-7B-Base 模型和 LLaMA2-7B-SFT 模型的參數(shù)數(shù)量均為 67.4 億;由于僅對 FFN 參數(shù)進(jìn)行選擇性更新,專家模型的可訓(xùn)練參數(shù)數(shù)量為 45.8 億;CoE-3E2A 模型在性能與資源使用之間實(shí)現(xiàn)平衡,可訓(xùn)練參數(shù)數(shù)量為 24.1 億,GPU 內(nèi)存消耗為 45.01 GB。相比之下,CoE-3E2A-full 模型需更新所有參數(shù);而 CoE-3E2A-router 模型僅關(guān)注路由機(jī)制更新,資源消耗最低,GPU 內(nèi)存消耗僅為 40.71 GB。這些差異表明,針對性更新策略能顯著提升資源效率 ——CoE-3E2A 模型和 CoE-3E2A-router 模型的案例證明,通過聚焦關(guān)鍵組件增強(qiáng),既能優(yōu)化模型性能,又能降低運(yùn)行成本。
注 1:為保證一致性,所有實(shí)驗(yàn)中每臺設(shè)備的批大小均統(tǒng)一設(shè)置為 8。
模型規(guī)模消融實(shí)驗(yàn)
本節(jié)旨在驗(yàn)證 CoE-3E2A 模型的性能提升是否源于模型規(guī)模的擴(kuò)大,還是源于專家知識的戰(zhàn)略性整合。研究人員通過消融實(shí)驗(yàn),將 CoE-3E2A 模型與以下兩個(gè)僅擴(kuò)大規(guī)模但未進(jìn)行專用微調(diào)的變體模型進(jìn)行對比:
?復(fù)制 MoE 結(jié)構(gòu)模型(MoE-3E2A):為測試 MoE 架構(gòu)復(fù)雜度對性能的影響,研究人員使用三個(gè) LLaMA2-7B-Base 模型副本初始化專家模型(未進(jìn)行專用訓(xùn)練)。該模型用于評估結(jié)構(gòu)與規(guī)模的擴(kuò)大是否能提升模型性能。
?匹配激活參數(shù)模型(MoE-2E2A):該模型的激活參數(shù)數(shù)量與 CoE-3E2A 模型一致,用于評估僅通過擴(kuò)大參數(shù)規(guī)模是否能實(shí)現(xiàn)觀察到的性能提升。
如表 5 所示,在幾乎所有評估任務(wù)中,CoE-3E2A 模型的性能均優(yōu)于 MoE-3E2A 模型和 MoE-2E2A 模型,尤其在 GSM8K-PoT 和 AlpacaEval 任務(wù)中優(yōu)勢顯著。這一結(jié)果證實(shí)了將專用專家知識整合到 MoE 架構(gòu)中的價(jià)值,也表明若未對專家模型進(jìn)行針對性訓(xùn)練,僅通過增加專家模型數(shù)量或擴(kuò)大參數(shù)規(guī)模,無法持續(xù)提升模型性能。有趣的是,在多個(gè)基準(zhǔn)數(shù)據(jù)集上,MoE-2E2A 模型的性能略優(yōu)于 MoE-3E2A 模型。這種細(xì)微的性能差異可能源于 MoE-2E2A 模型更精簡、高效的參數(shù)使用方式 —— 由于需要管理的專家模型數(shù)量更少,MoE-2E2A 模型的路由過程復(fù)雜度更低,從而能更高效地利用計(jì)算資源。

表 5:CoE-3E2A 模型與 MoE-3E2A 模型、MoE-2E2A 模型在多個(gè)基準(zhǔn)數(shù)據(jù)集上的性能對比,分析模型規(guī)模擴(kuò)大與針對性專家整合對性能的影響
路由損失消融實(shí)驗(yàn)
本節(jié)探討路由損失(routing loss)的有效性 —— 該損失函數(shù)旨在提升路由器決策過程的靈活性。為驗(yàn)證其有效性,研究人員將 CoE-3E2A 模型與未使用額外路由損失函數(shù)訓(xùn)練的變體模型(記為 “無L_{router}模型”)進(jìn)行對比。
如表 6 所示,使用邊際損失(margin loss)的模型配置在性能上優(yōu)于未使用該損失的配置,這表明通過靈活選擇專家模型,能更充分地利用模型的多元專業(yè)能力。這些結(jié)果證實(shí),設(shè)計(jì)合理的路由損失函數(shù)對最大化 MoE 模型潛力至關(guān)重要,尤其在需要專家協(xié)作的任務(wù)中。

圖 4:CoE-3E2A 模型處理 PoT 問題時(shí)不同層的路由決策可視化。不同背景顏色代表每個(gè)輸出 token 所激活的專家模型組合。

表 6:CoE-3E2A 模型(含路由損失)與無路由損失模型(w/o L_{router})的性能對比
路由分析
本節(jié)分析 CoE-3E2A 模型在處理 GSM8K-PoT 問題時(shí)不同層的路由決策。研究人員通過為不同激活專家組合分配不同背景色,可視化了第 1 層、第 8 層和第 32 層每個(gè)輸出 token 的路由決策。
如圖 4 所示,不同層的路由決策呈現(xiàn) “收斂式” 特征:在第 1 層,模型在不同專家組合之間頻繁 “切換路由”,這表明模型在處理初期會(huì)探索不同專家能力,以實(shí)現(xiàn)對輸入的最優(yōu)理解;到第 8 層,路由決策逐漸穩(wěn)定,更長序列的 token 會(huì)持續(xù)被路由到相同專家模型;這種趨勢在第 32 層進(jìn)一步強(qiáng)化 —— 幾乎所有 token 都被分配到單一專家組合。這一現(xiàn)象表明,隨著模型處理深度的增加,模型會(huì)識別并鎖定對當(dāng)前任務(wù)最有效的專家配置,從而同時(shí)提升處理效率與輸出連貫性。
結(jié)論
本研究提出一種協(xié)作式語義專家(CoE)框架,這是一種用于優(yōu)化大型語言模型的新型方法。該方法采用兩階段監(jiān)督微調(diào)策略,在精心設(shè)計(jì)的專家混合(MoE)結(jié)構(gòu)中實(shí)現(xiàn)專家訓(xùn)練與專家利用。該策略通過高效的選擇性參數(shù)更新,實(shí)現(xiàn)了兩階段之間的無縫整合。在多個(gè)不同基準(zhǔn)數(shù)據(jù)集上的評估結(jié)果表明,CoE 方法具有顯著有效性 —— 通過專家協(xié)作,模型展現(xiàn)出更優(yōu)的問題解決能力。該框架不僅提升了大型模型的可解釋性與資源效率,還為部署復(fù)雜 MoE 模型以應(yīng)對具備高適應(yīng)性與高性能需求的復(fù)雜任務(wù)樹立了新標(biāo)桿。
本文轉(zhuǎn)載自??AIRoobt?? ,作者:Jiaxi Yang等

















