精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

基于協(xié)作式語義專家的語言模型微調(diào)(AAAI 2025) 原創(chuàng)

發(fā)布于 2025-11-21 08:23
瀏覽
0收藏

摘要

近年來,大型語言模型(Large Language Models, LLMs)的快速發(fā)展拓寬了其應(yīng)用范圍,但同時(shí)也暴露出在平衡通用知識、代碼生成與數(shù)學(xué)推理能力方面存在挑戰(zhàn)。為解決這一問題,本文提出一種適用于監(jiān)督微調(diào)(Supervised Fine-Tuning, SFT)的協(xié)作式語義專家(Collaborative and Semantic Experts, CoE)方法,該方法采用兩階段訓(xùn)練策略。第一階段為專家訓(xùn)練階段,在特定數(shù)據(jù)集上對前饋網(wǎng)絡(luò)(Feed-Forward Network, FFN)進(jìn)行微調(diào),培養(yǎng)針對特定領(lǐng)域的專用專家模型;第二階段為專家利用階段,在語義引導(dǎo)下將訓(xùn)練好的專家模型整合為結(jié)構(gòu)化模型,以激活特定專家模型,從而提升模型性能與可解釋性。在 MMLU、HumanEval、GSM8K、MT-Bench 和 AlpacaEval 等綜合基準(zhǔn)數(shù)據(jù)集上的評估結(jié)果表明,CoE 方法具有顯著有效性,在各類任務(wù)中不僅表現(xiàn)出更優(yōu)性能與專家協(xié)作能力,還大幅超越了傳統(tǒng) SFT 方法。

引言

大型語言模型(如 GPT-4(Achiam 等人,2023)、PaLM-2(Anil 等人,2023)和 Claude(Anthropic,2023))的發(fā)展在通用能力方面展現(xiàn)出卓越性能,例如知識理解(OpenAI,2022;Ouyang 等人,2022)、代碼生成(Roziere 等人,2023;Li 等人,2023)以及數(shù)學(xué)推理(Shao 等人,2024;Azerbayev 等人,2023)。這些能力源于大規(guī)模預(yù)訓(xùn)練(Touvron 等人,2023;Bai 等人,2023)與監(jiān)督微調(diào)(SFT)(Ouyang 等人,2022)的結(jié)合。預(yù)訓(xùn)練通過預(yù)測下一個(gè) token 的方式盡可能壓縮數(shù)據(jù),助力模型學(xué)習(xí)知識;而監(jiān)督微調(diào)則利用有限但多樣的指令 - 數(shù)據(jù)對來對齊模型,確保大型語言模型在具備特定能力的同時(shí),還能滿足有用、誠實(shí)、無害的要求。

盡管大型語言模型的能力覆蓋范圍廣泛,但數(shù)據(jù)分布與訓(xùn)練策略的差異往往導(dǎo)致模型在不同領(lǐng)域表現(xiàn)出能力不均衡的特點(diǎn)(Yue 等人,2023;Wei 等人,2023a;Singhal 等人,2023)。值得注意的是,對于開源模型(Touvron 等人,2023;Roziere 等人,2023)而言,如何在通用知識、代碼生成與數(shù)學(xué)推理三大領(lǐng)域?qū)崿F(xiàn)平衡性能,仍是尚未解決的挑戰(zhàn)(Xu 等人,2023b)。


基于協(xié)作式語義專家的語言模型微調(diào)(AAAI 2025)-AI.x社區(qū)

圖 1:不同 SFT 設(shè)置下模型在 MMLU、GSM8K-CoT 和 HumanEval 任務(wù)上的性能對比。其中,LLaMa2-7B-SFT 表示混合所有指令數(shù)據(jù)進(jìn)行訓(xùn)練的模型,而 “專家模型(Expert)” 表示僅使用特定領(lǐng)域數(shù)據(jù)訓(xùn)練的模型,例如 “代碼專家模型(Expert-Code)” 僅使用代碼相關(guān)數(shù)據(jù)進(jìn)行訓(xùn)練。

近年來,已有研究致力于平衡開源大型語言模型的多元能力。一種思路是通過持續(xù)預(yù)訓(xùn)練增強(qiáng)模型較弱的能力(Scialom、Chakrabarty 和 Muresan,2022;Azerbayev 等人,2023;Xu 等人,2023b;Sukhbaatar 等人,2024)。例如,Lemur 模型(Xu 等人,2023b)通過精心混合數(shù)據(jù),試圖平衡模型的代碼能力與通用能力。該方法雖有一定效果,但數(shù)據(jù)成本極高,且通常需要收集大量 token 才能實(shí)現(xiàn)預(yù)期能力。另一種策略是分支訓(xùn)練混合(Branch-Train-Mix)方法(Sukhbaatar 等人,2024),該方法在持續(xù)預(yù)訓(xùn)練的基礎(chǔ)上,先訓(xùn)練具備多種能力的分支模型,再通過專家混合(Mixture-of-Experts, MoE)方法(Jacobs 等人,1991;Shazeer 等人,2017;Fedus、Zoph 和 Shazeer,2022)將這些分支模型整合。然而,有研究表明(Jiang 等人,2024),采用標(biāo)準(zhǔn)方式訓(xùn)練的 MoE 模型并未表現(xiàn)出領(lǐng)域?qū)S眯?—— 人們完全無法確定每個(gè)專家模型的職責(zé)范圍,這與人類對結(jié)構(gòu)化、可解釋模型的期望相悖。

此外,本文認(rèn)為現(xiàn)有研究在很大程度上忽視了在監(jiān)督微調(diào)階段實(shí)現(xiàn)能力平衡的必要性。若不考慮模型特定能力,直接混合不同領(lǐng)域的指令數(shù)據(jù),會(huì)阻礙模型充分發(fā)揮預(yù)訓(xùn)練階段所積累的潛力。如圖 1 所示,若按能力類別對 SFT 數(shù)據(jù)進(jìn)行分組,直接混合訓(xùn)練的方式無法達(dá)到單獨(dú)訓(xùn)練特定領(lǐng)域模型的性能水平,這表明當(dāng)前的 SFT 流程確實(shí)存在能力損失與能力沖突問題。

為此,本文提出一種基于 CoE(協(xié)作式語義專家)的 SFT 方法,該方法包含兩個(gè)不同階段。第一階段為專家訓(xùn)練階段,僅在特定數(shù)據(jù)集上對前饋網(wǎng)絡(luò)(FFN)(Vaswani 等人,2017)進(jìn)行微調(diào),生成分別對應(yīng)通用知識、代碼生成和數(shù)學(xué)推理領(lǐng)域的專家模型。第二階段為專家利用階段,將多個(gè)專家模型整合為單一的語義路由 MoE 模型。在這一階段,專家模型參數(shù)被凍結(jié),僅訓(xùn)練剩余參數(shù)。這種交替訓(xùn)練方式使得在專家訓(xùn)練階段和專家利用階段訓(xùn)練的模塊能夠形成互補(bǔ),確保兩階段之間實(shí)現(xiàn)無縫過渡。此外,與傳統(tǒng)專家混合模型不同,CoE 方法基于語義引導(dǎo)的數(shù)據(jù)標(biāo)注來激活特定專家模型,這使得模型結(jié)構(gòu)更清晰、可解釋性更強(qiáng) —— 每個(gè)專家模型都針對特定能力進(jìn)行訓(xùn)練和使用。

本文在多個(gè)主流基準(zhǔn)數(shù)據(jù)集上進(jìn)行了全面評估,包括用于測試通用知識的 MMLU(Hendrycks 等人,2020)、用于測試代碼生成的 HumanEval(Chen 等人,2021)、用于測試數(shù)學(xué)能力的 GSM8K(Cobbe 等人,2021),以及用于測試指令遵循能力的 MT-Bench(Zheng 等人,2024)和 AlpacaEval(Dubois 等人,2024)。評估結(jié)果表明,CoE 方法能夠?qū)崿F(xiàn)與各領(lǐng)域?qū)S脤<夷P拖喈?dāng)?shù)淖顑?yōu)性能,充分驗(yàn)證了其有效性。值得注意的是,在 PoT(程序思維,Gao 等人,2023)評估中,CoE 方法表現(xiàn)出更出色的協(xié)作能力 —— 代碼專家模型可協(xié)助解決數(shù)學(xué)問題,性能超越傳統(tǒng) SFT 方法。這種協(xié)同效應(yīng)凸顯了專家協(xié)作在提升模型跨任務(wù)性能方面的潛力。

相關(guān)工作

已有大量研究探索平衡大型語言模型多元能力的方法。Xu 等人(2023b)嘗試同時(shí)增強(qiáng)模型的自然語言處理能力與代碼生成能力,旨在構(gòu)建具備平衡能力的通用語言智能體。類似地,Xie 等人(2022)提出 UnifiedSKG(統(tǒng)一結(jié)構(gòu)化知識 grounding)方法,有效解決了多種不同任務(wù)。FLAN-T5 通過增加任務(wù)數(shù)量與模型規(guī)模來擴(kuò)展指令微調(diào),顯著提升了模型性能。Dong 等人(2023)的研究分析了 SFT 階段數(shù)據(jù)構(gòu)成與數(shù)據(jù)量對模型性能的影響,發(fā)現(xiàn)數(shù)據(jù)總量比數(shù)據(jù)混合比例對性能的影響更大。分支訓(xùn)練混合(Branch-Train-Mix, BTX)方法(Sukhbaatar 等人,2024)旨在高效訓(xùn)練具備多領(lǐng)域?qū)I(yè)能力的大型語言模型,該方法通過持續(xù)預(yù)訓(xùn)練策略,利用 MoE 層整合專家模型,實(shí)現(xiàn)了準(zhǔn)確性與效率的平衡。此外,模型融合是一種無需訓(xùn)練即可整合不同模型能力的方法,例如 Yu 等人(2023)提出的 DARE(Delta 參數(shù)稀疏化融合)方法,通過對多個(gè)經(jīng)過監(jiān)督微調(diào)的同源模型的 Delta 參數(shù)進(jìn)行稀疏化處理,實(shí)現(xiàn)模型能力融合。本文的研究重點(diǎn)在于,在 SFT 階段通過結(jié)構(gòu)化 MoE 配置實(shí)現(xiàn)專家知識的精細(xì)整合,確保模型在各類應(yīng)用場景中不僅具備平衡能力,還能實(shí)現(xiàn)上下文優(yōu)化性能。

預(yù)備知識

標(biāo)準(zhǔn) Transformer(Vaswani 等人,2017)架構(gòu)由 L 個(gè)堆疊的塊組成,每個(gè)塊包含一個(gè)自注意力模塊(self-attention module)和一個(gè)前饋網(wǎng)絡(luò)(FFN),通常還會(huì)結(jié)合層歸一化(Layer Normalization)(Ba、Kiros 和 Hinton,2016)與殘差連接(residual connections)(He 等人,2016);為簡化公式,本文在后續(xù)推導(dǎo)中省略了層歸一化與殘差連接部分。在 Transformer 中引入專家混合(MoE)(Dai 等人,2024;Fedus、Zoph 和 Shazeer,2022)結(jié)構(gòu)時(shí),每個(gè)塊中的標(biāo)準(zhǔn) FFN 層會(huì)被替換為 MoE 結(jié)構(gòu)的 FFN 層(Dai 等人,2024;Jiang 等人,2024)。這種改造包含多個(gè)專家網(wǎng)絡(luò)和一個(gè)動(dòng)態(tài)路由模塊,動(dòng)態(tài)路由模塊可根據(jù)輸入 token 確定需要激活的專家模型。

對于具有 E 個(gè)預(yù)設(shè)專家模型和 Top-K 路由機(jī)制的 MoE 結(jié)構(gòu) Transformer,其第 l 層(l ∈ [1, N])對 token 的處理過程如下:


基于協(xié)作式語義專家的語言模型微調(diào)(AAAI 2025)-AI.x社區(qū)

其中,h_{1: T}^{l-1} 表示第(l-1)層的輸出,z_{1: T}^{l} 表示自注意力模塊的輸出。對于每個(gè) token t ∈ [1, T],計(jì)算過程如下:


基于協(xié)作式語義專家的語言模型微調(diào)(AAAI 2025)-AI.x社區(qū)

其中,F(xiàn)FN_i 表示第 i 個(gè) FFN 模塊(i ∈ [1, E]),h_{t}^{l} 表示第 l 層中 token t 的最終輸出,Gate(z_{t}^{l}) 是一個(gè)線性模塊,其輸出為用于計(jì)算路由權(quán)重的 logits 向量,1_{TopK}(i) 是指示函數(shù),定義如下:


基于協(xié)作式語義專家的語言模型微調(diào)(AAAI 2025)-AI.x社區(qū)

softmax 函數(shù)會(huì)對門控 logits 進(jìn)行歸一化,但僅由 TopK 操作篩選出的前 K 個(gè)專家模型會(huì)對當(dāng)前層中每個(gè) token 的輸出產(chǎn)生貢獻(xiàn)。這種機(jī)制使得專家模型的激活具有稀疏性 —— 對于每個(gè) token,僅 E 個(gè)專家模型中的部分模型被激活。

在模型的監(jiān)督微調(diào)過程中,通常采用僅針對目標(biāo) token 的下一個(gè) token 損失(記為L_{SFT})來優(yōu)化模型性能。

方法

本文提出的方法采用系統(tǒng)化策略構(gòu)建高性能專家混合(MoE)模型,流程如下:首先將大規(guī)模監(jiān)督微調(diào)(SFT)數(shù)據(jù)集標(biāo)注為預(yù)設(shè)類別,然后執(zhí)行兩階段訓(xùn)練 —— 專家訓(xùn)練階段與專家利用階段。


基于協(xié)作式語義專家的語言模型微調(diào)(AAAI 2025)-AI.x社區(qū)

圖 2:兩階段訓(xùn)練方法示意圖。第一階段為專家訓(xùn)練階段,針對通用知識、數(shù)學(xué)推理、代碼生成三大能力類別,分別對前饋網(wǎng)絡(luò)(FFN)參數(shù)進(jìn)行微調(diào);第二階段為專家利用階段,將訓(xùn)練好的專家模型整合為統(tǒng)一的專家混合(MoE)模型,并利用動(dòng)態(tài)路由機(jī)制優(yōu)化跨任務(wù)協(xié)作性能。

指令數(shù)據(jù)標(biāo)注

為實(shí)現(xiàn)專家模型的針對性微調(diào),需將指令數(shù)據(jù)準(zhǔn)確分類到預(yù)設(shè)能力類別中。受 Lu 等人(2023)研究的啟發(fā),本文方法的基礎(chǔ)是對指令數(shù)據(jù)進(jìn)行標(biāo)注,這一過程對專用模型的有效訓(xùn)練至關(guān)重要。

本文從多個(gè)來源收集大規(guī)模 SFT 數(shù)據(jù),并通過提示 GPT-4 根據(jù)數(shù)據(jù)的主要類別對每個(gè)樣本進(jìn)行系統(tǒng)性標(biāo)注,最終將數(shù)據(jù)分為三大類:通用類(General),對應(yīng)涵蓋廣泛知識的指令;數(shù)學(xué)類(Math),對應(yīng)需要數(shù)學(xué)推理的指令;代碼類(Coding),對應(yīng)與編程相關(guān)的任務(wù)指令。

通過上述標(biāo)注過程,構(gòu)建了三個(gè)專用 SFT 數(shù)據(jù)集:D_{general}(通用數(shù)據(jù)集)、D_{math}(數(shù)學(xué)數(shù)據(jù)集)和D_{coding}(代碼數(shù)據(jù)集),每個(gè)數(shù)據(jù)集均針對特定任務(wù)所需的專業(yè)能力進(jìn)行定制。這些數(shù)據(jù)集確保了每個(gè)專家模型都能得到有效微調(diào),在其指定的能力類別中展現(xiàn)出高性能。

專家訓(xùn)練

方法的第一階段為專家訓(xùn)練階段,在此階段,每個(gè)專家模型都會(huì)針對特定能力類別(通用知識、數(shù)學(xué)推理、代碼生成)進(jìn)行微調(diào),以增強(qiáng)其領(lǐng)域?qū)S眯浴?/p>

設(shè) M 為預(yù)設(shè)基礎(chǔ)模型的全部參數(shù)集合,F(xiàn) 為所有前饋網(wǎng)絡(luò)(FFN)(Vaswani 等人,2017)參數(shù)的集合,具體可表示為F=\{FFN_1, \cdots, FFN_N\}。在專家訓(xùn)練階段,僅更新 F 中的參數(shù),其余參數(shù)(M \ F)保持凍結(jié)狀態(tài)。

為清晰追蹤與各能力類別唯一對應(yīng)的更新后 FFN 參數(shù),分別用F_{general}、F_{math}和F_{coding}表示通過D_{general}、D_{math}和D_{coding}微調(diào)得到的 FFN 參數(shù)。

每組 FFN 參數(shù)都會(huì)在其對應(yīng)的專用數(shù)據(jù)集上進(jìn)行 SFT。這種設(shè)計(jì)確保訓(xùn)練過程能精準(zhǔn)增強(qiáng)每個(gè)專家模型在特定能力類別中的能力 —— 不僅為后續(xù)階段的專家協(xié)作奠定基礎(chǔ),還能讓每個(gè)專家模型對其對應(yīng)能力類別形成深入且扎實(shí)的理解。

專家利用

在專家訓(xùn)練階段之后,進(jìn)入專家利用階段:將單獨(dú)訓(xùn)練的專家模型整合為統(tǒng)一的專家混合(MoE)模型(Jiang 等人,2024;Dai 等人,2024),即本文提出的協(xié)作式語義專家(CoE)模型。

在該階段,首先凍結(jié)前一階段針對各能力類別微調(diào)得到的前饋網(wǎng)絡(luò)(FFN)參數(shù),然后引入與 MoE 路由器相關(guān)的新參數(shù)(記為 R),用于管理輸入 token 的路由分配。CoE 模型的全部參數(shù)集合定義如下:


基于協(xié)作式語義專家的語言模型微調(diào)(AAAI 2025)-AI.x社區(qū)

隨后,使用三個(gè) SFT 數(shù)據(jù)集的并集(D_{general} \cup D_{math} \cup D_{coding})對剩余參數(shù)(\mathcal{M} \backslash \mathcal{F} \cup \mathcal{R})進(jìn)行微調(diào)。此外,為同時(shí)保留各專家模型的專業(yè)能力,并增強(qiáng) MoE 結(jié)構(gòu)對專家協(xié)作的利用能力,本文引入一種邊際損失(margin loss),專門用于提升路由器決策的靈活性。

設(shè)Logits \in \mathbb{R}^{B \times T \times E}表示路由器對每個(gè) token 輸出的 logits,其中 B 為批大小(batch size),T 為序列長度(sequence length),E 為專家模型數(shù)量;設(shè)L \in \mathbb{N}^{B \times T}表示語義目標(biāo)專家模型的索引,與樣本所屬的能力類別相對應(yīng)。由于每個(gè)樣本的標(biāo)注類別對序列中所有 token 均適用,因此對于每個(gè)樣本,L 在 T 維度上的值保持不變。設(shè) K 為需要考慮的前 K 個(gè)專家模型 logits 的數(shù)量。

1.首先,提取目標(biāo)專家模型的 logits(其中 b 為批索引,t 為序列中的位置索引):

C_{b, t}= Logits _{b, t, L_{b, t}} \quad (7)

1.然后,確定批中每個(gè)位置每個(gè) token 的第 K 高 logits:

K_{b, t}=TopK\left(Logits_{b, t,:}\right) \quad (8)

1.計(jì)算正確 logits 與閾值 logits 之間的邊際值:

M_{b,t}=C_{b,t}-K_{b,t} \quad (9)

1.最終,邊際路由損失(margin routing loss)表示為所有 token 和所有樣本的平均值:

\mathcal{L}_{router }=\frac{1}{B \cdot T} \sum_{b=1}^{B} \sum_{t=1}^{T} max \left(0,-M_{b, t}\right) \quad (10)


基于協(xié)作式語義專家的語言模型微調(diào)(AAAI 2025)-AI.x社區(qū)

通過對專用 FFN 參數(shù)進(jìn)行戰(zhàn)略性凍結(jié)與整合,CoE 模型確保了各能力類別的專業(yè)能力能被有效利用和保留,不僅提升了模型的穩(wěn)健性能,還實(shí)現(xiàn)了不同專家模塊之間的無縫協(xié)作。

實(shí)驗(yàn)

指令微調(diào)數(shù)據(jù)集

本文方法最初使用的大規(guī)模數(shù)據(jù)集源自 TULU-v2(Wang 等人,2023;Ivison 等人,2023)—— 這是一個(gè)綜合的指令微調(diào)數(shù)據(jù)集集合。研究人員從 ShareGPT(Chiang 等人,2023)、WizardLM(Xu 等人,2023a)、CoT(Chung 等人,2024)、FLAN(Chung 等人,2024)、Open-Orca(Mukherjee 等人,2023;Lian 等人,2023)、GPT4-Alpaca(Peng 等人,2023)和 Open Assistant 1(K?p 等人,2024)中提取樣本,并對每個(gè)樣本進(jìn)行標(biāo)注,將其歸類到通用(General)、代碼(Coding)或數(shù)學(xué)(Math)能力類別中。為增強(qiáng)代碼數(shù)據(jù)集和數(shù)學(xué)數(shù)據(jù)集的豐富性,研究人員還補(bǔ)充了以下數(shù)據(jù):代碼數(shù)據(jù)集新增了來自 CodeAlpaca(Chaudhary,2023)和 OSS-Instruct(Wei 等人,2023b)的數(shù)據(jù);數(shù)學(xué)數(shù)據(jù)集新增了來自 MAmmoTH(Yue 等人,2023)的 CoT 分區(qū)數(shù)據(jù)。


基于協(xié)作式語義專家的語言模型微調(diào)(AAAI 2025)-AI.x社區(qū)

圖 3:桑基圖(Sankey diagram)展示了不同 SFT 數(shù)據(jù)集向三大專業(yè)類別(通用、代碼、數(shù)學(xué))的分布與流向。

評估協(xié)議

專業(yè)能力評估數(shù)據(jù)集

?通用能力:采用大規(guī)模多任務(wù)語言理解數(shù)據(jù)集(Massive Multitask Language Understanding, MMLU)(Hendrycks 等人,2020)評估模型的通用知識能力,該數(shù)據(jù)集涵蓋多個(gè)不同主題領(lǐng)域。

?代碼能力:采用 HumanEval 數(shù)據(jù)集(Chen 等人,2021)評估模型的代碼生成能力,該數(shù)據(jù)集包含 164 個(gè)用自然語言描述的編程問題及對應(yīng)的測試用例。模型需生成滿足需求且能通過所有測試用例的 Python 腳本。

?數(shù)學(xué)能力:采用小學(xué)數(shù)學(xué)數(shù)據(jù)集(Grade School Math, GSM8K)(Cobbe 等人,2021)評估模型的數(shù)學(xué)能力,尤其通過思維鏈(Chain-of-Thought, CoT)提示方法測試模型的問題解決能力,該方法可衡量模型的逐步推理能力。

專家協(xié)作評估

為評估模型整合數(shù)學(xué)與代碼能力的水平,研究人員采用程序思維(Program-of-Thought, PoT)方法(Gao 等人,2023),并結(jié)合 GSM8K 數(shù)據(jù)集進(jìn)行評估。該方法測試模型在解決數(shù)學(xué)問題與生成可執(zhí)行 Python 腳本方面的熟練度 —— 通過執(zhí)行生成的腳本,對照預(yù)期結(jié)果評估腳本的準(zhǔn)確性與效率。由于 PoT 評估所用數(shù)據(jù)未包含在訓(xùn)練數(shù)據(jù)中,因此該評估能有效檢驗(yàn)?zāi)P偷慕M合泛化能力,以及將整合技能應(yīng)用于新任務(wù)的能力。

指令遵循評估

為評估模型理解和響應(yīng)用戶輸入的能力,研究人員采用兩個(gè)基準(zhǔn)數(shù)據(jù)集進(jìn)行測試:

?MT-Bench(Zheng 等人,2024):包含 80 個(gè)多輪對話問題,每個(gè)問題涉及兩輪交互。使用 GPT-4(Achiam 等人,2023)對模型響應(yīng)進(jìn)行 0-10 分評分,以定量評估模型的對話能力。

?AlpacaEval(Dubois 等人,2024):通過將模型響應(yīng)與 text-davinci-003 的響應(yīng)進(jìn)行對比,評估模型的指令遵循能力;使用 GPT-4 判斷模型響應(yīng)的 “勝率”(win rate)。

實(shí)現(xiàn)細(xì)節(jié)

本實(shí)驗(yàn)基于 LLaMA2-7B-Base 模型(Touvron 等人,2023),在 8 塊 NVIDIA A100 GPU 上運(yùn)行;采用 ChatML 格式模板(OpenAI,2022),將訓(xùn)練序列長度限制為 2048 個(gè) token;為保證一致性,每臺設(shè)備的批大小(batch size)統(tǒng)一設(shè)置為 8。優(yōu)化過程使用 AdamW 優(yōu)化器,初始學(xué)習(xí)率通過預(yù)熱階段提升至1 \times 10^{-5},隨后通過余弦調(diào)度器(cosine scheduler)將學(xué)習(xí)率調(diào)整至最大值的 10%。

專家訓(xùn)練階段

在專家訓(xùn)練階段,微調(diào)僅針對 Transformer 塊中的前饋網(wǎng)絡(luò)(FFN)組件進(jìn)行,其余參數(shù)保持凍結(jié)狀態(tài)。通過該階段訓(xùn)練得到的專用模型分別命名為 “通用專家模型(Expert-General)”、“數(shù)學(xué)專家模型(Expert-Math)” 和 “代碼專家模型(Expert-Coding)”。

專家利用階段

在專家利用階段,研究人員通過專家混合(MoE)架構(gòu)整合訓(xùn)練好的專家模型。每個(gè) MoE 塊配備一個(gè) TopK 路由模塊,該模塊采用隨機(jī)初始化方式,設(shè)置為 Top-2 路由機(jī)制(即每個(gè) token 分配給兩個(gè)專家模型)。整合后的模型命名為 CoE-3E2A,其中 “3E” 表示包含三個(gè)專家模型,“2A” 表示采用 Top-2 專家激活機(jī)制。

主要結(jié)果

研究人員對專家訓(xùn)練與專家利用過程進(jìn)行了對比分析,評估的模型包括:基礎(chǔ)模型 LLaMA2-7B-Base、在所有能力類別上進(jìn)行監(jiān)督微調(diào)的模型 LLaMA2-7B-SFT、各領(lǐng)域?qū)S脤<夷P停ㄍㄓ脤<夷P汀?shù)學(xué)專家模型、代碼專家模型),以及整合后的 MoE 模型 CoE-3E2A。評估結(jié)果分別如表 1 和表 2 所示。


基于協(xié)作式語義專家的語言模型微調(diào)(AAAI 2025)-AI.x社區(qū)

表 1:基礎(chǔ)模型(LLaMA2-7B-Base)、監(jiān)督微調(diào)模型(LLaMA2-7B-SFT)、各專用專家模型(通用專家模型、數(shù)學(xué)專家模型、代碼專家模型)及 CoE-3E2A 模型在不同數(shù)據(jù)集上的性能對比


基于協(xié)作式語義專家的語言模型微調(diào)(AAAI 2025)-AI.x社區(qū)

表 2:CoE-3E2A 模型與其他模型在 MT-Bench 和 AlpacaEval 數(shù)據(jù)集上的性能對比

專業(yè)能力評估數(shù)據(jù)集結(jié)果

針對特定能力類別的專用專家模型在對應(yīng)領(lǐng)域的表現(xiàn)持續(xù)優(yōu)于 SFT 模型:在 GSM8K-CoT 任務(wù)上,專家模型性能提升 11%;在 HumanEval 任務(wù)上,專家模型性能提升 43%。這一結(jié)果進(jìn)一步證明,相比混合訓(xùn)練方式,針對特定領(lǐng)域的專用訓(xùn)練更具優(yōu)勢。

協(xié)作數(shù)據(jù)集評估結(jié)果

在 GSM8K-PoT 評估中,CoE-3E2A 模型的執(zhí)行準(zhǔn)確率達(dá)到 44.81%,這一結(jié)果表明該模型在整合不同專業(yè)領(lǐng)域知識、實(shí)現(xiàn)跨領(lǐng)域泛化方面具備出色能力。該性能驗(yàn)證了 MoE 架構(gòu)在構(gòu)建動(dòng)態(tài)、高性能模型方面的有效性。

MT-Bench 與 AlpacaEval 評估結(jié)果

在基于 GPT-4 的評估中,CoE-3E2A 模型表現(xiàn)顯著優(yōu)于其他模型:在 MT-Bench 數(shù)據(jù)集上,整體得分為 6.37;在 AlpacaEval 數(shù)據(jù)集上,勝率達(dá)到 73.01%。在 MT-Bench 評估中,CoE-3E2A 模型首輪得分為 6.63,第二輪仍保持 6.09 的高分,展現(xiàn)出穩(wěn)定的上下文連貫性;在 AlpacaEval 評估中,該模型大幅領(lǐng)先,勝率比 SFT 模型高出 10% 以上。這些結(jié)果表明,CoE-3E2A 模型在響應(yīng)復(fù)雜用戶指令方面具備出色能力。模型在多個(gè)基準(zhǔn)數(shù)據(jù)集上的穩(wěn)健表現(xiàn),充分證明了 CoE 架構(gòu)在應(yīng)用專家知識方面的有效性,也驗(yàn)證了該架構(gòu)在處理復(fù)雜現(xiàn)實(shí)場景任務(wù)中的適用性。

參數(shù)更新策略消融實(shí)驗(yàn)

本節(jié)旨在評估專家利用階段不同參數(shù)更新策略對 MoE 模型性能的影響。研究人員通過消融實(shí)驗(yàn)確定最優(yōu)更新策略 —— 該策略需在提升模型性能的同時(shí),保留專家訓(xùn)練階段獲得的專用知識。實(shí)驗(yàn)將本文提出的排除 FFN 參數(shù)的 SFT 模型(CoE-3E2A)與以下兩個(gè)變體模型進(jìn)行對比:

?全參數(shù) SFT 模型(CoE-3E2A-full):對 MoE 模型中的所有參數(shù)進(jìn)行統(tǒng)一更新。

?僅路由器 SFT 模型(CoE-3E2A-router):僅更新 MoE 路由模塊的參數(shù)。

如表 3 所示,CoE-3E2A 模型在整體性能上優(yōu)于兩個(gè)變體模型,這是因?yàn)樵撃P驮趧?dòng)態(tài)更新其他組件的同時(shí),保留了 FFN 參數(shù)中的專用知識。CoE-3E2A-full 模型的性能略有下降,這表明對所有參數(shù)進(jìn)行更新可能會(huì)削弱模型的專用能力;而 CoE-3E2A-router 模型雖與 CoE-3E2A-full 模型性能相近,但在 GSM8K-PoT 等任務(wù)中表現(xiàn)較差,這一結(jié)果凸顯了該模型在促進(jìn)專家協(xié)作方面存在的挑戰(zhàn)。


基于協(xié)作式語義專家的語言模型微調(diào)(AAAI 2025)-AI.x社區(qū)

表 3:CoE-3E2A(排除 FFN 參數(shù)微調(diào))、CoE-3E2A-full(全參數(shù)更新)與 CoE-3E2A-router(僅路由器模塊更新)在不同基準(zhǔn)數(shù)據(jù)集上的性能對比


基于協(xié)作式語義專家的語言模型微調(diào)(AAAI 2025)-AI.x社區(qū)

表 4:不同模型設(shè)置的計(jì)算資源使用情況匯總,包括總參數(shù)數(shù)量(#Params)、可訓(xùn)練參數(shù)數(shù)量(#Trainable)和 GPU 內(nèi)存消耗(GPU Mem),展示了不同參數(shù)更新策略對資源效率的影響

表 4 列出了各模型配置的計(jì)算資源使用情況,包括總參數(shù)數(shù)量、可訓(xùn)練參數(shù)數(shù)量和 GPU 內(nèi)存消耗 1。LLaMA2-7B-Base 模型和 LLaMA2-7B-SFT 模型的參數(shù)數(shù)量均為 67.4 億;由于僅對 FFN 參數(shù)進(jìn)行選擇性更新,專家模型的可訓(xùn)練參數(shù)數(shù)量為 45.8 億;CoE-3E2A 模型在性能與資源使用之間實(shí)現(xiàn)平衡,可訓(xùn)練參數(shù)數(shù)量為 24.1 億,GPU 內(nèi)存消耗為 45.01 GB。相比之下,CoE-3E2A-full 模型需更新所有參數(shù);而 CoE-3E2A-router 模型僅關(guān)注路由機(jī)制更新,資源消耗最低,GPU 內(nèi)存消耗僅為 40.71 GB。這些差異表明,針對性更新策略能顯著提升資源效率 ——CoE-3E2A 模型和 CoE-3E2A-router 模型的案例證明,通過聚焦關(guān)鍵組件增強(qiáng),既能優(yōu)化模型性能,又能降低運(yùn)行成本。

注 1:為保證一致性,所有實(shí)驗(yàn)中每臺設(shè)備的批大小均統(tǒng)一設(shè)置為 8。

模型規(guī)模消融實(shí)驗(yàn)

本節(jié)旨在驗(yàn)證 CoE-3E2A 模型的性能提升是否源于模型規(guī)模的擴(kuò)大,還是源于專家知識的戰(zhàn)略性整合。研究人員通過消融實(shí)驗(yàn),將 CoE-3E2A 模型與以下兩個(gè)僅擴(kuò)大規(guī)模但未進(jìn)行專用微調(diào)的變體模型進(jìn)行對比:

?復(fù)制 MoE 結(jié)構(gòu)模型(MoE-3E2A):為測試 MoE 架構(gòu)復(fù)雜度對性能的影響,研究人員使用三個(gè) LLaMA2-7B-Base 模型副本初始化專家模型(未進(jìn)行專用訓(xùn)練)。該模型用于評估結(jié)構(gòu)與規(guī)模的擴(kuò)大是否能提升模型性能。

?匹配激活參數(shù)模型(MoE-2E2A):該模型的激活參數(shù)數(shù)量與 CoE-3E2A 模型一致,用于評估僅通過擴(kuò)大參數(shù)規(guī)模是否能實(shí)現(xiàn)觀察到的性能提升。

如表 5 所示,在幾乎所有評估任務(wù)中,CoE-3E2A 模型的性能均優(yōu)于 MoE-3E2A 模型和 MoE-2E2A 模型,尤其在 GSM8K-PoT 和 AlpacaEval 任務(wù)中優(yōu)勢顯著。這一結(jié)果證實(shí)了將專用專家知識整合到 MoE 架構(gòu)中的價(jià)值,也表明若未對專家模型進(jìn)行針對性訓(xùn)練,僅通過增加專家模型數(shù)量或擴(kuò)大參數(shù)規(guī)模,無法持續(xù)提升模型性能。有趣的是,在多個(gè)基準(zhǔn)數(shù)據(jù)集上,MoE-2E2A 模型的性能略優(yōu)于 MoE-3E2A 模型。這種細(xì)微的性能差異可能源于 MoE-2E2A 模型更精簡、高效的參數(shù)使用方式 —— 由于需要管理的專家模型數(shù)量更少,MoE-2E2A 模型的路由過程復(fù)雜度更低,從而能更高效地利用計(jì)算資源。


基于協(xié)作式語義專家的語言模型微調(diào)(AAAI 2025)-AI.x社區(qū)

表 5:CoE-3E2A 模型與 MoE-3E2A 模型、MoE-2E2A 模型在多個(gè)基準(zhǔn)數(shù)據(jù)集上的性能對比,分析模型規(guī)模擴(kuò)大與針對性專家整合對性能的影響

路由損失消融實(shí)驗(yàn)

本節(jié)探討路由損失(routing loss)的有效性 —— 該損失函數(shù)旨在提升路由器決策過程的靈活性。為驗(yàn)證其有效性,研究人員將 CoE-3E2A 模型與未使用額外路由損失函數(shù)訓(xùn)練的變體模型(記為 “無L_{router}模型”)進(jìn)行對比。

如表 6 所示,使用邊際損失(margin loss)的模型配置在性能上優(yōu)于未使用該損失的配置,這表明通過靈活選擇專家模型,能更充分地利用模型的多元專業(yè)能力。這些結(jié)果證實(shí),設(shè)計(jì)合理的路由損失函數(shù)對最大化 MoE 模型潛力至關(guān)重要,尤其在需要專家協(xié)作的任務(wù)中。


基于協(xié)作式語義專家的語言模型微調(diào)(AAAI 2025)-AI.x社區(qū)

圖 4:CoE-3E2A 模型處理 PoT 問題時(shí)不同層的路由決策可視化。不同背景顏色代表每個(gè)輸出 token 所激活的專家模型組合。


基于協(xié)作式語義專家的語言模型微調(diào)(AAAI 2025)-AI.x社區(qū)

表 6:CoE-3E2A 模型(含路由損失)與無路由損失模型(w/o L_{router})的性能對比

路由分析

本節(jié)分析 CoE-3E2A 模型在處理 GSM8K-PoT 問題時(shí)不同層的路由決策。研究人員通過為不同激活專家組合分配不同背景色,可視化了第 1 層、第 8 層和第 32 層每個(gè)輸出 token 的路由決策。

如圖 4 所示,不同層的路由決策呈現(xiàn) “收斂式” 特征:在第 1 層,模型在不同專家組合之間頻繁 “切換路由”,這表明模型在處理初期會(huì)探索不同專家能力,以實(shí)現(xiàn)對輸入的最優(yōu)理解;到第 8 層,路由決策逐漸穩(wěn)定,更長序列的 token 會(huì)持續(xù)被路由到相同專家模型;這種趨勢在第 32 層進(jìn)一步強(qiáng)化 —— 幾乎所有 token 都被分配到單一專家組合。這一現(xiàn)象表明,隨著模型處理深度的增加,模型會(huì)識別并鎖定對當(dāng)前任務(wù)最有效的專家配置,從而同時(shí)提升處理效率與輸出連貫性。

結(jié)論

本研究提出一種協(xié)作式語義專家(CoE)框架,這是一種用于優(yōu)化大型語言模型的新型方法。該方法采用兩階段監(jiān)督微調(diào)策略,在精心設(shè)計(jì)的專家混合(MoE)結(jié)構(gòu)中實(shí)現(xiàn)專家訓(xùn)練與專家利用。該策略通過高效的選擇性參數(shù)更新,實(shí)現(xiàn)了兩階段之間的無縫整合。在多個(gè)不同基準(zhǔn)數(shù)據(jù)集上的評估結(jié)果表明,CoE 方法具有顯著有效性 —— 通過專家協(xié)作,模型展現(xiàn)出更優(yōu)的問題解決能力。該框架不僅提升了大型模型的可解釋性與資源效率,還為部署復(fù)雜 MoE 模型以應(yīng)對具備高適應(yīng)性與高性能需求的復(fù)雜任務(wù)樹立了新標(biāo)桿。


本文轉(zhuǎn)載自??AIRoobt?? ,作者:Jiaxi Yang等

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責(zé)任
已于2025-11-21 08:23:00修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
国产亚洲久久| 国产精品久久久久久久久久直播| 欧美精品亚洲精品| 国产人与禽zoz0性伦| 无码国产伦一区二区三区视频| 成人系列视频| 日韩欧美999| 国产成人看片| 丝袜 亚洲 另类 欧美 重口| 99热播精品免费| 久久久久久影视| 久久久中精品2020中文| 黄色aaaaaa| 日本成人网址| 成人羞羞视频播放网站| 欧美一区二区二区| 在线一区日本视频| 亚洲性在线观看| 深夜福利久久| 精品久久久久久| 精品国产乱码久久久久久108| 日韩女优一区二区| 美国十次综合久久| 亚洲精品一二三| 2019国产精品视频| 唐朝av高清盛宴| 国产麻豆一区二区三区精品视频| 色综合中文综合网| 欧美日韩一区在线视频| 国产免费叼嘿网站免费| 亚洲精品国产首次亮相| 日韩一区二区三区av| 国产 国语对白 露脸 | 成人羞羞视频播放网站| 亚洲电影免费观看高清完整版在线 | 日韩08精品| **性色生活片久久毛片| 国产日韩中文在线| 私库av在线播放| 欧美伦理在线视频| 91麻豆精品国产自产在线观看一区 | 成人免费在线播放| 亚洲乱亚洲乱妇无码| 欧美 日韩精品| 成av人电影在线观看| 人禽交欧美网站| 久久成人精品一区二区三区| 亚洲黄色小说在线观看| 蜜臀久久精品| 国产精品美女久久久久久久| 亚洲aaaaaa| 天堂在线免费观看视频| 成人直播大秀| 亚洲一区二区精品| 能看毛片的网站| 日本免费一区二区六区| 亚洲成人av福利| 日本免费高清一区| 99热在线只有精品| 国产日本精品| 久久精品国亚洲| 亚洲精品中文字幕在线播放| 高清在线一区| 欧美在线小视频| wwwwww欧美| 国产精品ⅴa有声小说| 国产福利精品导航| 国产精品99久久久久久www| 亚洲成人生活片| 午夜精品亚洲| 这里只有精品视频在线| 中文字幕乱视频| 国产人妖一区| 欧美日韩国产综合视频在线观看中文| 少妇精品久久久久久久久久| 99精品在线视频观看| 国产在线视视频有精品| 97超级碰碰人国产在线观看| 国产一区在线观看免费| 99热在线成人| 亚洲人成伊人成综合网久久久| 久久久久久久久久毛片| 亚洲精品一区二区三区在线| 日本黄色一区二区| 日韩国产一级片| 高清全集视频免费在线| 中文av一区二区| 久久精品一区二区三区不卡免费视频| 国产女人高潮的av毛片| 粉嫩蜜臀av国产精品网站| 国产精品入口日韩视频大尺度| 国产精品99精品| 欧美不卡高清| 青青在线视频一区二区三区| 黄色小说在线观看视频| 免费久久99精品国产自在现线| 九九热这里只有精品6| 五月天婷婷丁香网| 影视先锋久久| 亚洲精品久久久久久久久久久 | 欧美xoxoxo| 亚洲国产你懂的| 熟妇人妻va精品中文字幕| 黑人玩欧美人三根一起进| 亚洲欧洲精品一区二区三区不卡| 国产av熟女一区二区三区| 亚洲天堂av影院| 亚洲视频精选在线| 在线成人av电影| 免费在线观看的电影网站| 亚洲精品国产一区二区精华液 | 一区二区蜜桃| 日韩在线观看免费网站| 一区二区精品免费| 伊人久久大香线蕉av不卡| 另类少妇人与禽zozz0性伦| 天天综合网入口| 亚洲综合不卡| 亚洲影视中文字幕| av基地在线| 中文字幕亚洲精品在线观看 | 性猛交ⅹxxx富婆video| 九九久久成人| 欧美高清视频在线观看| 久久人人爽人人爽人人| 国产精品啊啊啊| 国产+人+亚洲| 国产成人精品毛片| 国产精品欧美久久久久一区二区| 成年女人18级毛片毛片免费| av资源在线播放| 色先锋资源久久综合| 中文字幕第九页| 欧美绝顶高潮抽搐喷水合集| 日韩精品欧美激情| 精品成人无码一区二区三区| 在线观看日韩av电影| 欧美中文字幕视频在线观看| www.精品久久| av成人免费在线观看| 欧美不卡福利| 天堂中文а√在线| 一区二区三区中文字幕电影| 在线免费av播放| 日韩亚洲精品在线观看| 中文字幕日韩欧美| 久久永久免费视频| 国产精品主播直播| 蜜桃传媒视频麻豆第一区免费观看| 午夜小视频在线观看| 狠狠躁夜夜躁人人躁婷婷91 | 美女扒开大腿让男人桶| 一本色道69色精品综合久久| 欧美巨大黑人极品精男| 99久久亚洲精品日本无码| 综合中文字幕亚洲| 美女被艹视频网站| 激情av综合| 伊人久久精品视频| 久久免费视频99| 国产成人在线免费| 国产freexxxx性播放麻豆| 在线精品国产亚洲| 久久久久久亚洲精品| 日韩熟女一区二区| 国产成人精品免费| 久久国产午夜精品理论片最新版本| 91精品日本| 91干在线观看| 成年人在线观看| 欧美精品久久久久久久多人混战 | 亚洲精品无码久久久久久| 亚洲人成网亚洲欧洲无码| 国产成人一区二| 国产三区在线观看| 福利精品视频在线| 国产女主播喷水高潮网红在线| 伊人久久大香线| 国产高清自拍99| 韩国美女久久| 色青青草原桃花久久综合 | 自拍偷拍亚洲视频| 中文字幕亚洲综合久久| 99精品在线看| 欧美性猛交xxxx偷拍洗澡| 国产精品情侣呻吟对白视频| 亚洲一级影院| 你懂的视频在线一区二区| 欧美成人福利| 欧美精品制服第一页| 在线观看国产小视频| 亚洲精品自拍动漫在线| 国产精品久久久久久在线观看| 香蕉久久国产| 中文字幕色呦呦| 四虎国产精品成人免费影视| 亚洲另类图片色| 国产精品欧美亚洲| 国产精品毛片无遮挡高清| 少妇性l交大片7724com| 先锋影音国产一区| 色哟哟免费网站| 欧美欧美黄在线二区| 亚洲一区美女视频在线观看免费| 涩涩视频在线| 欧美精品制服第一页| 国产高清免费在线播放| 精品久久久久久无| 久草成人在线视频| 国产精品亚洲一区二区三区在线| 免费 成 人 黄 色| 杨幂一区二区三区免费看视频| 国产精品夜间视频香蕉| 日本最黄一级片免费在线| 亚洲激情在线观看视频免费| 国产精品毛片一区二区在线看舒淇 | 婷婷激情四射网| 日本va欧美va瓶| 欧美午夜性视频| 中文av一区| 亚洲免费在线精品一区| 在线免费看黄视频| 在线女人免费视频| 欧美日韩国产成人| 97电影在线| 亚洲热线99精品视频| 免费观看成年人视频| 一区二区三区中文字幕电影| 手机毛片在线观看| 久久蜜桃一区二区| 黄色成人免费看| 91久久电影| 色综合视频二区偷拍在线| 暗呦丨小u女国产精品| 精品亚洲porn| 97精品国产97久久久久久粉红| 亚洲人成网站在线在线观看| 久热精品在线视频| а√天堂中文在线资源bt在线| 日韩精品高清视频| 亚洲欧美日韩成人在线| 亚洲精品在线免费播放| 伊人中文字幕在线观看| 国产精品美女久久久久久久久| 玖玖爱在线观看| 精品一区二区三区在线视频| 51xx午夜影福利| 久久久五月天| 欧洲美女和动交zoz0z| 久久理论电影| 国产精品国产精品国产专区不卡| 亚洲日韩中文字幕一区| 国产精品自拍小视频| 久久天天久久| 成人精品在线视频| 欧产日产国产精品视频| 亚洲**2019国产| 午夜在线视频播放| 少妇高潮 亚洲精品| 日韩在线资源| 久久香蕉频线观| 污污的网站在线免费观看| 欧美黑人xxxⅹ高潮交| 三级网站视频在在线播放| 欧美黑人性视频| 巨乳女教师的诱惑| 久久aimee| 欧美一进一出视频| 日产精品一区二区| 国产精品视频免费一区| 国产suv精品一区| 国产精品入口免费视频一| 亚洲网站三级| 国产精品一区而去| 性欧美lx╳lx╳| 成人动漫视频在线观看免费| 精品欧美日韩精品| 91精品国产成人www| 东京一区二区| 国产日韩中文在线| 国产成人一二| 日韩av电影免费播放| 红杏视频成人| 日本不卡一区二区三区在线观看| 成人毛片免费看| 国产成人一区二区三区别| av成人国产| 蜜臀av色欲a片无码精品一区| aa级大片欧美三级| 中文字幕资源在线观看| 日韩精品一二区| www.玖玖玖| 伊人久久婷婷| 午夜免费一区二区| 国产成人免费xxxxxxxx| www.黄色在线| 亚洲制服欧美中文字幕中文字幕| 欧美激情视频二区| 亚洲尤物视频在线| 做爰视频毛片视频| 欧洲色大大久久| 亚洲精品18在线观看| 91精品国产综合久久久久久| 日韩一卡二卡在线| 中文字幕九色91在线| heyzo一区| 91免费国产视频| 成人国产精品久久| 久久99精品久久久久久三级 | 日本一区二区三区视频免费看| 一区二区三区在线| 免费看a级黄色片| 久久一二三四| 欧美成人黑人猛交| 懂色av中文字幕一区二区三区 | 99热这里只有精品1| 亚洲欧洲美洲在线综合| 青草影视电视剧免费播放在线观看| 国产91亚洲精品| 欧美电影免费观看高清完整| 91视频国产精品| 欧美日一区二区| 狠狠爱免费视频| youjizz久久| 免费在线观看av网址| 欧美疯狂做受xxxx富婆| 国自产拍在线网站网址视频| 国产亚洲精品一区二区| 狠狠操一区二区三区| 欧洲成人午夜免费大片| www.爱久久| 欧美人与性禽动交精品| 精品91在线| www.四虎在线| 亚洲精品v日韩精品| 国产乱淫av片免费| 久久久精品国产网站| 成人免费视频观看| 日韩欧美精品一区二区三区经典| 亚洲欧美日韩专区| 亚洲观看黄色网| 欧美日韩免费网站| 台湾av在线二三区观看| 永久555www成人免费| 欧美黑人巨大xxxxx| 蜜桃av色综合| 久久久久久久尹人综合网亚洲| 亚洲成人福利在线| 国产91精品一区二区麻豆网站 | 欧美色视频日本高清在线观看| 黑人乱码一区二区三区av| 精品视频在线播放色网色视频| 爱久久·www| 国产精品一香蕉国产线看观看| 色中色综合网| а 天堂 在线| 亚洲综合一区在线| 少妇荡乳情欲办公室456视频| 一区二区三区 在线观看视| 日韩中文影院| 官网99热精品| 在线精品福利| 新91视频在线观看| 精品1区2区3区| 无码国产精品一区二区免费16| 91av免费观看91av精品在线| 三级精品视频| 日韩精品你懂的| 亚洲婷婷国产精品电影人久久| 国产高清在线观看视频| 国模私拍视频一区| 欧美日韩播放| 亚洲第一天堂久久| 亚洲动漫第一页| 你懂的视频在线| 久久久久久综合网天天| 欧美三级电影在线| 别急慢慢来1978如如2| 亚洲欧洲精品成人久久奇米网| 国产高清视频免费| 日本韩国在线不卡| 婷婷亚洲综合| 一起草在线视频| 欧美日韩国产综合视频在线观看| 三级在线视频| 午夜精品一区二区三区av| 青青草原在线亚洲| 一路向西2在线观看| 亚洲一区二区欧美| www.黄色国产| 日本午夜在线亚洲.国产| 我不卡影院28| 五月开心播播网| 欧美精品久久99久久在免费线 | 国产精品美女999| 欧美精品偷拍| 国产资源中文字幕| 欧美性精品220| 亚洲91av| 深夜福利成人|