精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大型語言模型的知識融合(ICLR2024) 原創

發布于 2024-9-6 13:49
瀏覽
0收藏

?摘要: 從頭開始訓練大型語言模型(LLM)可以生成具有獨特功能和優勢的模型,但這需要巨大的成本,并可能導致冗余功能。另一種具有成本效益且引人注目的方法是將現有的預訓練LLM合并為一個更強大的模型。然而,由于這些LLM架構各不相同,直接融合它們的權重并不可行。在本文中,我們引入了LLM知識融合的概念,旨在將現有LLM的能力整合并轉移到一個單一的LLM中。通過利用源LLM的生成分布,我們外化了它們的集體知識和獨特優勢,從而有可能將目標模型的能力提升到超越任何單一源LLM的水平。我們使用三種具有不同架構的流行LLM——Llama-2、MPT 和 OpenLLaMA——在各種基準和任務中驗證了我們的方法。我們的研究結果表明,LLM的融合可以提高目標模型在推理、常識和代碼生成等多種能力上的表現。我們的代碼、模型權重和數據已公開在(https://github.com/fanqiwan/FuseLLM)。

(論文思想:假設我們有三個大型語言模型(LLMs):Llama-2、OpenLLaMA和MPT,它們分別擅長不同任務。Llama-2在推理任務中表現最佳,OpenLLaMA在常識問答上表現出色,而MPT在代碼生成方面非常強大。

現在,我們希望通過FUSELLM方法將這三個模型的知識融合到一個新的目標模型中,讓這個目標模型同時具備這三種能力。以下是FUSELLM方法如何工作的一個簡化示例:

1. 概率分布提取:我們提供一個文本序列,比如 `"The capital of France is..."`,讓Llama-2、OpenLLaMA和MPT分別預測下一個單詞是什么,并生成它們的概率分布。Llama-2可能對“Paris”有較高的概率,OpenLLaMA對“Paris”也有類似的預測,而MPT雖然更擅長代碼生成,但也會給出一個相對較低的概率。

2. 詞匯對齊:由于每個模型使用的分詞器可能不同,我們需要對齊它們生成的tokens,確保這些模型的輸出可以被比較和融合。例如,如果一個模型預測的是“Paris”,而另一個模型可能將其分為兩個token:“Par-” 和 “-is”,我們通過最小編輯距離對齊這些token。

3. 概率融合:我們將三個模型的概率分布進行融合。假設Llama-2和OpenLLaMA在常識問答中表現較好,它們的預測權重會更高。我們選擇使用MinCE方法,也就是選擇具有最小交叉熵分數的模型概率分布,因此目標模型會傾向于使用Llama-2和OpenLLaMA的預測。

4. 持續訓練:接著,我們用這些融合后的概率分布來指導目標模型的訓練,通過最小化目標模型的預測與融合分布之間的差異,讓目標模型逐步學習這三個模型的能力。

最終,目標模型經過持續訓練,不僅可以像Llama-2那樣擅長推理,還能像OpenLLaMA一樣處理常識問題,并在代碼生成任務上有類似MPT的表現。這個融合后的模型將具備更廣泛的能力,能夠在多種任務中表現出色。)

1、引言

隨著大型語言模型(LLMs)如GPT(Brown et al., 2020)和LLaMA(Touvron et al., 2023)系列在各種自然語言處理(NLP)任務中的持續成功,開發屬于自己的LLM已成為公司戰略的關鍵。然而,LLM開發成本極其高昂。除了需要大量的訓練數據、高級技術、巨大的計算資源和熟練的勞動力外,開發過程還對能源消耗和環境造成巨大壓力(Rillig et al., 2023)。雖然這些LLMs在結構和功能上有所不同,但它們在一系列NLP任務上有著相似的能力。因此,除了從零開始訓練LLM的傳統方法外,還有一種替代選擇是將現有的LLM組合成一個新的、更強大的模型,本文稱之為LLM的知識融合。如果成功,這種融合不僅可以降低初始訓練成本,還能使集成模型受益于所有LLM的優勢。該新模型也可以通過微調和適應各種下游任務。此外,融合也可以發生在專注于特定任務的微調LLM之間。

整合多個模型能力的嘗試由來已久。例如,集成方法(Littlestone & Warmuth, 1994; Jiang et al., 2023)直接聚合不同模型的輸出,以增強預測性能和魯棒性。然而,這種方法需要維護多個訓練好的模型,并在推理時執行每一個模型,這對于LLM來說是不可行的,因為它們需要大量的內存和推理時間。同樣,這種方法不支持微調,而微調對于許多LLM來說至關重要。另一種方法是通過參數級的算術操作直接將多個神經網絡合并為一個網絡(Wortsman et al., 2022; Jin et al., 2022)。這種方法通常假設網絡架構統一,并嘗試在不同神經網絡權重之間建立映射,但在LLM的上下文中,這往往是難以實現的。此外,當參數空間存在較大差異時,權重融合可能會導致次優結果(Li et al., 2022)。

在本文中,我們從概率分布的角度探討LLM的融合。對于一個輸入文本,我們認為不同源LLM生成的概率分布可以反映它們對該文本的固有知識。因此,提出的FUSELLM方法利用源LLM的生成分布,將它們的集體知識和個體優勢外化,并通過輕量級的持續訓練將這些知識轉移到目標LLM中。為此,我們開發了一種新策略,用于對齊來自不同LLM的分詞,并探索了兩種融合這些多樣化LLM生成的概率分布的方法。在持續訓練過程中,FUSELLM非常重視最小化目標LLM的概率分布與源LLM的概率分布之間的差異。

為了實證證明FUSELLM的有效性,我們在一個具有挑戰性但通用的LLM融合場景中進行實驗,其中源模型之間的共性最小。具體來說,我們重點關注三個具有不同架構和功能的流行開源LLM:Llama-2(Touvron et al., 2023)、OpenLLaMA(Geng & Liu, 2023)和MPT(Team, 2023)。通過對跨越推理、常識和代碼生成的三個基準共42個任務的評估,驗證了我們的方法訓練出的目標模型在大多數任務中都優于每個源LLM和基線。此外,我們通過在多個特定領域語料庫上持續訓練單個基礎模型,模擬了具有相同架構但功能不同的LLM的存在。根據困惑度(perplexity)的評估結果表明,FUSELLM在將這些結構相同的LLM的能力組合起來時,表現出比傳統的集成和權重融合方法更強的潛力。

總而言之,本文探討了一個新的挑戰,即LLM的融合,旨在創建一個能夠有效利用多樣化LLM集體能力和獨特優勢的統一模型。如圖1所示,我們提出的方法區別于傳統的集成和權重融合技術,通過優先外化和轉移多個LLM的知識進行融合。本研究得出了一些可能引發未來研究的發現。首先,盡管我們通過輕量級的持續訓練在緊湊、高質量的語料庫上展示了我們方法的有效性,但訓練語料庫的精心選擇可能是一個關鍵考慮因素,尤其是其與下游任務的相關性。其次,在源LLM能力差異顯著的情況下,融合功能對于有效結合各自的優勢至關重要。最后,與傳統的模型集成和融合技術相比,LLM融合領域似乎是一條更具探索前景的途徑,特別是在考慮到LLM的多樣化結構和巨大的模型規模時。

大型語言模型的知識融合(ICLR2024)-AI.x社區

圖1:展示了傳統模型融合技術(集成和權重合并)以及我們針對大型語言模型(LLMs)的知識融合方法(FUSELLM)。不同的動物圖標代表不同的LLMs,不同種類表示擁有不同架構的LLMs。FUSELLM將多個LLMs的知識外化,并將它們的能力轉移到目標LLM上。

2、相關工作

模型融合

整合不同模型的能力一直是一個長期的目標,現有的方法主要分為兩類。首先,傳統的模型集成技術通過結合多個模型的輸出來增強系統整體性能(Littlestone & Warmuth, 1994;Sagi & Rokach, 2018)。需要注意的是,這種技術并不涉及將多個模型顯式地合并為一個新模型。常見的模型集成方法包括加權平均(Littlestone & Warmuth, 1994)或多數投票(Monteith et al., 2011),以整合不同模型的預測結果。最近,Jiang等人(2023)引入了一個集成框架,旨在利用多個開源LLM的多樣化優勢。該框架首先使用成對比較方法來檢測候選輸出之間的細微差異,隨后結合最優的候選結果以產生增強的輸出,發揮其優勢并減少其劣勢。

其次,權重融合是另一種通過參數層面實現模型融合的方法。Gupta等人(2020)和Wortsman等人(2022)通過不同策略或配置獲得的具有相同結構的模型權重進行融合,以提高整體性能。同樣,Cha等人(2021)、Rame等人(2022)和Arpit等人(2022)通過加權平均不同配置的模型來提高分布外(out-of-distribution)的泛化能力。此外,Jin等人(2022)將為特定領域或任務設計的模型融合在一起,以創建能夠處理所有領域或任務的通用模型。除了對整個模型進行參數融合之外,Wang等人(2022b)、Huang等人(2023)和Zhang等人(2023)還應用線性數學運算對適配器參數進行融合,以實現更好的泛化性能。

總而言之,雖然模型集成需要并行部署多個模型,權重融合通常僅限于結構相同的模型。相比之下,本文提出的方法支持通過顯式轉移其知識和能力,將具有不同架構的多個LLM進行融合。

知識蒸餾

知識蒸餾(Hinton et al., 2015)最初提出用于模型壓縮,它包括在一個或多個教師模型的指導下訓練學生模型。在NLP領域,知識蒸餾廣泛應用于文本分類任務中。這些應用包括訓練學生模型以復制教師模型的輸出分布(Sanh et al., 2019;Turc et al., 2019),以及教師模型中間層提取的特征(Sun et al., 2019;Jiao et al., 2020)和關系(Wang et al., 2020)。在文本生成領域,傳統方法側重于最小化學生模型和教師模型生成分布之間的KL散度。這是通過使用教師在每個時間步的概率分布作為監督來實現的(Khanuja et al., 2021;Gu et al., 2023),或者直接在教師生成的文本上進行訓練(Peng et al., 2023;Xu et al., 2023)。

盡管我們的方法框架類似于多教師知識蒸餾,但存在兩個顯著區別。首先,在傳統的知識蒸餾中,學生模型通常被限制為比教師模型小的尺寸。然而,在我們的場景中,對目標模型的尺寸沒有限制。其次,傳統的知識蒸餾通常會導致學生模型在蒸餾后性能低于教師模型。相反,我們期望在融合之后,目標模型的性能能超越任何單個源模型。

3、大型語言模型的知識融合

LLM融合的主要目標是外化多個源LLM中嵌入的集體知識,并將它們的能力整合到目標LLM中。給定 K 個源LLM {Msj}j=1K,這些模型架構各異,并分別在不同的數據集上進行預訓練或微調。我們提出的核心思想是通過預測下一個token來激發這些LLM展現其固有的知識。通過評估這些預測生成的概率分布,我們使用最準確的預測來對目標LLM Mt 進行持續訓練,使用語料庫 C 并基于因果語言建模(CLM)目標進行訓練。在接下來的部分中,我們首先簡要介紹基本概念,然后詳細說明我們的LLM融合框架,最后討論實現細節。

3.1 基本概念

設 t 表示從語料庫 C 中采樣的長度為 N 的文本序列,t_{<i} = (t_1, t_2, ..., t_{i-1}) 表示第 i 個token之前的序列。基于因果語言建模(CLM)目標對參數化為 θ 的語言模型進行訓練,其定義為最小化負對數似然:

大型語言模型的知識融合(ICLR2024)-AI.x社區

其中,p_{θ}(t_i | t_{<i}) 是模型給定前面token后對token t_i 的預測概率。

大型語言模型的知識融合(ICLR2024)-AI.x社區

上述目標將序列的似然分解為token級的交叉熵損失,將每個token的預測分布與其單熱(one-hot)表示進行比較。為了提供一個更廣泛的視角,我們將這種token級的視圖重新框定為順序分布的格式。具體而言,對于文本序列 t,我們將token級預測聚合并創建一個概率分布矩陣 P_{θ}^t in mathbb{R}^{N times V},其中第 i 行表示模型對第 i 個token在詞匯表大小為 V 的情況下預測的分布。然后,CLM目標可以解釋為減少 P_{θ}^t 和單熱標簽矩陣 O^t in 0, 1^{N times V} 之間的差異,每行都是對應金標token的單熱表示。形式上,CLM目標轉化為以下表示:

大型語言模型的知識融合(ICLR2024)-AI.x社區

其中 D(·,·) 表示兩個矩陣之間的差異函數,當使用KL散度實現時,等價于公式(1)。

3.2 LLM的融合

基于對語言模型的這一觀點,我們認為概率分布矩陣可以反映其對文本理解中的某些固有知識。因此,來自不同LLM的相同文本的不同概率分布矩陣可用于表示這些模型中嵌入的多樣化知識。考慮到這一點,所提出的FUSELLM方法通過概率建模來處理LLM的融合,旨在通過融合源LLM的概率分布來創建一個統一的LLM。為實現這一點,在開始融合一組LLM時,FUSELLM會對目標LLM進行輕量級的持續訓練,使用一個與預訓練數據集類似的原始文本語料庫。除了依賴CLM目標外,FUSELLM還重點最小化目標LLM的預測概率分布與源LLM概率分布之間的差異。

大型語言模型的知識融合(ICLR2024)-AI.x社區

對于語料庫 C 中的每個文本,我們應用提供的 K 個源LLM并獲得一組概率分布矩陣,表示為 P_{θ_j}^t_{j=1}^{K},其中 θ_j 表示第 j 個LLM的參數。利用這些矩陣,我們將單個模型的知識外化到一個統一的空間,實際上是在文本上創建了統一的概率表示。我們承認源LLM之間詞匯表的差異可能導致矩陣 P_{θ_j}^t_{j=1}^{K} 未對齊。為了解決這個問題,我們采用了一個詞匯對齊策略,這將在3.3節中進行解釋,以促進跨模型的更一致概率解釋。

在對齊概率矩陣后,我們繼續將它們融合為一個緊湊的表示。可以應用多種融合策略來實現這一目標,具體將在3.3節中詳細介紹。我們用 P^t 來表示融合后的表示矩陣,定義如下:

大型語言模型的知識融合(ICLR2024)-AI.x社區

其中 text{Fusion}(·) 表示組合多個矩陣的函數,結果矩陣 P^t 被視為源LLM集體知識和獨特優勢的表示。

為了將源LLM的能力轉移到目標LLM,我們在目標LLM的預測與融合表示矩陣 P^t 之間強制對齊。我們用 Q^t 來表示目標LLM對文本 t 的輸出分布矩陣,然后將融合目標定義為:

大型語言模型的知識融合(ICLR2024)-AI.x社區

我們的持續訓練的總體目標包括CLM目標 L_{text{CLM}} 和融合目標 L_{text{Fusion}} 的加權組合,公式如下:

大型語言模型的知識融合(ICLR2024)-AI.x社區

3.3 FUSELLM的實現

在本節中,我們介紹FUSELLM方法中詞匯對齊和融合函數的實現細節。

詞匯對齊

確保多個LLM之間的token對齊對知識融合至關重要,因為它可以保證概率分布矩陣的正確映射。Fu等人(2023)采用動態規劃的方法,通過遞歸最小化將一個token序列編輯為另一個序列的總成本。如果兩個token之間存在一對一的映射,則對應的概率分布完全映射。否則,映射的分布退化為單熱向量。由于由不同分詞器為相同序列生成的token通常差異有限,我們建議通過用最小編輯距離(MinED)策略替換Fu等人(2023)提出的精確匹配(EM)約束,以基于最小編輯距離對不同分詞器生成的token進行映射。這種對齊方式的放寬有助于在分布矩陣中保留大量信息,同時引入的誤差很小。更多詞匯對齊的細節可參考附錄A。

融合策略

為了在保留源LLM獨特優勢的同時整合其集體知識,評估不同LLM的質量并對其相應的分布矩陣賦予不同的重要性是至關重要的。為此,在處理文本 t 時,我們使用分布矩陣與金標標簽之間的交叉熵損失作為LLM預測質量的指標(Marion et al., 2023)。較低的交叉熵分數表明源LLM對文本的理解更準確,其預測應賦予更大的權重。基于這一標準,我們引入了兩種融合函數:(1) MinCE:該函數輸出交叉熵分數最低的分布矩陣;(2) AvgCE:該函數根據交叉熵分數對分布矩陣進行加權平均。

FUSELLM方法的完整流程在算法1中描述。

大型語言模型的知識融合(ICLR2024)-AI.x社區

大型語言模型的知識融合(ICLR2024)-AI.x社區


4、實驗

在我們的實驗中,我們考慮了一種通用但具有挑戰性的LLM融合場景,其中源模型在架構或功能上幾乎沒有共性。具體來說,我們在7B規模下進行實驗,并選擇了三個具有代表性的開源模型:Llama-2、OpenLLaMA和MPT作為融合的源LLM。對于目標LLM,我們選擇了另一個Llama-2 7B,它通常是三個源LLM中最強大的一個。目標LLM從與源模型相同的預訓練權重開始,但在訓練期間會更新參數。為了評估FUSELLM的性能,我們在推理、常識和代碼生成能力的基準上進行了實驗。

4.1 實驗設置

用于持續訓練的數據集

為了持續訓練目標LLM進行LLM融合,重要的是選擇一個緊湊且多樣化的訓練數據集。我們選擇了MiniPile,這是通過仔細的聚類和篩選過程生成的精選數據集。MiniPile由大約100萬個文檔組成,涵蓋22個領域,包含18億個token,約占Llama-2訓練token的0.1%。更多數據集的詳細信息可參見附錄B。

融合函數

對于融合函數,我們使用最小交叉熵(MinCE)。然而,我們將在第4.4節中考察使用其他融合函數的影響。

訓練細節

我們使用批量大小為128、最大長度為2048的Llama-2 7B目標LLM,訓練在配備8個每個40GB顯存的NVIDIA A100 GPU的單節點上進行。我們的訓練框架基于Huggingface Transformers(Wolf et al., 2020)并通過FlashAttention(Dao et al., 2022)加速。我們經驗性地將公式(5)中的組合權重(lambda)設置為0.9。訓練僅進行一個epoch,約需33小時。更多超參數的細節可參見附錄C。

評估

我們在三個基準上評估FUSELLM,這些基準代表LLM的不同核心能力,涵蓋推理、常識和代碼生成。

- Big-Bench Hard (BBH)(Suzgun et al., 2022)是一個評估LLM推理能力的基準。它包含23個選擇題任務和4個自由生成任務,來自Big-Bench(Srivastava et al., 2022),可分為四類:算法和算術推理、自然語言理解、世界知識和多語言知識與推理。我們遵循之前的工作(Wang et al., 2023b),基于少樣本鏈式思維(CoT)提示生成預測并計算精確匹配(EM)準確率。

- Common Sense (CS) 是一個評估LLM常識能力的基準。我們考慮了5個標準選擇題任務:ARC easy和ARC challenge(Clark et al., 2018)、BoolQ(Clark et al., 2019a)、HellaSwag(Zellers et al., 2019)和OpenBookQA(Mihaylov et al., 2018)。我們使用lm-eval-hardness(Gao et al., 2021)進行基于似然的零樣本評估。具體來說,我們選擇給定上下文情況下似然最高的選項并報告準確率。

- MultiPL-E (ME)(Cassano et al., 2022)是一個多語言編程基準,用于評估LLM的代碼生成能力。它由Python基準(Chen et al., 2021)翻譯而成,覆蓋18種編程語言的平行數據集。我們使用bigcode-evaluation-hardness(Ben Allal et al., 2022)進行零樣本代碼生成,涉及10種流行編程語言的HumanEval類任務,并基于每個問題生成的20個樣本報告pass@1(Chen et al., 2021)得分。

基線

在我們的實驗中,我們將FUSELLM與兩組基線進行比較:(1) 原始LLM,包括Llama-2 7B、OpenLLaMA 7B和MPT 7B;(2) Llama-2 CLM:僅使用因果語言建模目標在MiniPile上持續訓練的Llama-2 7B。

4.2 總體結果

表1展示了FUSELLM與基線方法在BBH上的總體結果。可以看到,三個源LLM在27個BBH任務上的表現各不相同,通常Llama-2表現優于其他模型。使用緊湊且多樣的語料庫進行持續訓練后,Llama-2 CLM相較于Llama-2表現出1.86%的相對提升,盡管這一提升相對溫和且在不同任務中的一致性不高。總體而言,FUSELLM在所有27個任務中的平均相對性能提升為5.16%,顯著優于原始Llama-2。在某些特定任務中,FUSELLM的增強效果尤為顯著(例如,Hyperbaton任務中的準確率從54.40提升至65.20)。在一些簡單持續預訓練導致性能下降的任務中(如Dyck Languages),FUSELLM通過結合個體源LLM的優勢實現了性能恢復。需要注意的是,FUSELLM偶爾在某些任務(如Geometric Shapes和Word Sorting)上表現不佳,這可能有兩個原因。首先,除了Llama-2以外的其他源LLM在這些任務上的表現較差,影響了融合結果。其次,持續訓練數據集與下游任務的相關性也對性能下降有所貢獻。


大型語言模型的知識融合(ICLR2024)-AI.x社區

表2展示了FUSELLM與基線方法在Common Sense基準上的零樣本性能。結果表明,FUSELLM在所有五個任務上持續超越基線,平均相對性能提升為1.25%。相比之下,Llama-2 CLM僅表現出0.16%的相對提升,且提升幅度較小。在具有挑戰性的ARC-challenge(2.40%)和OpenBookQA(2.71%)任務中,從Llama-2到FUSELLM的顯著提升突顯了FUSELLM在利用集體知識解決復雜問題方面的有效性。

對于代碼生成評估,表3展示了FUSELLM在MultiPL-E基準上的零樣本性能。我們觀察到,FUSELLM在10個任務中的9個上優于Llama-2,特別是在某些編程語言(如R)的pass@1得分上有顯著提升,從4.97提升至5.84。由于OpenLLaMA和MPT在代碼生成任務中相比Llama-2表現出色,通過FUSELLM融合的結果在平均表現上提升了6.36%,遠高于Llama-2 CLM的1.37%提升。然而,值得注意的是,在該評估中FUSELLM仍然表現出與OpenLLaMA或MPT相比的性能差距。這種差異可以歸因于兩個主要原因:Llama-2作為目標模型在代碼生成上的初始表現較差,以及持續訓練語料庫中與代碼相關的文本比例不足,估計約為7.59%。


大型語言模型的知識融合(ICLR2024)-AI.x社區

4.3 融合概率分布的效果

我們探討了從多個LLM獲得的融合概率分布的有效性,并跟蹤訓練過程中性能提升的趨勢。圖2展示了在BBH上的少樣本CoT性能隨訓練數據規模的變化情況。我們的觀察表明,FUSELLM相比Llama-2 CLM在精確匹配(EM)準確率上提升了2.5%,并在僅使用0.52億個token時達到了Llama-2 CLM最佳性能。值得注意的是,與Llama-2 CLM需要的15.7億個token相比,這代表了訓練token需求的3.9倍減少。這些結果表明,LLM生成的概率分布包含比原始文本序列更易學習的知識,從而加速了優化過程。


大型語言模型的知識融合(ICLR2024)-AI.x社區

4.4 實現過程分析

在本節中,我們深入探討了FUSELLM實現中的關鍵要素,包括源LLM的數量、詞匯對齊的標準以及融合函數的選擇。

源LLM的數量

我們展示了融合不同數量的LLM的結果。我們注意到,隨著模型數量從1增加到3,FUSELLM的性能顯著提高。然而,整合更多模型的好處在各個基準中的表現有所不同。在BBH中,性能提升是顯而易見的;而在CS或ME中,當融合兩個模型時,提升效果更加顯著。這種現象可能是由于三個模型在BBH中的各項任務上性能差異較大,而在CS或ME任務上的性能差異相對較小。


大型語言模型的知識融合(ICLR2024)-AI.x社區

詞匯對齊的標準

在LLM融合過程中,確保不同模型生成的tokens和詞匯表的一致性至關重要。顯然,基于最小編輯距離(MinED)的方法相比Fu等人(

2023)提出的精確匹配(EM)方法表現更優。我們推測這種性能提升源于MinED的寬松限制,能夠有效對齊由不同分詞器生成的輕微差異的tokens,從而保留了大量有用的token信息,同時引入的錯誤較少。

融合函數的選擇

在3.3節中,我們介紹了FUSELLM的兩種融合函數:一種是使用最小交叉熵分數(MinCE)的分布矩陣,另一種是基于交叉熵分數對分布矩陣進行加權平均(AvgCE)。結果表明,FUSELLM使用MinCE在所有基準上的表現優于AvgCE。這可能是由于AvgCE中的簡單加權平均引入了扭曲,削弱了各個LLM的獨特優勢。


大型語言模型的知識融合(ICLR2024)-AI.x社區

4.5 FUSELLM與知識蒸餾的比較

雖然知識蒸餾技術也可以用于提升LLM的能力,但FUSELLM在兩個方面脫穎而出,正如前文所述。在本節中,我們將FUSELLM與傳統的知識蒸餾進行比較。具體而言,我們從Llama-2 13B中提取概率分布,并應用傳統知識蒸餾方法,將其能力轉移到Llama-2 7B中。通過知識蒸餾獲得的模型(Llama-2 KD)在所有基準上表現優于原始Llama-2 7B,證明了知識蒸餾的有效性。然而,與FUSELLM相比,Llama-2 KD的提升幅度相對較小,尤其是在BBH中(2.97% vs. 5.16%)。這表明通過持續訓練集成三種具有不同架構的7B模型,FUSELLM獲得的優越結果超越了從單個13B模型中簡單提取知識的收益。這一觀察突出了“更多有不同,差異也能成就更多”的理念。


大型語言模型的知識融合(ICLR2024)-AI.x社區

4.6 FUSELLM與集成/融合的比較

正如之前提到的,傳統技術如模型集成和權重融合通常用于融合多個大型語言模型(LLMs)。為了比較我們提出的FUSELLM與這些現有融合方法的有效性,我們進行了實驗,模擬了多個LLM來源于相同基礎模型但在不同語料庫上訓練的場景。我們首先從The Pile數據集中選擇了三個相關領域(PhilPapers、NIH ExPorter和USPTO Backgrounds),并使用每個領域的10億個token對Pythia 1B模型(Biderman等人, 2023)進行持續訓練,生成了三個結構相同但領域不同的LLM。然后,我們將不同的融合技術應用于這些LLM:(1) 集成方法計算所有LLM生成的概率的加權平均值,權重基于每個模型的表現;(2) 權重融合方法在參數空間中融合多個LLM,融合權重由模型表現決定;(3) FUSELLM在從這三個領域中采樣的1億個token上進行持續訓練。

表7展示了FUSELLM和其他融合方法在測試集上的困惑度(perplexity)結果,我們使用The Pile中實現的方法,按每個UTF-8編碼字節(BPB)測量困惑度。我們觀察到,經過10億個token的訓練后,原始LLM的能力被轉移到每個特定領域的LLM中,導致它們在其他領域的表現下降。盡管所有融合技術都能夠整合不同模型的優勢,但FUSELLM在三個領域中始終實現了最低的平均困惑度,這表明它比集成和權重融合方法更有效地利用集體知識。


大型語言模型的知識融合(ICLR2024)-AI.x社區

5、結論

本文提出了一種稱為FUSELLM的新方法,用于實現大型語言模型(LLMs)的知識融合。我們的主要目標是將多個源LLM的集體知識和獨特優勢外化,并將這些知識轉移到一個目標LLM中。通過從不同的LLM中提取概率分布,我們利用源模型的多樣化能力,使目標LLM在推理、常識和代碼生成等任務上的表現得到提升。與傳統的模型集成和權重融合方法不同,FUSELLM能夠在架構不同的LLM之間實現知識融合。

我們通過實驗驗證了FUSELLM的有效性,實驗結果表明在不同的評估基準上,FUSELLM的目標模型在大多數任務中的性能超越了任何單個源LLM。盡管我們的方法已經展示了其潛力,未來的研究仍可進一步探索以下方向:研究如何在更多LLM之間實現更有效的融合,并開發更加高效的訓練策略,以進一步減少所需的訓練時間和資源。

1School of Computer Science and Engineering, Sun Yat-sen University, China 2Tencent AI Lab

?

本文轉載自公眾號AIRoobt ,作者:AIRoobt

原文鏈接:??https://mp.weixin.qq.com/s/3ncHDUFWpqhy31QxHpAccg??



?著作權歸作者所有,如需轉載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關推薦
久久久久久久久一区| 日韩在线视频免费观看| 精品无码一区二区三区在线| 亚洲图色中文字幕| a在线免费观看| 影音先锋久久久| 亚洲免费一级电影| 中文字幕永久有效| 男女视频在线| 国产午夜精品久久久久久久| 国产在线日韩在线| 日韩 欧美 精品| 精品国产99| 欧美va在线播放| 丁香婷婷激情网| 女人天堂av在线播放| 国产清纯白嫩初高生在线观看91| 午夜精品久久久久久久99热| 久久精品国产亚洲av久| 麻豆蜜桃在线观看| 国产精品传媒在线| 国产在线一区二区三区欧美 | 精品国产电影一区| 亚洲成人18| 天天射天天色天天干| 久久国产剧场电影| 国产69久久精品成人| 天天色影综合网| 精品美女视频| 精品视频在线播放| 亚洲av无码久久精品色欲| av在线日韩| 婷婷综合另类小说色区| 欧洲美女和动交zoz0z| 国产日本在线视频| 97久久久精品综合88久久| 91久久精品www人人做人人爽| 天天摸日日摸狠狠添| 国产精品一区二区中文字幕 | 日韩欧美一区二区三区四区| 乱精品一区字幕二区| 国产一区二区三区视频在线播放| 色综合伊人色综合网| 天天插天天射天天干| 韩国三级成人在线| 欧美色爱综合网| 中文字幕一区二区三区在线乱码| 久草在线网址| 26uuu精品一区二区| 国产精品午夜av在线| 国产ts人妖调教重口男| 国产在线乱码一区二区三区| 国产美女久久精品| 中文字幕欧美人妻精品一区蜜臀| 欧美成免费一区二区视频| 亚洲精品天天看| 久久人人妻人人人人妻性色av| 综合欧美亚洲| 欧美不卡一区二区| www.四虎精品| 国产精品x8x8一区二区| 亚洲第一精品夜夜躁人人躁| 性色av蜜臀av浪潮av老女人 | 精品卡一卡二| 天天色综合久久| 91热门视频在线观看| 久久资源亚洲| 国产在线超碰| 欧美国产视频在线| 在线观看日韩羞羞视频| 日本在线免费网| 国产精品美女久久福利网站| 日韩av在线电影观看| 五月婷婷开心中文字幕| 久久品道一品道久久精品| 国产精品视频久久久久| 亚洲天堂久久久久| 国产尤物一区二区在线| 99re资源| 深夜视频在线免费| 国产欧美一区视频| 一级全黄肉体裸体全过程| 午夜视频免费在线| 91麻豆国产在线观看| 日本午夜一区二区三区| 黄色网在线看| 国产无一区二区| 一区二区在线观| 日本资源在线| 色综合久久天天| 奇米视频7777| 99精品在免费线中文字幕网站一区 | 香蕉免费毛片视频| 久久亚洲视频| 亚洲自拍av在线| 日本不卡视频一区二区| 国产精品视频你懂的| 亚洲中文字幕无码一区二区三区| 国产中文字幕在线观看| 亚洲欧洲成人自拍| 欧美男女爱爱视频| 伊人福利在线| 日韩理论片中文av| 霍思燕三级露全乳照| 经典三级一区二区| 日韩三级视频在线观看| 中文字幕亚洲乱码| 盗摄系列偷拍视频精品tp| 亚洲欧美中文字幕| 日韩黄色免费观看| 日韩国产精品久久久| 99国产超薄肉色丝袜交足的后果| 男操女在线观看| 亚洲综合色在线| www欧美激情| 无人区在线高清完整免费版 一区二| 5566中文字幕一区二区电影 | 波多野结衣午夜| 国产成人免费网站| 亚洲欧美电影在线观看| 爱看av在线入口| 91精选在线观看| 欧洲美熟女乱又伦| 日韩午夜免费| 超碰97在线资源| 午夜在线播放| 色8久久人人97超碰香蕉987| 成熟妇人a片免费看网站| 日本伊人久久| 中文字幕欧美国内| 免费精品在线视频| 久久先锋资源| 美女黄毛**国产精品啪啪| 在线观看的网站你懂的| 欧美日韩一区三区四区| 丰满少妇一区二区| 亚洲三级电影在线观看| 999日本视频| 精品麻豆一区二区三区| 欧美天天综合网| 黄色a级三级三级三级| 精品视频网站| 国产精品久久久av| 国产男男gay网站| 欧美国产日本视频| 美女喷白浆视频| 国产日本亚洲| 久久激情五月丁香伊人| 中文资源在线播放| 欧美激情综合五月色丁香| 37pao成人国产永久免费视频| 久本草在线中文字幕亚洲| 久久久久亚洲精品| 狠狠综合久久av一区二区| 亚洲综合免费观看高清完整版| 色黄视频免费看| 亚洲成人日韩| 3d精品h动漫啪啪一区二区| 超碰在线观看免费版| 日韩片之四级片| 国产真实的和子乱拍在线观看| 高清在线不卡av| 日韩xxxx视频| 日韩精品福利一区二区三区| 91成人天堂久久成人| 嫩草精品影院| 欧美日韩国产一二三| 麻豆天美蜜桃91| 国产丶欧美丶日本不卡视频| 欧美久久久久久久久久久久久 | 日韩免费视频一区二区| 久一区二区三区| 视频在线在亚洲| 亚洲国产一区二区三区在线播| 国产精品xxx| 美女福利视频一区| 精品国产xxx| 国产欧美日韩综合| www.污网站| 狠色狠色综合久久| 欧美大香线蕉线伊人久久| 丁香久久综合| 欧美成人在线网站| 亚洲三级中文字幕| 欧美日韩一区不卡| 国产精品成人免费一区二区视频| 91伊人久久大香线蕉| 天堂av在线网站| 综合天天久久| 欧美久久电影| 四虎国产精品成人免费影视| 久久久噜噜噜久噜久久| 国产高清在线观看| 日韩欧美国产综合| 黄色av一级片| 亚洲精品菠萝久久久久久久| 爱爱的免费视频| 韩国欧美国产1区| 免费黄色日本网站| 欧美99在线视频观看| 狠狠色伊人亚洲综合网站色| 亚洲精品.com| 久久久女人电视剧免费播放下载| 国产三级电影在线| 亚洲国产精品国自产拍av秋霞 | 午夜一区不卡| 正义之心1992免费观看全集完整版| 国产精品久久久久久久久久白浆| 国产精品扒开腿做爽爽爽男男| 午夜av在线免费观看| 一区二区三区动漫| 欧美超碰在线观看| 一区二区三区在线观看视频| 影音先锋制服丝袜| 成人ar影院免费观看视频| 午夜精品久久久久久久99热影院| 男人天堂欧美日韩| 一二三四视频社区在线| 91精品99| 一区二区三区我不卡| 亚洲香蕉视频| 国产亚洲欧美另类一区二区三区| 伊人亚洲精品| 国产精品第一第二| 日本在线啊啊| 久久男人资源视频| 3d玉蒲团在线观看| 久久好看免费视频| 999国产在线视频| 欧美日本一区二区在线观看| 五月天激情国产综合婷婷婷| 亚洲图片欧美视频| 538精品在线观看| 日韩一区欧美一区| 青青青手机在线视频| 国产亚洲精品免费| 国产交换配乱淫视频免费| 99久久er热在这里只有精品15 | 久久精品免视看国产成人| 国产精品久久久| 91亚洲精品| 国产精品视频地址| 国产成人久久精品麻豆二区| 国产精品成人一区二区三区吃奶| 精精国产xxxx视频在线播放| 性视频1819p久久| 都市激情国产精品| 91地址最新发布| 无遮挡爽大片在线观看视频 | 国产精品一区二区不卡| 久久久久久久久久久久久久久国产| 美女视频黄免费的久久| 久久撸在线视频| 久久99国产精品免费网站| 亚洲精品自拍网| 韩日精品视频一区| 青娱乐国产精品视频| 国产精品一二三区| 稀缺小u女呦精品呦| yourporn久久国产精品| 国产天堂在线播放| 日本va欧美va瓶| 中文字幕第100页| 韩国v欧美v亚洲v日本v| 国产女同无遮挡互慰高潮91| 国产一区二区精品久久99| 国产性生活一级片| 成人美女在线观看| 30一40一50老女人毛片| 欧美韩国日本综合| 卡通动漫亚洲综合| 亚洲成人在线免费| 欧产日产国产69| 欧美日本在线观看| 蜜臀av午夜精品| 国产亚洲精品美女| 黄色网页在线免费观看| 欧美精品久久一区二区| 在线激情网站| 久久69精品久久久久久久电影好| 国产天堂在线播放视频| 欧美在线视频网站| 男人亚洲天堂| 国产在线一区二| 久久影视一区| 国产69精品久久久久999小说| 老司机午夜免费精品视频| 中文字幕一区久久| 99久久久国产精品| 大吊一区二区三区| 亚州成人在线电影| 中文字幕在线观看国产| 精品免费国产一区二区三区四区| 性感美女一级片| 久久精品国产成人精品| 国产自产自拍视频在线观看| 国产精品一区专区欧美日韩| 黄色免费大全亚洲| 亚洲一区二区三区乱码| 亚洲精品女人| 思思久久精品视频| 久久久久久**毛片大全| 五月婷婷一区二区| 欧洲在线/亚洲| 男人天堂一区二区| 久久精品国产91精品亚洲| 在线免费看h| 成人综合av网| 手机亚洲手机国产手机日韩| 鲁一鲁一鲁一鲁一澡| 国产一区二区三区黄视频| 少妇久久久久久久久久| 亚洲大片一区二区三区| 夜夜狠狠擅视频| 亚洲精品理论电影| 亚洲资源一区| 国产精品一区二区在线| 香蕉久久99| av一区二区三区免费观看| 免费黄网站欧美| 中文字幕丰满孑伦无码专区| 亚洲精品老司机| 伊人免费在线观看| 亚洲美女视频网站| 国产黄大片在线观看| 99热99热| 伊人久久大香线| 爱豆国产剧免费观看大全剧苏畅| 国产免费久久精品| 国产成人一级片| 亚洲精品国精品久久99热一| 成人在线观看亚洲| 国产精品视频永久免费播放| 自拍偷拍欧美一区| 亚洲熟妇国产熟妇肥婆| 成人性生交大片免费看视频在线| 破处女黄色一级片| 亚洲福利一区二区三区| 国产男男gay网站| 久久精品99久久香蕉国产色戒| 素人啪啪色综合| 五月天色一区| 奇米亚洲午夜久久精品| 亚洲久久久久久久| 色视频成人在线观看免| 男男电影完整版在线观看| 国产91精品最新在线播放| 亚洲第一福利社区| 国产成人久久婷婷精品流白浆| 久久综合狠狠综合久久综合88| 激情五月色婷婷| 日韩毛片中文字幕| 另类专区亚洲| 天天久久人人| 久久99精品国产.久久久久| 国产精品国产精品88| 日韩欧美精品在线视频| 96av在线| 欧美精品成人一区二区在线观看| 久久精品欧洲| 久久久免费看片| 欧美一区二区三区性视频| 国产最新在线| 91青青草免费在线看| 黄色在线一区| 国产吞精囗交久久久| 91成人看片片| 黄色网页在线免费观看| 国产精品二区二区三区| 国产午夜久久| 天天操天天舔天天射| 欧美高清视频一二三区| 日本高清在线观看视频| 精品国产91亚洲一区二区三区www| 国产精品日韩久久久| 欧美波霸videosex极品| 6080亚洲精品一区二区| heyzo在线播放| 日本午夜精品电影| 国产精品亚洲一区二区三区妖精 | 91福利区一区二区三区| 日本在线免费中文字幕| 国产精品yjizz| 久久久久网站| 丁香花五月激情| 精品网站999www| 在线观看亚洲精品福利片| 日本黄色片一级片| 久久久久久久av麻豆果冻| 国产露脸国语对白在线| 亚洲视频第一页| 99久久久国产| 国产成人无码精品久久久性色| 国产精品日韩成人| 免费观看的毛片| 国产精品永久免费视频| 亚洲高清网站| 永久免费看片视频教学| 亚洲国产天堂久久综合网| 欧美男女视频|