專用于法律的兩個開源大模型,最高1410億參數
法國國家高等教育計算中心、巴黎薩克雷大學的研究人員聯合開源了專用于法律領域的大模型——SaulLM。
SaulLM一共有540億、1410億兩種參數,以及基礎模型和指令微調兩種版本。SaulLM的最大特色是使用了5400億token的專業法律數據進行了預訓練,包括美國、歐洲、澳大利亞等地的法律文本,輸出內容的準確率高于很多同類模型。
開源地址:https://huggingface.co/Equall/SaulLM-54-Base
指令微調:https://huggingface.co/Equall/SaulLM-141B-Instruct

SaulLM-54B和SaulLM-141B是基于Mixtral系列模型開發而成,通過引入專家混合(MoE)機制,顯著提升了模型處理大量數據的能力。
MoE架構的核心思想是將大型模型分解為多個小型專家網絡,這些專家可以根據輸入數據的不同特點被動態地激活。這種方法不僅提高了模型的計算效率,還增強了模型處理復雜法律文本的能力。

SaulLM-54B由32層組成,模型維度為4096,隱藏維度為14336;而SaulLM-141B則由56層構成,模型維度增至6144,隱藏維度達到16384。使得兩個模型最多能支持長達32768和65536個token的上下文長度。
研究人員使用了分段策略來訓練SaulLM模型,包括持續預訓練、專業法律指令遵循協議的實施,以及模型輸出與人類偏好的對齊。
第一步使用了超過5400億token的專業法律語料庫對模型進行預訓練,蓋了來自不同法律體系的廣泛文本,包括美國、歐洲、澳大利亞等地的法律文獻。
在預訓練過程中,研究人員采用了AdamW優化器,并設置了特定的學習速率和梯度累積策略,以優化模型的學習效率和穩定性。此外,為了應對模型在訓練過程中可能出現的災難性遺忘等問題,研究團隊還引入了重放策略,重新引入早期訓練分布中的數據,以增強模型的記憶能力。
法律領域對大模型輸出內容的準確性和專業性要求極高。為了提升模型在法律任務上的表現,研究人員使用了專業法律指令遵循協議,訓練模型理解和執行法律場景中的指令。
在這一階段,模型接受了包括法律分析、案件總結、法規解讀等多種法律相關任務的訓練。通過這種方式,模型學會了如何根據法律專家的需求,提供準確和相關的信息。

為了使模型的輸出更加符合法律專業人士的期望和偏好,使用了模型輸出與人類偏好的對齊方法。主要使用了合成數據和人類反饋來調整模型的輸出。合成數據的生成是基于模型的自我對話,模擬法律專家在分析案件時可能提出的問題和答案。通過這種方式,模型能夠學習到法律推理的深層邏輯和結構。
同時,研究人員還引入了人類反饋機制,通過評估模型輸出的準確性、相關性和邏輯一致性,進一步優化模型的性能。
研究人員在專業法律基準測試平臺LegalBench - Instruct 和多基準平臺MMLU上對模型進行了綜合評估。

實驗結果顯示, SaulLM – 54B優于 Mixtral - 54B,SaulLM -141B也優于Mixtral - 141B,比GPT-4、Llama-3也更加出色。此外,繼續預訓練顯著增強了模型在法律領域的性能,在 IFT和 DPO階段都有大約 7% 的顯著提升。
本文轉自 AIGC開放社區 ,作者:AIGC開放社區

















