大模型微調(diào)技術(shù)基礎(chǔ)

鴻煊的學(xué)習(xí)筆記

發(fā)布于 2025-8-22 08:00

瀏覽

0收藏

一、微調(diào)基礎(chǔ)概念

1.1. 什么是大模型微調(diào)？

1.2 全量微調(diào)與高效微調(diào)的區(qū)別

1.3 模型微調(diào)的優(yōu)劣勢分析

二、高效微調(diào)核心技術(shù)：LoRA 與 QLoRA 簡介

2.1 LoRA：低秩適配的高效微調(diào)方法

2.2 QLoRA：量化與低秩結(jié)合的優(yōu)化方案2.3 LoRA 與 QLoRA 對比

三、高效微調(diào)的四大應(yīng)用場景

3.1 對話風(fēng)格微調(diào)

3.2 知識灌注

3.3 推理能力提升

3.4 Agent 能力提升

四、主流微調(diào)工具介紹

4.1 unsloth

4.2 LLama-Factory

4.3 ms-SWIFT

4.4 ColossalAI

4.5 其他微調(diào)框架

五、模型性能評估框架：EvalScope核心功能和特點

六、微調(diào)所需軟硬件環(huán)境說明

6.1 硬件要求

6.2 Qwen3 系列模型微調(diào)顯存占用

七、準(zhǔn)備微調(diào)數(shù)據(jù)集

7.1 理解數(shù)據(jù)集構(gòu)造的底層原理

7.2 常見微調(diào)數(shù)據(jù)集格式詳解

7.2.1 基礎(chǔ)問答格式（Alpaca 風(fēng)格）

7.2.2 帶系統(tǒng)提示和 Function calling 的格式

7.2.3 帶思考過程的格式

7.3 Qwen3 混合推理模型的數(shù)據(jù)集構(gòu)造方法

7.3.1. 選擇基礎(chǔ)數(shù)據(jù)集

7.3.2 數(shù)據(jù)集配比調(diào)整

7.3.3 格式統(tǒng)一與清洗

7.4 數(shù)據(jù)集獲取與組裝渠道

一、微調(diào)基礎(chǔ)概念

1.1. 什么是大模型微調(diào)？

大模型微調(diào)指在已有的大規(guī)模預(yù)訓(xùn)練模型基礎(chǔ)上，通過對標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練，進(jìn)一步優(yōu)化模型的表現(xiàn)，以適應(yīng)特定任務(wù)或場景的需求。與 RAG 或者 Agent 技術(shù)通過搭建工作流來優(yōu)化模型表現(xiàn)不同，微調(diào)是通過修改模型參數(shù)來優(yōu)化模型能力，是一種能夠讓模型 “永久” 掌握某種能力的方法。

1.2 全量微調(diào)與高效微調(diào)的區(qū)別

從方法大類劃分，微調(diào)可分為全量微調(diào)與高效微調(diào)：

全量微調(diào)：帶入全部數(shù)據(jù)進(jìn)行微調(diào)，算力消耗更大，但對模型的能力改造更為徹底。
高效微調(diào)：只帶入部分?jǐn)?shù)據(jù)進(jìn)行微調(diào)，更類似 “四兩撥千斤” 的方法，通過修改模型部分參數(shù)，來調(diào)整模型整體能力。

1.3 模型微調(diào)的優(yōu)劣勢分析

優(yōu)勢：能夠通過修改模型參數(shù)的方式，永久地修改模型的能力。
劣勢：若處理不當(dāng)，很可能造成模型原始能力的災(zāi)難性遺忘，即導(dǎo)致模型原始能力丟失，對于復(fù)雜模型尤其如此。因此需要小心謹(jǐn)慎地設(shè)計模型微調(diào)數(shù)據(jù)集和微調(diào)訓(xùn)練流程，并經(jīng)過反復(fù)多次訓(xùn)練驗證，得到最佳模型。

二、高效微調(diào)核心技術(shù)：LoRA 與 QLoRA 簡介

盡管全量微調(diào)可以深度改造模型能力，但需消耗大量算力且有一定技術(shù)門檻。在絕大多數(shù)場景中，若只想提升模型某個具體領(lǐng)域的能力，高效微調(diào)會更加合適，而目前適用于大模型的最主流高效微調(diào)方法是 LoRA。

2.1 LoRA：低秩適配的高效微調(diào)方法

LoRA（Low-Rank Adaptation）微調(diào)是一種參數(shù)高效的微調(diào)方法，旨在通過引入低秩矩陣來減少微調(diào)時需要調(diào)整的參數(shù)數(shù)量，從而顯著降低顯存和計算資源的消耗。具體來說，LoRA 微調(diào)并不直接調(diào)整原始模型的所有參數(shù)，而是通過在某些層中插入低秩的適配器（Adapter）層來進(jìn)行訓(xùn)練。

原理：在標(biāo)準(zhǔn)微調(diào)中，會修改模型的所有權(quán)重，而在 LoRA 中，只有某些低秩矩陣（適配器）被訓(xùn)練和調(diào)整。原始模型的參數(shù)保持不變，只是通過少量的新參數(shù)來調(diào)整模型的輸出。低秩矩陣的引入能在顯存和計算能力有限的情況下，有效對大型預(yù)訓(xùn)練模型進(jìn)行微調(diào)，成為顯存較小設(shè)備上的理想選擇。
優(yōu)勢：

顯存優(yōu)化：只需要調(diào)整少量的參數(shù)（適配器），顯著減少了顯存需求，適合顯存有限的 GPU。

計算效率：微調(diào)過程中的計算負(fù)擔(dān)更輕，因為減少了需要調(diào)整的參數(shù)量。

靈活性：可以與現(xiàn)有的預(yù)訓(xùn)練模型輕松結(jié)合使用，適用于多種任務(wù)，如文本生成、分類、問答等。

2.2 QLoRA：量化與低秩結(jié)合的優(yōu)化方案

QLoRA（Quantized Low-Rank Adaptation）是 LoRA 的擴(kuò)展版本，它結(jié)合了 LoRA 的低秩適配器和量化技術(shù)。QLoRA 進(jìn)一步優(yōu)化了計算效率和存儲需求，特別是在極端顯存受限的環(huán)境下。與 LoRA 不同的是，QLoRA 會將插入的低秩適配器層的部分權(quán)重進(jìn)行量化（通常是量化為 INT4 或 INT8），在保持性能的同時顯著降低模型的存儲和計算需求。

核心思想：在 LoRA 的基礎(chǔ)上加入量化技術(shù)，減少權(quán)重表示的位數(shù)，從而降低顯存和計算需求。QLoRA 結(jié)合了低秩適配器和量化的優(yōu)點，能夠在顯存有限的設(shè)備上進(jìn)行更高效的微調(diào)。
量化作用：通過將模型權(quán)重量化為低精度（如 INT4），減少內(nèi)存占用，并提高推理和訓(xùn)練速度。
優(yōu)勢：在顯存非常有限的情況下仍能進(jìn)行微調(diào)；可以處理更大規(guī)模的模型；適合用于邊緣設(shè)備和需要低延遲推理的場景。

2.3 LoRA 與 QLoRA 對比

特性	LoRA	QLoRA
核心技術(shù)	低秩適配器 (Low-Rank Adapters)	低秩適配器 + 量化技術(shù) (Low-Rank Adapters + Quantization)
適用場景	顯存受限，但設(shè)備性能較好	極限顯存受限或需要快速推理的設(shè)備
計算效率	提高計算效率，減少調(diào)整的參數(shù)數(shù)量	進(jìn)一步提升效率，減少內(nèi)存使用并加快推理速度
量化技術(shù)	無量化	將權(quán)重量化為低精度 (如 INT4 或 INT8)
內(nèi)存消耗	較低，但不如 QLoRA 低	顯著降低內(nèi)存消耗，適合更小的設(shè)備
訓(xùn)練復(fù)雜度	較簡單，適用于大多數(shù)微調(diào)場景	需要更多的量化和適配工作，但適合超大模型和設(shè)備受限場景

注意：大模型微調(diào)的 LoRA 與 QLoRa，二者相差一個字母的大小寫，是完全兩種不同的技術(shù)；LoRA 除了可以用于微調(diào)大語言模型（LLM）外，目前在圍繞 diffusion models（擴(kuò)散模型）進(jìn)行微調(diào)，及圖片任務(wù)中也表現(xiàn)驚艷。

三、高效微調(diào)的四大應(yīng)用場景

在實際大模型應(yīng)用場景中，高效微調(diào)主要用于以下四個方面：

3.1 對話風(fēng)格微調(diào)

高效微調(diào)可以用于根據(jù)特定需求調(diào)整模型的對話風(fēng)格。例如，針對客服系統(tǒng)、虛擬助理等場景，模型可以通過微調(diào)來適應(yīng)不同的語氣、禮貌程度或回答方式，從而在與用戶互動時提供更符合要求的對話體驗。通過微調(diào)少量的參數(shù)（例如對話生成的策略、情感表達(dá)等），可以使模型表現(xiàn)出更具針對性和個性化的風(fēng)格。

3.2 知識灌注

知識灌注是指將外部知識或領(lǐng)域特定的信息快速集成到已有的預(yù)訓(xùn)練模型中。通過高效微調(diào)，模型可以更好地學(xué)習(xí)新領(lǐng)域的專有知識，而無需重新從頭開始訓(xùn)練。例如，對于法律、醫(yī)療等專業(yè)領(lǐng)域，可以使用少量的標(biāo)注數(shù)據(jù)對預(yù)訓(xùn)練模型進(jìn)行微調(diào)，幫助模型理解特定行業(yè)的術(shù)語、規(guī)則和知識，進(jìn)而提升專業(yè)領(lǐng)域的問答能力。

3.3 推理能力提升

高效微調(diào)還可以用于提升大模型的推理能力，尤其是在處理更復(fù)雜推理任務(wù)時。通過微調(diào)，模型能夠更加高效地理解長文本、推理隱含信息，或者從數(shù)據(jù)中提取邏輯關(guān)系，進(jìn)而在多輪推理任務(wù)中提供更準(zhǔn)確的答案。這種微調(diào)方式可以幫助模型在解答復(fù)雜問題時，提高推理準(zhǔn)確性并減少錯誤。

3.4 Agent 能力提升

在多任務(wù)協(xié)作或功能調(diào)用場景中，高效微調(diào)能夠顯著提升模型的 Agent 能力，使得模型能夠有效地與其他系統(tǒng)進(jìn)行交互、調(diào)用外部 API 或執(zhí)行特定任務(wù)。通過針對性微調(diào)，模型可以學(xué)會更精準(zhǔn)的功能調(diào)用策略、參數(shù)解析和操作指令，從而在自動化服務(wù)、智能助手或機(jī)器人控制等領(lǐng)域表現(xiàn)得更加高效和智能。

四、主流微調(diào)工具介紹

在入手學(xué)習(xí)大模型微調(diào)時，首先推薦功能層次封裝層次較高的微調(diào)四套工具：unsloth、LlamaFactory、ms-SWIFT 和 ColossalAI。除此之外，也可以借助更加底層的庫，如 peft、LoRA、transformer 等實現(xiàn)高效微調(diào)。對于初學(xué)者來說，首先使用現(xiàn)成工具來進(jìn)行微調(diào)更為合適。

4.1 unsloth

unsloth 是一個專為大型語言模型（LLM）設(shè)計的動態(tài)量化與微調(diào)框架，旨在提高微調(diào)效率并減少顯存占用。它通過手動推導(dǎo)計算密集型數(shù)學(xué)步驟并手寫 GPU 內(nèi)核，實現(xiàn)了無需硬件更改即可顯著加快訓(xùn)練速度。