大模型微調(diào)技術(shù)基礎(chǔ)
一、微調(diào)基礎(chǔ)概念
1.1. 什么是大模型微調(diào)?
1.2 全量微調(diào)與高效微調(diào)的區(qū)別
1.3 模型微調(diào)的優(yōu)劣勢分析
二、高效微調(diào)核心技術(shù):LoRA 與 QLoRA 簡介
2.1 LoRA:低秩適配的高效微調(diào)方法
2.2 QLoRA:量化與低秩結(jié)合的優(yōu)化方案2.3 LoRA 與 QLoRA 對比
三、高效微調(diào)的四大應(yīng)用場景
3.1 對話風(fēng)格微調(diào)
3.2 知識灌注
3.3 推理能力提升
3.4 Agent 能力提升
四、主流微調(diào)工具介紹
4.1 unsloth
4.2 LLama-Factory
4.3 ms-SWIFT
4.4 ColossalAI
4.5 其他微調(diào)框架
五、模型性能評估框架:EvalScope核心功能和特點
六、微調(diào)所需軟硬件環(huán)境說明
6.1 硬件要求
6.2 Qwen3 系列模型微調(diào)顯存占用
七、準(zhǔn)備微調(diào)數(shù)據(jù)集
7.1 理解數(shù)據(jù)集構(gòu)造的底層原理
7.2 常見微調(diào)數(shù)據(jù)集格式詳解
7.2.1 基礎(chǔ)問答格式(Alpaca 風(fēng)格)
7.2.2 帶系統(tǒng)提示和 Function calling 的格式
7.2.3 帶思考過程的格式
7.3 Qwen3 混合推理模型的數(shù)據(jù)集構(gòu)造方法
7.3.1. 選擇基礎(chǔ)數(shù)據(jù)集
7.3.2 數(shù)據(jù)集配比調(diào)整
7.3.3 格式統(tǒng)一與清洗
7.4 數(shù)據(jù)集獲取與組裝渠道
一、微調(diào)基礎(chǔ)概念
1.1. 什么是大模型微調(diào)?
大模型微調(diào)指在已有的大規(guī)模預(yù)訓(xùn)練模型基礎(chǔ)上,通過對標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,進(jìn)一步優(yōu)化模型的表現(xiàn),以適應(yīng)特定任務(wù)或場景的需求。與 RAG 或者 Agent 技術(shù)通過搭建工作流來優(yōu)化模型表現(xiàn)不同,微調(diào)是通過修改模型參數(shù)來優(yōu)化模型能力,是一種能夠讓模型 “永久” 掌握某種能力的方法。
1.2 全量微調(diào)與高效微調(diào)的區(qū)別
從方法大類劃分,微調(diào)可分為全量微調(diào)與高效微調(diào):
- 全量微調(diào):帶入全部數(shù)據(jù)進(jìn)行微調(diào),算力消耗更大,但對模型的能力改造更為徹底。
- 高效微調(diào):只帶入部分?jǐn)?shù)據(jù)進(jìn)行微調(diào),更類似 “四兩撥千斤” 的方法,通過修改模型部分參數(shù),來調(diào)整模型整體能力。
1.3 模型微調(diào)的優(yōu)劣勢分析
- 優(yōu)勢:能夠通過修改模型參數(shù)的方式,永久地修改模型的能力。
- 劣勢:若處理不當(dāng),很可能造成模型原始能力的災(zāi)難性遺忘,即導(dǎo)致模型原始能力丟失,對于復(fù)雜模型尤其如此。因此需要小心謹(jǐn)慎地設(shè)計模型微調(diào)數(shù)據(jù)集和微調(diào)訓(xùn)練流程,并經(jīng)過反復(fù)多次訓(xùn)練驗證,得到最佳模型。
二、高效微調(diào)核心技術(shù):LoRA 與 QLoRA 簡介
盡管全量微調(diào)可以深度改造模型能力,但需消耗大量算力且有一定技術(shù)門檻。在絕大多數(shù)場景中,若只想提升模型某個具體領(lǐng)域的能力,高效微調(diào)會更加合適,而目前適用于大模型的最主流高效微調(diào)方法是 LoRA。
2.1 LoRA:低秩適配的高效微調(diào)方法
LoRA(Low-Rank Adaptation)微調(diào)是一種參數(shù)高效的微調(diào)方法,旨在通過引入低秩矩陣來減少微調(diào)時需要調(diào)整的參數(shù)數(shù)量,從而顯著降低顯存和計算資源的消耗。具體來說,LoRA 微調(diào)并不直接調(diào)整原始模型的所有參數(shù),而是通過在某些層中插入低秩的適配器(Adapter)層來進(jìn)行訓(xùn)練。
- 原理:在標(biāo)準(zhǔn)微調(diào)中,會修改模型的所有權(quán)重,而在 LoRA 中,只有某些低秩矩陣(適配器)被訓(xùn)練和調(diào)整。原始模型的參數(shù)保持不變,只是通過少量的新參數(shù)來調(diào)整模型的輸出。低秩矩陣的引入能在顯存和計算能力有限的情況下,有效對大型預(yù)訓(xùn)練模型進(jìn)行微調(diào),成為顯存較小設(shè)備上的理想選擇。
- 優(yōu)勢:
顯存優(yōu)化:只需要調(diào)整少量的參數(shù)(適配器),顯著減少了顯存需求,適合顯存有限的 GPU。
計算效率:微調(diào)過程中的計算負(fù)擔(dān)更輕,因為減少了需要調(diào)整的參數(shù)量。
靈活性:可以與現(xiàn)有的預(yù)訓(xùn)練模型輕松結(jié)合使用,適用于多種任務(wù),如文本生成、分類、問答等。
2.2 QLoRA:量化與低秩結(jié)合的優(yōu)化方案
QLoRA(Quantized Low-Rank Adaptation)是 LoRA 的擴(kuò)展版本,它結(jié)合了 LoRA 的低秩適配器和量化技術(shù)。QLoRA 進(jìn)一步優(yōu)化了計算效率和存儲需求,特別是在極端顯存受限的環(huán)境下。與 LoRA 不同的是,QLoRA 會將插入的低秩適配器層的部分權(quán)重進(jìn)行量化(通常是量化為 INT4 或 INT8),在保持性能的同時顯著降低模型的存儲和計算需求。
- 核心思想:在 LoRA 的基礎(chǔ)上加入量化技術(shù),減少權(quán)重表示的位數(shù),從而降低顯存和計算需求。QLoRA 結(jié)合了低秩適配器和量化的優(yōu)點,能夠在顯存有限的設(shè)備上進(jìn)行更高效的微調(diào)。
- 量化作用:通過將模型權(quán)重量化為低精度(如 INT4),減少內(nèi)存占用,并提高推理和訓(xùn)練速度。
- 優(yōu)勢:在顯存非常有限的情況下仍能進(jìn)行微調(diào);可以處理更大規(guī)模的模型;適合用于邊緣設(shè)備和需要低延遲推理的場景。
2.3 LoRA 與 QLoRA 對比
特性 | LoRA | QLoRA |
核心技術(shù) | 低秩適配器 (Low-Rank Adapters) | 低秩適配器 + 量化技術(shù) (Low-Rank Adapters + Quantization) |
適用場景 | 顯存受限,但設(shè)備性能較好 | 極限顯存受限或需要快速推理的設(shè)備 |
計算效率 | 提高計算效率,減少調(diào)整的參數(shù)數(shù)量 | 進(jìn)一步提升效率,減少內(nèi)存使用并加快推理速度 |
量化技術(shù) | 無量化 | 將權(quán)重量化為低精度 (如 INT4 或 INT8) |
內(nèi)存消耗 | 較低,但不如 QLoRA 低 | 顯著降低內(nèi)存消耗,適合更小的設(shè)備 |
訓(xùn)練復(fù)雜度 | 較簡單,適用于大多數(shù)微調(diào)場景 | 需要更多的量化和適配工作,但適合超大模型和設(shè)備受限場景 |
注意:大模型微調(diào)的 LoRA 與 QLoRa,二者相差一個字母的大小寫,是完全兩種不同的技術(shù);LoRA 除了可以用于微調(diào)大語言模型(LLM)外,目前在圍繞 diffusion models(擴(kuò)散模型)進(jìn)行微調(diào),及圖片任務(wù)中也表現(xiàn)驚艷。
三、高效微調(diào)的四大應(yīng)用場景
在實際大模型應(yīng)用場景中,高效微調(diào)主要用于以下四個方面:
3.1 對話風(fēng)格微調(diào)
高效微調(diào)可以用于根據(jù)特定需求調(diào)整模型的對話風(fēng)格。例如,針對客服系統(tǒng)、虛擬助理等場景,模型可以通過微調(diào)來適應(yīng)不同的語氣、禮貌程度或回答方式,從而在與用戶互動時提供更符合要求的對話體驗。通過微調(diào)少量的參數(shù)(例如對話生成的策略、情感表達(dá)等),可以使模型表現(xiàn)出更具針對性和個性化的風(fēng)格。
3.2 知識灌注
知識灌注是指將外部知識或領(lǐng)域特定的信息快速集成到已有的預(yù)訓(xùn)練模型中。通過高效微調(diào),模型可以更好地學(xué)習(xí)新領(lǐng)域的專有知識,而無需重新從頭開始訓(xùn)練。例如,對于法律、醫(yī)療等專業(yè)領(lǐng)域,可以使用少量的標(biāo)注數(shù)據(jù)對預(yù)訓(xùn)練模型進(jìn)行微調(diào),幫助模型理解特定行業(yè)的術(shù)語、規(guī)則和知識,進(jìn)而提升專業(yè)領(lǐng)域的問答能力。
3.3 推理能力提升
高效微調(diào)還可以用于提升大模型的推理能力,尤其是在處理更復(fù)雜推理任務(wù)時。通過微調(diào),模型能夠更加高效地理解長文本、推理隱含信息,或者從數(shù)據(jù)中提取邏輯關(guān)系,進(jìn)而在多輪推理任務(wù)中提供更準(zhǔn)確的答案。這種微調(diào)方式可以幫助模型在解答復(fù)雜問題時,提高推理準(zhǔn)確性并減少錯誤。
3.4 Agent 能力提升
在多任務(wù)協(xié)作或功能調(diào)用場景中,高效微調(diào)能夠顯著提升模型的 Agent 能力,使得模型能夠有效地與其他系統(tǒng)進(jìn)行交互、調(diào)用外部 API 或執(zhí)行特定任務(wù)。通過針對性微調(diào),模型可以學(xué)會更精準(zhǔn)的功能調(diào)用策略、參數(shù)解析和操作指令,從而在自動化服務(wù)、智能助手或機(jī)器人控制等領(lǐng)域表現(xiàn)得更加高效和智能。
四、主流微調(diào)工具介紹
在入手學(xué)習(xí)大模型微調(diào)時,首先推薦功能層次封裝層次較高的微調(diào)四套工具:unsloth、LlamaFactory、ms-SWIFT 和 ColossalAI。除此之外,也可以借助更加底層的庫,如 peft、LoRA、transformer 等實現(xiàn)高效微調(diào)。對于初學(xué)者來說,首先使用現(xiàn)成工具來進(jìn)行微調(diào)更為合適。
4.1 unsloth
unsloth 是一個專為大型語言模型(LLM)設(shè)計的動態(tài)量化與微調(diào)框架,旨在提高微調(diào)效率并減少顯存占用。它通過手動推導(dǎo)計算密集型數(shù)學(xué)步驟并手寫 GPU 內(nèi)核,實現(xiàn)了無需硬件更改即可顯著加快訓(xùn)練速度。

- GitHub 主頁:??https://github.com/unslothai/unsloth23??。
- 性能表現(xiàn):支持 Qwen3、Llama 4、Gemma 3 等多種模型,微調(diào)速度提升 2 倍,顯存使用減少 70%-80% 等。
- 兼容性:與 HuggingFace 生態(tài)兼容,可以很容易地與 transformers、peft、trl 等庫結(jié)合,以實現(xiàn)模型的監(jiān)督微調(diào)(SFT)和直接偏好優(yōu)化(DPO),僅需修改模型的加載方式,無需對現(xiàn)有訓(xùn)練代碼進(jìn)行修改。
- 核心優(yōu)勢:顯著提升微調(diào)效率,采用獨家 4bit 動態(tài)量化技術(shù),節(jié)省時間成本;降低硬件要求,用戶可在顯存較小的 GPU 上進(jìn)行大模型微調(diào);開源免費,用戶可在 Google Colab 或 Kaggle Notebooks 上免費試用。
4.2 LLama-Factory
LLaMA-Factory 是一個統(tǒng)一且高效的微調(diào)框架,旨在為超過 100 種大型語言模型(LLMs)和視覺語言模型(VLMs)提供便捷的微調(diào)支持。用戶能夠靈活地定制模型以適應(yīng)各種下游任務(wù)。

- GitHub 主頁:??https://github.com/hiyouga/LLaMA-Factory30??。
- 主要功能和特點:支持對 100 多 LLMs 和 VLMs 進(jìn)行微調(diào),包括最新模型版本;集成多種高效微調(diào)方法,提高訓(xùn)練速度并減少顯存占用;支持音頻識別、音頻理解等多模態(tài)任務(wù);提供豐富的實驗監(jiān)控工具;框架提供類似 OpenAI 風(fēng)格的 API、Gradio UI 和命令行界面,結(jié)合 vLLM worker 實現(xiàn)高效推理能力。
4.3 ms-SWIFT
ms-swift(Scalable lightWeight Infrastructure for Fine-Tuning)是由魔搭社區(qū)(ModelScope)開發(fā)的高效微調(diào)和部署框架,旨在為研究人員和開發(fā)者提供一站式的大模型與多模態(tài)大模型的訓(xùn)練、推理、評測、量化和部署解決方案。

- GitHub 項目主頁:??https://github.com/modelscope/swift37??。
- 模型支持:支持超過 450 種大型模型(LLMs)和 150 多種多模態(tài)大模型(MLLMs)的訓(xùn)練和部署,包括最新模型版本及多模態(tài)模型等。
- 技術(shù)特點:集成多種訓(xùn)練技術(shù),滿足不同微調(diào)需求;支持多種輕量級微調(diào)方法,降低顯存和計算資源消耗;支持分布式訓(xùn)練技術(shù),提升推理加速;提供多種量化方法,支持多種模態(tài)型訓(xùn)練;提供基于 Gradio 的 Web 界面,簡化大模型全鏈路流程。
4.4 ColossalAI
Colossal-AI 是一個高效的分布式人工智能訓(xùn)練系統(tǒng),旨在最大化提升人工智能訓(xùn)練效率,同時最小化訓(xùn)練成本。作為深度學(xué)習(xí)框架的內(nèi)核,提供自動超高維并行、大規(guī)模優(yōu)化庫等前沿技術(shù)。

- GitHub 項目主頁:??https://github.com/hpcaitech/ColossalAI42??。
- 優(yōu)勢表現(xiàn):與英偉達(dá)的 Megatron-LM 相比,僅需一半數(shù)量的 GPU 即可完成 GPT-3 訓(xùn)練,半小時內(nèi)預(yù)訓(xùn)練 ViT-Base/32,并在兩天內(nèi)訓(xùn)練完 15 億參數(shù)的 GPT 模型。提供多種并行技術(shù),如數(shù)據(jù)并行、流水線并行和張量并行,以加速模型訓(xùn)練。
- 特色:支持 DeepSeek R1 非量化模型高效微調(diào),僅需 4 個節(jié)點、8 卡 A100 服務(wù)器即可完成 DeepSeek R1 高效微調(diào)44。
若是強(qiáng)化學(xué)習(xí)訓(xùn)練,則推薦veRL和OpenRLHF等框架。
4.5 其他微調(diào)框架

五、模型性能評估框架:EvalScope
項目地址:??https://github.com/modelscope/evalscope45??

EvalScope 是由阿里巴巴魔搭社區(qū)(ModelScope)推出的一款開源模型評估框架,旨在為大語言模型(LLM)和多模態(tài)模型提供統(tǒng)一、系統(tǒng)化的性能評估方案。該框架具備高度的自動化和可擴(kuò)展性,適用于研究機(jī)構(gòu)、工業(yè)界以及模型開發(fā)者在模型驗證與性能對比場景中的廣泛需求。
核心功能和特點
- 豐富的評測基準(zhǔn)覆蓋:內(nèi)置多種權(quán)威評測數(shù)據(jù)集,涵蓋中英文通用知識問答、數(shù)學(xué)推理、常識判斷、代碼生成等多個方向,支持多維度評估47。
- 多樣的評估模式支持:提供單模型評估模式(Single)、基于基線的兩兩對比模式(Pairwise-Baseline)、全模型兩兩對比模式(Pairwise-All),滿足不同使用場景。
- 統(tǒng)一的模型接入接口:對不同類型的模型提供統(tǒng)一調(diào)用方式,兼容 HuggingFace、本地部署模型及 API 遠(yuǎn)程調(diào)用,降低模型集成復(fù)雜度。
- 評估流程高度自動化:實現(xiàn)評測任務(wù)全自動執(zhí)行,包括客觀題自動打分、復(fù)雜問題使用評審模型輔助判定結(jié)果等,支持批量評估與日志記錄。
- 完善的可視化工具:支持生成詳細(xì)評估報告和圖表,展示模型在不同任務(wù)維度下的表現(xiàn),便于橫向?qū)Ρ群托阅芊治觥?/li>
- 多后端與評測能力擴(kuò)展:可集成多個評測后端,支持從單模態(tài)到多模態(tài)、從語言建模到 RAG 端到端評測的全鏈路能力。
- 支持部署性能測試:提供服務(wù)端推理性能測試工具,涵蓋吞吐量、響應(yīng)時延等關(guān)鍵指標(biāo),幫助評估模型部署實用性。
六、微調(diào)所需軟硬件環(huán)境說明
大模型微調(diào)屬于大模型進(jìn)階類技術(shù),不同于普通的模型對話或搭建基礎(chǔ)應(yīng)用,微調(diào)往往需要一定的軟硬件條件支持。
6.1 硬件要求
不同尺寸模型、不同精度微調(diào)時所需顯存不同,以下是相關(guān)參考:
模型尺寸 | Freeze (FP16) 顯存需求 (GB) | LoRA (FP16) 顯存需求 (GB) | QLORA (INT8) 顯存需求 (GB) | QLORA (INT4) 顯存需求 (GB) | 推薦硬件配置 |
7B | 20 | 16 | 10 | 6 | RTX4090、RTX4080、RTX3060 |
13B | 40 | 32 | 20 | 12-13 | RTX 4090/A100 (40GB)、L40(48GB) |
30B | 80 | 64 | 40 | 24 | A100 (80GB)、RTX4090 |
70B | 200 | 160 | 80 | 48 | H100 (80GB)、L40(48GB) |
110B | 360 | 240 | 140 | 72 | H100(80GB)5、H100(80GB)2、A10 (24GB)*3 |
其中 RTX4090 可等價替換為 RTX3090;A100 可替換為 A800(國內(nèi)特供);L40 可替換為 L20(國內(nèi)特供)56575859。
6.2 Qwen3 系列模型微調(diào)顯存占用
模型名稱 | 參數(shù)量 | FP16 微調(diào)顯存占用 | 4-bit 動態(tài)量化微調(diào)顯存占用 | 備注 |
Qwen3-0.6B | 0.6B | ~1.2 GB | ~0.5 GB | 可在低端 GPU 或 CPU 上運(yùn)行 |
Qwen3-1.7B | 1.7B | ~3.4 GB | ~1.5 GB | 適合入門級部署 |
Qwen3-4B | 4B | ~8.0 GB | ~3.5 GB | 適合中等規(guī)模任務(wù) |
Qwen3-8B | 8B | ~16.0 GB | ~7.0 GB | 需要高端消費級 GPU |
Qwen3-14B | 14B | ~28.0 GB | ~12.0 GB | 可在單張 RTX 4090 上微調(diào) |
Qwen3-30B- A3B (MoE) | 激活參數(shù)約 3B | ~85.0 GB | 暫不支持 | 激活部分專家參數(shù),資源需求較高 |
Qwen3-32B | 32B | ~65.0 GB | ~32.0 GB | 需要 A100/H100 或多卡并行 |
Qwen3-235B- A22B (MoE) | 激活參數(shù)約 22B | ~600 GB | 暫不支持 | 超大模型,適合企業(yè)級部署,需高端服務(wù)器支持 |
注 1:CPU 不能進(jìn)行微調(diào);
注 2:目前 MoE 模型只支持 4bit 普通量化微調(diào),暫不支持動態(tài)量化微調(diào)。
七、準(zhǔn)備微調(diào)數(shù)據(jù)集
在大模型微調(diào)流程中,數(shù)據(jù)集的質(zhì)量直接決定微調(diào)效果。尤其是當(dāng)模型需要具備復(fù)雜功能(如 Function calling、混合推理)或特定領(lǐng)域知識時,手動創(chuàng)建或優(yōu)化數(shù)據(jù)集至關(guān)重要。以下是基于 Qwen3 模型微調(diào)的數(shù)據(jù)集準(zhǔn)備方法:
7.1 理解數(shù)據(jù)集構(gòu)造的底層原理
模型通過特殊字符標(biāo)記識別輸入類型、系統(tǒng)提示和輸出邊界,因此數(shù)據(jù)集需遵循模型的格式規(guī)范。以 Qwen3 為例,其核心特殊標(biāo)記如下:
- ?
?<|im_start|>???:標(biāo)記文本開始,后跟角色(如??user???/??assistant???/??system??) - ?
?<|im_end|>??:標(biāo)記文本結(jié)束
例如,簡單對話的實際輸入輸出格式為:
<|im_start|>user
你好!<|im_end|>
<|im_start|>assistant
你好呀,很高興見到你!<|im_end|>這些標(biāo)記可在模型的??tokenizer_config.json??文件中查看完整定義。
7.2 常見微調(diào)數(shù)據(jù)集格式詳解
7.2.1 基礎(chǔ)問答格式(Alpaca 風(fēng)格)
適用于簡單指令微調(diào),包含??instruction???(指令)、???input???(輸入)和???output???(輸出)三個核心字段。例如:
{
"instruction": "識別并解釋給定的科學(xué)理論",
"input": "細(xì)胞理論",
"output": "細(xì)胞理論是生物科學(xué)的基礎(chǔ)理論,認(rèn)為所有生命體由細(xì)胞構(gòu)成,細(xì)胞是生物的基本結(jié)構(gòu)和功能單位。"
}微調(diào)時,腳本會自動將其轉(zhuǎn)換為 Qwen3 兼容的標(biāo)記格式:
<|im_start|>user
識別并解釋給定的科學(xué)理論:細(xì)胞理論<|im_end|>
<|im_start|>assistant
細(xì)胞理論是生物科學(xué)的基礎(chǔ)理論...<|im_end|>7.2.2 帶系統(tǒng)提示和 Function calling 的格式
若需提升模型的工具調(diào)用能力,數(shù)據(jù)集需包含系統(tǒng)提示、工具定義和調(diào)用示例。例如:系統(tǒng)提示:明確工具調(diào)用規(guī)則工具定義:通過??<tools>??標(biāo)簽描述函數(shù)參數(shù)?對話示例:
<|im_start|>system
你是天氣助手,查詢天氣時需調(diào)用get_weather函數(shù)。
<tools>[{"name":"get_weather","parameters":{"location":"城市名稱"}}]</tools>
<|im_end|>
<|im_start|>user
北京天氣如何?<|im_end|>
<|im_start|>assistant
<tool_call>{"name":"get_weather","arguments":{"location":"北京"}}</tool_call><|im_end|>需注意:高效微調(diào)僅能優(yōu)化現(xiàn)有 Function calling 能力,無法讓模型從無到有學(xué)會該功能。
7.2.3 帶思考過程的格式
為提升模型推理能力(如數(shù)學(xué)解題、邏輯分析),數(shù)據(jù)集需包含中間思考步驟,用特殊標(biāo)記(如??<|think|>??)分隔思考過程與最終輸出。例如:
<|im_start|>system
你是數(shù)學(xué)助手,需展示解題步驟。<|im_end|>
<|im_start|>user
計算3+5×2的結(jié)果。<|im_end|>
<|im_start|>assistant
<think>用戶問的是3加5乘2,先算乘法再算加法,5乘2等于10,再加3就是13。</think>3+5×2=3+10=13<|im_end|>模型會通過學(xué)習(xí)思考過程與最終答案的關(guān)聯(lián),提升推理邏輯性。
7.3 Qwen3 混合推理模型的數(shù)據(jù)集構(gòu)造方法
為確保 Qwen3 在微調(diào)后保留混合推理能力,需采用 “多數(shù)據(jù)集拼接” 策略,核心步驟如下:
7.3.1. 選擇基礎(chǔ)數(shù)據(jù)集
- 普通對話數(shù)據(jù):如?
?FineTome-100k??(含 10 萬條多輪對話,ShareGPT 風(fēng)格),用于保留模型的自然交互能力。 - 推理類數(shù)據(jù):如?
?OpenMathReasoning??(含 54 萬道數(shù)學(xué)題及詳細(xì)解題步驟),用于強(qiáng)化邏輯推理能力。
7.3.2 數(shù)據(jù)集配比調(diào)整
需根據(jù)微調(diào)目標(biāo)平衡不同類型數(shù)據(jù)的比例:
- 若側(cè)重數(shù)學(xué)推理:可按 7:3 比例混合?
?OpenMathReasoning???與??FineTome-100k?? - 若需均衡能力:建議按 5:5 比例混合,避免模型過度偏向單一任務(wù)。
7.3.3 格式統(tǒng)一與清洗
- 確保所有數(shù)據(jù)轉(zhuǎn)換為 Qwen3 兼容的標(biāo)記格式(含?
?<|im_start|>?????<|im_end|>??等)。 - 過濾重復(fù)樣本、錯誤標(biāo)注和低質(zhì)量內(nèi)容,避免模型學(xué)習(xí)噪聲數(shù)據(jù)。
7.4 數(shù)據(jù)集獲取與組裝渠道
開源數(shù)據(jù)集
- 直接從 Hugging Face、ModelScope 下載,如:
??mlabonne/FineTome-100k??(通用對話)
??nvidia/OpenMathReasoning??(數(shù)學(xué)推理)
手動創(chuàng)建
- 針對特定領(lǐng)域(如法律、醫(yī)療),可結(jié)合專業(yè)文檔編寫問答對,確保知識準(zhǔn)確性。
格式轉(zhuǎn)換
- 使用工具將原始數(shù)據(jù)轉(zhuǎn)換為目標(biāo)格式,例如用 Python 腳本批量添加 Qwen3 的特殊標(biāo)記。
通過以上方法構(gòu)建的數(shù)據(jù)集,能讓 Qwen3 在微調(diào)后既保留原有能力,又針對性提升目標(biāo)任務(wù)性能。
本文轉(zhuǎn)載自??鴻煊的學(xué)習(xí)筆記??,作者:乘風(fēng)破浪jxj

















