精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

大模型微調(diào)技術(shù)基礎(chǔ)

發(fā)布于 2025-8-22 08:00
瀏覽
0收藏

一、微調(diào)基礎(chǔ)概念

1.1. 什么是大模型微調(diào)?

1.2 全量微調(diào)與高效微調(diào)的區(qū)別

1.3 模型微調(diào)的優(yōu)劣勢分析

二、高效微調(diào)核心技術(shù):LoRA 與 QLoRA 簡介

2.1 LoRA:低秩適配的高效微調(diào)方法

2.2 QLoRA:量化與低秩結(jié)合的優(yōu)化方案2.3 LoRA 與 QLoRA 對比

三、高效微調(diào)的四大應(yīng)用場景

3.1 對話風(fēng)格微調(diào)

3.2 知識灌注

3.3 推理能力提升

3.4 Agent 能力提升

四、主流微調(diào)工具介紹

4.1 unsloth

4.2 LLama-Factory

4.3 ms-SWIFT

4.4 ColossalAI

4.5 其他微調(diào)框架

五、模型性能評估框架:EvalScope核心功能和特點

六、微調(diào)所需軟硬件環(huán)境說明

6.1 硬件要求

6.2 Qwen3 系列模型微調(diào)顯存占用

七、準(zhǔn)備微調(diào)數(shù)據(jù)集

7.1 理解數(shù)據(jù)集構(gòu)造的底層原理

7.2 常見微調(diào)數(shù)據(jù)集格式詳解

7.2.1 基礎(chǔ)問答格式(Alpaca 風(fēng)格)

7.2.2 帶系統(tǒng)提示和 Function calling 的格式

7.2.3 帶思考過程的格式

7.3 Qwen3 混合推理模型的數(shù)據(jù)集構(gòu)造方法

7.3.1. 選擇基礎(chǔ)數(shù)據(jù)集

7.3.2 數(shù)據(jù)集配比調(diào)整

7.3.3 格式統(tǒng)一與清洗

7.4 數(shù)據(jù)集獲取與組裝渠道

一、微調(diào)基礎(chǔ)概念

1.1. 什么是大模型微調(diào)?

大模型微調(diào)指在已有的大規(guī)模預(yù)訓(xùn)練模型基礎(chǔ)上,通過對標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,進(jìn)一步優(yōu)化模型的表現(xiàn),以適應(yīng)特定任務(wù)或場景的需求。與 RAG 或者 Agent 技術(shù)通過搭建工作流來優(yōu)化模型表現(xiàn)不同,微調(diào)是通過修改模型參數(shù)來優(yōu)化模型能力,是一種能夠讓模型 “永久” 掌握某種能力的方法。

1.2 全量微調(diào)與高效微調(diào)的區(qū)別

從方法大類劃分,微調(diào)可分為全量微調(diào)與高效微調(diào):

  • 全量微調(diào):帶入全部數(shù)據(jù)進(jìn)行微調(diào),算力消耗更大,但對模型的能力改造更為徹底。
  • 高效微調(diào):只帶入部分?jǐn)?shù)據(jù)進(jìn)行微調(diào),更類似 “四兩撥千斤” 的方法,通過修改模型部分參數(shù),來調(diào)整模型整體能力。

1.3 模型微調(diào)的優(yōu)劣勢分析

  • 優(yōu)勢:能夠通過修改模型參數(shù)的方式,永久地修改模型的能力。
  • 劣勢:若處理不當(dāng),很可能造成模型原始能力的災(zāi)難性遺忘,即導(dǎo)致模型原始能力丟失,對于復(fù)雜模型尤其如此。因此需要小心謹(jǐn)慎地設(shè)計模型微調(diào)數(shù)據(jù)集和微調(diào)訓(xùn)練流程,并經(jīng)過反復(fù)多次訓(xùn)練驗證,得到最佳模型。

二、高效微調(diào)核心技術(shù):LoRA 與 QLoRA 簡介

盡管全量微調(diào)可以深度改造模型能力,但需消耗大量算力且有一定技術(shù)門檻。在絕大多數(shù)場景中,若只想提升模型某個具體領(lǐng)域的能力,高效微調(diào)會更加合適,而目前適用于大模型的最主流高效微調(diào)方法是 LoRA。

2.1 LoRA:低秩適配的高效微調(diào)方法

LoRA(Low-Rank Adaptation)微調(diào)是一種參數(shù)高效的微調(diào)方法,旨在通過引入低秩矩陣來減少微調(diào)時需要調(diào)整的參數(shù)數(shù)量,從而顯著降低顯存和計算資源的消耗。具體來說,LoRA 微調(diào)并不直接調(diào)整原始模型的所有參數(shù),而是通過在某些層中插入低秩的適配器(Adapter)層來進(jìn)行訓(xùn)練。

  • 原理:在標(biāo)準(zhǔn)微調(diào)中,會修改模型的所有權(quán)重,而在 LoRA 中,只有某些低秩矩陣(適配器)被訓(xùn)練和調(diào)整。原始模型的參數(shù)保持不變,只是通過少量的新參數(shù)來調(diào)整模型的輸出。低秩矩陣的引入能在顯存和計算能力有限的情況下,有效對大型預(yù)訓(xùn)練模型進(jìn)行微調(diào),成為顯存較小設(shè)備上的理想選擇。
  • 優(yōu)勢:

顯存優(yōu)化:只需要調(diào)整少量的參數(shù)(適配器),顯著減少了顯存需求,適合顯存有限的 GPU。

計算效率:微調(diào)過程中的計算負(fù)擔(dān)更輕,因為減少了需要調(diào)整的參數(shù)量。

靈活性:可以與現(xiàn)有的預(yù)訓(xùn)練模型輕松結(jié)合使用,適用于多種任務(wù),如文本生成、分類、問答等。

2.2 QLoRA:量化與低秩結(jié)合的優(yōu)化方案

QLoRA(Quantized Low-Rank Adaptation)是 LoRA 的擴(kuò)展版本,它結(jié)合了 LoRA 的低秩適配器和量化技術(shù)。QLoRA 進(jìn)一步優(yōu)化了計算效率和存儲需求,特別是在極端顯存受限的環(huán)境下。與 LoRA 不同的是,QLoRA 會將插入的低秩適配器層的部分權(quán)重進(jìn)行量化(通常是量化為 INT4 或 INT8),在保持性能的同時顯著降低模型的存儲和計算需求。

  • 核心思想:在 LoRA 的基礎(chǔ)上加入量化技術(shù),減少權(quán)重表示的位數(shù),從而降低顯存和計算需求。QLoRA 結(jié)合了低秩適配器和量化的優(yōu)點,能夠在顯存有限的設(shè)備上進(jìn)行更高效的微調(diào)。
  • 量化作用:通過將模型權(quán)重量化為低精度(如 INT4),減少內(nèi)存占用,并提高推理和訓(xùn)練速度。
  • 優(yōu)勢:在顯存非常有限的情況下仍能進(jìn)行微調(diào);可以處理更大規(guī)模的模型;適合用于邊緣設(shè)備和需要低延遲推理的場景。

2.3 LoRA 與 QLoRA 對比

特性

LoRA

QLoRA

核心技術(shù)

低秩適配器 (Low-Rank Adapters)

低秩適配器 + 量化技術(shù) (Low-Rank Adapters + Quantization)

適用場景

顯存受限,但設(shè)備性能較好

極限顯存受限或需要快速推理的設(shè)備

計算效率

提高計算效率,減少調(diào)整的參數(shù)數(shù)量

進(jìn)一步提升效率,減少內(nèi)存使用并加快推理速度

量化技術(shù)

無量化

將權(quán)重量化為低精度 (如 INT4 或 INT8)

內(nèi)存消耗

較低,但不如 QLoRA 低

顯著降低內(nèi)存消耗,適合更小的設(shè)備

訓(xùn)練復(fù)雜度

較簡單,適用于大多數(shù)微調(diào)場景

需要更多的量化和適配工作,但適合超大模型和設(shè)備受限場景

注意:大模型微調(diào)的 LoRA 與 QLoRa,二者相差一個字母的大小寫,是完全兩種不同的技術(shù);LoRA 除了可以用于微調(diào)大語言模型(LLM)外,目前在圍繞 diffusion models(擴(kuò)散模型)進(jìn)行微調(diào),及圖片任務(wù)中也表現(xiàn)驚艷。

三、高效微調(diào)的四大應(yīng)用場景

在實際大模型應(yīng)用場景中,高效微調(diào)主要用于以下四個方面:

3.1 對話風(fēng)格微調(diào)

高效微調(diào)可以用于根據(jù)特定需求調(diào)整模型的對話風(fēng)格。例如,針對客服系統(tǒng)、虛擬助理等場景,模型可以通過微調(diào)來適應(yīng)不同的語氣、禮貌程度或回答方式,從而在與用戶互動時提供更符合要求的對話體驗。通過微調(diào)少量的參數(shù)(例如對話生成的策略、情感表達(dá)等),可以使模型表現(xiàn)出更具針對性和個性化的風(fēng)格。

3.2 知識灌注

知識灌注是指將外部知識或領(lǐng)域特定的信息快速集成到已有的預(yù)訓(xùn)練模型中。通過高效微調(diào),模型可以更好地學(xué)習(xí)新領(lǐng)域的專有知識,而無需重新從頭開始訓(xùn)練。例如,對于法律、醫(yī)療等專業(yè)領(lǐng)域,可以使用少量的標(biāo)注數(shù)據(jù)對預(yù)訓(xùn)練模型進(jìn)行微調(diào),幫助模型理解特定行業(yè)的術(shù)語、規(guī)則和知識,進(jìn)而提升專業(yè)領(lǐng)域的問答能力。

3.3 推理能力提升

高效微調(diào)還可以用于提升大模型的推理能力,尤其是在處理更復(fù)雜推理任務(wù)時。通過微調(diào),模型能夠更加高效地理解長文本、推理隱含信息,或者從數(shù)據(jù)中提取邏輯關(guān)系,進(jìn)而在多輪推理任務(wù)中提供更準(zhǔn)確的答案。這種微調(diào)方式可以幫助模型在解答復(fù)雜問題時,提高推理準(zhǔn)確性并減少錯誤。

3.4 Agent 能力提升

在多任務(wù)協(xié)作或功能調(diào)用場景中,高效微調(diào)能夠顯著提升模型的 Agent 能力,使得模型能夠有效地與其他系統(tǒng)進(jìn)行交互、調(diào)用外部 API 或執(zhí)行特定任務(wù)。通過針對性微調(diào),模型可以學(xué)會更精準(zhǔn)的功能調(diào)用策略、參數(shù)解析和操作指令,從而在自動化服務(wù)、智能助手或機(jī)器人控制等領(lǐng)域表現(xiàn)得更加高效和智能。

四、主流微調(diào)工具介紹

在入手學(xué)習(xí)大模型微調(diào)時,首先推薦功能層次封裝層次較高的微調(diào)四套工具:unsloth、LlamaFactory、ms-SWIFT 和 ColossalAI。除此之外,也可以借助更加底層的庫,如 peft、LoRA、transformer 等實現(xiàn)高效微調(diào)。對于初學(xué)者來說,首先使用現(xiàn)成工具來進(jìn)行微調(diào)更為合適。

4.1 unsloth

unsloth 是一個專為大型語言模型(LLM)設(shè)計的動態(tài)量化與微調(diào)框架,旨在提高微調(diào)效率并減少顯存占用。它通過手動推導(dǎo)計算密集型數(shù)學(xué)步驟并手寫 GPU 內(nèi)核,實現(xiàn)了無需硬件更改即可顯著加快訓(xùn)練速度。

大模型微調(diào)技術(shù)基礎(chǔ)-AI.x社區(qū)

  • GitHub 主頁:??https://github.com/unslothai/unsloth23??。
  • 性能表現(xiàn):支持 Qwen3、Llama 4、Gemma 3 等多種模型,微調(diào)速度提升 2 倍,顯存使用減少 70%-80% 等。
  • 兼容性:與 HuggingFace 生態(tài)兼容,可以很容易地與 transformers、peft、trl 等庫結(jié)合,以實現(xiàn)模型的監(jiān)督微調(diào)(SFT)和直接偏好優(yōu)化(DPO),僅需修改模型的加載方式,無需對現(xiàn)有訓(xùn)練代碼進(jìn)行修改。
  • 核心優(yōu)勢:顯著提升微調(diào)效率,采用獨家 4bit 動態(tài)量化技術(shù),節(jié)省時間成本;降低硬件要求,用戶可在顯存較小的 GPU 上進(jìn)行大模型微調(diào);開源免費,用戶可在 Google Colab 或 Kaggle Notebooks 上免費試用。

4.2 LLama-Factory

LLaMA-Factory 是一個統(tǒng)一且高效的微調(diào)框架,旨在為超過 100 種大型語言模型(LLMs)和視覺語言模型(VLMs)提供便捷的微調(diào)支持。用戶能夠靈活地定制模型以適應(yīng)各種下游任務(wù)。

大模型微調(diào)技術(shù)基礎(chǔ)-AI.x社區(qū)

  • GitHub 主頁:??https://github.com/hiyouga/LLaMA-Factory30??。
  • 主要功能和特點:支持對 100 多 LLMs 和 VLMs 進(jìn)行微調(diào),包括最新模型版本;集成多種高效微調(diào)方法,提高訓(xùn)練速度并減少顯存占用;支持音頻識別、音頻理解等多模態(tài)任務(wù);提供豐富的實驗監(jiān)控工具;框架提供類似 OpenAI 風(fēng)格的 API、Gradio UI 和命令行界面,結(jié)合 vLLM worker 實現(xiàn)高效推理能力。

4.3 ms-SWIFT

ms-swift(Scalable lightWeight Infrastructure for Fine-Tuning)是由魔搭社區(qū)(ModelScope)開發(fā)的高效微調(diào)和部署框架,旨在為研究人員和開發(fā)者提供一站式的大模型與多模態(tài)大模型的訓(xùn)練、推理、評測、量化和部署解決方案。

大模型微調(diào)技術(shù)基礎(chǔ)-AI.x社區(qū)

  • GitHub 項目主頁:??https://github.com/modelscope/swift37??。
  • 模型支持:支持超過 450 種大型模型(LLMs)和 150 多種多模態(tài)大模型(MLLMs)的訓(xùn)練和部署,包括最新模型版本及多模態(tài)模型等。
  • 技術(shù)特點:集成多種訓(xùn)練技術(shù),滿足不同微調(diào)需求;支持多種輕量級微調(diào)方法,降低顯存和計算資源消耗;支持分布式訓(xùn)練技術(shù),提升推理加速;提供多種量化方法,支持多種模態(tài)型訓(xùn)練;提供基于 Gradio 的 Web 界面,簡化大模型全鏈路流程。

4.4 ColossalAI

Colossal-AI 是一個高效的分布式人工智能訓(xùn)練系統(tǒng),旨在最大化提升人工智能訓(xùn)練效率,同時最小化訓(xùn)練成本。作為深度學(xué)習(xí)框架的內(nèi)核,提供自動超高維并行、大規(guī)模優(yōu)化庫等前沿技術(shù)。

大模型微調(diào)技術(shù)基礎(chǔ)-AI.x社區(qū)

  • GitHub 項目主頁:??https://github.com/hpcaitech/ColossalAI42??。
  • 優(yōu)勢表現(xiàn):與英偉達(dá)的 Megatron-LM 相比,僅需一半數(shù)量的 GPU 即可完成 GPT-3 訓(xùn)練,半小時內(nèi)預(yù)訓(xùn)練 ViT-Base/32,并在兩天內(nèi)訓(xùn)練完 15 億參數(shù)的 GPT 模型。提供多種并行技術(shù),如數(shù)據(jù)并行、流水線并行和張量并行,以加速模型訓(xùn)練。
  • 特色:支持 DeepSeek R1 非量化模型高效微調(diào),僅需 4 個節(jié)點、8 卡 A100 服務(wù)器即可完成 DeepSeek R1 高效微調(diào)44。

若是強(qiáng)化學(xué)習(xí)訓(xùn)練,則推薦veRL和OpenRLHF等框架。

4.5 其他微調(diào)框架

大模型微調(diào)技術(shù)基礎(chǔ)-AI.x社區(qū)

五、模型性能評估框架:EvalScope

項目地址:??https://github.com/modelscope/evalscope45??

大模型微調(diào)技術(shù)基礎(chǔ)-AI.x社區(qū)

EvalScope 是由阿里巴巴魔搭社區(qū)(ModelScope)推出的一款開源模型評估框架,旨在為大語言模型(LLM)和多模態(tài)模型提供統(tǒng)一、系統(tǒng)化的性能評估方案。該框架具備高度的自動化和可擴(kuò)展性,適用于研究機(jī)構(gòu)、工業(yè)界以及模型開發(fā)者在模型驗證與性能對比場景中的廣泛需求。

核心功能和特點

  • 豐富的評測基準(zhǔn)覆蓋:內(nèi)置多種權(quán)威評測數(shù)據(jù)集,涵蓋中英文通用知識問答、數(shù)學(xué)推理、常識判斷、代碼生成等多個方向,支持多維度評估47。
  • 多樣的評估模式支持:提供單模型評估模式(Single)、基于基線的兩兩對比模式(Pairwise-Baseline)、全模型兩兩對比模式(Pairwise-All),滿足不同使用場景。
  • 統(tǒng)一的模型接入接口:對不同類型的模型提供統(tǒng)一調(diào)用方式,兼容 HuggingFace、本地部署模型及 API 遠(yuǎn)程調(diào)用,降低模型集成復(fù)雜度。
  • 評估流程高度自動化:實現(xiàn)評測任務(wù)全自動執(zhí)行,包括客觀題自動打分、復(fù)雜問題使用評審模型輔助判定結(jié)果等,支持批量評估與日志記錄。
  • 完善的可視化工具:支持生成詳細(xì)評估報告和圖表,展示模型在不同任務(wù)維度下的表現(xiàn),便于橫向?qū)Ρ群托阅芊治觥?/li>
  • 多后端與評測能力擴(kuò)展:可集成多個評測后端,支持從單模態(tài)到多模態(tài)、從語言建模到 RAG 端到端評測的全鏈路能力。
  • 支持部署性能測試:提供服務(wù)端推理性能測試工具,涵蓋吞吐量、響應(yīng)時延等關(guān)鍵指標(biāo),幫助評估模型部署實用性。

六、微調(diào)所需軟硬件環(huán)境說明

大模型微調(diào)屬于大模型進(jìn)階類技術(shù),不同于普通的模型對話或搭建基礎(chǔ)應(yīng)用,微調(diào)往往需要一定的軟硬件條件支持。

6.1 硬件要求

不同尺寸模型、不同精度微調(diào)時所需顯存不同,以下是相關(guān)參考:

模型尺寸

Freeze (FP16) 顯存需求 (GB)

LoRA (FP16) 顯存需求 (GB)

QLORA (INT8) 顯存需求 (GB)

QLORA (INT4) 顯存需求 (GB)

推薦硬件配置

7B

20

16

10

6

RTX4090、RTX4080、RTX3060

13B

40

32

20

12-13

RTX 4090/A100 (40GB)、L40(48GB)

30B

80

64

40

24

A100 (80GB)、RTX4090

70B

200

160

80

48

H100 (80GB)、L40(48GB)

110B

360

240

140

72

H100(80GB)5、H100(80GB)2、A10 (24GB)*3

其中 RTX4090 可等價替換為 RTX3090;A100 可替換為 A800(國內(nèi)特供);L40 可替換為 L20(國內(nèi)特供)56575859。

6.2 Qwen3 系列模型微調(diào)顯存占用

模型名稱

參數(shù)量

FP16 微調(diào)顯存占用

4-bit 動態(tài)量化微調(diào)顯存占用

備注

Qwen3-0.6B

0.6B

~1.2 GB

~0.5 GB

可在低端 GPU 或 CPU 上運(yùn)行

Qwen3-1.7B

1.7B

~3.4 GB

~1.5 GB

適合入門級部署

Qwen3-4B

4B

~8.0 GB

~3.5 GB

適合中等規(guī)模任務(wù)

Qwen3-8B

8B

~16.0 GB

~7.0 GB

需要高端消費級 GPU

Qwen3-14B

14B

~28.0 GB

~12.0 GB

可在單張 RTX 4090 上微調(diào)

Qwen3-30B- A3B (MoE)

激活參數(shù)約 3B

~85.0 GB

暫不支持

激活部分專家參數(shù),資源需求較高

Qwen3-32B

32B

~65.0 GB

~32.0 GB

需要 A100/H100 或多卡并行

Qwen3-235B- A22B (MoE)

激活參數(shù)約 22B

~600 GB

暫不支持

超大模型,適合企業(yè)級部署,需高端服務(wù)器支持

注 1:CPU 不能進(jìn)行微調(diào);

注 2:目前 MoE 模型只支持 4bit 普通量化微調(diào),暫不支持動態(tài)量化微調(diào)。

七、準(zhǔn)備微調(diào)數(shù)據(jù)集

在大模型微調(diào)流程中,數(shù)據(jù)集的質(zhì)量直接決定微調(diào)效果。尤其是當(dāng)模型需要具備復(fù)雜功能(如 Function calling、混合推理)或特定領(lǐng)域知識時,手動創(chuàng)建或優(yōu)化數(shù)據(jù)集至關(guān)重要。以下是基于 Qwen3 模型微調(diào)的數(shù)據(jù)集準(zhǔn)備方法:

7.1 理解數(shù)據(jù)集構(gòu)造的底層原理

模型通過特殊字符標(biāo)記識別輸入類型、系統(tǒng)提示和輸出邊界,因此數(shù)據(jù)集需遵循模型的格式規(guī)范。以 Qwen3 為例,其核心特殊標(biāo)記如下:

  • ??<|im_start|>???:標(biāo)記文本開始,后跟角色(如??user???/??assistant???/??system??)
  • ??<|im_end|>??:標(biāo)記文本結(jié)束

例如,簡單對話的實際輸入輸出格式為:

<|im_start|>user  
你好!<|im_end|>  
<|im_start|>assistant  
你好呀,很高興見到你!<|im_end|>

這些標(biāo)記可在模型的??tokenizer_config.json??文件中查看完整定義。

7.2 常見微調(diào)數(shù)據(jù)集格式詳解

7.2.1 基礎(chǔ)問答格式(Alpaca 風(fēng)格)

適用于簡單指令微調(diào),包含??instruction???(指令)、???input???(輸入)和???output???(輸出)三個核心字段。例如:

{
  "instruction": "識別并解釋給定的科學(xué)理論",
  "input": "細(xì)胞理論",
  "output": "細(xì)胞理論是生物科學(xué)的基礎(chǔ)理論,認(rèn)為所有生命體由細(xì)胞構(gòu)成,細(xì)胞是生物的基本結(jié)構(gòu)和功能單位。"
}

微調(diào)時,腳本會自動將其轉(zhuǎn)換為 Qwen3 兼容的標(biāo)記格式:

<|im_start|>user  
識別并解釋給定的科學(xué)理論:細(xì)胞理論<|im_end|>  
<|im_start|>assistant  
細(xì)胞理論是生物科學(xué)的基礎(chǔ)理論...<|im_end|>

7.2.2 帶系統(tǒng)提示和 Function calling 的格式

若需提升模型的工具調(diào)用能力,數(shù)據(jù)集需包含系統(tǒng)提示、工具定義和調(diào)用示例。例如:系統(tǒng)提示:明確工具調(diào)用規(guī)則工具定義:通過??<tools>??標(biāo)簽描述函數(shù)參數(shù)?對話示例:

<|im_start|>system  
你是天氣助手,查詢天氣時需調(diào)用get_weather函數(shù)。  
<tools>[{"name":"get_weather","parameters":{"location":"城市名稱"}}]</tools>  
<|im_end|>  
<|im_start|>user  
北京天氣如何?<|im_end|>  
<|im_start|>assistant  
<tool_call>{"name":"get_weather","arguments":{"location":"北京"}}</tool_call><|im_end|>

需注意:高效微調(diào)僅能優(yōu)化現(xiàn)有 Function calling 能力,無法讓模型從無到有學(xué)會該功能。

7.2.3 帶思考過程的格式

為提升模型推理能力(如數(shù)學(xué)解題、邏輯分析),數(shù)據(jù)集需包含中間思考步驟,用特殊標(biāo)記(如??<|think|>??)分隔思考過程與最終輸出。例如:

<|im_start|>system  
你是數(shù)學(xué)助手,需展示解題步驟。<|im_end|>  
<|im_start|>user  
計算3+5×2的結(jié)果。<|im_end|>  
<|im_start|>assistant  
<think>用戶問的是3加5乘2,先算乘法再算加法,5乘2等于10,再加3就是13。</think>3+5×2=3+10=13<|im_end|>

模型會通過學(xué)習(xí)思考過程與最終答案的關(guān)聯(lián),提升推理邏輯性。

7.3 Qwen3 混合推理模型的數(shù)據(jù)集構(gòu)造方法

為確保 Qwen3 在微調(diào)后保留混合推理能力,需采用 “多數(shù)據(jù)集拼接” 策略,核心步驟如下:

7.3.1. 選擇基礎(chǔ)數(shù)據(jù)集

  • 普通對話數(shù)據(jù):如??FineTome-100k??(含 10 萬條多輪對話,ShareGPT 風(fēng)格),用于保留模型的自然交互能力。
  • 推理類數(shù)據(jù):如??OpenMathReasoning??(含 54 萬道數(shù)學(xué)題及詳細(xì)解題步驟),用于強(qiáng)化邏輯推理能力。

7.3.2 數(shù)據(jù)集配比調(diào)整

需根據(jù)微調(diào)目標(biāo)平衡不同類型數(shù)據(jù)的比例:

  • 若側(cè)重數(shù)學(xué)推理:可按 7:3 比例混合??OpenMathReasoning???與??FineTome-100k??
  • 若需均衡能力:建議按 5:5 比例混合,避免模型過度偏向單一任務(wù)。

7.3.3 格式統(tǒng)一與清洗

  • 確保所有數(shù)據(jù)轉(zhuǎn)換為 Qwen3 兼容的標(biāo)記格式(含??<|im_start|>?????<|im_end|>??等)。
  • 過濾重復(fù)樣本、錯誤標(biāo)注和低質(zhì)量內(nèi)容,避免模型學(xué)習(xí)噪聲數(shù)據(jù)。

7.4 數(shù)據(jù)集獲取與組裝渠道

開源數(shù)據(jù)集

  • 直接從 Hugging Face、ModelScope 下載,如:

??mlabonne/FineTome-100k??(通用對話)

??nvidia/OpenMathReasoning??(數(shù)學(xué)推理)

手動創(chuàng)建

  • 針對特定領(lǐng)域(如法律、醫(yī)療),可結(jié)合專業(yè)文檔編寫問答對,確保知識準(zhǔn)確性。

格式轉(zhuǎn)換

  • 使用工具將原始數(shù)據(jù)轉(zhuǎn)換為目標(biāo)格式,例如用 Python 腳本批量添加 Qwen3 的特殊標(biāo)記。

通過以上方法構(gòu)建的數(shù)據(jù)集,能讓 Qwen3 在微調(diào)后既保留原有能力,又針對性提升目標(biāo)任務(wù)性能。

本文轉(zhuǎn)載自??鴻煊的學(xué)習(xí)筆記??,作者:乘風(fēng)破浪jxj

已于2025-8-22 10:28:43修改
收藏
回復(fù)
舉報
回復(fù)
相關(guān)推薦
国产精品一二三在线观看| 国产精品日韩欧美大师| 亚洲欧美日韩色| 亚洲最大成人| 自拍偷拍亚洲综合| 精品国产乱码久久久久久108| 免费看日批视频| 国产精品久久久久久麻豆一区软件| 欧美一级高清大全免费观看| 97xxxxx| 黄色免费在线观看| 96av麻豆蜜桃一区二区| 成人女保姆的销魂服务| 亚洲第一精品在线观看| 综合久久久久| 在线国产精品视频| 精品人妻一区二区免费视频| 外国成人毛片| 色婷婷综合久久久久中文一区二区| 日韩第一页在线观看| 九色视频在线播放| 国产成人精品一区二区三区四区| 欧美最猛性xxxx| 久久久久亚洲av无码专区| 大胆日韩av| 日韩久久精品电影| 久久无码专区国产精品s| 国产精品久久久久久妇女| 午夜日韩在线观看| 国产免费内射又粗又爽密桃视频| 中文字幕在线免费| 久久精品在线免费观看| 国产区一区二区| www.久久精品.com| 激情六月婷婷综合| 国产精品人成电影在线观看| 日韩特级黄色片| 亚洲乱亚洲高清| 色综合天天狠天天透天天伊人| 国产成人一区二区在线观看| 欧美黑人巨大videos精品| 日韩一区二区视频在线观看| 不卡中文字幕在线观看| 成人在线中文| 欧美亚洲综合色| 免费黄色一级网站| 影音成人av| 色播五月激情综合网| 久久综合久久色| 成人激情综合| 91国偷自产一区二区三区成为亚洲经典 | 亚洲柠檬福利资源导航| 久久偷看各类wc女厕嘘嘘偷窃| 黄色小视频免费观看| 成人晚上爱看视频| 国产精品制服诱惑| 亚洲aaaaaaa| 久久亚洲综合色一区二区三区| 九九久久99| 男人天堂网在线观看| 91看片淫黄大片一级在线观看| 久久草.com| 国产精品视频二区三区| 国产女主播一区| 一本一道久久a久久综合精品| 在线视频二区| 亚洲日本一区二区| 免费在线黄网站| 新版的欧美在线视频| 欧美性xxxxxxx| 四季av一区二区| 国产电影一区| 亚洲国产精品va在线| 无码熟妇人妻av| 日韩在线观看| 欧美极品少妇xxxxⅹ免费视频 | 亚洲成人影院麻豆| 亚洲三级在线免费| 国产免费一区二区视频| 在线成人av观看| 欧美日本在线一区| 黑森林av导航| 精品国产91| 久久91亚洲精品中文字幕奶水| 久久免费视频精品| 久久久久久久波多野高潮日日| 国产精品三级网站| 亚洲伦理在线观看| 国产欧美日韩亚州综合 | 亚洲欧美va天堂人熟伦| 91综合在线| 欧美极品美女视频网站在线观看免费| 麻豆精品久久久久久久99蜜桃| 秋霞av亚洲一区二区三| 电影午夜精品一区二区三区| 青青青草网站免费视频在线观看| 亚洲国产精品国自产拍av| 久久精品在线免费视频| 都市激情亚洲一区| 日韩欧美亚洲国产精品字幕久久久| 国产一线在线观看| 99成人超碰| 欧美在线观看一区二区三区| 国产精品国产三级国产普通话对白| caoporm超碰国产精品| 一本色道久久综合亚洲精品婷婷| 538在线视频| 在线不卡一区二区| 欧美老熟妇乱大交xxxxx| 久久久久蜜桃| 国产精品久久不能| 色久视频在线播放| 亚洲一区二区在线免费观看视频| 亚洲免费看av| 久久99高清| 午夜精品久久17c| 国产精品亚洲欧美在线播放| 久久久久国产精品人| 大伊香蕉精品视频在线| 日韩欧美一级| 日韩中文字幕在线观看| 免费看污视频的网站| 不卡免费追剧大全电视剧网站| 黄色www在线观看| 国产福利一区二区三区在线播放| 日韩精品在线视频观看| 日产欧产va高清| 国产成人精品午夜视频免费| 亚洲一区二区三区涩| 日韩免费电影| 日韩精品免费在线播放| 国产精品30p| 国产成人av网站| 伊人久久在线观看| 99精品视频在线免费播放| 中文字幕精品在线| 国产一级精品毛片| 国产亚洲欧美在线| 日韩久久一级片| 亚洲区小说区图片区qvod按摩| 久久久久久久影院| 三级在线观看网站| 亚洲h动漫在线| 国产激情视频网站| 久久福利影视| 日本欧美色综合网站免费| 丝袜美腿诱惑一区二区三区| 精品亚洲一区二区| 极品国产91在线网站| 久久久久久久久久久黄色 | 亚洲一区bb| 久久人体av| 另类色图亚洲色图| 国产成人精品一区二区无码呦| 亚洲免费观看高清完整版在线观看熊 | 亚洲色图av在线| 特级西西444www高清大视频| 国产欧美精品区一区二区三区| 国产精品无码av无码| 日韩理论电影| 91中文在线视频| 欧美性爽视频| 日韩电影中文字幕av| 91视频免费网址| 日本一区二区三区四区在线视频 | 天天操夜夜操视频| 国产日产欧美精品一区二区三区| 青青草av网站| 亚洲最大黄网| 国产欧美欧洲| 欧美日韩美女| 久久影视免费观看| 欧美一级片免费| 91黄色小视频| 欧美亚洲日本在线| 成人精品视频一区二区三区尤物| koreanbj精品视频一区| 日本道不卡免费一区| 3d动漫精品啪啪一区二区三区免费| 丁香花高清在线观看完整版| 亚洲人成网站免费播放| 国产乱子伦精品无码码专区| 婷婷六月综合亚洲| 亚洲精品天堂网| 成人精品小蝌蚪| 亚洲一级免费在线观看| 国产综合自拍| 日韩欧美亚洲区| 日本免费精品| 日av在线播放中文不卡| 成人免费网址| 国产一区二区三区视频免费| 国产黄色一区二区| 欧美在线|欧美| 麻豆亚洲av熟女国产一区二| 国产午夜精品久久久久久久 | 亚洲欧洲日产国码无码久久99| 日韩国产专区| 久久天天狠狠| 亚洲国产视频二区| 国产精品一区二区三区久久| 91福利在线免费| 超碰日本道色综合久久综合 | 大型av综合网站| 国产精品亚洲激情| 亚洲天堂手机| 久久99亚洲热视| av资源网站在线观看| 日韩av在线一区二区| 99热这里只有精品66| 欧美色倩网站大全免费| 成年免费在线观看| 亚洲男人的天堂网| 人妻无码一区二区三区免费| www.欧美精品一二区| 无码国产精品久久一区免费| 美日韩一区二区| 四虎永久在线精品无码视频| 激情欧美一区| 日韩一级特黄毛片| 91成人国产| 亚洲欧洲在线一区| 欧美日韩在线观看视频小说| 久久久久网址| 欧美尿孔扩张虐视频| 99re国产视频| 成人污污视频| 成人免费看片视频| 亚洲一区二区三区四区| 欧美中文字幕视频| 成年人黄色大片在线| 久久久久成人网| 欧美一卡二卡| 久久久久久久香蕉网| 日本天码aⅴ片在线电影网站| 久久躁狠狠躁夜夜爽| 午夜激情在线观看| 色偷偷噜噜噜亚洲男人的天堂| 精彩国产在线| 一区二区三区视频观看| 国产中文字幕在线| 国产亚洲aⅴaaaaaa毛片| 免费一级在线观看| 亚洲人在线视频| 岛国大片在线观看| 夜夜嗨av一区二区三区四区| av中文在线| 播播国产欧美激情| av片在线观看永久免费| 欧美成人中文字幕在线| 色爱综合区网| 性欧美xxxx| 玛雅亚洲电影| 国产精品亚洲欧美导航| 91精品国产一区二区在线观看| 成人免费观看a| 亚洲精品一区在线| 久久精品美女| 成人一级毛片| 日本三日本三级少妇三级66| 欧美午夜免费影院| 精品欧美一区免费观看α√| 日韩综合小视频| av亚洲天堂网| 成人免费视频一区二区| 国产精品815.cc红桃| 国产精品国产三级国产三级人妇| 侵犯稚嫩小箩莉h文系列小说| 亚洲综合激情另类小说区| 国产精品7777777| 欧美性xxxxxxxx| 国产国语亲子伦亲子| 精品亚洲国产视频| 麻豆网在线观看| 久久久免费av| 澳门av一区二区三区| 91最新国产视频| 在线看成人短视频| 中文字幕一区二区三区四区五区人 | 亚洲欧洲激情在线| av网站网址在线观看| 88国产精品欧美一区二区三区| av高清一区| 国产精品一区视频网站| 色婷婷热久久| 内射国产内射夫妻免费频道| 蜜桃精品视频在线观看| 久久人妻一区二区| 国产精品国产三级国产| 欧美啪啪小视频| 欧美一区二区三区系列电影| 天堂a中文在线| 欧美刺激性大交免费视频| 在线高清av| 国产超碰91| 99免费精品| 黄色片视频在线免费观看| 国产一区二区三区在线观看精品 | 你懂的在线播放| 欧美成人手机在线| free欧美| 国产在线精品一区二区三区》| 香港欧美日韩三级黄色一级电影网站| 人体内射精一区二区三区| 久久成人精品无人区| 动漫精品一区二区三区| 樱花草国产18久久久久| 国产精品传媒在线观看| wwwwww欧美| 黄瓜视频成人app免费| 91亚洲精品在线| 国产成人影院| 日本a在线天堂| 蜜臀av一区二区在线免费观看 | 亚洲 日韩 国产第一区| 亚洲激情女人| 天天操夜夜操很很操| 国产精品色哟哟| 黄色片免费观看视频| 精品国产成人在线影院| 黄a在线观看| 国产裸体写真av一区二区 | 亚洲欧洲第一视频| 黄频免费在线观看| 超碰97在线资源| 女主播福利一区| 久久精品无码一区二区三区毛片| 国产欧美日韩另类一区| 日韩精品一区二区亚洲av| 亚洲精品在线三区| 牛牛在线精品视频| 翡翠波斯猫1977年美国| 亚洲成人最新网站| 91女神在线观看| 国产精品伦一区二区三级视频| 国产精华7777777| 亚洲天堂色网站| 偷拍视频一区二区三区| 欧美激情视频一区二区三区| 久久国产精品久久久久久电车| 亚洲av成人无码一二三在线观看| 亚洲综合激情小说| 人妻少妇一区二区三区| 久久久噜久噜久久综合| 国产精品自在线拍| 国产精品久久中文字幕| 成人黄色在线网站| 国产网友自拍视频| 亚洲韩国日本中文字幕| 国产中文在线播放| 美国av一区二区三区| 久久久久久黄| 99国产精品无码| 91精品国产入口在线| av网址在线| 狠狠色伊人亚洲综合网站色| 久久国产66| 黄色片网站在线播放| 91精品国产综合久久小美女| 亚洲丝袜一区| 国产视频在线观看一区| 亚洲欧美卡通另类91av| 国产一二三四五区| 欧美日韩一区二区三区免费看| 亚洲精品承认| 国产成人免费观看| 亚洲综合二区| 青青青视频在线免费观看| 欧美一区二区三区色| 川上优av中文字幕一区二区| 欧美日韩大片一区二区三区| 麻豆精品精品国产自在97香蕉| 国产高潮流白浆| 亚洲国产精品久久91精品| 桃花岛tv亚洲品质| 看全色黄大色大片| 99国产欧美久久久精品| 最新国产中文字幕| 久久6精品影院| 国产一区网站| 26uuu国产| 日本精品一区二区三区高清 | 777777777亚洲妇女| 人人狠狠综合久久亚洲婷婷| 女同性αv亚洲女同志| 色哦色哦哦色天天综合| 在线免费观看的av| 欧美日韩精品一区| 国产一区二区在线观看免费| 国产精品久久久久久久久久久久久久久久久 | 欧美日韩视频精品二区| 国产日产欧美精品| 亚洲久久成人| 日韩精品一区二区三区在线视频| 亚洲国产天堂久久国产91| 成人国产网站| 久久久久久久久久久99| ...av二区三区久久精品| 欧美成熟毛茸茸| 国产高清精品一区|