精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

機器學習 | 從0開始大模型之模型DPO訓練

人工智能 機器學習
DPO 訓練器對數據集的格式有具體的要求,包括三個部分:提示(prompt):提示的格式為:prompt: 文本;選中(chosen):選中文本的格式為:chosen: 文本;拒絕(rejected):拒絕選中文本的格式為:rejected: 文本。

1、為什么需要DPO

Rafailov等人在2023年發表了一篇論文《Direct Preference Optimization: Your Language Model is Secretly a Reward Model》,該論文提出了一種新的訓練方法,稱為直接偏好優化(DPO),該論文介紹:

雖然大規模無監督語言模型 (LM) 可以學習廣泛的世界知識和一些推理技能,但由于其訓練完全無監督,因此很難精確控制其行為。  
現有的獲得這種可控性的方法是收集模型生成相對質量的人類標簽,并微調無監督語言模型以符合這些偏好,通常使用從人類反饋中進行強化學習 (RLHF)。  
然而,RLHF 是一個復雜且通常不穩定的過程,首先要擬合一個反映人類偏好的獎勵模型,然后使用強化學習微調大型無監督語言模型以最大化這個估計的獎勵,而不會偏離原始模型太遠。  
在該論文中,利用獎勵函數和最優策略之間的映射來表明,這個受約束的獎勵最大化問題可以通過一個階段的策略訓練進行精確優化,本質上是解決人類偏好數據的分類問題。  
由此產生的算法,稱之為直接偏好優化 (DPO),穩定、高效且計算量小,無需擬合獎勵模型、在微調期間從 LM 中采樣或執行重大超參數調整。

由此可見,DPO 主要解決RLHF不穩定的問題,直接使用人類偏好數據訓練模型。

2、DPO的訓練原理

DPO 的訓練原理如下圖所示(出自原論文):

DPODPO

主要包括兩個步驟:

  • 數據收集:收集一個偏好數據集,其中包含給定提示的生成結果的正負選擇對;
  • 優化:直接最大化 DPO 損失的對數似然函數,該損失函數是偏好數據集上的交叉熵損失和模型生成結果的對數似然性之間的加權平均值;

具體公式推導可以參考這篇博客:https://www.cnblogs.com/lemonzhang/p/17910358.html。

3、DPO的代碼實現

3.1 收集數據

DPO 訓練器對數據集的格式有具體的要求,包括三個部分:

  • 提示(prompt):提示的格式為:prompt: 文本;
  • 選中(chosen):選中文本的格式為:chosen: 文本;
  • 拒絕(rejected):拒絕選中文本的格式為:rejected: 文本;
  • 示例:
{
    "id": 0,
    "prompt": "最近,馬其頓流行歌手托瑟·普羅埃斯基在一場巡回展覽中被紀念。",
    "chosen": "\"最近,馬其頓流行歌手托斯·普羅埃斯基在一場展覽中被人們銘記。\" 讓我幫你理解。這意味著他們舉辦了一場特別的展示(我們稱之為展覽),以幫助人們記住馬其頓這個地方的歌手托斯·普羅埃斯基有多特別。這有點像翻看你的相冊來回憶快樂時光,但規模更大,更專注于他成名后的工作和生活。",
    "rejected": "哦!你想知道這句話的意思嗎?好的,讓我告訴你!??\n\n所以,“Son d?nem”在英語中意思是“Last period”。而“Makedon”在英語中是“Macedonian”。而“pop ?ark?c?s?”在英語中意思是“pop singer”!??\n\n所以,句子“Son d?nem Makedon pop ?ark?c?s? Tose Proeski gezer sergide an?l?yor”的意思是“Last period Macedonian pop singer Tose Proeski正在舞臺上表演?!??\n\n希望這有幫助,小伙伴!??"
}

DPO的數據可以搜索huggingface的DPO數據集,地址為:https://huggingface.co/datasets?sort=trending&search=dpo 。

比如 https://huggingface.co/datasets/Anthropic/hh-rlhf 的數據集如下:

hh-rlhfhh-rlhf

3.2 TRL

引入 TRL 庫,支持 DPO 訓練器,訓練樣例代碼:

training_args = DPOConfig(
    beta=0.1,
)
dpo_trainer = DPOTrainer(
    model,
    ref_model,
    args=training_args,
    train_dataset=train_dataset,
    tokenizer=tokenizer,  # for visual language models, use tokenizer=processor instead
)
dpo_trainer.train()
dpo_trainer.save_model()

如上訓練默認是保存 safetensors 格式的模型,如果想保存 pytorch 格式的模型, 可以改為如下代碼:

training_args = DPOConfig(
    beta=0.1,
    save_safetensors=False, // 設置為False,改為保存為pytorch格式的模型   
)
dpo_trainer = DPOTrainer(
    model,
    ref_model,
    args=training_args,
    train_dataset=train_dataset,
    tokenizer=tokenizer,  # for visual language models, use tokenizer=processor instead
)
dpo_trainer.train()
dpo_trainer.save_model(
    output_dir=f"./out/dpo_sft_xxx.pth"
)

3.3 訓練

Transformer的代碼和前面的一樣,可以參考預訓練的代碼,如下就是初始化模型和 DPO 訓練的代碼:

def init_model():
    from transformers import AutoTokenizer, AutoModelForCausalLM, AutoConfig
    AutoConfig.register(MyPretrainConfig.model_type, MyPretrainConfig)
    AutoModelForCausalLM.register(MyPretrainConfig, Transformer)
    my_tokenizer = "./my_tokenizer"
    tokenizer = AutoTokenizer.from_pretrained(my_tokenizer, trust_remote_code=True, use_fast=False)
    ckp = f'./out/full_sft_{lm_config.dim}.pth.{batch_size}'

    print(f"lmconfigs: {lm_config.to_json_string()}")
    with open(ckp_path + "/config.json", 'w') as f:
        f.write(lm_config.to_json_string())

    # 拷貝文件到指定的目錄
    for item in os.listdir(my_tokenizer):
        src_item = os.path.join(my_tokenizer, item)
        if os.path.isfile(src_item):
            dest_item = os.path.join(ckp_path, item)
            shutil.copy2(src_item, dest_item)
    shutil.copy2(ckp, ckp_path + "/pytorch_model.bin")

    model = AutoModelForCausalLM.from_pretrained(ckp_path, trust_remote_code=True).to(device)

    def count_parameters(model):
        return sum(p.numel() for p in model.parameters() if p.requires_grad)
    
    tokenizer.pad_token = tokenizer.eos_token
    print(f'LLM總參數量:{count_parameters(model) / 1e6:.3f} 百萬')
    model = model.to(device)
    return model, tokenizer

if __name__ == '__main__':
    lm_config = MyPretrainConfig()
    max_seq_len = lm_config.max_seq_len
    out_dir = 'out'
    epochs = 20             # 訓練輪數
    batch_size = 8          # batch_size
    learning_rate = 1e-5    # 學習率
    device = 'cuda:0'       # or cpu
    dtype = 'bfloat16'

    ckp_path = f'./my_checkpoint'
    if not os.path.exists(ckp_path):
        os.makedirs(ckp_path)

    model, tokenizer = init_model()
    training_config = DPOConfig(
        output_dir=ckp_path,
        per_device_train_batch_size=1,
        remove_unused_columns=False,
        report_to="none",
        save_steps=2000,
        learning_rate=learning_rate,
        save_safetensors=False,
    )

    # 下載訓練圖片:https://huggingface.co/datasets/jingyaogong/minimind_dataset/tree/main/dpo
    dataset_path = f'{basepath}/dpo_train_data.json'
    train_dataset = load_dataset('json', data_files=dataset_path)
    dpo_trainer = DPOTrainer(
        model,
        ref_model=None,
        args=training_config,
        beta=0.1,
        train_dataset=train_dataset['train'],
        tokenizer=tokenizer,
        max_length=512,
        max_prompt_length=512
    )
    dpo_trainer.train()
    dpo_trainer.save_model(
        output_dir=f"./out/dpo_sft_{lm_config.dim}.pth.{batch_size}"
    )
  • init_model 函數主要是注冊和加載預訓練的模型,并將 tokeinzer 的一些配置文件都拷貝到 ./my_checkpoint 方便后續的訓練;
  • DPOConfig 主要是配置訓練的一些參數,比如保存的模型路徑、學習率等;
  • DPOTrainer 是 DPO 訓練器,將模型載入后調用 train 進行訓練,參數說明如下:

model: transformers.PreTrainedModel,預訓練模型

ref_model: transformers.PreTrainedModel,參考模型

args: DPOConfig,用于訓練的 DPO 配置參數

train_dataset: datasets.Dataset,訓練數據集

tokenizer: transformers.PreTrainedTokenizerBase,分詞器

model_init: 用于訓練的模型初始化器,如果指定為 None,則將使用默認的模型初始化器

optimizer: torch.optim.Optimizer,優化器

callbacks: 用于訓練的回調函數

  • dpo_trainer.save_model 保存模型,傳入 output_dir 參數,指定保存的模型路徑

4、總結

至此,訓練系列按照步驟寫完了,現在總結訓練流程:

模型訓練流程模型訓練流程

不過驗證下來,訓練效果不是很好,這個也是從0開始訓練會遇到的問題,因此接下來會完成幾個事項:

  • 模型迭代優化,解決訓練效果不好的問題;
  • 模型嘗試新的模型和解決方案,解決訓練速度問題;
  • 加入多模態訓練集,將語言大模型改進為多模態模型;
  • 最后將整個模型訓練完成后,將代碼開源。
責任編輯:武曉燕 來源: 周末程序猿
相關推薦

2024-12-26 00:46:25

機器學習LoRA訓練

2024-11-04 00:24:56

2025-04-03 15:40:41

機器學習大模型DeepSeek

2024-12-09 00:00:10

2024-09-09 07:46:16

2025-04-03 15:46:53

2025-01-10 08:38:10

2020-08-10 15:05:02

機器學習人工智能計算機

2017-03-24 15:58:46

互聯網

2022-03-28 09:00:00

SQL數據庫機器學習

2023-06-24 19:59:40

2022-09-06 08:00:00

機器學習金融數據科學

2017-07-11 10:19:24

淺層模型機器學習優化算法

2018-11-07 09:00:00

機器學習模型Amazon Sage

2024-06-24 08:25:00

2017-10-09 12:55:29

機器學習KaggleStacking

2020-10-13 07:00:00

機器學習人工智能

2018-05-16 09:26:41

基線模型機器學習AI

2018-03-09 09:00:00

前端JavaScript機器學習

2022-09-19 15:37:51

人工智能機器學習大數據
點贊
收藏

51CTO技術棧公眾號

www.国产二区| 亚洲精品日产aⅴ| 国产一级二级在线观看| 高清不卡av| 久久久综合视频| 国产精品久久久久久久久久尿| 级毛片内射视频| 在线不卡一区| 亚洲.国产.中文慕字在线| 精品国产一区二区三区免费 | 国产二级片在线观看| 欧美xxx.com| 美女视频免费一区| 欧美极品美女电影一区| 少妇精品一区二区三区| 伊人久久大香伊蕉在人线观看热v 伊人久久大香线蕉综合影院首页 伊人久久大香 | 国产成人调教视频在线观看| 欧美日韩另类一区| 国产3p露脸普通话对白| av资源网在线观看| 成人三级在线视频| 国产美女被下药99| 毛片视频网站在线观看| 国产精品久久观看| 亚洲老头老太hd| 深爱五月综合网| 爱情电影社保片一区| 亚洲欧美偷拍卡通变态| 欧美日韩一区在线观看视频| 国产丝袜视频在线观看| 三级在线观看一区二区| 欧美激情一区二区三区在线视频观看 | 大奶在线精品| 欧美日韩久久一区| 日本毛片在线免费观看| 大片免费在线看视频| 久久久久国产成人精品亚洲午夜 | 视频二区欧美| 欧美在线免费视屏| 日韩小视频在线播放| 免费成人黄色| 久久久久久久综合色一本| av日韩免费电影| 中文字幕精品一区二| 99精品国产99久久久久久福利| 菠萝蜜影院一区二区免费| 国产高潮呻吟久久| 免费成人三级| 精品国产乱码久久久久久蜜臀| 日韩爱爱小视频| 欧美天堂视频| 精品欧美一区二区三区| 9色porny| av网站在线看| 最新成人av在线| 亚洲欧美国产精品桃花| 九色在线观看视频| 久久色.com| 国产免费高清一区| 亚洲精品97久久中文字幕| 韩日av一区二区| 国产精品免费久久久久久| 亚洲不卡在线视频| 先锋a资源在线看亚洲| 久久人人97超碰精品888| 中文字幕求饶的少妇| 色777狠狠狠综合伊人| 中文国产成人精品久久一| 午夜时刻免费入口| 精品产国自在拍| 亚洲少妇激情视频| 最近中文字幕免费| 色婷婷一区二区三区| 色婷婷综合成人| 肉色超薄丝袜脚交69xx图片| 午夜影院欧美| 欧美精品在线网站| 久久久久久久黄色| 9久re热视频在线精品| 91精品国产色综合久久不卡98口| 国产又爽又黄的视频| 香蕉成人久久| 国产精品扒开腿做| 91免费视频播放| 国产高清不卡一区二区| 国产精品久久亚洲| 欧洲一区av| 国产精品丝袜一区| 青青草综合在线| 日本一本在线免费福利| 激情av一区二区| 欧美激情精品久久久久久小说| 国产一区一一区高清不卡| 51午夜精品国产| 亚洲色图欧美另类| 亚洲婷婷伊人| 最近2019中文字幕mv免费看 | 欧洲杯足球赛直播| 久久天天躁狠狠躁夜夜爽蜜月| 激情视频在线播放| 久久成人国产| 96精品久久久久中文字幕| 免费观看黄色一级视频| 国产色产综合色产在线视频| 欧美日韩一级在线| 第一福利在线视频| 欧美性xxxxxxxx| 日韩精品xxx| 亚洲人挤奶视频| 久久亚洲精品一区二区| 国产精品suv一区二区三区| 美女一区二区视频| 韩国成人一区| 麻豆tv在线| 欧美色另类天堂2015| 在线不卡一区二区三区| 美女扒开腿让男人桶爽久久动漫| 在线日韩日本国产亚洲| 国产在线一二区| 免费人成在线不卡| 精品国产_亚洲人成在线| 欧美69xxxx| 欧美性猛交xxxx乱大交| 一级网站在线观看| 欧美色婷婷久久99精品红桃| 久久久欧美一区二区| 中文字幕一区二区免费| 99久久久国产精品免费蜜臀| 欧美h视频在线观看| 国产日韩另类视频一区| 亚洲电影天堂av | 郴州新闻综合频道在线直播| 国内精品在线一区| 国产高清视频免费观看| 国产精品久久久久影院| 成人一级片网站| 成人自拍在线| 久久久精品在线| 中文在线字幕av| 久久久99精品免费观看不卡| 久久久久免费看黄a片app| 日韩一区二区三区精品| www.欧美精品| 中文在线字幕av| 国产午夜精品美女毛片视频| 中文字幕无码精品亚洲35| 8x国产一区二区三区精品推荐| www.久久久久| 夜夜爽8888| 中文一区在线播放| 三级在线视频观看| 国产成人一区| 国产成人午夜视频网址| 免费福利在线视频| 欧美视频二区36p| 欲求不满的岳中文字幕| 亚洲黄色影片| 精品国产区在线| 天堂√8在线中文| 亚洲精品动漫100p| 国产精品自拍99| 91在线视频在线| 国产深夜男女无套内射| 加勒比色老久久爱综合网| 欧美激情中文网| 国产91久久久| 午夜在线成人av| 精品人妻伦一二三区久| 99在线精品视频在线观看| 国语精品中文字幕| 欧美特黄aaaaaaaa大片| 一区国产精品视频| 一区二区三区午夜| 亚洲男人的天堂在线观看| 日韩久久久久久久久久久| 韩国精品一区二区三区| 国产伦精品一区二区三毛| 美女露胸视频在线观看| 亚洲老司机av| 一级特黄录像免费看| 亚洲精品五月天| 奇米777第四色| 爽好久久久欧美精品| 一级日韩一区在线观看| 欧美三级一区| 81精品国产乱码久久久久久| 黄色片在线免费看| 欧美狂野另类xxxxoooo| 久久久一区二区三区四区| 91影院在线观看| 午夜免费高清视频| 你懂的国产精品| 精品日韩美女| 久久青草视频| 久久天天躁夜夜躁狠狠躁2022| 亚洲毛片在线播放| 色先锋资源久久综合| 我要看黄色一级片| 99久久精品免费看| 色一情一区二区| 国产专区一区| 欧美一区二区在线| 日韩区一区二| 国产精品国产福利国产秒拍 | 久久久中文字幕| 国际av在线| 欧美一卡在线观看| 亚洲毛片一区二区三区| 一区二区三区视频在线观看| 一卡二卡三卡四卡| 国产一区二区三区观看| 日本成人在线免费视频| 欧美精品1区| 亚洲精品中文字幕在线| 国产精品主播在线观看| 国产精品视频久久久| f2c人成在线观看免费视频| 深夜福利国产精品| 亚州男人的天堂| 欧美一级高清片| 在线视频精品免费| 亚洲不卡在线观看| 美女视频久久久| 久久欧美一区二区| zjzjzjzjzj亚洲女人| 久草精品在线观看| 久热免费在线观看| 亚洲精选成人| 91免费看`日韩一区二区| 国产精品欧美日韩一区二区| 在线观看电影av| 永久免费看mv网站入口亚洲| 日本免费不卡视频| 日韩一级片在线播放| 亚洲视频一区二区三区四区| 懂色av中文一区二区三区天美| avtt天堂在线| 国产精品国产三级国产普通话蜜臀 | 51xx午夜影福利| 第九色区aⅴ天堂久久香| 蜜桃在线一区二区三区精品| 久草精品视频| 国产精品日韩二区| 久久国产精品美女| 成人综合国产精品| 欧美在线一级| 国产精品综合不卡av| 成人开心激情| 热99在线视频| 丝袜美腿诱惑一区二区三区| 青青草成人在线| 一个人www视频在线免费观看| 久久久女人电视剧免费播放下载 | 中文字幕日韩经典| 在线观看一区二区视频| 色老头在线视频| 在线亚洲精品福利网址导航| 中文字幕一区二区人妻电影| 色婷婷亚洲精品| 波多野结衣电影在线播放| 91久久奴性调教| 艳妇乳肉豪妇荡乳av无码福利| 91久久线看在观草草青青 | 一本色道精品久久一区二区三区| 免费看欧美一级片| 最新日韩欧美| 国内自拍在线观看| 久久电影一区| 污视频免费在线观看网站| 美国av一区二区| 日韩av在线中文| 精品亚洲国内自在自线福利| www.51色.com| 欧美三级在线看| 亚洲欧美激情一区| 亚洲77777| 影音先锋中文字幕一区| 青青草视频国产| 亚洲黄色三级| 欧美 国产 小说 另类| 日韩和的一区二区| mm131亚洲精品| 国产一区二区三区精品欧美日韩一区二区三区| 日韩在线不卡一区| 国产精品99精品久久免费| 91视频在线免费| 久久久综合视频| 婷婷社区五月天| 亚洲午夜影视影院在线观看| 可以在线观看av的网站| 91福利国产成人精品照片| 一区二区三区黄色片| 亚洲成人激情在线| 成人精品一区二区三区校园激情| 日韩中文在线中文网在线观看| 国产区在线看| 97国产一区二区精品久久呦 | 亚洲专区**| 久久精品国产精品青草色艺| 精品不卡一区| 国产青草视频在线观看| 久久一本综合频道| 中文字幕avav| 国产亚洲婷婷免费| av激情在线观看| 黑人巨大精品欧美一区二区免费| 亚洲在线免费观看视频| 亚洲国产女人aaa毛片在线| 91视频在线观看| 久久久久久久97| jvid一区二区三区| 国产日产精品一区二区三区四区 | 狠狠色丁香婷婷综合| 国产+高潮+白浆+无码| 国产精品久久久久久亚洲毛片 | 日韩理论片中文av| 天天干天天干天天| 欧美不卡一二三| 91大神在线网站| 欧美在线视频一区| 91大神精品| 亚洲一区二区精品在线观看| 一区二区三区四区五区精品视频| 亚洲va在线va天堂va偷拍| 久久欧美一区二区| 日韩成人免费在线视频| 欧美一区三区二区| 国产在线视频网址| 69av成年福利视频| 一区二区日韩| 一区二区精品免费视频| 免费久久99精品国产自在现线| 岛国大片在线免费观看| 国产精品久久久久久亚洲伦| 久久精品无码av| 亚洲激情中文字幕| av网址在线看| 国产精品美女久久| 国产欧美一区二区精品久久久| 久久99中文字幕| 成人短视频下载| 久久精品亚洲无码| 日韩三级精品电影久久久| 老司机99精品99| 国产日本欧美一区二区三区在线| 狠狠做深爱婷婷综合一区| 国产日产欧美视频| 91亚洲国产成人精品一区二三| 久久精品99国产精| 欧美一三区三区四区免费在线看| 天堂资源在线中文| 国产精品永久在线| 日韩精品欧美激情一区二区| 国产精品亚洲二区在线观看| 91毛片在线观看| 国产毛片aaa| 亚洲欧美在线免费观看| 中文字幕乱码中文乱码51精品| 久久国产一区| 免费日韩av片| 中文字幕高清视频| 欧美综合久久久| 1769在线观看| 成人av.网址在线网站| 91一区二区三区四区| 欧美激情国内自拍| 亚洲精品成人天堂一二三| www.污视频| 午夜美女久久久久爽久久| 久久精品色播| 激情综合在线观看| 国产亚洲精品中文字幕| 这里只有精品国产| www.日韩av.com| 清纯唯美激情亚洲| 青青草视频在线免费播放| 久久视频一区二区| 一级做a爱片性色毛片| 欧美裸身视频免费观看| 精品自拍偷拍| 天天操天天爱天天爽| 亚洲精品欧美专区| 四虎永久在线观看| 国产精品wwwwww| 亚洲蜜桃视频| 催眠调教后宫乱淫校园| 色综合天天综合给合国产| 日韩欧美小视频| 成人在线视频电影| 免费日韩av片| 暗呦丨小u女国产精品| 精品动漫一区二区三区在线观看| 久久sese| 久久久久亚洲av无码专区喷水| 丁香啪啪综合成人亚洲小说| 天堂中文在线网| 爽爽爽爽爽爽爽成人免费观看| 韩国三级成人在线| 成年人观看网站| 亚洲视频在线一区|