精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Hugging Face 推出 GOLD:讓不同模型家族也能做知識(shí)蒸餾

發(fā)布于 2025-11-3 07:24
瀏覽
0收藏

在最近Thinking Machines的新文章(見(jiàn)文末)里指出一種很有用的模型壓縮技術(shù)——在線策略蒸餾(On-Policy Distillation),它通過(guò)從高性能“教師”模型的概率分布中轉(zhuǎn)移知識(shí)來(lái)訓(xùn)練一個(gè)小的“學(xué)生”模型。這使得學(xué)生能夠模仿教師的任務(wù)性能,同時(shí)顯著減少大小和延遲。它讓小模型在特定領(lǐng)域達(dá)到大模型的表現(xiàn),成本卻只有傳統(tǒng)方法的十分之一。

Hugging Face 推出 GOLD:讓不同模型家族也能做知識(shí)蒸餾-AI.x社區(qū)

但這里有一個(gè)知識(shí)蒸餾一直存在的痛點(diǎn):老師和學(xué)生必須用同一套分詞器。這意味著你不能讓 Llama 向 Qwen 學(xué)習(xí),也不能讓 Gemma 向其他模型取經(jīng)。這就好比一個(gè)說(shuō)中文的老師,只能教懂中文的學(xué)生。

Hugging Face 的研究團(tuán)隊(duì)剛剛解決了這個(gè)問(wèn)題。他們提出的 GOLD(General On-Policy Logit Distillation)方法,讓任意兩個(gè)模型之間(即使它們來(lái)自完全不同的模型家族)都能進(jìn)行在線知識(shí)蒸餾,不管它們用的是什么分詞器。

技術(shù)核心

出現(xiàn)這一問(wèn)題的根源在于不對(duì)齊,比如:同一句話"Hugging Face is awesome!",在不同分詞器下會(huì)變成完全不同的 token 序列:

Hugging Face 推出 GOLD:讓不同模型家族也能做知識(shí)蒸餾-AI.x社區(qū)

Tokenizer A:[3, 1, 2] Tokenizer B:[2, 3, 1, 0] 這種不匹配造成兩個(gè)核心問(wèn)題:序列長(zhǎng)度不同,token ID 也不對(duì)應(yīng)。之前的方法,如ULD(Universal Logit Distillation)只能簡(jiǎn)單截?cái)嗟阶疃涕L(zhǎng)度,丟失信息還容易錯(cuò)位。

Hugging Face 推出 GOLD:讓不同模型家族也能做知識(shí)蒸餾-AI.x社區(qū)

GOLD 通過(guò)三步解決跨分詞器蒸餾:

  1. 增量解碼:同時(shí)解碼教師和學(xué)生模型的 token,獲取各自的概率分布
  2. 文本對(duì)齊:將相同可見(jiàn)文本的片段分組,識(shí)別需要合并的 token 位置
  3. 概率合并:在每組內(nèi)合并相關(guān)概率,通過(guò)對(duì)數(shù)概率求和保持語(yǔ)義完整性

Hugging Face 推出 GOLD:讓不同模型家族也能做知識(shí)蒸餾-AI.x社區(qū)

具體來(lái)說(shuō):

  • 序列對(duì)齊:不再簡(jiǎn)單截?cái)嗟阶疃涕L(zhǎng)度,而是識(shí)別需要合并的 token,通過(guò)對(duì)數(shù)概率求和來(lái)合并語(yǔ)義相關(guān)的片段。這樣"Hugging"和" Face"可以合并成一個(gè)完整的概念。
  • 詞匯對(duì)齊:先找出兩個(gè)分詞器中相同的 token(即使 ID 不同),對(duì)這些 token 使用直接映射;對(duì)無(wú)法匹配的部分,才回退到 ULD 的排序方法。最終損失函數(shù)結(jié)合兩部分:L_GOLD = w1 * L_GKD + w2 * L_ULD

Hugging Face 推出 GOLD:讓不同模型家族也能做知識(shí)蒸餾-AI.x社區(qū)

這樣即使 token 邊界不同,也能保證在完整輸出上計(jì)算損失函數(shù)。

實(shí)驗(yàn)效果

數(shù)學(xué)任務(wù)跨家族蒸餾:用 Qwen 教師模型指導(dǎo) LLaMA 學(xué)生模型,在數(shù)學(xué)任務(wù)上表現(xiàn)良好,甚至超過(guò)了 GRPO 方法。

Hugging Face 推出 GOLD:讓不同模型家族也能做知識(shí)蒸餾-AI.x社區(qū)

個(gè)性化(領(lǐng)域)蒸餾:先用 SFT 提升模型的代碼能力,然后用蒸餾恢復(fù) IFEval 分?jǐn)?shù)。這驗(yàn)證了前面提到的"專業(yè)能力與通用能力平衡"問(wèn)題的解決方案。

Hugging Face 推出 GOLD:讓不同模型家族也能做知識(shí)蒸餾-AI.x社區(qū)

同時(shí)需要指出的是,分詞器相似度確實(shí)影響效果,但仍然強(qiáng)于強(qiáng)化學(xué)習(xí)。Llama-3.2-1B 與 Qwen3-4B 的相似度 0.64,最終成績(jī) 0.42;Gemma-3-1b 相似度只有 0.063,表現(xiàn)相應(yīng)較差。

Hugging Face 推出 GOLD:讓不同模型家族也能做知識(shí)蒸餾-AI.x社區(qū)

使用方法

GOLD 已經(jīng)集成到 TRL 庫(kù)中,使用相當(dāng)簡(jiǎn)單:

from trl.experimental.gold import GOLDConfig, GOLDTrainer

trainer = GOLDTrainer(
    model="meta-llama/Llama-3.2-1B-Instruct",
    teacher_model="Qwen/Qwen2.5-0.5B-Instruct",
    args=GOLDConfig(
        output_dir="gold-model", 
        use_uld_loss=True, 
        teacher_tokenizer_name_or_path="Qwen/Qwen2.5-0.5B-Instruct"
    ),
    train_dataset=train_dataset,
)
trainer.train()

更多:https://huggingface.co/docs/trl/main/en/gold_trainer

想要在自己的場(chǎng)景嘗試在線策略知識(shí)蒸餾,官方給出了如下是利用A??ccelerate訓(xùn)練的????(Accelerate是什么?可以閱讀此書(shū):)??配置用例:

  • SFT配置:

accelerate launch \
  --config_file examples/accelerate_configs/multi_gpu.yaml trl/scripts/sft.py \
  --model_name_or_path Qwen/Qwen3-4B-Instruct-2507 \
  --dtype auto \
  --attn_implementation kernels-community/flash-attn \
  --dataset_name open-r1/codeforces-cots \
  --dataset_config solutions_decontaminated \
  --bf16 \
  --gradient_checkpointing \
  --per_device_train_batch_size 1 \
  --gradient_accumulation_steps 32 \
  --learning_rate 1e-5 \
  --num_train_epochs 1 \
  --max_length 16384 \
  --logging_steps 1 \
  --report_to trackio \
  --trackio_project Qwen3-4B-SFT-Codeforces \
  --output_dir data/Qwen3-4B-SFT-Codeforces \
  --push_to_hub \
  --hub_model_id <your-username>/Qwen3-4B-SFT-Codeforces \
  --seed 42 \
  --warmup_ratio 0.05 \
  --lr_scheduler_type cosine_with_min_lr \
  --use_liger_kernel
  • 蒸餾配置:

accelerate launch \
  --config_file examples/accelerate_configs/multi_gpu.yaml trl/experimental/gold/gold.py \
  --model_name_or_path <sft-model> \
  --dtype auto \
  --attn_implementation kernels-community/flash-attn \
  --dataset_name allenai/tulu-3-sft-mixture \
  --dataset_train_split train \
  --bf16 \
  --learning_rate 1e-7 \
  --gradient_checkpointing \
  --per_device_train_batch_size 1 \
  --gradient_accumulation_steps 64 \
  --num_train_epochs 1 \
  --eval_strategy steps \
  --eval_steps 100 \
  --temperature 1.0 \
  --top_p 0.95 \
  --top_k 0 \
  --max_new_tokens 2048 \
  --max_prompt_length 512 \
  --lmbda 0.25 \
  --beta 0.0 \
  --use_uld_loss \
  --use_extended_uld \
  --uld_use_hybrid_loss \
  --uld_crossentropy_weight 0.0 \
  --uld_distillation_weight 1.0 \
  --uld_student_temperature 1.0 \
  --uld_teacher_temperature 1.0 \
  --uld_hybrid_unmatched_weight 1.0 \
  --uld_hybrid_matched_weight 1.0 \
  --teacher_model_name_or_path Qwen/Qwen3-4B-Instruct-2507 \
  --logging_steps 1 \
  --push_to_hub \
  --hub_model_id <your-username>/Qwen3-4B-GKD-Tulu \
  --report_to trackio \
  --trackio_project Qwen3-4B-GKD-Tulu \
  --seed 42 \
  --warmup_ratio 0.05 \
  --lr_scheduler_type cosine_with_min_lr

小結(jié)

這一突破非常有實(shí)用價(jià)值。以前你只能在同一家族內(nèi)做知識(shí)蒸餾,現(xiàn)在可以跨家族進(jìn)行。在線策略蒸餾對(duì)于需要在資源受限環(huán)境下部署高性能模型的場(chǎng)景特別有用,可以用最好的模型作為教師,采各家所長(zhǎng),訓(xùn)練出適合自己場(chǎng)景的模型。

On-Policy Distillation:https://thinkingmachines.ai/blog/on-policy-distillation/

本文轉(zhuǎn)載自??AI工程化??,作者:ully

已于2025-11-3 07:24:13修改
收藏
回復(fù)
舉報(bào)
回復(fù)
相關(guān)推薦
午夜无码国产理论在线| 亚洲中文一区二区| 88久久精品| 精品人伦一区二区三区蜜桃网站| 欧美日韩国产精品一卡| 在线观看不卡的av| 国模 一区 二区 三区| 亚洲成成品网站| 四虎永久在线精品无码视频| 1024视频在线| 99精品视频中文字幕| 国产欧美精品日韩精品| 少妇无码av无码专区在线观看| 性欧美18一19性猛交| 亚洲欧美激情诱惑| 操91在线视频| av男人的天堂av| 精品精品视频| 在线免费不卡视频| 欧美激情视频免费看| 一区二区在线免费看| 日韩美女一级视频| 久久电影网站中文字幕 | 国产精品69久久| 欧美成人免费看| 大片网站久久| 日韩精品免费在线播放| 女人扒开腿免费视频app| 欧美日韩亚洲国产| 色综合天天综合狠狠| 日b视频免费观看| 麻豆av在线免费看| 欧美激情自拍偷拍| 一区二区三区四区在线播放 | 精品久久久久久久无码| 免费av不卡在线观看| 国产精品污网站| 欧美日韩亚洲综合一区二区三区激情在线| 91免费版网站入口| 欧美精品色哟哟| 国产精品99久久| 伊人久久男人天堂| 中文字幕一二三四区| 精品精品国产三级a∨在线| 欧美一区二区三区四区在线观看 | 99re久久| 欧美日韩国产麻豆| 免费无遮挡无码永久视频| 牛牛电影国产一区二区| 一区二区免费看| 国产精品8888| 男女视频在线| 亚洲影院免费观看| 日韩久久久久久久久久久久| av在线免费观看网址| 亚洲精品中文字幕乱码三区 | 国产精品视区| 91超碰caoporn97人人| 国产无人区码熟妇毛片多| 夜夜嗨网站十八久久| 欧美亚洲午夜视频在线观看| 久久久久久久黄色片| 午夜在线观看免费一区| 日本一区二区在线播放| 国产一卡二卡三卡| 美女视频网站久久| 成人网欧美在线视频| 国产丝袜在线视频| 懂色av一区二区夜夜嗨| 成人黄视频免费| 性xxxx视频| 久久精品这里都是精品| 一卡二卡3卡四卡高清精品视频| 色综合久久久久综合一本到桃花网| 国产精品美女久久久久久| 亚洲一区三区| 亚洲大胆人体大胆做受1| 亚洲一区二区三区中文字幕| 五十路熟女丰满大屁股| 成人性生活av| 欧美唯美清纯偷拍| av影片在线播放| 视频福利一区| 精品国产一区二区三区久久狼5月| www.av成人| 亚洲看片免费| 国产日本欧美一区| 欧美视频久久久| 国产日韩欧美综合在线| mm131午夜| 在线天堂资源www在线污| 精品视频在线免费看| 韩国三级hd中文字幕有哪些| 人人精品视频| 色噜噜久久综合伊人一本| 久久久精品一区二区涩爱| 久久激情中文| 3d蒂法精品啪啪一区二区免费| 色欲av伊人久久大香线蕉影院| 国产三级精品视频| 国产aaa免费视频| 中文字幕乱码在线播放| 欧美一区日本一区韩国一区| 国产人妻人伦精品1国产丝袜| 91亚洲人成网污www| 69**夜色精品国产69乱| 国产精品一区二区免费视频| 久久先锋影音av| 黄色污污在线观看| 色天使综合视频| 亚洲第一av网站| 国产美女久久久久久| 久久久久久一区二区| 91免费版黄色| 98在线视频| 黄网动漫久久久| 香蕉视频免费网站| 日韩欧美不卡| 日韩av快播网址| 殴美一级特黄aaaaaa| 亚洲免费观看高清完整版在线观看| 国产又黄又大又粗视频| 6080成人| 另类天堂视频在线观看| 中文字幕人妻互换av久久| 99视频精品全部免费在线| 久久久久亚洲av无码专区喷水| 国产精品亚洲一区二区三区在线观看 | 无码专区aaaaaa免费视频| 精品一区二区三区免费看| 一区二区三区国产在线观看| 国产精品黄色大片| 99麻豆久久久国产精品免费| 免费在线黄网站| 亚洲日本一区二区三区在线| 久久精品中文字幕电影| 亚洲综合精品在线| 国产精品人妖ts系列视频| 免费日韩视频在线观看| 香蕉久久精品日日躁夜夜躁| 91av中文字幕| 欧美91精品久久久久国产性生爱| 亚洲成a人v欧美综合天堂| 国产裸体视频网站| 欧美性久久久| 国产精品一区免费观看| 丁香影院在线| 日韩国产一区三区| 国偷自拍第113页| 成人免费视频视频在线观看免费| 中文字幕在线中文| 91成人福利| 国内揄拍国内精品少妇国语| 婷婷av一区二区三区| 精品久久久一区| 精品黑人一区二区三区观看时间| 羞羞答答国产精品www一本| 欧美日韩国产综合在线| 欧美电影免费观看网站| 亚洲性日韩精品一区二区| 91黑人精品一区二区三区| 欧美韩国一区二区| 精品综合久久久久| 在线观看免费一区二区| 国产91亚洲精品一区二区三区| 黄色在线观看视频网站| 亚洲国产精品va在看黑人| 欧美一级视频免费观看| 久久久精品黄色| 黄色一级片免费的| 欧美日韩视频| 蜜桃传媒视频麻豆第一区免费观看 | 欧美顶级大胆免费视频| 成人黄色生活片| 欧美日韩色网| 亚洲美女视频网| 性高潮视频在线观看| 亚洲婷婷国产精品电影人久久| 亚洲天堂小视频| 亚洲一区二区三区高清| 少妇精品久久久久久久久久| 99久久99九九99九九九| 欧美激情在线观看视频| 精品久久久久一区二区三区| 欧美美女一区二区| 亚洲精品在线观看av| 久久看人人爽人人| 操人视频免费看| 国产欧美一级| 亚洲第一精品区| 窝窝社区一区二区| 成人黄色av免费在线观看| 多野结衣av一区| 色哟哟网站入口亚洲精品| 亚洲女人18毛片水真多| 色94色欧美sute亚洲线路一久| 欧美爱爱免费视频| 久久夜色精品一区| 巨乳女教师的诱惑| 奇米色一区二区| 91精品国产91久久久久麻豆 主演| 噜噜噜久久亚洲精品国产品麻豆| 韩国三级一区| 欧美日韩成人在线观看| 国产黄在线观看免费观看不卡| 日韩亚洲国产中文字幕欧美| 无码视频一区二区三区| 一区二区三区波多野结衣在线观看| 美女又爽又黄视频毛茸茸| 国内精品免费**视频| 国产亚洲天堂网| 欧美一区不卡| 亚洲bbw性色大片| 日韩高清电影免费| 99久久精品免费看国产一区二区三区 | 久久综合五月婷婷| 91免费视频国产| 亚洲成av在线| 欧美洲成人男女午夜视频| 日本理论片午伦夜理片在线观看| 在线视频国产日韩| 欧美女子与性| 亚洲国产精品久久久久| 国产精品久久久久久久久久久久久久久久久久 | 粉嫩绯色av一区二区在线观看| 视色视频在线观看| 日韩二区在线观看| 久久精品免费一区二区| 国精品一区二区三区| 佐佐木明希av| 99视频精品全国免费| 亚洲 国产 日韩 综合一区| 免费视频一区三区| 女同一区二区| 小说区图片区色综合区| 超碰成人免费| av成人观看| 久久gogo国模啪啪裸体| 国产精品免费一区| 偷拍精品精品一区二区三区| 91精品国产色综合久久不卡98口| 羞羞的视频在线观看| 欧美成人免费观看| 97超碰在线公开在线看免费| 久久精品国产免费观看| 超碰在线免费公开| 久久在线免费视频| 在线午夜影院| 久久久久久久电影一区| 久草成色在线| 久久乐国产精品| 草草在线视频| 欧美在线视频网站| 欧美18—19sex性hd| 999久久久亚洲| 久久99国产精品久久久久久久久| 在线a人片免费观看视频| 中文字幕v亚洲ⅴv天堂| 日本中文字幕在线2020| 波霸ol色综合久久| 在线观看午夜av| 欧美激情视频播放| 日韩欧美精品一区二区三区| 国内久久久精品| 欧美人体一区二区三区| 国产精品嫩草影院一区二区| 羞羞视频在线观看一区二区| 91亚洲永久免费精品| 成人台湾亚洲精品一区二区| 国产一区在线免费观看| 国产最新精品| 欧美日韩视频免费在线观看| 欧美va亚洲va日韩∨a综合色| 成人精品视频在线播放| 午夜影院日韩| 91热视频在线观看| 不卡av电影在线播放| 亚洲av无码国产精品麻豆天美| 国产精品婷婷午夜在线观看| 手机av在线看| 午夜久久久影院| 中文无码精品一区二区三区| 欧美一区二区三区日韩视频| 天天干视频在线| 在线观看亚洲区| 三级资源在线| 国产精品1234| 超碰成人在线免费| 天堂精品一区二区三区| 欧美日韩午夜| 黄色av免费在线播放| 国产成人av电影在线观看| 国产人妻大战黑人20p| 一区二区三区四区视频精品免费| 三级视频在线观看| 日韩美女视频在线| 不卡在线视频| 97久久精品在线| 99精品国产九九国产精品| 欧美在线一二三区| 欧美精品首页| 日韩精品你懂的| 91在线小视频| 欧美日韩在线观看成人| 欧美亚州韩日在线看免费版国语版| 懂色av一区二区三区四区| 最近的2019中文字幕免费一页| 色一区二区三区| 不卡日韩av| 综合国产在线| 中文字幕永久有效| 国产日韩欧美高清| 日本一级片免费看| 欧美成人一区二区| 在线看黄色av| 国产99视频在线观看| 欧美调教视频| 日韩成人手机在线| 国产一区二区三区四区五区美女| 无码少妇一区二区| 狠狠躁夜夜躁久久躁别揉| 亚洲爱情岛论坛永久| 久久久电影免费观看完整版| av在线日韩| 日本一区美女| 久久久久99| 人妻体内射精一区二区| 五月婷婷激情综合网| 丰满人妻一区二区三区免费| 久久国产精品免费视频| 成人精品在线| 影音先锋欧美在线| 麻豆视频一区二区| 国产一区二区三区四区在线| 日本久久电影网| 九色视频在线播放| 国产va免费精品高清在线观看| 奇米影视777在线欧美电影观看| 免费的一级黄色片| 国产91精品一区二区麻豆网站| 五月天激情丁香| 欧美一级高清片| 亚洲卡一卡二| 国产a一区二区| 伊人成人网在线看| 国产又粗又长又爽| 舔着乳尖日韩一区| 日本ー区在线视频| 国产va免费精品高清在线| 国产精品免费不| 国产又大又黄又粗又爽| 中文字幕在线视频一区| 国产精品一区二区人人爽| 久久99国产精品自在自在app| 澳门久久精品| 国产黄色一级网站| 国产午夜三级一区二区三| 国产精品欧美综合| 久久天天躁狠狠躁夜夜躁2014| 久久国产精品美女| 国产www免费| 久久综合成人精品亚洲另类欧美 | 色一情一交一乱一区二区三区 | av官网在线观看| 欧美激情一级欧美精品| 色婷婷综合久久久久久| 日韩精品无码一区二区三区免费| 亚洲国产精品成人综合| 国产精品高潮呻吟久久久| 欧美激情久久久| 宅男在线一区| 久久久久xxxx| 一二三区精品福利视频| 日本黄在线观看| 国产免费久久av| 亚洲小说欧美另类婷婷| 中文字幕人妻一区二区| 7777精品伊人久久久大香线蕉经典版下载| 视频在线这里都是精品| 美日韩免费视频| 国产一级精品在线| 国产又黄又爽又色| 日韩在线观看免费av| 狼人精品一区二区三区在线| 国产嫩草在线观看| 亚洲图片自拍偷拍| 成人av电影观看| 国产伦精品一区二区三区四区免费 | 2024国产精品| 国产又粗又黄又爽的视频| 性欧美视频videos6一9| 欧美韩国日本在线观看| 漂亮人妻被黑人久久精品| 欧美日韩成人激情| 末成年女av片一区二区下载| 在线不卡日本| 久久免费午夜影院| 亚洲第一黄色片| 国产日韩精品在线观看| 欧美一级视频|