精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

K2-Thinking背后的原生INT4量化的思考

發布于 2025-11-11 07:24
瀏覽
0收藏

個人認為,在LLM的語境下,量化并非傳統的犧牲精度換速度,原生的低比特量化在param-scaling + test-time-scaling的持續演進下,會成為大模型訓練的一個標準范式。

量化一直是LLM領域一個非常火熱的研究方向,篇幅有限這一次就不嘗試對相關的基礎知識進行詳細展開了。

如果文章中出現你不太了解的概念,可以嘗試問問Kimi:)

這里簡單列一下后續主要會涉及到的一些縮寫和基礎解釋:

  • PTQ:訓練后量化,將訓練完成的模型權重通過特定的量化方法量化到對應的精度。
  • QAT:訓練感知量化,在訓練階段就讓模型提前適應某部分的權重/激活被量化到更低比特數下產生的精度損失。通常來說相比PTQ流程更加復雜但精度損失更小。
  • W(n)A(m):模型權重(weight)使用n-bit,激活(activation)使用m-bit。

本文主要聊與這次K2-Thinking相關的W4A16 QAT相關的問題,對W8A8,W4A4等在訓練&Prefill場景實現加速的量化方案留待之后討論。

低比特量化對低延遲推理的重要性

當前,大模型推理根據優化目標的不同,存在兩個不同的trade-off方向(也就是大家看到的kimi turbo和非turbo)

  • 高吞吐(面向成本):以推理集群的吞吐量為主要目標,盡可能提高gpu計算資源的利用率。通常使用較大的并發數(batch size)使得推理過程中的GEMM(矩陣乘)達到compute bound。
  • 低延遲(面向用戶體驗):以用戶側的輸出延遲(TPOT)為主要目標,盡可能降低單次推理的延遲。通常會使用相對小的并發度以及小規模的單實例節點數。

Kimi-K2的MoE部分稀疏度達到的1/48,在我們當前的硬件環境下,decoding 階段 MoE 算子幾乎必然 memory-bound,權重的大小就決定了MoE的計算效率。

與此同時,模型權重占用的顯存越小,單個實例需要的最小GPU數量越少,多卡通信延遲越低,在GPU高速互聯(如nvlink)能夠全部覆蓋時還會進一步陡降。

而K2原始FP8權重的1TB大小,剛好是很多GPU單機高速互聯”裝不下“的邊界。因此,在decoding階段,W4A16量化的推理延遲是要顯著優于W8A8的。

為什么需要QAT而不是使用PTQ

事實上,在Kimi-K2發表后,開源社區中誕生了很多基于K2的low-bit PTQ模型,我們也了解到一些K2推理服務的供應商同樣采用了FP4等量化方式來加速推理。

我們內部也驗證了在4-bit這個精度下,PTQ可以做到在我們能觀測到的所有benchmark上近乎無損。

然而,當進入K2-Thinking的研發階段,這個結論被推翻了:隨著模型的生成長度變得越來越長,我們原本的block FP8推理精度和INT4 PTQ的結果呈現出了統計意義上的明顯差別。

一個可能的原因是隨著decoding計算次數的增加,量化產生的誤差被不斷累積了。

此外,我們還觀察到了INT4 PTQ的另一個劣勢:依賴校準集。

我們測試了一些在訓練集中出現過,但未在PTQ校準集中出現的case,發現FP8模型可以很好地背誦下這些訓練數據,而量化后的模型則會換一種表述方式甚至遺忘相關的內容。

關于這個問題目前的大致猜測是當moe非常稀疏時,盡管我們已經用了較大規模的校準數據,仍然會有部分專家只被路由到了少量token,進而導致這些專家的量化結果產生明顯的“失真”。

綜上,我們認為K2-Thinking如果想要實現低延遲的推理,使用量化損失更小的QAT方案勢在必行。

K2-Thinking的QAT方案

很遺憾,K2-Thinking的INT4 QAT并不存在一些社交媒體上期待的“天頂星科技”,因為我們發現相對基礎的QAT方案就可以比較輕松的做到相對baseline的無損,這也是為什么我們并沒有在技術博客花太多筆墨來詳細介紹相關的技術方案。

本次我們weight-only QAT采用的就是常見的fake-quantization+STE(直通估計器)方案。

保存原始的bf16權重,通過量化-反量化得到模擬精度損失后的權重,進行矩陣乘,反向傳播時再將梯度直接更新到原始的bf16中。

相比方法上的創新,Infra team在完整支持這個feature過程中的迭代效率可能更讓我自豪。

由于RL訓練才是Thinking模型的重頭戲,所以我們在發現PTQ不work之后,需要快速完整打通: (1) QAT訓練邏輯 (2) int4的完整推理流程 (3) QAT得到的模型到int4推理模型的轉換 (4) RL rollout部署方案 (5) colocate更新訓推框架中int4權重。

而以上這些在短短幾天的級別就基本正確運轉起來,不得不感嘆一下我司的人才密度和跨團隊協作的高效率。

經過算法同學的多方驗證,以上這套QAT方案可以在整個post-training階段不改變任何訓練配方,不增加任何訓練token數的前提下實現近乎無損 。具體反映在loss有非常非常微小的gap,而benchmark分數保持一致。

不少人忽略的一點:INT4 QAT在RL階段的好處

這里算是我寫這篇文章的最大動機。

目前外界對于我們Native INT4的分析其實都挺正確的,但似乎比較少人想過它對我們RL訓練本身的價值。

熟悉RL的同學應該都知道,當前主流RL rollout環節有一個繞不過去的痛點就是長尾問題(大部分rollout已經結束,只有少量請求依然在持續生成的階段,此時推理效率非常低下)。

而此時的負載情況和我們前面說的低延遲推理是高度一致的。

因此,當我們的模型在rollout階段已經是INT4的精度,長尾階段的效率可以得到顯著提升。

當然,INT4 QAT由于需要進行QDQ(量化-反量化),會輕微增加訓練耗時,但比起rollout效率提升,這個增量要小得多。

目前從端到端來看,相比baseline方案,int4精度下一個完整的RL iteration耗時可以有大約10%-20%的減少,視不同場景的負載情況變化。

此外,Quantized RL本身也是最近備受關注的topic。QeRL表明在rollout階段引入量化噪聲可以讓learning-rate更加魯棒,以及增大trace的多樣性。

而我們也觀測到,在INT4精度下,推理框架和訓練框架forward結果的差異性(Discrepancy)會明顯比bf16更小。

目前的猜測是由于INT4表示的空間更小,不同gemm kernel下accumulator累加順序不一致導致的“大數加小數”的截斷誤差得到了緩解。這些變化和特性具體會給RL帶來哪些新的可能性目前還并沒有研究透徹,我們之后還會進一步探究。

一些額外的思考

事實上,K2-Thinking并不是第一個原生low-bit量化的主流模型。gpt-oss此前就已經在post-training階段使用了mxfp4的QAT,它的文檔中只提到這是為了將120b模型裝到單卡中。

對此,我有一些猜測(純屬個人臆測,不對準確性負責):gpt-oss不是openai的主力模型,他們沒必要為了“單卡裝得下”這一個feature專門設計一個QAT流程;更有可能的是,這套QAT流程已經廣泛應用到了他們的主力模型中,在開源的gpt-oss上沿用這套方案反而是更自然的操作。而他們這么做的主要動機,就是比我們更早看到了前面提到的各種low-bit QAT的潛在收益。

至于我們這一次為什么選擇INT4而非MXFP4/NVFP4等更“先進”的格式,也確實如大家所說,是為了更好地支持非Blackwell架構硬件。

在我們的quant scale粒度(1x32)下,INT4的表示能力是不輸給以上兩種FP4格式的(4bit總共就16個數,scale的靈活度也非常重要)。而且基于INT4的W4A16 MoE,業界已經有了相當高效的Marlin kernel實現。因此,單純看W4A16這個場景,無論是從適配性、精度還是效率上,INT4都可以認為是一個足夠優秀的選擇了。

不過顯然,W4A16并不是我們對量化探索的終點,我相信W4A8甚至W4A4都是足夠具備可行性的方案。

隨著國外&國產芯片的不斷演進,對MXFP4等新一代低精度算子提供硬件支持的GPU會越來越多,我們的量化方案當然也會隨之不斷演進。

最后

真正想總結的已經寫在文章的最開始了。希望這次K2-Thinking的發布能向大家傳遞出一個信息:在LLM時代,“量化”是一個可以跟“SOTA”和“Frontier”放在一起,甚至加快模型達到“Frontier”速度的概念。

本文轉載自??NLP工作站??,作者:NLP工作站

已于2025-11-11 07:24:12修改
收藏
回復
舉報
回復
相關推薦
色婷婷av久久久久久久| 成人av影院在线| 久久精品电影网站| 国产精品91av| xx欧美视频| 成人欧美一区二区三区小说 | 午夜亚洲福利老司机| 精品欧美一区二区久久久伦| 国产三级理论片| 欧美在线免费| 亚洲视频在线观看视频| 亚洲五月激情网| 345成人影院| 亚洲卡通动漫在线| 日韩高清国产精品| 亚洲国产精品久久人人爱潘金莲| 欧美精品尤物在线观看| 日韩欧美一区二区三区在线| 少妇性饥渴无码a区免费| 国产丝袜在线| 久久女同性恋中文字幕| 亚洲综合日韩中文字幕v在线| 国产日产精品一区二区三区的介绍| 澳门成人av网| 一区二区三区在线免费视频| 日韩高清dvd| 天堂在线观看免费视频| 美女免费视频一区二区| 91高清视频免费观看| 印度午夜性春猛xxx交| 欧美日韩性在线观看| 亚洲国产高潮在线观看| 日韩成人av免费| 日韩在线短视频| 欧美午夜视频在线观看| 欧美一区二区视频在线播放| 日本高清在线观看wwwww色| 91在线小视频| 成人av片网址| av 一区二区三区| 久久精品噜噜噜成人av农村| 国产精品ⅴa在线观看h| 日韩欧美三级视频| 激情亚洲网站| 欧美日本啪啪无遮挡网站| 欧美性生交大片| 欧美激情另类| 深夜福利91大全| 国产精品成人在线视频| av中文一区| 中文字幕欧美日韩| 色欲狠狠躁天天躁无码中文字幕| 欧洲亚洲精品久久久久| 在线观看日韩国产| 青青草精品视频在线观看| 日本高清不卡一区二区三区视频| 国产精品萝li| 一区二区三视频| 免费高清完整在线观看| 1000精品久久久久久久久| 伊人av成人| 日韩黄色影院| 亚洲天堂免费在线观看视频| 2025韩国大尺度电影| 麻豆网站在线看| 亚洲美腿欧美偷拍| 久久久天堂国产精品| 欧洲成人综合网| 亚洲午夜羞羞片| www一区二区www免费| 亚洲人体视频| 欧美三级电影在线看| 欧美成人乱码一二三四区免费| heyzo在线欧美播放| 亚洲成人av一区二区| 国产日产欧美视频| 国产韩日精品| 欧美一区二区三区免费大片| 日本女人性视频| 秋霞蜜臀av久久电影网免费| 亚洲精品国产suv| 久久婷婷五月综合| 亚洲天天综合| 国产91对白在线播放| 最新中文字幕免费| 国产精品自拍毛片| 欧美成人第一区| 午夜在线视频播放| 亚洲一区在线电影| 亚洲成人福利在线观看| 精品久久国产一区| 精品爽片免费看久久| 男女全黄做爰文章| 妖精视频成人观看www| 国产精品18久久久久久首页狼| 日韩在线视频免费播放| 老鸭窝91久久精品色噜噜导演| 欧美xxxx做受欧美.88| 无码 人妻 在线 视频| 91精品久久久久久久蜜月| 性视频1819p久久| 怡春院在线视频| 成人精品电影在线观看| 日本视频一区在线观看| 欧美videos另类精品| 日本精品免费观看高清观看| 色黄视频免费看| 国产精品欧美日韩一区| 欧美成人精品在线视频| 中文字幕av第一页| 成人免费高清视频在线观看| 夜夜春亚洲嫩草影视日日摸夜夜添夜| h视频在线观看免费| 一区二区三区成人在线视频| av五月天在线| 天天躁日日躁狠狠躁欧美巨大小说| 亚洲成人免费网站| 日本美女bbw| 国产精品久久777777毛茸茸| 成人亚洲综合色就1024| 国产一级二级三级在线观看| 婷婷亚洲久悠悠色悠在线播放| 欧美 日本 亚洲| 玖玖玖电影综合影院| 中文字幕日韩av综合精品| 中文字幕在线观看视频网站| 国产成人综合亚洲网站| 在线视频一区观看| 欧美aaa大片视频一二区| 亚洲国产欧美日韩精品| 视频国产一区二区| 蜜桃精品在线观看| 日韩亚洲欧美精品| 在线观看特色大片免费视频| 精品对白一区国产伦| 成年人午夜剧场| 精品一区二区三区在线视频| 亚洲国产精品一区二区第一页 | 久久人人超碰精品| 国产日本在线播放| www.国产精品一区| 欧美精品一区二区免费| 国产人妖一区二区三区| 综合色中文字幕| 999久久久精品视频| 欧美激情偷拍自拍| 成人性生交大片免费看视频直播| 精品国产伦一区二区三区| 国产欧美一区二区精品久导航| 天天做天天爱天天高潮| 欧美最新精品| 三级精品视频久久久久| 在线播放亚洲精品| 国产精品嫩草影院av蜜臀| 亚洲黄色av网址| 日韩一区三区| 91在线免费看网站| 色在线视频网| 亚洲国产精品推荐| 天天综合网久久综合网| 久久久午夜精品| 天天操天天摸天天爽| 日韩毛片视频| 91九色蝌蚪成人| xxxx在线视频| 亚洲欧美在线播放| 人妻中文字幕一区二区三区| 中文字幕一区在线观看| 国产高清av片| 亚洲国产专区| 日韩wuma| 韩国一区二区三区视频| 欧美激情精品久久久久久蜜臀 | 日韩片之四级片| 久草福利资源在线观看| av在线不卡电影| 久热免费在线观看| 色婷婷色综合| 福利视频久久| 欧美精品日日操| 日韩一区二区三区国产| 亚洲欧美黄色片| 欧美性猛交xxxx黑人| 欧美日韩中文字幕视频| 国产寡妇亲子伦一区二区| 欧妇女乱妇女乱视频| 要久久爱电视剧全集完整观看 | 电影久久久久久| 久久精品电影网| 香蕉视频黄在线观看| 欧美日韩在线播| 国产亚洲欧美久久久久| 久久久久久久久久久久久夜| 毛毛毛毛毛毛毛片123| 国产精品亚洲综合久久| 亚洲国产精品一区在线观看不卡| 神马久久午夜| 在线视频亚洲欧美| 人妻精品一区二区三区| 一个色综合av| 国产精品18在线| 99久久婷婷国产综合精品| 黄色国产小视频| 亚洲小说欧美另类社区| 亚洲精品国产精品国自产| 国产三级精品三级在线观看国产| 欧美精品生活片| 国产精品免费播放| 亚洲第一中文字幕| 亚洲综合五月天婷婷丁香| 天天色 色综合| 国产在线一卡二卡| 国产日韩欧美综合在线| 少妇熟女视频一区二区三区 | 国产精品久久久久aaaa| 91porn在线| 国内精品久久久久影院色| 国产精品视频一区二区三区四区五区| 亚洲第一论坛sis| 97人人澡人人爽| 亚洲图片小说区| 国产精品 欧美在线| 成人观看网址| 欧美激情精品久久久久久久变态| 天堂av资源在线| 欧美一级理论片| 中文字幕码精品视频网站| 欧美午夜无遮挡| 国产又大又黄又粗| 亚洲国产乱码最新视频| 国产少妇在线观看| 日韩一区欧美一区| 国产美女久久久久久| 欧美国产亚洲另类动漫| 午夜精产品一区二区在线观看的| 精品写真视频在线观看| www.xxx亚洲| 首页国产欧美久久| 亚洲欧洲日产国码无码久久99| jiujiure精品视频播放| 免费精品视频一区| 日韩欧美影院| 欧美性大战久久久久| 久久99高清| 欧美久久久久久一卡四| 蜜桃a∨噜噜一区二区三区| 免费国产一区| 精品一区二区三| 亚洲国产精品视频一区| 四虎成人av| 大桥未久一区二区三区| 午夜亚洲福利| 国产真人做爰毛片视频直播| 亚洲国产网站| 无码无遮挡又大又爽又黄的视频| 9999国产精品| 大桥未久一区二区三区| 国产一区二区三区四区老人| 妞干网在线视频观看| 99成人免费视频| 欧美日韩在线免费播放| 美女一区二区久久| 免费观看黄网站| 不卡免费追剧大全电视剧网站| 制服丝袜综合网| 国内成人精品2018免费看| 中文字幕第六页| 国产成人免费视频| 亚洲成人日韩在线| 欧美激情在线免费观看| 黄色精品视频在线观看| 亚洲专区一二三| 99久久久久久久久| 欧美日本乱大交xxxxx| 性生活视频软件| 日韩精品在线观看一区二区| 成人在线免费电影| 米奇精品一区二区三区在线观看| 啊v视频在线| 大量国产精品视频| 国产自产自拍视频在线观看| 国产精品直播网红| 欧洲大片精品免费永久看nba| 国产精品久久在线观看| 97久久精品一区二区三区的观看方式| 日本国产高清不卡| 亚洲高清影院| 久久99九九| 日韩免费视频| 18禁网站免费无遮挡无码中文 | 欧美国产日韩一区二区在线观看| а天堂8中文最新版在线官网| 亚洲精品电影在线| a中文在线播放| 欧美精品www| 韩国精品视频在线观看 | 国产最新免费视频| 黑人巨大精品欧美一区| 精品久久久久久中文字幕人妻最新| 国产激情精品久久久第一区二区| 久久成年人网站| 久久老女人爱爱| 国产一级理论片| 欧美猛男男办公室激情| 亚洲 小说区 图片区 都市| 久久精品一偷一偷国产| 一区二区三区短视频| 91pron在线| 国产一区不卡| 日韩中字在线观看| 黄一区二区三区| 欧美另类z0zx974| 午夜精品视频一区| www.97av| 日韩视频免费大全中文字幕| 3d欧美精品动漫xxxx无尽| 精品日韩欧美| 亚洲性感美女99在线| 中文字幕在线视频一区二区| 中文字幕不卡一区| 亚洲熟妇无码乱子av电影| 欧美va亚洲va| 99在线播放| 亚洲aaa激情| 91高清一区| 毛片毛片毛片毛| 亚洲国产精品成人综合| 国产www在线| 日韩精品一区二区视频| 91www在线| 国产aⅴ精品一区二区三区黄| 久久久精品国产**网站| 日韩欧美一区二区在线观看 | 在线日韩成人| 艳母动漫在线免费观看| 美国欧美日韩国产在线播放| 右手影院亚洲欧美| 欧美日韩在线视频一区| 色综合视频在线| 国产69精品久久久| 电影一区二区在线观看| 真人抽搐一进一出视频| 成人精品免费视频| 日本午夜小视频| 亚洲国产福利在线| 特黄毛片在线观看| 欧美另类网站| 日韩中文字幕亚洲一区二区va在线| 91网址在线观看精品| 国产精品色一区二区三区| 国产精品传媒在线观看| 中文字幕精品在线视频| 国产香蕉久久| 黄瓜视频免费观看在线观看www| 国产一区二区三区久久久久久久久 | 国产欧美黑人| 99久久综合狠狠综合久久止| 国内精品久久久久国产盗摄免费观看完整版| 一女被多男玩喷潮视频| 91色porny蝌蚪| 伊人成年综合网| 最近2019免费中文字幕视频三 | 中文字幕一区二区精品区| 亚洲精品无码久久久久久久| 亚洲成a人片在线观看中文| 性xxxx视频| 国产精品久久久久久久av大片| 豆花视频一区二区| 免费观看精品视频| 国产精品私房写真福利视频| 国产精品免费无遮挡| 欧美巨乳在线观看| 日韩在线黄色| 高潮一区二区三区| 亚洲一区二区三区视频在线| 视频一区二区三区国产| 国产精品久在线观看| 亚洲人metart人体| 超碰97在线资源站| 欧美影院一区二区三区| 日韩激情av| 五月天亚洲综合小说网| 国产成人免费视频网站高清观看视频 | 欧美—级高清免费播放| 精品日产乱码久久久久久仙踪林| 欧美在线观看视频免费| www精品美女久久久tv| 国产又粗又猛又爽| 97在线视频一区| 亚洲成av人片乱码色午夜| 中文字幕 日本| 7777精品伊人久久久大香线蕉的| 三级外国片在线观看视频| 春色成人在线视频| 毛片av中文字幕一区二区| 国产无遮挡免费视频| 色青青草原桃花久久综合| 欧美一区二区三区红桃小说| 国产又大又黄又粗又爽| 亚洲已满18点击进入久久|