精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

Kimi發布最新模型k1.5,技術報告也干貨滿滿

發布于 2025-1-22 13:33
瀏覽
0收藏

大家好,我是劉聰NLP。

就在今晚,Kimi發布了最新模型k1.5,先來看榜單效果,簡直爆炸

在長推理上,k1.5在數學能力上,無論是純文本還是視覺多模態上,都遠超openai的o1模型;在codeforces與其持平,LiveCode上略差,但相比于QVQ和QWQ有較大的優勢。

Kimi發布最新模型k1.5,技術報告也干貨滿滿-AI.x社區

在短推理上,k1.5的數學能力真實遙遙領先,無論是gpt-4o還是claude3.5-sonnet都遠不如k1.5,尤其是在AIME榜單上,k1.5有60.8,而最高的deepseek-v3只有39.2,堪稱斷層式碾壓。這個應該得益于他們的Long2short RL技術(后面介紹);并且k1.5在其他場景中大多都跟頂尖的開源和閉源模型打成平手。有一說一,這次kimi的新模型有點東西的哈。

Kimi發布最新模型k1.5,技術報告也干貨滿滿-AI.x社區

最重要的是kimi發了技術報告《Kimi k1.5: Scaling Reinforcement Learning with Large Language Models》,看了一下,25頁,干貨滿滿,他家針對強化學習,真的是做了好多工作,無論是data、strategy、還是Infra。

Paper link: https://github.com/MoonshotAI/Kimi-k1.5/blob/main/Kimi_k1.5.pdf

先簡單看了一下,讓我印象最深刻的就是RL數據收集部分、Long2short 部分、以及Infra 的Hybrid Deployment Framework部分。

Long2short部分,這個應該k1.5模型可以在短推理上取得超優效果的核心。自從o1出來之后,我們都知道,增加test time可以提高模型的推理效果,大大提高模型智能,這也是為什么o1出來后,又帶起一波LLM新浪潮的原因。

long-cot雖然優秀,但在推理階段需要消耗大量的token預算,以及時間,那么是不是可以將long-cot模型的推理先驗知識轉移到short-cot模型中呢?k1.5嘗試了多種方法:

  • 模型合并:之前都是通過模型合并來提高模型的泛化性,k1.5發現long-cot模型和short-cot模型也可以合并,從而提高輸出效率,中和輸出內容,并且無需訓練。
  • 最短拒絕采樣:對于模型輸出結果進行n次采樣(實驗中n=8),選擇最短的正確結果進行模型微調。
  • DPO:與最短拒絕采樣類似,利用long-cot模型生成多個輸出結果,將最短的正確輸出作為正樣本,而較長的響應(包括:錯誤的長輸出、比所選正樣本長 1.5 倍的正確長輸出)作為負樣本,通過構造的正負樣本進行DPO偏好學習。
  • Long2Short的強化學習:在標準的強化學習訓練階段之后,選擇一個在性能和輸出效率之間達到最佳平衡的模型作為基礎模型,并進行單獨的long-cot到short-cot的強化學習訓練階段。在這一階段,采用長度懲罰,進一步懲罰超出期望長度,但保證模型仍然可能正確的輸出答案。

Long2short效果如下所示,在提高輸出效率的同時,大幅度提高模型效果。

Kimi發布最新模型k1.5,技術報告也干貨滿滿-AI.x社區

RL數據收集部分,我覺得kimi真的說到的了我的心趴上。畢竟在做LLM之后,我很長一段時間都在做數據相關的工作。而RL階段依然也不例外,強化學習階段數據的質量和多樣性,不僅能夠引導模型進行穩健的推理,還能減少 reward hacking 和overfitting的風險。

高質量的RL提示數據的三要素:

  • 覆蓋范圍-廣:提示數據應涵蓋廣泛的學科領域,如科學、技術、工程和數學(STEM)、代碼和一般推理,增強模型在不同領域的普適性。這里k1.5開發了一個標簽系統,對提示按照領域和學科進行分類,確保不同學科領域的數據平衡。
  • 難度分布-均:提示數據應包含易、中、難不同難度級別的問題,讓模型逐步學習,防止模型過擬合到一些特定復雜的問題上。這里k1.5通過模型自身的推理能力,來評估每個prompt的難度,就是對相同的prompt利用相對較高溫度生成10次答案,然后計算答案的通過率,通過率越低,代表prompt難度越高。
  • 可評估性-準:提示數據應允許驗證器進行客觀且可靠的評估,確保模型結果是基于正確的推理過程,而不是簡單模式或隨機猜測。這里k1.5利用沒有任何鏈式推理步驟的情況下預測可能的答案,如果在N次嘗試內,均預測正確答案,認為該prompt容易產生reward hacking。

在k1.5的報告中,寫了大段infra的內容,看完之后受益匪淺,因為我本身不是做infra的,所以對infra的很多細節,之前并不是很了解,看完k1.5的內容之后,真的學到很多。

Kimi發布最新模型k1.5,技術報告也干貨滿滿-AI.x社區

其中,Hybrid Deployment Framework部分,有一些工程上的東西的。RL階段主要有以下幾個階段:

  • 訓練階段:Megatron(Shoeybi et al. 2020)和 vLLM(Kwon et al. 2023)分別在獨立的容器中運行,這些容器被一個名為檢查點引擎(checkpoint-engine)的外殼進程封裝(詳見第 2.6.3 節)。Megatron 首先啟動訓練過程。訓練完成后,Megatron 會釋放 GPU 內存,并準備將當前權重傳遞給 vLLM。
  • 訓練階段:Megatron和 vLLM分別在獨立的容器中運行,容器稱為checkpoint-engine的外殼進程封裝。Megatron 首先啟動訓練過程,訓練完成后,Megatron 會釋放 GPU 內存,并準備將當前權重傳遞給 vLLM。
  • 推理階段:在 Megatron 釋放內存后,vLLM 以虛擬模型權重啟動,并通過 Mooncake 從 Megatron 接收最新的權重更新。完成回放后,checkpoint-engine會停止所有 vLLM 進程。
  • 后續訓練階段:釋放 vLLM 所占用的內存后,Megatron 重新加載內存并開始下一輪訓練。

而現有框架很難同時滿足以下所有特性:

  • 復雜的并行策略:Megatron 和 vLLM 可能采用不同的并行策略。Megatron 中分布在多個節點上的訓練權重很難與 vLLM 共享。
  • 最小化閑置 GPU 資源:對于在線策略強化學習,SGLang和 vLLM可能會在訓練過程中保留一些 GPU,導致訓練 GPU 的閑置。如何共享相同的設備,將訓練變得更加高效。
  • 動態擴展能力:通過增加推理節點的數量,同時保持訓練過程不變,可以顯著加速訓練。如何高效利用閑置的 GPU 節點。

如圖下圖所示,k1.5在Megatron 和 vLLM 的基礎上實現了這種混合部署框架,將訓練階段切換到推理階段的時間縮短到不到一分鐘,而從推理階段切換到訓練階段大約只需要十秒。

Kimi發布最新模型k1.5,技術報告也干貨滿滿-AI.x社區

我看完整個paper,是學到不少,還有一些其他的內容,后面有機會在繼續給大家分享吧,期待其他infra大佬和rl大佬來解讀。

最后說一下,k1.5 剛剛發布,現在正在進行灰度上線,也許你馬上成為那個幸運兒,可以提前體驗到k1.5的整體效果。我反正是十分期待ing。

Kimi發布最新模型k1.5,技術報告也干貨滿滿-AI.x社區

本文轉載自??NLP工作站??,作者: 劉聰NLP ????

收藏
回復
舉報
回復
相關推薦
操91在线视频| 6080日韩午夜伦伦午夜伦| 久久免费视频1| 日韩一级片中文字幕| 欧美好骚综合网| 精品久久久久久久人人人人传媒 | 好吊色欧美一区二区三区四区 | 欧美成人综合一区| 国产一区二区三区四区视频 | 日韩有码免费视频| www.久久ai| 激情不卡一区二区三区视频在线| 亚洲免费观看在线观看| 久久久水蜜桃| 性猛交富婆╳xxx乱大交天津| 亚洲专区一区| 欧美区二区三区| 蜜臀av免费观看| 欧美xxxx做受欧美88bbw| 久久精品亚洲精品国产欧美| 亚洲综合日韩中文字幕v在线| 丁香社区五月天| 91久久亚洲| 美女少妇精品视频| 蜜桃av免费观看| 久草精品视频| 日韩一区二区在线看片| 国产又大又黄又粗的视频| 欧美大胆的人体xxxx| 亚洲天堂免费看| 欧美激情第六页| 丰满岳乱妇国产精品一区| 久久激情五月激情| 国产精品成人av性教育| 久久露脸国语精品国产91| 亚洲成人tv| 色妞一区二区三区| 亚洲最大成人网站| 欧美爱爱网站| 精品1区2区在线观看| 国产精品久久久久久久av福利| 欧美日韩视频免费观看| 午夜精品久久久久久久久| 日本三级中文字幕在线观看| 日韩理伦片在线| 日本一区二区成人| 日韩伦理一区二区三区av在线| 天天干,夜夜操| 国产99久久久国产精品潘金 | www国产精品| 欧美videossexotv100| 色网站在线视频| 免费在线观看av| 国产色产综合色产在线视频| 久久资源亚洲| 青青草视频在线免费观看| 91在线看国产| 久久涩涩网站| 男人的天堂在线| 久久久精品免费网站| 欧美人与物videos另类| 你懂的视频在线| 国产日韩一级二级三级| 日韩精品久久久毛片一区二区| 日本福利午夜视频在线| 久久久久久久久久久99999| 欧美一区三区二区在线观看| 国产粉嫩一区二区三区在线观看| 国产欧美日韩另类一区| 伊人久久大香线蕉精品 | 久久久久久av| wwwxxx亚洲| 日日摸夜夜添夜夜添亚洲女人| 国产精品6699| 国产特级aaaaaa大片| 国产91丝袜在线18| 久久精品99| porn亚洲| 一区二区三区在线影院| www国产精品内射老熟女| 免费福利视频一区二区三区| 精品视频一区 二区 三区| 中文 日韩 欧美| 91国内精品| 亚洲欧洲在线看| 亚洲AV成人无码精电影在线| 韩日成人在线| 亚洲欧美自拍一区| 香蕉久久久久久久| 欧美日韩一区自拍 | 色成人综合网| 欧美mv日韩mv国产网站app| 日韩 中文字幕| 青青草原综合久久大伊人精品 | 日韩av综合在线| 日本在线不卡视频一二三区| 亚洲综合在线中文字幕| 久草在线青青草| 一区二区在线观看视频在线观看| 麻豆中文字幕在线观看| 九色在线观看视频| 日韩美女视频一区二区 | 免费观看亚洲视频| 手机av免费观看| 久久精品国产色蜜蜜麻豆| 国产精品亲子乱子伦xxxx裸| 视频在线99| 亚洲1卡2卡3卡4卡乱码精品| 亚洲国产精品一区二区久久恐怖片| 久久久久久久久久久久久国产精品 | 不卡视频一二三| 伊人婷婷久久| 在线成人av观看| 91精品国产综合久久精品麻豆 | 欧美亚洲在线日韩| 97精品视频在线播放| 97在线视频人妻无码| 26uuu精品一区二区| 潘金莲一级淫片aaaaa免费看| 中文字幕乱码在线播放| 日韩精品一区二区三区老鸭窝| 国产黄片一区二区三区| 亚洲欧洲一区| 99视频在线播放| 国产一二区在线| 欧美探花视频资源| 自拍偷拍视频亚洲| 亚洲欧美bt| 精品1区2区| 青春草在线免费视频| 这里只有精品视频在线观看| 91成人精品一区二区| 美女黄色成人网| 精品麻豆av| f2c人成在线观看免费视频| 日韩一卡二卡三卡| 午夜国产福利一区二区| 精品在线播放免费| 亚洲视频在线二区| 日韩色淫视频| 中文字幕av一区二区| 青草视频在线观看免费| 成人免费精品视频| 青青草国产免费| 午夜精品在线| 欧美激情一级二级| 黑人精品一区二区三区| 亚洲国产综合在线| 激情五月俺来也| 欧美欧美黄在线二区| 欧美夫妻性视频| 曰批又黄又爽免费视频| 国产精品免费视频一区| 蜜臀av免费观看| 国产精品久久久久久久| 成人av番号网| 成码无人av片在线观看网站| 欧美一区二区播放| 免费毛片在线播放免费| 国产成人av在线影院| 妞干网在线播放| 国产精品欧美大片| 国产91精品久久久久| 欧洲毛片在线| 欧美日韩黄色影视| 欧美卡一卡二卡三| a在线播放不卡| 国产xxxxx在线观看| 欧美综合在线视频观看| 日韩精品一级二级| 欧美性极品少妇| 林心如三级全黄裸体| 精品一区二区在线看| 国产精品美女在线播放| 秋霞影院一区| 欧美一区二区.| 最新国产在线观看| 日韩欧美国产不卡| 精品不卡一区二区| 中文字幕亚洲精品在线观看| 精品人妻一区二区免费| 久久久久国产精品一区二区| 一区二区三区四区免费视频| 午夜视频在线观看精品中文| 91av中文字幕| 在线观看国产原创自拍视频| 日韩欧美电影一二三| 国产日产精品一区二区三区| 国产精品伦理一区二区| 国产精九九网站漫画| 免费在线亚洲欧美| 亚洲一区不卡在线| 国内视频在线精品| 国产精品午夜国产小视频| 丝袜国产在线| 尤物精品国产第一福利三区 | 欧美zozozo| 久久久久久久久久成人| 亚洲精品乱码久久久久久久久| 国产伦精品一区二区三区妓女| 九一九一国产精品| 久久久久狠狠高潮亚洲精品| 自拍偷拍欧美| 午夜精品视频在线观看一区二区| theporn国产在线精品| 国产欧美日韩高清| 国产精品av一区二区三区| 欧美精品一区三区| 91精品国产91久久久久游泳池| 亚洲第一天堂无码专区| 一级黄色小视频| 日韩欧美成人网| 精品无码av在线| 中文字幕一区二区三| 91视频在线网站| 成人免费视频app| 五月天婷婷在线观看视频| 日本在线天堂| 亚洲国产欧美在线| 国产3级在线观看| 久久久国产一区二区三区四区小说| 婷婷中文字幕在线观看| 日韩精品久久理论片| 岛国大片在线播放| 亚洲欧美综合国产精品一区| 亚洲精蜜桃久在线| 国产精品一区二区av日韩在线| 国产日韩欧美精品| 精品一区91| 国产精品中文字幕久久久| 国模套图日韩精品一区二区| 久久久久成人精品| 亚洲小说区图片| 草民午夜欧美限制a级福利片| 成年人免费在线视频| 亚洲人成网站777色婷婷| 无码精品视频一区二区三区| 欧美一级艳片视频免费观看| 91福利免费视频| 欧美性生活久久| 艳妇乳肉豪妇荡乳av无码福利| 欧美性猛xxx| 亚洲国产成人精品激情在线| 亚洲国产视频直播| 国产在线视频99| 亚洲超丰满肉感bbw| 精品一区二区三区四| 一区二区三区四区视频精品免费| 全网免费在线播放视频入口| 综合色中文字幕| 国产美女福利视频| 亚洲欧美日韩国产手机在线| 午夜精品福利在线视频| 亚洲欧美日韩在线| 免费在线观看亚洲| 亚洲电影一级黄| av黄色在线看| 91久久精品国产91性色tv| 亚洲国产精品无码久久久| 亚洲一区二区三区激情| 久久久久香蕉视频| 亚洲一卡二卡三卡四卡| 日韩免费视频网站| 一本大道久久a久久综合婷婷| 久久久成人免费视频| 欧美在线免费视屏| 91麻豆视频在线观看| 欧美一区二区三区在线观看视频| 亚洲精品一区二区三区不卡| 亚洲精品白浆高清久久久久久| 深夜福利在线视频| 亚洲欧洲国产伦综合| 欧美激情视频在线播放| 色综合久久88色综合天天看泰| 国产夫妻在线| 国产精品久久久久久久久久久久久久 | 一区在线播放视频| 久久精品视频免费在线观看| 亚洲成人手机在线| aaa在线视频| 91麻豆精品国产91久久久资源速度| 亚洲大尺度视频| 亚洲精品福利资源站| 91精彩视频在线观看| 九九热精品视频在线播放| 日本黄色免费在线| 成人久久精品视频| 欧美巨大xxxx| 中文字幕久久一区| 亚洲三级网站| 欧美成人福利在线观看| 粉嫩一区二区三区在线看| 国产全是老熟女太爽了| 亚洲欧美国产高清| 久久中文字幕免费| 欧美一二三在线| 欧美女优在线观看| 欧美丰满少妇xxxxx做受| 免费日韩电影| 国产chinese精品一区二区| 久久不见久久见免费视频7| 亚洲五码在线观看视频| 久久资源在线| 高清中文字幕mv的电影| 国产精品久线在线观看| 国产成人愉拍精品久久| 欧美一区二区三区四区高清| 韩国福利在线| 久久人人97超碰精品888| 亚洲精品成a人ⅴ香蕉片| 免费看成人午夜电影| 欧美日韩成人| 国产精品嫩草影院8vv8| 久久久久久久网| 精品少妇久久久久久888优播| 欧美剧情片在线观看| 国产毛片av在线| 97av在线视频免费播放| 91麻豆精品激情在线观看最新 | 午夜久久中文| 国产精品二区三区| 中文精品久久| 国产3p在线播放| 国产日韩欧美不卡| 免费观看一区二区三区毛片| 精品国精品国产尤物美女| 久久黄色美女电影| 国产精品青青在线观看爽香蕉| 亚洲区小说区图片区qvod| www污在线观看| 国产精品乡下勾搭老头1| 中文字幕91视频| 欧美在线不卡视频| 国产福利电影在线| 国产福利视频一区| 亚洲小说图片| 日本黄网站免费| 91蜜桃传媒精品久久久一区二区| 日韩精品视频免费看| 欧美v国产在线一区二区三区| 在线欧美三级| 99www免费人成精品| 欧美不卡高清| 中文在线字幕观看| 亚洲国产裸拍裸体视频在线观看乱了 | 黑人巨大精品欧美黑白配亚洲| 手机av在线不卡| 欧美猛男超大videosgay| 日本福利专区在线观看| 国产欧美日韩专区发布| 手机在线电影一区| 久久久久久久高清| 亚洲视频一区在线观看| 国产美女免费视频| 欧美日韩成人精品| 果冻天美麻豆一区二区国产| 999在线观看视频| 99精品桃花视频在线观看| 你懂的国产在线| 色哟哟网站入口亚洲精品| 久久精品国产福利| 日韩视频一二三| 岛国精品在线观看| 性无码专区无码| 一区二区三区四区视频| 免费成人毛片| 久久男人资源站| 久久久久久97三级| 一级特黄aaaaaa大片| 欧美福利视频在线观看| 亚洲精品一级二级三级| 亚洲色图久久久| 亚洲猫色日本管| 午夜av免费在线观看| 国产精品久久久久久五月尺| 婷婷综合亚洲| 激情综合丁香五月| 欧美日韩一区二区三区四区| gogogogo高清视频在线| 精品国产一区二区三区免费| 老司机午夜免费精品视频 | 天天综合天天综合色| 国产综合视频一区二区三区免费| 成人黄色av播放免费| av不卡在线看| 一级片久久久久| 欧美成人一级视频| 另类中文字幕国产精品| 男人天堂成人网| ww亚洲ww在线观看国产| 国产精品无码白浆高潮| 国语自产精品视频在线看一大j8| 精品国产乱码久久久久久1区2匹| 国产一级片中文字幕| 色一区在线观看| 午夜激情在线| 亚洲mv在线看| 99re视频这里只有精品| 国产精品一品二区三区的使用体验| 97免费在线视频|