精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

如何獲取高質量數據進行代碼指令調優?

發布于 2024-9-10 11:56
瀏覽
0收藏

之前很多研究都是生成、發現、過濾高質量的通用指令微調數據,而大家對代碼任務的越發關注,如何構建更好的代碼指令調整數據也越發重要。

下面給大家帶來一篇篩選高質量代碼指令微調數據的文章,主要基于指令的復雜性、回復質量和指令的多樣性三個維度來進行樣本的篩選,同時也指出了當前部分代碼指令數據在HumanEval上存在嚴重的數據泄露。

Paper: https://arxiv.org/abs/2409.03810
Github: https://github.com/banksy23/XCoder
Data-HF: https://huggingface.co/datasets/banksy235/XCoder-80K

數據篩選

如何獲取高質量數據進行代碼指令調優?-AI.x社區

數據篩選過程主要從三個維度(指令復雜性、響應質量和指令多樣性)從數據池中選擇樣本。

對于一個數據池 ,首先使用復雜性評分器 和單元測試模型 來計算每個數據的復雜性評分 和質量評分 。然后,對復雜性評分和質量評分進行歸一化得到 和 ,經過線性組合后,得到整體評分 ,最后將數據池 進行排序,并根據多樣性進行迭代采樣,直到篩選數據集 達到預計大小為止,算法流程如下圖所示。

如何獲取高質量數據進行代碼指令調優?-AI.x社區

  • 復雜性評分器:利用self-instruct方法獲取一個小規模的種子數據 ,然后根據WizardCoder方法進行提示詞 次深度進化,產生 輪次數據,將輪次是為復雜性的度量值,訓練復雜性評分器。
  • 單元測試模型:代碼通過測試用例數量可以作為響應質量的度量,利用6k數據訓練LLaMA3-70B-Base模型來作為單元測試模型。在測試過程中,單元測試模型為每個訓練樣本生成12個測試用例,并執行單元測試程序,將通過的測試用例數量作為質量評分。


如何獲取高質量數據進行代碼指令調優?-AI.x社區


  • 多樣性采樣:迭代式從數據池中選擇樣本 ,當該樣本對數據集 多樣性做成貢獻時,填入數據集 。樣本 的多樣性的貢獻采用 表示,當 為真時,值等于1,被填入數據集 。 為樣本 與 中最近樣本之間的嵌入距離,τ

效果分析

為了構建最佳的代碼指令微調數據集,收集了各種可用的開源數據集,共2.5M樣本。優于數據池過大,經過以下步驟過濾、去重,最終獲得336K樣本。

  • 選取學術工作數據集:Magicoder-OSS-Instruct、Magicoder-Evol-Instruct和Code-Feedback
  • 選擇了長度最長的200K個樣本
  • 選擇復雜性評分最高的200K個樣本
  • 去重

如何獲取高質量數據進行代碼指令調優?-AI.x社區

LLaMA3-8B-Base上采用Xcoder數據進行了實驗,如下表所示,在僅使用40K數據在LiveCodeBench和BigCodeBench上就取得了優于基線的性能;增加到80K數據時,指標持續提高。

如何獲取高質量數據進行代碼指令調優?-AI.x社區

基于LLaMA3-70B-Base在Xcoder數據上訓練了XCoder-70B模型,成為效果最佳的開源的代碼大模型。

如何獲取高質量數據進行代碼指令調優?-AI.x社區

HumanEval上不是最優,是因為Magicoder-Evol-Instruct和Codefuse-Evol-Instruct數據在HumanEval存在數據泄露情況。

如何獲取高質量數據進行代碼指令調優?-AI.x社區

并提出了TLI(測試泄露指標)來量化訓練集對測試集泄露數據程度。主要對兩個數據集生成n-gram片段,并測量每個測試樣本的n-gram片段與所有訓練樣本的n-gram片段之間的重疊情況,其中,測試樣本中的公共n-gram片段個數與測試樣本中的總n-gram片段個數的比率作為測試樣本 與訓練樣本 之間的相似度分數。所有測試集中的相似度分數的平均值作為TLI值,其中,TLI值越高,泄露風險越大。

如何獲取高質量數據進行代碼指令調優?-AI.x社區

消融實驗,三個維度的指標對于最終數據的選擇均有益。

如何獲取高質量數據進行代碼指令調優?-AI.x社區

針對復雜性評估,可以發現雜性評分器 > 指令長度 > 困惑度 > 隨機。

如何獲取高質量數據進行代碼指令調優?-AI.x社區

針對單元測試模型,可以發現訓練的Llama3-70模型由于GPT4模型。

如何獲取高質量數據進行代碼指令調優?-AI.x社區

并且Xcoder選擇10K數據的訓練效果,就堪比隨機選擇160K數據效果。

如何獲取高質量數據進行代碼指令調優?-AI.x社區

同時,分析了XCoder的數據組成,重新評估了不同數據源的優勢和劣勢。

如何獲取高質量數據進行代碼指令調優?-AI.x社區

寫在最后

大模型發展到現在,合成數據的重要性不言而喻,但需要我們注意的一點是,如果一味的增加低質量數據或模式固定的單一數據,除了增加模型訓練時間外,毫無用處,甚至會帶來模型過擬合等負面影響。

因此,大模型在微調過程中,無論是通用任務、還是代碼任務,對數據進行多樣性、質量的選擇是有必要的,也許提分就在這毫厘之間。

本文轉載自 ??NLP工作站??,作者: 劉聰NLP

已于2024-9-10 12:02:50修改
收藏
回復
舉報
回復
相關推薦
亚洲九九精品| 久久九九精品视频| 国产精品水嫩水嫩| 成人国内精品久久久久一区| 青青操视频在线播放| 精品国产一区二区三区不卡蜜臂| 欧美午夜影院在线视频| 亚洲午夜激情| 手机在线精品视频| 另类人妖一区二区av| 欧美激情综合色综合啪啪五月| 青青草成人免费视频| 农村妇女一区二区| 五月激情综合色| 亚洲最新在线| 外国精品视频在线观看 | 在线精品播放av| 三上悠亚 电影| 最新欧美电影| 亚洲一区影音先锋| 亚洲欧洲精品一区| 香蕉久久一区二区三区| 国精产品一区一区三区mba视频| 性色av一区二区三区免费| 亚洲精品天堂网| 全国精品免费看| 日韩一级二级三级| 亚洲一区二区三区四区五区xx| 亚洲丝袜一区| 国产精品久久久久影院老司| 国产欧美日本在线| 99久久免费国产精精品| 久久久久国产精品一区三寸| 欧美激情精品久久久久久变态| 国产又黄又粗的视频| 欧美理伦片在线播放| 日韩欧美一级在线播放| 国产色视频在线播放| videos性欧美另类高清| 亚洲国产欧美另类丝袜| 男女激烈动态图| 午夜不卡视频| 国产日本欧美一区二区| 久久精品aaaaaa毛片| 精品国自产拍在线观看| 精品午夜久久福利影院| 国产精品视频播放| 亚洲无码精品一区二区三区| 久久精品盗摄| 5566日本婷婷色中文字幕97| 国产精品成人久久| 在线欧美一区| 久久久久久久久久久网站| 日日骚一区二区三区| 天天久久综合| 久久精品国产一区二区三区| 波兰性xxxxx极品hd| 成人影视亚洲图片在线| 色系列之999| 91无套直看片红桃在线观看| 欧美日韩水蜜桃| 亚洲亚裔videos黑人hd| 一级特黄曰皮片视频| 经典一区二区| 在线精品国产成人综合| 国产一区二区三区视频播放| 日韩中字在线| 日韩视频免费大全中文字幕| 777777国产7777777| 欧美激情欧美| 九九热这里只有精品免费看| 黄色在线观看免费| 亚洲国产美女| 国产98色在线| 91激情在线观看| 国产精品自拍一区| 国产亚洲二区| 韩国中文免费在线视频| 国产精品盗摄一区二区三区| 国产美女视频免费| www欧美xxxx| 福利一区福利二区微拍刺激| 熟女人妇 成熟妇女系列视频| 亚洲国产尤物| 91精品国产欧美一区二区| 日本久久久久久久久久| 一区二区三区四区在线看| 一本大道亚洲视频| 国产女人18水真多毛片18精品| 欧美日韩精选| 欧美亚洲另类在线| 一区二区三区免费在线| 成人免费高清在线观看| 欧美午夜精品理论片a级大开眼界| 岛国在线大片| 亚洲一区二区三区四区五区黄| 男人靠女人免费视频网站| a成人v在线| 日韩亚洲国产中文字幕欧美| jlzzjizz在线播放观看| 日韩高清欧美| 久久久久久久一区二区三区| wwwwww在线观看| 国产精品影音先锋| 日本不卡久久| 久久国产精品黑丝| 欧美日韩一区二区三区高清| 色婷婷狠狠18禁久久| jlzzjlzz亚洲女人| 97精品一区二区三区| 91亚洲精品国偷拍自产在线观看 | 一本加勒比波多野结衣| 久久精品国产www456c0m| 久久久女女女女999久久| 波多野结衣视频在线看| 成人黄色小视频在线观看| 一区二区三区四区欧美| 亚洲电影观看| 精品国产免费人成电影在线观看四季 | 欧美三级网站| 欧美一区二区在线看| 久久av无码精品人妻系列试探| 欧美国内亚洲| 国产精品欧美一区二区| 日韩一区二区三区中文字幕| 一区二区三区四区中文字幕| www.com黄色片| 午夜精品福利影院| 欧美激情图片区| 国产男女猛烈无遮挡| 国产欧美一区二区三区鸳鸯浴| 奇米影视亚洲色图| 一本色道69色精品综合久久| 久久精视频免费在线久久完整在线看| 中文字幕在线播| 97久久超碰国产精品电影| 狠狠精品干练久久久无码中文字幕| 国产精品99精品一区二区三区∴| 亚洲男人的天堂在线| 香蕉免费毛片视频| 成人精品一区二区三区四区 | 欧美成人免费| 欧美日韩一区二区在线| 亚洲自拍偷拍精品| 在线日韩中文| 国产一区在线免费观看| 91精品国产黑色瑜伽裤| 日韩欧美国产麻豆| 久久黄色小视频| 懂色av一区二区在线播放| 伊人再见免费在线观看高清版| 亚洲二区av| 精品国产一区二区三区在线观看| 一级全黄裸体免费视频| 成人免费在线视频| 一级片免费在线观看视频| 在线电影一区二区| 91文字幕巨乱亚洲香蕉| 成人在线免费观看黄色| 亚洲黄色有码视频| 69视频免费在线观看| 国产三级精品三级在线专区| 国产三级日本三级在线播放 | 日韩不卡一二区| 经典三级久久| 国模精品视频一区二区| 亚洲人视频在线观看| 色琪琪一区二区三区亚洲区| 大吊一区二区三区| 国产毛片精品视频| 日本一区午夜艳熟免费| 欧美激情极品| 国产精品久久久久aaaa九色| 日本激情在线观看| 欧美va亚洲va| 人人草在线观看| 国产精品免费视频一区| 久久综合桃花网| 日韩午夜在线| 相泽南亚洲一区二区在线播放| 四虎视频在线精品免费网址| 欧美巨乳在线观看| 日韩在线观看视频一区| 欧日韩精品视频| 色在线观看视频| 26uuu国产电影一区二区| 孩娇小videos精品| 在线不卡亚洲| 亚洲精品国产系列| 粉嫩精品导航导航| 国产精品白丝jk喷水视频一区| 麻豆av在线导航| 亚洲第一网站免费视频| 中文字幕理论片| 亚洲乱码国产乱码精品精的特点 | 国产精品三级av| 日本wwww色| 日本在线不卡视频| 成人免费观看在线| 久久精品国产www456c0m| 国产精品一区二区三区在线观| 亚洲成人激情社区| 欧美丰满片xxx777| 高清中文字幕一区二区三区| 欧美videos大乳护士334| 波多野结衣一本一道| 亚洲一级电影视频| 亚洲区一区二区三| 久久久五月婷婷| 成年人看片网站| 美女视频第一区二区三区免费观看网站| 国产传媒久久久| 欧美独立站高清久久| 精品一区二区视频| 日韩三级不卡| 国产中文日韩欧美| 欧美大胆性生话| 久久男人av资源网站| 黄色在线免费看| 国产一区二区三区中文| 无码国产伦一区二区三区视频| 8x8x8国产精品| 欧美 亚洲 另类 激情 另类| 岛国视频午夜一区免费在线观看| 欧美精品一区二区成人| 中文字幕综合网| 9.1片黄在线观看| 久久久噜噜噜久噜久久综合| 日韩精品一区二区三区高清免费| 国产很黄免费观看久久| 久久久久久久久久一区二区| 日韩专区一卡二卡| 日本一本二本在线观看| 夜久久久久久| 欧美性潮喷xxxxx免费视频看| 亚洲欧美色图| 中文字幕人成一区| 久久在线视频免费观看| 视频一区视频二区视频| 久久av网址| 欧美精品亚洲精品| 日韩三级av| 久久综合一区二区三区| 激情小说亚洲图片| 国产精品久久久久久久天堂第1集| 麻豆国产一区二区三区四区| 成人午夜在线视频一区| 成人污版视频| 亚洲专区中文字幕| 久久综合偷偷噜噜噜色| 91在线视频一区| 久久精品免视看国产成人| 97netav| heyzo欧美激情| 国产女主播一区二区| 麻豆一区二区| 欧美日韩一区二区三区免费| 国产一区二区精品福利地址| 日韩av大全| 偷拍欧美精品| 久久久久久久久久久综合| 在线欧美福利| 亚洲国产精品久久久久爰色欲| 日韩激情一二三区| 五月婷婷丁香色| 国产精品一区二区三区乱码 | 91丨porny丨中文| 亚洲国产无码精品| 日本一区二区三区免费乱视频| 国产精品成人在线视频| 亚洲人精品午夜| 久久精品这里有| 在线亚洲免费视频| 国产片高清在线观看| 亚洲爱爱爱爱爱| 国产精品一级伦理| 欧美成年人视频网站| а√天堂资源官网在线资源| 国产97免费视| 精品视频一二| 快播亚洲色图| 久久久久亚洲| 国自产拍偷拍精品啪啪一区二区| 美女网站久久| 亚洲女人在线观看| 91网页版在线| 99久久99久久精品国产| 亚洲成人av一区二区| 中文字幕欧美人妻精品| 日韩精品中文字幕一区二区三区| 欧美69xxxxx| 欧美成年人网站| 日本免费一区二区三区四区| 91亚洲国产成人精品性色| 久久大胆人体视频| 在线看成人av电影| 亚洲欧美日韩国产| 亚欧美一区二区三区| 久久免费视频色| 欧美精品一级片| 欧美日韩久久久久久| 手机看片福利永久| 久久亚洲综合国产精品99麻豆精品福利 | 中国一级片黄色一级片黄| 日韩精品中文字幕在线不卡尤物| 国产精品久久久久一区二区国产| 欧美日韩成人在线播放| av在线一区不卡| 久久另类ts人妖一区二区| 中文字幕av亚洲精品一部二部| 久久精品香蕉视频| 成人免费高清视频在线观看| 欧美激情精品久久久久久免费| 欧美视频国产精品| 丰满人妻一区二区三区免费| 日韩中文字幕在线视频| 欧美成人资源| 精品国产中文字幕| 欧美区亚洲区| 亚洲色图欧美自拍| 国产精品每日更新| 天堂网中文字幕| 亚洲国内高清视频| 日韩精品卡一| 亚洲影院色无极综合| 久久中文字幕二区| 一区二区三区免费播放| 久久午夜老司机| 日韩免费视频一区二区视频在线观看| 日韩一级大片在线| 中文字幕资源网在线观看| 国产主播欧美精品| 色天天综合网| 一区二区三区 欧美| 国产欧美日本一区视频| 国产一级淫片a视频免费观看| 亚洲黄色有码视频| 成入视频在线观看| 国外成人免费视频| 亚洲乱码久久| 91九色蝌蚪porny| 亚洲mv在线观看| 天天射天天操天天干| 久久久久久久激情视频| 韩国精品福利一区二区三区| 国产xxxx振车| aa级大片欧美| 天天综合天天干| 亚洲欧美国产另类| 88xx成人永久免费观看| 日韩精品无码一区二区三区| 日韩在线观看一区二区| av免费播放网站| 欧美日韩国产免费| 黄网站在线播放| 999精品视频一区二区三区| 欧美淫片网站| 久久久老熟女一区二区三区91| 亚洲高清中文字幕| 性感美女福利视频| 日韩av电影手机在线观看| 国产欧美高清视频在线| 男人搞女人网站| 亚洲欧洲韩国日本视频| 99在线精品视频免费观看软件| 久久99精品久久久久久琪琪| 你懂的在线观看一区二区| 久久久久久久久久久久久国产精品| 久久一区二区三区四区| 中文字幕人妻精品一区| 毛片精品免费在线观看| 国产乱论精品| 久久久久久久片| 亚洲人成伊人成综合网小说| 丰满熟女一区二区三区| 日本欧美国产在线| 天天插综合网| 在线精品一区二区三区| 欧美伊人久久大香线蕉综合69| avtt亚洲| 俄罗斯精品一区二区三区| 国产精品视区| 麻豆精品国产免费| 亚洲精品动漫100p| 久久久加勒比| 日韩日韩日韩日韩日韩| 国产视频在线观看一区二区三区| 国产又黄又大又爽| 欧美专区福利在线| 亚洲a在线视频| 色噜噜在线观看| 欧美精品xxxxbbbb| 蜜臀久久精品| 中日韩在线视频| 91在线视频网址| 99在线观看精品视频| 国产成人午夜视频网址| 欧美日韩mv| a资源在线观看| 日韩风俗一区 二区|