精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

智源千萬級指令微調數據集Infinity-Instruct持續迭代,Llama3.1僅微調即可接近GPT-4

人工智能
Infinity Instruct未來將開源基礎、對話指令數據處理的全流程代碼,以及模型訓練代碼。同時,智源將探索擴展Infinity Instruct數據策略到對齊、預訓練階段,支持語言模型構建全生命周期的高質量數據需求。

指令微調是引導語言模型落地、構建高性能對話模型的關鍵一步。針對目前開源的指令數據集質量低、覆蓋領域少、數據信息不透明等問題,智源研究院推出了千萬級指令微調數據集Infinity Instruct。該數據集今年6月發布,近日完成了新一輪迭代,包括Infinity-Instruct-7M基礎指令數據集和Infinity-Instruct-Gen對話指令數據集。

Infinity-Instruct-7M包含744萬條數學、代碼、常識問答等領域的基礎指令數據,用于進一步全面提升預訓練模型的基礎能力。Opencompass測試結果顯示,經過在Infinity-Instruct-7M數據集上的微調,Llama3.1-70B、Mistral-7B-v0.1綜合能力評價可基本對齊官方自己發布的對話模型,且InfInstruct-7M-Mistral-7B的綜合評分超過了GPT-3.5,InfInstruct-7M-Llama3.1-70B已十分接近GPT-4。

*官方匯報結果

Infinity-Instruct-Gen包含149萬條合成的復雜指令,用于提升模型在各種真實對話場景中回復的魯棒性?;谠摂祿瑢涍^Infinity-Instruct-7M增強的模型做進一步SFT,即可取得超過官方對話模型的效果。而大多數的官方對話模型除了做基本的SFT外,還會做DPO/RLHF等對齊訓練以提升模型的對話能力,產生額外的訓練成本。

智源在MTBench、AlpacaEval2、Arena-Hard三個主流榜單上評測了Infinity-Instruct 7M+Gen對模型對話能力的增益,其中,AlpacaEval2和Arena-Hard與真實人類評價榜單Chatbot Arena有很高的一致率,MTBench則評測模型的多輪對話能力。

如下左圖所示,InfInstruct-7M-Gen-Mistral-7B,InfInstruct-7M-Gen-Llama3.1-8B,InfInstruct-7M-Gen-Llama3.1-70B等經過Infinity Instruct微調的模型已經超越了官方對話模型的性能。Arena-Hard上InfInstruct-7M-Gen-Llama3.1-70B(66)超過了Llama3.1-70B-Instruct(55.7)和Llama3.1-405B-Instruct(64.1)。此外,如右下圖所示,AlpacaEval2.0榜單上,InfInstruct-7M-Gen-Llama3.1-70B(46.1)更是超過了GPT4-0314(35.3),非常接近GPT4-1106(50)的水準,真正實現了GPT-4級別的對話能力。

Infinity Instruct數據集今年6月在Flopsera,Huggingface等平臺發布后,快速到達了Huggingface Dataset的Trending第一,且吸引大量基于Infinity Instruct的開源微調工作。

下載使用 Infinity-Instruct可在Huggingface、DataHub、Flopsera等平臺下載。

Huggingface: https://huggingface.co/datasets/BAAI/Infinity-Instruct

DataHub: https://data.baai.ac.cn/details/InfinityInstruct

Flopsera: http://open.flopsera.com/flopsera-open/details/InfinityInstruct

Huggingface提供了快速下載Infinity-Instruct系列數據集及模型的代碼。

##數據集下載 
 
from datasets import load_dataset 
dataset_7M = load_dataset('BAAI/Infinity-Instruct','7M',split='train') 
dataset_Gen = load_dataset('BAAI/Infinity-Instruct','Gen',split='train') 
 
##模型下載 
 
from transformers import AutoModelForCausalLM, AutoTokenizer 
model_llama3_1_70B = AutoModelForCausalLM.from_pretrained("BAAI/Infinity-Instruct-7M-Gen-Llama3_1-70B", 
 
    torch_dtype=torch.bfloat16, 
 
    device_map="auto" 
 
) 
 
tokenizer_llama3_1_70B = AutoTokenizer.from_pretrained("BAAI/Infinity-Instruct-7M-Gen-Llama3_1-70B") 
 
model_mistral_7B = AutoModelForCausalLM.from_pretrained("BAAI/Infinity-Instruct-7M-Gen-Mistral-7B", 
 
   torch_dtype=torch.bfloat16, 
 
   device_map="auto" 
 
) 
 
tokenizer_mistral_7B = AutoTokenizer.from_pretrained("BAAI/Infinity-Instruct-7M-Gen-Mistral-7B")

Infinity-Instruct給每一條指令數據標注了語種、能力類型、任務類型、數據來源等信息,便于使用者根據自身需要篩選數據子集。

技術路線

智源研究院搜集了7500萬余條開源指令作為待選指令池,采用數據選擇與指令合成兩條途徑快速迭代,構建高質量的基礎、對話指令數據集,以填補開源對話模型與GPT-4之間的基礎能力、對話能力差距。

基礎指令數據篩選

對于基礎指令數據集,篩選流程主要考慮訓練數據集和目標數據集數據分布的對齊,基于DSIR的思路,在訓練數據集上進行排序,選取訓練集的子集,擬合目標數據集的分布。

對話數據集生成、進化、評價

對于對話指令數據集,Infinity-Instruct首先采樣了部分高質量的開源指令集,并為每條指令分配一組標簽,描述完成指令所需的能力和知識。標簽系統共有兩個級別:

第一級標簽: 宏觀類別,如 "自然語言處理 "和 "數學推理"。共包括 26 個類別。

第二集標簽:刻畫具體任務,包含超過1.5w個類別。

基于此系統,就能識別指令集的內容分布以及完成不同任務所需的能力,構建一個高質量的種子數據集。隨后,Infinity-Instruct參考WizardLM的方法對種子指令在廣度、深度方向上進行擴展,并用AI Agent從指令合規性的角度剔除未能進化的數據。最后,進化后的指令作為初始輸入,使用AI Agent扮演不同角色,為每條指令生成 2 至 4 輪對話。

數據去污、去重

為避免構造的數據存在自身重復、或與評測榜單重復的樣本,Infinity-Instruct對所有數據應用了MinHash進行去重。并基于BGE檢索剔除了和AlpacaEval、MT-Bench等評測榜單重復的樣本。

訓練框架

考慮到微調成本,項目使用FlagScale去掉訓練樣本中不必要的pad,壓縮樣本量,同時應用模型切分、切分支持大模型在數百萬量級指令數據集上的訓練。初步測試可比傳統微調框架,如FastChat+Accelerate快三倍以上。

未來規劃 Infinity Instruct未來將開源基礎、對話指令數據處理的全流程代碼,以及模型訓練代碼。同時,智源將探索擴展Infinity Instruct數據策略到對齊、預訓練階段,支持語言模型構建全生命周期的高質量數據需求。

Infinity RLAIF:基于Infinity Instruct標簽體系以及生成指令構建了50K 對齊數據的第一個版本,實驗結果顯示,Infinity-Gemma-2-9B-SimPO 在AlpacaEval上達到 73.4,在Arena Hard上達到 59.1。未來會進行更多對齊數據、算法的探索。

Infinity Math:基于多個開源數學數據集構建了可無限擴增的數學領域指令數據集,其中POT指令數據可提升在多個7B的基礎語言模型和基礎代碼模型的zero-shot數學能力180%-510%,相關論文被CIKM 2024接收,歡迎引用。

@misc{zhang2024inifinitymath, 
 
    title={InfinityMATH: A Scalable Instruction Tuning Dataset in Programmatic Mathematical Reasoning}, 
 
    author={Bo-Wen Zhang and Yan Yan and Lin Li and Guang Liu}, 
 
    year={2024}, 
 
    eprint={2408.07089}, 
 
    archivePrefix={arXiv}, 
 
    primaryClass={cs.LG}, 
 
    url={https://arxiv.org/abs/2408.07089}, 
 
}

責任編輯:張燕妮 來源: 智源研究院官方賬號
相關推薦

2023-06-08 11:27:10

模型AI

2024-02-05 09:00:00

2023-05-29 09:29:52

GPT-4語言模型

2023-09-06 16:44:03

2025-05-27 15:19:52

GPUMetaGPT-4o

2024-07-09 12:54:57

2024-07-22 08:17:00

模型性能

2023-08-25 13:12:59

AI開源

2023-04-13 15:54:00

AI數據

2023-08-27 14:44:04

代碼編程語言

2024-01-22 07:10:00

AI視頻

2025-03-25 10:27:14

SFT 指令微調

2023-04-10 09:23:36

模型AI

2023-07-25 09:23:23

Llama 2GPT-4

2024-07-24 11:30:04

2025-03-21 08:00:00

大型語言模型視覺語言微調

2023-08-27 12:54:59

GPT-4神秘版本Code

2024-07-02 13:25:22

2024-07-29 13:38:06

2024-04-01 13:06:52

Grok-1.5GPT-4人工智能
點贊
收藏

51CTO技術棧公眾號

99国产精品国产精品毛片| 精品久久久亚洲| 亚洲午夜久久久久久久久久久| 国产精品美女久久久久av福利| 欧美日韩一二三四区| 成人激情开心网| 日韩欧美二区三区| 欧美xxxxx在线视频| 国产日产一区二区三区| 91网上在线视频| 成人免费激情视频| 天天操天天操天天操天天| 日本a口亚洲| 精品成a人在线观看| 国产又大又黄又粗的视频| 性网站在线观看| 欧美激情综合在线| 久久99精品久久久久久久久久| 91麻豆国产在线| 国产日韩高清一区二区三区在线| 精品久久久av| 蜜桃无码一区二区三区| 国产美女视频一区二区| 在线精品观看国产| 国产欧美日韩网站| 国产在线激情| 中文字幕二三区不卡| 国产欧美一区二区三区另类精品 | 国产综合色一区二区三区| 91 中文字幕| 久久一区亚洲| 97久久国产精品| 九九九久久久久| 欧美xxxx中国| 国产亚洲欧美另类中文| 草草影院第一页| 欧美国产极品| 精品成人一区二区| 一区二区三区四区影院| 成人免费91| 欧美精品日韩一本| 自拍偷拍21p| 99久久综合国产精品二区| 欧美午夜视频一区二区| 欧美成人高潮一二区在线看| 青青青草视频在线| 亚洲激情在线激情| 日本一级黄视频| 制服丝袜中文字幕在线| 亚洲三级小视频| 精品国产三级a∨在线| 秋霞a级毛片在线看| 国产精品免费看片| 亚洲欧美影院| 日本在线视频网| 国产精品进线69影院| 亚洲日本精品国产第一区| 超碰在线影院| 国产精品久久久久影院色老大| 一级二级三级欧美| 黄色片免费在线观看| 亚洲精品国产一区二区三区四区在线 | 天天操,天天操| 久久麻豆视频| 91精品国产一区二区人妖| 91欧美一区二区三区| 欧美视频三区| 亚洲精品一区二区三区蜜桃下载 | zjzjzjzjzj亚洲女人| 大伊香蕉精品在线品播放| 亚洲成色777777女色窝| 最新在线黄色网址| 国产探花在线精品一区二区| 色婷婷综合成人| www.av免费| 一区二区亚洲精品| 国产精品69久久| 91麻豆一区二区| 成人午夜视频在线| 美女视频久久| 色大18成网站www在线观看| 1024成人网色www| av女优在线播放| 91精品xxx在线观看| 欧美久久婷婷综合色| 麻豆免费在线观看视频| 亚洲欧洲av| 久久久电影免费观看完整版| 久草国产精品视频| 蜜臀av一区二区三区| 不卡视频一区二区三区| 国产青青草在线| 亚洲自拍欧美精品| 超碰影院在线观看| 精品国产乱码久久久久久樱花| 日韩成人免费视频| 男人在线观看视频| 中文高清一区| 成人淫片在线看| 偷拍25位美女撒尿视频在线观看| 国产视频一区在线观看| 免费在线黄网站| 日韩中文在线播放| 亚洲成人a**站| 国产探花视频在线| 夜夜嗨一区二区三区| 91精品免费看| 美州a亚洲一视本频v色道| 一区二区三区视频在线看| 日韩毛片在线免费看| 亚洲一二av| 日韩午夜在线视频| 天天干天天操天天操| 成人激情视频网站| 日本黄xxxxxxxxx100| 欧美特大特白屁股xxxx| 亚洲国产精品久久精品怡红院| 亚洲女人毛茸茸高潮| 老鸭窝毛片一区二区三区| 不卡日韩av| 天堂av中文在线| 欧美高清视频www夜色资源网| 亚洲黄色小说视频| 国产精品视频久久一区| www.久久爱.cn| 91中文在线| 91精品国产品国语在线不卡| 人妻熟人中文字幕一区二区| 久久性色av| 久久精品国产美女| 爱啪视频在线观看视频免费| 欧美本精品男人aⅴ天堂| 欧美三级黄色大片| 另类欧美日韩国产在线| 亚洲国产欧美一区二区三区不卡| 成人做爰视频www网站小优视频| 亚洲精品v天堂中文字幕| 欧美精品一区二区成人| 国产精品主播直播| 日韩精品手机在线观看| 欧美黄色一级| 久久91精品国产91久久跳| 国产男男gay体育生白袜| 成人免费小视频| 三区视频在线观看| 香蕉久久网站| 亚洲xxxxx性| 污网站在线免费看| 亚洲国产成人精品久久久国产成人一区| 欧美日韩人妻精品一区二区三区| 国产一区二区不卡在线| 国产资源第一页| 亚洲电影一区| 久久久久久高潮国产精品视| 视频二区在线观看| 日韩欧美精品中文字幕| 国产美女永久免费无遮挡| 日韩精品亚洲专区| 亚洲一区不卡在线| 精品国产一区二区三区2021| 久久6免费高清热精品| 天天操天天操天天干| 欧美日韩国内自拍| 成人激情五月天| 久久99精品久久久久婷婷| 中文字幕av导航| 亚洲码欧美码一区二区三区| 97激碰免费视频| 国产日产精品久久久久久婷婷| 欧美日韩美女一区二区| 欧洲猛交xxxx乱大交3| 成人av高清在线| 粉嫩虎白女毛片人体| 午夜av一区| 国产伦精品一区二区三区照片| 亚洲v.com| 色偷偷噜噜噜亚洲男人| 亚洲精品成人区在线观看| 欧美午夜精品久久久久久浪潮| а天堂中文在线资源| 国产suv一区二区三区88区| 精品久久久久久久久久中文字幕| 成人免费a**址| 91黄色精品| 亚洲va中文在线播放免费| 久久综合网hezyo| 亚洲人妻一区二区| 91精品国产91久久久久久一区二区| 日本少妇裸体做爰| 国产精品美女一区二区| www.555国产精品免费| 日本在线不卡视频一二三区| 成年人视频网站免费| 国产精品羞羞答答在线观看| 97超级碰碰| 天堂久久午夜av| 91黑丝在线观看| 菠萝蜜视频国产在线播放| 日韩精品欧美国产精品忘忧草| 国产毛片在线视频| 日本韩国一区二区三区视频| 欧美极品aaaaabbbbb| 国产欧美日韩不卡免费| 中国黄色片视频| 久久精品国产色蜜蜜麻豆| 91视频最新入口| 欧美视频日韩| 致1999电视剧免费观看策驰影院| 亚洲动漫在线观看| 国产高清在线精品一区二区三区| 伊人久久一区| 国产精品高清在线| 性欧美18xxxhd| 久久久久女教师免费一区| 日本在线视频观看| 亚洲网站在线播放| 免费福利在线观看| 日韩av影片在线观看| 亚洲国产视频一区二区三区| 欧美日韩免费视频| 中文字幕天堂在线| 色综合视频在线观看| 国产精品成人aaaa在线| 亚洲三级久久久| 免费黄色国产视频| 欧美国产一区视频在线观看| 中文字幕人妻一区二区| 99麻豆久久久国产精品免费| 亚洲精品一区二区18漫画| 精品中文av资源站在线观看| 午夜免费看视频| 日本特黄久久久高潮| 欧美综合在线观看视频| 国产精品社区| 国产黄色特级片| 久久xxxx| www黄色av| 欧美亚洲一区| 亚洲精品无码久久久久久| 亚洲男人影院| 无码人妻丰满熟妇区毛片18| 在线综合欧美| 欧美一级在线看| 香蕉亚洲视频| 一区二区三区入口| 美女视频黄免费的久久| 国产精品嫩草影院8vv8| 国产一二精品视频| 中文字幕乱妇无码av在线| 国产99久久久国产精品潘金| 绯色av蜜臀vs少妇| 成人aa视频在线观看| 亚洲 欧美 日韩在线| 99久久精品一区二区| 亚洲天堂视频一区| 国产日韩影视精品| 性色国产成人久久久精品| 国产精品成人免费精品自在线观看| 亚洲二区在线播放| 亚洲一区二区三区激情| 日韩三级免费看| 日韩欧美亚洲成人| 亚洲综合免费视频| 欧美一二三四在线| 婷婷丁香花五月天| 亚洲欧美日韩中文视频| 一级毛片视频在线| 久久69精品久久久久久久电影好| 久草在线资源站手机版| 国产大片精品免费永久看nba| 欧美亚洲二区| 动漫美女被爆操久久久| 日韩精品丝袜美腿| 日韩在线第一区| 欧美成人高清| 免费毛片小视频| 激情小说亚洲一区| 黄色污在线观看| 中文字幕不卡在线观看| 草视频在线观看| 欧美性高跟鞋xxxxhd| 一区二区三区免费在线视频| 亚洲国产美女精品久久久久∴| 精品无人乱码| 免费av一区二区| 中文字幕成在线观看| 国产在线视频欧美| 国产精品一区二区中文字幕 | 电影在线一区| 欧美大片在线看| 国产成人精选| 国产在线精品一区二区三区| 成人影视亚洲图片在线| 国产一区二区三区在线免费| 日韩成人免费看| 熟妇高潮一区二区| 国产精品嫩草影院com| 国产一级做a爱片久久毛片a| 欧美日韩大陆在线| 香蕉久久国产av一区二区| 日韩三级成人av网| 欧美无毛视频| 久久精品国产理论片免费| 亚洲最新色图| 黄色三级视频在线| 97se狠狠狠综合亚洲狠狠| 男女性高潮免费网站| 在线观看www91| 天堂中文字幕在线| 久久久噜噜噜久久中文字免| 一区二区三区| 视频一区视频二区视频| 亚洲精选成人| av不卡中文字幕| 亚洲精品日韩综合观看成人91| 中文字幕在线播| 国产丝袜精品视频| 男人的天堂免费在线视频| www日韩av| 一区二区三区在线电影| 一本岛在线视频| 久久久精品国产免费观看同学| 亚洲一区 视频| 日韩欧美电影一区| 18av在线视频| 亚洲综合中文字幕68页| 国产精品99一区二区三| 污片在线免费看| 国产精品区一区二区三区| 老熟妇一区二区三区| 亚洲美女福利视频网站| 中文字幕影音在线| 免费99视频| 国产精品综合色区在线观看| 真人bbbbbbbbb毛片| 亚洲va欧美va天堂v国产综合| 亚洲第九十九页| 欧美日本亚洲视频| 波多野结衣欧美| 日韩精品一区在线视频| 波多野结衣在线一区| 日本少妇性高潮| 精品无码久久久久久国产| 电影一区二区三| 四虎永久国产精品| 美国欧美日韩国产在线播放| 欧美a级片免费看| 91麻豆精品国产自产在线观看一区| 欧美极品另类| 91视频免费进入| 亚洲激情自拍| 日韩人妻无码一区二区三区| 色哟哟一区二区三区| 尤物在线视频| 亚洲va久久久噜噜噜| 狠狠综合久久av一区二区老牛| 俄罗斯黄色录像| 一本久道久久综合中文字幕 | 国产精品伦理在线| 国产精品怡红院| 欧美激情视频网址| 羞羞色国产精品网站| 天天碰免费视频| 综合久久综合久久| 日韩在线观看视频一区| 日韩av高清不卡| 99久久夜色精品国产亚洲1000部| 色欲无码人妻久久精品| 精品露脸国产偷人在视频| 国产最新视频在线| 91久久久久久久久久| 亚洲国产午夜| 国产调教在线观看| 欧美电影免费提供在线观看| 成人影院av| 免费成人进口网站| 91香蕉国产在线观看软件| 91tv国产成人福利| 海角国产乱辈乱精品视频| 国产欧美日韩精品一区二区免费 | wwwwww.欧美系列| 国产有码在线观看| 2019中文字幕在线| 999国产精品| 成人手机在线免费视频| 91精品久久久久久久久99蜜臂| 国产一二三在线| 一区二区三区四区免费视频| 99精品欧美一区二区三区小说 | 欧美国产在线视频| 欧美日韩在线网站| 日本美女视频网站| 欧美日韩一区二区欧美激情| av福利导福航大全在线| 伊人情人网综合| 久久精品一区四区| 可以免费观看的毛片| 成人a在线观看| 久久精品亚洲一区二区| 久久亚洲精品大全|