智源發(fā)布全球最大中英文向量模型訓(xùn)練數(shù)據(jù)集！規(guī)模高達(dá)3億文本對(duì)

作者：新智元 2023-09-16 13:31:25

為推動(dòng)大模型開(kāi)源生態(tài)，智源研究院發(fā)布全球最大面向中英文語(yǔ)義向量模型訓(xùn)練數(shù)據(jù)集。

9月15日，北京人工智能產(chǎn)業(yè)峰會(huì)暨中關(guān)村科學(xué)城科創(chuàng)大賽頒獎(jiǎng)典禮現(xiàn)場(chǎng)，智源研究院發(fā)布面向中英文語(yǔ)義向量模型訓(xùn)練的大規(guī)模文本對(duì)數(shù)據(jù)集MTP（massive text pairs）。

這是全球最大的中、英文文本對(duì)訓(xùn)練數(shù)據(jù)集，數(shù)據(jù)規(guī)模達(dá)3億對(duì)，具有規(guī)模巨大、主題豐富、數(shù)據(jù)質(zhì)量高三大特征，進(jìn)而可以推動(dòng)解決中文模型訓(xùn)練數(shù)據(jù)集缺乏問(wèn)題。

通用語(yǔ)義向量模型是決定大模型性能的關(guān)鍵組件，可以鏈接外模型與外部知識(shí)；由「關(guān)聯(lián)文本」為基本元素的優(yōu)質(zhì)訓(xùn)練數(shù)據(jù)，是構(gòu)建通用語(yǔ)義向量模型的核心要素。

本次開(kāi)源的MTP數(shù)據(jù)集，正是智源BGE中英文語(yǔ)義向量模型訓(xùn)練所用中英文數(shù)據(jù)。

3億中英向量模型訓(xùn)練數(shù)據(jù)開(kāi)放

數(shù)據(jù)在大模型訓(xùn)練中至關(guān)重要，構(gòu)建高質(zhì)量開(kāi)源數(shù)據(jù)集，特別是用于訓(xùn)練基礎(chǔ)模型的開(kāi)源數(shù)據(jù)集對(duì)大模型發(fā)展意義重大，然而中文社區(qū)卻鮮少數(shù)據(jù)開(kāi)源貢獻(xiàn)者。

本次發(fā)布的全球最大語(yǔ)義向量模型訓(xùn)練數(shù)據(jù)MTP，具備如下特征：

- 規(guī)模巨大：

3億文本對(duì)，中文1億，英文2億。

- 主題豐富：

源自海量?jī)?yōu)質(zhì)文本數(shù)據(jù)，涉及搜索、社區(qū)問(wèn)答、百科常識(shí)、科技文獻(xiàn)等多種主題。

- 數(shù)據(jù)質(zhì)量高：

數(shù)據(jù)經(jīng)過(guò)必要的采樣、抽取、過(guò)濾獲得；由該數(shù)據(jù)訓(xùn)練得到的語(yǔ)義向量模型BGE (BAAI General Embedding)性能大幅領(lǐng)先同類(lèi)別模型。

MTP數(shù)據(jù)集鏈接：https://data.baai.ac.cn/details/BAAI-MTP

BGE 模型鏈接：https://huggingface.co/BAAI

BGE 代碼倉(cāng)庫(kù)：https://github.com/FlagOpen/FlagEmbedding

鑒于數(shù)據(jù)的重要性，智源在2021年就推出了全球最大語(yǔ)料庫(kù)WuDaoCorpora，開(kāi)放200GB高質(zhì)量低風(fēng)險(xiǎn)中文語(yǔ)料，由400余個(gè)產(chǎn)學(xué)研單位合作，已有770多個(gè)研發(fā)團(tuán)隊(duì)申請(qǐng)，為微軟、哈佛大學(xué)、斯坦福大學(xué)、華為、阿里巴巴、騰訊、鵬城實(shí)驗(yàn)室等提供數(shù)據(jù)服務(wù)，有效支撐全球大模型相關(guān)研究。

今年開(kāi)放的最大規(guī)模、可商用、持續(xù)更新的中文開(kāi)源指令數(shù)據(jù)集COIG，由來(lái)自全球40余個(gè)機(jī)構(gòu)的100多名工程師共同參與，創(chuàng)造了跨越國(guó)界、緊密合作的全球數(shù)據(jù)開(kāi)源動(dòng)人故事。

下載達(dá)數(shù)十萬(wàn)，廣受歡迎的BGE模型升級(jí)更新

BGE 語(yǔ)義向量模型一經(jīng)發(fā)布就備受大模型開(kāi)發(fā)者社區(qū)關(guān)注，目前Hugging Face累計(jì)下載量達(dá)到數(shù)十萬(wàn)，且已被LangChain, LangChain-Chatchat, llama_index 等知名開(kāi)源項(xiàng)目集成。

中文語(yǔ)義向量模型評(píng)測(cè)（C-MTEB）

英文語(yǔ)義向量模型評(píng)測(cè)榜（MTEB）

Langchain官方推文：「BGE模型在MTEB基準(zhǔn)上排名第一」

LangChain聯(lián)合創(chuàng)始人兼首席執(zhí)行官Harrison Chase推薦

基于社區(qū)反饋，BGE進(jìn)一步優(yōu)化更新，表現(xiàn)更加穩(wěn)健、出色。具體升級(jí)如下：

- 模型更新：

BGE-*-zh-v1.5緩解了相似度分布問(wèn)題，通過(guò)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行過(guò)濾，刪除低質(zhì)量數(shù)據(jù)，提高訓(xùn)練時(shí)溫度系數(shù)temperature至0.02，使得相似度數(shù)值更加平穩(wěn) 。

- 新增模型：

開(kāi)源BGE-reranker 交叉編碼器模型，可更加精準(zhǔn)找到相關(guān)文本，支持中英雙語(yǔ)。不同于向量模型需要輸出向量，BGE-reranker直接文本對(duì)輸出相似度，排序準(zhǔn)確度更高，可用于對(duì)向量召回結(jié)果的重新排序，提升最終結(jié)果的相關(guān)性。

- 新增功能：

BGE1.1增加難負(fù)樣本挖掘腳本，難負(fù)樣本可有效提升微調(diào)后檢索的效果；在微調(diào)代碼中增加在微調(diào)中增加指令的功能；模型保存也將自動(dòng)轉(zhuǎn)成 sentence transformer 格式，更方便模型加載。

值得一提的是，日前智源聯(lián)合Hugging Face發(fā)布了一篇技術(shù)報(bào)告，報(bào)告提出用C-Pack增強(qiáng)中文通用語(yǔ)義向量模型。

報(bào)告地址：https://arxiv.org/abs/2309.07597

構(gòu)建大模型時(shí)代的類(lèi)Linux生態(tài)

伴隨2022年末ChatGPT 橫空出世，全球大模型研發(fā)進(jìn)入如火如荼的爆發(fā)期，而激烈的競(jìng)爭(zhēng)與高昂的成本，也同時(shí)推動(dòng)著開(kāi)源崛起成為人工智能發(fā)展的關(guān)鍵推動(dòng)力量。

標(biāo)志性的事件是今年5月在全球人工智能圈廣為流傳的一篇Google內(nèi)部文件，聲稱(chēng)「開(kāi)源AI將擊敗谷歌和OpenAI」；來(lái)自Meta的代表性開(kāi)源模型 Llama則對(duì)當(dāng)前產(chǎn)業(yè)發(fā)展起到至關(guān)重要的作用。

作為中國(guó)大模型開(kāi)源生態(tài)圈的代表機(jī)構(gòu)，智源正在著力打造FlagOpen飛智大模型技術(shù)開(kāi)源體系，引領(lǐng)共建共享大模型時(shí)代的「類(lèi)Linux」開(kāi)源開(kāi)放生態(tài)。

上線于2022年11月，正式發(fā)布于2023年2月，F(xiàn)lagOpen大模型技術(shù)開(kāi)源體系先見(jiàn)性地預(yù)見(jiàn)大模型開(kāi)源建設(shè)這一大勢(shì)所趨。

現(xiàn)在，智源大模型技術(shù)開(kāi)體系 FlagOpen 新增 FlagEmbedding 版塊，聚焦于 Embedding 技術(shù)和模型，BGE 是其中首個(gè)開(kāi)源模型。

FlagEmbedding：https://github.com/FlagOpen/FlagEmbedding

在BGE項(xiàng)目之外，F(xiàn)lagOpen還有包括大模型算法、模型、數(shù)據(jù)、工具、評(píng)測(cè)等重要組成部分。

其中，F(xiàn)lagEval（天秤）大模型評(píng)測(cè)體系及開(kāi)放平臺(tái)，構(gòu)建3維評(píng)測(cè)體系、覆蓋600余項(xiàng)全面能力評(píng)測(cè)，旨在建立科學(xué)、公正、開(kāi)放的評(píng)測(cè)基準(zhǔn)、方法、工具集，協(xié)助研究人員全方位評(píng)估基礎(chǔ)模型及訓(xùn)練算法的性能。

每月發(fā)布的FlagEval大模型評(píng)測(cè)榜單，對(duì)主流模型進(jìn)行多維評(píng)測(cè)解讀，打造公正全面金標(biāo)準(zhǔn)，正在愈來(lái)愈成為大模型能力評(píng)價(jià)的風(fēng)向標(biāo)。

責(zé)任編輯：張燕妮來(lái)源：新智元

模型訓(xùn)練