精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

未來已來:數(shù)據(jù)如何驅(qū)動AI大模型的競爭

人工智能
數(shù)據(jù)是AI模型的"燃料",未來AI大模型的競爭,無疑將更加依賴高質(zhì)量的數(shù)據(jù)。因此,對數(shù)據(jù)的投入和利用,將決定中國在全球AI競賽中的地位和成績。

隨著人工智能的迅猛發(fā)展,高質(zhì)量數(shù)據(jù)的重要性已愈發(fā)明顯。以大型語言模型為例,近年來的飛躍式進(jìn)展在很大程度上依賴于高質(zhì)量和豐富的訓(xùn)練數(shù)據(jù)集。相比于GPT-2,GPT-3在模型架構(gòu)上的改變微乎其微,更大的精力是投入到了收集更大、更高質(zhì)量的數(shù)據(jù)集來進(jìn)行訓(xùn)練。例如,ChatGPT與GPT-3的模型架構(gòu)類似,但使用了RLHF(來自人工反饋過程的強(qiáng)化學(xué)習(xí))來生成用于微調(diào)的高質(zhì)量標(biāo)注數(shù)據(jù)。

認(rèn)識到這一現(xiàn)象,人工智能領(lǐng)域的權(quán)威學(xué)者吳承恩發(fā)起了“以數(shù)據(jù)為中心的 AI”運(yùn)動,這是一種新的理念,它主張在模型架構(gòu)相對固定的前提下,通過提升數(shù)據(jù)的質(zhì)量和數(shù)量來提升整個模型的訓(xùn)練效果。這其中包括添加數(shù)據(jù)標(biāo)記、清洗和轉(zhuǎn)換數(shù)據(jù)、數(shù)據(jù)縮減、增加數(shù)據(jù)多樣性、持續(xù)監(jiān)測和維護(hù)數(shù)據(jù)等。因此,未來在大模型開發(fā)中,數(shù)據(jù)成本(包括數(shù)據(jù)采集、清洗、標(biāo)注等成本)所占的比例可能會逐步提高。

AI大模型需要的數(shù)據(jù)集應(yīng)具備以下特性:

(1)高質(zhì)量:高質(zhì)量的數(shù)據(jù)集可以提高模型的精度和可解釋性,同時縮短模型收斂到最優(yōu)解的時間,也就是訓(xùn)練時長。

(2)大規(guī)模:在《Scaling Laws for Neural Language Models》一文中,OpenAI提出了LLM模型的"伸縮法則",即獨(dú)立增加訓(xùn)練數(shù)據(jù)量、模型參數(shù)規(guī)?;蜓娱L模型訓(xùn)練時間,預(yù)訓(xùn)練模型的效果會持續(xù)提升。

(3)多樣性:數(shù)據(jù)的多樣性有助于提高模型的泛化能力,過于單一的數(shù)據(jù)可能會導(dǎo)致模型過度擬合訓(xùn)練數(shù)據(jù)。

數(shù)據(jù)集的生成與處理

數(shù)據(jù)集的建立流程主要包括以下步驟:

  • 數(shù)據(jù)采集:數(shù)據(jù)采集的對象可能包括各種類型和格式的視頻、圖片、音頻和文本等。數(shù)據(jù)采集常用的方式有系統(tǒng)日志采集方法、網(wǎng)絡(luò)數(shù)據(jù)采集方法以及ETL。
  • 數(shù)據(jù)清洗:因為采集到的數(shù)據(jù)可能存在缺失值、噪聲數(shù)據(jù)、重復(fù)數(shù)據(jù)等質(zhì)量問題,數(shù)據(jù)清洗就顯得尤為重要。數(shù)據(jù)清洗作為數(shù)據(jù)預(yù)處理中至關(guān)重要的環(huán)節(jié),清洗后的數(shù)據(jù)質(zhì)量在很大程度上決定了AI算法的有效性。
  • 數(shù)據(jù)標(biāo)注:這是流程中最重要的一個環(huán)節(jié)。管理員會根據(jù)不同的標(biāo)注需求,將待標(biāo)注的數(shù)據(jù)劃分為不同的標(biāo)注任務(wù)。每一個標(biāo)注任務(wù)都有不同的規(guī)范和標(biāo)注點(diǎn)要求,一個標(biāo)注任務(wù)將會分配給多個標(biāo)注員完成。
  • 模型訓(xùn)練:模型訓(xùn)練人員會利用標(biāo)注好的數(shù)據(jù)訓(xùn)練出需要的算法模型。
  • 模型測試:測試人員進(jìn)行模型測試并將測試結(jié)果反饋給模型訓(xùn)練人員,模型訓(xùn)練人員通過不斷地調(diào)整參數(shù),以便獲得性能更好的算法模型。
  • 產(chǎn)品評估:產(chǎn)品評估人員需要反復(fù)驗證模型的標(biāo)注效果,并對模型是否滿足上線目標(biāo)進(jìn)行評估。只有經(jīng)過產(chǎn)品評估環(huán)節(jié)的數(shù)據(jù)才算是真正過關(guān)。

然而,盡管中國的數(shù)據(jù)資源豐富,但由于數(shù)據(jù)挖掘不足,數(shù)據(jù)無法在市場上自由流通等因素,導(dǎo)致優(yōu)質(zhì)的中文數(shù)據(jù)集仍然稀缺。據(jù)統(tǒng)計,ChatGPT的訓(xùn)練數(shù)據(jù)中,中文資料的比重不足千分之一,而英文資料占比超過92.6%。此外,加利福尼亞大學(xué)和Google研究機(jī)構(gòu)的研究發(fā)現(xiàn),目前機(jī)器學(xué)習(xí)和自然語言處理模型使用的數(shù)據(jù)集有50%是由12家頂級機(jī)構(gòu)提供,其中10家為美國機(jī)構(gòu),1家為德國機(jī)構(gòu),只有1家機(jī)構(gòu)來自中國,即香港中文大學(xué)。

我們認(rèn)為,國內(nèi)缺乏高質(zhì)量數(shù)據(jù)集的原因主要有以下幾點(diǎn):

  • 高質(zhì)量數(shù)據(jù)集需要巨大的資金投入,但目前國內(nèi)對數(shù)據(jù)挖掘和數(shù)據(jù)治理的投入不足。
  • 國內(nèi)相關(guān)公司往往缺乏開源意識,導(dǎo)致數(shù)據(jù)無法在市場上自由流通。
  • 國內(nèi)相關(guān)公司成立較晚,數(shù)據(jù)積累相對于國外公司要少。
  • 在學(xué)術(shù)領(lǐng)域,中文數(shù)據(jù)集的重視程度低。
  • 國產(chǎn)數(shù)據(jù)集的市場影響力和普及度相對較低。

目前,國內(nèi)科技互聯(lián)網(wǎng)頭部企業(yè)主要通過公開數(shù)據(jù)和自身特有數(shù)據(jù)來訓(xùn)練大模型。例如,百度的“文心”大模型使用的特有數(shù)據(jù)主要包括萬億級的網(wǎng)頁數(shù)據(jù),數(shù)十億的搜索數(shù)據(jù)和圖片數(shù)據(jù)等。阿里的“通義”大模型的訓(xùn)練數(shù)據(jù)主要來自阿里達(dá)摩院。騰訊的“混元”大模型的特有訓(xùn)練數(shù)據(jù)主要來自微信公眾號、微信搜索等優(yōu)質(zhì)數(shù)據(jù)。華為的“盤古”大模型的訓(xùn)練數(shù)據(jù),除了公開數(shù)據(jù),還有B端行業(yè)數(shù)據(jù)加持,包括氣象、礦山、鐵路等行業(yè)數(shù)據(jù)。商湯的“日日新”模型的訓(xùn)練數(shù)據(jù)中,包括了自行生成的Omni Objects 3D多模態(tài)數(shù)據(jù)集。

中國的數(shù)據(jù)環(huán)境和未來

盡管現(xiàn)狀尚有不足,但中國的數(shù)據(jù)環(huán)境仍有巨大的潛力。首先,中國是全球最大的互聯(lián)網(wǎng)用戶群體,日產(chǎn)數(shù)據(jù)量巨大,為構(gòu)建大規(guī)模高質(zhì)量數(shù)據(jù)集提供了基礎(chǔ)。其次,中國政府對于AI和數(shù)據(jù)治理的重視,無論是政策支持還是資金投入,都為數(shù)據(jù)環(huán)境的改善和發(fā)展提供了有利條件。

未來,中國需要在以下幾個方面進(jìn)行努力:

  1. 建立數(shù)據(jù)采集和清洗系統(tǒng):建立一套完整的數(shù)據(jù)采集和清洗系統(tǒng),確保數(shù)據(jù)的質(zhì)量和有效性,為后續(xù)的模型訓(xùn)練提供可靠的數(shù)據(jù)基礎(chǔ)。
  2. 提高公開數(shù)據(jù)的可獲取性和使用性:鼓勵公司、研究機(jī)構(gòu)等公開數(shù)據(jù),讓數(shù)據(jù)在市場中自由流通,從而提高數(shù)據(jù)的可獲取性和使用性。
  3. 加大數(shù)據(jù)標(biāo)注投入:通過提高標(biāo)注效率和質(zhì)量,降低標(biāo)注成本,從而獲取更多、更高質(zhì)量的標(biāo)注數(shù)據(jù)。
  4. 培養(yǎng)更多的數(shù)據(jù)科學(xué)家和AI工程師:通過教育和培訓(xùn),增加數(shù)據(jù)科學(xué)家和AI工程師的數(shù)量和素質(zhì),以推動中國的AI研究和應(yīng)用。
  5. 加強(qiáng)國內(nèi)外的數(shù)據(jù)合作:通過數(shù)據(jù)合作,借鑒國外的成功經(jīng)驗,改進(jìn)數(shù)據(jù)的采集、處理、使用等方面的技術(shù)和方法,以提升中國數(shù)據(jù)的質(zhì)量和價值。

數(shù)據(jù)是AI模型的"燃料",未來AI大模型的競爭,無疑將更加依賴高質(zhì)量的數(shù)據(jù)。因此,對數(shù)據(jù)的投入和利用,將決定中國在全球AI競賽中的地位和成績。

責(zé)任編輯:姜華 來源: 今日頭條
相關(guān)推薦

2021-02-05 07:06:03

AI人工智能

2018-01-16 20:14:37

OpenPOWERAIIBM

2021-05-10 09:40:02

大數(shù)據(jù)互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用

2023-07-04 09:48:10

AI模型

2021-10-14 23:05:34

運(yùn)營商區(qū)塊鏈數(shù)據(jù)

2020-09-06 08:23:36

技術(shù)人工智能5G

2019-09-03 14:53:11

醫(yī)療機(jī)器人智慧醫(yī)療

2024-02-05 22:13:50

C++C++20開發(fā)

2015-08-24 09:59:19

dt

2022-06-28 12:02:11

ClouderaCDP混合數(shù)據(jù)

2020-10-22 15:20:24

北理工智慧校園永洪科技

2018-04-27 14:14:29

GMIC

2015-10-19 13:16:57

能源互聯(lián)網(wǎng)

2014-05-21 16:03:45

敏捷網(wǎng)絡(luò)華為

2019-11-11 16:19:39

人工智能

2018-08-09 16:03:14

2016-10-27 08:57:00

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

先锋影音av在线| 中文字幕日韩精品一区二区| 天天爽夜夜爽人人爽| 日韩欧美在线中字| 欧美一区永久视频免费观看| 91成人综合网| 阿v免费在线观看| 国产精品一区在线观看乱码 | 97电影在线看视频| 国产成人在线视频播放| 日韩69视频在线观看| 5566中文字幕| 欧美极品中文字幕| 日韩小视频在线观看专区| 国产精品-区区久久久狼| а√天堂官网中文在线| 欧美极品美女视频| 国产精品对白一区二区三区| 中文字幕人妻色偷偷久久| 欧美三级第一页| 中文字幕亚洲一区在线观看 | 玉米视频成人免费看| 午夜精品区一区二区三| 老熟妇高潮一区二区高清视频| 热久久一区二区| 7777精品视频| 久久精品国产av一区二区三区| 国产精品久久久乱弄| 国产一区二区三区在线播放免费观看| 久久久久成人精品无码中文字幕| 日本一区二区三区播放| 欧亚一区二区三区| 色诱视频在线观看| 成年女人在线看片| 亚洲午夜精品在线| 国内自拍中文字幕| 在线中文字幕视频观看| 中文字幕一区二区在线播放| 日韩精彩视频| 国产免费a∨片在线观看不卡| 91在线视频观看| 国产一区精品在线| 欧日韩在线视频| 丁香天五香天堂综合| 97碰碰视频| www.超碰在线.com| 国产成人精品午夜视频免费| 亚洲字幕一区二区| 成人黄色免费视频| 国产成人免费视频网站高清观看视频 | 国产精品一区二区三区99| 国产一区视频在线| 91tv国产成人福利| 久久电影国产免费久久电影| 国产区亚洲区欧美区| 中文字幕一区二区三区人妻四季 | jyzzz在线观看视频| 国产日本亚洲高清| 视频一区视频二区视频三区视频四区国产 | 91国内在线视频| 久久久久久久黄色片| 亚洲欧美成人| 国产91热爆ts人妖在线| 国产情侣免费视频| 久久99深爱久久99精品| 51国偷自产一区二区三区 | 成人a免费在线看| 精品婷婷色一区二区三区蜜桃| 四虎影视在线播放| 国产欧美一区在线| 日本黄色播放器| 手机av免费在线| 精品动漫一区二区三区| 男女视频一区二区三区| 国产精品亚洲综合在线观看| 日韩一级免费观看| 国产精品伦子伦| 成人系列视频| 九九综合九九综合| 国产91精品一区| 美女一区二区视频| 91精品视频在线| 国产香蕉在线观看| 欧美韩日一区二区三区四区| 伊人网在线免费| 国产粉嫩在线观看| 欧美日韩一区二区电影| 特级特黄刘亦菲aaa级| 欧美偷拍综合| 久久久久亚洲精品国产| 日本黄色中文字幕| 国产激情一区二区三区桃花岛亚洲| 精品国产乱码久久久久久丨区2区 精品国产乱码久久久久久蜜柚 | 日韩电影中文字幕一区| 色婷婷粉嫩av| 亚洲一区二区三区高清不卡| 成人福利网站在线观看11| 黄色www视频| 国产精品婷婷午夜在线观看| 青草视频在线观看视频| 日本一道高清亚洲日美韩| 日韩精品资源二区在线| 阿v天堂2014| 99精品99| 97人人模人人爽视频一区二区| 国产在线91| 亚洲成人动漫av| 亚洲第一色av| 国产一区二区三区91| 欧美极品少妇xxxxⅹ裸体艺术| 中文字幕一二区| 91在线精品一区二区| 国产人妻人伦精品| 欧美久久久网站| 亚洲欧美另类自拍| 久久成人在线观看| 精品一区二区三区在线视频| 欧美日韩国产高清视频| av中文字幕在线看| 欧美一区二区免费| 欧美 日韩 成人| 在线亚洲伦理| 国产精品区一区| 国产三区视频在线观看| 欧美三级视频在线播放| 自拍偷拍中文字幕| 99精品欧美| 国产精品国产亚洲精品看不卡15| 久久久久久久久免费视频| 欧美在线色视频| 一区二区精品免费| 亚洲自啪免费| 久久66热这里只有精品| 毛片大全在线观看| 欧美α欧美αv大片| 国产精品成人69xxx免费视频 | 成人黄色免费在线观看| shkd中文字幕久久在线观看| 在线看日本不卡| 日本乱子伦xxxx| 日韩中文字幕麻豆| 日本一区二区高清视频| 午夜欧美巨大性欧美巨大 | 在线观看午夜av| 欧美一区中文字幕| 国产黄在线免费观看| 国产一区二区三区免费| 日本福利视频导航| 精品99re| 久久久久久亚洲精品| 欧美77777| 午夜电影一区二区| 动漫精品一区二区三区| 三级久久三级久久| 性欧美videosex高清少妇| 国产成人精品一区二区三区在线| 亚洲欧洲视频在线| 自拍偷拍精品视频| 综合在线观看色| 亚洲国产欧美日韩在线| 伊人成人在线视频| 蜜桃av噜噜一区二区三区| 欧美影视资讯| 久久九九精品99国产精品| 精品国产亚洲av麻豆| 亚洲韩国一区二区三区| 极品白嫩丰满美女无套| 可以看av的网站久久看| 一级特黄录像免费播放全99| 久久av偷拍| 97**国产露脸精品国产| 第三区美女视频在线| 3d动漫精品啪啪一区二区竹菊| 免费一级肉体全黄毛片| 91丨porny丨在线| 亚洲36d大奶网| 欧美日韩国产精品一区二区亚洲| 精品国产乱码久久久久久郑州公司| xx欧美xxx| 插插插亚洲综合网| 天堂国产一区二区三区| 欧美影院精品一区| 九九九在线视频| 久久嫩草精品久久久精品一| 色戒在线免费观看| 日韩视频一区二区三区在线播放免费观看| 欧美精品国产精品久久久| 国产欧美自拍| 91av福利视频| 国产cdts系列另类在线观看| 亚洲跨种族黑人xxx| 国产美女精品视频国产| 欧美性猛交xxxx偷拍洗澡 | 欧美性xxxx在线播放| 顶级黑人搡bbw搡bbbb搡| av在线综合网| 精品久久久99| 石原莉奈在线亚洲三区| 蜜臀av性久久久久蜜臀av| 久操国产精品| 国产精品v欧美精品v日韩精品| 国产a亚洲精品| 欧美有码在线观看| 日韩av官网| 日韩一区二区久久久| 偷拍自拍在线| 欧美xxxx在线观看| 一卡二卡三卡在线| 色婷婷激情综合| 黄色小视频在线免费看| 国产精品久久久久7777按摩| 亚洲天堂资源在线| 国产成人精品免费看| 中文av一区二区三区| 亚洲欧美网站| 国产a级片网站| 午夜欧美理论片| 亚洲高清123| 国产成人影院| 国产三区精品| 白嫩白嫩国产精品| 91亚洲一区精品| 农村妇女一区二区| 国产999精品久久久影片官网| 2021天堂中文幕一二区在线观| 欧美xxxx18国产| 巨大荫蒂视频欧美大片| 色噜噜狠狠色综合网图区| 日本一本草久在线中文| 精品国内二区三区| 亚洲精品97久久中文字幕无码| 日韩视频在线一区二区| 国产又色又爽又黄又免费| 欧美日韩中字一区| 中文无码精品一区二区三区| 色噜噜夜夜夜综合网| 在线免费黄色av| 色噜噜久久综合| 嫩草影院一区二区三区| 在线精品视频一区二区| 欧美日韩 一区二区三区| 91国产免费看| 在线观看你懂的网站| 欧美色综合网站| 亚洲综合网av| 91精品国产一区二区三区蜜臀| 国产乱码久久久久| 欧美一级日韩一级| 91手机视频在线观看| 一级毛片视频在线观看| 久久精品国产电影| 性爱视频在线播放| 欧美精品videosex牲欧美| av伦理在线| 欧美重口另类videos人妖| 美脚恋feet久草欧美| 国产精品高清免费在线观看| 四虎国产精品永久在线国在线| 亚洲iv一区二区三区| 91成人精品在线| 精品免费国产| 日韩av有码| 喜爱夜蒲2在线| 亚洲午夜一区| 黄色片视频在线免费观看| 玖玖精品视频| 日日夜夜精品视频免费观看 | 91久久精品国产91久久| 欧美中文高清| 久久久久一区二区| 久久国产成人精品| 人妻无码一区二区三区四区| 一本久道久久综合婷婷鲸鱼| 亚洲色图38p| 国产精品一区在线观看乱码| 51调教丨国产调教视频| 国产精品拍天天在线| 久久久www成人免费毛片| 欧美性猛交xxxx黑人猛交| 一级特黄特色的免费大片视频| 欧美一二三区在线| 免费福利在线视频| 精品国产一区二区三区久久狼5月| 国产黄色大片在线观看| 国产成人激情小视频| 精品一区二区三区视频在线播放| 国产亚洲二区| 91精品国产乱码久久久久久久| 成熟丰满熟妇高潮xxxxx视频| 美女精品自拍一二三四| youjizz.com日本| 国产精品丝袜黑色高跟| 国产午夜精品无码| 欧美剧情片在线观看| 亚州av在线播放| 国产精品欧美经典| 久草免费新视频| 欧美日韩国产一级| 无码精品黑人一区二区三区| xx视频.9999.com| 亚洲精品福利电影| 51蜜桃传媒精品一区二区| 国产一区2区| 免费成人午夜视频| 国产激情一区二区三区四区| 国产在视频线精品视频| 精品国产成人在线| 国产视频在线观看视频| 亚洲亚裔videos黑人hd| av影片在线| 2019国产精品视频| 五月婷婷亚洲| 久久久精品三级| 91浏览器在线视频| 国产在线一二区| 日韩一级黄色大片| 成人日日夜夜| 国产一区红桃视频| 秋霞欧美视频| 欧美性猛交久久久乱大交小说 | 在线播放视频一区| 国产中文字幕在线| 欧美在线视频一区| 欧美色图婷婷| 人人干视频在线| 岛国一区二区在线观看| www.色小姐com| 51精品久久久久久久蜜臀| 337p日本欧洲亚洲大胆鲁鲁| 国产精欧美一区二区三区| 免费短视频成人日韩| 国产亚洲欧美在线视频| 99久精品国产| 在线观看亚洲天堂| 日韩精品小视频| 韩国成人二区| 久热这里只精品99re8久 | 一区二区三区日韩精品视频| 国产理论片在线观看| xvideos亚洲| av日韩久久| 综合久久国产| 国产原创一区二区| 五月天婷婷色综合| 日韩三级视频中文字幕| 免费看电影在线| 俄罗斯精品一区二区| 伊人成人在线视频| 美国黄色一级毛片| 在线中文字幕不卡| 在线免费观看的av网站| 国产精品亚洲综合天堂夜夜| 色88久久久久高潮综合影院| 一本一道久久a久久综合蜜桃| 自拍视频在线观看一区二区| wwwav网站| 91国内在线视频| 精品国产不卡| www.五月天色| 亚洲亚洲精品在线观看| 亚洲 欧美 精品| 国产精品成人一区| 在线成人直播| 欧美 变态 另类 人妖| 欧美亚洲一区二区三区四区| 麻豆网站在线看| 国产精品手机在线| 久久免费高清| 精品国产视频一区二区三区| 精品久久久久久最新网址| 亚洲欧美se| 一区二区三区久久网| 国产成人一区在线| 男人日女人网站| 久久久精品网站| 老牛精品亚洲成av人片| 日韩免费毛片视频| 亚洲色图欧美激情| 无码国产伦一区二区三区视频| 国产美女久久精品| 亚洲午夜黄色| 日韩一级片在线免费观看| 日韩欧美在线影院| 免费亚洲电影| 粉嫩av一区二区三区天美传媒 | 99这里只有久久精品视频| 日韩久久久久久久久久| 欧美日韩999| 欧美三级伦理在线| 亚洲精品久久一区二区三区777 | 麻豆免费在线观看视频| 一本一道波多野结衣一区二区| av在线免费网站| 清纯唯美一区二区三区| 国产成人综合亚洲网站| 欧美成人精品网站| 91精品成人久久| 影视亚洲一区二区三区| 极品蜜桃臀肥臀-x88av| 亚洲第一视频网站|