免費的數(shù)據(jù)源網(wǎng)站大全!再也不愁找不到數(shù)據(jù)練手_IT技術(shù)周刊第633期
無論是做數(shù)據(jù)分析,數(shù)據(jù)挖掘還是機器學(xué)習(xí),對于新手來說,學(xué)習(xí)再多的模型、算法理論,可能都不如一次實踐學(xué)到的多,所以我經(jīng)常建議大家在學(xué)習(xí)的過程中多通過實戰(zhàn)項目練練手,加強對算法、模型的理解。
要練手上哪找數(shù)據(jù)呢?平常我做的分析實戰(zhàn)里都會把數(shù)據(jù)集提供給大家練習(xí),今天我干脆為大家整理了我平常做數(shù)據(jù)分析、數(shù)據(jù)挖掘練習(xí)的時候經(jīng)常用到的數(shù)據(jù)集網(wǎng)站,對做機器學(xué)習(xí)的朋友也很有用
簡單、公開的數(shù)據(jù)集
先分享一些科研機構(gòu)、企業(yè)、政府會開放的一些數(shù)據(jù)集和一些專業(yè)的數(shù)據(jù)下載網(wǎng)站。這些數(shù)據(jù)集一般都比較完善、質(zhì)量相對較高,拿到手?jǐn)?shù)據(jù)清洗的工作比較少,適合新手做一些簡單基礎(chǔ)的分析
1、中國統(tǒng)計信息網(wǎng):http://www.tjcn.org/
全國各級政府各年度的國民經(jīng)濟和社會發(fā)展統(tǒng)計信息,部分?jǐn)?shù)據(jù)免費
2、國家統(tǒng)計局:http://www.stats.gov.cn/
各種民生相關(guān)的統(tǒng)計數(shù)據(jù),而且所有數(shù)據(jù)都是免費,而且這個網(wǎng)站的友情鏈接里還有很多其他地方的數(shù)據(jù)以及國外數(shù)據(jù)。

3、中國產(chǎn)業(yè)信息網(wǎng):
http://www.chyxx.com/data/
包含了各個行業(yè)相關(guān)的數(shù)據(jù),所有的數(shù)據(jù)全部免費,做行業(yè)分析經(jīng)常用到的

4、美國政府公開數(shù)據(jù):https://www.data.gov/
美國政府公開數(shù)據(jù)的網(wǎng)站,包含了經(jīng)濟、消費、教育、醫(yī)療、農(nóng)業(yè)等多個領(lǐng)域的數(shù)據(jù)
5、世界銀行:
https://data.worldbank.org/
世界銀行的開放數(shù)據(jù)。平臺還提供了一些工具,比如開放數(shù)據(jù)目錄,世界發(fā)展指數(shù),教育指數(shù)等。
6、百度數(shù)據(jù)開放平臺:
https://open.baidu.com/open/#/open

7、國云數(shù)據(jù)市場:https://link.zhihu.com/?target=
http%3A//www.moojnn.com/data-market/
主要包含:生活服務(wù)、教育、能源、建筑、交通運輸、政府、金融、農(nóng)業(yè)、醫(yī)療、衛(wèi)生等行業(yè)的數(shù)據(jù),大部分免費,有些需要付費

數(shù)據(jù)可視化項目數(shù)據(jù)集
最常見的數(shù)據(jù)可視化項目就是制作某某地區(qū)人均收入?yún)^(qū)別的信息圖,找數(shù)據(jù)可視化項目相關(guān)的數(shù)據(jù)集的時候,我們希望數(shù)據(jù)集盡量“干凈”,減少數(shù)據(jù)清洗的工作,數(shù)據(jù)要足夠有趣,能夠支撐起豐富的圖表,所以這類的數(shù)據(jù)可以去上面我的說一些公開數(shù)據(jù)網(wǎng)站找,另外我也列一些除了政府網(wǎng)站之外的相關(guān)網(wǎng)站:
1、FiveThirtyEight:
http://fivethirtyeight.com/
這是互動式新聞與體育賽事的網(wǎng)站,網(wǎng)站中會發(fā)布許多數(shù)據(jù)相關(guān)的文章,這些文章中會把使用到的數(shù)據(jù)集發(fā)布在github上,除了獲取數(shù)據(jù)集,你還可以參考別人的項目過程
2、Socrata OpenData:
https://opendata.socrata.com/
Socrata OpenData 網(wǎng)站包含多個清洗后的數(shù)據(jù)集,可以直接在瀏覽器中查看,也可以下載到本地進行可視化,大部分?jǐn)?shù)據(jù)來源于美國政府。
數(shù)據(jù)建模、機器學(xué)習(xí)的數(shù)據(jù)集
1、UCI:
https://archive.ics.uci.edu/ml/datasets.html
UCI是加州大學(xué)歐文分校開放的經(jīng)典數(shù)據(jù)集,是機器學(xué)習(xí)領(lǐng)域最有名的數(shù)據(jù)存儲庫。包含各種數(shù)據(jù)集,比如經(jīng)典的泰坦尼克號幸存預(yù)測到最新的數(shù)據(jù)(如空氣質(zhì)量和GPS軌跡)。
2、阿里天池:
https://tianchi.aliyun.com/
作為國內(nèi)互聯(lián)網(wǎng)龍頭阿里巴巴旗下的大數(shù)據(jù)競賽網(wǎng)站,提供了很多比賽數(shù)據(jù)集可以練手,說不定還能順手拿個獎,賺點獎金

3、Kaggle:
https://www.kaggle.com/datasets
Kaggle 是一個舉辦了多項機器學(xué)習(xí)競賽的數(shù)據(jù)科學(xué)社區(qū)。用戶可以自己上傳數(shù)據(jù)集,也可以通過某項競賽下載數(shù)據(jù)集,里面有不少別的平臺找不到的有趣數(shù)據(jù)集。

4、科賽網(wǎng):
https://www.kesci.com/home/project
這個網(wǎng)站提供了不少數(shù)據(jù)集可以免費下載,而且還有一些數(shù)據(jù)項目的比賽,不過整體來說項目的難度比較低,獎金也不是很多,學(xué)生參加的比較多,反正單純用來獲取數(shù)據(jù)集還是很不錯的

5、Quandl
這是一個包含經(jīng)濟與金融數(shù)據(jù)的倉庫。其中的部分信息是免費的,但是大部分?jǐn)?shù)據(jù)集需要購買,數(shù)據(jù)可以用來構(gòu)建經(jīng)濟指標(biāo)預(yù)測或者股價分析模型等等。

大型數(shù)據(jù)集
有時候你可能只是想找一些大型的數(shù)據(jù)集來進行分析,分析的結(jié)果可能并不重要,重要的只是對于數(shù)據(jù)的讀取與分析過程,練習(xí)數(shù)據(jù)處理能力,這里我也列舉幾個用的比較多的網(wǎng)站:
1、AWS 公開數(shù)據(jù)集:
https://www.amazon.com/aws
亞馬遜在其 Amazon Web Services 中提供了一些大型數(shù)據(jù)集可以免費下載,不過你得注冊一個aws賬戶,新用戶有免費訪問的權(quán)限

2、Google 公開數(shù)據(jù)集:
https://cloud.google.com/bigquery/public-data/
Google提供了一些數(shù)據(jù)集作為其Big Query工具的一部分。包括 GitHub 公共資料庫的數(shù)據(jù),Hacker News 的所有故事和評論。
3、youtube標(biāo)簽視頻數(shù)據(jù)集
:https://research.google.com/youtube8m/
youtube標(biāo)簽視頻數(shù)據(jù)集包括來自4800個可視化實體的800萬個youtube視頻ID和相關(guān)標(biāo)簽。它具有數(shù)十億幀的預(yù)計算的、最先進的視覺功能。






















