這個GitHub項目幫你從頭開始學數(shù)據(jù)科學
從頭開始學習數(shù)據(jù)科學的免費資源。
如何入門數(shù)據(jù)科學?
這個 GitHub 項目提供了一份免費學習資源,既包括超詳細的學習路線圖,又涵蓋多個免費線上課程、大量數(shù)據(jù)科學項目和 100 多本免費機器學習書籍,項目上線數(shù)天即獲得 2.4k 星。
項目地址:https://github.com/therealsreehari/Learn-Datascience-for-Free#5_-expressions
該項目收集了散布在網(wǎng)絡上的不同資源,并按照一定的順序進行組合,以幫助數(shù)據(jù)科學初學者解決如何搜索免費和結(jié)構(gòu)化學習資源的問題。項目作者表示,該項目將基于新的免費資源持續(xù)更新。
數(shù)據(jù)科學家學習路線圖

「磨刀不誤砍柴工。」該項目首先詳細介紹了一份數(shù)據(jù)科學路線圖,羅列了數(shù)據(jù)科學學習者需要掌握的內(nèi)容:
基礎(chǔ)知識(矩陣和代數(shù)基礎(chǔ)等);
統(tǒng)計學(概率論、貝葉斯定理等);
編程;
機器學習;
文本挖掘 / 自然語言處理;
數(shù)據(jù)可視化;
大數(shù)據(jù);
數(shù)據(jù)獲取;
數(shù)據(jù)再加工(Data Munging);
工具箱。
成為數(shù)據(jù)科學家需要掌握的基礎(chǔ)知識
在成為數(shù)據(jù)科學家之前,你需要掌握關(guān)于矩陣的理論知識,了解其操作方式,熟悉矩陣的各種變換。項目作者還向我們介紹了多種數(shù)據(jù)結(jié)構(gòu),包括哈希函數(shù)、二叉樹等。
以二叉樹為例,項目作者解釋了什么是二叉樹:「在計算機科學中,二叉樹是一種樹數(shù)據(jù)結(jié)構(gòu),其中每個節(jié)點最多具有兩個子節(jié)點,稱為左子節(jié)點和右子節(jié)點。」

二叉樹
除了矩陣知識以外,數(shù)據(jù)科學初學者還需掌握關(guān)系代數(shù)、數(shù)據(jù)庫基礎(chǔ)知識、CAP 原理、ETL 等多達十多個知識點(有些部分還在更新中)。
統(tǒng)計學
該項目介紹了許多關(guān)于統(tǒng)計學的知識,包括數(shù)據(jù)集的選擇、描述性統(tǒng)計、探索性數(shù)據(jù)分析、直方圖、概率論、貝葉斯定理等內(nèi)容。
以探索性數(shù)據(jù)分析為例,項目作者從數(shù)據(jù)的可視化和分析兩方面著手,向我們介紹了完成整個數(shù)據(jù)分析任務需要的開發(fā)環(huán)境、依賴庫、安裝方式以及分析方式。

點擊 Seaborn 鏈接,可進入 Seaborn 主頁,該圖為鏈接到的主頁內(nèi)容。
在數(shù)據(jù)分析方面,項目作者介紹了 PCA 降維方法,幫助學習者了解什么是主成分分析,以及如何在 Python 中實現(xiàn)。
編程
成為數(shù)據(jù)科學家離不開編程,該項目介紹了需要掌握的編程語言 Python、R setup/R studio 等內(nèi)容。以 R setup / R studio 為例,項目作者介紹了兩種安裝方式 Linux、Windows。但是本部分內(nèi)容還有許多待補充知識。

待補充內(nèi)容
機器學習
該項目還列舉了掌握數(shù)據(jù)科學需要了解的機器學習知識,包括數(shù)值變量、分類變量、監(jiān)督學習、無監(jiān)督學習、訓練集和測試集、分類器、過擬合、偏差和方差、支持向量機等 30 項內(nèi)容。
以支持向量機為例,項目作者首先介紹了支持向量機的作用——可用于分類和回歸任務,接著用簡單明了的語言解釋了支持向量機的原理。此外,項目作者還列舉了關(guān)于支持向量機的其他知識,讀者可通過鏈接自行學習。

支持向量機
除了上述介紹的內(nèi)容外,項目作者還整理了文本挖掘、數(shù)據(jù)可視化等內(nèi)容,此處不再贅述。
免費線上課程
該項目基于 GitHub 用戶 Developer-Y 的項目整理了大量線上免費課程的資源,包括人工智能、機器學習、機器人學三個主要部分。其中機器學習部分又細分為機器學習導論、數(shù)據(jù)挖掘、數(shù)據(jù)科學、概率圖模型、深度學習、強化學習、進階版機器學習課程、基于機器學習的自然語言處理與計算機視覺、時序分析、概率與統(tǒng)計學、線性代數(shù)等。

該項目提供的免費線上課程列表部分截圖。
從該項目列表中,我們可以看到熟悉的吳恩達機器學習課程,以及來自卡內(nèi)基梅隆大學、斯坦福大學、蘇黎世聯(lián)邦理工學院、加州大學伯克利分校、微軟等機構(gòu)的豐富課程資源。
人工智能開源項目
此外,該項目還羅列了大量人工智能開源項目,涵蓋機器學習、深度學習、自然語言處理、計算機視覺這些領(lǐng)域。
這一資源來自 AI 研究者、數(shù)據(jù)科學家 Ashish Patel 創(chuàng)建的 GitHub 庫,目前包含 71 個條目,點開鏈接即可獲取相應的項目和代碼資源。

項目列表部分截圖。
從目前的列表中,我們可以看到它包括目標檢測、聊天機器人、GUI、無監(jiān)督學習、回歸分析、情感分析、推薦系統(tǒng)、數(shù)據(jù)科學、NLP、計算機視覺等細分領(lǐng)域的相關(guān)項目資源。蓋列表將持續(xù)更新。
100+ 免費機器學習書籍
項目作者整理了一份來自 Insane 的機器學習書籍列表文章。該列表在 2021 年 1 月份剛剛更新過,包括我們熟悉的「花書」《深度學習》,以及主題為圖算法、自然語言處理、數(shù)據(jù)挖掘、GAN、Python 等的書籍。

圖源:https://www.theinsaneapp.com/2020/12/download-free-machine-learning-books.html
項目作者表示,希望這些免費資源能夠幫助到無法支付教育費用的人們,從頭開始掌握數(shù)據(jù)科學。






























