從學界到業界:關于數據科學的誤解與事實
在從學界(粒子物理學博士后研究員)進入業界(數據科學領域)時,Emily Thompson也曾有過猶疑。而現在,在擔任Insight項目總監10個月之后,她對數據科學家有了自己獨特的看法。近日,她在一篇文章中就當前人們對數據科學的誤解談了自己的看法,主要涉及數據科學家的職責、應用領域、工作環境、職業發展、技能集合等方面。。
誤解一:“‘數據科學家’只是‘業務分析師’的一種花哨叫法,他們本質上是相同的”
在數據科學領域,業務分析師仍然占了很大一部分,而數據科學家也構建數據產品,創建軟件平臺,實現可視化和儀表板,開發前沿機器學習算法。“數據科學家”與“分析師”的***差別可能是角色的獨立性水平。傳統的業務分析師需要別人給他們提供已經做過清理并打包好的數據供他們使用;而數據科學家必須是熟練的程序員,他們能夠抽取、轉換、加載數據,對其他團隊的依賴較少。
誤解二:“數據科學沒什么用,我未必會進入廣告行業,或成為一名股市分析員”
數據科學的應用領域同數據科學領域本身一樣多樣化。計量金融和廣告是使用數據挖掘的兩個相對傳統的行業。醫療行業正在經歷一場數據革命??纱┐骷夹g讓收集、聚合、分析大量個人數據成為可能,從如何恰當地鍛煉到睡眠如何影響情緒。多媒體是另一個數據科學的重大應用領域。比如,像News Corp.、The New York Times和Bloomberg等大型媒體公司都雇用數據科學家研究讀者行為和讀者保持;Netflix通過數據分析實現影片推薦;灣區創業公司 Samba TV借助機器學習技術實現內容推薦。
誤解三:“我希望對世界產生積極的影響……為公司賺錢似乎與此存在利益沖突”
為營利公司工作與對人們的生活產生積極影響并不沖突。例如,Premise是一家實時經濟數據跟蹤平臺。他們使用機器學習技術來發現一些不易發現的問題,比如,幫助發展銀行將錢投資到有需要的鄰國,Stitch Fix使用機器學習技術從庫存商品中選擇客戶喜歡的衣服等等。
誤解四:“在學術領域,我自己說的算,我喜歡這種自由。我不認自己適合公司結構的環境”
企業結構確實跟學術組織不同,但現如今,在以數據為中心的企業中,那種狂人風格也不是那么普遍。如果你是初創公司最初的成員之一,那么你還有機會影響公司的發展方向。而像Facebook和LinkedIn這樣的大公司會分成若干較小的工作組,以保留初創公司的工作氛圍。雖然可能會有團隊負責人,但數據科學團隊是高度協作的。而且,越來越多的公司實現了在家工作策略,數據科學家可以擁有“***”假期。
誤解五:“我覺得,如果不知道未來10年我的職業生涯是個什么樣子,就貿然離開學術界,風險太大。要是我就職的公司跨了怎么辦?”
不管在哪里,職業生涯都不是可以預測的。數據科學家在一家公司任職的時間平均為3到4年。數據科學家會留在有挑戰的崗位上,但一段時間之后,會尋找新的挑戰。好處是,數據科學領域有許多選擇,而且正在不斷發展,對數據科學家的需求很高。在任何一家公司任職,不管成功與否,都會獲得寶貴的經驗。在找***份數據科學工作時,最看中的應該是一個可以從同事那里學得大量知識的協作環境。另一個需要關注的點是,在從學界進入業界時,要努力構建一個強大的關系網絡(參加聚會、出席數據大會),它能為你提供建議和其他團隊的內部信息。
誤解六:“數據科學是泡沫”
有人認為,一旦數據分析實現自動化,數據科學家的角色就不存在了。但數據量正呈指數增長,沒有任何跡象表明從數據中尋找答案的需求會慢下來。即使數據科學的某些部分可以自動化,但這個行業仍然需要數據科學家的技能。數據可能會很亂,無法應用恰當的工具或者無法了解所有相關的特性,這會產生有誤導性的結果。而且,受過良好訓練的數據科學家對數據有更好的理解,他們是大數據時代應對數據挑戰的***人選。
誤解七:“我擔心自己不具備成為數據科學家的技能”
編碼能力強很重要,但數據科學不全是軟件工程。數據科學家集編碼、統計分析和判斷思維于一身。廣受歡迎的硬技能、統計知識、編碼能力是一名優秀數據科學家的基本工具。還有一項不容易明確定義的技能,就是博士研究員階段所接受的良好訓練。但是,要成為一名數據科學家,并一定要有物理、統計或計算機科學學位。June Andrews的研究顯示,在LinkedIn從事數據科學工作的人所擁有的學位差別很大。數據科學本身就具有多學科的特點,而且一些公司開始使用領域專屬的數據。因此,只要有量化思維,喜歡擺弄數據,對數據如何引導你提出和回答問題心存好奇,那么你就可以脫離學術界,進入數據科學領域。



























