精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

數據科學家易犯的十大編碼錯誤,你中招了嗎?

開發 開發工具 前端
我是一名高級數據科學家,在 Stackoverflow 的 python 編碼中排前 1%,而且還與眾多(初級)數據科學家一起工作。下文列出了我常見到的 10 個錯誤。

數據科學家比軟件工程師擅長統計,又比統計學家擅長軟件工程。聽起來牛逼轟轟,事實卻是,許多數據科學家有統計學背景,卻沒有什么軟件工程方面的經驗,因此在編碼時容易犯一些簡單的錯誤。作為一名高級數據科學家,本文作者總結了他在工作中常見數據科學家犯的十大錯誤。

數據科學

我是一名高級數據科學家,在 Stackoverflow 的 python 編碼中排前 1%,而且還與眾多(初級)數據科學家一起工作。下文列出了我常見到的 10 個錯誤。

1. 沒有共享代碼中引用的數據

數據科學需要代碼和數據。所以為了讓其他人能夠復現自己做出來的結果,你需要提供代碼中涉及的數據。這看起來很簡單,但許多人會忘記共享代碼中需要的數據。

  1. import pandas as pd 
  2. df1 = pd.read_csv('file-i-dont-have.csv') # fails 
  3. do_stuff(df) 

解決方案:用 d6tpipe 共享代碼中的數據文件,或者將數據文件上傳到 S3/網頁/Google 云等,還可以將數據文件保存到數據庫中,以便收件人檢索文件(但不要將數據添加到 git 中,這一點后面的內容會講到)。

2. 硬編碼其他人無法訪問的路徑

和錯誤 1 類似,如果硬編碼其他人無法訪問的路徑,他們就沒法運行你的代碼,而且在很多地方都必須要手動修改路徑。Booo!

  1. import pandas as pd 
  2. df = pd.read_csv('/path/i-dont/have/data.csv') # fails 
  3. do_stuff(df) 
  4. # or  
  5. impor os 
  6. os.chdir('c:\\Users\\yourname\\desktop\\python') # fails 

解決方案:使用相對路徑、全局路徑配置變量或 d6tpipe,這樣其他人就可以輕易訪問你的數據了。

3. 將數據和代碼混在一起

既然數據科學代碼需要數據,為什么不將代碼和數據存儲在同一個目錄中呢?但你運行代碼時,這個目錄中還會存儲圖像、報告以及其他垃圾文件。亂成一團!

  1. ├── data.csv 
  2. ├── ingest.py 
  3. ├── other-data.csv 
  4. ├── output.png 
  5. ├── report.html 
  6. └── run.py 

解決方案:對目錄進行分類,比如數據、報告、代碼等。參閱 Cookiecutter Data Science 或 d6tflow 項目模板,并用問題 1 中提到的工具存儲以及共享數據。

  • Cookiecutter Data Science:https://drivendata.github.io/cookiecutter-data-science/#directory-structure
  • d6tflow 項目模板:https://github.com/d6t/d6tflow-template

4. 用 Git 提交數據

大多數人現在都會版本控制他們的代碼(如果你沒有這么做那就是另一個問題了!)。在共享數據時,可能很容易將數據文件添加到版本控制中。對一些小文件來說這沒什么問題。但 git 無法優化數據,尤其是對大型文件而言。

  1. git add data.csv 

解決方案:使用問題 1 中提到的工具來存儲和共享數據。如果你真的需要對數據進行版本控制,請參閱 d6tpipe、DVC 和 Git Large File Storage。

  • DVC:https://dvc.org/
  • Git Large File Storage:https://git-lfs.github.com/

5. 寫函數而不是 DAG

數據已經討論得夠多了,接下來我們談談實際的代碼。你在學編程時,首先學的就是函數,數據科學代碼主要由一系列線性運行的函數組成。這會引發一些問題,詳情請參閱「4 Reasons Why Your Machine Learning Code is Probably Bad。」

地址:

https://towardsdatascience.com/4-reasons-why-your-machine-learning-code-is-probably-bad-c291752e4953

  1. def process_data(data, parameter): 
  2.     data = do_stuff(data) 
  3.     data.to_pickle('data.pkl') 
  4. data = pd.read_csv('data.csv') 
  5. process_data(data) 
  6. df_train = pd.read_pickle(df_train) 
  7. model = sklearn.svm.SVC() 
  8. model.fit(df_train.iloc[:,:-1], df_train['y']) 

解決方案:與其用線性鏈接函數,不如寫一組有依賴關系的任務。可以用 d6tflow 或者 airflow。

6. 寫 for 循環

和函數一樣,for 循環也是你在學代碼時***學的。這種語句易于理解,但運行很慢且過于冗長,這種情況通常表示你不知道用什么替代向量化。

  1. x = range(10) 
  2. avg = sum(x)/len(x); std = math.sqrt(sum((i-avg)**2 for i in x)/len(x)); 
  3. zscore = [(i-avg)/std for x] 
  4. # should be: scipy.stats.zscore(x) 
  5. # or 
  6. groupavg = [] 
  7. for i in df['g'].unique(): 
  8.     dfdfg = df[df[g']==i] 
  9.     groupavg.append(dfg['g'].mean()) 
  10. # should be: df.groupby('g').mean() 

解決方案:NumPy、SciPy 和 pandas 都有向量化函數,它們可以處理大部分你覺得需要用 for 循環解決的問題。

7. 沒有寫單元測試

隨著數據、參數或者用戶輸入的改變,你的代碼可能會中斷,而你有時候可能沒注意到這一點。這就會導致錯誤的輸出,如果有人根據你的輸出做決策的話,那么錯誤的數據就會導致錯誤的決策!

解決方案:用 assert 語句檢查數據質量。Pandas 也有相同的測試,d6tstack 可以檢查數據的獲取,d6tjoin 可以檢查數據的連接。檢查數據的示例代碼如下:

  • d6tstack:https://github.com/d6t/d6tstack
  • d6tjoin:https://github.com/d6t/d6tjoin/blob/master/examples-prejoin.ipynb
  1. assert df['id'].unique().shape[0] == len(ids) # have data for all ids? 
  2. assert df.isna().sum()<0.9 # catch missing values 
  3. assert df.groupby(['g','date']).size().max() ==1 # no duplicate values/date? 
  4. assert d6tjoin.utils.PreJoin([df1,df2],['id','date']).is_all_matched() # all ids matched? 

8. 沒有注釋代碼

我明白你急著做分析。于是你把代碼拼湊起來得到結果,把結果交給你的客戶或者老板。一周之后他們找到你,問你「你能改掉 xyz 嗎?」或「你能更新一下結果嗎?」。然后你和自己的代碼大眼瞪小眼,既不記得你為什么要這么做,也不記得你做過什么。現在想象一下其他人運行這段代碼時的心情。

  1. def some_complicated_function(data): 
  2.     datadata = data[data['column']!='wrong'] 
  3.     datadata = data.groupby('date').apply(lambda x: complicated_stuff(x)) 
  4.     datadata = data[data['value']<0.9
  5.     return data 

解決方案:即便你已經完成了分析,也要花時間注釋一下你做過什么。你會感謝自己的,當然其他人會更加感謝你!這樣你看起來會更專業!

9. 把數據存成 csv 或 pickle

說回數據,畢竟我們討論的是數據科學。就像函數和 for 循環一樣,CSV 和 pickle 文件也很常用,但它們其實并沒有那么好。CSV 不包含模式(schema),所以每個人都必須重新解析數字和日期。Pickle 可以解決這一點,但只能用在 Python 中,而且不能壓縮。這兩種格式都不適合存儲大型數據集。

  1. def process_data(data, parameter): 
  2.     data = do_stuff(data) 
  3.     data.to_pickle('data.pkl') 
  4. data = pd.read_csv('data.csv') 
  5. process_data(data) 
  6. df_train = pd.read_pickle(df_train) 

解決方案:用 parquet 或者其他帶有數據模式的二進制數據格式,***還能壓縮數據。d6tflow 可以自動將數據輸出存儲為 parquet,這樣你就不用解決這個問題了。

parquet:https://github.com/dask/fastparquet

10. 使用 Jupyter notebook

這個結論還有一些爭議——Jupyter notebook 就像 CSV 一樣常用。很多人都會用到它們。但這并不能讓它們變得更好。Jupyter notebook 助長了上面提到的許多不好的軟件工程習慣,特別是:

  • 你會把所有文件存在一個目錄中;
  • 你寫的代碼是自上而下運行的,而不是 DAG;
  • 你不會模塊化你的代碼;
  • 代碼難以調試;
  • 代碼和輸出會混合在一個文件中;
  • 不能很好地進行版本控制。

Jupyter notebook 很容易上手,但規模太小。

解決方案:用 pycharm 和/或 spyder。

原文鏈接:

https://medium.com/m/global-identity?redirectUrl=https%3A%2F%2Ftowardsdatascience.com%2Ftop-10-coding-mistakes-made-by-data-scientists-bb5bc82faaee

【本文是51CTO專欄機構“機器之心”的原創譯文,微信公眾號“機器之心( id: almosthuman2014)”】 

戳這里,看該作者更多好文

責任編輯:趙寧寧 來源: 51CTO專欄
相關推薦

2018-05-28 14:55:56

職業錯誤程序員

2019-04-09 09:00:01

數據科學代碼編寫

2018-08-10 08:35:49

2020-08-03 10:37:01

Python編程語言工具

2021-01-07 08:12:08

自學編程學習

2009-01-05 18:53:53

服務器管理

2009-08-26 09:44:18

2018-07-05 16:40:07

區塊鏈數字貨幣比特幣

2020-02-24 00:08:11

疫情數據科學家數據科學

2020-04-09 15:32:20

數據科學AutoML代智能

2021-08-16 14:00:27

手機科技功能

2024-04-26 00:15:51

2017-08-04 15:53:10

大數據真偽數據科學家

2010-09-02 13:28:55

CSS

2019-01-08 16:25:42

數據科學機器學習神經網絡

2018-12-24 08:37:44

數據科學家數據模型

2012-12-06 15:36:55

CIO

2012-12-26 10:51:20

數據科學家

2018-10-25 10:36:50

物聯網誤區IOT

2019-07-25 08:08:33

SQLJavaMySQL
點贊
收藏

51CTO技術棧公眾號

国内一区二区三区| 日韩影片中文字幕| av电影天堂一区二区在线观看| 91国内在线视频| 亚洲一区二区自偷自拍| 999色成人| 欧美日韩一区二区三区在线免费观看| 亚洲精品久久久久久一区二区| 国产又粗又长又大视频| 亚洲精品孕妇| 久久久999国产精品| 日批在线观看视频| 午夜不卡一区| 色综合天天天天做夜夜夜夜做| 精品一区二区成人免费视频| 男人天堂资源在线| 国产大陆a不卡| 国产成人精品一区| 日韩精品乱码久久久久久| 精品国产一区二区三区小蝌蚪 | 日本一本中文字幕| 9i精品一二三区| 成人aa视频在线观看| 国产日韩换脸av一区在线观看| 豆国产97在线 | 亚洲| 国产一区二区三区探花| 精品国产伦一区二区三区观看体验 | 天堂亚洲精品| 国产精品精品国产色婷婷| 国产一区二区三区色淫影院| 国产精品一区二区黑人巨大| 日韩av在线发布| 97精品视频在线观看| 天天操天天操天天操天天操天天操| 欧美精品第一区| 日韩av在线看| 欧美极品jizzhd欧美仙踪林| 日韩精品久久久久久久软件91| 欧美色手机在线观看| www国产黄色| 色戒汤唯在线观看| 性欧美疯狂xxxxbbbb| 国产91在线亚洲| 制服丝袜中文字幕在线| 亚洲人成精品久久久久| 一本色道久久综合亚洲二区三区| 美女欧美视频在线观看免费| 91免费在线播放| 久久精彩视频| 飘雪影视在线观看免费观看| 99re66热这里只有精品3直播| 国产精品视频500部| 精品人妻一区二区三区蜜桃| 国产精品一区二区在线看| 91欧美精品午夜性色福利在线| 中文字幕免费观看视频| 日本va欧美va欧美va精品| 日韩免费中文字幕| 看黄色一级大片| 美女脱光内衣内裤视频久久网站| 国产精品国产亚洲伊人久久| 亚洲天堂国产精品| 另类人妖一区二区av| 成人福利免费观看| 国产美女免费视频| 国产91精品一区二区麻豆亚洲| 成人三级在线| 亚洲三级中文字幕| 国产日韩欧美不卡在线| 亚洲精品日韩精品| 成人影院www在线观看| 一区二区三区中文字幕电影| 99热久久这里只有精品| 免费成人在线电影| 日本福利一区二区| 黄大色黄女片18第一次| 经典三级久久| 精品国产乱码久久| 国产特黄级aaaaa片免| 成久久久网站| 久热精品在线视频| 九一国产在线观看| 老司机免费视频一区二区三区| 91传媒免费看| 亚州男人的天堂| 国产精品―色哟哟| 人妻互换免费中文字幕| 中文字幕 在线观看| 欧美日韩国产大片| 丰满岳乱妇一区二区| 少妇精品久久久一区二区三区| 日韩在线视频观看正片免费网站| 天天看片中文字幕| 久久精品人人做人人爽电影蜜月| 国产欧美中文字幕| 欧美特级特黄aaaaaa在线看| 国产亚洲婷婷免费| 国产爆乳无码一区二区麻豆| 欧美xxxx做受欧美护士| 日韩亚洲欧美中文三级| 一卡二卡三卡四卡| 欧美精品不卡| 国产精国产精品| 亚洲国产精品久久久久久6q| 欧美韩国一区二区| 99在线观看视频免费| 桃子视频成人app| 日韩美女一区二区三区| 精品国产成人亚洲午夜福利| 欧美婷婷在线| 国产免费一区二区三区在线能观看 | 91精品国产色综合久久不卡粉嫩| 亚洲精品第一页| 免费成人深夜夜行网站| 欧美全黄视频| 国产精品久久电影观看| 国产精品国产高清国产| 亚洲激情在线激情| 一道本在线免费视频| 网友自拍一区| 欧美激情一区二区三区久久久 | 日韩精品视频在线观看免费| 一区二区视频免费看| 日韩一区精品视频| 久久www免费人成精品| 在线免费观看污| 欧美日韩电影在线| 香蕉视频久久久| 亚洲影音一区| 激情视频一区二区| eeuss鲁一区二区三区| 日韩一级视频免费观看在线| 麻豆一区在线观看| 欧美a一区二区| 日韩高清在线播放| 欧美成人ⅴideosxxxxx| 精品视频—区二区三区免费| 欧美激情国产精品免费| 国产一区二区三区免费| 午夜精品一区二区在线观看的| 在线天堂中文资源最新版| 亚洲国产美女精品久久久久∴| 青青草免费av| 国产精品99久久久久久久vr | 色婷婷在线播放| 日韩一区二区精品在线观看| 国产av 一区二区三区| 国产综合色产在线精品| 欧美一级黄色录像片| 成人午夜888| 欧美精品免费播放| 成人h动漫精品一区二区无码 | 屁屁影院ccyy国产第一页| 日本少妇精品亚洲第一区| 理论片在线不卡免费观看| 国产99视频在线| 亚洲国产精品久久人人爱| 久久性爱视频网站| 国产日韩免费| 青青成人在线| 日韩亚洲国产免费| 久久天堂av综合合色| 国产欧美一级片| 亚洲一区二区三区中文字幕在线 | 国产又大又粗又长| 亚洲女同ⅹxx女同tv| 中文字幕人妻熟女在线| 一区二区三区国产在线| 婷婷五月色综合| 国产在线不卡一区二区三区| 久久91亚洲精品中文字幕奶水 | 在线精品91av| 国产精品高潮呻吟AV无码| 亚洲午夜精品17c| 中文字幕一二三四区| 秋霞电影网一区二区| dy888午夜| 欧美毛片免费观看| 国产精品av免费在线观看| 老司机精品视频在线观看6| 精品国产第一区二区三区观看体验| 成人免费区一区二区三区| 国产午夜精品福利| 久久精品无码一区二区三区毛片| 国产亚洲网站| 一区不卡字幕| 人妖一区二区三区| 国产精品网址在线| 岛国av免费在线观看| 视频直播国产精品| 免费看av毛片| 欧美日韩一区二区电影| 国产精品1000| 国产精品私人影院| 国产伦精品一区三区精东| 蜜臀精品久久久久久蜜臀| 亚洲色成人www永久在线观看| 精品一区av| 国产高清精品一区| 深夜福利亚洲| 日本久久久久久久久| 污网站在线免费看| 日韩在线观看视频免费| 少妇荡乳情欲办公室456视频| 欧美视频一区在线| 国产成人在线播放视频| 亚洲色图在线视频| 精品无码国产污污污免费网站| 粉嫩av亚洲一区二区图片| 9久久婷婷国产综合精品性色| 在线成人h网| 欧美少妇一级片| 欧美日韩水蜜桃| 久久er99热精品一区二区三区 | 日本一区二区在线视频观看| 日韩欧美中文字幕一区二区三区| 国产精品6699| 交100部在线观看| 欧美大片第1页| 人人干在线视频| 伊人久久久久久久久久| 亚洲aaa在线观看| 日韩女同互慰一区二区| 97在线播放免费观看| 在线观看欧美精品| 久久精品一二区| 午夜a成v人精品| 麻豆一区二区三区精品视频| 亚洲欧洲中文日韩久久av乱码| 性欧美精品中出| 久久综合久久综合久久| 亚洲av成人无码一二三在线观看| 国产精品一二一区| 青娱乐国产精品视频| 国产一区二区三区综合| 国产亚洲视频一区| 久久99热这里只有精品| 色悠悠久久综合网| 蜜桃一区二区三区四区| 国产一级不卡毛片| 日本中文字幕不卡| 亚洲黄色小视频在线观看| 久热综合在线亚洲精品| 欧美成人黑人猛交| 天堂蜜桃一区二区三区| 国产a级一级片| 石原莉奈一区二区三区在线观看| 国产成人无码一二三区视频| 免费久久99精品国产自在现线| 欧美变态另类刺激| 另类亚洲自拍| 国产xxxxx视频| 免费在线看成人av| 91国内在线播放| 国产成人在线观看| 伦理片一区二区| 91浏览器在线视频| 免费人成又黄又爽又色| 中文字幕欧美日韩一区| 少妇高潮在线观看| 亚洲激情av在线| 日韩免费一二三区| 一本久久精品一区二区| 这里只有久久精品视频| 欧美久久久久中文字幕| www.麻豆av| 亚洲激情视频在线| 黄色片在线播放| 色狠狠av一区二区三区香蕉蜜桃| 国产在线观看91| 韩国精品美女www爽爽爽视频| 小早川怜子影音先锋在线观看| 人人澡人人澡人人看欧美| 国外成人福利视频| 成人免费视频网站| 免费久久精品| 99精品视频网站| 亚洲精品人人| 色多多视频在线播放| 国产福利电影一区二区三区| 国产高清自拍视频| 中文字幕一区二区三区在线播放| 久久国产精品波多野结衣| 色悠悠久久综合| 99国产精品99| 亚洲女人天堂视频| 国产视频在线播放| 欧美在线日韩在线| 久久天堂久久| 日本在线视频不卡| 国产精品av久久久久久麻豆网| 男人天堂网视频| 国产一区二区影院| 91视频免费观看网站| 一区二区三区四区乱视频| 无码人妻精品一区二区| 日韩限制级电影在线观看| 久草视频视频在线播放| 欧美疯狂性受xxxxx另类| 日韩不卡免费高清视频| 91文字幕巨乱亚洲香蕉| 欧美久久精品一级c片| 欧美狂野激情性xxxx在线观| 美腿丝袜亚洲色图| 国产福利短视频| 亚洲一级二级三级| 夜夜嗨av禁果av粉嫩avhd| 日韩乱码在线视频| av影片在线| 亚洲淫片在线视频| 日韩欧美中文| 欧美成人精品欧美一级乱| 成人性生交大片免费看中文网站| 欧美成人久久久免费播放| 欧美性猛交xxxx黑人| 亚洲精品免费在线观看视频| 日韩一区视频在线| av免费在线一区| 久久精品中文字幕一区二区三区 | 亚洲风情在线资源站| 国产精品久久免费| 一区二区三区视频在线 | 国产综合婷婷| 亚洲欧美天堂在线| 中文子幕无线码一区tr | 欧美一二区视频| 黄网页在线观看| 国产精品永久免费| 欧美三级三级| 91淫黄看大片| 久久久激情视频| 久久国产视频精品| 日韩美女av在线| 中文字幕影音在线| 快播亚洲色图| 国产女优一区| 国产夫妻性爱视频| 色综合咪咪久久| 人人九九精品| 欧美在线日韩在线| 九色精品国产蝌蚪| 三级在线免费看| 国产精品天天看| 亚洲天堂中文网| 精品国产一区av| 91麻豆精品| 999久久欧美人妻一区二区| 国产不卡视频一区二区三区| 免费一级片视频| 亚洲精品97久久| 都市激情亚洲综合| 青娱乐一区二区| 久久精品国产精品青草| 2014亚洲天堂| 日韩欧美一卡二卡| 搞黄网站在线看| 久久久久高清| 日韩高清欧美激情| 91免费在线看片| 日韩欧美电影一区| 国产99re66在线视频| 欧美成人dvd在线视频| 日韩黄色免费电影| 亚洲一区电影在线观看| 欧美不卡在线视频| 乱馆动漫1~6集在线观看| 欧美人与性禽动交精品| 美国一区二区三区在线播放 | 狠狠躁夜夜躁人人爽天天天天97| 日韩av资源| 国产美女高潮久久白浆| 欧美精品97| 一本色道久久综合亚洲精品图片| 色视频成人在线观看免| 黄色动漫在线| 国产在线精品一区二区三区》| 视频一区中文字幕国产| 精品国产国产综合精品| 亚洲国产欧美日韩精品| 色天使综合视频| 女人色极品影院| 国产日韩欧美一区二区三区综合| 国产日产亚洲系列最新| 91精品国产免费久久久久久| 欧美成人激情| 人妻 日韩 欧美 综合 制服| 欧美三级资源在线| 免费毛片在线看片免费丝瓜视频| 欧美日韩精品免费观看| 国产一区二区三区四区五区入口| 欧美性猛交bbbbb精品| 日韩一区二区欧美| 天堂99x99es久久精品免费| 加勒比av中文字幕| 精品国产乱码久久久久久婷婷| 中文字幕日本在线观看| 国产一区在线观| 精品一区二区日韩| 九九九在线观看| 久久久久亚洲精品成人网小说|