精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

算法工程師為什么成天做數據,都做哪些數據?

新聞 大數據 算法
國外有一個著名的大佬(我忘記名字了)曾經說過,算法工程師有70%的時間是投入在數據上的,花在模型和調參上的只有不到20%。

[[353273]]

 

為什么很少做模型

在大家想象當中,可能算法工程師做的事情是今天看paper,明天把paper實現了,后天就上線使用,然后公司的收入刷刷漲,我們的工資、級別也跟著漲。但實際上,大多數崗位下的工程師日常并不是這樣。國外有一個著名的大佬(我忘記名字了)曾經說過,算法工程師有70%的時間是投入在數據上的,花在模型和調參上的只有不到20%。

這句話大家可能或多或少都聽過,但是想必都不是很理解,為什么會這樣呢?為什么不能多花點時間做模型呢?原因也很簡單,并非不想,而是不能。

不能的原因也很有很多,我隨便舉幾個最常見的。

框架限制

模型不能隨便動的原因有很多,一般來說最常見的是框架的限制。這種情況在大公司和小公司里都有,比如之前我在某大公司的時候,公司的框架非常成熟,以至于很少寫代碼去實現某一個模型,而更多的是可視化界面的連線以及設置操作。問題來了,在這個場景當中,可視化界面當中可選的模型是固定的,都是基礎團隊開發好的,他們開發好了這么多模型,我們就只能使用這么多模型,除非我們脫離這整個流程,但顯然這是不可能的。

所以當時在很長的一段時間里,我們只能在有限的模型當中做選擇。直到后來,公司開發出了新的框架工具,可以讓我們自己定制神經網絡的代碼實現深度模型,這才鳥槍換炮迎來了全面升級。

小公司雖然不像大公司這樣有一套成熟且不易改動的框架,但是一般也會有自己的一套流程。比如公司前人留下來鏈路是基于開源xgboost開發的,你想要使用TensorFlow訓練神經網絡模型代替原有的xgboost,一般來說這是肯定有效果的,也一定會迎來提升。但問題是,你可能需要把訓練模型、線上調用模型的整個鏈路都重構。很多算法工程師的開發能力不太行,而且也不太愿意做工程重構的事情,再加上這塊工作量也不小,所以很容易出現的情況就是,大家都明知道怎么做比較好,但是由于投入比較多,大家也都不愿意做,一直delay。

效果難保證

第二個原因是paper上的一些模型和做法,效果其實是很難保證的。如果你讀過paper會發現paper的結論往往都有很多前提。比如某某特定的數據或者是場景,前期強大的recall以及過濾系統,或者是完善的特征準備等等。paper里不會把這些都寫出來,它只會寫上做法以及結果。所以這就導致了,很多paper里寫得天花亂墜的方法,實際應用起來效果可能并不好。

這也不是paper吹牛,而是你沒有同樣的條件。舉個例子,阿里的數據埋點非常精準,精準到用戶從打開app到關閉app的每一個動作和行為都有記錄,每一個商品或者是模塊在用戶處展示了多少時間,甚至是用戶翻頁的速度都有全面完整的記錄。就這種數據,一般規模的小公司根本做不了。你做不了這個數據,你就沒有paper里那些精準的特征。那你如何保證你使用阿里的模型也有同樣的效果呢?

優先級問題

我們都知道,事情根據緊急以及重要可以分成四類,不重要不緊急、緊急不重要、緊急且重要、重要不緊急。很多人也都知道,最重要的事情是把那些重要且不緊急的事情做好。說起來大家都會說,但是實際上未必人人都會這么選。

當你面臨KPI考核壓力的時候,一線的工程師可能就只能盯著緊急的事情做。因為他們需要趕緊做出一點成績來完成自己的業績,完成自己業績的最好方法絕不是去升級或者是更新模型,而是找一些特征做一做,或者是使用一些取巧的方法看看能否提升效果。花時間去更新模型,付出的勞動很大,也不一定有效果。但是做特征代價很小,做了一個沒效果,可以再做一個,迭代也快。

這其實并不完全是工程師鼠目寸光,也是整個職場氛圍的影響的結果。大家都看重業績和績效,以至于大家都陷入了局部最優解,但是卻離整體最優解越來越遠。

要想避免這種情況,需要有高瞻遠矚、統籌規劃的架構師或者是leader,能夠抗住升級模型的風險壓力。對可能出現的情況以及將來要做的事情有充足、詳細的規劃,并且有足夠的經驗應對各種可能出現的事情。但是大家也都知道,擁有這種能力的leader在職場里鳳毛麟角。大公司里都不多見,小公司里就更加難得了。

做哪些數據

說完了模型的問題,我們來聊聊數據,既然不能頻繁地變更模型,工程師們就只能更多地來做數據了,那么工程師們到底又在做哪些數據,需要花費這么多時間呢?

訓練數據

大公司里有完整的流程,我們把流程設計好了之后,訓練數據、測試數據、模型訓練以及部署可以一條龍流水線作業。但是在中小型公司里,這往往是做不到的。

原始數據是不能直接用來訓練模型的,這中間需要復雜的處理流程。首先,需要做采樣。就拿CTR預估的場景來舉例,一般情況下真實場景下的點擊率不會超過10%。但是模型訓練一般正負樣本的比例是1:3左右,那么這就需要我們對負樣本進行采樣。

采樣你還不能直接采,因為可能這些樣本當中還存在很多臟數據或者是非法的數據。我們需要先把這些有問題的數據過濾了之后,再進行采樣,這樣才能保證我們的數據是干凈的。采樣了之后,我們需要進行特征和字段的查找補全。因為數據往往是分開存儲的,比如用戶的基礎信息是一張表,用戶的行為數據又是一張表,商品的信息是一張表,各種各樣的數據存放在各種各樣的地方。我們有了樣本之后,還需要去查找很多的數據,才能把所有需要用到的字段搜集齊。

當我們搜集了所有需要的數據之后,我們才能開始真正樣本的制作,也就是使用這些我們查找以及搜集到的原始數據生成輸入模型的樣本特征。每一個特征可能都有自己獨特的生成邏輯,這也是一個龐大的工程。這一步做完還沒結束,還會需要把數據轉化成模型需要的格式。比如tfdata或者是tensor、json之類的。

這么一系列步驟,大公司一般都有一整套完整的自動調度流程, 工程師們不需要操心,只需要拿來用就好了。但是在中小型公司,可能就只有一些手動工具了,需要數據都需要手工去跑一些任務或者是腳本。跑的過程當中還有可能會失敗以及遇到各種問題,雖然說起來平平無奇,也沒什么價值,但這些事情都是需要工作量的。

新的特征

特征怎么做?在kaggle之類比賽當中,可能就是使用pandas寫兩個函數,或者是幾行處理的邏輯就搞定了。但實際上絕不是這么簡單。

我舉一個最簡單的例子好了,比如我們將年齡進行歸一化,做成一個標準化年齡的特征。這個簡單吧,我們就用比較簡單的最大最小值歸一化方法好了,公式是:

算法工程師為什么成天做數據,都做哪些數據?

歸一化之后,這個特征值會被縮放到0-1的區間里。但是這里面用到了兩個參數,一個是最大值,一個是最小值。這兩個參數怎么來?你可能會覺得這還不簡單,我們遍歷下數據不就知道了。但問題是這個數據你并不是只用一次,以后每次生成訓練數據都需要生成這個特征,難道每次跑的時候都手動遍歷一下數據找下最大最小值嗎?而且數據是在變化的,每一天用戶年齡的最大和最小值可能都不一樣,假如說我們要跑好幾天的訓練數據怎么辦?

設計一個新的特征是簡單的,但是里面的一些參數會讓事情變得復雜,我們往往需要設計復雜的機制來將新完成的特征加入流程。

效果分析

還有一塊數據處理的大頭在效果分析,效果分析有兩種,第一種是做一些之前沒有的指標以及相關的分析,或者是應老板的要求做一些業務指標的分析,達成我們的績效。

比如像是最基礎的CTR、CVR、收入等數據,也有像是老板臨時起意想要看的某些數據。比如分析一下某些特征的分布,比如看一下某個特定族群中樣本的數量或者是數據的情況,等等等等,不一而足。

第二種是我們模型做出來之后的效果分析,如果說模型的效果還,那還好。如果效果不好,問題就來了,我們怎么樣確定是哪里出了問題?是因為模型本身的性能不足呢?還是我們的特征不夠或者是特征當中存在問題呢?還是我們的數據質量不高呢?還是說什么地方存在bug呢?

算法不像是工程,工程當中絕大多數事情是確定的,結果不對一定是因為邏輯有bug,那么只要仔細測試,分析原因,總能解決。那種難以復現,找不到原因的問題非常罕見。但是算法不一樣,大多數情況下并沒有絕對的錯誤和正確,甚至沒有絕對的原因。我們扮演的角色更多地像是偵探,根據一些蛛絲馬跡推測導致問題的原因,然后用實驗嘗試著解決,在這個過程當中就涉及到大量的數據處理和分析的工作。

比如,如果你懷疑是某些特征分布有問題導致了模型效果不好,那么你需要分析特征的分布。如果你懷疑是數據存在bug,那么你需要設計方案,篩選數據,仔細甄別數據當中的問題,驗證自己的想法。如果你覺得是訓練數據量不夠,那么你需要增大訓練量,設計對比實驗……總之,想要排查問題都需要大量的數據分析,絕不僅僅是看看代碼,想一想就能有結論的。

感想

很多想要從事算法的人真正做了算法之后,往往會有幻滅感。會有一種強烈的面試造航母,入職擰螺絲的感覺。原因也很簡單,我們面試的時候問的是各種各樣的模型,各種先進的理念和方法,但是入職之后面臨的工作卻是各種各樣的數據分析以及數據準備。比如我當年大部分時間都在寫SQL做數據,我一度懷疑公司的職位安排。

但當我理解了這一切的運作機制之后,我就理解了。實際的工作場景和線上算法比賽不同,線上比賽我們可以使用各種各樣的trick來提升成績。還可以搞各種跨界混搭,比如今年的騰訊算法大賽的冠軍的做法就是把BERT應用在了用戶行為分析的場景下。但是在實際的場景當中,由于系統以及各方面的制約,這些想法都是很難實現的而且效果也難保證,最終還是要落實到基本的數據支撐上來。

打個不確切的比方,各種各樣的算法模型就好像是工具箱里的各式工具,我們僅僅了解工具是沒用的。最重要的是要理解使用工具的場景,從而可以根據需要選擇最合適的工具。但很遺憾的是,我們對數據以及場景的理解是很難量化的,所以面試的時候只能退而求其次問你工具的使用了,長此以往很多人本末倒置,搞錯了核心競爭力,出現對面試的種種非議也就不奇怪了。

 

責任編輯:張燕妮 來源: 今日頭條
相關推薦

2015-08-19 13:32:04

2021-10-13 09:00:00

大數據數據工程師工具

2017-11-09 14:12:44

大數據軟件工程師算法工程師

2021-03-24 15:15:34

數據工程師開發工具

2023-03-11 22:10:20

數據工程師算法數據庫

2021-01-29 17:26:03

大數據開發工程師

2020-08-05 08:25:58

大數據Java技術

2019-04-26 14:27:07

大數據數據科學數據工程師

2021-03-23 10:04:55

數據工程師工具數據分析

2015-03-17 15:29:03

創業公司后端工程師應用開發

2009-02-11 13:15:54

軟件工程師女工程師google

2023-11-02 11:49:22

2018-06-03 14:26:00

阿里工程師內網代碼

2013-03-04 09:55:39

工程師軟件工程師

2017-05-05 10:45:45

大數據動向

2020-12-18 11:55:27

編程面試

2016-04-08 14:32:32

全棧工程師世界

2015-03-04 10:03:09

2017-10-05 07:08:16

數據工程師ETL數據集

2018-11-15 15:55:44

前端工程師Web云計算
點贊
收藏

51CTO技術棧公眾號

麻豆蜜桃在线观看| 国产日韩精品在线看| 影音国产精品| 国产亚洲精品美女| 欧美日韩理论片| 国产盗摄——sm在线视频| 中文字幕的久久| 国产精品久久久久久久小唯西川 | 日韩有码一区二区三区| 久久精品夜夜夜夜夜久久| 超碰97在线资源站| 国产一区二区三区免费在线| 欧美日韩另类在线| 熟女熟妇伦久久影院毛片一区二区| 你懂的网站在线| 美女任你摸久久| 91大神福利视频在线| 日本在线一级片| 精品一二三区| 日韩av中文字幕在线播放| 911福利视频| 香蕉成人av| 亚洲国产欧美日韩另类综合| 亚洲精品永久www嫩草| 少妇激情av一区二区| 国产精品亚洲成人| 国产一区欧美二区三区| 国内自拍视频在线播放| 亚洲精品九九| 美日韩精品免费观看视频| 人人爽人人爽人人片| 久久影院资源站| 日韩欧美国产精品一区| 亚洲涩涩在线观看| 麻豆精品蜜桃| 欧美日韩视频免费播放| 日韩精品在线观看av| 成人video亚洲精品| 国产精品久久看| 欧美综合77777色婷婷| 视频二区在线观看| 成人av在线播放网站| 999国产在线| 国产手机精品视频| 激情伊人五月天久久综合| 国产精品国产自产拍高清av水多| 成人公开免费视频| 一本不卡影院| 78色国产精品| 欧美黑人一区二区| 视频一区中文字幕国产| 日韩美女视频免费在线观看| 九九精品免费视频| 久久精品盗摄| 国产精品www网站| 日日夜夜狠狠操| 水野朝阳av一区二区三区| 日本精品一区二区三区在线播放视频| 国产a∨精品一区二区三区仙踪林| 亚洲小说欧美另类婷婷| 国a精品视频大全| 1级黄色大片儿| 久久国产免费| 国产精品高清免费在线观看| 中文字幕欧美人妻精品| 麻豆91精品视频| 91免费国产网站| 亚洲精品一区二区三区新线路| 国产成人自拍网| 国内一区二区三区在线视频| 欧美日韩激情视频一区二区三区| 久久久久久久性| 视频一区免费观看| 黄av在线播放| 婷婷久久综合九色综合伊人色| 欧美牲交a欧美牲交| 电影天堂国产精品| 欧美精品一卡两卡| 欧美xxxx日本和非洲| 欧美日韩导航| 色999日韩欧美国产| 黄色在线观看免费| av成人黄色| 国产中文字幕91| 狠狠综合久久av一区二区| 久久一留热品黄| 一区二区三区四区不卡| 牛牛电影国产一区二区| 一本到不卡免费一区二区| 黄色小视频免费网站| 精品五月天堂| 一本大道久久加勒比香蕉| 欧美人妻精品一区二区免费看| 男女精品网站| 99精品国产一区二区| 国产精品一级伦理| 亚洲宅男天堂在线观看无病毒| 欧美三级午夜理伦三级| 精品中文字幕一区二区三区| 亚洲乱码av中文一区二区| 日本激情视频一区二区三区| 中文一区二区| 亚洲自拍av在线| 国产主播福利在线| 亚洲在线视频一区| 一区二区三区 日韩| 国产精品视屏| 久久夜色精品国产欧美乱| 国产原创视频在线| 国产白丝精品91爽爽久久| 欧美日韩大片一区二区三区| 亚洲综合影视| 欧美日韩一卡二卡| 欧美黑人欧美精品刺激| 亚洲一级特黄| 91精品视频在线| 九九热视频在线观看| 亚洲成a人片在线不卡一二三区| av污在线观看| 欧美日韩在线播放视频| 91超碰caoporn97人人| 亚洲精品国产av| 亚洲婷婷综合久久一本伊一区| 日本一极黄色片| 福利在线一区| 欧美高清电影在线看| 中文字幕精品在线观看| 久久精品夜夜夜夜久久| 国产男女在线观看| 日韩成人动漫在线观看| 欧美极品欧美精品欧美视频 | 欧美乱大交做爰xxxⅹ性3| 无码久久精品国产亚洲av影片| aaa欧美日韩| 黄色一级片黄色| 精品欧美视频| 裸体女人亚洲精品一区| 在线免费观看日韩视频| 久久久久久久久99精品| 成年人在线看片| 在线日韩网站| 国产精品www色诱视频| 黄色av免费在线观看| 色哟哟在线观看一区二区三区| jlzzjizz在线播放观看| 亚洲神马久久| 精品一区久久久久久| 日韩理论视频| 日韩精品极品视频免费观看| 特级毛片www| 久久午夜老司机| 日韩精品一区二区三区不卡| 国产精品午夜一区二区三区| 国产精品久久999| 在线看黄色av| 7777精品伊人久久久大香线蕉的| www.av免费| 国产白丝网站精品污在线入口| 国产无限制自拍| 天海翼精品一区二区三区| 日本不卡免费高清视频| 国产高清在线观看| 欧美精品亚洲二区| 麻豆changesxxx国产| aa级大片欧美| 亚洲一区在线不卡| 911久久香蕉国产线看观看| eeuss一区二区三区| 97蜜桃久久| 一本大道久久加勒比香蕉| 91成年人视频| 亚洲二区在线观看| 扒开jk护士狂揉免费| 美女视频免费一区| 精品国产一区二区三区无码| 香蕉人人精品| 成人免费午夜电影| f2c人成在线观看免费视频| 亚洲欧美国产制服动漫| 91亚洲国产成人精品一区| 亚洲一区二区在线观看视频| aaaaa级少妇高潮大片免费看| 免费人成在线不卡| 无码 制服 丝袜 国产 另类| 国产一区二区三区探花 | 激情视频综合网| 久久久久久久久丰满| 国产一区二区三区高清视频| 黄色精品视频| 欧美日本亚洲视频| 黄色大片在线看| 精品三级在线看| 久久精品偷拍视频| 亚洲综合另类小说| 538精品视频| 成人免费视频网站在线观看| wwwwxxxx日韩| 亚洲激情另类| 男同互操gay射视频在线看| 欧美a级网站| 97国产超碰| 日本国产欧美| 国内精品久久久久影院优| 一级毛片视频在线| 亚洲精品国产免费| www.成人在线观看| 在线免费不卡电影| 亚洲欧美在线观看视频| 亚洲三级视频在线观看| 亚洲一区二区三区日韩 | 黄色片网站免费| 粉嫩av亚洲一区二区图片| 国产又猛又黄的视频| 一区二区三区精品视频在线观看| 干日本少妇视频| 欧洲激情综合| 久久一区二区精品| 国产精品宾馆| 亚洲自拍高清视频网站| 欧美视频在线视频精品| 国产成人av在线| 免费在线小视频| 国产做受高潮69| 污视频网站在线免费| 久久精品国产电影| 国产黄色在线播放| 国产亚洲精品久久久优势| 天天操天天操天天| 国内自拍偷拍视频| 日本午夜精品久久久久| 欧美综合一区第一页| 国产网红在线观看| 欧美大片在线影院| 伊人精品影院| 欧美日韩第一页| 午夜羞羞小视频在线观看| 久热99视频在线观看| 网友自拍视频在线| 中文字幕亚洲二区| 波多野结衣在线网站| 国产一区二区美女视频| 精华区一区二区三区| 亚洲人成欧美中文字幕| 国产中文字幕在线播放| 影音先锋日韩有码| 成人高清网站| 日韩在线免费高清视频| 国产精品剧情一区二区在线观看| 日韩一区二区精品视频| 国产精品一卡二卡三卡| 欧美噜噜久久久xxx| 波多野结依一区| 97视频免费看| 欧美91看片特黄aaaa| 国产精品成人免费视频| 国产黄色精品| 亚洲综合中文字幕在线| jizz性欧美23| 久久99久久99精品蜜柚传媒| 亚洲婷婷影院| 亚洲午夜精品一区二区三区| 久久久久久免费视频| 日韩一二区视频| 中文精品视频| 久久久国产欧美| 国产一区在线看| 娇妻高潮浓精白浆xxⅹ| 久久久精品tv| 欧美肥妇bbwbbw| 亚洲午夜av在线| 波多野结衣电影在线播放| 91.麻豆视频| 免费看国产片在线观看| 亚洲欧美日韩天堂一区二区| 在线免费看黄| 久久久久成人精品| 中文字幕av一区二区三区佐山爱| 国产欧美久久一区二区| 日本精品国产| 日本一区视频在线| 欧美在线黄色| 免费无码av片在线观看| 久久 天天综合| 午夜男人的天堂| 中文在线资源观看网站视频免费不卡 | 成人免费三级在线| 欧美特级黄色录像| 一区二区三区四区乱视频| 一级做a爰片久久毛片| 5月丁香婷婷综合| 四虎在线视频| 不卡伊人av在线播放| 男人av在线播放| 成人一区二区电影| 伊人春色精品| 在线观看av的网址| 蜜臀av性久久久久蜜臀aⅴ| 风韵丰满熟妇啪啪区老熟熟女| 国产日韩欧美麻豆| 国产极品在线播放| 91麻豆精品国产91久久久 | 精品国产欧美一区二区三区成人| 超碰99在线| 91视频8mav| 国产精品日韩精品中文字幕| 日韩xxxx视频| 精品一区二区三区在线视频| 成人性生交大免费看| 亚洲成a人v欧美综合天堂下载| 国产农村老头老太视频| 国产一区二区三区网站| 国产夫妻在线| 99热国产免费| 国产精品99一区二区三| wwwwww.色| 91蜜桃视频在线| 欧美日韩精品区| 欧美精品一区二区三区在线| 怡红院在线播放| 91久久国产精品| 日本欧美肥老太交大片| 无码日韩人妻精品久久蜜桃| 99v久久综合狠狠综合久久| 免费人成视频在线| 欧美精品色一区二区三区| 成人18在线| 国产成+人+综合+亚洲欧洲| 天天躁日日躁狠狠躁欧美| 日韩精品一区二区三区视频在线观看 | 暖暖在线中文免费日本| 成人黄色免费片| 大片网站久久| 天天影视综合色| 久久综合狠狠综合久久综合88| 日本熟妇一区二区| 精品欧美一区二区在线观看| www.在线视频| 91手机视频在线观看| 99久久这里只有精品| www.久久91| 国产精品久久久久久久久久免费看 | 免费亚洲婷婷| 好吊一区二区三区视频| 香蕉久久一区二区不卡无毒影院 | 国产一区二区三区日韩欧美| 亚洲电影观看| 欧美一级爽aaaaa大片| 亚洲av无码一区二区三区dv| 亚洲一区二区欧美激情| 国产黄色片av| 欧美日韩高清在线观看| 日韩欧美一级| 大陆av在线播放| 成人高清视频在线观看| 精品在线视频免费| 亚洲精品久久久一区二区三区| 色多多在线观看| 久久久久欧美| 日本一区中文字幕| frxxee中国xxx麻豆hd| 日韩视频国产视频| 999福利在线视频| 欧美一区二区三区四区在线观看地址 | 国产精品亚洲人成在99www| 精品国产成人av在线免| 欧美国产激情二区三区| 国产裸体无遮挡| 欧美极度另类性三渗透| 一本久久青青| 九九九九九九九九| 亚洲国产sm捆绑调教视频| 四虎影院在线播放| 国产精品三级网站| 欧美涩涩网站| 91精品小视频| 欧美日韩国产在线播放网站| 中文字幕在线播放网址| 久久精品日产第一区二区三区| 青青草国产精品亚洲专区无| 极品魔鬼身材女神啪啪精品| 亚洲国产91色在线| aaaa欧美| 成人午夜视频在线观看免费| 久久精品视频网| 国产精品视频无码| 91精品国产99| 99精品视频在线| 人妻无码中文久久久久专区| 欧美三级视频在线播放| 黄网av在线| 日日夜夜精品网站| 国产91精品一区二区麻豆亚洲| 亚洲不卡在线视频| 欧美成年人视频| 国产精品羞羞答答在线观看| 免费在线观看日韩av| 欧美最猛性xxxxx直播| 黄页网站在线| 成年人黄色在线观看| 久久一夜天堂av一区二区三区|