精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

數據科學“內戰”:統計vs.機器學習

大數據
和武俠世界里有少林和武當兩大門派一樣,數據科學領域也有兩個不同的學派:以統計分析為基礎的統計學派,以及以機器學習為基礎的人工智能派。而本文將從數據科學的研究目標和挑戰聊起,用幾個簡單的例子,對比數據科學圈這兩大門派之爭。

和武俠世界里有少林和武當兩大門派一樣,數據科學領域也有兩個不同的學派:以統計分析為基礎的統計學派,以及以機器學習為基礎的人工智能派。

 

[[231767]]

雖然這兩個學派的目的都是從數據中挖掘價值,但彼此“互不服氣”。

注重模型預測效果的人工智能派認為統計學派“固步自封”,研究和使用的模型都只是一些線性模型,太過簡單,根本無法處理復雜的現實數據;

而注重假設和模型解釋的統計學派則認為人工智能派搭建的模型缺乏理論依據、無法解釋,很難幫助我們通過模型去理解數據。

這一紛爭由來已久,很多研究者都對兩種研究方法的差異做過論述,***的一篇論文Statistical Modeling: The Two Cultures 來自random forrest的發明人Leo Breiman。

這篇文章發表于2001年,指出了當時出現在統計學中的另外一種文化,以及代表這種文化的兩種模型,隨機森林和svm,并指出這兩個模型顛覆了人們對于模型多樣性,模型復雜性-預測準確率矛盾,和維度災難的傳統認知,認為我們應該擁抱新文化,新模型。

而本文將從數據科學的研究目標和挑戰聊起,用幾個簡單的例子,對比數據科學圈這兩大門派之爭。

目標

數據科學是一門最近大火的新興學科。這門學科的目標十分簡單,就是如何從實際的生活中提取出數據,然后利用計算機的運算能力和模型算法從這些數據中找出一些有價值的內容,為商業決策提供支持。

傳統的數據分析手段是所謂的商業智能(business intelligence)。這種方法通常將數據按不同的維度交叉分組,并在此基礎上,利用統計方法分析每個組別里的信息。

比如商業智能中最常見的問題是:“過去3個月,通過搜索引擎進入網站并成功完成注冊的新用戶里,年齡分布情況如何?若將上面的用戶群按年齡段分組,各組中有多大比例的用戶在完成注冊后,完成了至少一次消費?”

這樣的分析是非常有用的,能揭示一些數據的直觀信息。但這樣的方法如同盲人摸象,只能告訴我們數據在某個局部的情況,而不能給出數據的全貌。而且對于某些問題,這樣的結果顯得有些不夠用。比如用戶注冊之后完成消費的比例與哪些因素相關?又比如對于某個客戶,他對某一產品的估計是多少?在這些場景下,我們就需要更加精細的數據分析工具—機器學習和統計模型。這些內容正是數據科學的核心內容。

 


圖1

挑戰

在數據科學實踐中,我們將使用較為復雜的機器學習或統計模型對數據做精細化的分析和預測。這在工程實現和模型搭建兩方面都提出了挑戰,如圖2所示。

工程實現的挑戰

數據科學在工程上的挑戰可以大致分為3類:特征提取、矩陣運算和分布式機器學習。

(1)一個建模項目的成功在很大程度上依賴于建模前期的特征提取。它包含數據清洗、數據整合、變量歸一化等。經過處理后,原本攪作一團的原始數據將被轉換為能被模型使用的特征。這些工作需要大量的自動化程序來處理,特別是面對大數據時,因為這些大數據無法靠“人眼”來檢查。在一個典型的建模項目中,這部分花費的時間遠遠大于選擇和編寫模型算法的時間。

(2)對于一個復雜的數學模型,計算機通常需要使用類似隨機梯度下降法的***化算法來估算它的模型參數。這個過程需要大量的循環,才能使參數到達收斂值附近。因此即使面對的是很小的數據集,復雜的模型也需要很長時間才能得到正確的參數估計。而且模型在結構上越復雜,需要估計的參數也就越多。

對這些大量的模型參數同時做更新,在數學上對應著矩陣運算。但傳統的CPU架構并不擅長做這樣的運算,這導致模型訓練需要耗費大量的時間。為了提高模型的訓練速度,需要將相應的矩陣運算(模型參數的估算過程)移植到GPU或者特制的計算芯片上,比如TPU。

(3)近年來,隨著分布式系統的流行和普及,存儲海量數據成為了業界的標配。為了能在這海量的數據上使用復雜模型,需要將原本在一臺機器上運行的模型算法改寫成能在多臺機器上并行運行,這也是分布式機器學習的核心內容。

 


圖2

模型搭建的挑戰

數據科學對模型搭建的要求也可以總結為3點:模型預測效果好、模型參數是穩定且“正確”的、模型結果容易解釋。

(1)模型的預測效果好,這是數據科學成功的關鍵。而一個模型的預測效果取決于它的假設是否被滿足。從數學上來看,任何一個模型除去假設部分,它的其他推導都是嚴謹的數學演算,是無懈可擊的。因此模型假設就像模型的阿喀琉斯之踵,是它唯一的薄弱環節。當問題場景或數據滿足模型假設時,模型的效果一定不會差,反之,則預測效果就無法保證了。

但在實際生產中,針對一個具體的問題,幾乎不可能找到一個模型,它的假設被***地滿足。這時就需要避重就輕,通過特征提取等手段,盡量避免違反那些對結果影響很大的假設。這就是為什么說“所有模型都是錯的,但是,其中有一些是有用的”。

(2)除了被用來對未知數據做預測外,模型另一個重要的功能就是對已有數據做分析,比如哪個變量對結果的影響***或者某個變量對結果到底是正向影響還是負向影響等。這些分析結果在很大程度上依賴于模型參數的估計值,后者的準確與否直接決定分析結果的質量。

但問題是,模型參數的估計值是不太“可靠”的。例如從訓練數據中隨機抽取兩個不完全一樣的數據子集A和B,然后用這兩個數據集分別訓練同一個模型,得到的參數估計值幾乎不可能完全一樣。

從數學的角度來看,這說明模型參數的估計值其實是一個隨機變量,具體的值取決于訓練模型時使用的數據。于是我們要求這些估計值是“正確”的:圍繞參數真實值上下波動(也就是說它們的期望等于參數真實值)。我們還要求這些估計值是穩定的:波動的幅度不能太大(也就是說它們的方法比較小)。這樣就可以把參數估計值的“不可靠性”控制在可接受的范圍內。

(3)數據科學家將模型搭建好,并不是一個數據科學項目的終點。為了充分發揮數據的價值,需要將模型結果應用到實際的生產中,比如為手機銀行APP架設實時反欺詐系統,或者將利用新搭建的車禍風險模型為汽車保險定價等。

參與這個過程的不僅有懂模型的數據科學家,還有更多非技術的業務人員。而后者往往是使用模型的主力,比如根據反欺詐系統的結果,對可疑用戶進行人工審核,又或者向客戶解釋為什么他的車險比別人貴。為了幫助他們更好地理解模型結果,需要將復雜深奧的模型翻譯成直觀的普通語言。這要求模型是能被解釋的,而且是容易被解釋的。

兩大門派

在學術上,通常將統計學派的模型稱為數據模型(data model),將人工智能派的模型稱為算法模型(algorithm model),如圖3所示。

數據模型的建模思路是假設數據的產生過程是已知的(或者是可以假設的),可以通過模型去理解整個過程。因此,這類模型通常具有很好的可解釋性,分析其穩定性的數學工具也很多,能很好地滿足上面提到的后兩點。但是在實際生產中,這些模型的預測效果并不好,或者更準確地說,單獨使用時,預測效果并不理想。

 


圖3

算法模型,也就是人工智能的核心內容,它們假設數據的產生過程是復雜且未知的。建模的目的是盡可能地從結構上“模仿”數據的產生過程,從而達到較好的預測效果。但代價是模型的可解釋性很差,而且模型穩定性的分析方法也不多。

事實上,統計學和機器學習在某些方面具有極好的互補性。因此在實際的生產中,為了將一個數據科學項目做得盡可能***,我們需要將這兩種思路結合起來使用。比如使用機器學習的模型對數據建模,然后借鑒數據模型的分析工具,分析模型的穩定性和給出模型結果的直觀解釋。

模型幻覺

雖然數據科學領域兩大門派的模型很多,但它們都特別依賴所使用的數據。但是數據就***可靠嗎?下面就來看兩個數據“說謊”的例子。

如圖4所示,我們將某APP每月的用戶注冊數表示在圖中。圖4a給人的直觀印象是每月的安裝數是大致差不多的,沒有明顯的增長。而圖4b給人不同的印象,從3月份開始,用戶注冊數大幅度增長。但其實兩幅圖的數據是一模一樣的,給人不同的感覺是因為圖4a中縱軸的起點是0,而且使用了對數尺度;而圖4b的縱軸是從17000開始的,而且使用的是線性尺度。

 


圖4

讀者可能會覺得上面這個例子太過簡單了,只需要使用一些簡單的統計指標,比如平均值或每個月的增長率,就可以避免錯誤的結論。那么下面來看一個復雜一點的例子。

當得到如圖5所示的兩組數據時,我們應該如何用模型去描述數據的變化規律呢?

對于圖5a,數據的圖形有點像拋物線,因此選擇二次多項式擬合是一個比較合理的選擇。于是假設模型的形式為y=(x-a)(x-b)。然后使用數據去估計模型中的未知參數a,b。得到的結果還不錯,模型的預測值與真實值的差異并不大。

 


圖5

對于圖5b,數據之間有明顯的線性關系,所以使用線性回歸對其建模,即y=ax+b。與上面類似,得到的模型結果也不錯。

根據上面的分析結果,可以得出如下的結論,圖5a中的x與y之間是二次函數關系,而圖5b的x與y之間是線性關系。但其實兩幅圖中的變量y都是與x無關的隨機變量,只是因為觀察窗口較小,收集的數據樣本太少,讓我們誤以為它們之間存在某種關系。如果增大觀察窗口,收集更多的數據,則可以得到完全不同的結論。

如圖6所示,如果將收集的樣本數從20增加到200,會發現圖6a中的數據圖形更像是一個向下開口的拋物線,這與圖5a中的結論完全相反。而圖6b中也不再是向下的直線,而與開口向上的拋物線更加相似。

 


圖6

上面的例子就是所謂的模型幻覺:表面上找到了數據變動的規律,但其實只是由隨機擾動引起的數字巧合。因此在對搭建模型時,必須時刻保持警惕,不然很容易掉進數據的“陷阱”里,被數據給騙了,而這正是數據科學的研究重點。這門學科會“小心翼翼”地處理它的各種模型,以確保模型能擺脫數據中隨機因素的干擾,得到穩定且正確的結論。

作者:唐亙,數據科學家

責任編輯:未麗燕 來源: 網絡大數據
相關推薦

2020-05-06 14:19:53

大數據數據科學機器學習

2017-05-10 09:26:41

機器學習深度學習

2021-01-13 16:04:07

網絡On-Prem托管

2019-02-27 08:50:02

機器學習人工智能

2018-06-26 12:17:19

2017-01-19 08:35:51

數據科學深度學習機器學習

2014-09-28 10:29:43

喬布斯施密特Android

2021-12-23 15:36:21

NASSANDAS

2024-09-12 22:45:47

2023-05-22 19:49:30

命令Linux

2020-08-25 09:14:17

對象存儲文件存儲塊存儲

2019-04-02 15:07:51

API NginxZuul

2025-02-18 16:00:00

代碼Python架構

2023-05-16 08:31:04

2019-08-19 09:31:47

數據機器學習統計學習

2021-02-22 10:59:43

人工智能機器學習深度學習

2011-07-29 11:10:44

ChromeIE9Firefox

2020-04-15 10:21:43

云計算AWSAzure

2020-11-24 13:25:20

數據保護存儲

2018-09-30 10:47:46

存儲件定義數據中心
點贊
收藏

51CTO技術棧公眾號

热久久这里只有| 欧美xxxx老人做受| 亚洲精品在线视频观看| 中日精品一色哟哟| 欧美高清视频在线观看mv| 欧美日本不卡视频| 国产高潮呻吟久久久| 国产日产亚洲系列最新| 欧美精品首页| 91福利小视频| 久久av秘一区二区三区| 午夜精品久久久久久久96蜜桃| 欧美日本久久| 亚洲精品一区二区网址 | 特黄特色欧美大片| 色综合久久久久久久久久久| 视频一区视频二区视频| 精品久久国产视频| 免费在线亚洲| 亚洲无av在线中文字幕| 国产欧美精品一二三| 超碰在线中文字幕| 久久九九国产精品| 成人精品在线观看| 亚洲s码欧洲m码国产av| 欧美精品自拍| 一本色道久久综合亚洲精品小说| 波多野吉衣在线视频| 成人午夜亚洲| 欧美三级免费观看| 欧美在线观看视频免费| 97视频在线观看网站| 9l国产精品久久久久麻豆| 成人有码在线视频| 中文字幕av第一页| 亚洲深夜av| 久久久久久午夜| 日日噜噜夜夜狠狠久久波多野| 五月国产精品| 欧美精品一区二区三区很污很色的| 性刺激的欧美三级视频| 樱桃视频成人在线观看| 亚洲一区二区在线播放相泽| 男人的天堂成人| 永久av在线| 久久女同精品一区二区| 鲁丝片一区二区三区| 色窝窝无码一区二区三区成人网站| 久久99精品久久久久久国产越南| 国产va免费精品高清在线观看 | 一区二区三区网站| 一区二区三区久久精品| 最新中文字幕视频| 希岛爱理av免费一区二区| 欧美精品一区二区三区一线天视频| 超碰中文字幕在线观看| 国产精品欧美一区二区三区不卡| 欧美三级中文字幕| 污版视频在线观看| 欧美成人免费全部网站| 欧美午夜寂寞影院| 在线观看免费视频高清游戏推荐| 粉嫩一区二区三区| 欧美亚洲综合一区| 色www免费视频| **精品中文字幕一区二区三区| 欧美日本国产一区| 四虎1515hh.com| 亚洲国产欧美在线观看| 精品国产一二三区| 色噜噜在线观看| 亚洲精品一级二级三级| 亚洲人成在线观| 色欲AV无码精品一区二区久久| 欧美亚洲高清| 久久视频免费观看| 国产亚洲精品久久久久久打不开| 亚洲人体偷拍| 日本精品久久中文字幕佐佐木| 精品国产午夜福利| 麻豆成人久久精品二区三区红| 国产欧美日韩高清| 亚洲国产精品欧美久久| av一区二区三区在线| 欧美精品免费观看二区| 中文字幕在线免费| 一区二区三区中文字幕电影| 日本a在线免费观看| 97久久香蕉国产线看观看| 欧美日韩国产一级二级| 任你躁av一区二区三区| 蜜桃成人av| 久久久精品视频成人| 国产在线观看成人| 天堂一区二区在线| 亚洲mm色国产网站| 欧美套图亚洲一区| 亚洲图片你懂的| 欧美日韩黄色一级片| 成人国产精品一区二区免费麻豆| 日韩视频123| 成人免费看aa片| 午夜国产欧美理论在线播放 | 国产精品亚洲天堂| а√天堂8资源在线| 欧美三级三级三级爽爽爽| 九色91porny| 国产欧美日韩| 久久久久九九九九| 岳乳丰满一区二区三区| 成人激情免费电影网址| 亚洲午夜精品久久久中文影院av| 超碰中文在线| 制服丝袜成人动漫| 青娱乐国产视频| 亚洲韩日在线| 91在线播放视频| aⅴ在线视频男人的天堂| 亚洲444eee在线观看| 在线观看免费的av| 精品一区在线| 国内精品久久久久久| 一级片视频播放| 久久久av毛片精品| 奇米影视亚洲色图| 精品视频一区二区三区| 亚洲图片在区色| 久久久久久久久久久久久av| 国产不卡视频在线播放| 激情五月五月婷婷| 欧美成人福利| 一本色道久久综合狠狠躁篇的优点| 国产又大又黑又粗免费视频| 国产精品一区二区视频| 亚洲一区尤物| 色综合天天色| 亚洲视频精品在线| 婷婷激情五月网| gogogo免费视频观看亚洲一| 国产爆乳无码一区二区麻豆 | 另类亚洲自拍| 国产一区二区三区av在线| 日本高清成人vr专区| 日韩亚洲欧美在线| www深夜成人a√在线| 蜜桃视频一区二区三区在线观看| 日本一区二区三区www| 亚洲欧洲自拍| 日韩精品免费在线观看| 天堂网一区二区三区| av一区二区三区在线| 久久这里只有精品8| 9l亚洲国产成人精品一区二三| 欧美另类第一页| 精品久久久久久亚洲综合网站| 亚洲欧美区自拍先锋| 欧美成人乱码一二三四区免费| 日本精品三区| 成人免费淫片aa视频免费| 免费在线你懂的| 日韩一级片网站| 久久久久久久久久久久久久久久久 | 88av.com| 999国产精品视频| 亚洲最大成人在线| 超碰在线97国产| 亚洲精品久久7777777| 日本一区二区三区精品| 日本一区二区免费在线观看视频 | 美女黄色片网站| 精品中文在线| 午夜精品久久久久久久白皮肤 | 天堂8在线天堂资源bt| 超碰精品在线| 国产91精品久久久久久| 粉嫩一区二区三区国产精品| 欧美网站一区二区| 国产av无码专区亚洲av毛网站| 国产福利不卡视频| 99精品在线免费视频| 成久久久网站| 爱情岛论坛亚洲入口| 亚洲精华液一区二区三区| 最近2019中文免费高清视频观看www99| 夜夜嗨av禁果av粉嫩avhd| 亚洲乱码国产乱码精品精可以看| 亚洲一区二区三区黄色| 老司机午夜精品视频在线观看| 一区高清视频| 露出调教综合另类| 国产日韩专区在线| caoporn-草棚在线视频最| 一道本无吗dⅴd在线播放一区| 国产精品无码久久久久成人app| 亚洲国产成人高清精品| 精品成人无码一区二区三区| 国产呦精品一区二区三区网站| 欧美午夜小视频| 欧美国产美女| 免费一区二区三区| 日韩免费一级| 国产精品成人国产乱一区| 在线免费av导航| 国产一区二区日韩精品欧美精品| 99精品在线视频观看| 色又黄又爽网站www久久| 日本妇女毛茸茸| 久久日一线二线三线suv| 三上悠亚 电影| 美国三级日本三级久久99| 久久国产精品网| 亚洲精品2区| 亚洲欧洲日韩精品| 亚州av一区| 草莓视频一区| 亚洲一区av| 国产精品高潮呻吟久久av无限| 538在线视频| 久久高清视频免费| www 日韩| 亚洲欧美日韩网| 色欲久久久天天天综合网| 欧美美女黄视频| 久久久久久亚洲av无码专区| 偷窥少妇高潮呻吟av久久免费| 国产传媒免费在线观看| 欧美国产一区二区在线观看| 国产中文字幕一区二区| 成人aaaa免费全部观看| 91香蕉视频在线观看视频| 久久精品国产色蜜蜜麻豆| 亚洲中文字幕久久精品无码喷水| 国产欧美日韩一区二区三区在线| 欧美激情亚洲天堂| 欧美午夜一区| 久草视频这里只有精品| 国一区二区在线观看| 韩国黄色一级大片| 亚洲国产一区二区在线观看| 麻豆md0077饥渴少妇| 天天射成人网| 精品一区二区成人免费视频| 久久精品青草| ijzzijzzij亚洲大全| 欧美电影免费播放| 亚洲伊人婷婷| 伊人色**天天综合婷婷| 久久99国产精品一区| 亚洲欧洲日韩| 999久久欧美人妻一区二区| 欧美视频不卡| 亚洲国产精品无码av| 99在线精品免费视频九九视| 麻豆tv在线播放| 国产精品久久久久9999高清| 久久9精品区-无套内射无码| 久久蜜桃资源一区二区老牛| 色一情一乱一伦一区二区三区日本| 日韩一区精品视频| 亚洲欧美视频二区| 精品一区二区三区免费观看| 波多野结衣电影免费观看| 成人激情免费电影网址| 久久久久国产精品区片区无码| 久久久青草青青国产亚洲免观| 国产中年熟女高潮大集合| 欧美国产日韩在线观看| 国产麻豆视频在线观看| 亚洲综合色区另类av| 99精品视频99| 欧美网站一区二区| 国产v在线观看| 亚洲国产日韩欧美在线99| 能在线看的av| 日韩日本欧美亚洲| 日韩电影免费观看| 2020久久国产精品| 激情久久一区二区| 97人人澡人人爽| 亚洲妇女av| 一区二区不卡在线视频 午夜欧美不卡' | 国产极品美女在线| 亚洲午夜一二三区视频| 好看的av在线| 欧美精品亚洲一区二区在线播放| 成人毛片在线精品国产| 亚洲人成亚洲人成在线观看| 超碰在线caoporn| 2019精品视频| 韩国精品视频在线观看 | 成人午夜免费福利| 国产亚洲视频在线观看| www视频在线免费观看| 7m精品福利视频导航| 亚洲欧美在线综合| 久久天天狠狠| 综合av在线| mm1313亚洲国产精品无码试看| 国产福利一区二区三区视频| 无码熟妇人妻av| 夜夜精品浪潮av一区二区三区| 天天干天天色综合| 精品国产免费人成在线观看| av在线免费观看网| 国内精品伊人久久| 91成人精品观看| 欧美激情视频一区二区三区| 欧美精品啪啪| 亚洲一区精品视频在线观看| 91免费在线看| 精品无码av在线| 欧美久久久久久久久久| 久蕉在线视频| 久久久久国产精品免费| 精品国产一区二| 日韩一区二区电影在线观看| 国产一区二区三区成人欧美日韩在线观看 | 欧美视频www| 欧美一a一片一级一片| 水莓100在线视频| 久久久久在线观看| 玖玖玖电影综合影院| 亚洲成人自拍视频| 久久美女性网| 中文字幕 亚洲一区| 亚洲黄色av一区| 国产理论片在线观看| 中文一区二区视频| 久久uomeier| 精品蜜桃一区二区三区| 亚洲第一区色| 久久精品无码专区| 亚洲欧美一区二区不卡| 国产一区二区在线视频聊天| 伊人av综合网| а√天堂资源国产精品| 欧洲精品久久| 久久夜色精品| 国产精品无码久久久久一区二区| 亚洲成av人综合在线观看| 国精产品一品二品国精品69xx| 欧美精品在线视频观看| 欧美日韩黄网站| 日本高清视频免费在线观看| 国产精品99久久久久久有的能看| 人与动物性xxxx| 欧美精品在线观看一区二区| 黄色网址在线免费观看| 成人在线观看视频网站| 牛牛国产精品| 亚洲视频天天射| 亚洲宅男天堂在线观看无病毒| 亚洲女人18毛片水真多| 欧美极品在线视频| 日本成人中文| av五月天在线| 国产精品久久久99| 国产三级伦理片| 欧美二区乱c黑人| 国内精品国产成人国产三级粉色| 日韩人妻无码精品久久久不卡| 99精品欧美一区二区三区综合在线| 天天爽夜夜爽夜夜爽精品| 亚洲欧美中文日韩在线| 本网站久久精品| 日本在线视频www色| 国产·精品毛片| 亚洲 欧美 日韩 综合| 国产一区二区三区毛片| 高清一区二区| 日本丰满少妇xxxx| 国产亚洲成aⅴ人片在线观看| 在线视频1卡二卡三卡| 欧美日韩电影在线观看| 欧美日韩麻豆| www.超碰com| 一区二区在线观看视频在线观看| 欧美性猛交 xxxx| 国产精品成人va在线观看| 中文字幕一区二区精品区| www.88av| 欧美日韩成人综合| 9999在线视频| 亚洲乱码国产乱码精品天美传媒| 国产麻豆成人精品| 欧美性猛交bbbbb精品| 日韩视频在线观看免费| 美女午夜精品| 国产又粗又长又爽又黄的视频| 午夜精品福利一区二区三区av| fc2在线中文字幕| 国产精品国产精品国产专区不卡| 久久中文在线| 全程偷拍露脸中年夫妇| 亚洲美女精品久久| 91午夜精品| 亚洲一级免费观看| 天天做天天摸天天爽国产一区| 欧美私人网站| 欧美日韩国产高清视频|