精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

機器學(xué)習(xí)之特征工程深度解析

譯文 精選
人工智能 機器學(xué)習(xí)
機器學(xué)習(xí)不僅要求算法找出優(yōu)質(zhì)模式,提供算法所真正需要的數(shù)據(jù)類型也非常重要。本文將探索機器學(xué)習(xí)中的特征工程相關(guān)算法,借助這些算法可以創(chuàng)建新的特征并對其進行處理,以優(yōu)化機器學(xué)習(xí)模型。

譯者 | 朱先忠

審校 | 重樓

引言

你一定聽說過“garbage in, garbage out(輸入的垃圾數(shù)據(jù)會導(dǎo)致輸出的垃圾結(jié)果)”這句諺語,這句話在訓(xùn)練機器學(xué)習(xí)模型時確實適用。如果我們使用不相關(guān)的數(shù)據(jù)來訓(xùn)練機器學(xué)習(xí)模型,那么即使是最好的機器學(xué)習(xí)算法也無濟于事。相反,即使使用簡單的機器學(xué)習(xí)算法,使用精心設(shè)計的有意義的特征也可以獲得卓越的性能。那么,我們?nèi)绾尾拍軇?chuàng)建這些有意義的特征,從而最大限度地提高我們模型的性能呢?答案是特征工程。

當(dāng)使用傳統(tǒng)的機器學(xué)習(xí)算法,如回歸、決策樹、支持向量機和其他需要數(shù)字輸入的算法時,特征工程尤其重要。然而,創(chuàng)建這些數(shù)字輸入可不僅僅是關(guān)于數(shù)據(jù)技能的問題。這是一個需要創(chuàng)造力和領(lǐng)域知識的過程,而且它擁有與科學(xué)一樣多的藝術(shù)特征。

從廣義上講,我們可以將特征工程分為兩個部分:1)創(chuàng)建新的特征;2)處理這些特征,使其在所使用的機器學(xué)習(xí)算法中進一步優(yōu)化。在本文中,我們將討論特征工程的這兩個組成部分相關(guān)的跨區(qū)段、結(jié)構(gòu)化、非NLP數(shù)據(jù)集等內(nèi)容。

創(chuàng)建新特征

原始數(shù)據(jù)收集可能會讓人筋疲力盡,而且在這項任務(wù)結(jié)束時,我們可能太累了,以至于無法投入更多的時間和精力來創(chuàng)建其他特征。但這正是我們必須抵制直接投入到模型訓(xùn)練的誘惑的地方。我向你保證,這種做法是非常有價值的!

在這個轉(zhuǎn)折點上,我們應(yīng)該停下來問問自己,“如果我根據(jù)我的領(lǐng)域知識手動進行預(yù)測,哪些特征會幫助我做好工作呢?”問這個問題可能會為我們的模型創(chuàng)造新的有意義的特征開辟可能性;否則,我們的模型可能會錯過這些特征。一旦我們考慮了我們可能從中受益的其他特征,那么我們就可以利用以下技術(shù)從原始數(shù)據(jù)中創(chuàng)建新的特征。

1.聚合

顧名思義,這種技術(shù)可以幫助我們組合多個數(shù)據(jù)點,以創(chuàng)建更全面的視圖。我們通常使用計數(shù)、求和、平均值、最小值、最大值、百分位數(shù)、標(biāo)準(zhǔn)差和變異系數(shù)等標(biāo)準(zhǔn)函數(shù)對連續(xù)數(shù)字?jǐn)?shù)據(jù)進行聚合運算。每個函數(shù)可以捕獲不同的信息元素,使用的最佳函數(shù)取決于具體的使用場景。通常,我們可以在特定的時間或事件窗口上應(yīng)用聚合技術(shù),這在特定問題的上下文中是極其有意義的。

讓我們舉一個例子,我們想預(yù)測給定的信用卡交易是否是欺詐性的。對于這個使用場景,我們無疑可以使用特定于交易的特征,但除了這些特征之外,我們還可以從創(chuàng)建聚合的客戶級特征中受益,如:

  • 客戶在過去五年中成為欺詐受害者的次數(shù):一個客戶以前曾多次成為欺詐受害者,更有可能再次成為欺詐受害者。因此,使用這種聚合的客戶級視圖可以提供適當(dāng)?shù)念A(yù)測信號。
  • 最后五筆交易金額的中位數(shù):通常,當(dāng)信用卡受損時,欺詐者可能會嘗試進行多次小數(shù)額交易來測試信用卡。現(xiàn)在,小數(shù)額交易非常常見,可能不是欺詐的跡象,但如果我們在短時間內(nèi)連續(xù)看到許多此類交易,這可能表明信用卡受損。對于這樣的情況,我們可以考慮創(chuàng)建一個將最后幾筆交易金額考慮在內(nèi)的聚合特征。

上圖顯示了單個交易金額情況。我們可以看到,孤立的小數(shù)額交易并不罕見,也不表明存在欺詐;然而,連續(xù)多次小數(shù)額交易卻是欺詐的跡象。下圖顯示了最后五筆交易金額的滾動中位數(shù),只有在存在多筆連續(xù)小數(shù)額交易的模式時,才會返回低值。在這種情況下,底部聚合視圖可以使用交易金額作為特征來區(qū)分合法的小數(shù)額交易和存在欺詐的小數(shù)額交易事務(wù)。

2.差異和比率

在許多類型的問題中,集合模式的變化對于預(yù)測或異常檢測是非常有價值的信號。其中,差異和比率是表示數(shù)字特征變化的有效技術(shù)。就像聚合一樣,我們也可以在問題的上下文中在有意義的時間窗口內(nèi)應(yīng)用這些技術(shù)。

示例:

  • 過去1小時內(nèi)新商戶交易的百分比與過去30天內(nèi)新商戶成交的百分比之間的差異:快速連續(xù)的高百分比新商戶交易本身可能表明存在欺詐風(fēng)險,但是,當(dāng)我們看到這種行為與客戶的歷史行為相比發(fā)生了變化時,這將成為一個更加明顯的信號。
  • 當(dāng)天的交易次數(shù)與最近30天的每日交易次數(shù)中位數(shù)的比率:當(dāng)信用卡被破壞時,它可能會在較短的時間窗口內(nèi)發(fā)生許多交易,這可能不符合過去的信用卡使用情況。當(dāng)前一天的交易計數(shù)與最后30天的中間每日的交易計數(shù)的比率顯著提高可能意味著存在欺詐性使用模式。

從上表中我們可以看出,給定日期的高交易計數(shù)本身可能并不意味著存在異常交易行為。相反,基于比率的特征可以促進客戶當(dāng)前交易行為與其過去交易行為之間的比較,從而可以更有效地捕捉異常。

3.年齡編碼

我們可以使用年齡計算技術(shù),通過獲取兩個時間戳或日期之間的差異,將日期或時間戳特征轉(zhuǎn)換為數(shù)字特征。如果與特征值相關(guān)聯(lián)的保有期可以是用于預(yù)測的有價值的信號,則我們也可以使用該技術(shù)將某些非數(shù)字特征轉(zhuǎn)換為有意義的數(shù)字特征。

示例:

  • 信用卡上次使用后的天數(shù):長期處于休眠狀態(tài)的信用卡上的突然交易可能與高欺詐風(fēng)險有關(guān)。我們可以通過計算自上次使用信用卡以來的日期與當(dāng)前交易日期之間的時間差來計算這一特征。
  • 自客戶的設(shè)備首次使用以來的天數(shù):如果我們看到來自新設(shè)備的交易,它可能比客戶使用時間更長的設(shè)備進行的交易風(fēng)險更大。我們可以創(chuàng)建一個特征,將設(shè)備的使用年限指示為客戶首次使用該設(shè)備的日期與當(dāng)前交易日期之間的差異。

上表顯示了一個年齡編碼的示例。在這里,我們創(chuàng)建了一個新的數(shù)字類型的特征“Days since transaction device first used(自交易設(shè)備首次使用以來的天數(shù))”,作為客戶設(shè)備首次使用日期和當(dāng)前交易日期之間的天數(shù)差。

4.指示器編碼

指示器或布爾特征具有二進制值{1,0}或{True,F(xiàn)alse}。指示器特征是一種非常常見的數(shù)據(jù)類型,用于表示各種類型的二進制信息。在某些情況下,我們可能已經(jīng)具有數(shù)字形式的二進制特征,而在其他情況下,它們可能具有非數(shù)字值。要使用非數(shù)字二進制特征進行模型訓(xùn)練,我們所要做的就是將它們映射到數(shù)字值。

除了這些常見的情況和指示器特征的使用之外,我們還可以利用指示器編碼作為一種工具來表示非數(shù)字?jǐn)?shù)據(jù)點之間的比較。這個屬性使它特別強大,因為它為我們測量非數(shù)字特征的變化創(chuàng)造了一種方式。

示例:

  • 最近登錄事件期間驗證失敗:最近登錄失敗事件可能與更高的欺詐交易風(fēng)險有關(guān)。在這種情況下,原始數(shù)據(jù)可能具有特征值“Yes”或“No”;我們在這里所要做的就是將這些值映射到1或0。
  • 與上次交易相比,國家的位置發(fā)生了變化:國家位置的變化可能表明信用卡受損。在這里,創(chuàng)建一個表示非數(shù)字特征為“國家位置”變化的指示器特征將捕獲此國家變化信息。

上表顯示了一個指示器編碼的示例。在這里,我們通過將客戶的當(dāng)前交易國家與他們以前的交易國家進行比較,創(chuàng)建了一個新的數(shù)字特征“Country change from previous transaction(從上次交易以來的國家變化)”。

5.獨熱編碼

如果我們的特征數(shù)據(jù)是分類形式的,無論是數(shù)字的還是非數(shù)字的都可以應(yīng)用獨熱編碼技術(shù)。其中,數(shù)字分類形式是指包含非連續(xù)或非測量數(shù)據(jù)的數(shù)字?jǐn)?shù)據(jù),如地理區(qū)域代碼、商店ID和其他此類數(shù)據(jù)。獨熱編碼技術(shù)可以將這些特征轉(zhuǎn)換為一組指示器特征,我們可以在訓(xùn)練機器學(xué)習(xí)模型時使用這些指示器特征。對分類特征應(yīng)用獨熱編碼將為該分類變量中的每個類別創(chuàng)建一個新的二進制特征。由于新特征的數(shù)量隨著類別數(shù)量的增加而增加,因此該技術(shù)適用于類別數(shù)量較少的特征,尤其是當(dāng)我們有較小的數(shù)據(jù)集時。其中一條標(biāo)準(zhǔn)經(jīng)驗法則建議,如果我們每個類別至少有十條記錄,就應(yīng)該應(yīng)用這項技術(shù)。

示例:

  • 交易性購買類別:某些類型的購買類別可能與較高的欺詐風(fēng)險相關(guān)。由于購買類別名稱是文本數(shù)據(jù),我們可以應(yīng)用獨熱編碼技術(shù)將此特征轉(zhuǎn)換為一組數(shù)字指示器特征。如果有十個不同的采購類別名稱,獨熱編碼將創(chuàng)建十個新的指示器特征,每個采購類別名稱對應(yīng)一個指示器特征。
  • 設(shè)備類型:在線交易可以通過幾種不同類型的設(shè)備進行,如iPhone、Android手機、Windows PC和Mac。其中一些設(shè)備更容易受到惡意軟件的影響,或者欺詐者很容易訪問,因此可能與更高的欺詐風(fēng)險有關(guān)。要以數(shù)字形式包括設(shè)備類型信息,我們可以對設(shè)備類型應(yīng)用獨熱編碼,這將為每個設(shè)備類型創(chuàng)建一個新的指示器特征。

上表顯示了獨熱編碼的示例。在這里,我們通過將獨熱編碼技術(shù)應(yīng)用于非數(shù)字分類特征“Device Type(設(shè)備類型)”,創(chuàng)建了一組新的數(shù)字指示器特征。

6.目標(biāo)編碼

目標(biāo)編碼技術(shù)適用于應(yīng)用獨熱編碼的相同類型的特征;但是,與獨熱編碼器相比,這種技術(shù)存在一些優(yōu)點和缺點。當(dāng)類別的數(shù)量很大時(基數(shù)很高),使用獨熱編碼將不樂觀地增加特征的數(shù)量,這可能導(dǎo)致模型過擬合。在這種情況下,目標(biāo)編碼可能是一種有效的技術(shù),但前提是我們正在研究監(jiān)督學(xué)習(xí)問題。這是一種將每個類別值映射到該類別目標(biāo)的預(yù)期值的技術(shù)。如果處理具有連續(xù)目標(biāo)的回歸問題,那么此計算將類別映射到該類別的平均目標(biāo)值。在二進制目標(biāo)的分類問題的情況下,目標(biāo)編碼將把類別映射到該類別的正事件概率。與獨熱編碼不同,這種技術(shù)的優(yōu)點是不增加特征的數(shù)量。但是,這種技術(shù)也存在缺點,就是它只能應(yīng)用于監(jiān)督學(xué)習(xí)問題。應(yīng)用這項技術(shù)也可能使模型容易受到過擬合的影響,特別是在某些類別的觀測數(shù)量較低的情況下。

示例:

  • 商戶名稱:針對某些商戶的交易可能存在欺詐行為。可能有成千上萬這樣的商家,每個商家都有不同的欺詐交易風(fēng)險。對包含商家名稱的特征應(yīng)用獨熱編碼可能會引入數(shù)千個新特征,這是不可取的。在這種情況下,目標(biāo)編碼可以在不增加特征數(shù)量的情況下幫助捕獲商家的欺詐風(fēng)險信息。
  • 交易郵政編碼:就像商家一樣,在不同郵政編碼中進行的交易可能代表不同的欺詐風(fēng)險水平。盡管郵政編碼中存在數(shù)值,但它們不是連續(xù)的測量變量,不應(yīng)按原樣在模型中使用。相反,我們可以通過應(yīng)用目標(biāo)編碼等技術(shù)來合并與每個郵政編碼相關(guān)的欺詐風(fēng)險信息。

上表給出了目標(biāo)編碼的示例。在這里,我們通過將目標(biāo)編碼技術(shù)應(yīng)用于非數(shù)字分類特征“Merchant Name(商戶姓名)”,創(chuàng)建了一個新的數(shù)字特征“Merchant Name target encoding(商戶姓名目標(biāo)編碼)”。顧名思義,這種技術(shù)依賴于目標(biāo)值來計算新的特征值。

一旦我們從原始數(shù)據(jù)中創(chuàng)建了新特性,下一步就是對它們進行處理,以獲得最佳的模型性能。我們通過下一節(jié)中討論的特征處理來實現(xiàn)這一點。

特征處理

特征處理是指一系列數(shù)據(jù)處理步驟,以確保機器學(xué)習(xí)模型符合預(yù)期的數(shù)據(jù)。雖然在使用某些機器學(xué)習(xí)算法時需要其中一些處理步驟,但其他步驟確保我們在所考慮的特征和機器學(xué)習(xí)算法之間達成良好的一致性。在本節(jié)中,讓我們討論一些常見的特征處理步驟以及為什么需要它們。

1.異常值處理

一些機器學(xué)習(xí)算法,特別是回歸模型等參數(shù)算法,會受到異常值的嚴(yán)重影響。這些機器學(xué)習(xí)算法試圖適應(yīng)異常值,嚴(yán)重影響模型參數(shù)并損害整體性能。要處理異常值,我們必須首先識別它們。我們可以通過應(yīng)用某些經(jīng)驗法則來檢測特定特征的異常值,例如絕對值大于平均值加三個標(biāo)準(zhǔn)差,或者一個值在最接近的須值之外(最接近的四分位數(shù)加四分位數(shù)間距值的1.5倍)。一旦我們確定了特定特征中的異常值,我們就可以使用以下一些技術(shù)來處理異常值:

  • 刪除:我們可以刪除至少有一個異常值的觀測值。如果我們的數(shù)據(jù)在不同特征之間存在太多的異常值,我們可能會失去許多觀測結(jié)果。
  • 替換:我們可以用平均值替換異常值,例如給定特征的平均值、中值和模數(shù)。
  • 特征轉(zhuǎn)換或標(biāo)準(zhǔn)化:我們可以使用對數(shù)轉(zhuǎn)換或特征標(biāo)準(zhǔn)化(如下文中所述的)來減少異常值的大小。
  • 封頂和截底:我們可以將超出某個值的異常值替換為該值,例如,將第99個百分位數(shù)以上的所有值替換為第99個百分點值,將第1個百分位以下的所有值都替換為第1個百分點值。

上圖顯示了檢測單變量異常值的兩種常用技術(shù)。我們可以看到,這兩種技術(shù)可以產(chǎn)生不同的異常值集。如果數(shù)據(jù)遵循正態(tài)分布,則應(yīng)使用均值+3的標(biāo)準(zhǔn)差技術(shù)。注意,基于箱形圖的技術(shù)一般來說更通用些,可以應(yīng)用于任何分布的數(shù)據(jù)。

注意,有一些技術(shù)可以檢測多變量異常值(關(guān)于多個特征的異常值)的觀測值,但它們更復(fù)雜,通常不會在機器學(xué)習(xí)模型訓(xùn)練方面增加太多的價值。還要注意的是,在使用大多數(shù)非參數(shù)機器學(xué)習(xí)模型(如支持向量機)和基于樹的算法(如決策樹、隨機森林和XGBoost)時,不需要考慮異常值。

2.缺失值處理

缺失數(shù)據(jù)在真實世界的數(shù)據(jù)集中非常常見。除了XGBoost這樣的少數(shù)算法外,大多數(shù)傳統(tǒng)的機器學(xué)習(xí)算法都不允許在訓(xùn)練數(shù)據(jù)集中丟失值。因此,修復(fù)缺失值是機器學(xué)習(xí)建模中的常規(guī)任務(wù)之一。目前,已經(jīng)存在幾種技術(shù)可以處理缺失的值;然而,在實現(xiàn)任何技術(shù)之前,重要的是要了解丟失數(shù)據(jù)的原因,或者至少要知道數(shù)據(jù)是否隨機丟失。

如果數(shù)據(jù)不是隨機丟失的,這意味著某些亞組更有可能存在丟失的數(shù)據(jù),那么輸入這些數(shù)據(jù)的值可能很困難,尤其是在幾乎沒有可用數(shù)據(jù)的情況下。如果數(shù)據(jù)隨機丟失,我們可以使用接下來描述的一些常見處理技術(shù)。它們都有各自的優(yōu)缺點,但是由我們自己來決定什么方法最適合我們的使用場景。

  • 刪除觀測值:我們可以刪除至少有一個缺失特征值的觀測值。然而,如果我們的數(shù)據(jù)在不同的特征中有太多的缺失值,那么我們最終可能會失去許多觀測結(jié)果。
  • 刪除特征:如果一個特征存在大量缺失值,我們可以選擇把這一特征徹底刪除掉。
  • 用平均值替換:我們可以使用平均值,如給定特征的平均值、中值和模值來替換缺失的值。這種方法實施起來很簡單,但可能無法為所有類型的觀測提供良好的估計。例如,高欺詐風(fēng)險交易可能具有與低欺詐風(fēng)險交易金額不同的平均交易金額,并且使用總體平均值來代替缺失的高欺詐風(fēng)險的交易金額可能不是一個好的替換方案。
  • 最大似然、多重輸入、K個最近鄰:這些是更復(fù)雜的方法,考慮了與數(shù)據(jù)集中其他特征的關(guān)系,可以提供比總體平均值更準(zhǔn)確的估計。然而,實現(xiàn)這些方法卻需要額外的建模或算法實現(xiàn)。

上表顯示了缺失值處理中常用技術(shù)的應(yīng)用。

3.縮放

通常,我們在機器學(xué)習(xí)模型中使用的特征具有不同的范圍。如果我們在不縮放的情況下使用它們,則具有大絕對值的特征將主導(dǎo)預(yù)測結(jié)果。相反,為了給每個特征一個公平的機會來為預(yù)測結(jié)果做出貢獻,我們必須將所有特征放在同一尺度上。兩種最常見的縮放技術(shù)是:

  • 規(guī)一化:此縮放技術(shù)將特征值限制在0和1之間。為了應(yīng)用歸一化,我們減去最小特征值,并將其除以該特征的范圍(最小值和最大值之間的差)。如果我們的一些特征有尖銳的偏斜或有一些極端的異常值,那么歸一化可能不是一種好的技術(shù)。
  • 標(biāo)準(zhǔn)化:該技術(shù)將特征數(shù)據(jù)分布轉(zhuǎn)換為標(biāo)準(zhǔn)正態(tài)分布。我們可以通過減去平均值并除以標(biāo)準(zhǔn)差來實現(xiàn)這項技術(shù)。如果特征具有尖銳的偏斜或一些極端的異常值,則通常優(yōu)選這種技術(shù)。

請注意,基于樹的算法,如決策樹、隨機森林、XGBoost和其他算法,可以處理未縮放的數(shù)據(jù),并且在使用這些算法時不需要縮放。

上表顯示了兩種常用特征縮放技術(shù)的應(yīng)用情況。

上圖顯示了原始、標(biāo)準(zhǔn)化和標(biāo)準(zhǔn)化特征值之間的比例差異。正如我們所看到的,縮放不會影響數(shù)據(jù)分布的形狀。

4.降維

今天,我們擁有大量的數(shù)據(jù),我們可以構(gòu)建大量的特征集合來訓(xùn)練我們的模型。對于大多數(shù)算法來說,擁有更多的特征是好的,因為這意味著將提供更多的選項來提高模型性能。然而,并非所有算法都是如此。基于距離度量的算法受到維數(shù)災(zāi)難——隨著特征數(shù)量的大幅增加,兩個觀測值之間的距離值變得毫無意義。因此,要使用依賴于距離度量的算法,我們應(yīng)該確保不使用大量特征。

如果我們的數(shù)據(jù)集擁有大量的特征,那么,如果我們不知道保留哪些特征和丟棄哪些特征的話,我們可以使用主成分分析(PCA)等技術(shù)。PCA技術(shù)能夠?qū)⑴f特征集轉(zhuǎn)換為新特征集。它會創(chuàng)建新的特征,使得具有最高特征值的特征捕獲來自舊特征的大部分信息。然后,我們可以只保留前幾個新特征,并丟棄其余的特征。

其他統(tǒng)計技術(shù),如關(guān)聯(lián)分析和特征選擇算法,可以用于監(jiān)督學(xué)習(xí)問題,以減少特征的數(shù)量。然而,它們通常不會捕獲與PCA對相同數(shù)量的特征所捕獲的信息水平相同的信息。

上表顯示了主成分分析在特征降維中的應(yīng)用。正如我們所看到的,前三個特征捕獲了原始數(shù)據(jù)集中超過87%的信息。在這種情況下,我們可以選擇忽略兩個特征(f4和f5),以獲得小于13%的信息損失。要保留的特征數(shù)量和要消除的特征數(shù)量將因問題而異,具體取決于各種因素。

5.向正態(tài)分布的轉(zhuǎn)換

這種措施是一個例外,因為它只適用于目標(biāo),而不適用于特征。此外,大多數(shù)機器學(xué)習(xí)算法對目標(biāo)的分布沒有任何限制,但某些算法,如線性回歸,要求目標(biāo)正態(tài)地分布。線性回歸假設(shè)所有數(shù)據(jù)點的誤差值對稱且集中在零附近(就像正態(tài)分布的形狀一樣),正態(tài)分布目標(biāo)變量確保滿足這一假設(shè)。

我們可以通過繪制直方圖來了解目標(biāo)的分布情況。像Shapiro-Wilk檢驗這樣的統(tǒng)計檢驗通過檢驗這一假設(shè)來告訴我們正態(tài)性。如果我們的目標(biāo)不是正態(tài)分布的,我們可以嘗試各種變換,如對數(shù)變換、平方變換、平方根變換等,以檢查哪些變換使目標(biāo)分布正態(tài)。還有一種Box-Cox變換,它嘗試多個參數(shù)值,我們可以選擇一個最能將目標(biāo)的分布變換為正態(tài)的參數(shù)值。

上圖顯示了原始目標(biāo)數(shù)據(jù)的三種轉(zhuǎn)換。在這種特定情況下,我們可以看到,日志轉(zhuǎn)換最能將原始數(shù)據(jù)分布轉(zhuǎn)換為正態(tài)分布。

注意:雖然我們可以以任何順序在特征中實現(xiàn)特征處理步驟,但我們必須徹底考慮它們的應(yīng)用順序。例如,使用均值替換的缺失值處理可以在異常值檢測之前或之后實現(xiàn)。然而,用于替換的平均值可能會有所不同,這取決于我們是在異常值處理之前還是之后處理缺失值。本文中概述的特征處理序列按問題對后續(xù)處理步驟的影響順序處理這些問題。因此,遵循這個順序通常對解決大多數(shù)問題是有效的。

結(jié)論

正如引言中所提到的,特征工程是機器學(xué)習(xí)的一個維度,它使我們能夠在特殊程度上控制模型的性能。為了充分利用特征工程的潛力,我們在本文中學(xué)習(xí)了各種技術(shù),這些技術(shù)可以幫助我們創(chuàng)建新的特征并對其進行處理,以優(yōu)化機器學(xué)習(xí)模型。無論您選擇使用本文中的哪些特征工程原理和技術(shù),我們在此特別強調(diào)的是要理解機器學(xué)習(xí)不僅僅是要求算法找出模式。也就是說,我們通過提供算法所真正需要的數(shù)據(jù)類型,最終使算法能夠有效地完成其工作。

最后,除非另有說明;否則,本文所有圖片均由作者本人提供。

譯者介紹

朱先忠,51CTO社區(qū)編輯,51CTO專家博客、講師,濰坊一所高校計算機教師,自由編程界老兵一枚。

原文標(biāo)題:Feature Engineering for Machine Learning,作者:Sumit Makashir

鏈接:

https://towardsdatascience.com/feature-engineering-for-machine-learning-eb2e0cff7a30。

想了解更多AIGC的內(nèi)容,請訪問:

51CTO AI.x社區(qū)

http://m.jxzklqfsx.com/aigc/

責(zé)任編輯:姜華 來源: 51CTO內(nèi)容精選
相關(guān)推薦

2025-07-31 01:22:00

2024-10-08 10:16:22

2024-10-28 00:00:10

機器學(xué)習(xí)模型程度

2024-10-08 15:09:17

2024-10-28 15:52:38

機器學(xué)習(xí)特征工程數(shù)據(jù)集

2021-05-10 16:41:19

機器學(xué)習(xí)人工智能IT

2018-07-23 15:35:17

機器學(xué)習(xí)特征工程技能數(shù)據(jù)科學(xué)

2024-09-11 08:34:28

2021-04-01 22:19:54

機器學(xué)習(xí)模型數(shù)據(jù)

2022-10-08 12:06:52

機器學(xué)習(xí)特征選擇

2021-03-30 13:45:00

人工智能

2019-03-06 09:55:54

Python 開發(fā)編程語言

2022-12-07 08:02:43

Spring流程IOC

2016-12-15 09:44:31

框架Caffe源碼

2021-05-05 21:00:22

深度學(xué)習(xí)機器視覺機器人

2017-11-24 10:43:43

Madlib機器學(xué)習(xí)

2021-04-16 09:53:45

人工智能機器學(xué)習(xí)深度學(xué)習(xí)

2024-11-04 08:14:48

2022-12-27 07:50:34

python深度學(xué)習(xí)DeepDream

2018-01-29 00:16:16

神經(jīng)網(wǎng)絡(luò)遞歸卷積深度學(xué)習(xí)
點贊
收藏

51CTO技術(shù)棧公眾號

av在线播放观看| 国产成人啪精品视频免费网| 3d精品h动漫啪啪一区二区| 久久久精品人妻一区二区三区| www.久久精品视频| 亚洲一区二区三区日本久久九| 美国一区二区三区在线播放| 亚洲国产天堂网精品网站| 一级日韩一区在线观看| 日日噜噜噜噜人人爽亚洲精品| 欧美日韩国产传媒| 欧美日韩激情视频8区| 国产伦精品一区二区| 国产精品免费人成网站酒店 | 日本高清精品| 欧美激情一区二区三区蜜桃视频| 欧美国产在线电影| 91小视频在线播放| 在线观看国产原创自拍视频| 日本va欧美va欧美va精品| 亚洲精品一区中文| 色综合久久久久无码专区| 亚洲va欧美va| 欧美日韩国产成人精品| 91精品国产综合久久久久久| 亚洲三区在线| 天天综合天天综合| 国产精品一二| 亚洲色图综合久久| 日韩 欧美 高清| 国内精品在线视频| 日本不卡一区二区三区高清视频| 欧美黑人巨大xxx极品| 国产一区二区三区四区在线| 欧美一级做一级爱a做片性| 亚洲国产精品av| 国产欧美一区二区三区久久| 91久久久久久久久久久久久久| 亚洲老司机网| 亚洲国产综合色| 久久av一区二区| 香蕉污视频在线观看| 日韩成人综合| 日韩一区二区三区av| 亚洲色欲久久久综合网东京热| 人妻一区二区三区| 老牛国产精品一区的观看方式| 在线播放日韩欧美| 天天看片天天操| 台湾成人免费视频| 亚洲日本在线看| 国产精华一区二区三区| 在线观看黄网站| 成人av国产| 日韩精品资源二区在线| 天堂…中文在线最新版在线| 国产露出视频在线观看| 国产在线国偷精品免费看| 97精品一区二区视频在线观看| 国产精品一二三区在线观看| 精品一区二区三区中文字幕 | 粉嫩绯色av一区二区在线观看| 91精品国产沙发| 国产人与禽zoz0性伦| 成人资源在线播放| 亚洲综合偷拍欧美一区色| 精品一区二区视频| 艳妇乳肉豪妇荡乳av| 极品日韩av| 中文字幕亚洲色图| youjizz.com国产| 久久久久伊人| 欧美午夜激情视频| 三上悠亚免费在线观看| 欧美日韩视频精品二区| 国产一区二区视频在线| 成人在线激情视频| 国产精品久免费的黄网站| 国产精品久久久久久久免费观看 | 三级一区二区三区| 精品国产乱码一区二区三区| 精品免费视频.| 国产又大又黄又猛| 乱人伦视频在线| 亚洲精品ww久久久久久p站| 欧美精品在线一区| 丰满少妇被猛烈进入| 美女视频黄 久久| 欧美一区二区三区艳史| 妺妺窝人体色www婷婷| 成人精品视频| 色综合久久久久久中文网| 日本不卡一区视频| 亚洲性视频大全| 欧美精品一区二区三区四区 | 99免费精品视频| 99re在线观看视频| 一级黄色小视频| 日韩国产成人精品| 欧美在线日韩在线| 日韩精品一区二区三| 午夜电影亚洲| 久久在线免费观看视频| 2014亚洲天堂| 激情婷婷欧美| 成人黄色中文字幕| 亚州视频一区二区三区| 成人亚洲一区二区一| 91视频网页| 九色网友自拍视频手机在线| 亚洲欧美色综合| 中文字幕无码不卡免费视频| 一区二区三区四区高清视频| 在线精品91av| 久久国产黄色片| 国产成人免费视频网站| av成人在线电影| 高清av在线| 精品久久久久久久久久久久久久| 亚洲 欧美 日韩 国产综合 在线| 日韩电影免费观看高清完整版在线观看| 亚洲福利视频久久| 亚洲天堂资源在线| 日韩人体视频| 亚洲性av在线| 欧美巨胸大乳hitomi| 亚洲区第一页| 国产成人久久久精品一区| www黄色在线观看| 粉嫩13p一区二区三区| 亚洲色图自拍| 欧美黄色三级| 5月丁香婷婷综合| 能看毛片的网站| 高潮按摩久久久久久av免费| 久久精品视频一| 精品处破女学生| 亚洲一区观看| 国产九色91| 欧洲在线视频| 色成人在线视频| 爽爽爽在线观看| 色999日韩| 国产精品一区久久| 亚洲精品国产精品乱码不卡| 亚洲视频一区二区在线观看| 日日干夜夜操s8| 6080亚洲理论片在线观看| 日韩在线激情视频| 久久久久无码国产精品不卡| 精品午夜久久福利影院| 国产精品一区二区欧美黑人喷潮水| 黄色国产网站在线播放| 亚洲444eee在线观看| 中文字幕欧美人妻精品一区| 日韩一区二区三区四区五区 | 超碰在线网址| 日韩欧美国产成人一区二区| 麻豆疯狂做受xxxx高潮视频| 国产成人精品一区二区三区四区| 成人午夜免费在线视频| 竹内纱里奈兽皇系列在线观看| 欧美日韩午夜在线| 老司机免费视频| 91一区在线| 欧美综合激情网| 黄色软件在线观看| 欧美午夜精品久久久久久超碰| 美国黄色一级视频| 成人影院在线| 91免费高清视频| 国产剧情在线观看| 欧美日韩精品一区二区天天拍小说 | 高潮在线视频| 欧美日韩国产综合久久| 97在线观看免费高| 顶级嫩模精品视频在线看| 久久国产精品网| 高清久久精品| 亚洲一区av在线播放| 亚洲综合网av| 亚洲国产人成综合网站| 亚洲色图偷拍视频| 国内精品久久久久久久97牛牛| 国产精品96久久久久久| 欧美r级在线| 欧美亚洲国产怡红院影院| 疯狂试爱三2浴室激情视频| 成人动漫视频在线| 国产精品免费看久久久无码| 四虎精品在线观看| 欧美激情在线一区| 国产黄色av网站| 综合电影一区二区三区| 国产高潮免费视频| 欧美日韩岛国| 视频一区三区| 电影一区二区| 欧美激情一级欧美精品| 国产毛片av在线| 亚洲风情亚aⅴ在线发布| 中文字幕一区二区三区四区免费看 | 亚洲国产成人高清精品| 日本人亚洲人jjzzjjz| 国产999精品久久久久久| 青青在线免费观看视频| 欧美日韩午夜| 亚洲精品永久www嫩草| 欧美成人影院| 亚洲视频在线观看网站| 国产suv精品一区二区69| 色国产综合视频| 国产成人无码精品| 91在线视频观看| 欧美一区二区三区爽大粗免费| 91影院成人| 日本一区免费看| 中文字幕影音在线| 久久99精品视频一区97| 爱久久·www| 欧美精品在线视频| 国产极品国产极品| 国产91对白在线观看九色| 青青草av网站| 美女被久久久| 亚洲欧洲日韩综合二区| 偷窥自拍亚洲色图精选| 成人情视频高清免费观看电影| 国内精品伊人| 国产精品久久电影观看| 色网站在线看| 日韩欧美一区二区视频| 亚洲天堂中文在线| 在线免费视频一区二区| 国产日产在线观看| 日本一区二区三区免费乱视频| 中文字字幕码一二三区| 男女性色大片免费观看一区二区| 播放灌醉水嫩大学生国内精品| 欧美日韩在线观看视频小说| 免费av一区二区三区| 国产成人福利夜色影视| 久久99视频精品| av网站在线免费看推荐| 精品国产a毛片| 亚洲黄色a级片| 日韩美女一区二区三区四区| 精品国产伦一区二区三区| 欧美一区二区三区在| 国产免费高清av| 亚洲成a天堂v人片| 久久久久亚洲av成人片| 亚洲一区在线看| 国产在线综合网| 国产精品视频第一区| 国产免费a级片| 丁香婷婷综合色啪| av av在线| 久久综合久久99| 日韩视频在线观看一区二区三区| 日韩午夜免费视频| 亚洲最新免费视频| 成人av动漫| 精品一区二区国产| 国内精品久久久久久久影视简单| 91视频免费在线观看| 成人免费在线电影网| 精品亚洲欧美日韩| 国产精品美女久久久久久不卡| 日产中文字幕在线精品一区| 手机在线电影一区| 国产日产欧美一区二区| 欧美日韩亚洲国产精品| 青青草国产免费| 久久亚洲影院| 中文国产在线观看| youjizz国产精品| 国产毛片欧美毛片久久久| www.色精品| 久久久久亚洲av成人无码电影| 国产精品乱码久久久久久| 永久久久久久久| 欧美日韩一区二区免费视频| 中文字幕在线播放日韩| 日韩精品一区二区三区视频播放 | 亚洲精品国产精品乱码| 一本久久精品一区二区| 久久精品国产亚洲AV无码麻豆 | 国产婷婷一区二区三区| 久久午夜激情| 中文字幕第66页| 老鸭窝一区二区久久精品| 四虎国产精品永久免费观看视频| 波波电影院一区二区三区| 中文字幕伦理片| 亚洲一区二区视频在线| 国产成人av免费| 在线一区二区观看| 精品国产av一区二区三区| 精品一区二区三区电影| xvideos国产在线视频| 日本韩国在线不卡| 亚洲一区二区三区免费| 亚洲高清不卡一区| 亚洲毛片网站| japan高清日本乱xxxxx| 国产目拍亚洲精品99久久精品| 国产一级在线观看视频| 欧美日本视频在线| 欧美婷婷久久五月精品三区| 精品综合久久久久久97| 日本欧美韩国| 久久99精品久久久水蜜桃| 欧美 亚欧 日韩视频在线 | japanese23hdxxxx日韩| 99精品在线直播| 93在线视频精品免费观看| 欧美色图另类小说| 国产成人精品三级| 欧美美女性生活视频| 欧美性猛交xxxx久久久| 免费看av毛片| 欧美日本国产在线| 色8久久久久| 五码日韩精品一区二区三区视频| 国产日韩专区| 少妇精品无码一区二区三区| 一区二区三区日韩欧美| 91精品国产综合久| 怡红院精品视频| 欧美freesex| 麻豆成人在线播放| 国产日韩欧美高清免费| 亚洲欧美高清在线| 亚洲国产wwwccc36天堂| 亚洲av无码一区二区乱子伦| 久久视频中文字幕| 91麻豆精品国产91久久久更新资源速度超快| 欧美一区国产一区| 性欧美精品高清| 污网站免费在线| 欧美激情在线看| 亚洲性猛交富婆| 国产一区二区成人| 精品欧美一区二区三区在线观看| 欧美精品国产精品久久久 | 老司机午夜性大片| 国产精品白丝jk黑袜喷水| 人体私拍套图hdxxxx| 亚洲第一av色| 天天色天天操天天射| 高清欧美性猛交xxxx| 在线一区视频观看| 色999日韩自偷自拍美女| 日本v片在线高清不卡在线观看| 中文字幕一区二区三区人妻电影| 国产欧美一区二区三区网站| 久久久久久久亚洲| 在线中文字幕日韩| 91麻豆精品国产综合久久久| av电影一区二区三区| 国产成人综合亚洲网站| 国产一级做a爱免费视频| 亚洲激情第一页| 户外露出一区二区三区| 亚洲国产午夜伦理片大全在线观看网站 | 国产精品嫩草影院桃色| 亚洲国产美女精品久久久久∴| 波多野结依一区| 91免费精品视频| 亚洲国产99| 免费黄色片网站| 欧美一区日韩一区| mm视频在线视频| 日韩在线观看电影完整版高清免费| 久久99最新地址| 男生草女生视频| 7777精品伊人久久久大香线蕉| 色屁屁www国产馆在线观看| 国产一区二区丝袜高跟鞋图片| 欧美 日韩 国产一区二区在线视频| 亚洲激情 欧美| 欧美色视频一区| av在线不卡免费| 99在线视频首页| 日日摸夜夜添夜夜添精品视频| 中文字幕资源站| 亚洲精品大尺度| 亚洲日本中文| 九色在线视频观看| 亚洲婷婷在线视频| 人妻少妇精品无码专区久久| 国产精品国产三级国产专播精品人| 欧美成人有码| 亚洲一区视频在线播放| 精品久久久久久亚洲综合网| 国产一区一一区高清不卡| 热久久最新地址| 高清免费成人av| 亚洲中文无码av在线|