精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

終于把機器學習中的特征工程搞懂了!!

人工智能 機器學習
特征工程是機器學習中的重要步驟之一,其目的是通過對原始數據進行處理、變換或生成新的特征,以增強模型的學習能力和預測性能。

特征工程是機器學習中的重要步驟之一,其目的是通過對原始數據進行處理、變換或生成新的特征,以增強模型的學習能力和預測性能。

特征工程直接影響機器學習模型的表現,因為模型的效果很大程度上取決于輸入數據的質量和特征的選擇。

下面,我們來分享10個常用的特征工程技術。

1.插補

插補是處理數據集中的缺失值的一種常用方法。

大多數機器學習算法無法直接處理缺失值,因此在特征工程中必須解決這個問題。

插補方法根據已有的數據推測或生成合理的替代值,以填補缺失的數據。

常見插補方法:

  • 均值插補,將缺失值用該特征的均值替代,適用于數值型數據。
  • 中位數插補,用中位數替代缺失值,適用于具有異常值的數值數據,因為中位數對極端值不敏感。
  • 眾數插補,對于類別型數據,使用該特征的眾數(最常出現的值)進行插補。
  • K近鄰插補,基于 K 最近鄰算法,用與缺失值最近的 K 個相似樣本的平均值進行插補。
  • 插值,對時間序列或連續數據,可以使用線性插值或多項式插值方法進行插補。

優缺點

  • 插補可以讓數據集保持完整,但如果插補策略不當,可能會引入偏差或噪聲,影響模型的性能。
import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt 
import gensim.downloader as api 
from gensim.models import Word2Vec 
from sklearn.pipeline import Pipeline 
from sklearn.decomposition import PCA 
from sklearn.datasets import load_iris 
from sklearn.impute import SimpleImputer
from sklearn.compose import ColumnTransformer
from sklearn.feature_extraction.text import TfidfVectorizer 
from sklearn.preprocessing import MinMaxScaler, StandardScaler 


data = pd.DataFrame({
    'doors': [2, np.nan, 2, np.nan, 4],
    'topspeed': [100, np.nan, 150, 200, np.nan],
    'model': ['Daihatsu', 'Toyota', 'Suzuki', 'BYD','Wuling']
})

doors_imputer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='constant', fill_value=0))
])

topspeed_imputer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='median'))
])

pipeline = ColumnTransformer(
    transformers=[
        ('doors_imputer', doors_imputer, ['doors']),
        ('topspeed_imputer', topspeed_imputer, ['topspeed'])
    ],
    remainder='passthrough'
)

transformed = pipeline.fit_transform(data)

transformed_df = pd.DataFrame(transformed, columns=['doors', 'topspeed', 'model'])

圖片

2.分箱

分箱是將連續型數值特征離散化的過程,通過將數值范圍劃分為多個區間或“箱”,將原始數值轉換為離散的類別。

常見的分箱方法

  • 等寬分箱,將數值區間按等寬度分成若干個區間,適合均勻分布的數據。
  • 等頻分箱,將數值按頻數分箱,每個箱中的樣本數大致相同,適用于不均勻分布的數據。
  • 自定義分箱,根據業務邏輯或數據特點,自定義分箱的邊界。

應用場景

  • 在信用評分等領域,通過分箱處理連續型變量,可以減少數據的噪聲,增加模型的穩健性。
np.random.seed(42)
data = pd.DataFrame({'age' : np.random.randint(0, 100, 100)})
data['category'] = pd.cut(data['age'], [0, 2, 11, 18, 65, 101], labels = ['infants', 'children', 'teenagers', 'adults', 'elders'])
print(data)
print(data['category'].value_counts())
data['category'].value_counts().plot(kind='bar')

3.對數變換

對數變換是一種數值轉換方法,用于處理數據中呈現偏態分布的特征,將其轉換為更接近正態分布的數據形式。

對數變換可以減小大值的影響,壓縮特征的數值范圍。

應用場景

  • 處理右偏分布的特征,如收入、價格等數據。
  • 適用于減少數據中極大值的影響,避免模型對大值的過度關注。
rskew_data = np.random.exponential(scale=2, size=100)

log_data = np.log(rskew_data)

plt.title('Right Skewed Data')
plt.hist(rskew_data, bins=10)
plt.show()
plt.title('Log Transformed Data')
plt.hist(log_data, bins=20)
plt.show()

4.縮放

縮放是將特征的數值范圍轉換到某一固定區間內的過程。

常見的縮放方法

  • 標準化將特征值縮放為均值為 0,標準差為1的標準正態分布。公式為:

其中,μ是均值,σ是標準差。

  • 歸一化
    將特征縮放到 [0, 1] 范圍內。
    公式為:

應用場景

  • 縮放對于基于距離的算法(如KNN、SVM)和梯度下降優化的算法特別重要,因為特征值的尺度會影響模型的性能。
data = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10]).reshape(-1, 1)

scaler = MinMaxScaler()
minmax = scaler.fit_transform(data)

scaler = StandardScaler()
standard = scaler.fit_transform(data)

df = pd.DataFrame({'original':data.flatten(),'Min-Max Scaling':minmax.flatten(),'Standard Scaling':standard.flatten()})
df

5.獨熱編碼

獨熱編碼是一種將類別型變量轉換為二進制特征的編碼方式。

每個類別值被轉換為一個獨立的二進制特征,這些特征值為0或1,表示該樣本是否屬于對應的類別。

舉例

對于類別型特征 “顏色” = {紅,藍,綠},獨熱編碼會將其轉換為三個新特征

  • 紅:1, 0, 0
  • 藍:0, 1, 0
  • 綠:0, 0, 1

應用場景

  • 獨熱編碼適用于無序的類別型數據,如國家、城市、產品種類等。
  • 適用于不具備自然排序關系的特征。

優缺點

  • 優點:可以避免類別之間的錯誤關系,適合沒有順序的分類變量。
  • 缺點:當類別數過多時,會導致維度爆炸
data = pd.DataFrame({'models':['toyota','ferrari','byd','lamborghini','honda','tesla'],
                    'speed':['slow','fast','medium','fast','slow','medium']})
data = pd.concat([data, pd.get_dummies(data['speed'], prefix='speed')],axis=1)
data

6.目標編碼

目標編碼是一種處理類別型變量的編碼方式,通過用該類別與目標變量的統計信息(如均值、概率)來替代類別值。

通常用于高基數的類別變量,避免獨熱編碼導致維度過高的問題。

舉例

假設目標是二分類問題,對于類別型特征“城市”,可以用每個城市對應的目標變量均值來替換原始的類別值。

例如,城市A的目標變量均值為0.7,城市B的均值為0.3,城市C的均值為0.5。

應用場景

  • 適用于高基數類別型變量(如用戶ID、產品ID等),特別是在類別與目標變量有顯著關系時。

注意事項

  • 為了避免數據泄露(即使用目標值信息),需要對訓練集和測試集分別進行編碼,或者使用交叉驗證技術。
fruits = ['banana','apple','durian','durian','apple','banana']
price = [120,100,110,150,140,160]
data = pd.DataFrame({
  'fruit': fruits,
  'price': price
})
data['encoded_fruits'] = data.groupby('fruit')['price'].transform('mean')
data

7.主成分分析

PCA 是一種線性降維方法,通過將高維數據投影到一個低維空間,同時盡量保留原始數據的方差信息。

PCA 通過計算數據的協方差矩陣,找到數據的主成分(特征向量),然后選擇前幾個主成分作為新的特征。

步驟

  1. 標準化數據。
  2. 計算協方差矩陣。
  3. 計算協方差矩陣的特征值和特征向量。
  4. 根據特征值大小選擇前K個特征向量作為主成分。
  5. 將原始數據投影到新的主成分上。

應用場景

  • PCA常用于高維數據集的降維,如圖像、基因數據,目的是減少特征數量,降低計算復雜度,同時保留最重要的信息。
iris_data = load_iris()
features = iris_data.data
targets = iris_data.target

pca = PCA(n_compnotallow=2)
pca_features = pca.fit_transform(features)

for point in set(targets):
    plt.scatter(pca_features[targets == point, 0], pca_features[targets == point,1], label=iris_data.target_names[point])
plt.xlabel('PCA Component 1')
plt.ylabel('PCA Component 2')
plt.title('PCA on Iris Dataset')
plt.legend()
plt.show()

8.特征聚合

特征聚合是一種通過聚合現有特征來生成新特征的技術。

聚合可以通過多種方式實現,如計算平均值、總和、最大值、最小值等。

特征聚合特別適合處理時間序列數據或分組數據。

應用場景

  • 在時間序列數據中,可以對某一特征在多個時間窗口上計算統計量,如移動平均、累計總和等。
  • 在分組數據中,可以對每個用戶的購買記錄進行聚合,生成新的特征(如總購買金額、平均購買頻率等)。
quarter = ['Q1','Q2','Q3','Q4']
car_sales = [10000,9850,13000,20000]
motorbike_sales = [14000,18000,9000,11000]
sparepart_sales = [5000, 7000,3000, 10000]

data = pd.DataFrame({'car':car_sales,
    'motorbike':motorbike_sales,
    'sparepart':sparepart_sales}, index=quarter)
    
data['avg_sales'] = data[['car','motorbike','sparepart']].mean(axis=1).astype(int)
data['total_sales'] = data[['car','motorbike','sparepart']].sum(axis=1).astype(int)
data

9.TF-IDF

TF-IDF 是一種衡量文本中詞匯重要性的特征工程技術,廣泛應用于自然語言處理(NLP)任務。

它通過計算詞頻(TF)和逆文檔頻率(IDF)來評估某個詞在文本中的重要性:

  • 詞頻(TF),某個詞在文檔中出現的頻率。
  • 逆文檔頻率(IDF),表示詞在所有文檔中出現的稀有程度,常見詞會被削弱。

TF-IDF 公式:

其中 N 是文檔總數, 是詞 t 出現在多少個文檔中的次數。

texts = ["I eat rice with eggs.",
        "I also love to eat fried rice. Rice is the most delicious food in the world"]

vectorizer = TfidfVectorizer()
tfidfmatrix = vectorizer.fit_transform(texts)
features = vectorizer.get_feature_names_out()
data = pd.DataFrame(tfidfmatrix.toarray(), columns=features)

print("TF-IDF matrix")
data

10.文本嵌入

文本嵌入是將文本數據轉化為數值向量的技術,目的是將語義信息保留在低維向量空間中,使其能夠被機器學習模型處理。

常見的文本嵌入方法有:

  • Word2Vec,將詞映射為向量,類似語義的詞會在向量空間中更接近。
  • GloVe,基于共現矩陣生成詞向量,保持詞語之間的全局關系。
  • BERT,上下文感知的詞向量模型,能夠捕捉詞在不同上下文中的含義。

文本嵌入可以捕捉文本中的語義信息,使模型能夠理解文本間的關系。

corpus = api.load('text8') 
model = Word2Vec(corpus) 
dog = model.wv['dog']
print("Embedding vector for 'dog':\n", dog)

責任編輯:華軒 來源: 程序員學長
相關推薦

2024-10-08 10:16:22

2024-10-08 15:09:17

2024-10-28 00:00:10

機器學習模型程度

2025-01-20 09:21:00

2024-12-26 00:34:47

2024-10-30 08:23:07

2025-01-15 11:25:35

2024-08-23 09:06:35

機器學習混淆矩陣預測

2024-10-14 14:02:17

機器學習評估指標人工智能

2024-09-18 16:42:58

機器學習評估指標模型

2024-11-05 12:56:06

機器學習函數MSE

2024-11-25 08:20:35

2025-01-20 09:00:00

2025-01-07 12:55:28

2025-02-17 13:09:59

深度學習模型壓縮量化

2024-09-23 09:12:20

2024-07-17 09:32:19

2024-12-03 08:16:57

2024-10-16 07:58:48

2025-07-15 10:41:44

點贊
收藏

51CTO技術棧公眾號

电影91久久久| 九九热精品在线观看| 午夜视频在线观看免费视频| 一区二区不卡| 日本韩国一区二区三区视频| 97神马电影| 大吊一区二区三区| 美女的胸无遮挡在线观看| 精品一区二区三区香蕉蜜桃| 精品一区二区三区三区| 国产一级不卡视频| 国产又粗又大又爽| 波多野结衣在线播放一区| 午夜精品一区二区三区电影天堂 | 精品成人av一区二区三区| 国产黄色小视频在线| 三级不卡在线观看| 亚洲欧美日本另类| 欧美 日韩 国产在线观看| a毛片在线免费观看| 91综合在线| 欧美色精品在线视频| 欧美韩国日本精品一区二区三区| 国产精品99精品无码视| 日韩精品一区二区三区中文| 日韩毛片精品高清免费| 国产精品专区一| 女人黄色一级片| 欧美日韩尤物久久| 国产欧美精品一区| 国产精品夜色7777狼人| 亚洲一二三精品| 成人久久网站| 中文字幕日韩av资源站| 国产在线观看精品| 黄色av免费播放| 国语自产精品视频在线看抢先版结局| 久久精品在这里| 国产精品美女免费| 中国1级黄色片| 成人精品视频在线观看| 国产精品初高中害羞小美女文| 国产欧美久久久久久| 小早川怜子一区二区的演员表| 久久久国产精品网站| 中文字幕一区不卡| 亚洲一区二区自拍| 国产精品theporn动漫| 欧美freesex8一10精品| 高潮白浆女日韩av免费看| 欧美福利精品| 中文字幕欧美人妻精品一区蜜臀| 日韩视频在线观看| 欧美一区二区三区喷汁尤物| 成人免费观看在线| 你懂的免费在线观看视频网站| 肉色丝袜一区二区| 久久视频在线视频| 97人妻精品一区二区三区免费| 欧美另类老肥妇| 国产精品污网站| 91久久大香伊蕉在人线| 日韩美女黄色片| 免费看成人吃奶视频在线| 精品婷婷伊人一区三区三| 精品国产一区二区三区在线| 天堂在线视频免费| 青娱乐精品视频在线| 欧美成人精品三级在线观看| 99久久免费看精品国产一区| 国产麻豆久久| 亚洲最新在线观看| 日本在线免费观看一区| av综合在线观看| 国产欧美精品在线观看| 色综合天天综合狠狠| 欧洲亚洲一区二区三区四区五区| 中文字幕乱码在线观看| 国精品一区二区三区| 国产一区二区三区在线视频| 乱码一区二区三区| 精品123区| 亚洲丰满少妇videoshd| 99精品欧美一区二区三区综合在线| 欧洲成人免费视频| 成人免费视频网站入口::| 天堂俺去俺来也www久久婷婷| 欧美色综合天天久久综合精品| 亚洲国产一二三精品无码| 国产中文在线观看| 丁香天五香天堂综合| 国产精品影院在线观看| 日韩大片免费在线观看| 国产精品二区不卡| 亚洲精品永久免费| 香蕉久久久久久av成人| 99久久精品一区二区成人| 亚洲高清不卡在线观看| 一区二区三区四区国产| 欧美精品久久久久久久久久丰满| 国产一区二区三区香蕉| 国产精品扒开腿做爽爽爽视频| 久久一级黄色片| 91麻豆精品国产91久久久平台| 亚洲女人被黑人巨大进入| 国产精品日日摸夜夜爽| 中文字幕日本一区| 欧美系列在线观看| 色诱视频在线观看| 自由日本语热亚洲人| 亚洲五月六月丁香激情| 免费cad大片在线观看| 思思99re6国产在线播放| 久久九九影视网| 欧美激情专区| 亚洲欧美日本在线观看| av网站免费线看精品| 国产传媒一区二区| 亚洲高清精品视频| 国产乱理伦片在线观看夜一区| 91精品久久久久久久久久| av首页在线观看| 老司机精品视频网站| 欧美一区二区三区免费观看| www.国产成人| 日韩一级网站| 高清欧美性猛交xxxx| 久久久久久久9999| 精久久久久久| 97在线看福利| av大全在线观看| 久久综合亚州| 国产精品视频免费在线观看| 中文人妻熟女乱又乱精品| 日韩av电影天堂| 国产精品福利在线| 中文字幕免费观看视频| 美女www一区二区| 成人黄色av播放免费| 91亚洲视频在线观看| 国产美女娇喘av呻吟久久| 5g影院天天爽成人免费下载| 亚洲免费成人在线| av电影天堂一区二区在线观看| 久久精品99久久| 奇米影视888狠狠狠777不卡| 国产人伦精品一区二区| 日本免费在线视频观看| 日韩专区av| 欧美网站在线观看| 天堂社区在线视频| 国产95亚洲| 亚洲国产精久久久久久| 国精产品一区二区三区| 91精品综合久久久久久久久久久| 欧美贵妇videos办公室| 中文字幕视频网| 免费视频最近日韩| 国产精品国产三级国产专区53| 日韩a级作爱片一二三区免费观看| 日本一区二区三区高清不卡| 伊人狠狠色丁香综合尤物| 第一av在线| 在线免费不卡视频| 肉丝美足丝袜一区二区三区四| 秋霞综合在线视频| www.午夜精品| 亚洲国产综合久久| 毛片av一区二区| 国产精品免费一区二区三区四区| 欧美xxx.com| 亚洲女女做受ⅹxx高潮| 亚洲午夜无码av毛片久久| 久久夜夜久久| 日韩电影中文字幕一区| 黄色av片三级三级三级免费看| 亚洲小说区图片区| 国产精品久久久久久久久久久久久| 国产成人精品毛片| 久久久99精品久久| 欧美久久在线观看| 久久婷婷五月综合色丁香| 日韩av一卡二卡| 国产suv精品一区二区68| 一区二区毛片| 91在线视频九色| 黄色毛片在线观看| 亚洲va国产天堂va久久en| 91制片厂毛片| 五月天亚洲一区| 久久久亚洲精品视频| 91成品人影院| 国产亚洲精品中文字幕| 青青青在线观看视频| 成人av色网站| 亚洲欧美制服综合另类| 国产成人啪精品午夜在线观看| 久久99国产精品免费网站| 欧美日韩在线观看一区| av中文在线资源| 日韩丝袜情趣美女图片| 成人精品一二三区| 丝袜美腿亚洲综合| 久久国产精品久久精品国产| h片视频在线观看| 9191成人精品久久| 麻豆视频免费在线播放| 久久天堂成人| 欧美成人免费在线| 无码小电影在线观看网站免费| 亚洲精品一区二区精华| 欧美成人黄色网| 国产乱人伦精品一区二区在线观看| 亚洲午夜精品一区二区| 国产一区二区三区四区五区3d| 亚洲天堂男人的天堂| 国产一级一级国产| www一区二区| 欧美黄网站在线观看| 奇米777国产一区国产二区| 午夜免费久久久久| 精品久久无码中文字幕| 亚洲精品成人悠悠色影视| 亚洲黄色av片| 欧美日本三区| 高清视频在线观看一区| 福利在线导航136| 亚洲精美色品网站| 欧美videossex极品| 久久伊99综合婷婷久久伊| 久久精品.com| av资源久久| 91久久在线播放| 在线视频中文字幕第一页| 欧美成人高清电影在线| 久久精品久久精品久久| 北岛玲一区二区三区四区| 欧美视频在线观看网站| 亚洲精品**不卡在线播he| 日韩av色在线| 黄色成人影院| 精品国产乱码久久久久久老虎| 亚洲另类欧美日韩| 国产三级欧美三级日产三级99| 色一情一区二区| 欧美 日韩 国产一区二区在线视频 | 国产免费av高清在线| 在线视频综合导航| 中文字幕无码日韩专区免费| 国产成人aaa| 日韩手机在线观看视频| 91精品国产自产拍在线观看蜜 | 亚洲特级黄色片| 有坂深雪av一区二区精品| 天天插天天射天天干| 国内精品久久久久影院色| 亚洲www永久成人夜色| 国产理论电影在线| 亚洲欧美国产视频| 91亚洲国产成人久久精品麻豆| 亚洲一二三区不卡| 一区二区三区在线观看免费视频| 国内精品视频一区二区三区八戒| 国产免费黄色小视频| 精品国产一区二区三区噜噜噜| 成人黄色免费片| 美女扒开腿让男人桶爽久久软| 中文字幕视频在线免费欧美日韩综合在线看 | 国产乱人乱偷精品视频a人人澡| 亚洲自拍偷拍综合| 男人天堂av电影| 国产ts人妖一区二区| 91av俱乐部| 国产精品hd| 婷婷久久青草热一区二区| 超碰在线一区| 国产免费一区二区三区在线观看 | 黄色三级网站在线观看| 欧美优质美女网站| 久久午夜无码鲁丝片| 日本一区二区三区视频视频| 亚洲香蕉中文网| 久久99九九99精品| 日韩免费一级视频| 欧美在线看片| 天堂社区 天堂综合网 天堂资源最新版 | 亚洲777理论| 少妇被躁爽到高潮无码文| 26uuu亚洲综合色欧美| 69久久精品无码一区二区| 日本一不卡视频| 日本精品一区在线观看| 欧美.www| 亚洲二区三区四区| 蜜桃一区二区三区| 九九九九九精品| 丁香婷婷成人| 97在线电影| 欧美h版在线观看| 国产精品亚洲片夜色在线| 成人国产二区| 66m—66摸成人免费视频| 日本理论片午伦夜理片在线观看| 色噜噜狠狠狠综合曰曰曰| 久草在线青青草| 亚洲精品久久久久久久久久久久| 成人av无码一区二区三区| 欧美精品aⅴ在线视频| 中文字幕人妻色偷偷久久| 色综合天天综合网国产成人综合天| 日韩av在线播放观看| 亚洲已满18点击进入久久| 综合五月激情网| |精品福利一区二区三区| 国产成人在线网址| 国产精品电影一区二区三区| 美国黄色片视频| 国产精品拍天天在线| 国产免费嫩草影院| 亚洲精品女人久久久| 99国内精品久久| 天堂久久久久久| 91视频观看视频| 男生裸体视频网站| www成人在线观看| 日韩人妻无码一区二区三区| 久久综合九色综合97婷婷女人| 人妻精品久久久久中文字幕| 99国产欧美另类久久久精品| 国内精品久久99人妻无码| 久久一区二区视频| 女女互磨互喷水高潮les呻吟| 国产视频一区不卡| 成人午夜免费影院| 亚洲人成在线播放网站岛国| 玖玖爱这里只有精品| 亚洲韩国精品一区| 国产一区二区99| 在线看日本不卡| 888奇米影视| 精品999在线播放| 日韩黄色影片| 中文字幕日韩欧美精品在线观看| 成人区精品一区二区不卡| 欧美国产精品日韩| 日韩激情电影| 国产精品天天狠天天看| 激情综合五月| 国精产品99永久一区一区| 国产精品一区二区三区av麻| 一区二区精品在线观看| 国产综合自拍| 久久久精品麻豆| 国产一区二区三区久久悠悠色av| 美女露出粉嫩尿囗让男人桶| 久久综合成人精品亚洲另类欧美| 谁有免费的黄色网址| 亚洲色图视频网站| 自拍偷拍欧美亚洲| 欧美日免费三级在线| 风流老熟女一区二区三区| 一区二区三区动漫| 欧洲成人综合网| 国产成+人+综合+亚洲欧洲| 奇米一区二区| 日本不卡一区| 亚洲午夜一区| 免费看国产黄色片| av在线一区二区| 三级影片在线观看| 日韩欧美国产高清91| 亚洲综合网av| 亚洲激情在线观看| www.在线视频| 国产99视频在线观看| 亚洲日本视频在线| 亚洲一区二区三区精品视频| 亚洲国产一区二区精品专区| www.污污视频| 久久久精品综合| 亚洲国产综合久久| 91精品蜜臀在线一区尤物| 美州a亚洲一视本频v色道| 欧美日本精品在线| 欧美123区| 欧美日韩一区二| 伊人蜜桃色噜噜激情综合| 一级黄色特级片| 久久久午夜精品理论片中文字幕| 校园春色 亚洲| 欧美三级韩国三级日本一级| 香蕉av一区二区三区| 欧美老少做受xxxx高潮| 日本免费成人| 日韩中文一区| 鲁大师影院一区二区三区| 亚洲色偷偷色噜噜狠狠99网| 亚洲丝袜另类动漫二区| 中文字幕日本人妻久久久免费 | 午夜影院欧美|