精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

向量化與HashTrick在文本挖掘中預處理中的體現

人工智能 深度學習
在(文本挖掘的分詞原理)中,我們講到了文本挖掘的預處理的關鍵一步:“分詞”,而在做了分詞后,如果我們是做文本分類聚類,則后面關鍵的特征預處理步驟有向量化或向量化的特例Hash Trick,本文我們就對向量化和特例Hash Trick預處理方法做一個總結。

[[201071]]

前言

在(文本挖掘的分詞原理)中,我們講到了文本挖掘的預處理的關鍵一步:“分詞”,而在做了分詞后,如果我們是做文本分類聚類,則后面關鍵的特征預處理步驟有向量化或向量化的特例Hash Trick,本文我們就對向量化和特例Hash Trick預處理方法做一個總結。

詞袋模型

在講向量化與Hash Trick之前,我們先說說詞袋模型(Bag of Words,簡稱BoW)。詞袋模型假設我們不考慮文本中詞與詞之間的上下文關系,僅僅只考慮所有詞的權重。而權重與詞在文本中出現的頻率有關。

詞袋模型首先會進行分詞,在分詞之后,通過統計每個詞在文本中出現的次數,我們就可以得到該文本基于詞的特征,如果將各個文本樣本的這些詞與對應的詞頻放在一起,就是我們常說的向量化。向量化完畢后一般也會使用TF-IDF進行特征的權重修正,再將特征進行標準化。 再進行一些其他的特征工程后,就可以將數據帶入機器學習算法進行分類聚類了。

詞袋模型的三部曲:

  • 分詞(tokenizing);
  • 統計修訂詞特征值(counting);
  • 標準化(normalizing);

與詞袋模型非常類似的一個模型是詞集模型(Set of Words,簡稱SoW),和詞袋模型***的不同是它僅僅考慮詞是否在文本中出現,而不考慮詞頻。也就是一個詞在文本在文本中出現1次和多次特征處理是一樣的。在大多數時候,我們使用詞袋模型,后面的討論也是以詞袋模型為主。

當然,詞袋模型有很大的局限性,因為它僅僅考慮了詞頻,沒有考慮上下文的關系,因此會丟失一部分文本的語義。但是大多數時候,如果我們的目的是分類聚類,則詞袋模型表現的很好。

BoW之向量化

在詞袋模型的統計詞頻這一步,我們會得到該文本中所有詞的詞頻,有了詞頻,我們就可以用詞向量表示這個文本。這里我們舉一個例子,例子直接用scikit-learn的CountVectorizer類來完成,這個類可以幫我們完成文本的詞頻統計與向量化,代碼如下:

  1. from sklearn.feature_extraction.text import CountVectorizer   
  2. corpus=["I come to China to travel",  
  3.    "This is a car polupar in China",           
  4.    "I love tea and Apple ",    
  5.    "The work is to write some papers in science"]  
  6. print vectorizer.fit_transform(corpus) 

 

我們看看對于上面4個文本的處理輸出如下:

  1. (0, 16)1 
  2.  (0, 3)1 
  3.  (0, 15)2 
  4.  (0, 4)1 
  5.  (1, 5)1 
  6.  (1, 9)1 
  7.  (1, 2)1 
  8.  (1, 6)1 
  9.  (1, 14)1 
  10.  (1, 3)1 
  11.  (2, 1)1 
  12.  (2, 0)1 
  13.  (2, 12)1 
  14.  (2, 7)1 
  15.  (3, 10)1 
  16.  (3, 8)1 
  17.  (3, 11)1 
  18.  (3, 18)1 
  19.  (3, 17)1 
  20.  (3, 13)1 
  21.  (3, 5)1 
  22.  (3, 6)1 
  23.  (3, 15)1 

 

可以看出4個文本的詞頻已經統計出,在輸出中,左邊的括號中的***個數字是文本的序號,第2個數字是詞的序號,注意詞的序號是基于所有的文檔的。第三個數字就是我們的詞頻。

我們可以進一步看看每個文本的詞向量特征和各個特征代表的詞,代碼如下:

  1. print vectorizer.fit_transform(corpus).toarray() 
  2.  
  3. print vectorizer.get_feature_names() 

 

輸出如下:

  1. [[0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 2 1 0 0] 
  2.  
  3. [0 0 1 1 0 1 1 0 0 1 0 0 0 0 1 0 0 0 0] 
  4.  
  5. [1 1 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0] 
  6.  
  7. [0 0 0 0 0 1 1 0 1 0 1 1 0 1 0 1 0 1 1]] 
  8.  
  9. [u'and', u'apple', u'car', u'china', u'come', u'in', u'is', u'love', u'papers', u'polupar', u'science', u'some', u'tea', u'the', u'this', u'to', u'travel', u'work', u'write'

 

可以看到我們一共有19個詞,所以4個文本都是19維的特征向量。而每一維的向量依次對應了下面的19個詞。另外由于詞”I”在英文中是停用詞,不參加詞頻的統計。

由于大部分的文本都只會使用詞匯表中的很少一部分的詞,因此我們的詞向量中會有大量的0。也就是說詞向量是稀疏的。在實際應用中一般使用稀疏矩陣來存儲。將文本做了詞頻統計后,我們一般會通過TF-IDF進行詞特征值修訂。

向量化的方法很好用,也很直接,但是在有些場景下很難使用,比如分詞后的詞匯表非常大,達到100萬+,此時如果我們直接使用向量化的方法,將對應的樣本對應特征矩陣載入內存,有可能將內存撐爆,在這種情況下我們怎么辦呢?***反應是我們要進行特征的降維,說的沒錯!而Hash Trick就是非常常用的文本特征降維方法。

Hash Trick

在大規模的文本處理中,由于特征的維度對應分詞詞匯表的大小,所以維度可能非常恐怖,此時需要進行降維,不能直接用我們上一節的向量化方法。而最常用的文本降維方法是Hash Trick。說到Hash,一點也不神秘,學過數據結構的同學都知道。這里的Hash意義也類似。

在Hash Trick里,我們會定義一個特征Hash后對應的哈希表的大小,這個哈希表的維度會遠遠小于我們的詞匯表的特征維度,因此可以看成是降維。具體的方法是,對應任意一個特征名,我們會用Hash函數找到對應哈希表的位置,然后將該特征名對應的詞頻統計值累加到該哈希表位置。如果用數學語言表示,假如哈希函數h使第i個特征哈希到位置j,即h(i)=j,則第i個原始特征的詞頻數值ϕ(i)將累加到哈希后的第j個特征的詞頻數值ϕ¯上,即:

 

 

 

 

但是上面的方法有一個問題,有可能兩個原始特征的哈希后位置在一起導致詞頻累加特征值突然變大,為了解決這個問題,出現了hash Trick的變種signed hash trick,此時除了哈希函數h,我們多了一個哈希函數:

 

這樣做的好處是,哈希后的特征仍然是一個無偏的估計,不會導致某些哈希位置的值過大。

在scikit-learn的HashingVectorizer類中,實現了基于signed hash trick的算法,這里我們就用HashingVectorizer來實踐一下Hash Trick,為了簡單,我們使用上面的19維詞匯表,并哈希降維到6維。當然在實際應用中,19維的數據根本不需要Hash Trick,這里只是做一個演示,代碼如下:

  1. from sklearn.feature_extraction.text import HashingVectorizer  
  2. vectorizer2=HashingVectorizer(n_features = 6,norm = None)print vectorizer2.fit_transform(corpus) 

 

輸出如下:

  1. (0, 1)2.0 
  2.  
  3. (0, 2)-1.0 
  4.  
  5. (0, 4)1.0 
  6.  
  7. (0, 5)-1.0 
  8.  
  9. (1, 0)1.0 
  10.  
  11. (1, 1)1.0 
  12.  
  13. (1, 2)-1.0 
  14.  
  15. (1, 5)-1.0 
  16.  
  17. (2, 0)2.0 
  18.  
  19. (2, 5)-2.0 
  20.  
  21. (3, 0)0.0 
  22.  
  23. (3, 1)4.0 
  24.  
  25. (3, 2)-1.0 
  26.  
  27. (3, 3)1.0 
  28.  
  29. (3, 5)-1.0 

 

和PCA類似,Hash Trick降維后的特征我們已經不知道它代表的特征名字和意義。此時我們不能像上一節向量化時候可以知道每一列的意義,所以Hash Trick的解釋性不強。

小結

在特征預處理的時候,我們什么時候用一般意義的向量化,什么時候用Hash Trick呢?標準也很簡單。

一般來說,只要詞匯表的特征不至于太大,大到內存不夠用,肯定是使用一般意義的向量化比較好。因為向量化的方法解釋性很強,我們知道每一維特征對應哪一個詞,進而我們還可以使用TF-IDF對各個詞特征的權重修改,進一步完善特征的表示。

而Hash Trick用大規模機器學習上,此時我們的詞匯量極大,使用向量化方法內存不夠用,而使用Hash Trick降維速度很快,降維后的特征仍然可以幫我們完成后續的分類和聚類工作。當然由于分布式計算框架的存在,其實一般我們不會出現內存不夠的情況。因此,實際工作中我使用的都是特征向量化。 

責任編輯:龐桂玉 來源: 36大數據
相關推薦

2011-06-19 08:59:59

錨文本

2018-10-11 10:38:31

前端JavaScript編程語言

2009-12-29 14:58:31

WPF優點

2012-08-24 09:58:09

ReactorDSSC

2024-10-22 15:41:47

NumPyPython

2021-11-03 09:00:00

深度學習自然語言機器學習

2021-03-28 08:57:57

Python 文本數據

2009-12-29 14:00:02

WPF Dispatc

2020-12-23 11:08:10

Python代碼文本

2024-05-09 08:11:04

OllamaGo訓練文本

2009-12-04 17:31:32

PHP編碼轉換

2016-05-23 15:42:07

數據挖掘

2025-01-26 10:21:54

2023-11-14 16:29:14

深度學習

2010-03-03 17:52:31

Python線程同步

2021-11-09 20:18:21

數字化

2010-05-05 16:17:27

Oracle安全策略

2010-01-08 18:02:33

VB.NET事件

2024-12-20 13:00:00

Python文本清洗預處理

2017-01-19 14:45:34

數據挖掘Google再營銷
點贊
收藏

51CTO技術棧公眾號

日韩一二三区不卡| 亚洲色图19p| 国产精品旅馆在线| 一级黄色毛毛片| 欧美一级大片在线视频| 亚洲成人资源在线| 亚洲国产一区二区在线| 亚洲经典一区二区| 日韩中文字幕不卡| 欧美大片免费观看| 免费一级做a爰片久久毛片潮| 成人精品动漫| 亚洲成人激情自拍| 一区二区三区的久久的视频| 欧美一区二区三区黄片| 欧美高清你懂得| 国产乱肥老妇国产一区二| 久久高清内射无套| 亚洲欧洲免费| 欧美无砖专区一中文字| 白白操在线视频| 欧美在线一卡| 丁香亚洲综合激情啪啪综合| 国产精品盗摄久久久| 精品肉丝脚一区二区三区| 成人3d精品动漫精品一二三| 亚洲第一视频在线观看| 九九精品久久久| 亚洲欧美se| 亚洲综合视频在线| 精品国产无码在线| 成人欧美亚洲| 91在线国内视频| 91视频免费在线观看| 波多野结衣一本一道| 伊人久久亚洲影院| 久久伊人精品天天| 亚洲精品自拍视频在线观看| 欧美大奶一区二区| 精品国产1区2区3区| 久久久久久久久久一区二区| 不卡av影片| 午夜视频一区在线观看| 真人做人试看60分钟免费| 中文日本在线观看| 久久精品男人天堂av| 精品国产综合久久| 日本韩国免费观看| 成人性视频网站| 国产高清自拍一区| 亚洲黄色小说网| 国产成人精品三级麻豆| 91精品久久久久久综合乱菊 | 亚洲精品中文在线影院| 亚洲欧美日韩另类精品一区二区三区 | 1024免费在线视频| 久久亚洲私人国产精品va媚药| 成人免费视频观看视频| 国产特黄一级片| 国产精品资源在线看| 91免费的视频在线播放| 国产精品高潮呻吟AV无码| 美女一区二区视频| 成人h片在线播放免费网站| 亚洲中文一区二区三区| 国内精品在线播放| 91福利视频导航| www日本在线| 成人h动漫精品| 精品久久中出| 久草视频在线看| 国产欧美一区二区精品性色超碰 | 国产精品99久久99久久久二8| 六月丁香在线视频| 日本麻豆一区二区三区视频| 国产精品久久久久秋霞鲁丝 | 精品久久人人做人人爱| 91亚洲一线产区二线产区| 中文字幕日韩在线| 精品亚洲一区二区三区四区五区| 男人舔女人下部高潮全视频| 欧洲激情综合| 免费99精品国产自在在线| 久久久久久久久97| 免费在线播放第一区高清av| 国产欧美精品一区二区三区介绍| 国产一区二区三区在线观看| 国产一区二区三区蝌蚪| 国产精品一区而去| 国产日韩精品在线看| 亚洲视频在线一区二区| 久久久亚洲精品无码| 性高爱久久久久久久久| 欧美日韩成人在线| 欧美深性狂猛ⅹxxx深喉| 精品视频亚洲| 欧美夫妻性生活xx| 区一区二在线观看| 国产伦精一区二区三区| 久久国产主播精品| 日本视频在线免费观看| 亚洲国产精品欧美一二99 | 精品无人区卡一卡二卡三乱码免费卡| 99re国产视频| 黄色小视频在线观看| 亚洲男人电影天堂| 免费观看成人网| 亚洲一区电影| 综合国产在线视频| 日韩av免费网址| 精品一区二区av| 久久99久久99精品蜜柚传媒| 美女国产在线| 色综合久久综合中文综合网| 国产精品久久久久野外| 偷拍一区二区| 欧美国产日韩一区二区| 最近中文字幕在线观看| 成人av在线播放网址| 一区二区三区四区欧美| 永久免费毛片在线播放| 日韩欧美一级二级| 久久久久亚洲AV成人无在| 日韩视频二区| 51国偷自产一区二区三区的来源 | 久久综合色视频| 国产成人免费av一区二区午夜| 亚洲精品视频在线播放| 麻豆chinese极品少妇| 久久99深爱久久99精品| 日韩av不卡播放| 国产伦子伦对白在线播放观看| 欧美一区二区三区色| 欧美激情 一区| 久久久国产精品一区二区中文| 高清免费日韩| 色呦呦在线看| 日韩一二在线观看| 久久福利免费视频| 九九视频精品免费| 亚洲欧洲一二三| 色综合天天色| 在线a欧美视频| 极品国产91在线网站| 91在线免费视频观看| 少妇高潮喷水在线观看| 欧美激情网址| 97视频在线观看免费| 国产自产一区二区| 亚洲mv在线观看| 中文在线永久免费观看| 精品不卡视频| 国精产品99永久一区一区| h片精品在线观看| 亚洲成人免费在线视频| 天天操天天干视频| 久久综合九色综合欧美98| 奇米精品一区二区三区| 亚洲女娇小黑人粗硬| 国产成人精品在线视频| 成年人在线观看网站| 欧美日韩国产影片| 老熟妇高潮一区二区三区| 国内精品视频666| 50度灰在线观看| 丁香婷婷成人| 欧美做受高潮1| 蜜桃免费在线| 欧美日韩在线免费视频| 极品色av影院| 大桥未久av一区二区三区中文| 日韩欧美不卡在线| 精品中文字幕一区二区三区av| 国产成人精品免费久久久久 | 国产精品沙发午睡系列990531| 亚洲色图 在线视频| 99久久影视| 超碰97国产在线| 国产在线天堂www网在线观看| 亚洲精品日韩久久久| 国产精品成人无码| 樱花草国产18久久久久| 亚洲欧美日本一区| 日韩成人免费看| 久久久久久久久网| 婷婷综合成人| 国产在线精品自拍| 激情av在线播放| 国产亚洲精品久久久久久777| 国产又黄又粗又猛又爽| 亚洲一区二区在线观看视频| www.超碰97| 韩国成人在线视频| 大肉大捧一进一出好爽视频| 久久麻豆精品| 国产精品三区在线| 另类一区二区| 97久久国产精品| 国产在线观看免费| 日韩欧美一区二区在线视频| 日韩一区二区视频在线| 一色桃子久久精品亚洲| 中文字幕一区三区久久女搜查官| 毛片不卡一区二区| 黄色一级视频片| 综合色一区二区| 免费毛片一区二区三区久久久| 视频欧美精品| 日本精品在线视频 | 日韩一区欧美小说| 日本一区二区在线免费观看| 蜜臀av一区二区在线免费观看| 黄色激情在线视频| 99九九热只有国产精品| 久久一区二区三区欧美亚洲| 精品中文视频| 国产精品主播视频| 日本三级一区| 久久久亚洲欧洲日产国码aⅴ| 日本免费中文字幕在线| 亚洲老司机av| 特黄aaaaaaaaa真人毛片| 在线不卡的av| 中文字幕人妻一区二区三区视频| 五月婷婷综合网| 久久久精品视频在线| **欧美大码日韩| 亚洲一级黄色录像| 久久女同精品一区二区| 95视频在线观看| 国产精品99久久不卡二区| 亚洲va综合va国产va中文| 久久精品午夜| www.爱色av.com| 尤物网精品视频| 欧美精品卡一卡二| 午夜精品国产| 国产精品久久久影院| 久久精品不卡| 天堂社区 天堂综合网 天堂资源最新版| 欧美91在线| 国产另类自拍| 国偷自产av一区二区三区| 99久久99久久| 66精品视频在线观看| av一区和二区| 日韩区一区二| 99蜜桃在线观看免费视频网站| 成年永久一区二区三区免费视频| 国产精品视频色| 国产福利一区二区三区在线播放| 国产精品av在线播放| 午夜av成人| 国产美女高潮久久白浆| 欧美jizz18| 成人在线视频网站| 色妞ww精品视频7777| aa日韩免费精品视频一| 成人在线tv视频| 精品国产二区在线| 蜜桃成人av| 水蜜桃亚洲精品| 国产韩国精品一区二区三区| 一区二区在线观| 中文字幕一区二区三区欧美日韩 | 日本不卡视频在线| 老司机午夜性大片| 国产精品1区2区| 国产二级一片内射视频播放| 99re热视频这里只精品| 91网站免费视频| 国产精品卡一卡二卡三| 欧美人禽zoz0强交| 午夜精品福利一区二区三区蜜桃| 全部毛片永久免费看| 欧美日韩一区二区三区四区 | 日韩av一区在线观看| 欧美大片aaa| 精品国产区一区二区三区在线观看 | 五月婷婷亚洲综合| 欧美日韩一区二区三区四区五区 | 久久精品视频日本| 欧美视频在线观看 亚洲欧| 亚洲天堂999| 亚洲成人av片| 最新97超碰在线| 欧美极品在线视频| 精品无人乱码一区二区三区| 亚洲va久久久噜噜噜久久天堂| 免费看久久久| 一本一生久久a久久精品综合蜜| 欧美伊人久久| av网址在线观看免费| 国产自产高清不卡| 国产精品无码网站| 自拍偷拍欧美精品| 国产黄色片免费看| 日韩午夜在线影院| 国产玉足榨精视频在线观看| 欧美精品在线极品| 户外露出一区二区三区| 成人免费视频视频在| heyzo久久| 日本a在线免费观看| 久久精品国产一区二区| 艳妇乳肉亭妇荡乳av| 亚洲女同一区二区| 欧美性猛交xxxx乱大交hd| 欧美成人r级一区二区三区| 亚洲xxxxxx| 青草成人免费视频| 成人高潮a毛片免费观看网站| 亚洲蜜桃av| 久久免费国产| 日韩av无码一区二区三区不卡| 国产精品久久久久影院| 天堂在线免费观看视频| 日韩午夜激情电影| 婷婷在线视频观看| 国产成人激情小视频| 青青久久av| www插插插无码免费视频网站| 麻豆freexxxx性91精品| 久久只有这里有精品| 富二代精品短视频| 色窝窝无码一区二区三区成人网站 | 色综合天天综合网天天看片| 国产高清免费观看| 久久色在线播放| 久久精品国产精品亚洲毛片| 免费久久一级欧美特大黄| 亚洲黄色免费| 一级黄色免费视频| 一区二区三区精品| 国产黄a三级三级看三级| 久久午夜a级毛片| 四虎精品在线观看| 老司机av福利| 久久精品久久99精品久久| 992在线观看| 欧美男人的天堂一二区| 午夜免费福利在线观看| 国产精品综合久久久| 日韩啪啪电影网| 日本激情综合网| 亚洲国产精品v| 一区二区视频播放| 色吧影院999| 青娱乐极品盛宴一区二区| 一区二区冒白浆视频| 九色综合国产一区二区三区| 波多野结衣久久久久| 欧美精品自拍偷拍动漫精品| 麻豆最新免费在线视频| 亚洲一区二区在线播放| 午夜国产精品视频免费体验区| 精品国产aⅴ一区二区三区东京热 久久久久99人妻一区二区三区 | 在线免费观看a级片| 欧美日韩亚洲精品一区二区三区| 手机福利小视频在线播放| 日本午夜精品理论片a级appf发布| 亚洲精华一区二区三区| 日日碰狠狠躁久久躁婷婷| 欧美国产1区2区| 91久久精品国产91性色69| 久久中文字幕在线| 国产精品宾馆| 成年人网站大全| 国产精品久久夜| 国产99对白在线播放| 午夜精品福利在线观看| 免费看成人哺乳视频网站| 鲁一鲁一鲁一鲁一av| 一区二区三区在线观看视频| 四虎在线视频免费观看| 国产精品美女久久| 欧美三区视频| 播金莲一级淫片aaaaaaa| 欧美日韩中文字幕一区| 日本三级在线观看网站| 美国av一区二区三区| 久久精品国产99国产| 久久国产一级片| 亚洲欧美在线一区| 精品亚洲二区| 男人添女人下面高潮视频| 亚洲国产高清不卡| 亚洲精品视频91| 国产大片精品免费永久看nba| 色婷婷色综合| 欧美激情 亚洲| 欧美日韩一本到| 国产美女情趣调教h一区二区| 日韩亚洲一区在线播放| 国产精品亚洲第一区在线暖暖韩国 | 久久久久久亚洲精品不卡| 成人3d精品动漫精品一二三| 中文字幕在线国产| 欧美色网站导航| 两个人看的在线视频www|