精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

NLP入門干貨:手把手教你3種中文規則分詞方法

人工智能 語音識別
本文將講解中文自然語言處理的第一項核心技術——中文分詞技術,它是中文自然語言處理非常關鍵和核心的部分。

在自然語言理解中,詞(token)是最小的能夠獨立活動的有意義的語言成分。將詞確定下來是理解自然語言的第一步,只有跨越了這一步,中文才能像英文那樣過渡到短語劃分、概念抽取以及主題分析,以至自然語言理解,最終達到智能計算的最高境界。因此,每個NLP工作者都應掌握分詞技術。

1. 分詞的概念和分類

“詞”這個概念一直是漢語言學界糾纏不清而又揮之不去的問題。“詞是什么”(詞的抽象定義)和“什么是詞”(詞的具體界定)這兩個基本問題迄今為止也未能有一個權威、明確的表述,當今更是沒有一份令大家公認的詞表。

問題的主要難點在于漢語結構與印歐體系語種差異甚大,對詞的構成邊界很難進行界定。比如在英語中,單詞本身就是“詞”的表達,一篇英文文章的格式就是“單詞”加分隔符(空格)。

而在漢語中,詞以字為基本單位,但是一篇文章的語義表達卻仍然是以詞來劃分。因此,需要針對中文漢字,將其按照一定的方式進行組織,分成不同的詞。

中文分詞是讓計算機自動識別出句子中的詞,然后在詞間加入邊界標記符。這個過程看似簡單,然而實踐起來要復雜得多,主要困難在于分詞歧義。

下面以NLP分詞的經典場景為例進行說明,短語“結婚的和尚未結婚的”,應該分詞為“結婚/的/和/尚未/結婚/的”,還是“結婚/的/和尚/未/結婚/的”呢?對于這個問題,機器很難處理。此外,像未登錄詞、分詞粒度粗細等都是影響分詞效果的重要因素。

自中文自動分詞被提出以來,歷經近30年的探索,先后出現了很多分詞方法,可主要歸納為規則分詞、統計分詞和混合分詞(規則+統計)這3個流派。最近這幾年又興起了以深度學習的方式進行分詞,比如BILSTM+CRF。

規則分詞是最早興起的方法,主要通過人工設立詞庫,按照一定方式進行匹配切分,其實現簡單高效,但對沒有錄入詞庫的新詞很難進行處理。

隨后統計機器學習技術興起,應用于分詞任務上就有了統計分詞方法。該方法能夠較好地應對新詞發現等特殊場景。然而在實踐中,單純的統計分詞也有其缺陷:太過依賴語料的質量。因此實踐中多是采用規則分詞和統計分詞這兩種方法的結合,即混合分詞。

[[349010]]

2. 規則分詞

基于規則的分詞是一種機械分詞方法,需要不斷維護和更新詞典,在切分語句時,將語句的每個字符串與詞表中的每個詞進行逐一匹配,找到則切分,找不到則不予切分。

按照匹配劃分,主要有正向最大匹配、逆向最大匹配以及雙向最大匹配這3種切分方法。

1. 正向最大匹配

正向最大匹配(Maximum Match)通常簡稱為MM法,其執行過程如下所示。

  • 從左向右取待切分漢語句的m個字符作為匹配字段,m為機器詞典中最長詞條的字符數。
  • 查找機器詞典并進行匹配。若匹配成功,則將這個匹配字段作為一個詞切分出來。若匹配不成功,則將這個匹配字段的最后一個字去掉,剩下的字符串作為新的匹配字段,進行再次匹配,重復以上過程,直到切分出所有詞為止。

比如我們現在有個詞典,最長詞的長度為5,詞典中存在“南京市長”“長江大橋”和“大橋”3個詞。

現采用正向最大匹配對句子“南京市長江大橋”進行分詞,那么首先從句子中取出前5個字“南京市長江”,發現詞典中沒有該詞,于是縮小長度,取前4個字“南京市長”,詞典中存在該詞,于是該詞被確認切分。

再將剩下的“江大橋”按照同樣方式切分,得到“江”“大橋”,最終分為“南京市長”“江”“大橋”3個詞。顯然,這種結果不是我們所希望的。正向最大匹配法示例代碼如下。

  1. class MM(object): 
  2.     def __init__(self): 
  3.         self.window_size = 3 
  4.  
  5.     def cut(self,text): 
  6.         result=[] 
  7.         index=0 
  8.         text_length = len(text) 
  9.         dic = ['研究','研究生','生命','起源'] 
  10.         while text_length > index: 
  11.             for size in range(self.window_size+index,index,-1):#4,0,-1 
  12.                 piece = text[index:size] 
  13.                 if piece in dic: 
  14.                     index = size-1 
  15.                     break 
  16.             indexindex = index + 1 
  17.             result.append(piece) 
  18.         return result 

分詞的結果如下所示,這個結果并不能讓人滿意。

  1. text = '研究生命的起源' 
  2. tokenizer = MM() 
  3. print(tokenizer.cut(text)) 

輸出結果如下所示。

  1. ['研究生', '命', '的', '起源'] 

2. 逆向最大匹配

逆向最大匹配簡稱為RMM法。RMM法的基本原理與MM法大致相同,不同的是分詞切分的方向與MM法相反。

逆向最大匹配法從被處理文檔的末端開始匹配掃描,每次取最末端的m個字符(m為詞典中最長詞數)作為匹配字段,若匹配失敗,則去掉匹配字段最前面的一個字,繼續匹配。相應地,它使用的分詞詞典是逆序詞典,其中的每個詞條都將按逆序方式存放。

在實際處理時,先將文檔進行倒排處理,生成逆序文檔。然后,根據逆序詞典,對逆序文檔用正向最大匹配法處理即可。

由于漢語中偏正結構較多,若從后向前匹配,可以適當提高精確度。所以,逆向最大匹配法比正向最大匹配法的誤差要小。

統計結果表明,單純使用正向最大匹配的錯誤率為1/169,單純使用逆向最大匹配的錯誤率為1/245。比如之前的“南京市長江大橋”,按照逆向最大匹配,最終得到“南京市”“長江大橋”的分詞結果。

當然,如此切分并不代表完全正確,可能有個叫“江大橋”的“南京市長”也說不定。逆向最大匹配法示例代碼如下。

  1. class RMM(object): 
  2.     def __init__(self): 
  3.         self.window_size = 3 
  4.  
  5.     def cut(self, text): 
  6.         result = [] 
  7.         index = len(text) 
  8.         dic = ['研究', '研究生', '生命', '命', '的', '起源'] 
  9.         while index > 0: 
  10.             for size in range(index-self.window_size ,index): 
  11.                 piece = text[size:index] 
  12.                 if piece in dic: 
  13.                     index = size + 1 
  14.                     break 
  15.             indexindex = index - 1 
  16.             result.append(piece) 
  17.         result.reverse() 
  18.         return result 

分詞的結果如下所示,這個結果就很準確了。

  1. text = '研究生命的起源' 
  2. tokenizer = RMM() 
  3. print(tokenizer.cut(text)) 

輸出結果如下所示。

  1. ['研究', '生命', '的', '起源'] 

3. 雙向最大匹配

雙向最大匹配法是將正向最大匹配法得到的分詞結果和逆向最大匹配法得到的結果進行比較,然后按照最大匹配原則,選取詞數切分最少的作為結果。

據Sun M.S.和Benjamin K.T.研究表明,對于中文中90.0%左右的句子,正向最大匹配和逆向最大匹配的切分結果完全重合且正確,只有大概9.0%的句子采用兩種切分方法得到的結果不一樣,但其中必有一個是正確的(歧義檢測成功),只有不到1.0%的句子,或者正向最大匹配和逆向最大匹配的切分結果雖重合卻都是錯的,或者正向最大匹配和逆向最大匹配的切分結果不同但兩個都不對(歧義檢測失敗)。這正是雙向最大匹配法在實用中文信息處理系統中得以廣泛使用的原因所在。

前面列舉的“南京市長江大橋”采用雙向最大匹配法進行切分,中間產生“南京市/ 江/ 大橋”和“南京市/ 長江大橋”兩種結果,最終選取詞數較少的“南京市/ 長江大橋”這一結果。

雙向最大匹配的規則如下所示。

(1) 如果正反向分詞結果詞數不同,則取分詞數量較少的那個結果(上例:“南京市/江/大橋”的分詞數量為3,而“南京市/長江大橋”的分詞數量為2,所以返回分詞數量為2的結果)。

(2) 如果分詞結果詞數相同,則:

  • 分詞結果相同,就說明沒有歧義,可返回任意一個結果。
  • 分詞結果不同,返回其中單字較少的那個。比如前文示例代碼中,正向最大匹配返回的結果為“['研究生', '命', '的', '起源']”,其中單字個數為2個;而逆向最大匹配返回的結果為“['研究', '生命', '的', '起源']”,其中單字個數為1。所以返回的是逆向最大匹配的結果。

參考代碼如下所示。

  1. #統計單字成詞的個數 
  2. def count_singlechar(word_list): 
  3.     return sum(1 for word in word_list if len(word) == 1) 
  4.  
  5. def bidirectional_segment(text): 
  6.     mm = MM() 
  7. rmm = RMM() 
  8.     f = mm.cut(text) 
  9.     b = rmm.cut(text) 
  10.     if (len(f) < len(b)): 
  11.         return f 
  12.     elif (len(f) > len(b)): 
  13.         return b 
  14.     else: 
  15.         if (count_singlechar(f) >= count_singlechar(b)): 
  16.             return b 
  17.         else: 
  18.             return f 

最后我們驗證一下效果。

  1. print(bidirectional_segment('研究生命的起源')) 

輸出結果為:

  1. ['研究', '生命', '的', '起源'] 

基于規則的分詞一般都較為簡單高效,但是詞典的維護面臨很龐大的工作量。在網絡發達的今天,網絡新詞層出不窮,很難通過詞典覆蓋所有詞。另外,詞典分詞也無法區分歧義以及無法召回新詞。

在實際項目中,我們是否會考慮使用規則分詞?

雖然使用規則分詞的分詞準確率看上去非常高,但是規則分詞有幾個特別大的問題:

  • 不斷維護詞典是非常煩瑣的,新詞總是層出不窮,人工維護費時費力;
  • 隨著詞典中條目數的增加,執行效率變得越來越低;
  • 無法解決歧義問題。

 

責任編輯:趙寧寧 來源: 華章科技
相關推薦

2018-03-23 20:45:23

機器學習NLP文本數據

2019-10-22 14:30:11

機器學習人工智能計算機

2017-12-01 05:01:35

WiFi干擾無線網絡

2011-05-03 15:59:00

黑盒打印機

2011-01-10 14:41:26

2025-05-07 00:31:30

2021-07-14 09:00:00

JavaFX開發應用

2009-07-03 17:15:31

jsp上傳文件

2021-06-29 12:27:19

Spring BootCAS 登錄

2018-05-16 13:50:30

Python網絡爬蟲Scrapy

2011-02-22 13:46:27

微軟SQL.NET

2021-12-28 08:38:26

Linux 中斷喚醒系統Linux 系統

2021-02-26 11:54:38

MyBatis 插件接口

2023-04-26 12:46:43

DockerSpringKubernetes

2022-03-14 14:47:21

HarmonyOS操作系統鴻蒙

2022-12-07 08:42:35

2022-07-27 08:16:22

搜索引擎Lucene

2022-01-08 20:04:20

攔截系統調用

2022-06-30 08:13:44

PythonWeb編程語言

2020-04-14 10:20:12

MySQL數據庫死鎖
點贊
收藏

51CTO技術棧公眾號

欧美国产在线电影| 日韩欧美中文字幕制服| 日韩精品一区二区三区色偷偷 | 日韩永久免费视频| 国产一区91| 中文字幕亚洲无线码a| 香蕉久久久久久av成人| 成人视屏在线观看| 一区二区三区中文字幕电影| 久久亚洲精品欧美| 国产免费久久久| 国产日韩亚洲| 久久国产精品偷| 女人又爽又黄免费女仆| 一区二区三区日本视频| 欧美日韩国产中文字幕 | 欧美亚洲图片小说| 阿v天堂2018| 日韩伦理在线电影| xf在线a精品一区二区视频网站| 国产中文字幕91| 中文字幕精品三级久久久| 久久久久久久久久久久久久| 亚洲精品网址在线观看| 日本在线视频播放| 久久er热在这里只有精品66| 亚洲综合色噜噜狠狠| 一区二区免费在线观看| 免费理论片在线观看播放老| 成人久久18免费网站麻豆| 国产一区视频在线播放| 超碰在线免费97| 一区二区三区四区五区精品视频| 欧美乱大交做爰xxxⅹ性3| 欧美a在线播放| 深夜福利久久| 日韩高清a**址| a级片在线观看视频| 国产一区2区在线观看| 欧美无人高清视频在线观看| 日韩久久一级片| wwwww亚洲| 亚洲影视资源网| 亚洲国产精品女人| 美女国产在线| ...av二区三区久久精品| 小说区图片区图片区另类灬| 蜜桃视频在线播放| 久久久国产午夜精品| 久久国产精品 国产精品| 人妻精品无码一区二区| 成人精品鲁一区一区二区| 51成人做爰www免费看网站| 国产三级漂亮女教师| 精品一区免费av| 国产美女被下药99| 97人妻精品一区二区三区软件| 人人狠狠综合久久亚洲| 国产精品欧美亚洲777777| 一级久久久久久| 老司机精品视频在线| 国产啪精品视频网站| 国产又黄又爽视频| 国产伦精品一区二区三区视频青涩| 成人看片人aa| wwwav网站| 成人免费毛片aaaaa**| 精品久久一区二区三区蜜桃| 午夜黄色小视频| 久久久久九九视频| 亚洲精品9999| 四虎亚洲精品| 欧美日韩亚洲国产一区| 熟妇人妻无乱码中文字幕真矢织江| 欧美日韩亚洲国产| 欧美精品丝袜久久久中文字幕| 亚洲高清视频免费| 91欧美极品| 亚洲精品一区二区三区婷婷月| 欧美人妻一区二区三区| 天天做天天爱天天爽综合网| 久久99久久久久久久噜噜| 日韩黄色精品视频| 男男视频亚洲欧美| 成人免费看片网站| 美女毛片在线看| 亚洲视频一二区| 丁香花在线影院观看在线播放| 羞羞影院欧美| 91精品国产乱码| 久久久久久久久久久国产精品| 日本一区二区免费高清| 九九久久综合网站| 在线观看日本视频| 国产激情视频一区二区在线观看 | 国产在线播放91| 国产ts人妖调教重口男| 91亚洲精华国产精华精华液| 亚洲国产精品久久久久久女王| 最新国产在线拍揄自揄视频| 色哟哟一区二区| 伊人av在线播放| 国产一区二区精品久| 欧美成人免费一级人片100| 中文字幕国产在线观看| 国产真实乱偷精品视频免| 蜜桃臀一区二区三区| 国产一二三区在线观看| 色激情天天射综合网| 极品人妻一区二区| 日韩啪啪电影网| 日本高清久久天堂| 亚洲黄色小说网| 国产精品久久网站| 色综合av综合无码综合网站| 亚洲三级av| 日韩综合视频在线观看| 中文在线第一页| av中文一区二区三区| 欧美日韩午夜爽爽| 欧美亚洲福利| 中文字幕国内精品| 在线永久看片免费的视频| 成人动漫视频在线| 国产日韩欧美大片| 2020国产精品小视频| 在线丨暗呦小u女国产精品| 成人毛片18女人毛片| 国产黄人亚洲片| 视频一区二区视频| 日韩av黄色| 在线国产精品视频| 波多野结衣激情视频| 2020国产精品久久精品美国| 丁香色欲久久久久久综合网| 国产精品欧美一区二区三区不卡| 国产午夜精品一区二区三区| 国产中文字幕视频| 91免费看片在线观看| 久久成人免费观看| 秋霞蜜臀av久久电影网免费| 午夜精品久久久久久久久久久久久| www.国产三级| 一区二区激情视频| 乱码一区二区三区| 精品91久久久久| 国产一区免费观看| av在线私库| 日韩av在线不卡| 欧美一区二区三区四| 91污在线观看| 女性隐私黄www网站视频| 免费久久精品| 国产精品视频内| 麻豆传媒视频在线观看| 91精品国产一区二区三区| 永久免费看黄网站| 丁香桃色午夜亚洲一区二区三区| 欧美一级视频在线播放| 欧美亚洲色图校园春色| 琪琪第一精品导航| jyzzz在线观看视频| 欧美日韩激情一区| 婷婷伊人五月天| 高潮精品一区videoshd| 男女激情无遮挡| 精品国产91久久久久久浪潮蜜月| 国产精品免费电影| 国产在线观看免费麻豆| 精品少妇一区二区三区在线视频| 日本少妇性生活| 久久久不卡网国产精品二区 | 日韩中文视频| 久久伊人精品天天| 欧美一级特黄aaaaaa| 日韩人在线观看| 国产精品麻豆免费版现看视频| 国产一区二区三区蝌蚪| 日韩欧美视频网站| 波多野结衣在线观看一区二区三区| 成人激情视频在线观看| 97人人在线视频| 尤物九九久久国产精品的特点 | 国产乱子精品一区二区在线观看| 久久综合伊人77777| 天堂中文在线观看视频| 欧美性一二三区| 精品无码免费视频| 国产欧美日韩另类视频免费观看 | 在线播放成人av| 亚洲综合丝袜美腿| 欧美成人另类视频| 成人国产亚洲欧美成人综合网| 日韩亚洲在线视频| 欧美精品综合| 深夜福利成人| 精品自拍偷拍| 91久久精品美女高潮| 2020av在线| 久久久国产视频| 男人的天堂av高清在线| 日韩视频一区二区三区在线播放| 日韩在线视频不卡| 一区二区在线看| 午夜黄色福利视频| 91最新地址在线播放| 一区二区三区国产好的精华液| 国产精品尤物| 精品视频在线观看一区二区| 欧美日韩一二三四| 精品日产一区2区三区黄免费 | 国产一区二区在线看| 青青在线视频观看| 亚洲国产专区校园欧美| 五月天av影院| 精品日韩免费| 欧美大陆一区二区| www.豆豆成人网.com| 成人亚洲激情网| 成人日韩在线观看| 欧美一级片在线播放| 2021天堂中文幕一二区在线观| 日韩视频亚洲视频| av电影在线网| 亚洲欧美日韩一区二区在线| 色欲av伊人久久大香线蕉影院| 在线成人av网站| 影音先锋黄色网址| 在线观看91视频| 中文字幕精品无| 欧美性猛交xxxx黑人猛交| 国产成人精品亚洲男人的天堂| 亚洲精品欧美专区| 国语对白在线播放| 亚洲色图视频网站| 亚洲欧美精品久久| 中文字幕日韩av资源站| 日韩av片在线| 中文在线免费一区三区高中清不卡| 精品无码人妻一区| 2020国产精品久久精品美国| 中文字幕丰满孑伦无码专区| 9久草视频在线视频精品| 性农村xxxxx小树林| 成人永久aaa| 国产精品一区二区人妻喷水| 成人av手机在线观看| 午夜福利三级理论电影| 成人av免费在线观看| 国产制服丝袜在线| 久久奇米777| 中文字幕第20页| 欧美国产亚洲另类动漫| 国产精品成人一区二区三区电影毛片| 久久久一区二区三区| 国产一二三四五区| 国产精品久久久久影院| 国产免费一区二区三区四区| 亚洲欧美精品午睡沙发| 久久久精品99| 精品久久久一区二区| 天干夜夜爽爽日日日日| 欧美日韩在线播放一区| 99国产精品久久久久久久成人| 日韩三区在线观看| 日韩一卡二卡在线| 国产亚洲精品久久久| 日韩理伦片在线| 欧美激情在线观看视频| 综合日韩av| 国产精品视频久久久久| 亚洲精品v亚洲精品v日韩精品| 国产麻豆乱码精品一区二区三区 | 999久久久国产999久久久| 91久久精品美女| 琪琪久久久久日韩精品| 亚洲v国产v| 国产主播一区| 久草在在线视频| 国产精品一区二区黑丝| 成人免费毛片日本片视频| 国产精品女上位| 精品无码免费视频| 欧洲精品中文字幕| xxxwww在线观看| 亚洲无线码在线一区观看| 国产91在线视频蝌蚪| 欧美又大粗又爽又黄大片视频| a屁视频一区二区三区四区| 99三级在线| 狠狠色狠狠色综合婷婷tag| av影院在线播放| 日韩精品免费视频人成| 农村末发育av片一区二区 | 国产精品久久久久久久精| 天天色综合成人网| 国产精品国产一区二区三区四区| 日韩av在线不卡| 怡红院红怡院欧美aⅴ怡春院| 日韩av手机在线观看| 欧美一区一区| 婷婷久久伊人| 99热精品在线观看| 在线观看中文av| 国产午夜精品福利| 国产成人精品亚洲男人的天堂| 欧美精品777| 黄色影院在线播放| 午夜精品一区二区三区在线播放 | 日本 欧美 国产| 日韩欧美在线视频日韩欧美在线视频| 国产人妻精品一区二区三| 亚洲一区二区国产| 午夜影院在线观看国产主播| 99国产超薄丝袜足j在线观看| 成人在线免费观看91| av动漫在线观看| 成人永久看片免费视频天堂| 欧美黑人猛猛猛| 欧美福利视频一区| 91xxx在线观看| 国产91色在线免费| 日本福利一区| 九色自拍视频在线观看| 国产剧情一区二区| 久久福利免费视频| 欧美日本一区二区| av基地在线| 国产精品丝袜白浆摸在线 | 男女啪啪免费观看| 久久激情五月激情| 精品日韩在线视频| 91福利视频网站| 韩日视频在线| 奇米影视亚洲狠狠色| 羞羞色国产精品网站| 日韩免费一级视频| 99re成人精品视频| 久久久久久久极品| 亚洲激情小视频| 水蜜桃在线视频| 蜜桃视频在线观看成人| 亚欧美中日韩视频| 国产中年熟女高潮大集合| 日韩欧美aaa| 黄色片视频在线观看| 国产成人中文字幕| 日韩国产专区| 国产成年人视频网站| 亚洲日本电影在线| 精品人妻午夜一区二区三区四区| 蜜臀久久99精品久久久无需会员| 欧美电影院免费观看| 老司机激情视频| a美女胸又www黄视频久久| 一级黄色免费网站| 亚洲一级片在线看| 欧美一级做a| 黄色特一级视频| 成人av在线一区二区| 国产精品久久久免费视频| 亚洲欧美福利视频| 成人1区2区| 国产女主播av| 99久久精品一区| 国产亚洲欧美日韩高清| 中文字幕无线精品亚洲乱码一区| 色狠狠一区二区三区| 奇米777四色影视在线看| 99久久婷婷国产| 最近国语视频在线观看免费播放| 久久激情视频免费观看| 国产伦理久久久久久妇女 | 成人免费的视频| 怡红院av久久久久久久| 日韩在线观看免费高清| 超碰成人97| 九热视频在线观看| 亚洲精品ww久久久久久p站| 日本一区高清| 91精品在线观| 国产午夜久久| 亚洲一二三四五六区| 亚洲成av人片在线观看香蕉| 韩日成人影院| www.国产亚洲| 久久久国产综合精品女国产盗摄| av网站在线观看免费| 日本一欧美一欧美一亚洲视频| 91超碰国产精品| 免费黄色在线视频| 51精品视频一区二区三区| 日本在线影院| 国产香蕉一区二区三区| 久久久久久久精| 六月婷婷综合网| 成人精品久久久| 久久国产精品毛片| 久久久国产精华液| 精品国产一区二区三区四区在线观看|