精品欧美一区二区三区在线观看 _久久久久国色av免费观看性色_国产精品久久在线观看_亚洲第一综合网站_91精品又粗又猛又爽_小泽玛利亚一区二区免费_91亚洲精品国偷拍自产在线观看 _久久精品视频在线播放_美女精品久久久_欧美日韩国产成人在线

深入解析 Elasticsearch IK 分詞器:ik_smart 和 ik_max_word 的區別與應用場景

云計算 分布式
最近在 git 上看看 ik 的相關問題,發現大家問的比較多的是 ik 分詞器的 ik_smart 和 ik_max_word 兩個分詞模式,以及它倆之間的分詞差異。

1、Elasticsearch ik 分詞器常見問題

最近在 git 上看看 ik 的相關問題,發現大家問的比較多的是 ik 分詞器的 ik_smart 和 ik_max_word 兩個分詞模式,以及它倆之間的分詞差異。

圖片圖片

圖片圖片

這里來集中解釋一波,期望對大家有幫助。

2、ik_smart 與 ik_max_word 的異同

首先來看下官方的FAQs

What is the difference between ik_max_word and ik_smart?

ik_max_word: Performs the finest-grained segmentation of the text. For example, it will segment "中華人民共和國國歌" into "中華人民共和國,中華人民,中華,華人,人民共和國,人民,人,民,共和國,共和,和,國國,國歌", exhaustively generating various possible combinations, suitable for Term Query.

ik_smart: Performs the coarsest-grained segmentation of the text. For example, it will segment "中華人民共和國國歌" into "中華人民共和國,國歌", suitable for Phrase queries.

Note: ik_smart is not a subset of ik_max_word.

官方這里簡單的描述了一下使用用途,即:

  • ik_smart 比較適合 match_phrase query,而 ik_max_word 更合適 term query。
  • ik_smart 的分詞結果并不是 ik_max_word 的分詞結果的子集。

那這兩個分詞器在具體實現上會有什么不一樣呢?

哪些場景兩個分詞器的分詞結果肯定不同呢?

造成分詞結果不一樣的原因是什么?

3、ik 分詞器源碼分析

3.1. 量詞處理源碼剖析

這里先看一下這段代碼。

private void compound(Lexeme result){

  if(!this.cfg.isUseSmart()){
   return ;
  }
     //數量詞合并處理
  if(!this.results.isEmpty()){

   if(Lexeme.TYPE_ARABIC == result.getLexemeType()){
    Lexeme nextLexeme = this.results.peekFirst();
    boolean appendOk = false;
    if(Lexeme.TYPE_CNUM == nextLexeme.getLexemeType()){
     //合并英文數詞+中文數詞
     appendOk = result.append(nextLexeme, Lexeme.TYPE_CNUM);
    }else if(Lexeme.TYPE_COUNT == nextLexeme.getLexemeType()){
     //合并英文數詞+中文量詞
     appendOk = result.append(nextLexeme, Lexeme.TYPE_CQUAN);
    }
    if(appendOk){
     //彈出
     this.results.pollFirst(); 
    }
   }
   
   //可能存在第二輪合并
   if(Lexeme.TYPE_CNUM == result.getLexemeType() && !this.results.isEmpty()){
    Lexeme nextLexeme = this.results.peekFirst();
    boolean appendOk = false;
     if(Lexeme.TYPE_COUNT == nextLexeme.getLexemeType()){
      //合并中文數詞+中文量詞
      appendOk = result.append(nextLexeme, Lexeme.TYPE_CQUAN);
     }  
    if(appendOk){
     //彈出
     this.results.pollFirst();       
    }
   }

  }
 }

這里由 smart 模式觸發的 合并英文數詞+中文量詞 的處理中,把 token 的屬性修改成了 TYPE_CQUAN (中文數量詞)。

這是 smart 模式下擁有而 max 模式下沒有的分詞方式和 token 類型。

舉個例子:“7天” 這個詞的分詞結果,結果中分別展示了位置:內容:類型

ik_max_word:
0-1 : 7 :  ARABIC
1-2 : 天 :  COUNT

ik_smart
0-2 : 7天 :  TYPE_CQUAN

也就是說 ik_max_word 與 ik_smart 在‘英文數詞+中文量詞’的分詞場景下,分詞結果必定不一樣。

3.2. 切分模式和歧義消除剖析

ik分詞器的算法原則還是基于中文字典進行字典樹的匹配。

也就是說詞元匹配的前提是豐富的中文字典庫(ik 已經默認加載了幾十萬的字典庫了)。

我們先來看 ik_max_word 的切分模式:執行文本的最細粒度分割,將分段詳盡地生成各種可能的組合。

來看下“中華人民共和國國歌”的例子,這里為了更加直觀的體現字典樹的匹配模式,我們把字典庫的內容也列出來。

文本:中華人民共和國國歌

字典庫:中華人民共和國國歌,中華人民,中華,華人,人民共和國,人民,共和國,共和,國國,國歌

ik_max_word 分詞結果:
0-9 : 中華人民共和國國歌 :  CN_WORD
0-4 : 中華人民 :  CN_WORD
0-2 : 中華 :  CN_WORD
1-3 : 華人 :  CN_WORD
2-7 : 人民共和國 :  CN_WORD
2-4 : 人民 :  CN_WORD
4-7 : 共和國 :  CN_WORD
4-6 : 共和 :  CN_WORD
6-8 : 國國 :  CN_WORD
7-9 : 國歌 :  CN_WORD

可以看出 ik_max_word 分詞器把所有的字典結果都匹配出來了,同時也看到了好幾個詞元的位置是有重疊的,比如:“中華人民”“中華”“華人”這幾個詞元,位置在0-4這段有著不同的重疊。

這也就是造成了代碼中所需要處理的“歧義”,我們這里可以把“歧義”理解為多個詞元組合去代表一段內容。

而 ik_smart 分詞器主要作用就是通過對詞元組合進行歧義裁決來消除詞元間的歧義,消除歧義后的直觀體現就是不再會有位置重疊的詞元(這也是 ik_smart 更適合 match_phrase 查詢的原因)。

ik_smart 遵循歧義裁決的主要原則順序如下:

  1. 比較有效文本長度,越長越好;
  2. 比較詞元個數,越少越好;
  3. 路徑跨度越大越好;
  4. 根據統計學結論,逆向切分概率高于正向切分,因此位置越靠后的優先;
  5. 詞元位置權重比較,詞長越平均越好。

同樣的文本內容,同樣的字典庫,ik_smart 的分詞結果如下:

ik_smart 分詞結果:
0-9 : 中華人民共和國國歌 :  CN_WORD

由于字典庫中“中華人民共和國國歌”可以覆蓋整個文本,并滿足上訴大多數條件,ik_smart 就只保留了第一個詞元。

為了更直觀的感受,我們把“中華人民共和國國歌”從詞庫中去除。

字典庫:中華人民,中華,華人,人民共和國,人民,共和國,共和,國國,國歌

ik_smart 分詞結果:
0-4 : 中華人民 :  CN_WORD
4-7 : 共和國 :  CN_WORD
7-9 : 國歌 :  CN_WORD

對于 ik_smart 歧義裁決原理有興趣的同學可以看源碼中 LexemePath 類的 compareTo 方法。

4、使用建議

  1. 召回要求高,對分詞詞元匹配精準的,使用 ik_max_word,并結合 term 查詢。
  2. 召回要求低,分詞切分要求較低,節省存儲,比如日志場景,可以考慮 ik_smart 進行 match_phrase查詢。
  3. 索引分詞器和搜索分詞器原則上保持一致,如果索引使用 ik_max_word 而搜索使用 ik_smart,則有詞元匹配失敗的可能。

作者介紹

金多安,Elastic 認證專家,Elastic資深運維工程師,死磕Elasticsearch知識星球嘉賓,星球Top活躍技術專家,搜索客社區日報責任編輯

責任編輯:武曉燕 來源: 銘毅天下Elasticsearch
相關推薦

2021-09-03 11:26:39

分詞器ElasticSear

2021-04-12 08:17:12

ElasticSear分詞中文

2017-05-04 10:11:51

ElasticsearJavaAnalyzeRequ

2012-03-16 10:07:30

IK AnalyzerJava

2025-08-01 03:11:00

Easysearch動態集群

2023-11-12 17:19:07

并行并發場景

2024-09-19 08:08:25

2018-05-25 13:04:21

UES應用場景

2025-04-02 00:35:00

CMS垃圾回收器

2024-11-12 06:27:16

Python列表元組

2023-10-12 08:57:23

故障排除監控

2023-01-28 07:59:24

2015-08-03 13:36:40

Docker技術優勢應用場景

2012-10-23 09:32:07

2014-05-15 09:43:11

CloudaMobile WebANodejs

2013-09-09 15:55:12

SDN應用場景

2021-06-12 18:37:56

Nodejs前端開發

2023-11-15 13:35:00

迭代器生成器Python

2016-09-18 23:56:51

Java開源中文分詞器

2023-08-28 16:49:08

物聯網傳感器
點贊
收藏

51CTO技術棧公眾號

亚洲视频一起| av在线播放资源| 国产乱一区二区| 国内精品模特av私拍在线观看| 中文字幕在线免费看线人| 国产福利一区二区三区在线播放| 亚洲人成在线播放网站岛国| 国产伦精品一区二区三区四区视频| 国产精品黄色大片| 欧美精选视频在线观看| 精品日韩在线观看| 亚洲性生活网站| 久操av在线| 国产精品网曝门| 精品视频第一区| 11024精品一区二区三区日韩| 欧美日韩综合| 精品国内亚洲在观看18黄| 国产激情视频网站| 国产一区二区三区精品在线观看| 色94色欧美sute亚洲线路一ni| 青青草综合视频| 免费在线黄色网址| 成人午夜电影小说| 亚洲一区二区三区视频| 国产成人自拍偷拍| 国产视频一区三区| 久99九色视频在线观看| 国产又粗又猛又爽又黄的视频小说| 黄色欧美网站| 精品欧美一区二区久久 | 亚洲插插视频| 亚洲香肠在线观看| 男人j进女人j| 粗大黑人巨茎大战欧美成人| 欧美国产成人精品| 欧美日韩一区二区三区在线视频 | 成人午夜视频网站| 91青青草免费观看| 国产精品一区二区av白丝下载| 日韩高清在线不卡| 国产大片精品免费永久看nba| 国产成人亚洲精品自产在线 | 亚洲高清视频在线播放| 国产一区二区在线观看免费| 成人国产亚洲精品a区天堂华泰| 亚洲中文字幕无码爆乳av| 免费视频一区二区三区在线观看| 久久久爽爽爽美女图片| 国产中文字幕免费| 亚洲国产日本| 欧美激情2020午夜免费观看| 青青草精品在线视频| 91精品国产91久久久久久密臀| 色偷偷偷综合中文字幕;dd| 久久午夜精品视频| 久久精品高清| 另类少妇人与禽zozz0性伦| 成年人看的免费视频| 久久大综合网| 欧美成aaa人片免费看| 国产免费美女视频| 国内久久视频| 97精品免费视频| av黄色在线播放| 视频一区二区不卡| 国产欧美日韩91| 国产美女无遮挡永久免费| 国产精品123| 国产伦精品一区二区三区视频黑人| 五月婷婷六月激情| 国产日韩av一区二区| 亚洲人成影视在线观看| 国产精品va在线观看视色| 亚洲综合激情另类小说区| 2018国产在线| 一区在线影院| 欧美一区日韩一区| 三级电影在线看| 欧美日韩亚洲在线观看| 欧美成人免费小视频| 日本一二三区视频| 日韩成人一区二区三区在线观看| 国产欧美日韩中文字幕在线| 亚洲精品成人区在线观看| 91麻豆成人久久精品二区三区| 日韩精品久久久| av免费看在线| 欧美性感美女h网站在线观看免费| 国产小视频精品| 欧美激情三级| 日韩精品在线播放| 无码人妻精品中文字幕| 亚洲三级色网| 国产精品永久免费观看| 蜜桃av鲁一鲁一鲁一鲁俄罗斯的 | 精品制服美女久久| 国产女主播一区二区| 超碰免费97在线观看| 亚洲一区欧美一区| 激情 小说 亚洲 图片: 伦| 亚洲一区二区三区免费| 在线精品国产成人综合| xxxxxx国产| 捆绑调教一区二区三区| 精品免费日产一区一区三区免费| 天堂中文8资源在线8| 午夜精品久久久久久久99水蜜桃| 污版视频在线观看| 清纯唯美亚洲经典中文字幕| 久久精品久久久久久国产 免费| 日韩精品成人在线| 韩国一区二区在线观看| 欧美一区二区三区在线免费观看 | 三级无遮挡在线观看| 亚洲欧洲av在线| 日韩精品无码一区二区三区免费| 日韩一区二区三区精品| 色婷婷综合久久久久中文字幕1| 国产又大又黑又粗免费视频| 精彩视频一区二区三区| 日韩精品久久久毛片一区二区| heyzo在线播放| 欧美一区二区三区色| 天堂а√在线中文在线鲁大师| 亚洲影视在线| 国产精品香蕉视屏| 在线观看h网| 制服丝袜在线91| 中文字幕美女视频| 日本视频一区二区三区| 欧美三级华人主播| 亚洲精华液一区二区三区| 亚洲成人精品久久| 精品无码人妻一区二区三区| 国产一区二区精品在线观看| 亚洲资源视频| 成人国产激情| 一本色道久久88亚洲综合88| 中文在线第一页| 94色蜜桃网一区二区三区| 成人网站免费观看入口| 极品国产人妖chinesets亚洲人妖| 欧美尺度大的性做爰视频| 国产av一区二区三区| 亚洲免费毛片网站| 伊人五月天婷婷| 欧美国产激情| 国产精品v欧美精品∨日韩| 日韩123区| 精品噜噜噜噜久久久久久久久试看| 国产乱国产乱老熟300| 国产乱码字幕精品高清av| 在线观看免费黄色片| 国产精品视频一区视频二区| 久久国产精品电影| 午夜精品久久久久久久第一页按摩| 亚洲欧美日韩系列| 极品白嫩少妇无套内谢| 亚洲三级国产| 色之综合天天综合色天天棕色| 成人高清一区| 欧美情侣性视频| 人妻少妇一区二区三区| 色又黄又爽网站www久久| 国产又粗又猛又爽视频| 麻豆久久久久久久| 红桃一区二区三区| 国产精品任我爽爆在线播放| 538国产精品视频一区二区| 国产有码在线| 在线播放91灌醉迷j高跟美女| 538任你躁在线精品视频网站| 粉嫩av一区二区三区| 欧美日韩在线中文| 999视频精品| 国产精品免费一区二区| 高潮一区二区| 久久中文字幕一区| 五月婷婷深深爱| 欧美日韩你懂得| 久久97人妻无码一区二区三区| 99精品欧美一区二区三区小说| 久久综合久久色| 欧美有码视频| 欧美一级二级三级| 老司机亚洲精品一区二区| 2020久久国产精品| 久草资源在线| 精品亚洲一区二区三区| 国产精品毛片一区视频播 | 福利视频一二区| 九九热线有精品视频99| 亚洲综合日韩中文字幕v在线| 玖玖在线播放| 操91在线视频| 国产www.大片在线| 精品国产露脸精彩对白| 中文字幕欧美人妻精品| 午夜国产精品一区| 男人的午夜天堂| 久久网站热最新地址| 一卡二卡三卡四卡五卡| 石原莉奈在线亚洲三区| 日本中文字幕亚洲| 香蕉久久网站| 色就是色欧美| 欧美精品密入口播放| 成人综合国产精品| 秋霞国产精品| 69精品小视频| 久久99亚洲网美利坚合众国| 色婷婷久久av| 国产视频第一区| 亚洲精品suv精品一区二区| 99久久精品国产成人一区二区| 色婷婷久久综合| 日本一级淫片免费放| 一区二区久久久久久| 男人av资源站| 日本一区二区三区在线观看| 强迫凌虐淫辱の牝奴在线观看| 国产精品综合一区二区三区| 亚洲免费999| 免费欧美日韩国产三级电影| 免费在线观看日韩视频| 在线综合亚洲| 成人午夜视频在线观看免费| 中文字幕一区二区三区乱码图片| 亚洲一区在线免费| jlzzjlzz亚洲女人| 日韩中文不卡| 成人精品电影| 欧美中日韩免费视频| 亚洲免费毛片| 久久国产一区二区| 欧洲亚洲成人| 麻豆视频成人| 伊人久久大香线蕉av不卡| 狠狠色噜噜狠狠狠狠色吗综合| a级日韩大片| 国产伦精品一区二区三区视频孕妇 | 蜜臀精品久久久久久蜜臀| 欧美a在线视频| 麻豆9191精品国产| 日韩视频在线免费看| 欧美一区=区| 成年人免费大片| 日本欧美一区二区三区乱码| 久草福利视频在线| 麻豆精品一区二区av白丝在线 | 国产jizzjizz一区二区| 久久久福利影院| 国产精品中文有码| 日批免费观看视频| 99re视频这里只有精品| 国产美女精品久久| 国产精品色婷婷| 国产一区二区三区在线视频观看| 亚洲免费观看高清完整版在线观看 | 能免费看av的网站| 中文乱码免费一区二区| 26uuu成人网| 亚洲不卡一区二区三区| 日本天堂网在线| 欧美日韩亚洲综合一区| 国产日韩欧美一区二区东京热| 欧美成人性战久久| 日本韩国一区| 最近中文字幕2019免费| 欧美xxxbbb| 日本高清视频精品| 亚洲精品66| 国产精品一区二区三区四区五区 | 欧美日韩dvd| 夜夜精品视频| 伊人影院综合在线| 成人一级片在线观看| 性高潮久久久久久久| 亚洲人妖av一区二区| 国产精品人人人人| 欧美肥妇毛茸茸| 婷婷伊人综合中文字幕| 中文字幕在线亚洲| 丁香花高清在线观看完整版| 国产97色在线|日韩| 国产精久久一区二区| 久久久av水蜜桃| 亚洲欧美综合久久久| 成人免费aaa| 狠狠色丁香久久婷婷综合_中| 久久久久国产免费| 中文字幕的久久| 日产精品久久久久| 欧美精品tushy高清| 深夜福利视频在线观看| 久久成人18免费网站| 国产欧美一区二区三区精品酒店| 97人人澡人人爽| 欧美精品一区二区久久| 91免费黄视频| 国产福利精品一区| 中文字幕有码在线播放| 亚洲成人动漫一区| 国产精品无码久久av| 国产网站欧美日韩免费精品在线观看| 美女av在线播放| 日韩免费视频在线观看| 高潮久久久久久久久久久久久久| 亚洲永久激情精品| 巨乳诱惑日韩免费av| 日韩www视频| 夜色激情一区二区| 国产又色又爽又黄又免费| 亚洲奶大毛多的老太婆| 成人免费高清观看| 亚洲综合中文字幕在线| 日韩黄色大片| 久久综合久久色| 91视频你懂的| 国产大片中文字幕在线观看| 欧美一区二区日韩| av网页在线| 日韩av电影在线网| 一区二区三区视频免费观看| 黄网站欧美内射| 国产91对白在线观看九色| 九九热视频在线免费观看| 欧美性做爰猛烈叫床潮| 嫩草研究院在线| 日本高清久久天堂| 久久av综合| 欧美国产日韩在线播放| 久久嫩草精品久久久精品| 丁香六月婷婷综合| 日韩精品高清在线| 亚洲女同志freevdieo| 国产伦精品一区二区三区免费视频| 国产一区视频在线观看免费| 亚洲图片 自拍偷拍| 日韩美女视频一区二区 | 成年美女黄网站色大片不卡| 精品一卡二卡三卡四卡日本乱码 | 人九九综合九九宗合| 日韩深夜福利| av天堂永久资源网| 国产欧美日韩不卡| 国产又粗又猛又爽又黄视频| 日韩在线中文字幕| 精品国产不卡一区二区| 50度灰在线观看| 国产成人av资源| 精品少妇久久久| 亚洲国产日韩精品在线| 亚洲精品成人图区| 日韩国产在线一区| 紧缚奴在线一区二区三区| 国产盗摄一区二区三区在线| 欧美大胆一级视频| 蜜桃视频在线观看播放| 欧美日韩综合久久| 精品一区二区在线视频| 久久久久久久久艹| 日韩精品有码在线观看| 日韩一区精品| 黄色一级视频播放| 成人免费视频播放| 性色av免费观看| 日韩在线欧美在线| 精品国产不卡一区二区| 北条麻妃在线视频观看| 欧美国产日韩在线观看| 国产女人高潮毛片| 51精品国产黑色丝袜高跟鞋| 四季av在线一区二区三区 | 成人福利免费在线观看| 免费高清在线观看免费| 中文字幕人成不卡一区| 免费看国产片在线观看| 日本人成精品视频在线| 久久久久久久久久久久久久| 亚洲精品激情视频| 欧美优质美女网站| 在线观看小视频| 欧美综合激情| 国产福利精品一区二区| 成年人晚上看的视频| 欧美激情乱人伦一区| 欧美亚洲国产精品久久| 风韵丰满熟妇啪啪区老熟熟女| 色哟哟欧美精品| 男女在线观看视频| 性欧美.com| av成人免费在线| av片免费播放| 国产精品高精视频免费| 尤物在线精品| 北条麻妃在线观看视频| 亚洲日韩第一页| 国产精品巨作av|