搜索引擎 有用 ElasticSearch 的同学吗?你们中文分词用的什么?

yukihiro_matz · 2014年11月25日 · 最后由 u1449038178 回复于 2015年12月02日 · 23168 次阅读

了解了几个,想问下你们都用哪个?

elasticsearch-analysis-mmseg

https://github.com/medcl/elasticsearch-analysis-mmseg 基于 http://code.google.com/p/mmseg4j/

elasticsearch-analysis-jieba

https://github.com/huaban/elasticsearch-analysis-jieba

elasticsearch-analysis-ansj

https://github.com/4onni/elasticsearch-analysis-ansj

elasticsearch-analysis-ik

https://github.com/medcl/elasticsearch-analysis-ik

英文项目,不分词。

不用分词的搜索法:每字当一词用 ngram

#3 楼 @luikore NG 的搜全率 (recall) 很好,搜准率 (percision) 就差到不行

http://en.wikipedia.org/wiki/Precision_and_recall

#4 楼 @yukihiro_matz 看文档咯

@hooopo 这得看怎么打分... 例如看结果的几个字是不是连在一起

#6 楼 @luikore 打分和 recall/precision 两个概念是不同维度的,刚更新了一下上面的评论。

#7 楼 @hooopo 既然结果比较全,把低分的结果去掉,precision 就提高了...

我也想知道大家都用哪个?

我们用的是 ik,效果还不错,主要是词库比较全,支持 stopword,而且 ik 那个库里直接带搜狗的词典了。。。 https://github.com/medcl/elasticsearch-rtf/tree/1.4.0 这里的词典还是简繁都有的,非常方便

#10 楼 @hemslo ik elasticsearch 1.4 用的起来么?

为什么我搜索英文方括号的时候,会报一个 SearchPhaseExecutionException 的错误,不知道有遇到同样问题的童鞋没有。

#2 楼 @yukihiro_matz hi,我也想找个中文分词,请问你最后选的是哪个啊?

需要 登录 后方可回复, 如果你还没有账号请 注册新账号