搜索引擎 目前哪些基于 Solr 的分词器比较完善?

zhang_soledad · 2014年06月25日 · 最后由 zhang_soledad 回复于 2014年07月01日 · 18724 次阅读

对这一块不太熟 目前需求要能支持动态载入词库 有比较好的解决方案么?

Solr 是基于 Lucene 做的。分词是由 Lucene 完成的。原来有好多分词框架都支持 Lucene,如庖丁分词、ik-analyzer 等。(还有其他好多,不过记不起来名字了)但是坚持更新的只有 ik-analyzer。(我刚刚上ik-analyzer 的网站 (Google Code,需翻墙)看了一下,最新的也是 2012 年了。)

据一些文档介绍(我不会告诉你是官方网文档的,😜),貌似很牛逼的样子。你自己可以查查资料,看一下。

要动态加载的首先基于机器学习的一些工具自然是不怎么容易上手了。当然也没那么容易入手。 至于几种常见的 lucene 切词工具 Paoding<ik<<<<<smartcn Paoding 词库基本已经没有更新,当然也没必要更新。最近的一次更新应该是兼容 solr.4xx 自定义词典什么的就是个普通的文本文件而已。 不过每次修改之后需要重新封装。具体忘了。解决方法肯定是有的就是了

谢谢上面几位😄 在 github 上看了一下 ansj [https://github.com/ansjsun/ansj_seg] 这个分词器不错 试了一下效果不错 比 mmseg 好很多 794 星也还是有些用户群 就是没有针对 solr 的插件 不过看看文档应该也不难实现 虽然很久没写 java 了

用 Ik 多省事儿

#7 楼 @Peter sorry 没有给全称 是 IKAnalyzer 分词

用 elasticsearch 吧,国内有些人一直在做 es 的分词维护。

这个部分我是属于接手 这部分原来用 solr+mmseg4j 已经完成了的 但是 mmseg 的中文分词效果太差了 所以要优化一下 看一下什么方案比较好 系统已经使用了 sunspot IK 原来试过 老司机说 IK 中文处理得很好 但是英文插手了 没法加我们的私货 我是看 IK 太老了 也没更新

目前我看了一下 IK 确实是个很好的选择 非常稳定 已经不会变动了 分词效果也很好 源码也是开发的 有些地方自己修改一下也是可行

需要 登录 后方可回复, 如果你还没有账号请 注册新账号