最近在学习搜索引擎技术,想给自己站点做个搜索引擎,查了些资料,主要就这两派 Lucene(Sunspot) 和 Sphinx,纠结了使用哪个,希望有做过搜索的朋友给点意见。
满足几个基本需求就可以了:
可索引非 SQL 的源 中文分词 易于安装部署
sphinx 的中文支持差一些,原生的只可以用 unigram。支持中文的 coreseek 效果好一些,支持其 mmseg 算法,但是我感觉也不太靠谱。
Lucene 在中文支持和扩展性方面好一些。Sphinx 我觉得速度、简单是优势。
Lucene 需要 Java 环境这个是最不爽的地方
solr or elasticsearch(接口库 Tire)