算法 关于敏感词的检索问题

wikimo · 2012年11月23日 · 最后由 jimrokliu 回复于 2012年11月26日 · 3830 次阅读

想请教下大家,敏感词的检索一般都是如何做的。 比如有敏感词词库 A,里面包含很多敏感词,有个文章表 B,需要不定期的去检索文章表 B 是否包含词库 A 中的敏感词,如果存在,将文章表 B 的记录 ID 写入一个日志表 C,不知大伙懂意思否,我不知道大家都是如何做的,指点下……

ruby-china 就有对敏感词的处理吧,不过还没看过那部分代码。。不知道和你的需求一致不

3Q,去看看

为文章建立搜索库 (solr,elasticsearch,sphinx),定时去搜索

一般来说,对 B 进行分词处理,得到所有的词列表,这样就可以对比你的字典了。ruby 的分词处理组件忘记,以前 javaeye 使用过,可以 google 一下。

5 楼 已删除
6 楼 已删除
需要 登录 后方可回复, 如果你还没有账号请 注册新账号