想请教下大家,敏感词的检索一般都是如何做的。 比如有敏感词词库 A,里面包含很多敏感词,有个文章表 B,需要不定期的去检索文章表 B 是否包含词库 A 中的敏感词,如果存在,将文章表 B 的记录 ID 写入一个日志表 C,不知大伙懂意思否,我不知道大家都是如何做的,指点下……
ruby-china 就有对敏感词的处理吧,不过还没看过那部分代码。。不知道和你的需求一致不
3Q,去看看
为文章建立搜索库 (solr,elasticsearch,sphinx),定时去搜索
一般来说,对 B 进行分词处理,得到所有的词列表,这样就可以对比你的字典了。ruby 的分词处理组件忘记,以前 javaeye 使用过,可以 google 一下。