算法 关于敏感词的检索问题

wikimo · November 23, 2012 · Last by jimrokliu replied at November 26, 2012 · 3820 hits

想请教下大家,敏感词的检索一般都是如何做的。 比如有敏感词词库 A,里面包含很多敏感词,有个文章表 B,需要不定期的去检索文章表 B 是否包含词库 A 中的敏感词,如果存在,将文章表 B 的记录 ID 写入一个日志表 C,不知大伙懂意思否,我不知道大家都是如何做的,指点下……

ruby-china 就有对敏感词的处理吧,不过还没看过那部分代码。。不知道和你的需求一致不

3Q,去看看

为文章建立搜索库 (solr,elasticsearch,sphinx),定时去搜索

一般来说,对 B 进行分词处理,得到所有的词列表,这样就可以对比你的字典了。ruby 的分词处理组件忘记,以前 javaeye 使用过,可以 google 一下。

5 Floor has deleted
6 Floor has deleted
You need to Sign in before reply, if you don't have an account, please Sign up first.