Ruby 大家如何做关键词过滤的?

benyhu · 2012年05月28日 · 最后由 sunzheng91 回复于 2012年06月01日 · 5525 次阅读

有一堆关键词,要求在文章发布之前对文章内容进行检测,如果包含某些关键词就需要审核。 该用什么样的匹配算法呢?

可以试试贝叶斯算法。

#1 楼 @jimrokliu 中文的分词就不好做啊。

最简单还是正则。看看大家还有什么想法。

可以用 Aho-Corasick,fgrep 就是这个算法。

关键是什么 gem 能完成这个功能

#2 楼 @heliang7 把关键词加入到分词的字典里就应该能产生词频的统计吧。

恩,把关键词纳入字典。 应该可行

另外 @heliang7 最简单的正则匹配,会有效率问题没?

如果分析的逻辑复杂了,就不能入库之前过滤了。用另外一个进程对刚刚入库的内容进行分析,有问题的 delete,没问题的保留,百度贴吧就是这样的,有问题的帖子几分钟之内删除。这样也让那些职业发广告的弄不清是程序删除还是人工删除

含有敏感词,已删!

#7 楼 @benyhu grep 命令处理一堆文件,也很快啊。不知道 ruby 的正则效率如何。

@gaicitadie 恩,准备这么做

我是来求关键词敏感词表的……

#10 楼 @heliang7

我发现 Ruby 的正则效率, 不是一般的高...

#2 楼 @heliang7 可以尝试使用 mmseg

需要 登录 后方可回复, 如果你还没有账号请 注册新账号