Rails 求助,关于敏感词过滤

airmike · 2014年04月30日 · 最后由 debugger 回复于 2014年05月01日 · 4115 次阅读

各位,大家敏感词过滤都是怎么做的?自己写算法还是用现有的(如 gem)? 还有,发布文章为例,是发布的时候进行过滤还是每次显示的时候进行过滤替换?

推荐显示的时候过滤,因为需要过滤的敏感词可能更新。

瞎说,我们的互联网是世界上最开放的,哪有什么敏感词。

#2 楼 @seamon 有的,美帝 google 有敏感词,请一下 google stop words, 当然,如果你不想被收录,也不从 adsense 拿钱,就当我没说。

这块儿感觉现有的处理都不够完美,谁有好的方案可以分享一下。主要的问题在于,同样的词语在不同的语境中含义不同,可能在这里是敏感词,但是在那个环境下不是。

  • 在显示的时候做,这样你新增加的敏感词在已经发布的文章中也可以生效。
  • 低级的过滤方案是正则表达式替换,高级的方案是语义分析。
  • 不知道有啥 gem 可以用。

大网站是重点关键词直接替换+海量人工审核。 语义分析在敏感词方面没有价值,新的敏感词都是随着热门事件产生的,比如几年前谁会想到康师傅是敏感词?

应该最基本的敏感词是 国家领导人姓名,gcd 什么的,还有常用骂人的词语,把这些过滤掉就行了吧

是语义,不是语法,像语义搜索引擎那样。

需要 登录 后方可回复, 如果你还没有账号请 注册新账号