各位,大家敏感词过滤都是怎么做的?自己写算法还是用现有的(如 gem)? 还有,发布文章为例,是发布的时候进行过滤还是每次显示的时候进行过滤替换?
推荐显示的时候过滤,因为需要过滤的敏感词可能更新。
瞎说,我们的互联网是世界上最开放的,哪有什么敏感词。
#2 楼 @seamon 有的,美帝 google 有敏感词,请一下 google stop words, 当然,如果你不想被收录,也不从 adsense 拿钱,就当我没说。
这块儿感觉现有的处理都不够完美,谁有好的方案可以分享一下。主要的问题在于,同样的词语在不同的语境中含义不同,可能在这里是敏感词,但是在那个环境下不是。
大网站是重点关键词直接替换+海量人工审核。 语义分析在敏感词方面没有价值,新的敏感词都是随着热门事件产生的,比如几年前谁会想到康师傅是敏感词?
应该最基本的敏感词是 国家领导人姓名,gcd 什么的,还有常用骂人的词语,把这些过滤掉就行了吧
是语义,不是语法,像语义搜索引擎那样。