例如我的站点里面有两篇相识度非常高,甚至是 copy 的文章,我想利用去检测他们的相识度,然后归类起来。有没有什么较好的相识度检测算法?谢谢!
I-match 算法
这种情况下,用 shingling 算法吧,简单容易实现。
jaccard 系数 余弦相似性
locality sensitive hashing - simhash, minhash
直接讲最简单的方法
step1. 中文分词
step2.构建单词 - 文档向量。比如说 text1(我们,都,码农……) text2(苹果,3 块钱,一斤…) 这种。
step3.对 2 中构建的向量使用聚类算法。比如 k-means 什么的。
建议直接看 k-means,具体实现可以用 R 也可以用 mahout 的库什么的。当然实装能力强的也可以自己写……
很多时候你认为这只是一个算法,其实特么算法才是最次要。
Simhash