新手问题 求一个相识度算法。

zzjkevin · April 16, 2014 · Last by visionwang replied at April 17, 2014 · 2829 hits

例如我的站点里面有两篇相识度非常高,甚至是 copy 的文章,我想利用去检测他们的相识度,然后归类起来。有没有什么较好的相识度检测算法?谢谢!

I-match 算法

这种情况下,用 shingling 算法吧,简单容易实现。

jaccard 系数 余弦相似性

locality sensitive hashing - simhash, minhash

直接讲最简单的方法

step1. 中文分词

step2.构建单词 - 文档向量。比如说 text1(我们,都,码农……) text2(苹果,3 块钱,一斤…) 这种。

step3.对 2 中构建的向量使用聚类算法。比如 k-means 什么的。

建议直接看 k-means,具体实现可以用 R 也可以用 mahout 的库什么的。当然实装能力强的也可以自己写……

很多时候你认为这只是一个算法,其实特么算法才是最次要。

You need to Sign in before reply, if you don't have an account, please Sign up first.