新手问题 求一个相识度算法。

zzjkevin · 2014年04月16日 · 最后由 visionwang 回复于 2014年04月17日 · 2831 次阅读

例如我的站点里面有两篇相识度非常高,甚至是 copy 的文章,我想利用去检测他们的相识度,然后归类起来。有没有什么较好的相识度检测算法?谢谢!

这种情况下,用 shingling 算法吧,简单容易实现。

jaccard 系数 余弦相似性

locality sensitive hashing - simhash, minhash

直接讲最简单的方法

step1. 中文分词

step2.构建单词 - 文档向量。比如说 text1(我们,都,码农……) text2(苹果,3 块钱,一斤…) 这种。

step3.对 2 中构建的向量使用聚类算法。比如 k-means 什么的。

建议直接看 k-means,具体实现可以用 R 也可以用 mahout 的库什么的。当然实装能力强的也可以自己写……

很多时候你认为这只是一个算法,其实特么算法才是最次要。

需要 登录 后方可回复, 如果你还没有账号请 注册新账号