新手问题求一个相识度算法。

zzjkevin · 2014年04月16日 · 最后由 visionwang 回复于 2014年04月17日 · 2951 次阅读

例如我的站点里面有两篇相识度非常高，甚至是 copy 的文章，我想利用去检测他们的相识度，然后归类起来。有没有什么较好的相识度检测算法？谢谢！

guyanbiao #0 2014年04月16日

I-match 算法

1 个赞

discover #1 2014年04月16日

这种情况下，用 shingling 算法吧，简单容易实现。

1 个赞

mojidong #2 2014年04月16日

jaccard 系数余弦相似性

1 个赞

muwinger #3 2014年04月16日

locality sensitive hashing - simhash, minhash

1 个赞

gyorou #4 2014年04月17日

直接讲最简单的方法

step1. 中文分词

step2.构建单词 - 文档向量。比如说 text1(我们，都，码农……) text2(苹果，3 块钱，一斤…) 这种。

step3.对 2 中构建的向量使用聚类算法。比如 k-means 什么的。

建议直接看 k-means，具体实现可以用 R 也可以用 mahout 的库什么的。当然实装能力强的也可以自己写……

很多时候你认为这只是一个算法，其实特么算法才是最次要。

1 个赞

visionwang #5 2014年04月17日

Simhash

1 个赞

需要登录后方可回复, 如果你还没有账号请注册新账号

新手问题 求一个相识度算法。