搜索引擎聊一下"相关帖子"算法？

camel · March 01, 2012 · Last by Louis replied at January 28, 2013 · 9651 hits

Ruby-china 的“相关帖子”中经常会有些“风牛马”类的东西，看了下代码，大致在这里

# 相关类似话题, 取相关词出现最少3次，相关度最高的3篇
cache :sidebar_for_more_like_this, :expires_in => 1.day do |cell, args|
  args[:topic].id
end
def sidebar_for_more_like_this(args = {})
  @topics = args[:topic].more_like_this do
    minimum_term_frequency 5
    paginate :page => 1, :per_page => 10
  end.results
  render
end

但其中的ore_like_this和minimum_term_frequency没找到源码，不知道具体实现，求指点。另外如果仅仅是“相关词”出现次数来筛选是不够智能的，因为不同词的权重是不一样的。如的，ruby这些词在每篇文章里都很多，如果仅按词的出现次数来算，很容易把字数最多但毫不相关的帖子推荐出来。哪位有经验，分享一下吧？

7 likes

quakewang #0 March 01, 2012

用的是 solr 内置 TF/IDF 算法: http://en.wikipedia.org/wiki/Tf-idf

google 对该算法的通俗解释： http://www.google.com.hk/ggblog/googlechinablog/2006/06/blog-post_3066.html

huacnlee #1 March 01, 2012

我也是发现这个相关有的时候不太准确

mvj3 #2 March 18, 2012

一种比较山寨不过还算不错的做法是，可以用 tf-idf 抽取下关键词，然后用 sphinx 搜索匹配相关性，加上分类或标签的过滤效果会更好。Ruby China 帖子一年也估计不过万来篇吧，最多半小时就能把相关性帖子重新索引预计算一遍。

donnior #3 April 01, 2012

只要是跟中文索引相关的，基本上最后的问题都在中文分词那块，solr 和 lucene 内置的分词器对中文支持的都不好，因此大家一般都是用国内几个著名的中文分词器去配置，效果还不错。不知道 ruby-china 使用 solr 时自定义配置了没有

doitian #4 April 01, 2012

可以加权下协同过滤，按照用户的喜欢和收藏算贴子的近似度

doitian #5 April 01, 2012

还有回复

Louis #6 January 28, 2013

http://blog.csdn.net/tvetve/article/details/2292111 楼主可以看下这个，虽然只是些理论的，但是可能会有帮助。里面的 VSM（向量空间模型）就能根据文章的特征向量来计算相似度。当然特征向量的提取也有很多算法来实现。但是 ruby-china 用的是哪种我没看过也不知道。楼主说的“的”这些中文中的无意义词，一般都会有个停用词表来过滤的。我只是个小菜鸟，说的有错还请大大指出来。

You need to Sign in before reply, if you don't have an account, please Sign up first.

7 likes

Total 7 replies

New Reply comming, click to load.

搜索引擎 聊一下"相关帖子"算法？

搜索引擎 聊一下"相关帖子"算法？

搜索引擎聊一下"相关帖子"算法？

搜索引擎聊一下"相关帖子"算法？