Rails 关于实现一个近期热搜功能

luiswood · 2019年08月27日 · 最后由 luckrill 回复于 2019年08月29日 · 4777 次阅读

实现

目前自己用 mysql 实现了一个近期热搜功能，记录关键字、搜索次数、日期三个字段。

当用户搜索一个关键字时，会使用INSERT INTO DUPLICATE KEY UPDATE语句对关键字记录创建或更新搜索次数。

这样我就可以每隔一周，使用 SQL 语句分组累计查询出最近一周 TOP10 的关键字列表，并使用 redis 缓存，过一周后再刷新。

问题

目前每次刷新缓存时，分组累计查询语句会很慢，每天产生的记录很多，这种查询比较低效。

所以想来问一下有没有更高效的实现方式？

比如用 redis 的 sortset，但使用这个实现的话，取最近一周的日期怎么解决？

4 个赞

liuminhan #0 2019年08月27日

先按日期筛选一周的数据，然后按搜索次数排序，取 10 个数，满足需求吗？

w7938940 #1 2019年08月27日

我有个思路是定一个最小的时间间隔，比如每分钟的记录为一个 sortset，然后按需统计

redis = Redis.current
redis.zincrby("keyword:#{Time.now.strftime('%Y%m%d%H%M')}", 1, 'Ruby')

# 前一个小时的统计
hour = Time.now - 1.hour
start_time = hour.beginning_of_hour
end_time = hour.end_of_hour
keys = start_time.to_i.step(end_time.to_i, 60).collect { |t| "keyword:#{Time.at(t).strftime('%Y%m%d%H%M')}" }
redis.zunionstore("keyword:#{start_time.strftime('%Y%m%d%H')}", keys, aggregate: 'sum')

# 前一天的统计
day = Time.now - 1.day
start_time = day.beginning_of_day
end_time = day.end_of_day
keys = start_time.to_i.step(end_time.to_i, 60 * 60).collect { |t| "keyword:#{Time.at(t).strftime('%Y%m%d%H')}" }
redis.zunionstore("keyword:#{start_time.strftime('%Y%m%d')}", keys, aggregate: 'sum')

# 近一周top10关键词
start_time = (Time.now - 1.week).beginning_of_minute
end_time = Time.now.end_of_minute
keys = start_time.to_i.step(end_time.to_i, 60).collect { |t| "keyword:#{Time.at(t).strftime('%Y%m%d%H%M')}" }
redis.zunionstore("keyword:#{start_time.strftime('%Y%m%d%H%M')}-#{end_time.strftime('%Y%m%d%H%M')}", keys, aggregate: 'sum')
redis.zrevrange("keyword:#{start_time.strftime('%Y%m%d%H%M')}-#{end_time.strftime('%Y%m%d%H%M')}", 0, 9, with_scores: true)

4 个赞

2 楼已删除

luiswood #3 2019年08月27日

对

w7938940 回复

谢谢回复，下午试了一下这个方法，非常好，现在不仅解决了性能问题，近期热搜更新时间间隔我也减少到一天。 😁 😁

4 楼已删除

hooopo #5 2019年08月28日

keyword 和 weekday 做主键 weekday 和 search count 上面加索引按每周倒排 top 5 不用缓存也飞快啊

luikore #6 2019年08月29日

用半衰期模型最高效

假设一个词被搜索，它的热度 + 1，然后这个热度就像放射性物质一样，随着时间指数衰减。

所以换个思路，你不要记录热度，而是记录热度衰减到 1 时的时间戳。

那你只要在词被搜索时，更新它热度衰减到 1 的时间戳，最后按照这个时间戳排序就好了。

举个例子：

半衰期一周

关键词 A 被搜索了 8 次，那它衰减到 1 的时间戳是 log2(8) = 3 周后。
关键词 B 被搜索了 4 次，那它衰减到 1 的时间戳是 log2(4) = 2 周后。

这时 A 比 B 热度更高。

假如 2 周后

A 反算当前热度 = 2**1 = 2，如果又被搜索了 2 次，更新它的时间戳为 log2(2+2) = log2(4) 周后
B 反算当前热度 = 2**0 = 1，如果又被搜索了 4 次，更新它的时间戳为 log2(1+4) = log2(5) 周后

这时 B 比 A 热度更高。

半衰期模型缺点是你只能预设一个固定的半衰期，如果修改了这个长度，在过渡阶段，排序会不太准确。过渡时期，取数据时可以多取一部分，再按新逻辑进行重排一下，过了过渡时期就好。

18 个赞

luckrill #7 2019年08月29日

很不错

需要登录后方可回复, 如果你还没有账号请注册新账号