算法请问如何高效率的计算最长连续子序列?

debugger · 2014年06月18日 · 最后由 jaxihe 回复于 2014年07月30日 · 9098 次阅读

假设数据库中有：

id    name         created_at
1     zhangsan     2014-01-01
2     zhangsan     2014-01-02
4     zhangsan     2014-02-01
5     zhangsan     2014-02-02
6     zhangsan     2014-02-03
7     zhangsan     2014-02-04
8     zhangsan     2014-03-01
9     zhangsan     2014-03-02
10    zhangsan     2014-03-03

其中 created_at 连续的部分是：

1. 2014-01-01 到 2014-01-02，跨越 2 个日期
2. 2014-02-01 到 2014-02-04，跨越 4 个日期
3. 2014-03-01 到 2014-03-03，跨域 3 个日期

如何高效率的找出 2 的数据记录数和跨域日期数，假设数据库在 2 千万级别。

0 楼已删除

blacktulip #1 2014年06月18日

擦... 这个除了遍历一遍恐怕没有什么捷径吧...

debugger #2 2014年06月18日

@blacktulip 假设不考虑数据库了，我的数据都在内存中了呢？

hz_qiuyuanxin #3 2014年06月18日

看不太懂，能否具体一点输出结果？又或者说明一下，是为了统计什么样的数据？例如：统计用户最长的连续登录天数？

debugger #4 2014年06月18日

@hz_qiuyuanxin 可以理解成“统计用户最长的连续登录天数”，但是不仅仅是要这个总和，把连续的每个记录数都拿到，谢谢。

hz_qiuyuanxin #5 2014年06月18日

#5 楼 @debugger 我现在做的项目也是这个需求，但是不是通过直接查这数据处理的，而是一个用户有多条登录统计的记录，表结构如下

# table user_endurance_records
  Column   |  Type   |                              Modifiers
------------+---------+---------------------------------------------------------------------
 id         | integer | not null default nextval('user_endurance_records_id_seq'::regclass)
 user_id    | integer |
 last_login | date    |
 amount     | integer | default 0

每天都会统计一次，其记录更新逻辑如下：

if 用户昨天有登录
  if 此用户存在 last_login 等于前天的记录
    将 user_endurance_records 的 amount 加上 1，last_login 更新为昨天
  else
    新建一条 user_endurance_records
  end
end

这样，查询某个用户的登录记录数据大概是：

  id   | user_id | last_login | amount
-------+---------+------------+--------
 51563 |      32 | 2014-05-22 |      5
 57222 |      32 | 2014-05-30 |      7
 64819 |      32 | 2014-06-01 |      1
 66525 |      32 | 2014-06-03 |      1
 69257 |      32 | 2014-06-08 |      3
 72849 |      32 | 2014-06-16 |      7

如果不那么干，那么你可能自己要写个聚合函数！以实现你要的这种比较特殊的逻辑。

kabie #6 2014年06月18日

数据记录数和跨越日期数是一样的吧…………

SELECT count(*)
FROM (
    SELECT *, (created_at - id) as delta  FROM T
) x
GROUP BY delta

最后再找 max 就好了……

debugger #7 2014年06月18日

#6 楼 @hz_qiuyuanxin 谢谢 support，你的这个数据是未生成的，可以在 after_create 或者数据库触发器处理，但是如果记录已经有 N 条存在了，可能需要 background jobs 来跑了。

debugger #8 2014年06月18日

#7 楼 @Kabie 谢谢，但是没看懂你的意思，另外上千万的数据记录是不能 count 的，锁表后会卡住，另外我可能用的不是 sql-based 数据库。这儿主要是求个算法，不一定要用数据库本身的方法解决

billy #9 2014年06月18日

这个从逻辑上来说也不难。试一下吧。

首先建一个新 model, ContiniousLogin, 对应表 continious_logins。或者放在 yml 里面

然后做一个 rake task 或者 job

User.find_each do |user|
  last_login_day = nil
  days_count      = 0

  Login.find_each(name: user.name) do |login|
    current_day = created_at.to_date
    last_login_day ||= current_day
    prev_day = current_day.prev_day

    if prev_day == last_login_day
      last_login_date = current_date
      days_count += 1
    elsif prev_day > last_login_day && days_count > 0
      ContiniousLogin.create!(name: name, last_login_day: last_login_day, days_count: days_count)
      last_login_day = nil
      days_count      = 0
    end
  end
end

逻辑大致如此，代码只做参考 :)

find_each 是每一千个一批次的，也可以调整批次大小，所以数据多少应该影响不大。当然如果时间太长可能就要另说了。

做实验时可以不用新建 model，用一个 yml 代替也行。总之有个 io 来存记录就好了。

luikore #10 2014年06月18日

#9 楼 @debugger 先全部取到内存中，然后按用户分组弄吧，2000 万数据其实就几百兆而已

debugger #11 2014年06月18日

#10 楼 @billy 是的，逻辑上比较简单的，谢谢你提供的代码参考。 #11 楼 @luikore 目前打算按顺序把日期的两两差值算出来，保存在库中，然后再用算法处理，try-try。

jaxihe #12 2014年06月18日

嘿呦狗

http://en.wikipedia.org/wiki/Longest_increasing_subsequence

有 O(n*log(n)) 的方法哟～

kabie #13 2014年06月18日

#9 楼 @debugger 就是说……

如果日期和 ID 都是严格递增的…… 那么日期和 ID 的差值相同的就应该是连续的了……对这个差值分组就行了……

quakewang #14 2014年06月19日

这种需求属于常用统计，翻开我的 sql 小本本，找到一句 sql 查询就可以搞定：

select a.name, a.created_at as start, min(c.created_at) as end, (c.created_at - a.created_at) as counter
from visits      as a
left join visits as b on a.name = b.name and a.created_at = adddate(b.created_at, 1)
left join visits as c on a.name = c.name and a.created_at <= c.created_at
left join visits as d on c.name = d.name and c.created_at = adddate(d.created_at, -1)
where b.created_at is null and c.created_at is not null and d.created_at is null
group by a.name, a.created_at

输出结果

+------+------------+------------+---------+
| name | start      | end        | counter |
+------+------------+------------+---------+
| ls   | 2014-01-01 | 2014-01-02 |       1 |
| ls   | 2014-02-01 | 2014-02-05 |       4 |
| ls   | 2014-03-02 | 2014-03-03 |       1 |
| zs   | 2014-01-01 | 2014-01-02 |       1 |
| zs   | 2014-02-01 | 2014-02-04 |       3 |
| zs   | 2014-03-01 | 2014-03-03 |       2 |
+------+------------+------------+---------+

2 个赞

debugger #15 2014年06月19日

#15 楼 @quakewang 非常感谢，没用 sql 数据库，想来导入到 sql 数据库处理也不错。

rasefon #16 2014年06月19日

#13 楼 @jaxihe 你这个是 LCS，不一样的，lz 这种清苦 O(n) 就可以了。

jaxihe #17 2014年07月30日

#17 楼 @rasefon 麻。。看成 LIS 了，审题不仔细，抱歉。。

需要登录后方可回复, 如果你还没有账号请注册新账号

共收到 17 条回复

收到新回复，点击立即加载

算法 请问如何高效率的计算最长连续子序列?

算法 请问如何高效率的计算最长连续子序列?

算法请问如何高效率的计算最长连续子序列?

算法请问如何高效率的计算最长连续子序列?