瞎扯淡 天涯 4000w 用户泄露,咱来谈下数据分析

camel · 2011年12月26日 · 最后由 ltl3884 回复于 2012年02月04日 · 5963 次阅读

如果 CSDN 600w 用户泄露让你有种看到别人女儿大腿的感觉,这下天涯 4000w 会是啥感觉??? 尼玛的还好我的 CSDN 密码是 132456,不然强密码也被你们爆了

下载了一下,CSDN 的>200M,天涯的>1G,在加上人人,17173。解压后估计纯数据都要 5G。

现在想分析一下,随便输入一个关键字,能查到所有包含关键字的 name,email,password 记录。面试时经常有这样的题,现在天赐良机呀~

说一下我的大概思路。 数据库选择->导入数据->全文检索。 数据库仅仅是查询,Mysql 的 MyISAM 性能不错,redis 没用过 导入数据:用第三方不管是 Ruby、Java、C 肯定都很慢。还是先用 Ruby 把数据转为 SQL 语句,然后用 Mysql import 直接导入比较快 全文检索:Java 的 Solr,比较成熟。huacnlee 的 redis-search 听说也不错,有人比较过性能吗

网上已经有人实现了,检索一条要 5 分钟。汗那,让我们来做个快点的吧,let's go~

此网站可查是否被公布 http://amihacked.mijun.net/

redis-search 可以拿来试试,但是不知道单机内存够不够用

v2ex 已经有人放出在线查询了 支持用户名、密码、邮箱查询 4秒左右

匿名 #4 2011年12月27日

刚才查了一下 果断被 hack 了,坑爹啊!!!

就算 grep 也只有几秒吧,几分钟是怎么做到的...

看硬盘速度了 文件有 5G 如果密码在文件尾部 估计下得多久时间了

建议是用 redis-search
ruby 大会上分享过http://www.slideshare.net/huacnlee/rails-app-redis?player=js 100 万 + 的数据 10ms 可以查到的

如果用 grep 的话,建议用 ack 比 grep 要更快 而且 写法更帅

需要 登录 后方可回复, 如果你还没有账号请 注册新账号