如果 CSDN 600w 用户泄露让你有种看到别人女儿大腿的感觉,这下天涯 4000w 会是啥感觉??? 尼玛的还好我的 CSDN 密码是 132456,不然强密码也被你们爆了
下载了一下,CSDN 的>200M,天涯的>1G,在加上人人,17173。解压后估计纯数据都要 5G。
现在想分析一下,随便输入一个关键字,能查到所有包含关键字的 name,email,password 记录。面试时经常有这样的题,现在天赐良机呀~
说一下我的大概思路。 数据库选择->导入数据->全文检索。 数据库仅仅是查询,Mysql 的 MyISAM 性能不错,redis 没用过 导入数据:用第三方不管是 Ruby、Java、C 肯定都很慢。还是先用 Ruby 把数据转为 SQL 语句,然后用 Mysql import 直接导入比较快 全文检索:Java 的 Solr,比较成熟。huacnlee 的 redis-search 听说也不错,有人比较过性能吗
网上已经有人实现了,检索一条要 5 分钟。汗那,让我们来做个快点的吧,let's go~