Ruby 如何提高这段代码的执行速度？

chucai · 2012年08月10日 · 最后由 suupic 回复于 2012年09月13日 · 5108 次阅读

场景：我需要从一个 txt 文件 (有 4000 行，每行只有一个手机号码) 读取文件中的手机号，并将其存入数据库中。最后，将手机号码和密码生成一个新的文件 output.txt 中。我的代码如下：

path   = File.join(Rails.root, "db/phones.txt")
output = File.join(Rails.root, "db/output.txt")
output_str = ""
File.open(path, "r").each do |line|
  phone = line.chomp
  output_str << phone
  user  = User.find_by_phone(phone)
  if user
    output_str << " " + "已注册\n"
  else
    user = User.simple_create(phone)
    output_str << " " + user.passwd + "\n"
  end 
end 
File.open(output, "w") do |f| 
  f << output_str
end

这段代码执行时间大概在 9 分钟以上，如何能提高这段代码的执行效率？

bhuztez #1 2012年08月10日

用 SQLITE 可以用INSERT OR IGNORE一次插入很多条记录，问题是 SQLITE 一条语句参数个数是有上限的，一次插入 4000 可能已经超了。别的数据库应该也有类似的方法，且没参数个数的限制。

chucai #2 2012年08月10日

#1 楼 @bhuztez 谢谢！但是我需要最后的密码，且密码是随机的。

bhuztez #3 2012年08月10日

#2 楼 @chucai 用 SQL 生成随机数应该可以的。

chucai #4 2012年08月10日

#3 楼 @bhuztez 恩。但我生成以后，还需要取出密码和手机号，还要将这些存入一个文件。

bhuztez #5 2012年08月10日

#4 楼 @chucai 你就再用一个SELECT么

huacnlee #6 2012年08月10日

数据库里面 users 表给 phone 增加索引

chucai #7 2012年08月10日

#6 楼 @huacnlee 恩。谢谢！

fsword #8 2012年08月10日

数据量太小了，文件操作完全可以依托内存，这样可以文件读写一次完成。进一步，如果数据库数据不多，那么干脆一次性把 user 表全读出来，然后数组减数组，暴力解决有时候也是一个方案

bhuztez #9 2012年08月10日

#6 楼 @huacnlee 加索引会减慢写入速度，按 LZ 这个写法，加不加索引，关系不大。

bhuztez #10 2012年08月10日

#8 楼 @fsword 目前最大的问题是能用一句 SQL 搞定的他用了 4000 句

chucai #11 2012年08月10日

#8 楼 @fsword 是的我看了下文件的大小 phones.txt 40 多 k output.txt 70 多 k

一次读入内存是完全没有问题但是速度就是慢了点

不知道从文件读写上，是否还有优化的办法

fsword #12 2012年08月10日

#10 楼 @bhuztez 你指的是 find 么？这个要看场景，这个问题的前提是数据量比较小

bhuztez #13 2012年08月10日

#12 楼 @fsword 不是啊，无论多少数据量，你最终数据库写入的数据量是一样的，就是 4000 个手机号码。而现在 LZ 的问题是，SQL 语句数是O(n)的，而实际上是可以做到O(1)的。

stc #14 2012年08月10日

手工加密密码，得到 phone,passwd 组合。最后用原生的 sql 语句一次性插入，和一次性写入文件？

huacnlee #15 2012年08月10日

4000 条记录 * 50ms / 1000 / 60 = 才 3 分钟用了 9 分钟，那每条耗费 135ms

数据库什么情况
Ruby 环境什么情况（难道你是 Windows?）

chucai #16 2012年08月10日

#15 楼 @huacnlee

Ubuntu 11.04 \n \l
mysql  Ver 14.14 Distrib 5.1.54, for debian-linux-gnu (i686) using readline 6.2

fsword #17 2012年08月10日

#13 楼 @bhuztez 4000 个不是全都写入，有判断的，所以我才说全内存操作，整理好数据以后一次性写入

ywjno #18 2012年08月10日

循环中查数据库效率肯定不会太高啊，直接用 in 来查询，查到的结果就是数据库中已经存在了的

fsword #19 2012年08月10日

感觉楼主的问题有点诡异，还是老实一些，打几个点分析一下性能瓶颈，不知道原因容易瞎猜

匿名 #20 2012年08月10日

我觉得时间花的最多的就是 4000 次插入操作：

https://github.com/zdennis/activerecord-import

users = []
4000.times do
  users << User.new
end

User.import users

1 个赞

bhuztez #21 2012年08月10日

#17 楼 @fsword 我都说了用INSERT OR IGNORE之类的办法了，不需要自己判断，直接丢给数据库就好。

luikore #22 2012年08月10日

我觉得 4000 个查询和不到 4000 个插入就是小儿科，包个 transaction 就可以了 ...

zhangyuan #23 2012年08月10日

4000 个查询，可以分成 40 个查询，每次 100 个？

Rails 的数组有方法 #in_groups_of 和 #in_groups，可以给数据分组。分好组后，用select xxx where id in (a, b, c) 这种查询就减少查询次数了。

默认一次 insert 就是一次事务。如果把所有的 insert 用一个事物包起来，会快很多。前提是保证不要回滚啊。

rasefon #24 2012年08月10日

#22 楼 @luikore 对，用个 transaction 就可以了。

heliang7 #25 2012年08月10日

除了数据库，我问个问题，楼主的 ruby 版本是什么？建议用最新的 1.9.3 试试？ 4000 个 sql，不做什么优化，应该非常快的。 bechmark 下，看下瓶颈真正在哪里。

1 个赞

chucai #26 2012年08月10日

#25 楼 @heliang7 谢谢

27 楼已删除

ruby_sky #28 2012年09月13日

要我说，直接用 hadoop 或者 twitterStorm..

tumayun #29 2012年09月13日

@zhangyuan 恩，是这个思路，与@xdite 一篇文章中的思路一致

wuwx #30 2012年09月13日

你的数据库里面，已有的数据量是多大？虽然你的 txt 文件数量只有 4000 行，但是你的 users 表的数据量可能不小啊？

suupic #31 2012年09月13日

分批提交是王道，性能能提高 XX 倍

需要登录后方可回复, 如果你还没有账号请注册新账号

共收到 31 条回复

收到新回复，点击立即加载