如何批量生成百万条数据？

ashchan #0 2012年02月22日

1_000_000.times { |t| Model.create(:id => t, ...) }

ashchan #1 2012年02月22日

如果跟 Ruby 无关，则用相同的方式直接在 mongo shell 下用 javascript new 一个 obj，然后 db.collname.insert(obj);

metal #2 2012年02月22日

#2 楼 @ashchan 搞定了。可以 js 的。爽呀。

metal #3 2012年02月22日

十万数据无法读出来了。 = =。

18:00:25 [clientcursormon] mem (MB) res:1057 virt:2828 mapped:1344
18:00:58 [conn55] query kennx_blog_app_development.posts ntoreturn:20 nscanned:100000 scanAndOrder:1 nreturned:20 reslen:3470 218ms
18:00:58 [conn55] query kennx_blog_app_development.posts ntoreturn:20 nscanned:100000 scanAndOrder:1 nreturned:20 reslen:960 215ms
18:00:58 [conn55] query kennx_blog_app_development.posts ntoreturn:20 nscanned:100000 scanAndOrder:1 nreturned:20 reslen:960 234ms
18:01:32 [conn55] info DFM::findAll(): extent 0:4000 was empty, skipping ahead. ns:kennx_blog_app_development.posts
18:01:32 [conn55] query kennx_blog_app_development.posts ntoreturn:20 nscanned:100000 scanAndOrder:1 nreturned:20 reslen:3470 222ms
18:01:32 [conn55] query kennx_blog_app_development.posts ntoreturn:20 nscanned:100000 scanAndOrder:1 nreturned:20 reslen:960 215ms
18:01:32 [conn55] query kennx_blog_app_development.posts ntoreturn:20 nscanned:100000 scanAndOrder:1 nreturned:20 reslen:960 216ms

metal #4 2012年02月22日

第一次访问速度非常慢。如果是一个列表的话，一般都会 find(:all) 吧，这样好像会预先读一次数据库记录，如果有一百万条记录的话，不是会卡死。一个论坛应该没多久就有 10W 条数据了吧。微博这样的东西更加不敢想象。

shawnyu #5 2012年02月22日

String.new("百万条数据")

skandhas #6 2012年02月22日

#6 楼 @shawnyu 算你狠～哈哈

wlon #7 2012年02月22日

这个需要做个分页或者筛选条件吧

terry #8 2012年02月22日

mongodb 是不能这么用的。。。

xdite #9 2012年02月22日

不可以用 1 樓這種用法，你等於是 new 100 萬個 object 在 memory 裡，這樣會 memory bloat 搞到你的電腦 crash 的

xdite #10 2012年02月22日

http://stackoverflow.com/questions/5099460/mass-insert-mongoid # 一次塞 batch 而不是 new 100 萬個 object。

而且我另外的建議是拆十萬條塞一次這樣

ashchan #11 2012年02月23日

#10 楼 @xdite 在得出这样的结论之前，你有做过实验吗？

我同意你的观点，放 100 万个对象不是最佳方式。但对于一个简单的如例子中的 mongo object 来说，在 loop 中生成 100 万个并依次插入真能把“你”的电脑弄崩？

我实际跑了一下，代码如下：（用的 ORM 是 mongoid，helper 可以无视，只是用来在每次运行前清理和创建相应的 db 和 collection 的）

require File.expand_path(File.dirname(__FILE__) + '/../helper')
require 'benchmark'

class Monkey
  include Mongoid::Document
  field :name
end

Benchmark.bm do |bm|
  p 'create million monkeys, crash me if you can'

  bm.report("1_000_000.times #create") do
    1_000_000.times do |i|
      Monkey.create(:id => i, :name => "##{i} monkey")
    end
  end
end

实际运行时间会跟机器环境有关。我的是 Mid 2010 Mac Mini，8G 内存，SSD，10.8 Mountain Lion，Ruby 1.9.3-p0，但测试用的 Mongodb 是存储在 mount 上来的一块 5400 转的普通笔记本硬盘上的。

看插入到 90 万条时的情况：

no crash

此时 MongoDB 内存使用到 300M 不到（可以跟 Safari 的使用情况比比，哈哈）。Ruby 进程没显示在上面，此时是 28M 左右且保持稳定。

之所以说同意你的观点，是因为 MongoDB 的内存是会一直增长的，这是 MongoDB 使用内存的方式引起的。Ruby 内存使用很稳定，我个人认为这说明至少从 Ruby 本身来说，在 loop 中创建百万级的对象在现在的计算机环境下根本是小 case！而且有理由相信有可能在 loop 中的对象也会被 GC 掉。

另外，MongoDB 和 Ruby 进程的 CPU 占用在这种情况下都会比较高。

反而，单纯从内存角度来讲，我倒是觉得 batch insert 的方式会比较有问题，一个 Array 中放 100 百万个 object 再去插入，这一百万个 object 在插入完成前是不能被释放掉的。你说的分 10 万一次插倒是很实际有效的方法。

花这么多力气来回你，只是想说，方法各有不同，能达到效果就能。但在说“不可以”前，先想想真的不可以吗？至少我可以！

ashchan #12 2012年02月23日

OK，因为今天要来公司，所以到了后拿 Air 又跑了一遍，一图抵万言：

another example

Ruby 和 MongoDB 环境是一样的，机器是去年的，内存 4G。

这次没忘把结果也记下来了：

       user     system      total        real
"create a million monkeys, crash me if you can"
1_000_000.times #create275.970000  14.640000 290.610000 (290.673265)

ashchan #13 2012年02月23日

有兴趣的同学可以自己跑跑试试： https://github.com/ashchan/mongoid-pitfalls/blob/master/examples/loop_insert.rb

匿名 #14 2012年02月23日

#14 楼 @ashchan 认真专业的分享精神，tks

metal #15 2012年02月23日

#14 楼 @ashchan mongoid 怎么把 id 生成像 sql 那样的自插入的数字。mongodb 的 ID 都是字符串。

ashchan #16 2012年02月23日

#16 楼 @metal 要用其他类型的话，用这个：

identity :type => Integer

要用自插入的数字的话，用华顺 (@huacnlee) 写的这个库：

https://github.com/huacnlee/mongoid_auto_increment_id

iwinux #17 2012年02月23日

@metal @xdite @ashchan

我 Google 了一下，找到这篇文章，也许可以作为参考：http://www.coffeepowered.net/2009/01/23/mass-inserting-data-in-rails-without-killing-your-performance/

metal #18 2012年02月23日

#17 楼 @ashchan 爽。谢谢

ashchan #19 2012年02月23日

#18 楼 @iwinux 谢谢分享。batch insert 大多是以空间（内存）换速度（时间），1 楼的方法当然是最笨而且很慢的方法，但不会是最消耗内存的写法。

doitian #20 2012年02月23日

#10 楼 @xdite 是不是看成 1_000_000.collect 了？

iwinux #21 2012年02月23日

#20 楼 @ashchan 嗯，我跑了你的测试，内存使用没有明显增加，但 CPU 保持 50% 占用率一直到测试运行完……我还另外写了一个 batch_insert.rb，作为对照。

BTW: 为什么 benchmark 不显示内存占用？？

我的机器配置

CPU: Pentium(R) Dual-Core CPU T4200 @ 2.00GHz RAM: DDR2 2G Arch Linux + Ruby 1.9.3-p0

loop_insert.rb 测试结果

       user     system      total        real
"create a million monkeys, crash me if you can"
1_000_000.times #create554.660000  53.490000 608.150000 (641.897088)

batch_insert.rb 的测试结果

       user     system      total        real
1_000_000.times #create155.340000   0.480000 155.820000 (177.756519)

ashchan #22 2012年02月23日

#22 楼 @iwinux cool!

关于 benchmark 为何不显示内存占用，请看它的说明：)

The Benchmark module provides methods to measure and report the time used to execute Ruby code.

xdite #23 2012年02月27日

雖然我覺得這是一個故意要給我難看的帖 (?)

不過很可惜我現在也找不到當時的環境去弄出來了。不知道是不是有人可以幫我找到這樣的環境再作類似的事？

我之前是在 Ruby 1.8.6 + Rails 2.3.1 + ActiveRecord(MySQL) Macbook 1.83 2G + SATA 硬碟上面跑這種 benchmark 的。不用跑到 100 萬。50 萬就爛掉了...

死因就是 memory bloat。不過我想我大概是帶著 ActiveRecord 的印象自動在回。沒看清這題是 MongoDB

https://rails.lighthouseapp.com/projects/8994/tickets/6129

ashchan #24 2012年02月27日

#24 楼 @xdite 纯粹讨论技术细节而已，对事不对人。如有冒犯还请海涵！

hlxwell #25 2012年02月27日

mongostat 可以看到 mongo 大概支持 10000 条/s 记录的插入。就是不知道 dump 到磁盘里的数据是多快。

其实 100 万数据上次我做过一个试验。我发现你去分页 100 万数据，skip 掉 90 万，然后取 10 条。非常非常慢。加了 index 也没有用。而且在任何数据库都有这个问题。大数据量的时候分页不知道有没有其他解决方案

MongoDB 如何批量生成百万条数据？

MongoDB 如何批量生成百万条数据？

我的机器配置

loop_insert.rb 测试结果

batch_insert.rb 的测试结果