Rails 遍历大表时候的内存泄露问题

linjunhalida · 2013年07月19日 · 最后由 linjunhalida 回复于 2013年07月19日 · 2791 次阅读

有的时候做批量操作的时候,比如:

Article.published.each do |ar|
  do_sth(ar)
end

发现执行过程中,内存不断消耗掉,按照我的想法,each出来的应该是一个迭代器,每次迭代中间的临时变量应该会被收集掉,但是结果不是。我是用pry来跑的,不知道是否会有影响。这样的问题就是,如果article表比较大,或者中间展开消耗了很多内存(比如article又联系到了一堆对象),最后容易跑爆掉。

请问大家有谁知道具体的原理,以及如何处理这种状况?谢谢。

共收到 11 条回复

同样问题, 我记得我上次用 Mongoid 的时候, 用 Model.each 也有这个问题. 执行到最后内存快完的时候任务完成了- -||

each 改成 find_each

#1楼 @linjunhalida rack中间件调用的cache,你不是在request时调用的就没必要uncache,该看4楼

表大的话必须用4楼的方法啊 万一你迭代的中间有人对数据操作了呢 迭代的就是旧数据了

为什么不直接翻文档

http://guides.rubyonrails.org/active_record_querying.html

But this approach becomes increasingly impractical as the table size increases, since User.all.each instructs Active Record to fetch the entire table in a single pass, build a model object per row, and then keep the entire array of model objects in memory. Indeed, if we have a large number of records, the entire collection may exceed the amount of memory available.

Rails provides two methods that address this problem by dividing records into memory-friendly batches for processing. The first method, find_each, retrieves a batch of records and then yields each record to the block individually as a model. The second method, find_in_batches, retrieves a batch of records and then yields the entire batch to the block as an array of models.

如果有字段用了 serialize 用的默认的 yaml 做序列化,某些 yaml 版本是会发生内存泄漏的。

很神奇,我用了find_each,内存还是飞快地涨,里面我联系了另外一个model,另外一个model里面有一个serialize :data, Hash。。。不知道是不是这个原因。。

不行,里面的东西我都清空了,内存消耗还是涨,可能是pry记录结果的原因。。

#9楼 @doitian 看了一下,好像这个是解法: http://nerdd.dk/posts/YAML-load-considered-harmful 不过用了之后,还是暴增。。

需要 登录 后方可回复, 如果你还没有账号请点击这里 注册