数据库 (已解决) 每天 500w 条 log 如何入 mysql 库比较靠谱

iceskysl · January 14, 2012 · Last by lulalala replied at October 28, 2014 · 9721 hits

我们有个产品，每天差不多 500w 的业务量，需要对 500w 做相关的分析，就需要入库～

目前用的是 mysql 按月切表定期老化数据，但是导入数据情况比较糟糕～每天导入数据差不多需要 20 个小时，和 MySQL 5000 records/second差距巨大～

尝试过三个方案：

定期解析日志，直接入库；
定期解析日志，生成 sql，再直接 sql 入库；
生成 data 文件，load 到库里

但是效果都不理想～没什么大数据处理的经验，大家支招～～～

10 likes

xdite #0 January 14, 2012

你該不會是用 ActiveRecord 生成物件再儲存吧...

allenwei #1 January 14, 2012

mysql load 应该是最快的吧，把 mysql 引擎换成 ISAM 在 load 试试，应该会快点或者直接上 hadoop, hive 吧

bony #2 January 14, 2012

netcat，多台服务器，同步导入。。

vincent #3 January 14, 2012

第 2 种方法，注意每条 insert 可以同时插入多条记录（比如 1 千条），500 万条数据入库，执行 sql 应该很快的啊，我感觉应该在几分钟可以完成。如果你的很慢那可能是环境配置或硬件的问题了，可以把问题描述得更详细些，大家好出主意。

iceskysl #4 January 14, 2012

#1 楼 @xdite 第一种方案类似的思路，但是是 sinatra 里用 sequel 入的～

iceskysl #5 January 14, 2012

#2 楼 @allenwei mysql load 速度还不错，但是准备符合 mysql load 格式的数据还是很慢～

iceskysl #6 January 14, 2012

#3 楼 @bony 感觉这个是单台性能最佳以后再横向扩展，现在我个人觉得单台性能还比较糟糕，横向解决不了根本问题～

xds2000 #7 January 14, 2012

我正好做这方面，第一，你需要挂 replication，在 slave 上分析就可以。第二，你提到的“日志”，需要分析类型。是如 apache log，还是业务类型。你是做数据挖掘，还是只是即时数据的展示。第三，mysql 的优化很关键，可以通过这次问题积累经验。500W 数据量很小，不必担心 mysql 解决不了。

iceskysl #8 January 14, 2012

#4 楼 @vincent 哦，sql 导入的速度还不错，但是准备 sql 的过程比较慢，过程是这样的：

准备 sql 文件 sqlFileName = RAILS_ROOT + "/log/insert.sql." + LOG_POSTFIX_FOR_YESTERDAY sqlfile = File.open(sqlFileName, "w")
打开日志文件 File.open("../log/apps.log.#{LOG_POSTFIX_FOR_YESTERDAY}").each do |line|

3.提取需要的数据 id, apk_id, ip, client_id, channel_id, uniquely_code ,track = line.split(" : ")[1].split(",")

生成 sql 串 sqlInsert = "INSERT logs_downloads.....balalaalala
写到 sql 文件里 sqlfile.puts( sqlInsert )
调 mysql 直接导入 sql

里面还有一些数据的清洗和排重工作～

每天的日志文件差不多 500w 行，解析生成 sql 的过程不理想（其中没用数据库操作）～难道是我磁盘性能很糟糕～～

xds2000 #9 January 14, 2012

补充一下，我是从数据仓库的角度分析你的 case 的。仅供参考。 http://blog.s135.com/infobright/

iceskysl #10 January 14, 2012

#8 楼 @xds2000 还没到分析那块，现在再数据导入这个环节～infobright 这个有了解，多谢～～

lanwen #11 January 14, 2012

是否可以考虑生成 log 的时候分为多个文件？比如说 app.log.20120113-1，每个文件 10 万条，这样你可以多任务处理

iceskysl #12 January 15, 2012

#12 楼 @lanwen 还是没解决掉本质问题～

cxh116 #13 January 15, 2012

既然 SQL 生成这里有瓶颈，那就先简单的 Benchmark 分析，看那是那一块费时间。

另外可以尝试一下其它的语言，比如 shell

iceskysl #14 January 15, 2012

正在 Benchmark～

camel #15 January 15, 2012

#15 楼 @iceskysl 建议不要用 ActiveRecord，也不要用 Mysql 的 Innodb。数据库用 mysql 的 Myisam，直接调 mysqlimport 命令，当时我 vmware 虚拟机 (主机为 i5/2g ram) 下导入 csdn >600w 条记录只要 1 分 20 秒左右。 http://dev.mysql.com/doc/refman/5.0/en/mysqlimport.html