Rails SQL 通配符真的很糟糕么

hooopo · 2012年09月22日 · 最后由 woaigithub 回复于 2012年10月04日 · 6473 次阅读

本帖已被管理员设置为精华贴

而那个ActiveRecord Query Interface，默认生成的SQL可是select *啊，开发的时候的确不碍事，但总不能就这样发布了，还得把所有用到的column名字都补回去，下次改到这里再注释掉。要不就不用ActiveRecord Query Interface。

现在，还有谁敢拿着里面还有select *的代码去发布啊，现在都找不到多少PHP代码里面到处都是select *了吧。

先说说优点：

一、打字少！看看下面对比，哪个简单就不用说了，更少的输入意味着更少的错误：

select * from bugs;

和

select bug_id, date_reported, summary, description, resolution, reported_by,assigned_to, verified_by, status, priority, hours,......, from bugs;

二、在添加和修改或删除的时候不需要更改查询语句。

上面这两点都满足了程序员“懒”的习惯。所以大家都非常喜欢使用。

下面谈谈缺点：

说到这里一定会有同学跳出说：这有性能问题，不能这么用！的确，在在查询中使用通配符会影响性能，一次查询过多（有时候不需要的列也会被查到）会增加客户端和数据库之间的网络传输开销。

why AR's default SELECT * is not a big deal

一、性能问题永远不是应该最先考虑的问题。很少应用的数据会达到百万、千万级别。在开发阶段代码简单灵活可扩展永远是第一位的。

二、考虑到两种特殊情况，一个表字段非常多或是有大字段（text/blob 类型）。这种情况最彻底的解决方案是垂直拆分表和剥离大字段。

比如 users 这样的表很大，将 users 表分成 accounts + user_blog_parts + user_ask_parts + user_topic_parts 等。

带有大字段的表 topics 分成 topics 和 topic_texts。

三、不使用通配符会带来更多的 Query Cache Miss 和额外的缓存存储开销。无论是数据库级别的 Query Cache 还是 ActiveRecord 级别的 Query Cache。原因很简单 Query Cache 使用 sql 语句作为缓存 key，会把 select * 和 select colum1,column2 当作不同的查询。

mysql> select * from users order by id limit 1;

mysql> SHOW STATUS LIKE '%Qcache%';
+-------------------------+----------+
| Variable_name           | Value    |
+-------------------------+----------+
| Qcache_free_blocks      | 1        |
| Qcache_free_memory      | 16690672 |
| Qcache_hits             | 3        |
| Qcache_inserts          | 6        |
| Qcache_lowmem_prunes    | 0        |
| Qcache_not_cached       | 70       |
| Qcache_queries_in_cache | 6        |
| Qcache_total_blocks     | 16       |
+-------------------------+----------+
8 rows in set (0.00 sec)

mysql> select id,nick_name,email from users order by id limit 1;
1 row in set (0.00 sec)

mysql> SHOW STATUS LIKE '%Qcache%';
+-------------------------+----------+
| Variable_name           | Value    |
+-------------------------+----------+
| Qcache_free_blocks      | 1        |
| Qcache_free_memory      | 16689648 |
| Qcache_hits             | 3        |
| Qcache_inserts          | 7        |
| Qcache_lowmem_prunes    | 0        |
| Qcache_not_cached       | 70       |
| Qcache_queries_in_cache | 7        |
| Qcache_total_blocks     | 18       |
+-------------------------+----------+
8 rows in set (0.00 sec)

mysql>

四、和 Query Cache 类似，如果项目用了类似 CacheMoney 这样的行缓存插件，通配符方式会带来额外的性能提升，有些查询甚至不需要去 hit db，比指定列的方式省的那一点儿流量强的多。

五、有些查询使用select *不能进行覆盖索引优化。但是别忘了 AR 是可以使用 select 选项的... 默认 select * ，在特殊的地方手动指定查询列，这有什么问题呢？这就是 CoC 啊..

结论：

所以，单从一条查询来看某些做法可能是最好的，但是从整体的角度看未必是最优的。有些同学干了很多脏活累活儿，看起来很勤劳勇敢的样子，但是也未必起到什么效果:-)

11 个赞

性能提示关于学习 Ruby 的一些问题

Web 应用的缓存设计模式

jjym #0 2012年09月23日

这个倒没啥，感觉 count 的默认应该改成 1 或 0 什么的

hooopo #1 2012年09月23日

#1 楼 @jjym 是现有 migration 后有 model 的，如果是从 model 生成 migration 就可以根据 model 里设置的 counter_cache 选项来自动设置默认值了。

也可以一个字段以 count 结尾就给添加默认值？不过这样有点管的太多了吧。

jjym #2 2012年09月23日

#2 楼 @hooopo 我的意思是 count 方法应该默认生成select count(1) from xxx而不是 count(*)。毕竟不是所有的 model 都需要 counter_cache

hooopo #3 2012年09月23日

#3 楼 @jjym count(1) 真的比 count(*) 快么？

jjym #4 2012年09月23日

#4 楼 @hooopo 据老码农说是这样的..因为不必检测所有字段，我自己是没试验过..周一去公司试下

hooopo #5 2012年09月23日

#5 楼 @jjym

常见误区
count(1)和count(primary_key) 优于 count(*)
很多人为了统计记录条数，就使用 count(1) 和 count(primary_key) 而不是 count(*) ，他们认为这样性能更好，其实这是一个误区。对于有些场景，这样做可能性能会更差，应为数据库对 count(*) 计数操作做了一些特别的优化。
count(column) 和 count(*) 是一样的
这个误区甚至在很多的资深工程师或者是 DBA 中都普遍存在，很多人都会认为这是理所当然的。实际上，count(column) 和 count(*) 是一个完全不一样的操作，所代表的意义也完全不一样。
count(column) 是表示结果集中有多少个column字段不为空的记录
count(*) 是表示整个结果集有多少条记录

ref:http://isky000.com/database/mysql-performance-tuning-sql 我记得《高性能 Mysql》上面也是这么说的。

2 个赞

jjym #6 2012年09月23日

#6 楼 @hooopo 靠，上课就记住这几条..还是错的。。好文章，收藏

jjym #7 2012年09月23日

select a,b from … 比 select a,b,c from … 可以让数据库访问更少的数据量靠，这个误解真大了。。我相信 9.5 成人都会这样认为吧

不过加载到 Ruby 里的数据还是越少越好吧

ywjno #8 2012年09月23日

这些 SQL 的优化技巧是否还跟数据库还有关系呢，比如 oracle 与 mysql 会不同之类的

luikore #9 2012年09月23日

只有算法复杂度是持久靠谱的，很多优化技巧升个版本就不成立了

3 个赞

hooopo #10 2012年09月23日

#10 楼 @luikore 是啊比如这篇里的例子在不同 Ruby 版本或实现上就会有差别：http://ruby-china.org/topics/5311

jasl #11 2012年09月23日

@hooopo 不是号称数据库学的很烂么。。。。话说我的看法：优化 sql 应该从生产日志中入手，加上 cache 之后很多看似效率低下的查询实际上并不低效，很多看似高效的查询因为环境因素反而很慢。。。在 CSTO 实习最大的收获就是这个 PS：不过早优化算是老生常谈吧，用 orm 的时候避免类似 n+1 这种自身的局限导致的低效查询就好

1 个赞