分享 MySQL 为什么需要一个主键

ibugs · 2015年07月07日 · 最后由 ibugs 回复于 2015年08月28日 · 21062 次阅读

本帖已被管理员设置为精华贴

主键

表中每一行都应该有可以唯一标识自己的一列（或一组列）。

一个顾客可以使用顾客编号列，而订单可以使用订单 ID，雇员可以使用雇员 ID 或雇员社会保险号。

主键（primary key）一列（或一组列），其值能够唯一区分表中的每个行。唯一标识表中每行的这个列（或这组列）称为主键。没有主键，更新或删除表中特定行很困难，因为没有安全的方法保证只设计相关的行。

虽然并不总是都需要主键，但大多数数据库设计人员都应保证他们创建的每个表有一个主键，以便于以后数据操纵和管理

表中的任何列都可以作为主键，只要它满足一下条件：

1、任何两行都不具有相同的主键值 2、每个行都必须具有一个主键值（主键列不允许 NULL 值）

主键值规范：这里列出的规则是 MySQL 本身强制实施的。

主键的最好习惯：除 MySQL 强制实施的规则外，应该坚持的几个普遍认为的最好习惯为：

1、不更新主键列的值 2、不重用主键列的值 3、不在主键列中使用可能会更改的值（例如，如果使用一个名字作为主键以标识某个供应商，应该供应商合并和更改其名字时，必须更改这个主键）

总之：不应该使用一个具有意义的 column（id 本身并不保存表有意义信息）作为主键，并且一个表必须要有一个主键，为方便扩展、松耦合，高可用的系统做铺垫。

非常感谢 @pathbox、 @est、@hooooopo 同学的提醒。主键的作用，在于索引。

无特殊需求下 Innodb 建议使用与业务无关的自增 ID 作为主键

InnoDB 引擎使用聚集索引，数据记录本身被存于主索引（一颗 B+Tree）的叶子节点上。这就要求同一个叶子节点内（大小为一个内存页或磁盘页）的各条数据记录按主键顺序存放，因此每当有一条新的记录插入时，MySQL 会根据其主键将其插入适当的节点和位置，如果页面达到装载因子（InnoDB 默认为 15/16），则开辟一个新的页（节点）

1、如果表使用自增主键，那么每次插入新的记录，记录就会顺序添加到当前索引节点的后续位置，当一页写满，就会自动开辟一个新的页。如下图所示：

这样就会形成一个紧凑的索引结构，近似顺序填满。由于每次插入时也不需要移动已有数据，因此效率很高，也不会增加很多开销在维护索引上。

2、如果使用非自增主键（如果身份证号或学号等），由于每次插入主键的值近似于随机，因此每次新纪录都要被插到现有索引页得中间某个位置：

此时 MySQL 不得不为了将新记录插到合适位置而移动数据，甚至目标页面可能已经被回写到磁盘上而从缓存中清掉，此时又要从磁盘上读回来，这增加了很多开销，同时频繁的移动、分页操作造成了大量的碎片，得到了不够紧凑的索引结构，后续不得不通过 OPTIMIZE TABLE 来重建表并优化填充页面。

在使用 InnoDB 存储引擎时，如果没有特别的需要，请永远使用一个与业务无关的自增字段作为主键。

InnoDB 存储引擎采用了聚集（clustered）的方式，因此每张表的存储都是按主键的顺序进行存放。如果没有显式地在表定义时指定主键，InnoDB 存储引擎会为每一行生成一个 6 字节的 ROWID，并一次作为主键。

mysql 在频繁的更新、删除操作，会产生碎片。而含碎片比较大的表，查询效率会降低。此时需对表进行优化，这样才会使查询变得更有效率。

非常感谢 @xiaoronglv 同学

If you define a PRIMARY KEY on your table, InnoDB uses it as the clustered index.
If you do not define a PRIMARY KEY for your table, MySQL picks the first UNIQUE index that has only NOT NULL columns as the primary key and InnoDB uses it as the clustered index.

具体参考 14.2.10.1 Clustered and Secondary Indexes

我的简书

8 个赞

无引用文章

Schema 与数据类型优化小技巧

pathbox #0 2015年07月07日

使用自增 id 为主键，加自定义索引配合，基本就没什么问题了

ibugs #1 2015年07月07日

@pathbox 恩。因为有些同事，或小伙伴问，为什么要给表设置主键。其实主键是一个表的最基本设置。

est #2 2015年07月07日

主键的更大作用是磁盘存储。。。。得靠这玩意。

hooopo #3 2015年07月07日

概括成一句话：应该用代理键做主键。

1 个赞

xiaoronglv #4 2015年07月18日

if there is no primary key, innodb will create a hidden column as primary key, and cluster rows on it

1 个赞

frankfang128 #5 2015年07月20日

应该问，为什么 mysql 不把主键作为必选项/实现一个隐藏主键？

1 个赞

ibugs #6 2015年07月21日

@xiaoronglv you are right!

sevk #7 2015年07月21日

自增 id 不会带来效率提升，经常参与排序的列可以，比如顾客编号，时间

tini8 #8 2015年07月21日

一人一个身份证号

echooo #9 2015年07月21日

自增 id 会带来额外的开销，建立合适的索引有利于数据的插入和查找。

winnie #10 2015年07月22日

我觉得：ID, create_time, update_time 这三个应该数据库本身默认内置，这点 Rails 做得好。

pynix #11 2015年07月22日

貌似会有一个自增的 ROW_COUNT 但是没法引用。

yakczh #12 2015年07月25日

主键名字应该是设成 id 还是 #tablename_id 比较好？

ibugs #13 2015年07月26日

#13 楼 @yakczh id

kakaxi2 #14 2015年07月27日

如果使用自增长列作为主键，在查询上是不能利用到索引的优势的。因为你基本上不会用到自增列作为查询的条件。更多时候你可以考虑不会经常改变的列来作为索引，楼主说的应该说明限制条件。

ibugs #15 2015年07月27日

#15 楼 @kakaxi2 一般情况来说呢，在 InnoDB 中，将 id 作为索引的最后一个列，并且默认情况下，设置主键索引的。因为自增主键，不会重复，那么就代表的高的索引基数（Cardinality），查询，如

SELECT * FROM table ORDER BY id desc limit 10;

就会很有效果。

有些查询，按照创建时间倒叙排列


SELECT * FROM table ORDER BY created_at desc ;
其实可以改写成
SELECT * FROM table ORDER BY id desc;

这种情况下，还是蛮实用的。因为在 created_at 上创建索引的代价，会远远大于在 id 上创建索引的代价。所以创建一个主键 id，并且设置为自增，还是有必要的。

不太明白这里的 ** 不会经常改变的列 ** 是什么意思呢？

ibugs #16 2015年07月27日

#11 楼 @winnie Rails 做的确实很好，经常会有这种，按照创建时间，或更新时间倒叙排列的需求。

ibugs #17 2015年07月27日

#10 楼 @echooo 根据不同的业务需求选择合适的主键 id。

ibugs #18 2015年07月27日

#8 楼 @sevk 你可以试一试哦，在各种不同情况下，会有不同的反应。InnoDB，创建索引的时候，默认会把 id 当做索引中的最后一列。自增不一定最好，但是还是希望主键不要重复。

ibugs #19 2015年07月27日

#3 楼 @est 👍

ibugs #20 2015年07月27日

#4 楼 @hooooopo nice，👍

kakaxi2 #21 2015年07月28日

#16 楼 @ibugs 你说的这个场景确实是使用自增主键的一个好的例子。但是大部分时候，如果你用 InnoDB，而且不需要特殊的聚簇索引，一个好的做法就是使用代理主键 (surrogate key)——独立于你的应用中的数据，就是使用一个 AUTO_INCREMENT 的列，这会保证记录按照顺序插入，这是因为 InnoDB 使用的是聚簇索引