分库分表

发表于2019-03-20|更新于2026-05-01|SQL

|总字数:473|阅读时长:1分钟|浏览量:

分库分表

并发量决定是否需要分库，

数据量决定是否需要分表。

分区分片

按时间范围归档分区

按用户ID取模分表，

按shardingkey来分片；

数据量太大的场景

mysql表的数据量一般控制在千万级别，如果再大的话，就要考虑分库分表。

除了分表外，列举了面对海量数据业务的一些常见优化手段

缓存加速
读写分离
垂直拆分
分库分表
冷热数据分离
ES助力复杂搜索
NoSQL
NewSQL

分表后ID如何保证全局唯一

分库分表后，多张表共用一套全局id，原来单表主键自增方式满足不了要求。

我们需要重新设计一套id生成器。

特点：全局唯一、高性能、高可用、方便接入。

UUID
数据库自增ID
数据库的号段模式，每个业务定义起始值、步长，一次拉取多个id号码
基于Redis，通过incr命令实现ID的原子性自增。
雪花算法（Snowflake）
市面的一些开源框架，如：百度（uid-generator），美团（Leaf），滴滴（Tinyid）等

分表后可能遇到的问题

分表后，与单表的最大区别是有分表键sharding_key，用来路由具体的物理表，以电商为例，有买家和卖家两个维度，以buyer_id路由，无法满足卖家的需求，反之同样道理。如何解决？

分买家库和卖家库，将买家库做为写库，保存完整的数据关系。同时将数据异构同步一份到卖家库，卖家库可以只存储seller_id，order_id，buyer_id 等几个简单关系字段即可，以seller_id作为分表键
多线程扫描，分段查找，然后再聚合结果
另外也可以存到ES中，支持多维度复杂搜索

文章作者: Michael

文章链接: https://mikeah2011.github.io/post/01_MySQL/%E5%88%86%E5%BA%93%E5%88%86%E8%A1%A8.html

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Michael's Blog！

相关推荐

性能优化方案

数据量比较大，批量操作数据入库耗时操作考虑异步处理恰当使用缓存优化程序逻辑、代码 SQL优化压缩传输内容考虑使用文件/MQ等其他方式暂存，异步再落地DB 跟产品讨论需求最恰当，最舒服的实现方式本文会提到52条SQL语句性能优化策略。 1、对查询进行优化，应尽量避免全表扫描，首先应考虑在where及order by涉及的列上建立索引。 2、应尽量避免在where子句中对字段进行null值判断，创建表时NULL是默认值，但大多数时候应该使用NOT NULL，或者使用一个特殊的值，如0，-1作为默认值。 3、应尽量避免在where子句中使用!=或<>操作符，MySQL只有对以下操作符才使用索引：<，<=，=，>，>=，BETWEEN，IN，以及某些时候的LIKE。 4、应尽量避免在where子句中使用or来连接条件，否则将导致引擎放弃使用索引而进行全表扫描，可以使用UNION合并查询：select id from t where num=10 union all select...

MySQL主从复制与读写分离

主从同步 master主库，有数据更新，将此次更新的事件类型写入到主库的binlog文件中主库会创建log dump 线程通知slave有数据更新 slave从库，向master节点的 log dump线程请求一份指定binlog文件位置的副本，并将请求回来的binlog存到本地的Relay log 中继日志中 slave 再开启一个SQL 线程读取Relay log事件，并在本地执行redo操作。将发生在主库的事件在本地重新执行一遍，从而保证主从数据同步主从延迟指一个写入SQL操作在主库执行完后，将数据完整同步到从库会有一个时间差，称之为主从延迟。主库生成一条写入SQL的binlog，里面会有一个时间字段，记录写入的时间戳 t1 binlog 同步到从库后，一旦开始执行，取当前时间 t2 t2-t1，就是延迟时间注意：不同服务器要保持时钟一致。主从延迟排查方法通过 show slave status 命令输出的Seconds_Behind_Master参数的值来判断为零：表示主从复制良好正值：表示主从已经出现延时，数字越大，表示从库延迟...

MySQL 数据类型选型

一句话选最小的、能装下你数据的类型。类型小 = 索引小 = 内存命中率高 = 快。一、整数类型类型字节范围（无符号）用途 TINYINT 1 0 ~ 255 状态枚举、布尔 SMALLINT 2 0 ~ 65535 较小计数 MEDIUMINT 3 0 ~ 1677w 较少用 INT 4 0 ~ 42亿大多数主键、ID BIGINT 8 0 ~ 1844亿亿雪花 ID、大表主键 1234-- ❌ 用户性别用 INTgender INT-- ✅ 用 TINYINTgender TINYINT UNSIGNED COMMENT '0未知 1男 2女' INT(11) 里的 11 不是长度！只是显示宽度（已废弃），实际仍是 4 字节。二、字符串类型类型长度适用 CHAR(n) 固定 n 字符 MD5、UUID、固定位手机号 VARCHAR(n) 可变 ≤ n 大多数字符串 TEXT (4 种) 长文本文章正文，不要建普通索引 ENUM 枚举不推荐，...

覆盖索引（Covering Index）

一句话覆盖索引 = 一个 SELECT 需要的所有字段，都能从二级索引里直接拿到，不需要回表。 EXPLAIN 显示 Using index 就是覆盖了。一、为什么需要覆盖InnoDB 的二级索引存的是主键值，不是数据行： 123456SELECT name FROM users WHERE age = 25;-- 走 idx_age 二级索引-- → 拿到主键 id 列表-- → 用 id 回到聚簇索引取整行 ← 这一步叫"回表"-- → 取出 name 回表 = 一次随机 IO。如果二级索引里直接就有 name，就省了这一步。二、用联合索引覆盖12345678-- ❌ 普通索引，需要回表ALTER TABLE users ADD INDEX idx_age (age);SELECT name FROM users WHERE age = 25;-- ✅ 覆盖索引，name 直接在索引里ALTER TABLE users ADD INDEX idx_age_name (age, name);SELECT name FROM u...

MySQL的三种日志

redo log日志也叫做WAL技术（Write- Ahead Logging），他是一种先写日志，并更新内存，最后再更新磁盘的技术，为了就是减少sql执行期间的数据库io操作，并且更新磁盘往往是在Mysql比较闲的时候，这样就大大减轻了Mysql的压力。 redo log是固定大小，是物理日志，属于InnoDB引擎的，并且写redo log是环状写日志的形式：如上图所示：若是四组的redo log文件，一组为1G的大小，那么四组就是4G的大小，其中write pos是记录当前的位置，有数据写入当前位置，那么write pos就会边写入边往后移。 check point记录擦除的位置，因为redo log是固定大小，所以当redo log满的时候，也就是write pos追上check point的时候，需要清除redo log的部分数据，清除的数据会被持久化到磁盘中，然后将check point向前移动。 redo log日志实现了即使在数据库出现异常宕机的时候，重启后之前的记录也不会丢失，这就是crash-safe能力。 binlog称为归档日志，是逻辑上的日志，它属于M...

MySQL 面试题速查

本文是浓缩版速答。每题尽量一句话讲清结论；详细原理点对应链接。一、索引Q: 为什么 MySQL 用 B+ 树而不是 B 树/红黑树/Hash？B+ 树非叶节点不存数据 → 一个节点能装更多 key → 树更矮 → 磁盘 IO 少；叶子节点链表 → 范围查询快。Hash 不支持范围、不支持排序。 Q: 聚簇索引 vs 二级索引？聚簇索引：叶子节点存整行数据，InnoDB 主键即聚簇索引二级索引：叶子节点存主键值，需要”回表” Q: 什么是覆盖索引？ → 详细SELECT 的字段全在二级索引里，不用回表。EXPLAIN 显示 Using index。 Q: 最左前缀原则？联合索引 (a, b, c) 只能命中 a / a+b / a+b+c，不能 b 或 b+c。 Q: 索引为什么会失效？ → 12 种原因函数运算、隐式转换、%xxx、OR 含非索引列、违反最左前缀、负向查询… Q: 什么时候不该建索引？ → 优缺点小表、低选择性字段、写多读少、字段经常更新。二、事务与隔离级别Q: ACID 是什么？ A 原子性：要么全做，要...

评论