索引的优缺点

发表于2019-05-10|更新于2026-05-01|MySQL

|总字数:538|阅读时长:1分钟|浏览量:

一句话

索引以”读快、写慢、占空间”为代价换查询性能。 加索引前先想：这字段查得多吗？选择性够不够？

一、优点

优点	说明
加速 WHERE 查询	从 O(N) 全表扫描 → O(log N) B+ 树查找
加速 ORDER BY / GROUP BY	索引天然有序，省去 filesort
加速 JOIN	关联字段有索引时大幅提速
唯一索引保证唯一性	数据约束 + 查询双重价值
覆盖索引免回表	二级索引就能返回所有需要的列

二、缺点

缺点	说明	量化
占空间	每个索引都是一棵 B+ 树	一个 INT 索引在 100w 行表上约 30MB
写入变慢	INSERT/UPDATE/DELETE 都要维护所有相关索引	每多一个索引，写入慢 5-15%
优化器选错索引	索引太多反而干扰优化器	用 `FORCE INDEX` 兜底
维护成本	在线加索引要锁表/影响性能	大表用 `pt-online-schema-change`

三、加索引的判断标准

✅ 该加：

WHERE / ORDER BY / GROUP BY / JOIN 高频用到
字段选择性高（不同值多）：cardinality / total_rows > 0.1
表大（万行以上），加索引 ROI 才高

❌ 不该加：

字段值极少（性别、是否启用）→ 索引基本无效
表很小（千行以下）→ 全表扫描更快
写入远多于读取（日志表）→ 索引拖累写入
字段经常更新 → 每次更新都重建索引节点

四、检查索引使用情况

-- 看表的所有索引
SHOW INDEX FROM users;

-- 看索引选择性（cardinality 越接近行数越好）
SELECT
    table_name, index_name, cardinality
FROM information_schema.statistics
WHERE table_schema = 'mydb';

-- 找出"从没被用过"的索引（MySQL 5.7+）
SELECT * FROM sys.schema_unused_indexes;

-- 找出"冗余索引"
SELECT * FROM sys.schema_redundant_indexes;

五、常见反模式

每个字段都加索引 → 写入崩溃
联合索引乱序 → (a, b, c) 和 (b, a, c) 完全是不同的索引
加了索引不知道有没有用 → 必须 EXPLAIN 验证
VARCHAR 全字段索引 → 用前缀索引：KEY idx_name (name(20))

参考

MySQL 文档 - Optimization and Indexes: https://dev.mysql.com/doc/refman/8.0/en/optimization-indexes.html
《高性能 MySQL》第 5 章

文章作者: Michael

文章链接: https://mikeah2011.github.io/post/01_MySQL/%E7%B4%A2%E5%BC%95/%E4%BC%98%E7%BC%BA%E7%82%B9.html

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 Michael's Blog！

相关推荐

索引失效的 12 种原因

一句话索引失效 = MySQL 优化器决定不用你建的索引去执行。永远用 EXPLAIN 验证，不要靠记忆。 12 种失效场景1. WHERE 列上做函数 / 表达式1234567-- ❌ 索引失效SELECT * FROM users WHERE YEAR(created_at) = 2024;SELECT * FROM users WHERE id + 1 = 100;-- ✅ 改写：把函数挪到右边SELECT * FROM users WHERE created_at >= '2024-01-01' AND created_at < '2025-01-01';SELECT * FROM users WHERE id = 99; MySQL 8.0+ 支持函数索引：ALTER TABLE users ADD INDEX idx_year ((YEAR(created_at))) 2. 隐式类型转换123456-- 字段是 VARCHAR，传了 INT-- ❌ 走全表扫SELECT * FROM...

覆盖索引（Covering Index）

一句话覆盖索引 = 一个 SELECT 需要的所有字段，都能从二级索引里直接拿到，不需要回表。 EXPLAIN 显示 Using index 就是覆盖了。一、为什么需要覆盖InnoDB 的二级索引存的是主键值，不是数据行： 123456SELECT name FROM users WHERE age = 25;-- 走 idx_age 二级索引-- → 拿到主键 id 列表-- → 用 id 回到聚簇索引取整行 ← 这一步叫"回表"-- → 取出 name 回表 = 一次随机 IO。如果二级索引里直接就有 name，就省了这一步。二、用联合索引覆盖12345678-- ❌ 普通索引，需要回表ALTER TABLE users ADD INDEX idx_age (age);SELECT name FROM users WHERE age = 25;-- ✅ 覆盖索引，name 直接在索引里ALTER TABLE users ADD INDEX idx_age_name (age, name);SELECT name FROM u...

主键使用自增ID还是UUID?能说说原因吗？自增ID和UUID作为主键的考虑主要有两方面，一个是性能另一个就是存储的空间大小，一般没有特定的业务要求都不推荐使用UUID作为主键。因为使用UUID作为主键插入并不能保证插入是有序的，有可能会涉及数据的挪动，也有可能触发数据页的分裂，因为一个数据页的大小就是16KB，这样插入数据的成本就会比较高。而自增ID作为主键的话插入数据都是追加操作，不会有数据的移动以及数据页的分裂，性能会比较好。另一方面就是存储空间，自增主键一般整形只要4个字节，长整形才占8字节的大小空间，而使用UUID作为主键存储空间需要16字节的大小，会占用更多的磁盘，在二级索引中也会存出一份主键索引，这样多占用消耗的空间就是两倍，性能低，所以不推荐使用。自增id是连续的，插入过程也是顺序的，总是插入在最后，减少了页分裂，有效减少数据的移动。所以尽量不要使用字符串（如：UUID）作为主键。

因为可能我们索引的字段非常长，这既占内存空间，也不利于维护。所以我们就想，如果只把很长字段的前面的公共部分作为一个索引，就会产生超级加倍的效果。但是，我们需要注意，order by不支持前缀索引。流程是：先计算完整列的选择性 :select count(distinct col_1)/count(1) from table_1 再计算不同前缀长度的选择性 :select count(distinct left(col_1,4))/count(1) from table_1 找到最优长度之后，创建前缀索引 :create index idx_front on table_1 (col_1(4))

数据库三范式第一范式：1NF是对属性的原子性约束，要求属性具有原子性，不可再分解；第二范式：2NF是对记录的唯一性约束，要求记录有唯一标识，即实体的唯一性；第三范式：3NF是对字段冗余性的约束，即任何字段不能由其他字段派生出来，它要求字段没有冗余。范式化优点：可以尽量的减少数据冗余，使得更新快，体积小缺点：对于查询需要多个表进行关联，减少写的效率增加读的效率，更难进行索引优化反范式化优点：可以减少表的关联，可以更好的进行索引优化缺点：数据冗余以及数据异常，数据的修改需要更多的成本归纳方式第一范式第二范式第三范式约束原子性唯一性冗余性优点更新快体积小减少数据冗余缺点对于查询需要多个表进行关联减少写的效率增加读的效率更难进行索引优化 (反)优点可以减少表的关联可以更好的进行索引优化 - (反)缺点数据冗余以及数据异常数据的修改需要更多的成本 -

索引的类型

从存储结构上来划分： BTree索引（B-Tree或B+Tree索引）； Hash索引； full-index全文索引； R-Tree索引这里所描述的是索引存储时保存的形式从应用层次来分：主键索引；普通索引；唯一索引；复合索引(联合索引)；空间索引；根据中数据的物理顺序与键值的逻辑（索引）顺序关系：聚集索引(聚族索引)；非聚集索引(非聚族索引)；总结索引类型概念普通索引一个索引只包含一个列，一个表可以有多个单列索引唯一索引索引列的值必须唯一，但允许有空值复合索引多列值组成一个索引，专门用于组合搜索，其效率大于索引合并聚簇索引也称为主键索引，是一种数据存储方式。B+Tree结构，非叶子节点包含健值和指针，叶子节点包含索引列和行数据。一张表只能有一个聚簇索引。非聚簇索引不是聚簇索引，就是非聚簇索引。叶子节点只是存索引列和主键id。如果sql还要返回除了索引列的其他字段信息，需要回表，第一次索引一般是顺序IO，回表的操作属于随机IO。回表的次数越多，性能越差

评论