mysql-索引优化与查询优化

Mr.LR2022年6月6日

mysql

mysql

大约 26 分钟

mysql-索引优化与查询优化

都有哪些维度可以进行数据库调优？简言之：

索引失效、没有充分利用到索引——索引建立
关联查询太多JOIN（设计缺陷或不得已的需求）—-SQL优化
服务器调优及各个参数设置（缓冲、线程数等）——调整my.cnf
数据过多——分库分表

关于数据库调优的知识点非常分散。不同的DBMS，不同的公司，不同的职位，不同的项目遇到的问题都不尽相同。这里我们分为三个章节进行细致讲解。

虽然SQL查询优化的技术有很多，但是大方向上完全可以分成物理查询优化和逻辑查询优化两大块。

物理查询优化是通过索引和表连接方式等技术来进行优化，这里重点需要掌握索引的使用。
逻辑查询优化就是通过SQL等价变换提升查询效率，直白一点就是说，换一种查询写法执行效率可能更高。

1. 索引失效案例

MySQL中提高性能的一个最有效的方式是对数据表设计合理的索引。索引提供了访问高效数据的方法，并且加快查询的速度，因此索引对查询的速度有着至关重要的影响。

使用索引可以快速地定位表中的某条记录，从而提高数据库查询的速度，提高数据库的性能。
如果查询时没有使用索引，查询语句就会扫描表中的所有记录。在数据量大的情况下，这样查询的速度会很慢。

大多数情况下都（默认）采用B+树来构建索引。只是空间列类型的索引使用R-树，并且MEMORY表还支持hash索引。

其实，用不用索引，最终都是优化器说了算。优化器是基于什么的优化器？基于cost开销(CostBaseOptimizer)，它不是基于规则(Rule-BasedOptimizer)，也不是基于语义。怎么样开销小就怎么来。另外，SQL语句是否使用索引，跟数据库版本、数据量、数据选择度都有关系。

1.1 全值匹配我最爱

用没有索引的列查询

EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age=30;
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age=30 AND classId=4;
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age=30 AND classId=4 AND NAME = 'abcd';

1.2 最佳左前缀法则

在MySQL建立联合索引时会遵守最佳左前缀匹配原则，即最左优先，在检索数据时从联合索引的最左边开始匹配。

CREATE INDEX idx_age_classid_name ON student(age,classId,NAME);
//虽然我们创建的联合索引中有classId，但根据最佳左前缀法则，下面的sql没有最左字段age。因此，这个联合索引用不上
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.classid=1 AND student.name = 'abcd';
//或者我们只用了第一个和第三个字段，那么最终索引也只能用到第一个age,而name不走索引
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.age=30 AND student.name = 'abcd';

结论：MySQL可以为多个字段创建索引，一个索引可以包括16个字段。对于多列索引，**过滤条件要使用索引必须按照索引建立时的顺序，依次满足，一旦跳过某个字段，索引后面的字段都无法被使用。**如果查询条件中没有使用这些字段中第1个字段时，多列（或联合）索引不会被使用。

1.3 主键插入顺序

对于一个使用InnoDB存储引擎的表来说，在我们没有显示的创建索引时，表中的数据实际上都是存储在聚簇索引的叶子节点的。而记录又存储在数据页中的，数据页和记录又是按照记录主键值从小到大的顺序进行排序，所以如果我们插入的记录的主键值是依次增大的话，那我们每插满一个数据页就换到下一个数据页继续插，而如果我们插入的主键值忽小忽大的话，则可能会造成页面分裂和记录移位。

**1.4 计算、函数、类型转换(自动或手动)导致索引失效

CREATE INDEX idx_name ON student(NAME);

#此语句比下一条要好！（能够使用上索引）
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.name LIKE 'abc%';
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE LEFT(student.name,3) = 'abc';

CREATE INDEX idx_sno ON student(stuno);
EXPLAIN SELECT SQL_NO_CACHE id, stuno, NAME FROM student WHERE stuno+1 = 900001;//做了+1运算，用不上索引
EXPLAIN SELECT SQL_NO_CACHE id, stuno, NAME FROM student WHERE stuno = 900000;

1.5 类型转换导致索引失效

EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE NAME = 123; //name本身是字符串类型

EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE NAME = '123';

1.6 范围条件右边的列索引失效**

CREATE INDEX idx_age_classId_name ON student(age,classId,NAME);
//下面的sql我们看到 确实遵守了最佳左前缀法则 ，但是索引还是只能用到一个，原因classId用的范围查找，索引失效，因此name的索引也用不到
//解决办法，只能是重新建索引，(age,NAME,classId)。
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.age=30 AND student.classId>20 AND student.name = 'abc' ;
//注意：即使如下sql 后两个and交换位置也不行。只能新建索引
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE student.age=30 AND student.name = 'abc' AND student.classId>20;

应用开发中范围查询，例如：金额查询，日期查询往往都是范围查询。应将查询条件放置where语句最后。（创建的联合索引中，务必把范围涉及到的字段写在最后）

总结：其实由于mysql自带优化器的作用，我们的sql交换and的位置，没有任何意义，一般说把范围字段放在最左边，是指创建联合索引的最左边。

**1.7 不等于(!= 或者<>)索引失效

很好理解，不等于，只能全表扫描了。

1.8 is null可以使用索引，is not null无法使用索引

EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age IS NULL;//使用索引

EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age IS NOT NULL;//不使用索引

结论：最好在设计数据表的时候就将字段设置为 NOT NULL 约束，比如你可以将INT类型的字段，默认值设置为0。将字符类型的默认值设置为空字符串('')
拓展：同理，在查询中使用not like也无法使用索引，导致全表扫描

1.9 like以通配符%开头索引失效

EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE NAME LIKE 'ab%';//使用索引

EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE NAME LIKE '%ab%';//不使用索引

拓展：Alibaba《Java开发手册》
【强制】页面搜索严禁左模糊或者全模糊，如果需要请走搜索引擎来解决。

1.10 OR 前后存在非索引的列，索引失效

CREATE INDEX idx_age ON student(age);
CREATE INDEX idx_cid ON student(classid);
//如果只建立一个字段的索引，无法走索引，必须建立两个字段
EXPLAIN SELECT SQL_NO_CACHE * FROM student WHERE age = 10 OR classid = 100;

在WHERE子句中，如果在OR前的条件列进行了索引，而在OR后的条件列没有进行索引，那么索引会失效。也就是说，OR前后的两个条件中的列都是索引时，查询中才使用索引。

1.11 数据库和表的字符集统一使用utf8mb4

统一使用utf8mb4( 5.5.3版本以上支持)兼容性更好，统一字符集可以避免由于字符集转换产生的乱码。不同的字符集进行比较前需要进行转换会造成索引失效。

一般性建议：

对于单列索引，尽量选择针对当前query过滤性更好的索引
在选择组合索引的时候，当前query中过滤性最好的字段在索引字段顺序中，位置越靠前越好。
在选择组合索引的时候，尽量选择能够包含当前query中的where子句中更多字段的索引。
在选择组合索引的时候，如果某个字段可能出现范围查询时，尽量把这个字段放在索引次序的最后面。

总之，书写SQL 语句时，尽量避免造成索引失效的情况。

2. 关联查询优化

结论1：对于内连接来说，查询优化器可以决定谁来作为驱动表，谁作为被驱动表出现
结论2：对于内连接来讲，如果表的连接条件中只能有一个字段有索引，则有索引的字段所在的表会被作为被驱动表
结论3：对于内连接来说，在两个表的连接条件都存在索引的情况下，会选择小表作为驱动表。小表驱动大表

2.1 Simple Nested-Loop Join(简单嵌套循环链接)

算法相当简单，从表A中取出一条数据1，遍历表B，将匹配到的数据放到result..以此类推，驱动包A中的每一条记录与被驱动表B的记录进行判断。

当然mysql不会这么粗暴的进行表的连接，所以出现后面两种优化算法

2.2 Index Nested-Loop Join（索引嵌套循环连接）

Index Nested-Loop Join其优化的思路主要是为了减少内层表数据的匹配次数，所以要求被驱动表上必须有索引才行。通过外层表匹配条件直接与内层表索引进行匹配，避免和内层表的每条记录去进行比较，这样极大的减少了对内层表的匹配次数。

2.3Block Nested-Loop Join（块嵌套循环连接）

如果存在索引，那么会使用index的方式进行join，如果join的列没有索引，被驱动表要扫描的次数太多了。每次访问被驱动表，其表中的记录都会被加载到内存中，然后再从驱动表中取一条与其匹配，匹配结束后清除内存，然后再从驱动表中加载一条记录，然后把被驱动表的记录再加载到内存匹配，这样周而复始，大大增加了IO的次数。为了减少被驱动表的IO次数，就出现了Block Nested-Loop Join的方式。

也就是2.2方式存在的弊端，每次表A只能取一条数据，和表B进行比较，周而复始。因此引出2.3

不再是逐条获取驱动表的数据，而是一块一块的获取，引入了join buffer缓冲区，将驱动表join相关的部分数据列（大小受join buffer的限制）缓存到join buffer中，然后全表扫描被驱动表，被驱动表的每一条记录一次性和join buffer中的所有驱动表记录进行匹配（内存中操作），将简单嵌套循环中的多次比较合并成一次，降低了被驱动表的访问频率。

参数设置：

block_nested_loop

通过show variables like %optimizer_switch%'查看block_nested_loop状态。默认是开启的。

join_buffer_size

驱动表能不能一次加载玩，要看join buffer能不能存储所有的数据，默认情况下join_buffer_size = 256k。

注意：
这里缓存的不只是关联表的列，select后面的列也会缓存启动。（因此我们尽量不要写select *，否则会占用join buffer的空间）
在一个有N个join关联的sql中会分配N-1个join buffer。

2.4小结

1.整体效率比较：INNLJ>BNLJ>SNLJ

2.永远用小结果集驱动大结果集（其本质就是减少外层循环的数据数量）（小的度量单位指的是表行数*每行大小）

3.为被驱动表匹配的条件增加索引（减少内层表的循环匹配次数）

4.增大join buffer size的大小（一次缓存的数据越多，那么内层包的扫表次数就越少）

5.减少驱动表不必要的字段查询（字段越少，join buffer 所缓存的数据就越多）

2.5 Hash Join

从MySQL的8.0.20版本开始将废弃BNLJ，因为从MySQL8.0.18版本开始就加入了hash join默认都会使用hash join

Nested Loop：对于被连接的数据子集较小的情况下，Nested Loop是个较好的选择。
Hash Join是做大数据集连接时的常用方式，优化器使用两个表中较小（相对较小）的表利用Join Key在内存中建立散列值，然后扫描较大的表并探测散列值，找出与Hash表匹配的行。
- 这种方式适用于较小的表完全可以放入内存中的情况，这样总成本就是访问两个表的成本之和。
- 在表很大的情况下并不能完全放入内存，这时优化器会将它分割成若干不同的分区，不能放入内存的部分就把该分区写入磁盘的临时段，此时要求有较大的临时段从而尽量提高I/O的性能。
- 它能够很好的工作于没有索引的大表和并行查询的环境中，并提供最好的性能。Hash Join只能应用于等值连接，这是由Hash的特点决定的。

3. 子查询优化

子查询是 MySQL 的一项重要的功能，可以帮助我们通过一个 SQL **语句实现比较复杂的查询。但是，子查询的执行效率不高。**原因：

① 执行子查询时，MySQL需要为内层查询语句的查询结果建立一个临时表，然后外层查询语句从临时表中查询记录。查询完毕后，再撤销这些临时表。这样会消耗过多的CPU和IO资源，产生大量的慢查询。

② 子查询的结果集存储的临时表，不论是内存临时表还是磁盘临时表都不会存在索引，所以查询性能会受到一定的影响。

③ 对于返回结果集比较大的子查询，其对查询性能的影响也就越大。

**在MySQL中，可以使用连接（JOIN）查询来替代子查询。**连接查询不需要建立临时表，其速度比子查询要快，如果查询中使用索引的话，性能就会更好。

结论：尽量不要使用NOT IN 或者 NOT EXISTS，用LEFT JOIN xxx ON xx WHERE xx IS NULL替代

示例

#创建班级表中班长的索引
CREATE INDEX idx_monitor ON class(monitor);
show variables like '%optimizer_switch%';
#查询班长的信息
EXPLAIN SELECT * FROM student stu1
WHERE stu1.`stuno` IN (
SELECT monitor
FROM class c
WHERE monitor IS NOT NULL
);

EXPLAIN SELECT stu1.* FROM student stu1 JOIN class c
ON stu1.`stuno` = c.`monitor`
WHERE c.`monitor` IS NOT NULL;

#查询不为班长的学生信息
EXPLAIN SELECT SQL_NO_CACHE a.*
FROM student a
WHERE  a.stuno  NOT  IN (
         SELECT monitor FROM class b
         WHERE monitor IS NOT NULL);


EXPLAIN SELECT SQL_NO_CACHE a.*
FROM  student a LEFT OUTER JOIN class b
ON a.stuno =b.monitor
WHERE b.monitor IS NULL;

4. 排序优化

**问题：**在where条件字段加索引，但是为什么在order by字段上还要加索引？

回答：

在mysql中，支持两种排序方式，分别是FileSort 和index排序

index排序中，索引可以保持数据的有序性，不需要再进行排序，效率更高。
fileSort排序一般在内存中，占用cpu较多。如果待排序结果较大，会产生临时文件I/O到磁盘进行排序，效率较低。

优化建议：

SQL 中，可以在 WHERE 子句和 ORDER BY 子句中使用索引，目的是在 WHERE 子句中 避免全表扫描，在 ORDER BY 子句避免使用 FileSort 排序。当然，某些情况下全表扫描，或者 FileSort 排序不一定比索引慢。但总的来说，我们还是要避免，以提高查询效率。
尽量使用 Index 完成 ORDER BY 排序。如果 WHERE 和 ORDER BY 后面是相同的列就使用单索引列；如果不同就使用联合索引。
无法使用 Index 时，需要对 FileSort 方式进行调优。
部分场景不一定必须使用Index ，例如如果我们where过滤字段已经可以过滤掉大量数据了，则此时order by字段也没必要加索引了（反而会使性能变慢）。

案例

#创建索引
CREATE  INDEX idx_age_classid_name ON student (age,classid,NAME);
CREATE  INDEX idx_age_classid_stuno ON student (age,classid,stuno);

#不限制,索引失效 原因：select * 有回表的过程，因此sql优化器觉得此时还是用FileSort更好
EXPLAIN  SELECT SQL_NO_CACHE * FROM student ORDER BY age,classid;
# 只查询索引字段，则就会走索引
EXPLAIN  SELECT SQL_NO_CACHE age,classId FROM student ORDER BY age,classid;
#增加limit过滤条件，使用上索引了。
EXPLAIN  SELECT SQL_NO_CACHE * FROM student ORDER BY age,classid LIMIT 10;

不走索引案例

#order by时规则不一致, 索引失效 （顺序错，不索引；方向反，不索引）

EXPLAIN  SELECT * FROM student ORDER BY age DESC, classid ASC LIMIT 10;
EXPLAIN  SELECT * FROM student ORDER BY classid DESC, NAME DESC LIMIT 10;
EXPLAIN  SELECT * FROM student ORDER BY age ASC,classid DESC LIMIT 10;

FileSort 算法

排序的字段若如果不在索引列上，则filesort会有两种算法：双路排序和单路排序

双路排序（慢）

MySQL 4.1之前是使用双路排序，字面意思就是两次扫描磁盘，最终得到数据，读取行指针和order by列，对他们进行排序，然后扫描已经排序好的列表，按照列表中的值重新从列表中读取对应的数据输出
从磁盘取排序字段，在buffer进行排序，再从磁盘取其他字段。

取一批数据，要对磁盘进行两次扫描，众所周知，I0是很耗时的，所以在mysql4.1之后，出现了第二种改进的算法，就是单路排序。

单路排序（快）

从磁盘读取查询需要的所有列，按照order by列在buffer对它们进行排序，然后扫描排序后的列表进行输出，它的效率更快一些，避免了第二次读取数据。并自把随机IO变成了顺序10，但是它会使用更多的空间，因为它把每一行都保存在内存中了。

结论

由于单路是后出的，总体而言好多双路
但是单路有问题
- 在sort_buffer中，单路比多路要多占用很多空间，因为单路是把所有字段都取出，所以有可能取出的数据的总大小超出了sort_buffer的容量，导致每次只能取sort_buffer容量大小的数据，进行排序（创建tmp文件，多路合并），排完再取sort_buffer容量大小，再排.……从而多次1/0。
- 单路本来想省一次/0操作，反而导致了大量的I/0操作，反而得不偿失。

优化FileSort

1.尝试提高sort_buffer_size

不管用哪种算法，提高这个参数都会提高效率，要根据系统的能力去提高，因为这个参数是针对每个进程（connection）的1M-8M之间调整。MySQL5.7，InnoDB存储引擎默认值是1048576字节，1MB。

show variables like '%sort_buffer_size%'

2.尝试提高max_length_for_sort_data

提高这个参数，会增加用改进算法的概率

show variables like '%max_length_for_sort_data%'

但是如果设的太高，数据总容量超出sort_buffer_size的概率就增大，明显症状是高的磁盘/O活动和低的处理器使用率。如果需要返回的列的总长度大于max_length_for_sort_data，使用双路算法，否则使用单路算法。1024-8192字节之间调整

3.Order by select*是大忌

5. GROUP BY优化

group by 使用索引的原则几乎跟order by一致，group by 即使没有过滤条件用到索引，也可以直接使用索引。
group by 先排序再分组，遵照索引建的最佳左前缀法则
当无法使用索引列，可以增大max_length_for_sort_data和sort_buffer_size参数的设置
where效率高于having，能写在where限定的条件就不要写在having中了
减少使用order by，和业务沟通能不排序就不排序，或将排序放到程序端去做。Order by、group by、distinct这些语句较为耗费CPU，数据库的CPU资源是极其宝贵的。
包含了order by、group by、distinct这些查询的语句，where条件过滤出来的结果集请保持在1000行以内，否则SQL会很慢。

6. 优化分页查询

问题

一般分页查询时，通过创建覆盖索引能够比较好地提高性能。一个常见又非常头疼的问题就是limit 2000000，10，此时需要MySQL排序前2000010记录，仅仅返回2000000-2000010的记录，其他记录丢弃，查询排序的代价非常大。

explain select * from student limit 2000000,10;

优化思路一

在索引上完成排序分页操作，最后根据主键关联回原表查询所需要的其他列内容。

EXPLAIN SELECT * FROM student t,(SELECT id FROM student ORDER BY id LIMIT 2000000,10) a
WHERE t.id = a.id;

优化思路二

该方案适用于主键自增的表，可以把Limit 查询转换成某个位置的查询。

EXPLAIN SELECT * FROM student WHERE id > 2000000 LIMIT 10;

7. 优先考虑覆盖索引

7.1 什么是覆盖索引？

理解方式一：索引是高效找到行的一个方法，但是一般数据库也能使用索引找到一个列的数据，因此它不必读取整个行。毕竟索引叶子节点存储了它们索引的数据；当能通过读取索引就可以得到想要的数据，那就不需要读取行了。一个索引包含了满足查询结果的数据就叫做覆盖索引。

理解方式二：非聚簇复合索引的一种形式，它包括在查询里的SELECT、JOIN和WHERE子句用到的所有列（即建索引的字段正好是覆盖查询条件中所涉及的字段）。

简单说就是，索引列+主键包含SELECT 到 FROM之间查询的列。

7.2 覆盖索引的利弊

好处：

1. 避免Innodb表进行索引的二次查询（回表）

Innodb是以聚集索引的顺序来存储的，对于lnnodb来说，二级索引在叶子节点中所保存的是行的主键信息，如果是用二级索引查询数据，在查找到相应的键值后，需通过主键进行二次查询才能获取我们真实所需要的数据。

在覆盖索引中，二级索引的键值中可以获取所要的数据，避免了对主键的二次查询，减少了IO操作，提升了查询效率。

2. 可以把随机IO变成顺序IO加快查询效率

由于覆盖索引是按键值的顺序存储的，对于I0密集型的范围查找来说，对比随机从磁盘读取每一行的数据l0要少的多，因此利用覆盖索引在访问时也可以把磁盘的随机读取的IO转变成索引查找的顺序IO。

由于覆盖索引可以减少树的搜索次数，显著提升查询性能，所以使用覆盖索引是一个常用的性能优化手段。

弊端：

索引字段的维护总是有代价的。因此，在建立冗余索引来支持覆盖索引时就需要权衡考虑了。这是业务DBA，或者称为业务数据架构师的工作。

7.3特殊场景

如下案例，虽然是不等于，但是也用索引了

原因：当我们查的字段都是索引字段时（可避免回表），mysql优化器，自动会选择更好的方法，虽然是不等于，但是也会走索引。但如果查所有字段，就不走索引了。

EXPLAIN SELECT * FROM student WHERE age <> 20;//不走索引

EXPLAIN SELECT age,NAME FROM student WHERE age <> 20;//走索引

同理 like '%abs'也是一样的道理

EXPLAIN SELECT * FROM student WHERE NAME LIKE '%abc';

EXPLAIN SELECT id,age FROM student WHERE NAME LIKE '%abc';

8. 索引条件下推

Index Condition Pushdown（ICP）是MySQL5.6中新特性，是一种在存储引擎层使用索引过滤数据的优化方式。

如果没有ICP，存储引擎会遍历索引以定位基表中的行，并将它们返回给MySQL 服务器，由MySQL 服务器评估WHERE后面的条件是否保留行。
启用ICP后，如果部分WHERE条件可以仅使用索引中的列进行筛选，则MySQL服务器会把这部分WHERE条件放到存储引擎筛选。然后，存储引擎通过使用索引条目来筛选数据，并且只有在满足这一条件时才从表中读取行。
- 好处：ICP可以减少存储引擎必须访问基表的次数和MySQL服务器必须访问存储引擎的次数。
- 但是，ICP的加速效果取决于在存储引擎内通过ICP筛选掉的数据的比例。

举例

CREATE TABLE `people` (
  `id` INT NOT NULL AUTO_INCREMENT,
  `zipcode` VARCHAR(20) COLLATE utf8_bin DEFAULT NULL,
  `firstname` VARCHAR(20) COLLATE utf8_bin DEFAULT NULL,
  `lastname` VARCHAR(20) COLLATE utf8_bin DEFAULT NULL,
  `address` VARCHAR(50) COLLATE utf8_bin DEFAULT NULL,
  PRIMARY KEY (`id`),
  KEY `zip_last_first` (`zipcode`,`lastname`,`firstname`)
) ENGINE=INNODB AUTO_INCREMENT=5 DEFAULT CHARSET=utf8mb3 COLLATE=utf8_bin;

EXPLAIN SELECT * FROM people
WHERE zipcode='000001'
AND lastname LIKE '%张%'
AND address LIKE '%北京市%';

通俗的讲：如果没有ICP，存储引擎，通过zipcode查询后，就会进行回表，但是如果有ICP，存储引擎会继续根据where后面的索引列（lastname）筛选，都满足条件时，才从表中读取行。

8.1 使用前后的扫描过程

在不使用ICP索引扫描的过程：

storage层：只将满足index key条件的索引记录对应的整行记录取出，返回给server层

server 层：对返回的数据，使用后面的where条件过滤，直至返回最后一行。

使用ICP扫描的过程：

storage层：首先将index key条件满足的索引记录区间确定，然后在索引上使用index filter进行过滤。将满足的index filter条件的索引记录才去回表取出整行记录返回server层。不满足index filter条件的索引记录丢弃，不回表、也不会返回server层。

server 层：对返回的数据，使用table filter条件做最后的过滤。

8.2使用条件

如果表访问的类型为range、ref、eq_ref和ref_or_null可以使用ICP
ICP可以用于InnoDB和MyISAM表，包括分区表InnoDB和MyISAM表
对于InnoDB表，ICP仅用于二级索引。ICP的目标是减少全行读取次数，从而减少I/0操作。
当SQL使用覆盖索引时，不支持ICP。因为这种情况下使用ICP不会减少1/0。
相关子查询的条件不能使用ICP

9. 其它查询优化策略

9.1 EXISTS 和 IN 的区分

索引是个前提，其实选择与否还会要看表的大小。你可以将选择的标准理解为小表驱动大表。

比如：

SELECT * FROM A WHERE cc IN(SELECT cc FROM B)

SELECT * FROM A WHERE EXISTS(SELECT cc FROM B WHERE B.cc=A.cc)

当A小于B时，用EXISTS。因为EXISTS的实现，相当于外表循环，实现的逻辑类似于：

for i in A 
    for j in B
        if j.cc = i.cc then ...

当B小于A时用IN,因为实现逻辑类似于：

for i in B 
    for j in A
        if j.cc = i.cc then ...

哪个表小就用哪个表来驱动，A表小就用EXISTS，B表小就用IN

9.2 COUNT(*)与COUNT(具体字段)效率

问：在MySQL中统计数据表的行数，可以使用三种方式：SELECT COUNT（*）、SELECT COUNT（1）和SELECT COUNT（具体字段），使用这三者之间的查询效率是怎样的？

前提：如果你要统计的是某个字段的非空数据行数，则另当别论，毕竟比较执行效率的前提是结果一样才可以。

环节1：COUNT(*)和COUNT(1)都是对所有结果进行COUNT，COUNT(*)和COUNT(1)本质上并没有区别（二者执行时间可能略有差别，不过你还是可以把它俩的执行效率看成是相等的）。如果有WHERE子句，则是对所有符合筛选条件的数据行进行统计；如果没有WHERE子句，则是对数据表的数据行数进行统计。

**环节2：**如果是MyISAM存储引擎，统计数据表的行数只需要O(1)的复杂度，这是因为每张MyISAM的数据表都有一个meta信息存储了row_count值，而一致性则是由表级锁来保证的。

如果是InnoDB存储引擎，因为InnoDB支持事务，采用行级锁和MVCC机制，所以无法像MyISAM一样，维护一个row_count变量，因此需要采用扫描全表，是O(n)的复杂度，进行循环+计数的方式来完成统计。

**环节3：**在InnoDB引擎中，如果采用COUNT(具体字段)来统计数据行数，要尽量采用二级索引。因为主键采用的索引是聚簇索引，聚簇索引包含的信息多，明显会大于二级索引（非聚簇索引）。对于COUNT(*)和COUNT(1)来说，它们不需要查找具体的行，只是统计行数，系统会自动采用占用空间更小的二级索引来进行统计。

如果有多个二级索引，会使用key_len小的二级索引进行扫描。当没有二级索引的时候，才会采用主键索引来进行统计。

9.3 关于SELECT(*)

在表查询中，建议明确字段，不要使用 * 作为查询的字段列表，推荐使用SELECT <字段列表> 查询。原因：

① MySQL 在解析的过程中，会通过查询数据字典将"*"按序转换成所有列名，这会大大的耗费资源和时间。

② 无法使用覆盖索引

9.4 LIMIT 1 对优化的影响

针对的是会扫描全表的 SQL 语句，如果你可以确定结果集只有一条，那么加上LIMIT 1的时候，当找到一条结果的时候就不会继续扫描了，这样会加快查询速度。

如果数据表已经对字段建立了唯一索引，那么可以通过索引进行查询，不会全表扫描的话，就不需要加上LIMIT 1了。

9.5 多使用COMMIT

只要有可能，在程序中尽量多使用 COMMIT，这样程序的性能得到提高，需求也会因为 COMMIT 所释放的资源而减少。

COMMIT 所释放的资源：

回滚段上用于恢复数据的信息
被程序语句获得的锁
redo / undo log buffer 中的空间
管理上述 3 种资源中的内部花费

参考

【宋红康老师-MySQL数据库教程天花板】https://www.bilibili.com/video/BV1iq4y1u7vj?p=1open in new window

mysql-索引优化与查询优化

# mysql-索引优化与查询优化

# 1. 索引失效案例

# 1.1 全值匹配我最爱

# 1.2 最佳左前缀法则

# 1.3 主键插入顺序

# **1.4 计算、函数、类型转换(自动或手动)导致索引失效

# 1.5 类型转换导致索引失效

# 1.6 范围条件右边的列索引失效**

# **1.7 不等于(!= 或者<>)索引失效

# 1.8 is null可以使用索引，is not null无法使用索引

# 1.9 like以通配符%开头索引失效

# 1.10 OR 前后存在非索引的列，索引失效

# 1.11 数据库和表的字符集统一使用utf8mb4

# 一般性建议：

# 2. 关联查询优化

# 2.1 Simple Nested-Loop Join(简单嵌套循环链接)

# 2.2 Index Nested-Loop Join（索引嵌套循环连接）

# 2.3Block Nested-Loop Join（块嵌套循环连接）

# 2.4小结

# 2.5 Hash Join

# 3. 子查询优化

# 4. 排序优化

# FileSort 算法

# 5. GROUP BY优化

# 6. 优化分页查询

# 7. 优先考虑覆盖索引

# 7.1 什么是覆盖索引？

# 7.2 覆盖索引的利弊

# 7.3特殊场景

# 8. 索引条件下推

# 8.1 使用前后的扫描过程

# 8.2使用条件

# 9. 其它查询优化策略

# 9.1 EXISTS 和 IN 的区分

# 9.2 COUNT(*)与COUNT(具体字段)效率

# 9.3 关于SELECT(*)

# 9.4 LIMIT 1 对优化的影响

# 9.5 多使用COMMIT

# 参考

mysql-索引优化与查询优化

1. 索引失效案例

1.1 全值匹配我最爱

1.2 最佳左前缀法则

1.3 主键插入顺序

**1.4 计算、函数、类型转换(自动或手动)导致索引失效

1.5 类型转换导致索引失效

1.6 范围条件右边的列索引失效**

**1.7 不等于(!= 或者<>)索引失效

1.8 is null可以使用索引，is not null无法使用索引

1.9 like以通配符%开头索引失效

1.10 OR 前后存在非索引的列，索引失效

1.11 数据库和表的字符集统一使用utf8mb4

一般性建议：

2. 关联查询优化

2.1 Simple Nested-Loop Join(简单嵌套循环链接)

2.2 Index Nested-Loop Join（索引嵌套循环连接）

2.3Block Nested-Loop Join（块嵌套循环连接）

2.4小结

2.5 Hash Join

3. 子查询优化

4. 排序优化

FileSort 算法

5. GROUP BY优化

6. 优化分页查询

7. 优先考虑覆盖索引

7.1 什么是覆盖索引？

7.2 覆盖索引的利弊

7.3特殊场景

8. 索引条件下推

8.1 使用前后的扫描过程

8.2使用条件

9. 其它查询优化策略

9.1 EXISTS 和 IN 的区分

9.2 COUNT(*)与COUNT(具体字段)效率

9.3 关于SELECT(*)

9.4 LIMIT 1 对优化的影响

9.5 多使用COMMIT

参考