缓存 (cache) 是计算机中的一个经典的概念,在很多场景中都会涉及到。核心思路就是把一些常用的数据放到触手可及(访问速度更快的)地方,方便随时读取。
举个例子:
比如我需要去高铁站坐高铁,我们知道坐高铁是需要反复刷身份证的(进入高铁站,检票,上车,乘车过程中,出站……)。正常来说,我的身份证是放在皮箱里的(皮箱的存储空间大,足够能装)。但是每次刷身份证都需要开一次皮箱找身份证,就非常不方便。因此我就可以把身份证先放到衣服口袋里。口袋虽然空间小,但是访问速度比皮箱快很多。这样的话每次刷身份证我只需要从口袋里掏身份证就行了,就不必开皮箱了。此时“口袋”就是“皮箱”的缓存,使用缓存能够大大提高访问效率。
这里所说的“触手可及”是个相对的概念。我们知道,对于硬件的访问速度来说,通常情况下:CPU 寄存器 > 内存 > 硬盘 > 网络 。那么硬盘相对于网络是“触手可及”的,就可以使用硬盘作为网络的缓存;内存相对于硬盘是“触手可及”的,就可以使用内存作为硬盘的缓存;CPU 寄存器相对于内存是“触手可及”的,就可以使用 CPU 寄存器作为内存的缓存 。
对于计算机硬件来说,往往访问速度越快的设备,成本越高,存储空间越小。缓存是更快了,但是空间上往往是不足的。因此大部分的时候,缓存存放一些热点数据(访问频繁的数据),就非常有用了。
关于“二八定律”:20% 的热点数据,能够应对 80% 的访问场景。因此只需要把这少量的热点数据缓存起来,就可以应对大多数场景,从而在整体上有明显的性能提升。
在一个网站中,我们经常会使用关系型数据库(比如 MySQL)来存储数据。关系型数据库虽然功能强大,但是有一个很大的缺陷,就是性能不高(换而言之,进行一次查询操作消耗的系统资源较多)。
为什么说关系型数据库性能不高?
因此,如果访问数据库的并发量比较高,对于数据库的压力是很大的,很容易就会使数据库服务器宕机。
为什么并发量高了就会宕机?
服务器每次处理一个请求,都是需要消耗一定的硬件资源的。所谓的硬件资源包括不限于 CPU,内存,硬盘,网络带宽…… 一个服务器的硬件资源本身是有限的。一个请求消耗一份资源,请求多了,自然把资源耗尽了,后续的请求没有资源可用,自然就无法正确处理,更严重的还会导致服务器程序的代码出现崩溃。
如何让数据库能够承担更大的并发量呢?核心思路主要是两个:
实际开发中,这两种方案往往是会搭配使用的。
Redis 就是一个用来作为数据库缓存的常见方案。
Redis 访问速度比 MySQL 快很多。或者说处理同一个访问请求,Redis 消耗的系统资源比 MySQL 少很多。因此 Redis 能支持的并发量更大。
就像一个“护盾”一样,把 MySQL 给罩住了。
客户端访问业务服务器,发起查询请求。业务服务器先查询 Redis,看想要的数据是否在 Redis 中存在。
按照上述讨论的“二八定律”,只需要在 Redis 中放 20% 的热点数据,就可以使 80% 的请求不再真正查询数据库了。当然,实践中究竟是“二八”,还是“一九”,还是“三七”,这个情况可能会根据业务场景的不同,存在差异,但是至少绝大多数情况下,使用缓存都能够大大提升整体的访问效率,降低数据库的压力。
注意!缓存是用来加快“读操作”的速度的。如果是“写操作”,还是要老老实实写数据库,缓存并不能提高性能。
接下来还有一个重要的问题,到底哪些数据才是“热点数据”呢?
每隔一定的周期(比如一天/一周/一个月),对于访问的数据频次进行统计,挑选出访问频次最高的前 N% 的数据。
以搜索引擎为例:
用户在搜索引擎中会输入一个“查询词”,有些词是属于高频的,大家都爱搜(鲜花,蛋糕,同城交友,不孕不育…),有些词就属于低频的,大家很少搜。搜索引擎的服务器会把哪个用户什么时间搜了啥词,都通过日志的方式记录的明明白白。然后每隔一段时间对这期间的搜索结果进行统计(日志的数量可能非常巨大,这个统计的过程可能需要使用 hadoop 或者 spark 等方式完成),从而就可以得到“高频词表”。
这种做法实时性较低。对于一些突然情况应对的并不好。比如春节期间,“春晚”这样的词就会成为非常高频的词,而平时则很少会有人搜索“春晚” 。
先给缓存设定容量上限(可以通过 Redis 配置文件的 maxmemory 参数设定)。接下来把用户每次查询:
如果缓存已经满了(达到上限),就触发缓存淘汰策略,把一些“相对不那么热门”的数据淘汰掉。按照上述过程,持续一段时间之后 Redis 内部的数据自然就是“热门数据”了。
通用的淘汰策略主要有以下几种(下列策略并非局限于 Redis,其他缓存也可以按这些策略展开):
理解上述几种淘汰策略:
想象你是个皇帝,有后宫佳丽三千。虽然你是“真龙天子”,但是经常宠幸的妃子也就那么寥寥数人(精力有限)。后宫佳丽三千,相当于数据库中的全量数据。经常宠幸的妃子相当于热点数据,是放在缓存中的。今年选秀的一批新的小主,其中有一个被你看上了,宠信新人,自然就需要有旧人被冷落。到底谁要被冷落呢?
- FIFO:皇后是最先受宠的,现在已经年老色衰了,皇后失宠。
- LRU:统计最近宠幸时间,皇后(一周前),熹妃(昨天),安答应(两周前),华妃(一个月前),华妃失宠。
- LFU:统计最近一个月的宠幸次数,皇后 (3 次),熹妃 (15 次),安答应 (1 次),华妃 (10 次),安答应失宠。
- Random:随机挑一个妃子失宠。
这里的淘汰策略,我们可以自己实现。当然 Redis 也提供了内置的淘汰策略,也可以供我们直接使用。
Redis 内置的淘汰策略如下:
整体来说 Redis 提供的策略和我们上述介绍的通用策略是基本一致的,只不过 Redis 这里会针对“过期 key”和“全部 key”做分别处理。
什么是缓存预热?
使用 Redis 作为 MySQL 的缓存的时候,当 Redis 刚刚启动,或者 Redis 大批 key 失效之后,此时由于 Redis 自身相当于是空的,没啥缓存数据,那么 MySQL 就可能直接被访问到,从而造成较大的压力。因此就需要提前把热点数据准备好,直接写入到 Redis 中,使 Redis 可以尽快为 MySQL 撑起保护伞。
热点数据可以基于之前介绍的统计的方式生成即可。这份热点数据不一定非得那么“准确”,只要能前期帮助 MySQL 抵挡大部分请求即可,随着程序运行的推移,缓存的热点数据会逐渐自动调整,来更适应当前情况。
什么是缓存穿透?
访问的 key 在 Redis 和数据库中都不存在。此时这样的 key 不会被放到缓存上,后续如果仍然在访问该 key,依然会访问到数据库。这就会导致数据库承担的请求太多,压力很大。这种情况称为缓存穿透。
为何产生?
原因可能有几种:
如何解决?
关于布隆过滤器,在数据结构进阶,有具体介绍,此处就不再赘述。简单的说,布隆过滤器是结合了 hash + bitmap 的思想,能够用较少的空间,判定某个元素是否存在。
什么是缓存雪崩?
短时间内大量的 key 在缓存上失效,导致数据库压力骤增,甚至直接宕机。本来 Redis 是 MySQL 的一个护盾,帮 MySQL 抵挡了很多外部的压力。一旦护盾突然失效了,MySQL 自身承担的压力骤增,就可能直接被压垮。
为何产生?
大量的 key 失效,可能性主要有两种:
为啥会出现大量的 key 同时过期?
这种很可能是短时间内在 Redis 上缓存了大量的 key,并且设定了相同的过期时间。
如何解决?
什么是缓存击穿?
把 break down 翻译成“击穿”,个人以为并非是一个好的选择,容易和缓存穿透混淆。翻译成“崩碎”或者“崩溃”也许更合适一些。break down n. (机器的) 故障,损坏;(关系的) 破裂,(系统的) 崩溃;精神崩溃,(健康、体力等的) 衰竭;细分,分类;分解;跺脚曳步舞 。
相当于缓存雪崩的特殊情况,针对热点 key,突然过期了,导致大量的请求直接访问到数据库上,甚至引起数据库宕机。
如何解决?