可拓展性Hash

可拓展性Hash

前言

在数据库的索引中,一般有两种结构的实现方式,B+树的实现方式和基于Hash的索引方式。伴随着存储设备的不断降价,Hash表这种以空间换时间的策略也越来越受欢迎。比如在Mysql中就有B+树和Hash索引两种的实现方式。

Hash索引分为静态索引、可拓展性索引和线性索引三种方式。

静态索引就是直接对数据进行Hash分区存放,当数据超过可存放大小的时候,就采用溢出页的方式或者重建Hash的方式,消耗比较大,一般都不推荐。所以就剩下了两个选择,可拓展性索引和线性索引。本文主要介绍可拓展性索引。

介绍

为了理解可拓展性Hash,我们可以先想象静态Hash的使用。当一个Hash分区超过可存储容量的时候,除了溢出页,我们就只能将分区数扩大,重新建立Hash分区了,由于所有数据都要变化,所以这种消耗很大,可拓展性Hash就是为了解决这个问题而产生的。


上图就是一个基本的可拓展性Hash,初始化的时候,默认进行了四个分区,分别对应分区0-4。目录中包含了对每个分区的指向。当需要查询数据的时候,只需要简单的计算hash值,查看二进制的最后两位,就可以得到所在的hash分区。从而获取数据。上图中目录的全局深度和分区的局部深度都为2。

存储

正常情况下,数据插入的时候,只需要放入默认的分区即可。在此不在叙述。

当分区已经饱和的时候,需要进行分区分裂。

比如现在需要插入60。通过计算hash值,我们得出最后两位Hash值为00,所以需要放在第0个分区,但是分区已经放满了,而全局深度和00所在的局部深度一样,那么就说明全局分区数不足,需要进行全局分裂。

全局分裂的时候,首先将目录的全局深度+1,加1之后,我们在计算的时候,就应该取二进制的后三位,同时,目录数量加倍,这样,目录的数量就从4拓展到了8,完成了全局分裂。

这个时候,我们再来进行60的插入。由于该分区已满,所以就需要进行分区分裂,我们发现全局深度为3,大于局部分区,所以我们只需要建立一个新的分区分区4,重新进行分区0的数据分配。所以这个时候,我们对分区0中的数据和60都重新计算Hash值,并取hash最后三位。将数据放入符合的分区即可。

最后,我们再将目录中新创建的分区按照局部深度进行重新指向,未分裂的分区维持不变,新创建的目录也要重新分配指向,如下图所示:


删除

删除的时候,只需要删除对应的数据即可,分区数量和深度都不会发生改变,即使分区为空,也不会进行分区的合并。

后记

可拓展性hash算法适合于精确查找,不适合于范围查找。

如果由于数据倾斜或不均匀,个别分区不断的拓展,导致整个hash表不断的分裂,那么就需要调整Hash算法,来使得数据均匀分布。

你可能感兴趣的:(DataBase)