HDFS DataNode高密度存储机型的探索尝试

前言


随着公司业务的发展,我们需要存储越来越庞大的数据来支撑公司业务的发展。这里就涉及到了数据存储能力的问题,需要存储的数据越多,其实意味着我们需要更多的机器来扩增HDFS集群存储的总capacity。但是机器数量的变多另外一方面带来的则是机器费用成本的巨大开销。我们如何在保证机器开销前提下,最大程度提升单机器的存储能力,这个就成为了一个集群维护人员需要思考和解决的问题。鉴于这个出发点,笔者最近在研究调研新一代具有更高存储能力的机型,这期间笔者做了大量的场景设置和性能测试来判断此机型是否能达到集群的要求。本文笔者来聊聊这方面的内容。

存储新机型的选型


首先,存储新机型引入的缘由上面已经提及过,是出于机器硬件方面的成本考虑的。因为本身公司内部HDFS集群的机器数量已经达到一个相当大的规模量级,每年这方面的开销已经相当巨大。随着集群数据的进一步扩增,我们考虑的下一个方案是通过增大机器磁盘的存储来提升集群的总磁盘能力而不是通过加原有机器的方式来。

目前在我们集群中主要使用的有2类存储机型:12(盘数)*5T以及12 * 10T的机型。这两种机型目前也已经渐渐无法满足于我们集群的要求。于是我们在调研尝试选择另外一种更大存储能力的机型,在初步机型的选择上,有下面两类方向:

  • 方案一,盘数不变,大幅提升单盘存储空间,比如将12* 10T机型,增大到12*20T的机器。
  • 方案二,单盘存储不变,盘数变多,比如24(盘) * 10T。

上面两种方式单论总capacity来看,他们的总capacity其实是一样的。那么这个时候我们考虑的就是哪种方式对系统服务的影响最小了。在我们的使用场景里,这些

你可能感兴趣的:(Hadoop,HDFS,hadoop,big,data,hdfs)