CalvinFS: Consistent WAN Replication and Scalable Metadata Management for Distributed File...——论文泛读

FAST 2015 Paper 元数据论文阅读汇总

问题

现有的文件系统,即使是存储数百PB数据的可伸缩系统,也会将文件元数据存储在单个服务器上,或通过共享磁盘架构,以确保元数据的一致性和有效性。

文件系统在可扩展性和跨数据中心实现方面还有不足。尽管已经开发了许多分布式文件系统以扩展到数千台计算机的集群,但由于在地理距离上提供期望的文件系统语义和工具(如线性化操作、分层访问控制、标准命令行工具等)的困难,这些系统无法以允许在整个数据中心发生故障时保持连续运行的方式进行WAN复制。

挑战

大多数现代分布式文件系统使用两种同步机制之一来管理元数据访问:

  • 采用专用于存储和管理所有元数据的特殊机器。GFS、HDFS、Lustre、Gluster、Ursa Minor、Farsite 和 XtreemFS 都是采用这种方法的文件系统的示例 [10, 21, 18, 1, 3, 4, 11]。这种系统的可扩展性明显受到元数据管理层的根本瓶颈的制约。

  • 采用协调所有并发访问的共享磁盘抽象。依赖于共享磁盘进行同步的文件系统包括 GPFS、PanFS 和 xFS [17, 26, 22]。这些系统通过多个磁盘进行数据复制以实现容错。它们依赖于在复制的磁盘之间实现极低的(RAID 本地或机架本地)同步延迟,以便有效地公开统一的磁盘地址空间。通过锁来同步多客户端的并发磁盘访问,这为热点文件引入了性能限制 [17]。在锁持有时间中引入WAN延迟同步时间,将显著增加这些限制的严重程度。

本文方法

本文描述了复制的、可扩展的文件系统——CalvinFS。

  • 在元数据管理层,将文件系统元数据水平分区,并复制到跨多个地理区域的无共享服务器集群中。跨多个文件或目录的文件系统操作被转化为分布式事务,并通过可扩展的分布式数据库系统的事务调度和复制管理层进行处理,以确保线性化更新的适当协调。

  • 能够支持标准的文件系统语义,包括在广域范围内,对同一文件的任意字节偏移进行并发的完全线性可用的随机写入。

  • 缺点是多文件操作需要分布式事务,延迟往往比传统的分布式文件系统更大。

我们演示了我们的文件系统设计方法可以扩展到数十亿个文件,处理每秒数十万次更新和数百万次读取,同时保持一致地低的读取延迟。此外,这样的部署可以在整个数据中心宕机时生存,只会有小的性能故障而不会丧失可用性。

总结

针对文件系统跨数据中心的可扩展性,现有方法无法实现跨地理距离的文件系统语义和工具。本文提出将元数据水平分区,并复制到跨地理区域的无共享服务器集群中,将文件系统操作转化成分布式事务,利用数据库系统进行事务调度和复制管理;通过数据库支持标准文件系统语义,优化单文件的并发写入。缺点是多文件操作需要分布式事务支持,导致延迟变高。

你可能感兴趣的:(论文阅读,论文阅读,元数据)