向来痴_

论文阅读-Hydra: 用于持久内存和RDMA网络的分散文件系统

论文名称：Hydra: A Decentralized File System for Persistent Memory and RDMA Networks

摘要

新兴的字址持久内存（PM）有可能颠覆内存和存储之间的边界。结合高速RDMA网络，分布式基于PM的存储系统提供了通过紧密耦合PM和RDMA特性来实现存储性能大幅提升的机会。然而，现有的分布式文件系统采用为传统磁盘设计的传统集中式客户端-服务器架构，导致访问延迟过高、可扩展性有限且恢复开销高。本文提出了一种完全去中心化的基于PM的文件系统——Hydra。通过利用本地PM的性能优势，Hydra利用数据访问局部性实现高性能。为加速Hydra节点间的文件传输，文件元数据和数据通过单边RDMA读取进行分离更新。Hydra还对RDMA请求进行批处理，并将RPC分类为同步和异步类型，以最小化网络开销。去中心化使Hydra能够容忍节点故障并实现负载均衡。实验结果表明，Hydra在多线程和并行工作负载上表现出色，明显优于现有的分布式文件系统。

关键词——持久内存、文件系统、RDMA、分布式系统、去中心化

1 引言

新兴的持久内存（PM），如英特尔Optane DC持久内存模块（Optane DCPMM），正在模糊内存和存储之间的界限。字址可寻址、非易失性的PM使应用程序能够直接访问主内存中的持久数据。与传统存储设备（如硬盘驱动器或固态硬盘）相比，PM提供接近DRAM的访问延迟和带宽。支持PM的存储系统承诺显著提高应用程序性能。

近年来，远程直接内存访问（RDMA）技术的进步使程序员能够构建有效的分布式存储系统，将PM存储和RDMA网络结合起来。RDMA是一种内存访问技术，使网络接口卡（NIC）能够直接访问远程存储器。已经提出了几种基于PM的分布式文件系统，旨在利用PM和RDMA网络的优势。与基于磁盘的分布式文件系统不同，这些文件系统在服务器节点上安装PM以存储元数据和数据，并紧密耦合PM和RDMA特性以实现高性能和可靠性。对于元数据和数据管理，这些文件系统采用传统的集中式客户端-服务器架构，使用主内存作为客户端的易失性缓存。在文件访问时，文件元数据和数据从远程服务器获取到本地客户端的内存缓冲区，以响应I/O请求。

然而，传统的集中式客户端-服务器架构在利用PM和RDMA网络在基于PM的分布式文件系统中的全部潜力方面存在不足。首先，与传统基于磁盘的分布式系统相比，基于PM的分布式存储系统的主要性能瓶颈已从存储转移到网络。与历史趋势相反，预期网络延迟将远高于可见未来的PM延迟，这是由于传播延迟和网络往返引起的。本地PM I/O比通过RDMA网络的远程访问大大减少访问延迟。其次，集中式客户端-服务器架构限制了系统的可扩展性。集中式服务器简化了客户端之间的协调，但以牺牲扩展性为代价。当服务器运行在真实的Optane DCPMM上时，问题变得更加严重，因为其I/O性能无法随线程数良好扩展。第三，客户端端的DRAM缓存增加了服务器的成本，并在客户端节点断电或系统故障时引入了高恢复开销。Optane DCPMM的每GB成本仅约为DRAM的39%。此外，基于DRAM的客户端节点必须在恢复期间从头开始重建来自远程服务器的元数据和数据缓存，这会增加恢复开销以及服务器负载。

PM和RDMA技术的独特特性为将单个存储服务器上的本地PM感知文件系统连接到一个机架规模的文件系统集群提供了机会，其中文件元数据和数据在集群节点之间分解，并通过高速RDMA网络连接。在每个集群节点上，文件数据被本地且持久地存储，允许应用程序在运行时利用本地PM的高性能和大容量，并在系统崩溃后快速恢复。然而，在应用端集群节点上使用PM作为持久性存储提出了一系列挑战。不同集群节点上陈旧和最新文件副本之间的同步应该高效且可扩展。去中心化的文件系统集群应该能够优雅地容忍任意节点故障，并在运行时平衡负载。

我们提出了Hydra，一个旨在通过充分利用直接可访问的持久内存和高速RDMA网络来提高可扩展性和容错性的去中心化文件系统。Hydra是第一个分布式持久内存文件系统，在设计过程中系统地优化可扩展性。与严格将存储服务器与客户端分开的传统范例不同，Hydra将它们组合成一组装备了PM的节点，并通过RDMA网络连接它们以形成去中心化文件系统集群。Hydra通过充分利用本地PM的性能优势来最小化I/O延迟，利用数据访问局部性。为加速节点间的文件传输，Hydra提出了不同的文件更新方案，通过单边RDMA读取从远程节点差异传输文件元数据和数据。为实现负载平衡，文件元数据和数据被动态分解和复制到Hydra节点中。Hydra还引入了RDMA请求批处理和RPC分类机制，以发挥RDMA网络的全部潜力，以最小化文件元数据和数据传输的开销。此外，Hydra支持在线节点添加和删除，提供高弹性和灵活性。

本文的贡献包括：

我们提出了Hydra，一个完全去中心化的分布式文件系统，充分利用本地持久内存上的数据局部性来实现高可扩展性、高可用性和崩溃一致性。
我们设计了差异文件更新方案，通过单边RDMA读取通过差异方式传输文件元数据和数据，加速文件传输和节点恢复。
我们描述了Hydra如何容忍任意节点故障并在集群节点之间平衡负载。
我们实现并评估了Hydra。实验结果表明，Hydra在多线程和并行工作负载上表现出良好的可扩展性，并明显优于现有的分布式文件系统。本文的余下部分组织如下。第2节介绍了PM感知文件系统和RDMA网络的背景。第3节介绍了Hydra的设计概览。我们在第4、5和6节分别描述了文件传输机制、集群管理和RDMA优化技术。实验结果在第7节中呈现。第8节讨论了相关工作，第9节总结了本文。

2 背景和动机

Hydra 是一个专为 PM 和 RDMA 网络设计的分布式文件系统。本节介绍了 PM、Hydra 基于的 NOVA 文件系统以及 RDMA 技术的背景。我们最后阐述了需要一个全面去中心化的新型分布式 PM 文件系统的动机。

2.1 PM 和 PM-Aware 文件系统

持久内存（如 STT-RAM、ReRAM 和 PCM）提供数据持久性、字节可寻址性，以及接近 DRAM 的访问延迟和带宽。持久内存直接连接到主内存总线旁边的 DRAM，并且可以通过加载/存储接口进行访问。英特尔 Optane DCPMM 是第一个商用可用的持久内存 DIMM。

PM 的高性能和非易失性吸引了过去十年对本地 PM-aware 文件系统的广泛研究。其中，NOVA 是一种最大化性能并提供强一致性保证的基于 PM 的先进文件系统。NOVA 使用每个 CPU 的空闲列表、日志和索引节点表来确保良好的多核可伸缩性。对于每个文件，NOVA 在 PM 中维护一个单独的日志，其中包含一个 4KB 的日志页面的单链表。索引节点、其日志和数据页面之间的关系如图 1 所示。索引节点中的尾指针指向日志中最新提交的条目。对于每次文件更新，NOVA 在其日志中创建相应的日志条目，并原子性地更新 PM 中的日志尾指针。为了加速文件访问，NOVA 在 DRAM 中维护一个基数树，将文件偏移映射到 PM 中的数据页面地址。

NOVA和Hydra的文件结构。文件日志包含inode更新条目和文件写入条目。这些文件写入条目包含指向数据页面的指针。

由于 NOVA 充分利用了 PM 的性能优势和 CPU 的多核可伸缩性，其基于日志结构的文件设计自然适合 Hydra 的线性化的差异文件更新方案，我们基于 NOVA 实现了 Hydra。具体来说，Hydra 继承了来自 NOVA 的日志结构文件布局和可扩展内存分配器的设计。在 Hydra 中，头指针和尾指针也用于通过链表维护连接的文件日志。过时的文件可以通过传输和重放差异文件日志与其最新版本同步。然而，我们还对日志条目的内容进行必要的调整，以使 Hydra 能够管理分布式集群节点上的日志和数据页面。Hydra 还在每个 CPU 上维护一个索引节点表、日志和 PM 空闲页面列表，以避免全局锁定。这有助于 Hydra 避免在每个集群节点上出现可伸缩性瓶颈。

2.2 远程直接内存访问

RDMA 通过直接访问远程服务器的内存提供低延迟和高带宽的远程内存访问。在可靠连接（RC）模式中，节点通过一对发送/接收队列（队列对，QP）连接。应用程序通过向发送队列中放置工作队列条目（WQE）来发起 RDMA 请求。完成 RDMA 请求后，网络适配器通过向完成队列（CQ）发布完成队列条目（CQE）来信号完成。应用程序可以通过轮询 CQ 来接收请求已成功完成的通知。

RDMA 支持读/写操作（单边动词）以及两个节点之间的发送/接收操作（双边动词）。单边动词通过直接访问远程主机暴露的预注册内存区域来提供更高的吞吐量，而无需通知主机 CPU。对于双边动词，远程 CPU 参与处理 RDMA 请求。此外，RDMA 还提供原子动词，如比较交换（CAS）和获取增加（FAA），以原子方式更新远程内存中的 64 位数据。现有基于 RDMA 的 RPC 请求通过单边动词或双边动词发送。通过单边动词发送的请求写入服务器上的专用消息缓冲区。服务器线程忙于检查消息缓冲区以查看新请求到达情况。这种设计提供了低延迟的 RPC 处理，但会造成高服务器 CPU 开销，这不适合可扩展的去中心化系统。Hydra 采用双边动词来实现其 RPC，以消除接收方忙碌消息检查的成本，从而在集群节点之间平衡负载。

2.3 分布式 PM 文件系统中的挑战

新兴的高性能 PM 和 RDMA 技术都是高性能分布式存储系统的吸引人组件。将这些硬件技术纳入分布式文件系统中在系统可扩展性、访问延迟和容错性方面提出了新挑战。

系统可扩展性。在传统的客户端-服务器架构中，集中式的元数据节点用于处理整个集群中的元数据访问。即使采用了复制和分区等技术，元数据节点仍然容易受到来自大量并发访问的文件访问倾斜的影响。此外，由于 RDMA 网络适配器的内存有限，随着活动 QP 数量的增加，其可扩展性下降，导致文件系统无法在重负载下提供可扩展的元数据服务。

访问延迟。与传统分布式文件系统组件（如硬盘和以太网）相比，PM 和 RDMA 网络提供了更高性能，暴露了存储栈内的延迟瓶颈。在客户端，用户、内核和网络缓冲区中的过多数据复制大幅增加了远程数据访问的延迟。在服务器端，传统的 RPC 处理程序在请求处理过程中引入了大量 CPU 开销。此外，文件数据通常以粗粒度传输，而 PM 和 RDMA 网络支持字节可寻址数据访问，导致严重的写放大和增加的数据访问延迟。

容错性。分布式文件系统应该能够容忍系统故障，同时保持文件数据和元数据的高可用性。分布式文件系统的潜在故障包括集群节点故障和网络分区。然而，采用集中式客户端-服务器架构的分布式文件系统容易受到这两者的影响。尽管一些文件系统通过复制方法提高了可用性，但它们仍然在故障切换期间遭受高文件访问延迟和暂停文件服务的影响。

分布式 PM 文件系统需要新方法来改善系统可扩展性，最小化访问延迟，并优雅地容忍故障。因此，我们提出 Hydra，一个充分利用持久内存和高速 RDMA 网络独特特性的全面去中心化 PM 文件系统。

3 设计概述

Hydra是针对配备PM和RDMA网络的服务器集群构建的。图2总结了其高级设计组件，并概述了Hydra系统的概况。在Hydra中，文件更新的典型I/O工作流程包括四个阶段：（1）权限检查阶段。Hydra通过轻量级分布式锁模块获取写权限。去中心化文件锁通过低开销的RDMA原子操作进行传输（第4.3节）。（2）文件同步阶段。每个Hydra节点都以日志结构的布局管理其本地文件。为了获取最新的文件元数据和数据，或处理来自远程节点的复制请求，Hydra利用差异文件更新方案（第4.2节）通过单边RDMA读取高效地传输差异文件日志。（3）本地I/O阶段。Hydra使用本地节点上的最新文件数据为I/O请求提供服务，利用数据局部性实现高性能。文件更新后，新的日志条目被附加到文件日志中。（4）数据传输阶段。Hydra向远程节点发出RPC请求以提交更新。为了减少网络开销并提供可扩展的性能，Hydra采用RDMA请求批处理和RPC分类机制（第6.1节）。

Hydra的架构。Hydra充分利用本地PM的访问局部性和通过差分文件更新实现高效文件传输，从而为应用程序提供高可扩展性和可用性。

此外，Hydra通过利用差异文件更新方案实现了系统崩溃后的快速恢复（第5.1节）和负载均衡期间的高效迁移（第5.2节）。Hydra还在每个集群节点上提供了正常的POSIX接口，并支持在运行时动态添加或删除集群节点，为应用程序提供了高弹性和灵活性。总体而言，Hydra实现了以下设计目标：

可扩展的性能：多核和多节点的可伸缩性对于Hydra充分发挥PM和RDMA网络的性能优势至关重要。Hydra通过将文件数据放置在应用程序侧的PM中利用数据局部性来提高整体性能，并通过采用RDMA请求批处理和RPC分类机制实现多节点可扩展性。
低开销的文件传输：Hydra利用文件日志的线性一致性来实现差异文件更新，在集群节点之间同步过时的文件。文件通过单边RDMA读取在节点之间差异化同步，从而加速文件传输并消除远程CPU瓶颈。
高可靠性和可用性：文件元数据和数据在所有去中心化的Hydra节点之间进行动态复制，使Hydra能够在没有数据丢失的情况下容忍节点故障。在节点故障的情况下，应用程序可以故障转移至集群中的任何其他节点。
轻量级的一致性机制：由于没有中央元数据服务器来调节并发文件更新，我们使用锁令牌来授予文件粒度的写权限，以协调Hydra集群中的同时文件访问。令牌通过本地/RDMA的比较和交换（CAS）操作进行简单交换，最大限度地减少了一致性开销。
高弹性：Hydra支持在运行时动态添加或删除集群节点，为应用程序提供高弹性和灵活性。

为实现这些设计目标，与传统的分布式文件系统严格区分集群管理节点、元数据服务器节点、数据服务器节点和客户端节点不同，Hydra将它们的功能结合到一个单一的去中心化文件系统模块中。在文件访问时，Hydra通过直接在本地PM上执行文件I/O来利用局部性。如果本地文件过期或不存在，Hydra将差异化地更新文件为集群中的最新版本。至于复制，Hydra中的每个文件默认具有至少两个副本（主副本和辅助副本）的元数据和数据，分布在集群节点之间。这使得Hydra能够容忍任意单个节点故障而不会丢失数据。

4 文件传输

在本节中，我们描述了Hydra如何显著加速集群节点之间的文件传输。首先，我们说明了Hydra如何差异化地更新文件元数据和数据。然后，我们讨论了Hydra如何在集群节点之间保持一致性。最后，我们通过一些典型的目录和文件操作示例总结了Hydra的设计。

4.1 分布式文件管理

如图3所示，Hydra没有集中式管理节点。相反，从每个文件的视角来看，Hydra在集群节点之间有三种类型的文件副本分布。

Hydra集群的全局和本地视图。在Hydra集群上创建目录和文件之后（步骤1-4），每个节点包含整个文件集的一部分，但集群中的所有文件对每个节点都是可访问的。对于新连接的节点，Hydra会创建辅助副本以便于目录和文件的访问（步骤5和6）。

主要副本是文件的权威副本。在Hydra中，每个文件都有一个主要副本，它是同步更新的。主要副本具有文件的最长元数据日志，以及完整的文件数据副本。默认情况下，创建文件的节点被指定为其主节点。主节点的标识存储在inode中，它可能会因迁移（在负载平衡期间）或主要选举（在节点故障时）而发生变化。在这些情况下，Hydra将另一个节点指定为主节点，并通过RPC向所有相关节点广播消息。

次要副本是文件的复制副本。持有次要副本的节点是在文件创建时（第5.2节）通过二次选择算法的变体确定的。除非调用fsync来同步文件，否则次要副本是异步更新的。用户设置次要副本的数量。默认情况下，在Hydra集群中每个文件有一个次要副本。

辅助副本是文件的额外副本。当文件被复制到Hydra节点时，文件本身和其父目录必须与其他节点同步，以保持本地文件系统视图的目录树结构。如果本地节点当前没有文件/目录的主要或次要副本，Hydra将创建其辅助副本。这确保每个Hydra节点能够通过目录树遍历检索其所有本地文件，并且即使Hydra集群中的所有其他节点都丢失，它也可以像本地文件系统一样运行。在节点的PM使用率很高时，将以LRU方式逐出这些文件的副本。这些副本将在下次访问文件时从主/次要节点检索。

Hydra为应用程序提供了高可用性。如图3的第4步所示，在Hydra的集群节点中，文件及其副本是分布在集群节点中的。每个节点只包含整个文件集的一部分，但Hydra集群中的所有文件对每个节点都是可访问的。本地节点上过期或不存在的文件的辅助副本仅在其被访问时与最新版本同步。从每个文件的视角来看，我们将持有文件主/次要副本的节点称为文件的主/次要节点。

Hydra节点使用唯一的8位全局ID进行标识，默认情况下通过对节点的RDMA地址进行哈希生成。Hydra集群中的所有节点定期通过心跳消息进行通信。心跳消息包含当前CPU、网络和PM使用情况，用于负载平衡。

4.2 差异化文件更新

Hydra使用差异化文件更新方案（diff-update）来更新本地节点上陈旧（或不存在）的文件/目录，使其与远程节点的最新版本同步。如图2所示，Diff-update在Hydra中被广泛应用于在各种场景中传输目录和文件。因此，差异化更新的本地和远程传输开销对于Hydra集群的整体性能和可扩展性至关重要。我们在本节中介绍了差异化更新涉及的步骤。

文件版本验证。在从远程节点拉取元数据和数据之前，Hydra首先通过本地和远程验证来验证本地文件（或目录）的版本是否是最新的或陈旧的。首先，Hydra检查本地节点是否是文件的主节点或令牌持有者（第4.3节）。由于任何已提交的修改都会在主节点中得到反映，且只有令牌持有者才能修改文件，因此无论是令牌持有者还是主节点的文件内容都是最新的。

如果本地验证失败，Hydra会转向远程验证。Hydra向主文件副本的文件元数据发出小型RDMA读取，以检索日志页数以及头部和尾部指针（图4的第1步）。头部指针用于指示文件日志的起始点，而尾部指针用于计算文件的日志长度。如果本地日志长度与远程日志长度匹配，则本地文件是最新的。这是因为Hydra通过锁令牌（在第4.3节讨论）协调文件锁定。对于任何文件，只有一个节点能够修改它并增加其日志长度。因此，最新的文件版本是具有最长日志长度的节点的文件副本。如果本地文件是最新的，则整个同步过程只需要一个网络往返。否则，本地文件已经过时。Hydra启动差异元数据和数据更新过程。

差异文件更新。本地（目标）节点与远程（源）节点同步，以不同的方式将本地陈旧文件副本更新到最新版本。

在Hydra中，日志长度通过比较日志页数和尾部指针的偏移量来计算。如图1所示，日志页数是最后一个日志页的逻辑数量。因此，逻辑日志长度实质上等同于Hydra中每个文件的版本号。当向文件分配新的日志页时，日志页数会增加一。在垃圾回收期间，将回收仅包含无效日志的旧日志页。但是，逻辑日志页数不会减少。如果本地和远程日志页数匹配，则Hydra比较尾部指针的页内偏移量，以准确比较日志长度。

元数据更新。Hydra继承了NOVA的日志结构文件设计来组织文件元数据和数据。在Hydra中，通过从源节点向目标节点传输差异化文件日志来实现元数据更新。由于拥有文件最新版本的源节点通常在文件复制过程中成为瓶颈，因此我们选择使用RDMA读取来进行元数据和数据更新，而不是使用RDMA写入。对于源节点来说，单边RDMA读取不仅绕过了其CPU，服务于入站RDMA读取也比发出出站RDMA写入造成的开销小[31]。

如图4所示，在远程验证后，本地缓存了开始和结束日志页的地址。结合两个节点上的页数，Hydra能够计算与本地节点上当前日志尾部匹配的远程节点上相应日志地址。然后，本地节点通过RDMA读取请求拉取当前日志尾部之后的差异日志，更新日志尾部。Hydra递归地拉取后续的日志页（如果有任何），使用当前日志页中的下一页指针，直到本地日志长度与远程日志长度匹配。

当日志页被获取后，Hydra会回放本地节点上的日志以更新元数据。例如，文件模式更改日志会直接应用，而文件写日志会通过使用DRAM中的本地/远程数据页指针来回放，更新文件基数树。

在元数据更新期间，根据请求类型，文件数据可以选择性地进行更新。例如，文件同步侧重于数据完整性，并调用具有数据更新的diff-update。同时，文件打开追求快速日志复制，因此省略了数据更新。在这种情况下，本地数据日志仍然包含对其他Hydra节点上的远程数据的有效指针（即图4中的黑色箭头），可以在未来访问时用于检索文件数据。可选的数据更新通过延迟数据传输来降低diff-update的延迟。

数据更新。如果本地节点在元数据更新时请求数据更新，数据页将通过批量RDMA读取来获取以减少传输开销。在重放文件写日志时，Hydra在本地PM上分配数据页，并异步发出相应的RDMA读取请求以从远程节点获取数据页。在Hydra中，每个文件写日志包含八个全局数据指针槽。每个全局指针封装了一个节点ID（8字节）和保存数据的当前主/次要节点的数据页地址（56字节）。对于数据更新，Hydra会扫描有效地址的指针槽，并选择网络负载最小的节点来传输数据。在数据传输过程中，Hydra会解封全局节点ID和远程页面的逻辑地址，并通过RDMA进行远程内存访问。之后，Hydra会更新日志中的本地数据页地址（即图4中的灰色箭头）。当所有新拉取的日志被重放后，Hydra会拉取CQ以完成文件数据页的批量RDMA读取请求的完成。

目录更新。在差异化更新过程中，目录被视为没有数据的仅为日志的文件。文件创建/删除日志通过将相应的目录项添加到/从其DRAM缓存中重新播放。请注意，在目录中的文件创建日志中，新创建的子文件实际上并没有通过日志重放在本地节点上创建。只有当它们被访问时，它们的相应目录项才会插入到目录中。新创建的子文件仅在被访问时在本地创建并同步。

Hydra采用了一种懒惰的文件同步方法，只在需要时更新底部目录路径上的过时目录。如图3的第4步所示，要在节点4上的目录C中创建文件D，C将与其主节点（即节点3）同步。由于目录C是最新的，递归同步已完成。然后，文件D可以在节点4上本地创建。请注意，目录A和文件B在创建文件D时没有涉及。

通过目录树遍历和按需递归目录更新，懒惰的文件同步方法还确保了Hydra集群中的所有文件对每个Hydra节点都是可访问的。通过解耦目录和其子文件，Hydra消除了在节点之间交换冗余文件修改和目录结构信息的重要通信开销。

一致性保证。在元数据和数据同步完成后，Hydra会更新本地持久内存中文件inode中的日志页数和日志尾部指针，以完成diff-update（图4的第4步）。由于日志尾部指针更新是一个原子操作，因此diff-update的一致性是得到保证的。

文件复制。差异更新促进了Hydra中的高效文件复制。为了启动文件复制，主节点向次要节点发送异步RPC请求（第6.1节）。然后，它同时且异步地处理由次要节点发出的diff-update的入站RDMA读取请求。（除非应用程序调用fsync，强制文件复制同步完成。）当diff-update完成时，次要节点将向主节点发送异步RPC请求以更新全局指针槽。之后，其他节点可以从主节点或次要节点中获取文件数据。相比之下，传统的主复制使用同步的出站RDMA写入和串行链复制方法，导致更高的延迟和更低的可扩展性。

差异更新方法提供了三个主要优势：首先，传输差异文件日志显著降低了传输开销。差异更新使Hydra能够合并打包文件日志中的重复更改，以提高传输效率。其次，处理从目标节点发出的单边RDMA读取消除了源节点的CPU瓶颈，提供了更高的可扩展性。第三，通过解耦文件元数据（日志）和数据，可以通过仅更新元数据到最新版本来同步文件，从而降低文件访问的关键路径延迟。

4.3 分散式分布式锁定

由于大多数数据中心工作负载主要是只读的[32]，Hydra在集群中的所有节点之间支持多个读取者和单个写入者。Hydra使用锁令牌在节点之间协调文件锁。每个文件只有一个全局锁令牌，用于授予对文件副本的某个写入许可。锁令牌由文件的主节点管理。

我们使用一种轻量级的基于令牌的锁定机制，并使用原子操作来最小化令牌传输开销。最初，主节点上的文件锁令牌字段的值被设置为零。为了获取锁令牌，主/非主节点向主节点上的锁令牌发出本地/RDMA比较并交换（CAS）请求。如果成功获取锁令牌，则将主节点上的锁令牌值与节点的唯一8位全局ID交换。当释放锁令牌时，其值将被重置为零。

为了减少节点之间的网络通信量，我们采用一种惰性令牌传输方法。在Hydra中，主节点不会主动撤销锁令牌。相反，当本地节点上的写操作无法获取锁令牌时，CAS操作将返回当前持有令牌的节点ID。在这种情况下，本地节点通过最近的心跳消息确定令牌持有者节点是否存活。如果令牌持有者节点存活，则本地节点将向该节点发送同步RPC消息，然后重试CAS请求，直到锁被释放。接收到消息后，令牌持有者节点将在其待处理的写操作完成后将主节点上的锁令牌值重置为零。如果令牌持有者节点或主节点宕机，本地节点将启动主节点选举（第5.1节）以恢复分布式锁。

与非令牌持有者节点相比，令牌持有者节点在两个方面有所不同。首先，文件在令牌持有者节点上的读取和写入权限都可以由其读写信号量授予，而非令牌持有者节点只能授予读取权限。其次，为了避免不一致的日志，文件的垃圾收集只能在令牌持有者节点上执行。其他节点将从最新的经过垃圾收集的文件副本同步文件日志和数据。

4.4 目录和文件操作

应用程序通过POSIX接口访问Hydra中的目录和文件。在本节中，我们将展示Hydra如何处理对目录（dir）中的文件（file）的目录操作以及对文件的文件操作。请注意，文件可以是目录操作示例中的子文件或子目录。

文件创建。文件创建涉及将新的目录条目（dentry）追加到dir，以及创建文件的元数据。为了追加新的dentry，本地Hydra节点首先通过获取dir的锁令牌来获得向dir插入新dentry的权限，然后调用diff-update来将dir与其主节点同步。

在文件在本地节点上创建后，Hydra向dir的主节点发出RPC请求，通知新插入的dentry，除非本地节点本身就是dir的主节点。主节点将dir与本地节点同步，重放创建文件的新日志，然后回复给本地节点。之后，主节点会异步发出RPC请求（第6.1节）来更新辅助节点上的dir。

文件删除。文件删除可以分解为两个步骤：取消链接（从dir中删除文件的dentry）和驱逐（释放文件占用的存储空间）。取消链接的实现方式与文件创建类似。我们使用同步的文件更新请求来通知dir的主节点和辅助节点删除相应的dentry。然而，驱逐不需要同步完成。Hydra只需要向主节点和辅助节点发出异步RPC请求来释放文件的资源。

目录查找。要在dir中查找dentry，Hydra首先通过diff-update将dir与其主副本同步，然后进行文件查找。如果在查找之前目录过时或不存在，Hydra将从底层递归同步其父目录。

文件打开。如果本地节点当前持有file的锁令牌，则文件的打开方式与本地文件系统相同。对于非令牌持有者节点，Hydra首先获取相应的锁，然后向主节点发出diff-update请求以更新本地文件日志。当diff-update完成后，Hydra唤醒一个后台线程，将文件数据异步复制到本地节点。

文件读取。如果目标数据已经复制到本地节点，Hydra会在本地处理读请求。否则，Hydra使用相应本地文件日志中的指针从主节点获取所请求的数据，以满足读请求。同时，创建数据的本地副本，以便未来的读取可以在本地进行。当本地PM使用率较高时，这些辅助文件副本可能会被驱逐。

文件写入。为了减少延迟，文件写入会定向到本地PM。通过对本地文件进行原子日志尾指针更新来保证文件写入的一致性。当文件写入完成时，将向主节点发出异步RPC请求。主节点上的代理线程（第6.1节）将使用diff-update从本地节点获取更新的数据，然后异步地将更新传播到辅助节点。

文件同步。当应用程序对文件调用fsync时，会向每个主节点和辅助节点发送同步的RPC请求，以使用diff-update将文件日志和数据与本地节点进行更新。

内存映射。为了处理mmap请求，Hydra将持久内存上的页面映射到应用程序的地址空间中。当应用程序取消映射页面时，文件将与主副本同步。

5 集群管理

随着Hydra集群规模扩大到大量节点或为长时间运行的应用提供服务，所有节点正常工作并且所有文件访问均平衡的可能性逐渐降低。在本节中，我们描述了Hydra如何优雅地处理节点故障并在运行时实现负载平衡。

5.1 故障容错

Hydra通过容忍运行时任意节点故障为应用程序提供高可用性。在图3的第4步所描述的场景中，由于每个文件都有两个副本，因此Hydra可以容忍在运行时任意单个节点故障，并保证所有文件都可以被检索。对于Hydra集群，通过将复制因子设置为n，可以容忍任意n-1个节点的并发故障而无数据丢失。分权使Hydra能够将失败节点与集群的其余节点隔离开来。

节点故障。如果一个文件正在被非主节点访问，而其主节点宕机，则非主节点将启动主节点选举过程，为文件选举新的主节点。主节点选举是基于Paxos共识协议[33]实现的。具有最长文件日志的节点将被选为新的主节点。如果没有存活节点包含另一个文件副本，发起者将成为主节点。一旦选出主节点，新的主节点将向辅助节点发送RPC请求，确保Hydra集群中的所有其他文件副本都是最新的。

节点恢复。如果宕机的节点可以恢复，它将在重新启动后重新加入Hydra集群。然后，它会将根目录更新到最新版本，然后继续提供文件服务。当通过从根目录进行目录树遍历来访问过时的文件时，过时的文件将与最新版本同步。用户还可以运行fsck来强制将所有本地文件更新到最新版本。请注意，由于本地文件日志仍然有效，我们只需要通过diff-update拉取在节点停机期间提交的新生成文件日志，而不是复制整个文件。这显著提高了节点恢复的效率。

5.2 负载平衡

Hydra利用两种选择算法的变体[34]来实现负载平衡。主节点使用两个一致性哈希函数[35]根据文件的inode号选择文件的辅助节点。在两个候选节点之间，选择占用PM更少的节点作为辅助节点。如果Hydra配置了多个辅助节点，则另一个节点是辅助节点的第二选择，其余的辅助节点按照其PM使用率的升序选择。

数据迁移。Hydra采用分层文件系统设计，完全解耦目录及其子文件/子目录，以在Hydra节点之间平衡负载。对于PM使用率较高的Hydra节点，文件数据将迁移到PM使用率最低的节点。

节点添加。新服务器可以灵活地引入Hydra集群中。它们将以唯一的全局ID加入一致性哈希环，使得在其他Hydra节点上创建的新文件可以将它们指定为主节点或辅助节点。

作为一个完全去中心化的文件系统，Hydra在设计的整个过程中都致力于实现高度可扩展性和可扩展性。在集群级别，Hydra支持在运行时动态添加或删除集群节点，以及容忍任意节点故障。这为集群配置提供了高弹性和灵活性，使得分布式文件系统可以在线扩展。在节点级别，Hydra以完全去中心化的方式组织文件，消除了来自集中式元数据管理的瓶颈，提供了高扩展性。节点之间的一致性和一致性也通过轻量级的去中心化分布式锁定方法得到保证，最小化了大规模Hydra集群中的锁交换开销。在文件级别，Hydra通过差分文件更新方案实现文件更新的同步，通过单向RDMA读取。在文件同步过程中，绕过远程CPU，允许来自不同Hydra节点上的应用程序更多并发访问。在数据传输级别，Hydra通过RDMA请求批处理和RPC分类机制实现高可扩展性，以减少网络开销，并促进其他Hydra节点对高并发访问的便利。我们将在下一节讨论这两种机制。

6 实施

在本节中，我们首先展示了我们在批量RDMA请求和对RPC进行分类方面的方法，以实现Hydra节点之间可伸缩的RDMA通信。然后，我们描述了Hydra如何在每个节点上保持数据一致性。

6.1 可伸缩的RDMA通信

与传统存储和网络设备相比，PM和RDMA技术提供了显著更低的延迟、更高的带宽和更高的可扩展性，这暴露了存储栈中的延迟和可扩展性瓶颈。我们为Hydra中的网络通信提出了RDMA请求批处理和RPC分类机制，旨在通过充分利用高速PM和RDMA网络技术进步的好处，实现可扩展的连接管理和请求处理。

RDMA请求批处理。在每个Hydra节点的发送端（图5a）上，Hydra使用每个CPU的RDMA条目列表发出RDMA请求。这避免了请求争用，并允许并行发出和处理请求。当发出RDMA请求时，创建一个包含WR的RDMA条目，并将其附加到相应的条目列表1。64位wr_id的前12位保留用于指示RDMA操作类型（4位）和CPU ID（8位）2。Hydra将RDMA动词发布到QP，并将RDMA请求状态修改为已发布3。当RDMA操作完成时，CQ处理程序将从CQ中拉取CQE4，跟踪具有wr_id的RDMA条目，并将RDMA请求状态更新为已完成5。

Hydra节点的发送方和接收方消息流。Hydra在发送方批处理RDMA请求，并在接收方将RPC请求分类为同步和异步类型。

Hydra能够将多个RDMA请求合并为单个条目，以实现RDMA请求批处理。应用程序的大文件I/O请求或Hydra节点之间的文件数据复制可能会发出大量异步RDMA请求。批处理这些请求显著减少了整体传输延迟。在RDMA批处理条目内的所有RDMA请求完成之前，相应的文件系统功能将被阻塞6。

RPC分类。在每个Hydra节点的接收端（图5b）上，RPC请求被分类为两类：同步和异步。同步RPC请求，例如在fsync期间的文件复制，由具有较高优先级的RPC线程处理，以减少延迟。当RPC请求被CQ处理程序接收1时，该请求将根据其wr_id立即分派到相应的每个CPU RPC线程的等待列表2。

为了实现可扩展的请求处理，Hydra通过工作窃取将CPU的开销分摊到多个RDMA请求中。如果指定的RPC线程当前正忙于处理其他RPC请求，则新的RPC请求将遍历其他RPC线程的等待列表，并选择负载最低的CPU3。请求处理完成后，接收者回复给发送者4。异步RPC请求，例如后台文件迁移，由每个CPU的代理线程处理。这些代理线程充当其他节点的代理，异步执行任务5。异步RPC以较低优先级处理，以最小化性能影响。

6.2 数据持久性

在Hydra中，包括本地文件写入和文件传输期间的入站RDMA读取在内的文件更新的持久性是通过clwb和sfence指令的组合来保证的，将数据从处理器缓存刷新到PM。对于RDMA读取，Intel的Direct Data I/O（DDIO）技术支持RDMA网络和最后一级缓存（LLC）之间的直接通信。由于DDIO显著提高了数据服务的性能，我们在工作中启用了DDIO进行评估。因此，入站RDMA读取的目标变为本地LLC，可能以任何顺序逐出缓存行。为确保文件传输的持久性，Hydra将传输的数据同步刷新到PM。

7 评估

在本节中，我们评估Hydra相对于支持PM和RDMA的现有分布式文件系统以及本地PM感知文件系统的性能。我们的评估回答以下问题：

不同的Hydra复制配置如何影响其I/O性能？（第7.2节）
Hydra在多线程工作负载下与其他分布式文件系统相比表现如何？（第7.3节）
Hydra的本地和远程文件访问之间的性能差距有多大？（第7.4节）
Hydra在多节点上如何扩展并行工作负载？（第7.5节）
Hydra的元数据操作在性能上表现如何？（第7.6节）
Hydra从故障中恢复需要多长时间？（第7.7节）

7.1 实验设置

我们在一个4节点集群上运行Hydra。每个节点配备两个Intel Xeon Gold 6240 CPU（主频2.6 GHz，36个物理核），384 GB DDR4 DRAM，12个Optane DCPMMs（每个模块128 GB，总共1.5 TB）。每个集群节点都配备了Mellanox ConnectX-5 InfiniBand网络适配器，连接到InfiniBand交换机。

我们将Hydra与同一集群上的五个分布式文件系统进行比较：CephFS [4]、GlusterFS [6]、NFS [39]、Octopus [2]和Assise [11]。为了公平比较，所有这些分布式文件系统的客户端和服务器都连接到相同的RDMA网络，并在所有四个PM设备配备的集群节点上运行（NFS只有一个服务器节点）。对于基于磁盘的分布式文件系统，我们在服务器节点上使用PM作为元数据和数据的存储设备，并通过替换通信模块来支持RDMA网络。对于Assise，Assise-1r/Assise-3r表示在集群节点中有一个/三个热备份副本。我们还将Hydra与两个本地PM感知文件系统进行比较：EXT4-DAX [40]和NOVA [17]，[21]。

对于Hydra，我们改变复制因子以说明不同存储配置下性能的变化。Hydra-1r/Hydra-2r/Hydra-3r表示在集群节点中有一个主要副本和零/一个/两个次要副本。默认情况下，每个工作负载在本地Hydra节点（主要节点）上运行。对于以读为主的工作负载，Hydra的复制因子不会影响主要节点上的读吞吐量。对于这些工作负载，我们在两个集群节点上设置了Hydra-2r，然后在其中一个节点上预加载文件数据。在实验中，我们比较了在主要节点（Hydra-p）、次要节点（Hydra-s）和需要从主要节点获取所有工作集文件的新连接节点（Hydra-n）上执行的工作负载的吞吐量。我们对每个工作负载运行三次，并报告这些运行的平均值。

7.2 微基准测试

我们使用FIO [41]基准测试评估Hydra的读/写吞吐量。我们对一个1GB文件进行单线程随机I/O操作，使用不同的I/O大小进行一分钟，然后报告平均吞吐量。在同步写工作负载中，在每次写操作后调用fsync。

图6显示了各种I/O大小的读/写吞吐量。Hydra充分利用本地PM的性能优势来提高数据访问局部性，从而最大限度地降低I/O延迟。因此，Hydra的吞吐量在文件读取和异步写入工作负载中的各种I/O大小上接近于NOVA。对于异步写入（图6a），Hydra-3r在4KB的I/O大小下实现了77%的NOVA吞吐量。随着I/O大小的增加，差距迅速缩小。尽管每个文件写入都会发起一个异步RPC请求到每个次要节点，但是次要节点只通过单边RDMA读取同步更新，绕过主节点的CPU。当I/O大小增加时，异步RPC请求的发出频率就会降低。因此，Hydra对大文件写入保持高吞吐量。

FIO性能（对数刻度）。Hydra在不断增加的I/O大小下实现了高吞吐量，并在所有三种工作负载中远远超过了CephFS、GlusterFS、NFS和Octopus，特别是在同步写入方面表现更为突出。

然而，对于同步写入（图6b），每次写操作都会等待所有复制完成。当I/O大小为4KB时，Hydra-2r和Hydra-3r分别实现了NOVA吞吐量的42%和30%。频繁的同步化为数据复制带来了大量的网络流量。然而，Hydra利用差异化文件更新方案只同步最新的日志，通过有效的RDMA读取来降低CPU开销。此外，随着I/O大小的增加，主要瓶颈从日志复制转移到数据复制，Hydra能够批量处理多个RDMA请求，降低数据同步的开销。

对于文件读取（图6c），所有Hydra配置的读取吞吐量非常接近。次要节点拥有文件的另一个完整副本，因此其吞吐量接近主要节点的吞吐量。对于新连接的节点（Hydra-n），文件最初并不存在于本地。当首次读取数据段时，Hydra将该数据段复制到本地节点，使未来的读取变得本地化。同时，Hydra还会发起一个异步请求，将整个文件复制到本地PM。

Octopus在平均读取和写入性能上分别比Hydra-3r差5.1%和3.1%。尽管Octopus绕过内核缓存，但由于FUSE间接层引入了显著开销，文件I/O仍然带来了重大开销。此外，Octopus只通过RDMA网络访问文件数据而没有客户端缓存，导致较高的延迟。由于Octopus中的fsync是无操作的，其同步和异步写入吞吐量接近。

Hydra在吞吐量上远远优于CephFS、GlusterFS和NFS。这三个分布式文件系统由于其基于磁盘的设计，在关键I/O路径上引入了大量的软件开销，使其无法利用PM的直接访问特性和RDMA网络的全部潜力。高远程同步开销进一步降低了它们的同步写入吞吐量。平均而言，Hydra-3r的整体FIO性能超过CephFS、GlusterFS和NFS分别为54.4%、32.9%和7.3%。

7.3 宏基准测试

我们使用三个Filebench [42]工作负载（文件服务器、web代理和varmail）评估Hydra的多线程性能和可伸缩性。表1总结了这些工作负载的特性。每个工作负载的数据集大小设置为32GB，以便进行公平比较。

图7显示了Hydra在集群节点中的Filebench吞吐量以及其他文件系统的吞吐量。我们观察到Hydra在所有三种工作负载中都表现出良好的可伸缩性，并在所有分布式文件系统中实现了最佳性能。Hydra-1r与NOVA之间的性能差距在5%以内。然而，文件复制对于三种工作负载中的Hydra-2r和Hydra-3r产生了不同的影响。平均而言，Hydra-3r在文件服务器、web代理和varmail中分别实现了NOVA性能的91%、88%和78%。由于Optane DCPMM的写入可伸缩性有限，web代理和varmail的吞吐量在八个线程时达到饱和状态。

Filebench性能（对数刻度）。Hydra在所有三种Filebench工作负载中展现出良好的多核可扩展性，并在所有分布式文件系统中实现了最佳的整体性能。Hydra-1r和NOVA的吞吐量曲线高度重叠。

文件服务器模拟了简单文件服务器的I/O活动。Hydra的性能接近于NOVA，并且其吞吐量随着线程数目的增加而高度可伸缩。Hydra利用差异化文件更新方案来降低处理文件服务器中小型异步写入时的CPU开销。因此，Hydra在所有配置下都实现了高吞吐量。在平均下，Hydra-3r在文件服务器中分别比CephFS、GlusterFS、NFS和Assise的性能高出47.3%、21.6%、5.1%和1.7%。

Web代理是一个读密集型工作负载，涉及文件的创建、删除、附加和重复读取。与文件服务器和varmail工作负载不同，web代理工作负载具有较大的目录宽度，因此在这种情况下，目录更新的效率至关重要。幸运的是，由于差异化文件更新方案，Hydra只需同步新创建的目录项日志。此外，这些目录项日志通过出站RDMA读取传输，从而减轻了传输延迟并提高了可伸缩性。对于web代理，Hydra在所有分布式文件系统中实现了最高的吞吐量。

Varmail模拟了一个频繁进行同步写入的电子邮件服务器。在每次fsync期间，Hydra会同时向次要节点发起同步RPC请求，并等待其完成。因此，如图7c所示，Hydra-2r和Hydra-3r的吞吐量非常接近。RDMA请求批处理和RPC分类也降低了文件同步的开销。由于CephFS和GlusterFS在fsync期间引入了高同步开销，Hydra在整体上表现优于CephFS、GlusterFS和NFS分别高出13.9%、16.5%和1.6%。

在varmail工作负载中，Assise-1r在所有分布式文件系统中实现了最佳性能。在Assise-1r中，对日志记录的同步更新大多被后续更新所取代，从而大大降低了Assise的同步开销。Assise的分层租约设计也通过本地化租约管理减轻了网络瓶颈。然而，由于其基于RDMA写入的链式复制设计，Assise的复制开销高于Hydra。平均而言，Hydra-3r在所有三种Filebench工作负载中比Assise-3r高出1.6%。

存储开销。我们通过收集每个节点的PM使用情况来评估Hydra的存储开销，以及不同复制因子的影响。我们在Hydra的一个节点上执行文件服务器工作负载后，测量了文件复制的PM使用情况。由于我们集群中的所有Hydra节点都具有相同的PM容量，Hydra会在其他集群节点之间均匀分配文件副本（次要副本）。对于Hydra-2r/3r，我们观察到复制的存储开销略高于主要节点数据集大小的两/三倍（2.08%/3.17%）。额外的使用开销来自次要节点上少量辅助目录和文件inode。它们用于在每个Hydra节点上维护目录树结构。这使得Hydra即使在所有其他Hydra节点丢失的情况下，仍然可以继续提供其本地文件的文件服务。

负载平衡。正如我们上面所讨论的，Hydra的负载对于静态集群配置是合理平衡的。为了探究Hydra在节点添加后是否重新平衡，我们在具有三个节点的Hydra-3r上运行具有16个线程的Filebench工作负载，然后将另一个节点添加到集群中并重新运行工作负载。我们比较了两种负载平衡技术的性能和PM使用情况：懒惰平衡（Hydra-L）和急切平衡（Hydra-E）。懒惰平衡是Hydra的默认策略，它将新的文件写入引导到新节点，但除非其PM使用率很高，否则不会从旧节点迁移现有文件。另一方面，一些分布式文件系统（例如CephFS的CRUSH算法[43]）采用了急切平衡，在向集群添加节点时会启动后台迁移。Hydra-L的吞吐量与先前运行时相近（在1%之内），而Hydra-E的吞吐量平均下降了4%，这是由于节点通信和后台迁移带来的轻微性能影响。然而，Hydra-E比Hydra-L更快地实现了平衡的数据分布，这将有利于未来其他节点的文件访问，尤其是当Hydra部署在大规模集群中时。我们将快速低开销负载平衡方法的优化留作未来的工作。

7.4 RocksDB

我们用RocksDB[44]展示了元数据和数据复制的高效性，它是基于LSM树的嵌入式键值存储。我们使用db_bench中的三种工作负载来衡量RocksDB的性能：顺序读（readseq）、随机读（readrandom）和随机更新（updaterandom）。对于每个工作负载，我们首先在本地节点上加载包含1000万键值条目的数据库（fillseq），然后报告在本地节点和远程节点上运行1000万键值操作的吞吐量，数据集相同。对于每个工作负载，键大小设置为16字节，值大小设置为4KB。

图8显示了RocksDB的吞吐量。Hydra在所有分布式文件系统中具有最高的吞吐量。对于本地访问，Hydra和NOVA之间的性能差距在4%以内。较少频繁的文件I/O和差异化的文件更新方案帮助Hydra隐藏了前台文件操作的复制开销。在顺序读工作负载中，Hydra-n的性能比CephFS、GlusterFS和NFS分别提高了41%、8.3%和27%。在文件读取期间，CephFS和NFS使用内核缓冲区缓存来实现高吞吐量。由于其高数据管理开销，GlusterFS表现最差。与Hydra-1r相比，Hydra-n的远程随机读性能下降了24%。这是因为Hydra根据文件日志的顺序在工作负载加载期间按顺序写入，将文件数据在后台进行复制。因此，随机读取比本地读取产生更多的访问缺失。

RocksDB性能。由于Hydra采用了差异化文件更新方案和RDMA优化技术，因此Hydra的本地和远程文件访问之间的性能差距很小。

对于本地随机更新，Hydra利用本地PM实现高性能。由于其随机访问模式，CephFS的基于OSD的I/O路径和错误预取使其表现最差。当随机更新由远程节点处理时，除了Hydra之外的所有分布式文件系统都必须经过多个缓存层来同步文件数据。Hydra不仅提供对文件数据的直接PM访问，而且RDMA请求批处理和RPC分类也使Hydra能够通过充分利用RDMA网络的性能优势实现高效的文件传输。对于远程随机更新，Hydra-n的性能优于CephFS、GlusterFS和NFS分别4.9%、2.1%和2.7%。

7.5 MongoDB

我们进一步通过测量流行的NoSQL数据库MongoDB[45]来分析Hydra的并行性能。在MongoDB中，每个更新都被记录到一个日志文件中。在日志持久化之后，MongoDB将更新写入内存映射的数据库文件，并定期调用fsync将其内存刷新到持久存储。我们在MongoDB上运行了YCSB[46]的所有六种工作负载。在YCSB中，每个键值对的大小为1KB（默认值）。对于每个工作负载，我们使用了100万键值条目和1000万操作。线程数设置为8。

图9显示了MongoDB在五个对比文件系统上的吞吐量，Hydra在单一和三重复制配置下的吞吐量，以及在Hydra的四个集群节点上同时运行工作负载的聚合吞吐量。对于单节点性能，Hydra-1r和Hydra-3r的性能接近NOVA，平均比CephFS、GlusterFS和NFS分别快18%、32%和4%。CephFS和GlusterFS受到复杂的数据管理层的影响，而NFS利用内核缓冲区缓存来减少访问延迟。由于I/O活动较少，Hydra比这些传统分布式文件系统的性能优势较小。

在YCSB工作负载下的MongoDB性能。结果是相对于NOVA的吞吐量进行了标准化。Hydra的并行性能随着节点数量的增加具有很高的可扩展性。

Hydra的聚合吞吐量随节点数量显著扩展，表明去中心化充分利用每个节点上的本地PM实现高并行性能。平均而言，Hydra-3r在四个节点上的聚合吞吐量达到了3.8倍NOVA的吞吐量。对于写密集型工作负载（工作负载A和F），Hydra利用差异化文件更新方案将差异文件日志和数据复制到辅助节点，有效缓解了大量日志同步开销。此外，Hydra采用的RDMA优化技术进一步降低了去中心化集群节点的CPU开销。

7.6 MDTest

我们用元数据基准测试MDTest[47]评估了文件系统的元数据性能。我们测量了对目录和文件进行创建、stat和删除操作的吞吐量。我们将MDTest工作负载配置为在目录树中操作，并处理10万个文件。

图10描述了目录和文件元数据操作的吞吐量。在所有分布式文件系统中，Hydra实现了最高的整体元数据吞吐量。对于目录和文件的创建，Hydra-1r的性能接近NOVA。至于Hydra-2r和3r，由于RPC请求传输和处理，它们的吞吐量平均下降了37%。与此同时，所有基于磁盘的文件系统都必须通过为以太网和磁盘设计的复杂软件路径将元数据请求传输到服务器节点，导致比Hydra高几个数量级的延迟。在目录/文件创建之后，Hydra会在本地节点上对其进行缓存以加速未来访问。因此，Hydra在读取目录和文件状态的吞吐量与基于本地PM的文件系统相似。CephFS和NFS利用内核缓冲区缓存提供比GlusterFS更高的元数据读取性能。对于目录和文件的删除，Hydra发送同步的RPC请求以提交删除操作，并发送异步请求以释放存储空间（在第4.4节中描述）。因此，Hydra的性能开销要小得多。与此同时，由于其严格的持久性要求和低效的软件设计，CephFS和GlusterFS的表现要比NFS差。

文件系统元数据操作的吞吐量。Hydra的吞吐量比基于磁盘的分布式文件系统高出数个数量级。

7.7 恢复开销

我们通过测量 Hydra 的恢复时间和 Hydra 恢复全面 I/O 性能所需的时间来评估 Hydra 的恢复开销。为了模拟崩溃，我们首先使用 FIO 加载一个包含八个 4GB 文件的文件集，然后卸载文件系统。之后，我们测量 Hydra 和其他文件系统恢复运行时状态所需的时间。最后，我们在 Hydra 完全恢复性能之前监视其 I/O 吞吐量。

如表 2 所示，Hydra 的恢复时间和其他文件系统的恢复时间都在亚秒级别。对于 Hydra 的恢复，它需要读取超级块以恢复文件系统元数据，例如每个 PM 分配器和索引节点表的利用率，并建立 RDMA 连接到所有其他集群节点。因此，Hydra 的恢复时间略长于 NOVA 的恢复时间。由于我们采用一种惰性文件同步方法，即只在访问时更新本地过期目录和文件，因此恢复时间不会随着数据大小的增加而增加。为了调查惰性文件同步对 Hydra 运行时性能的影响，我们测量了故障转移后新连接到 Hydra 节点（Hydra-n）上的 FIO 读取操作的前 8 秒动态吞吐量，使用了 8 个线程。FIO 工作负载配置为对文件发出 50% 的随机读请求和 50% 的随机写请求。由于 Hydra-n 没有文件集中文件的本地副本，它必须从其他节点获取文件数据以提供本地 I/O 请求，这会暂时影响性能。如图 11 所示，在故障转移后的前 2-4 秒钟，I/O 吞吐量会受到数据复制的影响。随着 I/O 大小的增加，由于较少的元数据 RPC 传输，复制开销减少，从而缩短了 Hydra 全面恢复 I/O 性能所需的时间。

8 相关工作

持久内存和高速 RDMA 网络的出现为跨服务器拥有大型高性能分布式存储空间提供了机会。在本节中，我们简要介绍与 Hydra 密切相关的工作。

持久内存文件系统。新兴持久内存的有希望特性促进了几个基于 PM 的文件系统 ([12]、[13]、[14]、[17]、[19]、[20]、[21]、[48]、[49]、[50]) 的设计和实现。其中，NOVA [17] 是一个日志结构内核空间文件系统，将元数据和数据存储在 PM 中，并在 DRAM 中维护文件索引。NOVA 结合了日志记录、轻量级日志记录和写时复制技术，为元数据和数据提供强大的原子性保证。另一方面，Strata [49] 是一个用户空间分层文件系统，管理用户空间中的数据访问并在内核空间处理元数据。Strata 利用 PM 的字节可寻址性高效地存储文件日志，并异步地将日志摘要到存储设备上。相较于这些文件系统，SplitFS [19] 利用用户空间库文件系统和内核 PM 文件系统来处理数据和元数据操作。它使用 EXT4-DAX 来管理元数据，并引入了一个新的重连原语以加速文件追加和原子数据操作。Linux 还为现有的文件系统添加了对持久内存的支持，例如 EXT4-DAX [40] 和 XFS-DAX [51]，以允许直接访问持久内存，绕过 DRAM 页面缓存以提高性能。

分布式文件系统。现有的基于磁盘的分布式文件系统，如 CephFS [4]、HDFS [5]、GlusterFS [6]、Lustre [52] 和 GFS [53]，被应用于大规模数据中心部署中。为了实现高扩展性而无需专用元数据服务器，提出了几种去中心化的文件系统，如 GPFS [54]、Farsite [55] 和 DeltaFS [56]。这些文件系统专注于通过在服务器之间分布和复制大块数据块来提供高可用性和可扩展性。为了适应 RDMA 网络，这些基于磁盘的文件系统仅使用 RDMA 库替换通信模块。

Octopus [2] 是一个用户空间分布式文件系统，使用 FUSE [57] 进行文件 I/O。Octopus 引入了自我标识 RPC 和收集-分发事务，以提供低延迟的元数据和数据访问。然而，Octopus 使用静态哈希函数进行文件放置，这限制了其可扩展性并阻止其运行复杂的工作负载。此外，Octopus 既不提供元数据也不提供数据复制，这使其容易受到服务器故障的影响。

Orion [3] 是一个内核空间分布式文件系统，利用 RDMA 提供低延迟文件访问。对于文件 I/O，Orion 使用本地 DRAM 读取缓存和 PM 写入缓冲区来减少网络开销。至于元数据，Orion 使用类似 Mojim 的技术复制文件元数据。所有元数据更新流向一个中央元数据服务器，然后传播到镜像服务器。由于元数据服务器处理所有元数据更新，元数据访问的可扩展性成为 Orion 的瓶颈。

Assise [11] 建立在称为 CC-NVM 的缓存一致性层之上，该层提供了线性化和崩溃一致性。与 Hydra 类似，Assise 利用客户端本地 PM 中的持久缓存实现快速故障转移并最大化局部性。然而，Assise 通过集中式群集管理器协调租约和容错服务。此外，在节点恢复期间，Assise 使自其崩溃以来已写入的每个文件的每个块都无效，这与 Hydra 提出的差分文件更新方案相比显著增加了恢复开销。

据我们所知，Octopus、Orion 和 Assise 是目前仅有的为持久内存（PM）和 RDMA 网络而设计的分布式文件系统。然而，所有这三个文件系统都采用了集中式集群管理和/或数据管理架构，这限制了可扩展性。至于文件复制，Orion 和 Assise 都通过源节点的 RDMA 写操作复制文件，而 Hydra 则通过目标节点的 RDMA 读操作进行复制，其开销较低。Octopus 既不提供元数据复制，也不提供数据复制。

分布式持久内存系统。许多现有系统探索如何利用 RDMA 加速对应用程序的共享内存访问。Hotpot [26] 为应用程序提供全局的共享持久内存空间，并使用多阶段提交协议来确保数据的耐用性和可靠性。AsymNVM [22] 是一个基于不对称持久内存架构的框架。它使用操作日志来减少由于远程持久性而导致的暂停时间，并启用有效的批处理和缓存。Flatstore [29] 是一个基于 PM 的日志结构化存储引擎，将键值存储分离为易失性索引和日志结构化存储，以摊销持久性开销。FileMR [59] 是一个新的内存区域抽象，它结合了 RDMA 内存区域和文件，将持久内存文件系统和 RDMA 控制平面合并在一起。Clover [60] 是一个键值存储系统，将分布式数据平面和集中式元数据平面分离，利用分离持久内存的好处。

已经提出了几种优化 RDMA 网络性能的 RPC 方法。DaRPC [61] 将计算、网络和 RPC 资源分布到 CPU 核心和内存中，以实现高聚合吞吐量。FaSST [24] 是一个基于 RDMA 的 RPC 系统，完全建立在两端 RDMA 动词上，采用不可靠数据报 (UD) 传输来减少 QPs 的数量。ScaleRPC [28] 提出了连接分组，以减少出站消息的 NIC 缓存争用，并实现虚拟化映射来提高入站消息的 CPU 缓存效率。

9 结论

我们实现并描述了 Hydra，这是一个面向高速 PM 和 RDMA 网络的去中心化文件系统。通过利用本地 PM 的性能优势，Hydra 利用数据访问的局部性来实现高性能。为了加速文件传输，文件元数据和数据被分离并通过单向 RDMA 读取进行差异更新。我们通过引入 RDMA 请求批处理和 RPC 分类机制进一步减少网络开销。去中心化设计使 Hydra 能够容忍节点故障并实现负载均衡。我们的评估表明，Hydra 在现有分布式文件系统中表现显著优越，并在多线程和并行工作负载上展现出良好的可扩展性。

你可能感兴趣的:(负载均衡论文,网络)

互信息：理论框架、跨学科应用与前沿进展大千AI助手人工智能 Python #OTHER 人工智能深度学习算法互信息香农通信随机变量
1.起源与核心定义互信息（MutualInformation,MI）由克劳德·香农（ClaudeShannon）在1948年开创性论文《AMathematicalTheoryofCommunication》中首次提出，该论文奠定了现代信息论的基础。互信息用于量化两个随机变量之间的统计依赖关系，定义为：若已知一个随机变量的取值，能为另一个随机变量提供的信息量。数学上，对于离散随机变量XXX和YYY，
企业级区块链平台Hyperchain核心原理剖析 boyedu 区块链区块链企业级区块链平台 Hyperchain
Hyperchain作为国产自主可控的企业级联盟区块链平台，其核心原理围绕高性能共识、隐私保护、智能合约引擎及可扩展架构展开，通过多模块协同实现企业级区块链网络的高效部署与安全运行。以下从核心架构、关键技术、性能优化、安全机制、应用场景五个维度展开剖析：一、核心架构：分层解耦与模块化设计Hyperchain采用分层架构，将区块链功能解耦为独立模块，支持灵活组合与扩展：P2P网络层由验证节点（VP）
LVS+Keepalived实现高可用和负载均衡 2401_84412895 程序员 lvs 负载均衡运维
2、开启网卡子接口配置VIP[root@a~]#cd/etc/sysconfig/network-scripts/[root@anetwork-scripts]#cp-aifcfg-ens32ifcfg-ens32:0[root@anetwork-scripts]#catifcfg-ens32:0BOOTPROTO=staticDEVICE=ens32:0ONBOOT=yesIPADDR=10.1
2023-01-26 胡喜平
我觉得《可见的学习》一书确实从底层逻辑说清楚了，教学的本质。可是太多术语和概念，一时间难以消化啊。而且知道和懂得有距离，运用就更不行了，需要高手和专家的指导。我需要多听听新课标的讲座了，来反复印证。读论文也有了一点点灵感，明天修改我的论文。
二十四节气组诗谷雨离陌_6639
图片来源网络，若侵犯了你的权益，请联系我删除6.谷雨文/离陌背上行囊背上如行囊的我从此任行程马不停蹄今天家乡的田野春雨快马加鞭播下希望的种子观音不语目送着我和夏天一道在观音山出关图片来源网络，若侵犯了你的权益，请联系我删除你好啊，我是离陌，已然在懵懂中走过了16年的岁月，为了珍惜当下的每一秒，所以立志做一名终身学习者。文学对于我来说是一种信仰，诗歌是我的生命。人生之道，四通八达，即入文学，自当持之
【项目实战】容错机制与故障恢复：保障系统连续性的核心体系本本本添哥 004 -研效与DevOps运维工具链 002 -进阶开发能力分布式
在分布式系统中，硬件故障、网络波动、软件异常等问题难以避免。容错机制与故障恢复的核心目标是：通过主动检测故障、自动隔离风险、快速转移负载、重建数据一致性，最大限度减少故障对业务的影响，保障系统“持续可用”与“数据不丢失”。以下从核心机制、实现方式、典型案例等维度展开说明。一、故障检测：及时发现异常节点故障检测是容错的第一步，需通过多维度手段实时感知系统组件状态，确保故障被快速识别。1.健康检查与心
北斗短报文兜底、5G-A增强：AORO P1100三防平板构建应急通信网络
公网中断的灾区现场，泥石流阻断了最后一条光缆。一支救援队却在废墟间有序穿行，队长手中的三防平板正闪烁着北斗卫星信号，定位坐标与伤亡信息化作一行行短报文，穿透通信孤岛直达指挥中心。这是AOROP1100三防平板搭载的北斗短报文功能在应急救援中的真实场景，更代表了工业移动终端在极端环境下的能力跃迁。AOROP1100三防平板作为遨游通讯2025年推出的旗舰三防设备，AOROP1100三防平板的技术基底
7月29日星期二今日早报简报微语报早读微语早读生活
7月29日星期二，农历闰六月初五，早报#微语早读。1、国家育儿补贴方案公布！3周岁前每娃每年3600元；2、火狐浏览器官宣关闭北京公司，将终止中国账户服务；3、税务总局：2021年以来查处网络主播偷逃税案件360余起，查补税款30多亿元；4、江苏省体育局：职业俱乐部获男足中超冠军奖补3000万元；5、深圳出现首宗基孔肯雅热病例；6、税务总局：从今年个税汇算看，超1亿纳税人依法申请退税1300多亿，
02-Breakout靶机攻略 ZLlllllll0 02-Breakout靶机
第一步搭建靶机下载地址：https://download.vulnhub.com/empire/02-Breakout.zip下载好了之后直接用VM打开然后右击虚拟机，把网络连接改成nat模式第二步，信息收集然后开启虚拟机，左上角编辑，虚拟网络编辑器里面看一下靶机是哪个网段。打开kali用nmap扫一下的这个网段的存活主机，也就是扫除这个靶机的具体ip地址nmap192.168.109.1/24扫
何为社群？ ohh_1636
一般社会学家与地理学家所指的社群(community)，广义而言是指在某些边界线、地区或领域内发生作用的一切社会关系。它可以指实际的地理区域或是在某区域内发生的社会关系，或指存在于较抽象的、思想上的关系，除此之外。Worsley(1987)曾提出社群的广泛涵义：可被解释为地区性的社区；用来表示一个有相互关系的网络；社群可以是一种特殊的社会关系，包含社群精神(communityspirit)或社群情
严重的DDoS 攻击澳大利亚主要宽带提供商 Fancy1816575412
本周早些时候，澳大利亚最大的固定无线宽带运营商CirrusCommunications遭受了一次重大的DDoS攻击，导致其一半以上的网络瘫痪。该公司在其网站上声称：“强大的架构、数百个传输站点以及光纤和微波回程的使用使其能够以非常高的正常运行时间提供高速”。CirrusCommunications表示，它覆盖了澳大利亚十大人口中心以及几个主要的区域中心，主要为企业和政府客户提供服务。然而，据The
DPDK 技术详解：榨干网络性能的“瑞士军刀”
你是否曾感觉，即使拥有顶级的服务器和万兆网卡，你的网络应用也总是“喂不饱”硬件，性能总差那么一口气？传统的网络处理方式，就像在高速公路上设置了太多的收费站和检查点，限制了数据包的“奔跑”速度。今天，我们要深入探讨一个能够打破这些瓶颈，让你的网络应用快到飞起的“黑科技”——DPDK(DataPlaneDevelopmentKit，数据平面开发套件)。这不仅仅是一个工具包，更是一种全新的网络处理哲学。
老公的女朋友把我打成小三后，我杀疯了周昊净许青青小说完结推荐_最热门小说老公的女朋友把我打成小三后，我杀疯了周昊净许青青小富江呀
《老公的女朋友把我打成小三后，我杀疯了》主角：周昊净许青青简介：只因跟老公说了几句情话，就被老公的‘女朋友’当成小三。她带着一群自诩为“惩治小三联盟”的网络判官冲进了我家。“怎么，有脸当小三，没脸承认？”“从你当小三的那一刻起，就该想到会有被人收拾的一天！”“我们网络判官专治道德败坏的贱人！”这群人一边疯狂大骂，一边愤怒打砸。看着狼藉不堪的家，我面色平静地给公司法务部发去消息。“按照婚前协议，拟一
Pktgen-DPDK：开源网络测试工具的深度解析与应用艾古力斯
本文还有配套的精品资源，点击获取简介：Pktgen-DPDK是基于DPDK的高性能流量生成工具，适用于网络性能测试、硬件验证及协议栈开发。它支持多种网络协议，能够模拟高吞吐量的数据包发送。本项目通过利用DPDK的高速数据包处理能力，允许用户自定义数据包内容，并实现高效的数据包管理与传输。文章将指导如何安装DPDK、编译Pktgen、配置工具以及使用方法，最终帮助开发者和网络管理员深入理解并优化网络
链商拉不到人能赚钱么，谈谈我的看法糖葫芦不甜
链商作为一种新兴的商业形态，往往依赖于用户网络的扩展和交易量的增加来实现价值增长，但这并不意味着没有直接拉新就无法盈利。以下是我对这一问题的几点看法：招合作伙伴↓微信在文章底部。首先，链商能否赚钱，关键在于其是否能提供独特且有价值的产品或服务。如果链商平台能够构建出高效、透明、安全的价值交换体系，解决行业痛点，提升用户体验，那么即使没有大规模的拉新活动，也能通过现有用户的口碑传播和持续使用来产生稳
机器学习必备数学与编程指南：从入门到精通 a小胡哦机器学习基础机器学习人工智能
一、机器学习核心数学基础1.线性代数（神经网络的基础）必须掌握：矩阵运算（乘法、转置、逆）向量空间与线性变换特征值分解与奇异值分解(SVD)为什么重要：神经网络本质就是矩阵运算学习技巧：用NumPy实际操作矩阵运算2.概率与统计（模型评估的关键）核心概念：条件概率与贝叶斯定理概率分布（正态、泊松、伯努利）假设检验与p值应用场景：朴素贝叶斯、A/B测试3.微积分（优化算法的基础）重点掌握：导数与偏导
《UNIX网络编程卷1：套接字联网API》第8章：基本UDP套接字编程深度解析
《UNIX网络编程卷1：套接字联网API》第8章：基本UDP套接字编程深度解析（8000字图文实战）一、UDP协议核心特性与编程模型1.1UDP协议设计哲学UDP（UserDatagramProtocol）是面向无连接的传输层协议（图1），其核心特征包括：无连接通信：无需三次握手，直接发送数据报尽最大努力交付：不保证可靠性、不维护连接状态报文边界保留：接收方读取的数据与发送方写入完全一致低开销高效
神经形态计算如何突破冯·诺依曼架构限制？ AI算力网络与通信 AI人工智能与大数据技术 AI算力网络与通信原理 AI人工智能大数据架构架构 ai
神经形态计算如何突破冯·诺依曼架构限制？关键词：神经形态计算、冯·诺依曼架构、内存墙、存算一体、脉冲神经网络、类脑芯片、低功耗计算摘要：本文将从“冯·诺依曼架构的前世今生”讲起，用“图书馆管理员搬书”的生活案例类比其核心矛盾，再通过“人脑神经元工作模式”的比喻引入神经形态计算的核心原理。我们将一步步拆解冯·诺依曼架构的三大限制（内存墙、高功耗、非结构化数据处理弱），并对应解析神经形态计算的三大突破
流量的传递 L次第花开
罗书萍焦点网络四期周口项城坚持分享第509天2018.07.29周日三年前的一次谈话说我改变的相对快一些，那时我没有流量。迷茫，无助中在不断的反思，我哪里错了，错不在我，有诸多不安定因素在里面。同时我又在想，我改变的突破口在哪呢？在哪呢？在哪呢？遇上焦点，竟然选对平台抓住机会了，跟对了老师，有了更多的交流，焦点小屋传递着温暖，释放了不安，获得了流量，让我满血复活，有了希望。昨天，您问我学习心理学学
qemu virt-manager 创建虚拟机设置虚拟机桥接网络三希网络 php 开发语言
在virt-manager中设置虚拟机桥接网络的步骤如下：确认主机网络桥接已配置打开终端，执行brctlshow命令查看是否已有桥接接口（通常名为br0或类似名称）如果没有桥接接口，需先创建：sudonano/etc/netplan/01-netcfg.yaml添加类似以下配置（根据实际网卡调整）：yamlnetwork:version:2renderer:networkdethernets:en
深入理解卷积神经网络（CNN）与循环神经网络（RNN） CodeJourney. cnn rnn 人工智能
在当今的人工智能领域，神经网络无疑是最为璀璨的明珠之一。而卷积神经网络（ConvolutionalNeuralNetworks，CNN）和循环神经网络（RecurrentNeuralNetworks，RNN）作为神经网络家族中的重要成员，各自有着独特的架构和强大的功能，广泛应用于众多领域。本文将深入探讨这两种神经网络的原理、特点以及应用场景，为对深度学习感兴趣的读者提供全面的知识讲解。一、卷积神经
时序预测 | MATLAB实现贝叶斯优化CNN-GRU时间序列预测(股票价格预测) Matlab机器学习之心 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、仿真设计、论文复现、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击主页：Matlab科研工作室个人信条：格物致知，期刊达人。内容介绍股票价格预测一直是金融领域一个极具挑战性的课题。其内在的非线性、随机性和复杂性使得传统的预测方法难以取得令人满意的效果。近年来，深度学习技术，特别是卷积神经网络(CNN)和门控循环单元(GRU)的结合，为时
时序预测 | MATLAB实现BO-CNN-GRU贝叶斯优化卷积门控循环单元时间序列预测 Matlab算法改进和仿真定制工程师 matlab cnn gru
✅作者简介：热爱数据处理、数学建模、算法创新的Matlab仿真开发者。更多Matlab代码及仿真咨询内容点击：Matlab科研工作室个人信条：格物致知。内容介绍时间序列预测在各个领域都具有重要的应用价值，例如金融市场预测、气象预报、交通流量预测等。准确地预测未来趋势对于决策制定至关重要。近年来，深度学习技术在时间序列预测领域取得了显著进展，其中卷积神经网络(CNN)和门控循环单元(GRU)由于其强
陈萌中原焦点团队网络初级23期坚持分享第33天 2020年8月11日萌萌_ac9c
焦点解决的十条基本精神：1.不要把力气一直花在“分析问题”或是“探讨问题”的原因上，重点是如何“解决问题”。2.没有一件事情只有负面的意义。3.相信孩子是解决自己问题的专家。4.不要一直追寻难以达到的目标，要找到目前就可以做到的事情。5.小小的改变会带来大大的变化。6.成功的例外经验可以引导我们找到问题解决的方向。7.孩子的自我认识是不断建构的。8.合作是必然的现象。9.如果没有用，就不要固着，做
如何运用深度学习打造高效AI人工智能系统 AI智能探索者 AI Agent 智能体开发实战人工智能深度学习 ai
如何运用深度学习打造高效AI人工智能系统关键词：深度学习、AI系统、神经网络、模型优化、实战开发摘要：本文将从深度学习的核心概念出发，结合生活实例和代码实战，系统讲解如何构建高效AI系统。我们会拆解数据准备、模型设计、训练优化、部署落地的全流程，揭秘“数据-模型-训练-推理”的协同机制，并通过具体案例演示从0到1开发AI系统的关键技巧，帮助开发者掌握打造高效AI系统的底层逻辑。背景介绍目的和范围在
1394板卡一些知识的分享
1394板卡1394总线系统是由总线控制（CC）节点、远程（RN）节点和总线监控（BM）节点组成，各个节点之间通过1394线缆连接。CC节点按照周期发送帧起始包（STOF），RN节点收到STOF包后确认新的一帧开始并按照设置的时间偏移发送数据，BM节点监控总线上发出的数据消息。CC、RN、BM节点的核心区别与功能对比以下是1394总线网络中三种节点（CC、RN、BM）的详细对比，涵盖角色、功能、依
负载均衡-加权随机算法 BP白朴 Nginx 负载均衡 java 算法服务器
负载均衡-加权随机算法由于访问概率大致相同，所以如果部分服务器性能不一致的话，容易导致性能差的服务器压力过大，所以要根据服务器性能不一致的情况，给性能好的服务器多处理请求，给差的少分配请求（能者多劳）所以就需要在随机算法的基础上给每台服务器设置权重，延伸为加权随机算法1、将应用服务器集群的IP存到Map里,每个IP对应有一个权重2、创建一个List,来将所有权重下的IP存到list里面如：192.
Linux中Samba服务器安装与配置文件長樂.- linux 运维服务器
Samba简述27zkqsamba是一个基于TCP/IP协议的开源软件套件，可以在Linux、Windows、macOS等操作系统上运行。它允许不同操作系统的计算机之间实现文件和打印机共享。samba提供了一个服务，使得Windows操作系统可以像访问本地文件一样访问Linux、Mac等操作系统上的共享文件。实现跨平台的文件共享，提高办公环境的效率和便利性。samba也支持Windows网络邻居协
网络如何赚钱？用手机怎么赚钱？氧惠_飞智666999
网络赚钱不是你以为的那样，不是你想赚就能赚的，你需要一个很好的思路，让自己赚钱起来。今天我就给大家分享下这个方法，教咱们如何用手机操作互联网赚钱，这个非常简单。首先教你们怎样玩手机赚钱。第一步：打开淘宝或者拍拍、拼多多搜索赚钱项目。第二步：在网上搜一个项目或者产品，下载下来进行安装好之后去测试这个软件是否可以进行操作。第三步：进入测试后就点击第一个按钮进行提交就行了。第四步：提交后等待审核就行了。
78，那些看完让你感觉很舒服的句子…… 末班飞行日记
图片来自网络1.即使是星星也会撞在一起，他们的碰撞会孕育新的世界。2.“觉得写信真是一件温柔的事，细腻的小心思就藏在横竖撇捺之中，像是一只害羞的小兽躲在情意绵绵的字里行间，被火漆封印起来，等着解封的那一刻窜出来，跳进启信人眼底的柔波里。”3.远处的云雾轻拂过黛山，橘黄色日落点缀其间，有风经过，停在窗边，这些美好的事物通通向我奔来，嘱咐我要热爱这个世界。4.有时决定了要走，却总是徘徊留恋。有时决定留
java观察者模式 3213213333332132 java 设计模式游戏观察者模式
观察者模式——顾名思义，就是一个对象观察另一个对象，当被观察的对象发生变化时，观察者也会跟着变化。在日常中，我们配java环境变量时，设置一个JAVAHOME变量,这就是被观察者，使用了JAVAHOME变量的对象都是观察者，一旦JAVAHOME的路径改动，其他的也会跟着改动。这样的例子很多，我想用小时候玩的老鹰捉小鸡游戏来简单的描绘观察者模式。老鹰会变成观察者，母鸡和小鸡是
TFS RESTful API 模拟上传测试 ronin47
TFS RESTful API 模拟上传测试。　　细节参看这里：https://github.com/alibaba/nginx-tfs/blob/master/TFS_RESTful_API.markdown 模拟POST上传一个图片： curl --data-binary @/opt/tfs.png http
PHP常用设计模式单例, 工厂, 观察者, 责任链, 装饰, 策略,适配,桥接模式 dcj3sjt126com 设计模式 PHP
// 多态, 在JAVA中是这样用的, 其实在PHP当中可以自然消除, 因为参数是动态的, 你传什么过来都可以, 不限制类型, 直接调用类的方法 abstract class Tiger { public abstract function climb(); } class XTiger extends Tiger { public function climb()
hibernate 171815164 Hibernate
main,save Configuration conf =new Configuration().configure(); SessionFactory sf=conf.buildSessionFactory(); Session sess=sf.openSession(); Transaction tx=sess.beginTransaction(); News a=new
Ant实例分析 g21121 ant
下面是一个Ant构建文件的实例，通过这个实例我们可以很清楚的理顺构建一个项目的顺序及依赖关系，从而编写出更加合理的构建文件。下面是build.xml的代码： <?xml version="1
[简单]工作记录_接口返回405原因 53873039oycg 工作
最近调接口时候一直报错，错误信息是: responseCode:405 responseMsg:Method Not Allowed 接口请求方式Post.
关于java.lang.ClassNotFoundException 和 java.lang.NoClassDefFoundError 的区别程序员是怎么炼成的
真正完成类的加载工作是通过调用 defineClass来实现的；而启动类的加载过程是通过调用 loadClass来实现的；就是类加载器分为加载和定义 protected Class<?> findClass(String name) throws ClassNotFoundExcept
JDBC学习笔记-JDBC详细的操作流程 aijuans jdbc
所有的JDBC应用程序都具有下面的基本流程：　　1、加载数据库驱动并建立到数据库的连接。　　2、执行SQL语句。　　3、处理结果。　　4、从数据库断开连接释放资源。下面我们就来仔细看一看每一个步骤：其实按照上面所说每个阶段都可得单独拿出来写成一个独立的类方法文件。共别的应用来调用。 1、加载数据库驱动并建立到数据库的连接： Html代码 St
rome创建rss antonyup_2006 tomcat cms xml struts Opera
引用 1.RSS标准 RSS标准比较混乱，主要有以下3个系列 RSS 0.9x / 2.0 : RSS技术诞生于1999年的网景公司(Netscape)，其发布了一个0.9版本的规范。2001年，RSS技术标准的发展工作被Userland Software公司的戴夫温那(Dave Winer)所接手。陆续发布了0.9x的系列版本。当W3C小组发布RSS 1.0后，Dave W
html表格和表单基础百合不是茶 html 表格表单 meta 锚点
第一次用html来写东西,感觉压力山大,每次看见别人发的都是比较牛逼的再看看自己什么都还不会, html是一种标记语言,其实很简单都是固定的格式 _----------------------------------------表格和表单表格是html的重要组成部分,表格用在body里面的主要用法如下; <table> &
ibatis如何传入完整的sql语句 bijian1013 java sql ibatis
ibatis如何传入完整的sql语句？进一步说，String str ="select * from test_table"，我想把str传入ibatis中执行，是传递整条sql语句。解决办法： <
精通Oracle10编程SQL(14)开发动态SQL bijian1013 oracle 数据库 plsql
/* *开发动态SQL */ --使用EXECUTE IMMEDIATE处理DDL操作 CREATE OR REPLACE PROCEDURE drop_table(table_name varchar2) is sql_statement varchar2(100); begin sql_statement:='DROP TABLE '||table_name;
【Linux命令】Linux工作中常用命令 bit1129 linux命令
不断的总结工作中常用的Linux命令 1.查看端口被哪个进程占用通过这个命令可以得到占用8085端口的进程号，然后通过ps -ef|grep 进程号得到进程的详细信息 netstat -anp | grep 8085 察看进程ID对应的进程占用的端口号 netstat -anp | grep 进程ID &
优秀网站和文档收集白糖_ 网站
集成 Flex, Spring, Hibernate 构建应用程序性能测试工具-JMeter Hmtl5-IOCN网站 Oracle精简版教程网站鸟哥的linux私房菜 Jetty中文文档 50个jquery必备代码片段 swfobject.js检测flash版本号工具
angular.extend boyitech AngularJS angular.extend AngularJS API
angular.extend 复制src对象中的属性去dst对象中. 支持多个src对象. 如果你不想改变一个对象，你可以把dst设为空对象{}: var object = angular.extend({}, object1, object2). 注意: angular.extend不支持递归复制. 使用方法: angular.extend(dst, src); 参数:
java-谷歌面试题-设计方便提取中数的数据结构 bylijinnan java
网上找了一下这道题的解答，但都是提供思路，没有提供具体实现。其中使用大小堆这个思路看似简单，但实现起来要考虑很多。以下分别用排序数组和大小堆来实现。使用大小堆： import java.util.Arrays; public class MedianInHeap { /** * 题目：设计方便提取中数的数据结构 * 设计一个数据结构，其中包含两个函数，1.插
ajaxFileUpload 针对 ie jquery 1.7+不能使用问题修复版本 Chen.H ajaxFileUpload ie6 ie7 ie8 ie9
jQuery.extend({ handleError: function( s, xhr, status, e ) { // If a local callback was specified, fire it if ( s.error ) { s.error.call( s.context || s, xhr, status, e ); }
[机器人制造原则]机器人的电池和存储器必须可以替换 comsci 制造
机器人的身体随时随地可能被外来力量所破坏,但是如果机器人的存储器和电池可以更换,那么这个机器人的思维和记忆力就可以保存下来,即使身体受到伤害,在把存储器取下来安装到一个新的身体上之后,原有的性格和能力都可以继续维持..... 另外,如果一
Oracle Multitable INSERT 的用法 daizj oracle
转载Oracle笔记-Multitable INSERT 的用法 http://blog.chinaunix.net/uid-8504518-id-3310531.html 一、Insert基础用法语法： Insert Into 表名 (字段1,字段2,字段3...） Values (值1,
专访黑客历史学家George Dyson datamachine on
20世纪最具威力的两项发明——核弹和计算机出自同一时代、同一群年青人。可是，与大名鼎鼎的曼哈顿计划（第二次世界大战中美国原子弹研究计划）相比，计算机的起源显得默默无闻。出身计算机世家的历史学家George Dyson在其新书《图灵大教堂》（Turing’s Cathedral）中讲述了阿兰·图灵、约翰·冯·诺依曼等一帮子天才小子创造计算机及预见计算机未来
小学6年级英语单词背诵第一课 dcj3sjt126com english word
always 总是 rice 水稻，米饭 before 在...之前 live 生活，居住 usual 通常的 early 早的 begin 开始 month 月份 year 年 last 最后的 east 东方的 high 高的 far 远的 window 窗户 world 世界 than 比...更
在线IT教育和在线IT高端教育 dcj3sjt126com 教育
codecademy http://www.codecademy.com codeschool https://www.codeschool.com teamtreehouse http://teamtreehouse.com lynda http://www.lynda.com/ Coursera https://www.coursera.
Struts2 xml校验框架所定义的校验文件蕃薯耀 Struts2 xml校验 Struts2 xml校验框架 Struts2校验
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>> 蕃薯耀 2015年7月11日 15:54:59 星期六 http://fa
mac下安装rar和unrar命令 hanqunfeng mac
1.下载：http://www.rarlab.com/download.htm 选择 RAR 5.21 for Mac OS X 2.解压下载后的文件 tar -zxvf rarosx-5.2.1.tar 3.cd rar sudo install -c -o $USER unrar /bin #输入当前用户登录密码 sudo install -c -o $USER rar
三种将list转换为map的方法 jackyrong list
在本文中，介绍三种将list转换为map的方法： 1）传统方法假设有某个类如下 class Movie { private Integer rank; private String description; public Movie(Integer rank, String des
年轻程序员需要学习的5大经验 lampcy 工作 PHP 程序员
在过去的7年半时间里，我带过的软件实习生超过一打，也看到过数以百计的学生和毕业生的档案。我发现很多事情他们都需要学习。或许你会说，我说的不就是某种特定的技术、算法、数学，或者其他特定形式的知识吗？没错，这的确是需要学习的，但却并不是最重要的事情。他们需要学习的最重要的东西是“自我规范”。这些规范就是：尽可能地写出最简洁的代码；如果代码后期会因为改动而变得凌乱不堪就得重构；尽量删除没用的代码，并添加
评“女孩遭野蛮引产致终身不育 60万赔偿款1分未得”医腐深入骨髓 nannan408
先来看南方网的一则报道：再正常不过的结婚、生子，对于29岁的郑畅来说，却是一个永远也无法实现的梦想。从2010年到2015年，从24岁到29岁，一张张新旧不一的诊断书记录了她病情的同时，也清晰地记下了她人生的悲哀。　　粗暴手术让人发寒　　2010年7月，在酒店做服务员的郑畅发现自己怀孕了，可男朋友却联系不上。在没有和家人商量的情况下，她决定堕胎。　　12月5日，
使用jQuery为input输入框绑定回车键事件 VS 为a标签绑定click事件 Everyday都不同 jsp input 回车键绑定 click enter
假设如题所示的事件为同一个，必须先把该js函数抽离出来，该函数定义了监听的处理： function search() { //监听函数略...... } 为input框绑定回车事件，当用户在文本框中输入搜索关键字时，按回车键，即可触发search(): //回车绑定 $(".search").keydown(fun
EXT学习记录 tntxia ext
1. 准备（1）官网：http://www.sencha.com/ 里面有源代码和API文档下载。 EXT的域名已经从www.extjs.com改成了www.sencha.com ，但extjs这个域名会自动转到sencha上。（2）帮助文档：想要查看EXT的官方文档的话，可以去这里h
mybatis3的mapper文件报Referenced file contains errors xingguangsixian mybatis
最近使用mybatis.3.1.0时无意中碰到一个问题： The errors below were detected when validating the file "mybatis-3-mapper.dtd" via the file "account-mapper.xml". In most cases these errors can be d