看得出的就是

HDFS 集中式缓存管理

参考：
https://www.cnblogs.com/zhangningbo/p/4146398.html
http://hadoop.apache.org/docs/r3.1.1/hadoop-project-dist/hadoop-hdfs/CentralizedCacheManagement.html
https://blog.csdn.net/androidlushangderen/article/details/51469877

概述
使用场景
整体架构
基本概念
- 缓存指令（Cache directive）
- 缓存池（Cache pool）
cacheadmin命令行接口
- 命令使用帮助
- 缓存指令命令
  - addDirective：添加一个新的缓存指令
  - listDirectives：列出缓存指令
  - modifyDirective：修改缓存指令
  - removeDirective：删除一条缓存指令
  - removeDirectives：删除特定路径的每一条缓存指令
- 缓存池命令
  - addPool：添加一个新的缓存池
  - listPools ：显示一个或多个缓存池的信息
  - modifyPool：修改已存在缓存池的元数据信息
  - removePoo：删除缓存池。
配置
- Native Libraries支持
- 配置属性
  - 必选配置
  - 可选配置
OS限制

概述

HDFS中的集中化缓存管理是一个显式的缓存机制，该机制允许用户通过HDFS来缓存指定的路径。Namenode将会与在磁盘上有请求Block的DataNodes进行通信，并指示它们将这些block缓存到堆外缓存中。
HDFS的集中化缓存管理有很多的重大优势：

显式的固定能够防止频繁使用的数据被从内存中清除。当工作集的大小超过主内存的大小时，这一点尤为重要，这在许多HDFS工作负载中都很常见。
由于datanode的缓存由namenode管理，所以应用程序在做task放置决策时可以查询缓存块的位置集。将task与缓存块副本放在同一位置可提高读操作的性能。
当块已经被DataNode缓存时，客户端就可以使用一个新的更高效的零拷贝读取API。因为缓存数据的checksum校验只需由DataNode执行一次，因此在使用这种新的API时，客户端基本上不会有开销。
集中化的缓存可以提高集群整体的内存利用率。当依赖于每个DataNode上的OS buffer 缓存时，重复读取一个block将导致该block的所有n个副本被拉入buffer缓存。通过集中化缓存管理，用户可以显示的固定那个副本中的m个到内存中，从而节省n-m的内存。

使用场景

集中化缓存管理对于频繁使用的文件非常有用。例如，hive中的一个较小的fact表（常用于join操作）就是一个非常好的缓存对象。另一方面，对于一个年度报表查询的输入数据做缓存很可能就没有多大作用了，因为历史数据通常只会被读取一次。
集中化缓存管理对于有性能SLAs的混合负载也很有用。缓存高优先级工作负载的工作集可以确保它不会与低优先级工作负载竞争磁盘I/O。

整体架构

在这个架构中，NameNode负责协调所有DataNode的堆外缓存。NameNode会周期性的接收来自每个DataNode的缓存报告，报告中会描述指定DN的所有缓存的block。NameNode通过借助于DN心跳上的cache和uncache命令来管理DN的缓存。
NameNode通过查询自己的缓存指令（cache directives）集来决定缓存哪些路径。缓存指令会被持久化到fsimage和editlog中，通过JAVA和命令行 API可以添加、删除、修改缓存指令。NameNode同时还会存储一组缓存池（cache pool），这些缓存池是用以将缓存指令组合在一起以进行资源管理和强制权限的管理实体。
目前不会缓存那些处于construction, corrupt状态或其他不完整的block。如果一条缓存指令包含了一个符号链接，那么该符号链接不会被缓存。
目前只支持文件和目录级的缓存。

基本概念

缓存指令（Cache directive）

缓存指令定义了一个需要被缓存的路径。路径可以是文件或者目录。目录的缓存是非递归的，而是只会缓存目录中的第一级的文件。
指令同时会指定一些其他的参数，如缓存的副本因子以及有效期。副本因子指定了要缓存的块的副本数，如果有多个指令指向了同一个文件，那么就使用最大的缓存副本因子。
有效期是在命令行中指定的，就像TTL一样。未来会引入相对有效期。缓存指令过期之后，NameNode在进行缓存决策时就不会考虑了。

缓存池（Cache pool）

缓存池是一个用以管理缓存指令组的管理实体。缓存池有类UNIX的权限，可以限制哪些用户和组可以访问缓冲池。写权限允许用户将缓存指令添加到缓存池中或从缓存池中删除。读权限允许用户列出缓存池中的缓存指令，以及其他元数据。执行权限是不可用的。
缓存池也可以用以资源管理。它可以强制设置一个最大限制值，可以限制池中指令可以在聚合中缓存的字节数。通常，缓存池限制值之和约等于集群中为HDFS做缓存而保留的总内存量。缓存池也可以追踪许多统计信息以帮助集群用户决定应该缓存什么。
缓存池也可以强制设置一个TTL。该值限制了被添加到缓存池的指令的最大有效期。

cacheadmin命令行接口

在命令行上，管理员和用户可以通过hdfs cacheadmin子命令与缓存池和缓存命令交互。
缓存指令由一个唯一的无重复的64位整数ID标识。ID不会被重复使用，即使缓存指令被删除了。
缓存池由一个唯一的字符串名称标识。

命令使用帮助

$ hdfs cacheadmin
Usage: bin/hdfs cacheadmin [COMMAND]
          [-addDirective -path  -pool  [-force] [-replication ] [-ttl ]]
          [-modifyDirective -id  [-path ] [-force] [-replication ] [-pool ] [-ttl ]]
          [-listDirectives [-stats] [-path ] [-pool ] [-id ]]
          [-removeDirective ]
          [-removeDirectives -path ]
          [-addPool  [-owner ] [-group ] [-mode ] [-limit ] [-defaultReplication ] [-maxTtl ]]
          [-modifyPool  [-owner ] [-group ] [-mode ] [-limit ] [-defaultReplication ] [-maxTtl ]]
          [-removePool ]
          [-listPools [-stats] []]
          [-help ]

以上命令中除最后一个-help帮助命令之外,其余9个命令都是与缓存操作相关的命令。分为2大类，前5个是CacheDirective相关的，之后4个是CachePool相关的。

缓存指令命令

addDirective：添加一个新的缓存指令

hdfs cacheadmin -addDirective -path  -pool  [-force] [-replication ] [-ttl ]

参数	含义
	要缓存的路径，该路径可以是文件夹或文件
	要加入缓存指令的缓存池,必须对缓存池有写权限才能添加新的缓存指令。
-force	不检查缓存池的资源限制
	要使用的缓存副本因子，默认为1
	缓存指令的有效时长。可以按照分钟，小时，天来指定，如30m，4h，2d。有效单位为[smhd]。“never”表示永不过期的指令。如果未指定该值，则缓存指令就不会过期。

使用示例

#添加缓存池
$ hdfs cacheadmin -addPool CachePool1 -mode 750 -maxTtl 5h -limit 500000000     
Successfully added cache pool CachePool1.
$ hdfs cacheadmin -listPools 
Found 1 result.
NAME        OWNER   GROUP   MODE            LIMIT            MAXTTL  DEFAULT_REPLICATION
CachePool1  hadoop  hadoop  rwxr-x---   500000000  000:05:00:00.000                    1
#添加缓存指令
$ hdfs cacheadmin -addDirective -path /tmp -pool CachePool1  -replication 2 -ttl 1h          
Added cache directive 1

listDirectives：列出缓存指令

hdfs cacheadmin -listDirectives [-stats] [-path ] [-pool ]

参数	含义
	只列出带有该路径的缓存指令。注意，如果路径path在缓存池中有一条我们没有读权限的缓存指令，那么它就不会被列出来。
	只列出该缓存池内的缓存指令。
-stats	列出基于path的缓存指令统计信息。

使用示例

$ hdfs cacheadmin -listDirectives
Found 1 entry
 ID POOL         REPL EXPIRY                    PATH 
  1 CachePool1      2 2019-07-25T18:47:46+0800  /tmp

modifyDirective：修改缓存指令

hdfs cacheadmin -modifyDirective -id  [-path ] [-force] [-replication ] [-pool ] [-ttl ]

参数	含义
	指定要修改的指令Id（必选）
	要缓存的路径，该路径可以是文件夹或文件（可选）
	要加入缓存指令的缓存池。必须对缓存池有写权限才能添加新的缓存指令。（可选）
-force	不检查缓存池的资源限制
	要使用的缓存副本因子，默认为1（可选）
	缓存指令的有效时长。可以按照分钟，小时，天来指定，如30m，4h，2d。有效单位为[smhd]。“never”表示永不过期的指令。如果未指定该值，则缓存指令就不会过期。

使用示例

$ hdfs cacheadmin -listDirectives
Found 1 entry
 ID POOL         REPL EXPIRY                    PATH 
  4 CachePool1      2 2019-07-25T19:43:02+0800  /tmp 
$ hdfs cacheadmin -modifyDirective -id 4 -path /data -ttl 5h
Modified cache directive 4
$ hdfs cacheadmin -listDirectives                           
Found 1 entry
 ID POOL         REPL EXPIRY                    PATH  
  4 CachePool1      2 2019-07-25T23:43:55+0800  /data

removeDirective：删除一条缓存指令

hdfs cacheadmin -removeDirective

参数	含义
	要删除的缓存指令的ID。必须对该指令的缓存池拥有写权限，才能删除它。要查看详细的缓存指令列表，可以使用-listDirective

使用示例

$ hdfs cacheadmin -listDirectives
Found 2 entries
 ID POOL         REPL EXPIRY                    PATH  
  1 CachePool1      2 2019-07-25T18:47:46+0800  /tmp  
  2 CachePool1      2 2019-07-25T18:53:51+0800  /data
#删除缓存池
$ hdfs cacheadmin -removeDirective 1
Removed cached directive 1
$ hdfs cacheadmin -listDirectives   
Found 1 entry
 ID POOL         REPL EXPIRY                    PATH  
  2 CachePool1      2 2019-07-25T18:53:51+0800  /data

removeDirectives：删除特定路径的每一条缓存指令

hdfs cacheadmin -removeDirectives -path

参数	含义
	要删除的缓存指令的路径。你必须对该指令的缓存池拥有写权限，才能删除它。要查看详细的缓存指令列表，可以使用-listDirective

使用示例

$ hdfs cacheadmin -addDirective -path /data -pool CachePool1  -replication 2 -ttl 5h
Added cache directive 3
# 缓存指令的最大有效时长不能超过缓存池的最大有效时长
$ hdfs cacheadmin -addDirective -path /data -pool CachePool1  -replication 2 -ttl 7h
InvalidRequestException: Expiration 000:07:00:00.000 exceeds the max relative expiration time of 18000000 ms.
$ hdfs cacheadmin -listDirectives
Found 2 entries
 ID POOL         REPL EXPIRY                    PATH  
  2 CachePool1      2 2019-07-25T18:53:51+0800  /data 
  3 CachePool1      2 2019-07-25T22:57:53+0800  /data 
$ hdfs cacheadmin -removeDirectives  -path /data
Removed cache directive 2
Removed cache directive 3
Removed every cache directive with path /data
$ hdfs cacheadmin -listDirectives               
Found 0 entries

缓存池命令

addPool：添加一个新的缓存池

hdfs cacheadmin -addPool  [-owner ] [-group ] [-mode ] [-limit ] [-maxTtl ]

参数	含义
	新缓存池的名称
	该缓存池所有者的名称，默认为当前用户。
	缓存池所属的组，默认为当前用户的主要组名。
	以UNIX风格表示的该缓存池的权限，权限以八进制数表示，如0755.默认值为0755.
	此池中指令可缓存的最大字节数（聚合），默认情况下，不设置限制。
	添加到该缓存池的指令的最大生存时间，该值以秒，分，时，天的格式来表示，如120s，30m，4h，2d。有效单位为[smhd]。默认不设最大值，“never”表示没有限制。

使用示例

$ hdfs cacheadmin -addPool testCachePool -mode 750 -maxTtl 2h -limit 5000000
Successfully added cache pool testCachePool.

listPools ：显示一个或多个缓存池的信息，如name，owner，group，permission等

hdfs cacheadmin -listPools [-stats] []

参数	含义
-stats	显示额外的缓存池统计信息
	若指定，则仅列出该缓存池的信息

使用示例

$ hdfs cacheadmin -listPools
Found 1 result.
NAME           OWNER   GROUP   MODE          LIMIT            MAXTTL  DEFAULT_REPLICATION
testCachePool  hadoop  hadoop  rwxr-x---   5000000  000:02:00:00.000                    1
$ hdfs cacheadmin -listPools -stats
Found 1 result.
NAME           OWNER   GROUP   MODE          LIMIT            MAXTTL  DEFAULT_REPLICATION  BYTES_NEEDED  BYTES_CACHED  BYTES_OVERLIMIT  FILES_NEEDED  FILES_CACHED
testCachePool  hadoop  hadoop  rwxr-x---   5000000  000:02:00:00.000

modifyPool：修改已存在缓存池的元数据信息

 hdfs cacheadmin -modifyPool  [-owner ] [-group ] [-mode ] [-limit ] [-maxTtl ]

参数	含义
	要修改的缓存池的名称。
	该缓存池所有者的名称
	缓存池所属的组
	以UNIX风格表示的该缓存池的权限，权限以八进制数表示
	在该缓存池内要缓存的最大字节数。
	添加到该缓存池的指令的最大生存时间。

使用示例

$ hdfs cacheadmin -modifyPool testCachePool -group admin -mode 700 -limit 1000000 -defaultReplication 3 -maxTtl 5h
Successfully modified cache pool testCachePool to have group name admin and mode rwx------ and limit 1000000 and replication 3
 replication max time-to-live 5h
$ hdfs cacheadmin -listPools 
Found 1 result.
NAME           OWNER   GROUP  MODE          LIMIT            MAXTTL  DEFAULT_REPLICATION
testCachePool  hadoop  admin  rwx------   1000000  000:05:00:00.000

removePoo：删除缓存池。同时会uncache与该缓冲池关联的路径。

hdfs cacheadmin -removePool

参数	含义
	要删除的缓存池名称

使用示例

$ hdfs cacheadmin -removePool testCachePool
Successfully removed cache pool testCachePool.

配置

Native Libraries支持

为了把块文件锁定在内存，DataNode需要依赖本地JNI代码（Linux系统为libhadoop.so，Windows系统为hadoop.dll）。如果需要使用HDFS集中化缓存管理，确保启用了JNI。

配置属性

必选配置

确保下面的配置一定要配置

dfs.datanode.max.locked.memory
该配置指定了一个DataNode用以缓存的最大内存量（以字节表示）。在类Unix系统上，还需要增加datanode用户的“locked-in-memory size ”ulimit（ulimit-l）以匹配此参数（请参见下面有关OS限制的部分）。设置此值时，请记住，您还需要内存中的空间来存放其他内容，例如数据节点和应用程序JVM堆以及操作系统页缓存。
此设置与Lazy Persist Writes功能共享。数据节点将确保Lazy Persist Writes和集中缓存管理使用的总共内存不超过在 dfs.datanode.max.locked.memory 中配置的数量。

可选配置

下面的配置不是必须要配置的，但是可用以调优

属性名称	默认值	含义
dfs.namenode.path.based.cache.refresh.interval.ms	300000	NameNode使用该参数作为两次子路径缓存扫描之间的时间间隔，单位为毫秒。该参数计算要缓存的块和每个包含一个该块应当缓存的副本的DataNode。该参数默认是300000，即5分钟。
dfs.datanode.fsdatasetcache.max.threads.per.volume	4	DataNode使用该参数作为缓存新数据时每个卷要用的最大线程数。
dfs.cachereport.intervalMsec	10000	DataNode使用该参数作为两次发送缓存状态报告给NameNode之间的时间间隔。单位为毫秒。默认10000ms，即10s。
dfs.namenode.path.based.cache.block.map.allocation.percent	0.25	分配给已缓存块映射的Java堆内存的百分比。它是一个hash map，使用链式hash。如果缓存块的数目很大，那么map越小，访问速度越慢；map越大，消耗的内存越多。

OS限制

如果遇到错误“Cannot start datanode because the configured max locked memory size… is more than the datanode’s available RLIMIT_MEMLOCK ulimit,”，就意味着操作系统对用户可以锁定的内存使用量强加了一个限制，该限制值比配设置的值要低。要修复这个问题，必须调整以使的“ulimit -l”的值与DataNode运行需要的内存值匹配。通常，该值是在/etc/security/limits.conf文件中配置。然而，它也会因用户所用的操心系统和分发版的不同而变化。
当在shell中运行“ulimit -l”命令得到一个比属性dfs.datanode.max.locked.memory设置的更高的值，或者是字符串“ulimited”（表示没有限制）时，表示已经正确配置了该值。值得注意的是，ulimit -l命令通常以KB为单位输出内存锁定限制值，而 dfs.datanode.max.locked.memory 的值必须以字节为单位指定。
这些信息不适用于Windows环境。Windows没有和“ulimit -l”相对应的命令。

ZooKeeper在Hadoop中的协同应用：从NameNode选主到分布式锁实现码字的字节 hadoop布道师分布式 zookeeper hadoop 分布式锁
Hadoop与ZooKeeper概述Hadoop与ZooKeeper在大数据生态系统中的核心位置和交互关系Hadoop的架构与核心组件作为大数据处理的基石，Hadoop生态系统由多个关键组件构成。其核心架构主要包含HDFS（HadoopDistributedFileSystem）和YARN（YetAnotherResourceNegotiator）两大模块。HDFS采用主从架构设计，由NameNo
HDFS常用命令 BenChuat 大数据学习 hdfs hadoop 大数据
常用命令说明：-put和-get：上传和下载文件，是HDFS和本地文件系统交互的关键命令。-rm和-mkdir：删除和创建文件/目录，-rm支持递归删除。-ls和-cat：文件查看操作中最常用的命令，分别用于列出文件和查看内容。权限管理：通过-chmod、-chown和-chgrp命令对HDFS文件的权限、所有者和所属组进行管理。检查文件状态：通过-stat和-checksum命令，可以查看文件的
Hadoop中MapReduce和Yarn相关内容详解
接上一章写的HDFS说，Hadoop是一个适合海量数据的分布式存储和分布式计算的一个平台，上一章介绍了分布式存储，这一章介绍一下分布式计算——MapReduce。一、MapReduce设计理念map——>映射Reduce——>归纳mapreduce是一种必须构建在hadoop之上的大数据离线计算框架。因为mapreduce是给予磁盘IO来计算存储文件的，所以它具有一定的延时性，因此一般用来处理离线
大数据领域Hadoop集群搭建的详细步骤 AI天才研究院 ChatGPT 实战 ChatGPT AI大模型应用入门实战与进阶大数据 hadoop 分布式 ai
大数据领域Hadoop集群搭建的详细步骤关键词：Hadoop集群、HDFS、YARN、大数据平台、分布式系统、集群配置、故障排查摘要：Hadoop作为大数据领域的基石框架，其集群搭建是数据工程师和运维人员的核心技能。本文从Hadoop核心架构出发，结合生产环境实践，详细讲解从环境准备、配置文件调优到集群启动验证的全流程，并涵盖常见问题排查与最佳实践。无论你是初学者还是需要优化现有集群的工程师，本文
Hive/Spark小文件解决方案(企业级实战)–参数和SQL优化陆水A 大数据 hive hadoop spark python
重点是后面的参数优化一、小文件的定义在Hadoop的上下文中，小文件的定义是相对于Hadoop分布式文件系统（HDFS）的块（Block）大小而言的。HDFS是Hadoop生态系统中的核心组件之一，它设计用于存储和处理大规模数据集。在HDFS中，数据被分割成多个块，每个块的大小是固定的，这个大小在Hadoop的不同版本和配置中可能有所不同，但常见的默认块大小包括128MB、256MB等。基于这个背
C++与Hive、Spark、libhdfs、ACID交互技巧 KENYCHEN奉孝 C++开发语言 spring C++hive spark
C++与Hive交互的实例以下是C++与Hive交互的实例代码片段，涵盖连接、查询、数据操作等常见场景。假设使用libhdfs或thrift接口实现，部分示例需要结合Hive环境配置。基础连接与查询示例1：通过Thrift连接HiveServer2#include#include#includeusingnamespaceapache::thrift;usingnamespaceapache::h
Spark大数据处理讲课笔记4.8 Spark SQL典型案例酒城译痴无心剑 #Spark基础学习笔记（1）spark 笔记 sql
文章目录零、本讲学习目标一、使用SparkSQL实现词频统计（一）提出任务（二）实现任务1、准备数据文件2、创建Maven项目3、修改源程序目录4、添加依赖和设置源程序目录5、创建日志属性文件6、创建HDFS配置文件7、创建词频统计单例对象8、启动程序，查看结果9、词频统计数据转化流程图二、使用SparkSQL计算总分与平均分（一）提出任务（二）完成任务1、准备数据文件2、新建Maven项目3、修
【大数据学习 | Spark-Core】RDD的概念与Spark任务的执行流程 Vez'nan的幸福生活大数据 spark oracle sql json
1.RDD的设计背景在实际应用中，存在许多迭代式计算，这些应用场景的共同之处是，不同计算阶段之间会重用中间结果，即一个阶段的输出结果会作为下一个阶段的输入。但是，目前的MapReduce框架都是把中间结果写入到HDFS中，带来了大量的数据复制、磁盘IO和序列化开销。显然，如果能将结果保存在内存当中，就可以大量减少IO。RDD就是为了满足这种需求而出现的，它提供了一个抽象的数据架构，我们不必担心底层
数据库和数据仓库区别 hhhecker Hadoop学习数据仓库数据库 hive
HIve与Mysql对比HiveMysql数据存储位置HDFS本地磁盘数据格式用户定义系统决定数据更新不支持（不支持修改和删除）支持（支持增删改查）索引有，但较弱，一般很少用有，经常使用的执行MapReduceExecutor执行延迟高低可扩展性高低数据规模大小数据库与数据仓库对比数据库：传统的关系型数据库主要应用在基本的事务处理，例如银行交易之类的场景数据库支持增删改查这些常见的操作。数据仓库：
Spark RDD 之 Partition 博弈史密斯
SparkRDD怎么理解RDD的粗粒度模式？对比细粒度模式SparkRDD的task数量是由什么决定的？一份待处理的原始数据会被按照相应的逻辑(例如jdbc和hdfs的split逻辑)切分成n份，每份数据对应到RDD中的一个Partition，Partition的数量决定了task的数量，影响着程序的并行度支持保存点(checkpoint)虽然RDD可以通过lineage实现faultrecove
深入解析Hadoop中的Region分裂与合并机制码字的字节 hadoop布道师 hadoop 大数据分布式 Region 分裂合并
Hadoop与Region的基本概念Hadoop的分布式架构基础作为大数据处理的核心框架，Hadoop通过分布式存储和计算解决了海量数据的处理难题。其架构核心由HDFS（HadoopDistributedFileSystem）和MapReduce组成，前者负责数据的分布式存储，后者实现分布式计算。在HDFS中，数据被分割成固定大小的块（默认128MB）分散存储在集群节点上，而MapReduce则通
大数据技术关键技术组件
大数据技术是一组用于处理、分析和管理大规模数据集的复杂方法和技术。这些数据集的特点是容量大、增长速度快，且结构多样化，包括结构化、半结构化和非结构化数据。传统数据库管理和分析工具在处理此类数据时效率低下或无法胜任，因此需要专门的大数据技术栈来支持高效的数据处理和智能决策。大数据技术的关键组件通常包括：分布式存储系统：HadoopDistributedFileSystem(HDFS)：一个高度可扩展
大数据领域HDFS的集群资源管理优化大数据洞察大数据与AI人工智能大数据AI应用大数据 hdfs hadoop ai
大数据领域HDFS的集群资源管理优化关键词：HDFS；集群资源管理；存储优化；性能调优；副本策略；负载均衡；NameNode优化摘要：HDFS（Hadoop分布式文件系统）作为大数据领域的基石，承载着海量数据的存储与管理重任。随着数据规模爆炸式增长和业务复杂度提升，HDFS集群的资源管理面临着"存不下、跑不快、管不好"的三重挑战：存储资源浪费与不足并存、计算与存储资源匹配失衡、集群运维效率低下。本
深入探索Hadoop技术：全面学习指南
引言在大数据时代，高效地存储、处理和分析海量数据已成为企业决策与创新的关键驱动力。Hadoop，作为开源的大数据处理框架，以其强大的分布式存储和并行计算能力，以及丰富的生态系统，为企业提供了应对大规模数据挑战的有效解决方案。本文旨在为初学者和进阶者提供一份详尽的Hadoop技术学习指南，涵盖HDFS、MapReduce、YARN等核心组件，以及Hive、Pig、HBase等生态系统工具，助您踏上H
HDFS文件系统
HDFS文件系统是hadoop生态系统的核心，主要用于分布式文件存储，它具备高可用，流式读取，文件结构简单，跨平台的特点，它的集群采用的是主从结构，分为命名节点和数据节点，命名节点主要用于元数据管理（例如对目录，文件的创建，数据块与数据节点的关系维护管理）及数据节点管理（例如数据节点之间数据的复制，节点状态的维护，节点间数据的均衡），该文件系统最基本的存储单位是block即数据块，默认大小是64M
Flink-Hadoop实战项目 Dylan_muc hadoop hdfs flink
项目说明文档1.项目概述1.1项目简介本项目是一个基于ApacheFlink的大数据流处理平台，专门用于处理铁路系统的票务和车次信息数据。系统包含两个核心流处理作业：文件处理作业和数据合并作业，采用定时调度机制，支持Kerberos安全认证，实现从文件读取到数据仓库存储的完整数据处理链路。1.2技术栈流处理引擎:ApacheFlink1.18.1存储系统:HDFS(Hadoop分布式文件系统)数据
大数据集群运维常见的一些问题以及处理方式
态）；若为YARN节点，重启NodeManager后手动将其加入集群。若为节点整体宕机：排查电源和网络，重启节点后，依次启动HDFS、YARN等服务进程，确认数据块完整性（避免因节点宕机导致副本不足）。2.网络问题现象：节点间通信超时（如HDFS心跳超时、YARN任务调度延迟）、数据传输卡顿。可能原因：交换机故障、网线松动、网络带宽过载、防火墙规则拦截。处理方式：用ping、traceroute检
hadoop 集群问题处理一切顺势而行 hadoop 大数据分布式
1.1.JournalNode的作用在HDFSHA配置中，为了实现两个NameNode之间的状态同步和故障自动切换，Hadoop使用了一组JournalNode来管理共享的编辑日志。具体来说，JournalNode的主要职责包括：共享编辑日志：JournalNode节点组成了一个分布式系统，用于存储HDFS的编辑日志（EditLogs）。这两个日志文件记录了对HDFS所做的所有更改，如文件创建、删
sqoop从mysql导数据到hdfs，出现java.lang.ClassNotFoundException: Class QueryResult not found 无级程序员大数据 sqoop mysql hdfs
运行sqoop从postgresql/mysql导入数据到hdfs,结果出现如下错误：2025-07-1816:59:13,624INFOorm.CompilationManager:HADOOP_MAPRED_HOMEis/opt/datasophon/hadoop-3.3.3Note:/opt/sqoop/bin/QueryResult.javausesoroverridesadeprecat
hive的sql优化思路-明白底层运行逻辑 ycllycll hive sql hadoop
一、首先要明白底层map、shuffle、reduce的顺序之中服务器hdfs数据文件在内存与存储之中是怎么演变的，因为hive的性能瓶颈基本在内存，具体参考以下他人优秀文章：1.HiveSQL底层执行过程详细剖析2.HiveJOIN性能调优二是要明白hive对应的sql它底层的mapreduce的过程中sql字段的执行顺序，来理解map的key、value会填充什么值，才能深刻理解怎么一步一步的
六、深度剖析 Hadoop 分布式文件系统（HDFS）的数据存储机制与读写流程
深度剖析Hadoop分布式文件系统（HDFS）的数据存储机制与读写流程在当今大数据领域当中，Hadoop分布式文件系统（HDFS）作为极为关键的核心组件之一，为海量规模的数据的存储以及处理构筑起了坚实无比的根基。本文将会对HDFS的数据存储机制以及读写流程展开全面且深入的探究，通过将原理与实际的实例紧密结合的方式，助力广大读者更加全面地理解HDFS的工作原理以及其具体的应用场景。一、HDFS概述H
大数据处理技术：分布式文件系统HDFS 茜茜西西CeCe hdfs hadoop 大数据 HDFS-JAVA接口文件头歌 Java
目录1实验名称：2实验目的3实验内容4实验原理5实验过程或源代码5.1HDFS的基本操作5.2HDFS-JAVA接口之读取文件5.3HDFS-JAVA接口之上传文件5.4HDFS-JAVA接口之删除文件6实验结果6.1HDFS的基本操作6.2HDFS-JAVA接口之读取文件6.3HDFS-JAVA接口之上传文件6.4HDFS-JAVA接口之删除文件1实验名称：分布式文件系统HDFS2实验目的1.理
cdh6.3.2的hive使用apache paimon格式只能创建不能写报错的问题明天,今天,此时 hive paimon
前言根据官网paimon安装教程，看上去简单，实则报错阻碍使用的信心。解决方法原带的jars下的zstd开头的包旧了，重新下载zstd较新的包单独放到每个节点的hive/lib下; 然后将hdfsyarn用户下的mr-framework.tar.gz中的zstdjar包替换成新的版本。重启就可以了总结国外软件问题，尽量使用英文搜索，特别是google.。方法来源：http
Hadoop与云原生集成：弹性扩缩容与OSS存储分离架构深度解析
Hadoop与云原生集成的必要性Hadoop在大数据领域的基石地位作为大数据处理领域的奠基性技术，Hadoop自2006年诞生以来已形成包含HDFS、YARN、MapReduce三大核心组件的完整生态体系。根据CSDN技术社区的分析报告，全球超过75%的《财富》500强企业仍在使用Hadoop处理EB级数据，其分布式文件系统HDFS通过数据分片（默认128MB块大小）和三副本存储机制，成功解决了P
ETL可视化工具 DataX -- 简介( 一) dazhong2012 软件工具数据仓库 datax ETL
引言DataX系列文章：ETL可视化工具DataX–安装部署(二)ETL可视化工具DataX–DataX-Web安装(三)1.1DataX1.1.1DataX概览DataX是阿里云DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX实现了包括MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、
Hive简介
文章目录Hive简介Hive特点Hive和RDBMS的对比Hive的架构Hive的数据组织Hive数据类型Hive简介1、Hive由Facebook实现并开源2、是基于Hadoop的一个数据仓库工具3、可以将结构化的数据映射为一张数据库表4、并提供HQL(HiveSQL)查询功能5、底层数据是存储在HDFS上6、Hive的本质是将SQL语句转换为MapReduce任务运行7、使不熟悉MapRedu
ftp文件服务器有连接数限制,查看ftp服务器连接数命令赵承铭 ftp文件服务器有连接数限制
查看ftp服务器连接数命令内容精选换一换本章节适用于MRS3.x之前版本。Loader支持以下多种连接，每种连接的配置介绍可根据本章节内容了解。obs-connectorgeneric-jdbc-connectorftp-connector或sftp-connectorhbase-connector、hdfs-connector或hive-connectorOBS连接是Loa“数据导入”章节适用于
ClickHouse高频面试题野老杂谈数据库
ClickHouse高频面试题1、简单介绍一下ClickHouse2、ClickHouse具有哪些特点3、ClickHouse作为一款高性能OLAP数据库，存在哪些不足4、ClickHouse有哪些表引擎5、介绍下Log系列表引擎应用场景共性特点不支持6、简单介绍下MergeTree系列引擎7、简单介绍下外部集成表引擎ODBCJDBCMySQLHDFSKafkaRabbitMQ8、ClickHou
HDFS 伪分布模式搭建与使用全攻略（适合初学者 & 开发测试环境） huihui450 hdfs hadoop 大数据
HDFS（HadoopDistributedFileSystem）作为Hadoop生态系统的核心组件，广泛应用于海量数据的分布式存储场景。对于开发者而言，伪分布模式提供了一种低成本、高还原度的学习与测试方式。本文将详细介绍如何在本地搭建并使用HDFS的伪分布模式，包括环境准备、配置过程、常用命令及常见问题排查，帮助你快速入门Hadoop分布式文件系统的实践操作。一、什么是伪分布模式？Hadoop有
MapReduce学习笔记
1.MapReduce做什么Mapper负责“分”，即把复杂的任务分解为若干个“简单的任务”来处理。Reducer负责对map阶段的结果进行汇总。2.MapReduce工作机制实体一：客户端，用来提交MapReduce作业。实体二：JobTracker，用来协调作业的运行。实体三：TaskTracker，用来处理作业划分后的任务。实体四：HDFS，用来在其它实体间共享作业文件。3.编写MapRed
java短路运算符和逻辑运算符的区别 3213213333332132 java基础
/* * 逻辑运算符——不论是什么条件都要执行左右两边代码 * 短路运算符——我认为在底层就是利用物理电路的“并联”和“串联”实现的 * 原理很简单，并联电路代表短路或（||），串联电路代表短路与（&&）。 * * 并联电路两个开关只要有一个开关闭合，电路就会通。 * 类似于短路或（||），只要有其中一个为true（开关闭合）是
Java异常那些不得不说的事白糖_ java exception
一、在finally块中做数据回收操作比如数据库连接都是很宝贵的，所以最好在finally中关闭连接。 JDBCAgent jdbc = new JDBCAgent(); try{ jdbc.excute("select * from ctp_log"); }catch(SQLException e){ ... }finally{ jdbc.close();
utf-8与utf-8(无BOM)的区别 dcj3sjt126com PHP
BOM——Byte Order Mark，就是字节序标记在UCS 编码中有一个叫做"ZERO WIDTH NO-BREAK SPACE"的字符，它的编码是FEFF。而FFFE在UCS中是不存在的字符，所以不应该出现在实际传输中。UCS规范建议我们在传输字节流前，先传输字符"ZERO WIDTH NO-BREAK SPACE"。这样如
JAVA Annotation之定义篇周凡杨 java 注解 annotation 入门注释
Annotation: 译为注释或注解 An annotation, in the Java computer programming language, is a form of syntactic metadata that can be added to Java source code. Classes, methods, variables, pa
tomcat的多域名、虚拟主机配置 g21121 tomcat
众所周知apache可以配置多域名和虚拟主机，而且配置起来比较简单，但是项目用到的是tomcat，配来配去总是不成功。查了些资料才总算可以，下面就跟大家分享下经验。很多朋友搜索的内容基本是告诉我们这么配置：在Engine标签下增面积Host标签，如下： <Host name="www.site1.com" appBase="webapps"
Linux SSH 错误解析（Capistrano 的cap 访问错误 Permission ） 510888780 linux capistrano
1.ssh -v [email protected] 出现 Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password). 错误运行状况如下： OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013 debug1: Reading configuratio
log4j的用法 Harry642 java log4j
一、前言： log4j 是一个开放源码项目，是广泛使用的以Java编写的日志记录包。由于log4j出色的表现，当时在log4j完成时，log4j开发组织曾建议sun在jdk1.4中用log4j取代jdk1.4 的日志工具类，但当时jdk1.4已接近完成，所以sun拒绝使用log4j，当在java开发中
mysql、sqlserver、oracle分页，java分页统一接口实现 aijuans oracle jave
定义：pageStart 起始页，pageEnd 终止页,pageSize页面容量 oracle分页：　　　　select * from ( select mytable.*,rownum num from (实际传的SQL) where rownum<=pageEnd) where num>=pageStart sqlServer分页：
Hessian 简单例子 antlove java Web service hessian
hello.hessian.MyCar.java package hessian.pojo; import java.io.Serializable; public class MyCar implements Serializable { private static final long serialVersionUID = 473690540190845543
数据库对象的同义词和序列百合不是茶 sql 序列同义词 ORACLE权限
回顾简单的数据库权限等命令; 解锁用户和锁定用户 alter user scott account lock/unlock; //system下查看系统中的用户 select * dba_users; //创建用户名和密码 create user wj identified by wj; identified by //授予连接权和建表权 grant connect to
使用Powermock和mockito测试静态方法 bijian1013 持续集成单元测试 mockito Powermock
实例： package com.bijian.study; import static org.junit.Assert.assertEquals; import java.io.IOException; import org.junit.Before; import org.junit.Test; import or
精通Oracle10编程SQL(6)访问ORACLE bijian1013 oracle 数据库 plsql
/* *访问ORACLE */ --检索单行数据 --使用标量变量接收数据 DECLARE v_ename emp.ename%TYPE; v_sal emp.sal%TYPE; BEGIN select ename,sal into v_ename,v_sal from emp where empno=&no; dbms_output.pu
【Nginx四】Nginx作为HTTP负载均衡服务器 bit1129 nginx
Nginx的另一个常用的功能是作为负载均衡服务器。一个典型的web应用系统，通过负载均衡服务器，可以使得应用有多台后端服务器来响应客户端的请求。一个应用配置多台后端服务器，可以带来很多好处：负载均衡的好处增加可用资源增加吞吐量加快响应速度，降低延时出错的重试验机制 Nginx主要支持三种均衡算法： round-robin l
jquery-validation备忘白糖_ jquery css F#Firebug
留点学习jquery validation总结的代码： function checkForm(){ validator = $("#commentForm").validate({// #formId为需要进行验证的表单ID errorElement :"span",// 使用"div"标签标记错误，默认:&
solr限制admin界面访问（端口限制和http授权限制） ronin47 限定Ip访问
solr的管理界面可以帮助我们做很多事情，但是把solr程序放到公网之后就要限制对admin的访问了。可以通过tomcat的http基本授权来做限制，也可以通过iptables防火墙来限制。我们先看如何通过tomcat配置http授权限制。第一步：在tomcat的conf/tomcat-users.xml文件中添加管理用户，比如： <userusername="ad
多线程-用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 bylijinnan java 多线程
public class IncDecThread { private int j=10; /* * 题目:用JAVA写一个多线程程序，写四个线程，其中二个对一个变量加1，另外二个对一个变量减1 * 两个问题： * 1、线程同步--synchronized * 2、线程之间如何共享同一个j变量--内部类 */ public static
买房历程 cfyme
2015-06-21: 万科未来城，看房子 2015-06-26: 办理贷款手续，贷款73万，贷款利率5.65=5.3675 2015-06-27: 房子首付,签完合同 2015-06-28，央行宣布降息 0.25，就2天的时间差啊，没赶上。首付，老婆找他的小姐妹接了5万，另外几个朋友借了1-
[军事与科技]制造大型太空战舰的前奏 comsci 制造
天气热了........空调和电扇要准备好.......... 最近,世界形势日趋复杂化,战争的阴影开始覆盖全世界.......... 所以,我们不得不关
dateformat dai_lm DateFormat
"Symbol Meaning Presentation Ex." "------ ------- ------------ ----" "G era designator (Text) AD" "y year
Hadoop如何实现关联计算 datamachine mapreduce hadoop 关联计算
选择Hadoop，低成本和高扩展性是主要原因，但但它的开发效率实在无法让人满意。以关联计算为例。假设：HDFS上有2个文件，分别是客户信息和订单信息，customerID是它们之间的关联字段。如何进行关联计算，以便将客户名称添加到订单列表中？ &nbs
用户模型中修改用户信息时，密码是如何处理的 dcj3sjt126com yii
当我添加或修改用户记录的时候对于处理确认密码我遇到了一些麻烦，所有我想分享一下我是怎么处理的。场景是使用的基本的那些(系统自带)，你需要有一个数据表(user)并且表中有一个密码字段(password),它使用 sha1、md5或其他加密方式加密用户密码。面是它的工作流程: 当创建用户的时候密码需要加密并且保存，但当修改用户记录时如果使用同样的场景我们最终就会把用户加密过的密码再次加密，这
中文 iOS/Mac 开发博客列表 dcj3sjt126com Blog
本博客列表会不断更新维护，如果有推荐的博客，请到此处提交博客信息。本博客列表涉及的文章内容支持定制化Google搜索，特别感谢 JeOam 提供并帮助更新。本博客列表也提供同步更新的OPML文件（下载OPML文件），可供导入到例如feedly等第三方定阅工具中，特别感谢 lcepy 提供自动转换脚本。这里有导入教程。
js去除空格，去除左右两端的空格蕃薯耀去除左右两端的空格 js去掉所有空格 js去除空格
js去除空格，去除左右两端的空格 >>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>&g
SpringMVC4零配置--web.xml hanqunfeng springmvc4
servlet3.0+规范后，允许servlet，filter，listener不必声明在web.xml中，而是以硬编码的方式存在，实现容器的零配置。 ServletContainerInitializer：启动容器时负责加载相关配置 package javax.servlet; import java.util.Set; public interface ServletContainer
《开源框架那些事儿21》：巧借力与借巧力 j2eetop 框架 UI
同样做前端UI，为什么有人花了一点力气，就可以做好？而有的人费尽全力，仍然错误百出？我们可以先看看几个故事。故事1：巧借力，乌鸦也可以吃核桃有一个盛产核桃的村子，每年秋末冬初，成群的乌鸦总会来到这里，到果园里捡拾那些被果农们遗落的核桃。核桃仁虽然美味，但是外壳那么坚硬，乌鸦怎么才能吃到呢？原来乌鸦先把核桃叼起，然后飞到高高的树枝上，再将核桃摔下去，核桃落到坚硬的地面上，被撞破了，于是，
JQuery EasyUI 验证扩展可怜的猫 jquery easyui 验证
最近项目中用到了前端框架-- EasyUI，在做校验的时候会涉及到很多需要自定义的内容，现把常用的验证方式总结出来，留待后用。以下内容只需要在公用js中添加即可。使用类似于如下： <input class="easyui-textbox" name="mobile" id="mobile&
架构师之httpurlconnection----------读取和发送(流读取效率通用类) nannan408
1.前言. 如题. 2.代码. /* * Copyright (c) 2015, S.F. Express Inc. All rights reserved. */ package com.test.test.test.send; import java.io.IOException; import java.io.InputStream
Jquery性能优化 r361251 JavaScript jquery
一、注意定义jQuery变量的时候添加var关键字这个不仅仅是jQuery，所有javascript开发过程中，都需要注意，请一定不要定义成如下： $loading = $('#loading'); //这个是全局定义，不知道哪里位置倒霉引用了相同的变量名，就会郁闷至死的二、请使用一个var来定义变量如果你使用多个变量的话，请如下方式定义： . 代码如下: var page
在eclipse项目中使用maven管理依赖 tjj006 eclipse maven
概览: 如何导入maven项目至eclipse中建立自有Maven Java类库服务器建立符合maven代码库标准的自定义类库 Maven在管理Java类库方面有巨大的优势，像白衣所说就是非常“环保”。我们平时用IDE开发都是把所需要的类库一股脑的全丢到项目目录下，然后全部添加到ide的构建路径中，如果用了SVN/CVS，这样会很容易就把
中国天气网省市级联页面 x125858805 级联
1、页面及级联js <%@ page language="java" import="java.util.*" pageEncoding="UTF-8"%> <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> &l

HDFS 集中式缓存管理

目录

概述

使用场景

整体架构

基本概念

缓存指令（Cache directive）

缓存池（Cache pool）

cacheadmin命令行接口

命令使用帮助

缓存指令命令

addDirective：添加一个新的缓存指令

listDirectives：列出缓存指令

modifyDirective：修改缓存指令

removeDirective：删除一条缓存指令

removeDirectives：删除特定路径的每一条缓存指令

缓存池命令

addPool：添加一个新的缓存池

listPools ：显示一个或多个缓存池的信息，如name，owner，group，permission等

modifyPool：修改已存在缓存池的元数据信息

removePoo：删除缓存池。同时会uncache与该缓冲池关联的路径。

配置

Native Libraries支持

配置属性

必选配置

可选配置

OS限制

你可能感兴趣的:(HDFS)