#HDFS 第61页

大数据之Sqoop1.99.7部署实战

Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如：MySQL,Oracle,Postgres等）中的数据导进到Hadoop的HDFS

涟漪海洋·2023-08-29 08:41

两个hdfs之间迁移传输数据

本文参考其他大数据大牛的博文做了整理和实际验证，主要解决hdfs跨集群复制/迁移问题。

Data宁·2023-08-29 07:48

大数据集群需定期清理的文件（节省空间）

大数据集群需定期清理的文件（节省空间）1.由于HDFS有回收站，如何设置不合理的话，它会长时间占用集群资源，因此我们首先清理HDFS回收站。

墨卿风竹·2023-08-29 05:11

【Hadoop】DataNode 详解

目录一、DataNode简介二、DataNode工作机制三、DataNode文件结构四、HDFS中的chunk、packet和block五、心跳机制一、DataNode简

开着拖拉机回家·2023-08-29 04:11

分布式数据存储建设方法论——从HDFS架构优化与实践分析

HDFS(HadoopDistributedFileSystem)就是

禅与计算机程序设计艺术·2023-08-29 00:44

Hive数据的导入

导入HDFS上的数据loaddatainpath'/home/centos/a.txt'in

一个人一匹马·2023-08-28 21:56

2 hadoop的目录

1.目录结构：其中比较的重要的路径有：hdfs,mapred,yarn（1）bin目录：存放对Hadoop相关服务（hdfs，yarn，mapred）进行操作的脚本（2）etc目录：Hadoop的配置文件目录

水无痕simon·2023-08-28 09:24

4 hadoop集群配置案例

3）配置集群（1）核心配置文件，core-site.xmlcd$HADOOP_HOME/etc/hadoopvimcore-site.xml文件内容如下：fs.defaultFShdfs://hadoop102

水无痕simon·2023-08-28 09:48

hadoop - 节点的服役和退役（HDFS）

1.首先需要克隆一台主机现在我这里已经有五台虚拟机，要克隆的目标主机为CentOS7-1810_04：当前状态启动集群后webUI如下：把要克隆的目标虚拟机关机，在VMware上选中目标主机->右键->管理->克隆：右键->管理->克隆然后下一步，选择克隆自：虚拟机中的当前状态：克隆自虚拟机中的当前状态继续下一步，克隆方法选择：创建完整克隆：创建完整克隆继续下一步，修改虚拟机名称和位置：修改虚拟机

静水流深ylyang·2023-08-28 07:34

0201hdfs集群部署-hadoop-大数据学习

文章目录1前言2集群规划3hadoop安装包上传与安装3.1上传解压4hadoop配置5从节点同步和环境变量配置6创建用户7集群启动8问题集8.1InvalidURIforNameNodeaddress(checkfs.defaultFS):file:///hasnoauthority.结语1前言下面我们配置下单namenode节点hadoop集群，使用vmware虚拟机环境搭建。vmware虚拟

gaog2zh·2023-08-28 06:31

【大数据】PySpark 使用 FileSystem 操作 HDFS

需求：spark可以直接使用textFile读取HDFS，但是不能判断hdfs文件是否存在，不过pyspark可以调用java程序，因此可以调用FileSystem来实现：#coding=utf-8frompysparkimportSparkContextsc

焰火青春·2023-08-28 00:04

contOS7 Spark StandAlone HA 环境搭建

1.确定环境是否安装好搭建环境之前先确定自己的环境是否做好1.jdk1.8版本2.HDFSMapReduceHadoop3.2.1+3.zookeeper4.python环境3.8+点击直接查看1,23,4

大白菜程序猿·2023-08-27 23:11

大数据日常运维命令

1、HDFSNameNode/usr/local/fqlhadoop/hadoop/sbin/hadoop-daemon.shstartnamenode/usr/local/fqlhadoop/hadoop

bigdata-余建新·2023-08-27 19:20

二. hadoop环境搭建

image.png配置hadoopTODO格式化HDFS这一步操作，只是在第一次时执行，每次如果都格式化的话，那么HDFS上的数据就会被清空。

yanghx·2023-08-27 18:39

hive数据调优

hive作为数据仓库工具，可以查看HDFS结构化文件内容，使用sql进行数据加工处理。

稻草人_d41b·2023-08-27 16:59

大数据时代之java操作hdsf

前面已经讲过hadoop伪分布式和分布式环境搭建，参考大数据时代之Hadoop集群搭建本来想直接搞java代码操作hdfs的，想了想还是先简单的复习下命令行操作hdfs吧。

小小的人儿居然已存在·2023-08-27 11:49

非常详细HDFS读写流程+完美视觉的HDFS读写流程图

一、写数据流程：客户端（Client通过java虚拟机）向NameNode请求上传文件（内部过程：客户端通过对DistributedFileSystem对象调用create()函数来创建文件），参数：路径/a.txt，块规格，副本数。NameNode检查目标文件是否已存在，父目录是否存在。做出响应返回是否可以上传。过程：1、namenode执行各种不同的检查以确保这个文件不存在，并且客户端有创建该

陈的打怪升级之道·2023-08-27 10:20

Hadoop Hdfs基本命令

0目录1.hadoop安装问题处理2.hdfs基本命令3.上传/下载文件和文件夹1.hadoop安装问题处理如果安装有进程无法启动，如下图重新检查6个配置文件Core-site.xml\hdfs-site.xml

请给我一串代码好吗·2023-08-27 10:20

Hadoop（四）HDFS 读写流程

HDFS的读写流程 HDFS将文件切割为默认大小的块（block）存放在不同的DataNode上；上传文件和读取文件是HDFS重要的流程；HDFS的写文件流程图文解释： 1、Client连接HDFS

车了个车子·2023-08-27 10:48

Hadoop之HDFS简介

Hadoop有3大核心组件，分别是HDFS、MapReduce和YARN，本次我们重点介绍HDFS。一、HDFS简介HDFS全称HadoopDistributedFileSystem，是一个分布

数新网络·2023-08-27 10:18

Hadoop：HDFS读写流程详解

目录1HDFS写数据流程2HDFS读数据流程HDFS写数据流程1）客户端通过分布式文件系统模块向namenode请求上传某个数据（2）namenode根据客户端请求，先查看该用户是否有权限上传数据，再查看客户端所请求的目录是否存在

小M姐姐呀~·2023-08-27 10:17

Hadoop笔记 HDFS读写流程

HDFS读写流程一、写流程二、读流程三、总结一、写流程（1）客户端通过DistributedFileSystem（我翻译成分布式文件系统？）

程序员的账号·2023-08-27 10:47

【Hadoop】HDFS读写流程和客户端命令使用

目录一、HDFS产出背景及定义1.1.HDFS产生背景1.2.HDFS简介1.3.HDFS的优缺点1、优点2、缺点二、HDFS的特点三、HDFS组成架构1、Client：

开着拖拉机回家·2023-08-27 10:17

实战：大数据Spark简介与docker-compose搭建独立集群

docker-composedocker-compose编排docker-compose编排并运行容器Spark集群官方案例测试写在最后前言很多同学都使用过经典的大数据分布式计算框架hadoop，其分布式文件系统HDFS

小沈同学呀·2023-08-27 09:28

Hadoop 2.10.1 HDFS 透明加密原理 + 实战 + 验证

一、背景介绍越来越多的用户关注安全问题，都在寻找一种有效的，方便的加密方式。hadoop提供了几种不同形式的加密，最底层的加密，加密所有节点数据，有效地保护了数据，但是却缺乏更细粒度的加密；kms透明加密可以做到更细粒度的加密；加密可以在不同的层级进行，包括软件/软件堆栈，选择不同的加密层级各有优缺点应用程序级加密。这是最安全、最灵活的方法。应用程序最终控制是什么加密,可以准确地反映用户的需求。然

_lizhiqiang·2023-08-27 08:37

Flink minicluster 报错，因为 JDK 版本引起的错误

2022-10-2415:06:58.411[ORC_GET_SPLITS#1]WARNorg.apache.hadoop.hdfs.client.impl.BlockReaderFactory-I/Oerrorconstructingremoteblockreader.java.io.IOException

_lizhiqiang·2023-08-27 08:36

饿了么大数据计算引擎实践与应用

其中6人的离线团队需要维护大数据集群规模如下：Hadoop集群规模1300+HDFS存量数据40+PB，Read3.5PB+/天，Write500TB+/天14WMRJob/天，10WSparkJob/

Alukar·2023-08-27 08:39

【大数据】图解 Hadoop 生态系统及其组件

图解Hadoop生态系统及其组件1.HDFS2.MapReduce3.YARN4.Hive5.Pig6.Mahout7.HBase8.Zookeeper9.Sqoop10.Flume11.Oozie12

G皮T·2023-08-27 05:27

HDFS NN与2NN

HDFS元数据管理机制问题1：NameNode如何管理和存储元数据？

森林森·2023-08-27 03:30

ClickHouse 与 Hbase的对比

2.1Hbase架构编辑2.2ClickHouse的架构编辑3基本操作对比3.1HBase3.2ClickHouse4数据查询操作5各维度对比1ClickHouse与Hbase的基础hadoop生态圈技术繁多，HDFS

芋辕-·2023-08-27 01:05

机器学习及其matlab实现竞争神经网络与SOM神经网络进阶与提高视频教程

实现竞争神经网络与SOM神经网络进阶与提高视频教程大数据，云计算，架构，数据分析师，Hadoop，Spark，Storm，Docker，Mapreduce，Kafka，Flume，OpenStack，Hive，HDFS

平蝶与波澜·2023-08-27 01:56

【Hadoop】Hadoop入门概念简介

目录一、概述二、优点三、核心架构3.1、HDFS3.2、NameNode3.2、DataNode四、Hadoop发行版本4.1、ApacheHadoop4.2、CDP4.

开着拖拉机回家·2023-08-26 19:21

Hbase

1.Hbase基本概念一.为什么要用hbase相比于HDFSHDFS适合批处理场景,但不支持数据的随机查找HDFS不支持数据的更新相比于HiveHive适合批处理的数据分析场景Hive不适合实时的数据访问

lj72808up·2023-08-26 17:11

Hive学习之路（五）hive使用beeline配置远程连接

hive以hadoop集群为基础，提供hdfs的SQL支持；hive一般可以以mysql为元数据存储，默认Derby；hadoop，hive安装自行百度吧；介绍hive的远程访问：未配置之前使用beeline

hello_world!·2023-08-26 16:06

flink開啟歷史服務器

==================================================================#指定由JobManager归档的作业信息所存放的目录，这里使用的是HDFSjobmanager.archive.fs.dir

m0_37759590·2023-08-26 13:17

第三课 Hive的分桶详解

Hive分桶通俗点来说就是将表（或者分区，也就是hdfs上的目录而真正的数据是存储在该目录下的文件）中文件分成几个文件去存储。

Arroganter·2023-08-26 13:19

从零开始的Hadoop学习（二）| Hadoop介绍、优势、组成、HDFS架构

1.Hadoop是什么Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决，海量数据的存储和海量数据的分析计算问题。广义上来说，Hadoop通常是指一个更广泛的概念—Hadoop生态圈。2.Hadoop的优势高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失。高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节

庭前云落·2023-08-26 11:08

1 Hadoop入门

(3)广义上来说，Hadoop通常是指一个更广泛的概念——Hadoop生态圈2.Hadoop的优势3Hadoop组成4HDFS概述5YARN架构概述YetAnotherResourceNegotiator

水无痕simon·2023-08-26 11:08

Hadoop streaming 问题记录

其他用户没有读权限其他用户访问我的数据，发现出现Permissiondenied:user=,access=READ_EXECUTE,inode=，drwxr-x--x，该问题发现其他用户读我的hdfs

sf705·2023-08-26 10:11

从零开始的Hadoop学习（二）| Hadoop介绍、优势、组成、HDFS架构

1.Hadoop是什么Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决，海量数据的存储和海量数据的分析计算问题。广义上来说，Hadoop通常是指一个更广泛的概念—Hadoop生态圈。2.Hadoop的优势高可靠性：Hadoop底层维护多个数据副本，所以即使Hadoop某个计算元素或存储出现故障，也不会导致数据的丢失。高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节

庭前云落·2023-08-26 10:26

PyCharm整合Hive并通过SparkSQL执行引擎去操作Hive表

一、操作准备原理：Hive表的元数据库中，描述了有哪些database、table、以及表有多少列，每一列是什么类型，以及表的数据保存在hdfs的什么位置执行HQL时，先到MySQL元数据库中查找描述信息

小柒心得·2023-08-26 09:18

Spark整合hive的时候出错

Spark整合hive的时候连接Hdfs不从我hive所在的机器上找，而是去连接我的集群里的另外两台机器但是我的集群没有开所以下面就一直在retry猜测：出现这个错误的原因可能与core-site.xml

~提线木偶·2023-08-26 09:14

Elasticsearch基础

按官方的描述，集群规模支持“上百”个节点，相比HDFS等上千台的集群，这个规模“小了点”。影响集群

元维时代·2023-08-26 07:22

hadoop原理和细节

一、Hadoop概述Hadoop是Google的集群系统开源实现Google的集群系统：GFS、MapReduce、BigTableHadoop的集群系统：HDFS、MapReduce、HBaseHadoop

truezqx·2023-08-26 05:18

hadoop和spark读取GBK编码乱码

转自https://www.cnblogs.com/teagnes/p/6112019.html其实在很久之前洒家刚刚搞hadoop的时候就遇到了这个问题，只是那个时候只知道读取hdfs上的文本文件的时候一定要是

MacDonald·2023-08-26 02:54

使用 Amazon MemoryDB for Redis 作为 JuiceFS 的元数据引擎

JuiceFS也提供如HDFS兼容的API、S3兼容的API等多种类型接口，适用于不同的数据使用场景。亚马逊云科技开发者社区为开发者们提供全球的开发技术资源。这里有技

·2023-08-26 00:31

NameNode 处理线程配置（心跳并发）

在Hadoop配置文件hdfs-site.xml中添加如下配置项：默认为10线程dfs.namenode.handler.co

月亮给我抄代码·2023-08-25 22:46

【Linux】ctime、mtime、atime

我们的hdfsdatanod

叹了口丶气·2023-08-25 20:30

【HDFS】BlockReceiver#receivePacket方法详解

BlockReceiver#receivePacket：接收并处理一个packet，这个packet可能包含多个chunks。返回值是packet的数据字节数。receivePacket这个方法的代码有250+行。非常长。需要我们去一点一点拆解：privateintreceivePacket()throwsIOException{//从输入流in里读下一个packet。这个in是上游。receiv

叹了口丶气·2023-08-25 20:25

大数据——spark一文全知道

1、spark概述spark是专为大规模数据处理而设计的快速通用计算引擎，与Hadoop的MapReduce功能类似，但它是基于内存的分布式计算框架，存储还是采用HDFS。

AIGC人工智残·2023-08-25 16:20

推荐频道

#HDFS

大数据之Sqoop1.99.7部署实战

两个hdfs之间迁移传输数据

大数据集群需定期清理的文件（节省空间）

【Hadoop】DataNode 详解

分布式数据存储建设方法论——从HDFS架构优化与实践分析

Hive数据的导入

2 hadoop的目录

4 hadoop集群配置案例

hadoop - 节点的服役和退役（HDFS）

0201hdfs集群部署-hadoop-大数据学习

【大数据】PySpark 使用 FileSystem 操作 HDFS

contOS7 Spark StandAlone HA 环境搭建

大数据日常运维命令

二. hadoop环境搭建

hive数据调优

大数据时代之java操作hdsf

非常详细HDFS读写流程+完美视觉的HDFS读写流程图

Hadoop Hdfs基本命令

Hadoop（四）HDFS 读写流程

Hadoop之HDFS简介

Hadoop：HDFS读写流程详解

Hadoop笔记 HDFS读写流程

【Hadoop】HDFS读写流程和客户端命令使用

实战：大数据Spark简介与docker-compose搭建独立集群

Hadoop 2.10.1 HDFS 透明加密原理 + 实战 + 验证

Flink minicluster 报错，因为 JDK 版本引起的错误

饿了么大数据计算引擎实践与应用

【大数据】图解 Hadoop 生态系统及其组件

HDFS NN与2NN

ClickHouse 与 Hbase的对比

机器学习及其matlab实现竞争神经网络与SOM神经网络进阶与提高视频教程

【Hadoop】Hadoop入门概念简介

Hbase

Hive学习之路 （五）hive使用beeline配置远程连接

flink開啟歷史服務器

第三课 Hive的分桶详解

从零开始的Hadoop学习（二）| Hadoop介绍、优势、组成、HDFS架构

1 Hadoop入门

Hadoop streaming 问题记录

从零开始的Hadoop学习（二）| Hadoop介绍、优势、组成、HDFS架构

PyCharm整合Hive并通过SparkSQL执行引擎去操作Hive表

Spark整合hive的时候出错

Elasticsearch基础

hadoop原理和细节

hadoop和spark读取GBK编码乱码

使用 Amazon MemoryDB for Redis 作为 JuiceFS 的元数据引擎

NameNode 处理线程配置（心跳并发）

【Linux】ctime、mtime、atime

【HDFS】BlockReceiver#receivePacket方法详解

大数据——spark一文全知道

Hive学习之路（五）hive使用beeline配置远程连接