#HDFS 第56页

搭建Hadoop集群并实现hdfs上的crud操作

搭建Hadoop集群需要以下步骤：1.安装Java环境和Hadoop软件包在所有节点上安装Java环境和Hadoop软件包；以下是详细的步骤：在所有节点上安装Java环境和Hadoop软件包。如果您使用的是Ubuntu，可以使用以下命令安装Java环境和Hadoop软件包：sudoapt-getupdatesudoapt-getinstalldefault-jdksudoapt-getinstal

想用代码改变世界·2023-09-14 13:08

【hbase】按时间段批量删除hbase数据

背景是华为大数据平台mrs，这里运用到HDFS、Hive、HBase；数据通过接口接入到hbase，用hive创建hbase外部表。需求是某段时间数据有问题，需要删掉重新补入。

彧覇不能·2023-09-14 10:37

Hadoop3.x入门-Spark3.x部署

其中，Spark提供计算服务，Yarn提供资源调度能力，HDFS提供存储。

-小末·2023-09-14 10:06

阿里云服务器部署安装hadoop与elasticsearch踩坑笔记

2023-09-1214:00——2023.09.1320:06目录00、软件版本01、阿里云服务器部署hadoop1.1、修改四个配置文件1.1.1、core-site.xml1.1.2、hdfs-site.xml1.1.3

upward337·2023-09-14 09:50

Hadoop生态圈中的Flume数据日志采集工具

，核心是编写Flume的采集脚本xxx.conf六、Flume案例实操1、采集一个网络端口的数据到控制台2、采集一个文件的数据控制台3、采集一个文件夹下的新文件数据到控制台4、采集一个网络端口的数据到HDFS

Augenstern K·2023-09-14 08:30

简单讲讲在一台机器上用docker部署hadoop HDFS

为什么写这篇文章?老东西叫我用vmvare部署hadoop,我觉得这简直蠢毙了,让我们用docker和docker-compose来快速的过一遍如何使用docker-compose来部署简单的hadoop集群范例写在前面,一定要看我!!!还有注意！Hadoop中的主机名不能带-或者_注意了!一定注意存储空间大小,确保机器至少有10G左右的空余,不然跑不起来的如果出现如下问题,请调整docker-c

生生世世是所说的·2023-09-14 06:31

python3.7.2安装与配置_python3.7.2下载及安装（windows为例）

weixin_39686230·2023-09-14 04:44

大数据工作笔记||如何在hyper-v上扩充HDFS的存储空间

问题描述：最近公司来了一批200G左右的数据，因为以前的测试机器都是随便搭的，内存不够，所以要扩充HDFS的存储空间操作环境：hyper-v，centos6.7，内核版本4.4.113-1.el6.elrepo.x86

云成鹏·2023-09-14 02:39

Java中的分布式计算框架有哪些?

它包括Hadoop分布式文件系统（HDFS）和MapReduce计算模型。ApacheSpark：一个快速、通用的大规模数据处理框架。它支持内存计算，可以在磁盘和内存中同时进行数

玥沐春风·2023-09-13 23:54

dolphinscheduler创建创建租户错误

10.282org.apache.dolphinscheduler.api.exceptions.ApiExceptionHandler:[45]-创建租户错误org.apache.hadoop.security.AccessControlException:Permissiondenied:user=hdfs

奋斗哼哼·2023-09-13 18:30

大数据Hadoop高可用

HA高可靠集群hdfs中的HA搭建：三个namenode如何保证数据一致？

十七✧ᐦ̤·2023-09-13 15:43

hadoop运行WordCount时，Input path does not exist错误原因

core-site.xml为如下所示vim/usr/local/hadoop/etc/hadoop/core-site.xmlxml文件改为如果将core-site.xml文件变动为原来的内容，则程序将不再去hdfs

摆烂z·2023-09-13 08:44

Middleware ❀ Hadoop功能与使用详解（HDFS+YARN）

文章目录1、服务概述1.1HDFS1.1.1架构解析1.1.1.1Block数据块1.1.1.2NameNode名称节点1.1.1.3SecondaryNameNode第二名称节点1.1.1.4DataNode

无糖可乐没有灵魂·2023-09-13 08:13

Hive——数据库、表的增删改查（每一步详细代码加截图，傻瓜式教程）

我们安装完Hive，配置好hive-site.xml文件，其中我把hive在hdfs路径设置为hive110/warehouse启动hadoophdfsdfs-chmod-R777/hive110给所有组加最高权限

数据孤岛·2023-09-13 04:50

简单了解Sqoop

文章目录概述数据导入MySQL到HDFSMySQL到Hive增量数据导入数据导出概述sqoop是一款开源工具，主要运用在Hadoop(Hive)与传统的数据库(mysql\postgresql等)间进行数据的传递

飞越石之海·2023-09-13 04:40

datax工具介绍及简单使用

介绍Datax是一个异构数据源离线同步工具，致力于实现包括关系数据库、HDFS、Hive、ODPS、Hbase等各种异构数据源之间稳定高效的数据同步功能设计理念为了解决异构数据源同步问题，DataX将复杂的网状的同步链路变成了星型数据链路

飞越石之海·2023-09-13 04:08

大数据平台迁移后yarn连接zookeeper 异常分析

1.Yarn连接zookeeper日志报错问题分析:yarn6000毫秒内无法活动连接到活跃的zookeeper服务hdfshivekafk

岁月的眸·2023-09-13 00:03

Hadoop

Hadoop主要由HDFS(HadoopDistributedFileSystemHadoop分布式文件系统)、MapReduce和HBase组成Hadoop的初衷是为解决Nutch的海量数据爬取和存储的需要

凤舞飘伶·2023-09-12 23:16

An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.

文章目录1.解决问题12.解决问题23.创建文件夹4.上传文件到指定文件夹1.解决问题1一开始在本地读取HDFS内的文件，使用下面代码一直报错，翻了很多CSDN博客，配置环境和降低版本都无法解决。

自由自在的鱼丶·2023-09-12 21:46

K8S部署MinIo

_是潮汕的灿灿展吖的博客-CSDN博客_k8s部署minio文章目录一、前言二、Minio三、k8s容器化部署一、前言分布式文件存储系统，作为一个码农，多多少少会听说大名鼎鼎hadoop的文件系统HDFS

zhangjunli·2023-09-12 15:45

HBase高级特性、rowkey设计以及热点问题处理

设计以及热点问题处理在阐述HBase高级特性和热点问题处理前，首先回顾一下HBase的特点：分布式、列存储、支持实时读写、存储的数据类型都是字节数组byte[]，主要用来处理结构化和半结构化数据，底层数据存储基于hdfs

高达一号·2023-09-12 14:25

hdfs 常用命令

ls格式：hdfsdfs-lsURI作用：类似于Linux的ls命令，显示文件列表hdfsdfs-ls/lsr格式:hdfsdfs-lsrURI作用:在整个目录下递归执行ls,与UNIX中的ls-R类似

吾为天帝乎·2023-09-12 12:15

Pandas 解决保存H5文件发生异常问题

代码：#保存h5文件#指定文件路径和读写模式hd=pd.HDFStore('mystock.h5','w')#将my的数据存入到hd中hd['data']=my#关闭文件hd.close()发生异常：原因

凌冰_·2023-09-12 12:38

HDFS常用命令操作

HDFS（HadoopDistributedFileSystem）是一种分布式文件系统，它具有高容错的特点，并且可以部署在廉价的通用硬件上，提高吞吐率的数据访问，适合那些需要处理海量数据集的应用程序。

lizb·2023-09-12 09:13

13、HDFS Snapshot快照

Hadoop系列文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、HDFS操作-shell客户端3、HDFS的使用（读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件

一瓢一瓢的饮 alanchan·2023-09-12 09:28

Hadoop的安装和使用，Windows使用shell命令简单操作HDFS

,2，分布式文件系统HDFS2，分布式文件系统HDFS1.HDFS简介Hadoop分布式文件系统（HadoopDistributedFileSystem，HD

星星失眠️·2023-09-12 08:16

Hadoop生态概述及常见报错

它包含两个模块，一个是MapReduce，另外一个是Hadoop分布式文件系统（HDFS）。MapReduce：它是一种并行编程模型在大型集群普通硬件可用于处理大型结构化，半结构化和非结构化数据。

WilenWu·2023-09-12 08:43

5. spark 参数问题

官网地址：spark参数在代码中设置参数spark-default.confdfs.namenode.rpc-address.hdfs-cluster.nn1xxx:9000目前大多数的集群都是8020

笔生花·2023-09-12 07:36

hdfs文件没有权限

Errorwhilecompilingstatement:FAILED:RuntimeExceptionCannotcreatestagingdirectory‘hdfs://192.168.56.161

xin980724·2023-09-12 05:07

NSQuotaExceededException

Causedby:org.apache.hadoop.ipc.RemoteExceptionorg.apache.hadoop.hdfs.protocol.NSQuotaExceededExceptionTheNameSpacequota

arbalest1080·2023-09-11 20:39

Hadoop之部署HDFS

下载hadoop首先进入Hadoop官网ApacheHadoop选择download进入下载页面选择你要下载的版本，这里选择的是最新版的二进制包（一般都选择二进制的）点击binary进入下一个页面这个页面里圈起来的三个链接都可以进行下载，推荐用的是第一个链接P：apache是外网，下载速度对网络环境有要求，速度慢的小伙伴可以从网盘里直接提取哦链接：https://pan.baidu.com/s/1

⚝ ⚝·2023-09-11 13:08

Hadoop之HDFS使用命令(常用)

本篇仅记载部分常用命令若无所需命令可查看官方网站ApacheHadoop3.3.6–Overview注：一切命令仅在启动HDFS集群后执行，否则会报错注：仅在hadoop用户下操作在Linux中超级用户是

⚝ ⚝·2023-09-11 13:07

hbase条件查询实现理论

文中可能涉及到的API：Hadoop/HDFS:http://hadoop.apache.org/common/docs/current/api/HBase:http://hbase.apache.org

rolin-刘瑞·2023-09-11 13:17

HBase条件查询（多条件查询）

文中可能涉及到的API：Hadoop/HDFS:http://hadoop.apache.org/common/docs/current/api/HBase:http://hbase.apache.org

varyall·2023-09-11 13:17

【Hive】Hive练习题50道

数据展示student表score表teacher表course表在hive中建表导入数据首先要先在hdfs上为每个数据建一个文件名相同的文件夹，以上的4张表都是txt格式的，放入hdfs相对应的文件夹后

飝鱻.·2023-09-11 09:54

hadoop伪分布模式配置

1、修改/usr/local/hadoop/etc/hadoop/core-site.xml和/usr/local/hadoop/etc/hadoop/hdfs-site.xml文件core-site.xml

鸡肋是鸡肋！·2023-09-11 08:31

Hadoop的HDFS的集群安装部署

1、下载1.1、去官网，点下载下载地址：https://hadoop.apache.org/1.2、选择下载的版本1.2.1、最新版1.2.2、其他版本，我这里选择3.3.41.3、上传，解压HDFS是主从模式

新征程，再出发·2023-09-11 04:34

模拟生成新能源车辆数据，并写入HDFS中

目录基本要求如下一、虚拟机的准备二、生成新能源车辆数据1、导入需要用到的库2、生成车辆数据三、将数据写入json文件四、将文件写入HDFS1、下载pyhdfs2、将文件写入HDFS中五、总结编写一个程序

db_wf_2030·2023-09-11 03:06

Python连接hive数据库小结

基本情况集团有20台服务器（其中1台采集主节点，1台大数据监控平台，1台集群主节点，17台集群节点），65THDFS的磁盘资源，3

mx丶姜小辉·2023-09-11 01:06

离线数仓同步数据3

业务数据_增量表数据同步1）Flume配置概述2）Flume配置实操3）通道测试4）编写Flume启停脚本1）Flume配置概述Flume需要将Kafka中topic_db主题的数据传输到HDFS，故其需选用

program chef·2023-09-11 00:39

黑猴子的家：HDFS写数据流程

1）客户端向namenode请求上传文件，namenode检查目标文件是否已存在，父目录是否存在。2）namenode返回是否可以上传。3）客户端请求第一个block上传到哪几个datanode服务器上。4）namenode返回3个datanode节点，分别为dn1、dn2、dn3。5）客户端请求dn1上传数据，dn1收到请求会继续调用dn2，然后dn2调用dn3，将这个通信管道建立完成6）dn1

黑猴子的家·2023-09-10 16:11

L1 项目概述与Hadoop部署

1.技术栈：Hadoop+Hive+Sqoop+Flume+AzkabanFlume采集Nginxweb服务器上的日志，采集完成后存储到Hadoop的平台，最终存储到HDFS上，处理和分析采用Hive的方式

lee2813·2023-09-10 16:53

大数据组件HDFS、MapReduce、Hive三个大数据组件的特点和架构，并详细阐述它们之间的联系与区别

作者：禅与计算机程序设计艺术1.简介大数据组件是解决大数据的关键组件之一，在Hadoop生态系统中占据着至关重要的地位，它包括了HDFS、MapReduce、Hive等等一系列框架和工具。

禅与计算机程序设计艺术·2023-09-10 14:54

NoSQL-Hbase-实现原理

这样的话，小文件会慢慢变成大文件，这样的大文件就适合存储在HDFS中了。就跟洗袜子一样，袜子先

GeekerLou·2023-09-10 09:49

Presto初步剖析

用它就是写SQLGB->PB查询比较快的，查询延迟比较低的，秒级查询的场景Presto不是一个标准的数据库，查询需要对接其他数据源，查询引擎分析引擎如果想要计算的数据分散在Hdfs、Hive、ES、Hbase

终极之旅·2023-09-10 09:12

【大数据毕设】基于Hadoop的音乐推荐系统论文(三)

该系统采用Hadoop生态系统中的组件，包括HDFS、MapReduce、HBase和Mahout等，实现

Maynor996·2023-09-10 07:31

解决Hive动态分区小文件过多问题

（2）在HDFS中，每个小文件对象约占150byte，如果

技匠三石弟弟·2023-09-10 06:48

日更

啥，ghh算数，字母算数，不过要空格，asdfghjklbxxheyhxeyistudgjtbavzbnxbncdryctyyjdjdsznnmbcvxzqwertvyuioplkjghdfs

穷疯了的我·2023-09-10 03:34

大数据导论笔记

一、大数据方向1、技术发展计算机网络云计算大数据时代人工智能（本科：使用，研究生：推导，博士：创新）2023年大数据模型人工智能元年2、基础课程hadoop大数据基础三大件：HDFS分布式存储、MapReduce

暗托涅瓦·2023-09-10 02:12

大数据处理架构Hadoop生态系统，在各个模块的作用是什么？

；即使是大数据的架构，应用层依然会是传统的web应用，但是会根据数据特点对数据存储（结构化数据依然会保存在传统的关系型数据库——如MySql，日志等非结构数据会保存在分布式文件系统——如Hadoop的HDFS

qunqun8889·2023-09-09 21:46

推荐频道

#HDFS

搭建Hadoop集群 并实现hdfs上的crud操作