E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
#HDFS
介绍 Apache Spark 的基本概念和在大数据分析中的应用
Spark支持多种语言,如Scala、Java、Python和R等,也支持多种数据源,包括
HDFS
、Cassandra、HBase等。
代码之路无极限
·
2023-09-02 08:08
Python入门
apache
spark
数据分析
了解Apache跟Apache Hadoop和Apache Spark的原理,应用;
HDFS
Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称
HDFS
。
HDFS
有高容错性的特点,并且设
lwh_python
·
2023-09-02 08:38
python
大数据
Apache
Hadoop
Apache
Spark
Hadoop
HDFS
高阶优化方案
目录一、短路本地读取:ShortCircuitLocalReads1.1背景1.2老版本的设计实现1.3安全性改进版设计实现1.4短路本地读取配置1.4.1libhadoop.so1.4.2
hdfs
-site.xml1.4.3
Stars.Sky
·
2023-09-02 07:02
Hadoop
hadoop
hdfs
大数据
Hadoop -
HDFS
常用操作指令
1.启动
HDFS
hadoop/sbin/start-dfs.sh2.关闭
HDFS
hadoop/sbin/stop-dfs.sh3.在
HDFS
中创建文件夹#老版本hadoopfs-mkdir-ppath#
是杨杨呀
·
2023-09-02 07:32
Hadoop
hadoop
hdfs
大数据
从零开始的Hadoop学习(六)|
HDFS
读写流程、NN和2NN工作机制、DataNode工作机制
1.
HDFS
的读写流程(面试重点)1.1
HDFS
写数据流程1.1.1剖析文件写入(1)客户端通过DistributedFileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在
庭前云落
·
2023-09-02 07:32
Hadoop
hadoop
学习
hdfs
Hadoop 3.2.4 集群搭建详细图文教程
3.2.3各个节点上安装JDK1.8环境3.3安装Hadoop3.4Hadoop安装包目录结构3.5编辑Hadoop配置文件3.5.1hadoop-env.sh3.5.2core-site.xml3.5.3
hdfs
-site.xm
Stars.Sky
·
2023-09-02 07:01
Hadoop
hadoop
大数据
分布式
Hadoop集群搭建(五)-集群配置文件
目录集群部署规划自定义配置文件节点格式化配置workers启动集群配置历史服务器集群部署规划hadoop102hadoop103hadoop104
HDFS
NameNodeDataNodeSecondaryNameNodeNataNodeYARNNodeManagerResourceManagerNodeManagerNodeManager
HUA_8376
·
2023-09-02 06:55
大数据hadoop
hadoop
hdfs
大数据
520页(17万字)集团大数据平台整体解决方案word
如有侵权请联系删除,更多浏览公众号:智慧方案文库1.1.1系统总体逻辑结构4-14系统总体逻辑结构图参见上图,基于Hadoop构建的企业级数据仓库,包含:分布式列式存储数据库Hyperbase和分布式文件系统
HDFS
2023小目标
·
2023-09-02 01:40
数据库
大数据
Spark SQL
SparkSQLSparkSQL的概述Hive的诞生,主要是因为开发MapReduce程序对Java要求比较高,为了让他们能够操作
HDFS
上的数据,推出了Hive。
奋斗的蛐蛐
·
2023-09-02 00:07
数据库集群的简单了解
Update关于操作的日志1.0redolog读一次写一次一共2次,不安全注意redolog是顺写而file是随机所以Mysql做出类似
HDFS
的操作行为日志和数据分离,但是不同的是,Mysql在内存中操作修改
叫我莫言鸭
·
2023-09-01 23:59
大数据
mysql
数据库
线上问诊:数仓开发(一)
业务数据采集线上问诊:数仓数据同步线上问诊:数仓开发(一)文章目录系列文章目录前言一、Hiveonyarn二、数仓开发1.ODS开发2.DIM开发3.DWD开发总结前言上次我们已经将MYSQL的数据传送到了
HDFS
超哥--
·
2023-09-01 18:12
线上问诊
数据仓库
Hudi 核心原理
基本概念TimelineTimeline可以理解为Hudi表的一个时间线,记录了Hudi表在不同时刻的信息和行为,这个Timeline由TimelineServer来管理,通常存在于
Hdfs
、RDBMS
隔壁寝室老吴
·
2023-09-01 17:20
大数据
spark
hadoop
大数据平台的SQL查询引擎有哪些?
前言大数据平台中Hadoop的分布式文件系统(
HDFS
)之上形成了一种极具特色的技术群体,那就是SQL查询引擎。
守护石技术研究
·
2023-09-01 13:19
Error: Error while compiling statement: FAILED: SemanticException Unable to determine if
hdfs
://hado.
1.发现问题:在hive客户端或者beeline查询hive表时候报错:根据报错信息查看,是在集群namenode做了HA之后,产生的
hdfs
路径不对的问题;2.解决问题,修改hive元数据mysql信息表
gongxiucheng
·
2023-09-01 13:28
hive
hdfs
hadoop
mysql
java
线上环境HBASE-1.2.0出现oldWALs无法自动回收情况;
正常情况下,hmaster会定期清理oldWALs文件夹,一般该文件大小也就几百兆,但是我们线上环境出现了该文件没有自动回收情况,如图:该目录占用
hdfs
空间多达7.6T,浪费空间:后来经过多番查找,找到了问题所在
gongxiucheng
·
2023-09-01 13:28
java
linux
数据库
python
mysql
HDFS
】FsDatasetImpl系列文章(九):moveBlockAcrossVolumes方法
moveBlockAcrossVolumes方法,主要被用在diskbalancer的场景里。此方法的唯一调用点也是在DiskBalancer.DiskBalancerMover#copyBlocks里。/***Movesagivenblockfromonevolumetoanothervolume.Thisisusedbydisk*balancer.**@paramblock-ExtendedB
叹了口丶气
·
2023-09-01 11:13
HDFS全方位实战
hdfs
大数据
hadoop
【
HDFS
】XXXRpcServer和ClientNamenodeProtocolServerSideTranslatorPB小记
初始化RouterRpcServer时候会newClientNamenodeProtocolServerSideTranslatorPB,并把当前RouterRpcServer对象(this)传入构造函数:ClientNamenodeProtocolServerSideTranslatorPBclientProtocolServerTranslator=newClientNamenodeProto
叹了口丶气
·
2023-09-01 11:07
HDFS全方位实战
hdfs
hadoop
大数据
说说Flink on yarn的启动流程
分析&回答核心流程FlinkYarnSessionCli启动的过程中首先会检查Yarn上有没有足够的资源去启动所需要的container,如果有,则上传一些flink的jar和配置文件到
HDFS
,这里主要是启动
学一次
·
2023-09-01 09:34
大数据
flink
大数据
java
HBase 和 Phoenix 的结构
HBase结构可以看到HBase集群由Master、RegionServer、ZooKeeper、
HDFS
组成Master协调管理多个RegionServer,侦测各RegionServer之间的状态,
moon_light_
·
2023-09-01 08:28
HDFS
From
HDFS
:TheHadoopDistributedFileSystem(
HDFS
)isdesignedtostoreverylargedatasetsreliably,andtostreamthosedatasetsathighbandwidthtouserapplications.AssumptionsHardwarefailureisthenormratherthantheexcept
klory
·
2023-09-01 06:37
一百六十九、Hadoop——Hadoop退出NameNode安全模式与查看磁盘空间详情(踩坑,附截图)
一、目的在海豚跑定时跑kettle的从Kafka到
HDFS
的任务时,由于Linux服务器的某个文件磁盘空间满了,导致Hadoop的NodeName进入安全模式,此时光执行
hdfs
dfsadmin-safemodeleave
天地风雷水火山泽
·
2023-09-01 06:50
Hadoop
hadoop
大数据
从零开始的Hadoop学习(五)|
HDFS
概述、shell操作、API操作
1.
HDFS
概述1.1
HDFS
产出背景及定义1)
HDFS
产生背景随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件
庭前云落
·
2023-09-01 06:20
Hadoop
hadoop
HDFS
Single Node Java API
HDFS
SingleNodeJavaAPIJavaAPIpom.xml4.0.0com.lihaozehadoop1.0.0jarhadoophttp://maven.apache.org1.81.81.8UTF
李昊哲小课
·
2023-09-01 06:16
数据分析
大数据
Hadoop
大数据
java
数据分析
0202
hdfs
的shell操作-hadoop-大数据学习
文章目录1进程启停管理2文件系统操作命令2.1
HDFS
文件系统基本信息2.2介绍2.3创建文件夹2.4查看指定文件夹下的内容2.5上传文件到
HDFS
2.6查看
HDFS
文件内容2.7下载
HDFS
文件2.8
HDFS
gaog2zh
·
2023-09-01 06:08
#
Hadoop
hdfs
hadoop
大数据
Apache Beam实战指南 | 手把手教你玩转大数据存储
Hdfs
IO
关于ApacheBeam实战指南系列文章随着大数据2.0时代悄然到来,大数据从简单的批处理扩展到了实时处理、流处理、交互式查询和机器学习应用。近年来涌现出诸多大数据应用组件,如HBase、Hive、Kafka、Spark、Flink等。开发者经常要用到不同的技术、框架、API、开发语言和SDK来应对复杂应用的开发,这大大增加了选择合适工具和框架的难度,开发者想要将所有的大数据组件熟练运用几乎是一项
yoku酱
·
2023-09-01 04:40
大数据学习:impala基础
impala基础1.impala介绍1.1impala概述Impala是Cloudera公司推出,提供对
HDFS
、Hbase数据的高性能、低延迟的交互式SQL查询功能。
zui初的梦想
·
2023-09-01 04:05
大数据
大数据
学习
java大数据开发训练营--Impala
第1部分Impala概述1.1Impala是什么Impala是Cloudera提供的⼀款开源的针对
HDFS
和HBASE中的PB级别数据进⾏交互式实时查询(Impala速度快),Impala是参照⾕歌的新三篇论
Laozizuiku
·
2023-09-01 04:34
java大数据
大数据
大数据学习:Hive主流文件存储格式对比
为了更好的阐述使用SerDe的场景,我们需要了解一下Hive是如何读数据的(类似于
HDFS
中数据的读写操作):
HDFS
files–>InputFil
zui初的梦想
·
2023-09-01 04:34
大数据
大数据
学习
hive
Ambari实战-1:Ambari使用场景及介绍
Ambari目前已支持大多数Hadoop组件,包括
HDFS
,MapReduce,Hive,Pig,HBase,Zookeeper,Sqoop和HCatalog等。ApacheAmbari支持H
qianmoQ
·
2023-09-01 00:24
大数据学习之路之HBASE
它可以直接使用本地文件系统,也可以使用Hadoop的
HDFS
文件存储系统。不过,为了提高数据的可靠性和系统的健壮性,并且发挥HBase处理大数据的能力,使用
HDFS
作为文件存储系统才更为稳妥。
王小冬
·
2023-09-01 00:27
spark对接aws s3以及兼容s3接口的对象存储
之前写了一篇如何让spark使用阿里云oss对象存储替代本地存储或者
hdfs
存储jar包,日志等,文章链接:spark对接oss对象存储今天写一篇比较通用的,即spark对接awss3或者其他厂商兼容s3
铁人史大颗
·
2023-08-31 13:43
spark
spark
aws
大数据
一百六十八、Kettle——用海豚调度器定时调度从Kafka到
HDFS
的任务脚本(持续更新追踪、持续完善)
一、目的在实际项目中,从Kafka到
HDFS
的数据是每天自动生成一个文件,按日期区分。而且Kafka在不断生产数据,因此看看kettle是不是需要时刻运行?能不能按照每日自动生成数据文件?
天地风雷水火山泽
·
2023-08-31 11:54
Kettle
大数据调度工具
kafka
hdfs
分布式
Centos7 + Apache Ranger 2.4.0 部署
它可以对Hadoop生态的组件如
HDFS
、Yarn、Hive、Hbase等进行细粒度的数据访问控制。通过操作Ranger控制台,管理员可以轻松的通过配置策略来控制用户访问权限。
snipercai
·
2023-08-31 09:02
apache
Hive-安装与配置(1)
感谢各位前辈朋友们支持学习~文章目录1.Hive环境介绍2.搭建环境准备3.建立Hive元数据库4.安装配置Hive1.Hive环境介绍Hive在Hadoop生态系统中运行,依赖Hadoop分布式文件系统(
HDFS
beixi@
·
2023-08-31 09:01
大数据技术学习
运维
hadoop
分布式
大数据
hive
大数据高级开发工程师——数据采集框架Flume(1)
FlumeFlume基本介绍概述运行机制Flume采集系统结构图1.简单结构2.复杂结构Flume实战案例采集网络端口数据1.Flume的安装部署2.开发配置文件3.启动4.使用telnet测试采集目录到
HDFS
1
斗志昂-杨
·
2023-08-31 08:08
大数据
flume
hadoop
big
data
大数据
Hadoop优化以及新特性
文章目录
HDFS
-多目录
HDFS
-集群扩容以及缩容
HDFS
故障排查NameNode数据丢失集群安全模式&磁盘修复Hadoop企业优化常用的调优参数Hadoop小文件优化方法Hadoop新特性hadoop2
GambleLife
·
2023-08-31 07:02
Hadoop
hadoop
hdfs
小文件问题
hdfs
小文件问题背景原因:1)
hdfs
上每个文件都要在NN的上创建对应的元数据,每个文件对应的元数据大概150byte,这个元数据是要存储在NN的内存中。
咖啡F
·
2023-08-31 07:32
hadoop
hdfs
hadoop
big
data
HDFS
小文件问题及解决方案(Hadoop Archive,Sequence File和CombineFileInputFormat)
方案(HAR)第一步:创建归档文件第二步:查看归档文件内容第三步:解压归档文件三、SequenceFiles方案四、CombineFileInputFormat方案一、前言概述小文件是指文件size小于
HDFS
皮哥四月红
·
2023-08-31 07:31
Hadoop
大数据
hadoop
hdfs
【大数据之Hadoop3.x】
一、基本概念特点:大量、高速、多样、低价值密度(4V)主要解决海里数据存储和分析计算起源:GFS–>
HDFS
;Map-Reduce-->MR;BigTable–>HBase高可靠性:多个数据副本;高扩展性
JMFFFFF
·
2023-08-31 07:01
hadoop
大数据
Hadoop调优思路
目录1
HDFS
—核心参数1.1NameNode内存生产配置1.2NameNode心跳并发配置1.3开启回收站配置2
HDFS
—集群压测2.1测试
HDFS
写性能2.2测试
HDFS
读性能4
HDFS
—集群扩容及缩容
首席撩妹指导官
·
2023-08-31 07:30
大数据
hadoop
hdfs
hadoop
hdfs
大数据
【大数据之Hadoop】三十四、Hadoop综合调优之小文件优化方法
1Hadoop小文件弊端
HDFS
上每个文件都要在NameNode上创建对应的元数据,这个元数据的大小约为150byte,这样当小文件比较多的时候,就会产生很多的元数据文件,一方面会大量占用NameNode
阿宁呀
·
2023-08-31 07:28
hadoop
hadoop
大数据
mapreduce
[ hadoop ] 集群性能调优全面总结
hadoop]集群性能调优全面总结_bone_ds的博客-CSDN博客_hadoop集群优化引子文章涵盖了hadoop框架的三个组成架构各自的优化方法,涉及存储,计算,故障排除等多个方面的具体调优内容,先后解决
HDFS
javastart
·
2023-08-31 07:27
hadoop
hdfs
mapreduce
小文件处理专题
小文件处理专题一MapReduce1.1小数据带来的问题在
HDFS
上,每个文件在NameNode上占150Byte(在内存中占用),如果小文件过多的话就占用大量的Namenode内存,并且查找元数据的速度会很慢在处理
long_World
·
2023-08-31 07:27
大数据优化专题
大数据
10、
HDFS
小文件解决方案--Archive
Hadoop系列文章目录1、hadoop3.1.4简单介绍及部署、简单验证2、
HDFS
操作-shell客户端3、
HDFS
的使用(读写、上传、下载、遍历、查找文件、整个目录拷贝、只拷贝文件、列出文件夹下文件
一瓢一瓢的饮 alanchan
·
2023-08-31 07:56
#
hadoop专栏
hdfs
hadoop
大数据
bigdata
mapreduce
DataX 异构数据贴源同步产品 - 技术分享篇(一)
DataX是阿里开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、
HDFS
、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
Splicing
·
2023-08-31 06:07
DataX
java
mysql
spark
scala
HBase应用场景、原理与基本架构
1、HBase概述HBase是一个构建在
HDFS
上的分布式列存储系统;HBase是ApacheHadoop生态系统中的重要一员,主要用于海量结构化数据存储;从逻辑上讲,HBase将数据按照表、行和列进行存储
Splicing
·
2023-08-31 06:07
HBase
hbase
架构
hadoop
创建DataFrame的几种方式(以及解决乱码的问题)
SparkSQL的数据源可以是JSON类型的字符串,JDBC,Parquent,Hive,
HDFS
等。
Splicing
·
2023-08-31 06:06
Spark
分布式集群——搭建Hadoop环境以及相关的Hadoop介绍
系列文章目录分布式集群——jdk配置与zookeeper环境搭建分布式集群——搭建Hadoop环境以及相关的Hadoop介绍文章目录前言一hadoop的相关概念1.1Hadoop概念补充:块的存储1.2
HDFS
张小鱼༒
·
2023-08-31 06:54
分布式
hadoop
大数据
centos
Linux
zookeeper
分布式集群
【运维】hadoop3.0.3集群安装(一)多节点安装
Purpose二.Prerequisites三.Installation1.节点规划2.ConfiguringHadoopinNon-SecureMode3.准备工作4.配置core-site.xml
hdfs
-site.xmlyarn-site.xmlmapred-site.xmlworkers4
roman_日积跬步-终至千里
·
2023-08-31 05:22
#
hadoop运维
运维
hadoop
大数据
【运维】hadoop 集群安装(三)
hdfs
、yarn集群配置、nodemanager健康管理讲解
文章目录一.配置说明1.hadoop各进程环境配置2.hadoop各进程配置2.1.etc/hadoop/core-site.xml2.2.etc/hadoop/
hdfs
-site.xml2.2.1.NameNode2.2.2
roman_日积跬步-终至千里
·
2023-08-31 05:52
#
hadoop运维
hadoop
运维
hdfs
上一页
55
56
57
58
59
60
61
62
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他