E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
#HDFS
HIVE-17824,删除
hdfs
分区信息,清理metastore元数据
当手动删除
HDFS
分区数据时,但是并没有清理Hive中的分区元数据,删除操作无法自动更新hive分区表元数据。
jiedaodezhuti
·
2023-10-23 17:33
大数据
hadoop
hive
hdfs
hadoop
hive字段关键字问题处理
xxl_job部署shell调度任务时,发现在编写Hql时,对一些使用关键字命名的字段无法解析,按开发规范,字段命名不应该有关键字,但是数据来源是第三方,无法修改,需要通过flume对从kafka的数据到
hdfs
jiedaodezhuti
·
2023-10-23 17:01
大数据
hive
hadoop
数据仓库
【Hadoop】创建Hadoop集群(3个节点)—— 安装部署一个3个节点构成的hbase集群
前言此实验搭建3个虚拟节点,一个mater,一个slave1,一个slave2集群简介HADOOP集群具体来说包含两个集群:
HDFS
集群和YARN集群,两者逻辑上分离,但在物理上常在一起。
db_lxm_2072
·
2023-10-23 14:22
hadoop
hdfs
大数据
spark 算子详解 java_spark RDD算子详解3
2.
HDFS
sav
拐个王子回古墓
·
2023-10-23 14:12
spark
算子详解
java
Spark RDD&算子 基本操作
(2)由外部存储系统的数据集创建,包括本地的文件系统,还有所有Hadoop支持的数据集,比如
HDFS
、Cassandra、HBase等。
傍ྂ离ྂ
·
2023-10-23 14:40
Scala
Spark
spark
scala
大数据 Hadoop(三)API操作
第03章HadoopAPI操作
HDFS
操作Maven配置进行haddop
HDFS
相关开发首先需要引入下面两个开发依赖,当然需要根据开发环境中的Hadoop版本选择相关依赖的版本号。
傅二毛
·
2023-10-23 12:16
Spark任务中Partition分区与
HDFS
中的Block数据块
hdfs
-block位于存储空间;spark-partition位于计算空间;
hdfs
-block的大小是固定的;spark-partition大小是不固定的;
hdfs
-block是有冗余的、不会轻易丢失
liuzx32
·
2023-10-23 07:32
Redis学习笔记——NoSQL
商品的图片:采用分布式文件系统,如淘宝的TFS、Hadoop的
HDFS
、Google的GFS等。商品的关键字(搜索引擎):淘宝内用ISearch。商品的波段性的热点高频信息:内存数据库
从程序猿到程序员
·
2023-10-23 06:51
Redis
Hadoop
HDFS
分布式文件系统(介绍以及基础操作命令)
二、分布式的基础架构分析三、
HDFS
基础架构1.
HDFS
简介四、
HDFS
集群启停命令1.一键启停脚本2.单进程启停五、
HDFS
基本操作命令1.创建文件夹2.查看指定目录下内容3.上传文件到
HDFS
指定目录下
菜鸟一千零八十六号
·
2023-10-23 05:25
大数据
hadoop
hdfs
大数据
Hadoop之
HDFS
目录1.
HDFS
概述1.1
HDFS
产出背景及定义1.2
HDFS
优缺点1.3
HDFS
组成架构1.4
HDFS
文件块大小2.
HDFS
的Shell操作2.1基本语法2.2命令大全2.3常用命令实操2.3.1准备工作
基础不牢,地动山摇...
·
2023-10-23 05:14
大数据
hadoop
hdfs
hadoop01 - 大数据启蒙、初识
HDFS
分治思想:需求:1.我有一万个元素(比如数字或者单词)需要存储?2.如果查找某一个元素,最简单的遍历方式复杂度是多少3.如果我期望复杂度是O(4),怎么处理1.使用链表的方式储存数据使用链表的方式储存数据2.使用遍历的方式寻找X,时间复杂度O(n)3.使用数据分治的思想,把数据放到若干链表中(用分为2500个小链表举例,简单举例,不考虑数据倾斜等其他问题)4.分治的思想很多,比如redis集群,e
Doit_0e7c
·
2023-10-23 05:59
hive初识
是个啥1)hive主要是对mapreduce任务进行简化操作,方便工作人员快速进行数据分析;2)hive是构建在hadoop之上的数据仓库,能够将结构化的数据文件映射成一张表,以HQL作为查询接口,使用
HDFS
紫苓
·
2023-10-23 02:31
一步步练习Hadoop实操之
HDFS
和YARN,内附详细测试步骤与图解!
启动Hadoop启动
HDFS
:start-dfs.sh会提示你是否继续连接等等,都yes即可!
ZiTalk梓言梓语
·
2023-10-23 01:04
大学
hadoop
大数据
yarn
高效存储大规模数据
Hadoop分布式文件系统(
HDFS
)是一个常用的分布式文件系统,它基于大规模集群,并通过数据切割和复制来实现高容错性和可靠性。以下是一个使用
HDFS
存储数据的Python代码示
心之所向,或千或百
·
2023-10-23 01:47
大数据
大数据
Hive—学习笔记(一)
的脚本化运行使用方式5、hive的基本语法--建表语法6、hive的基本语法--内部表和外部表.7、hive的基本语法--create建表likeas8、hive的基本语法--数据导入--从本地--从
hdfs
9
weixin_30526593
·
2023-10-22 23:54
大数据
java
json
分布式文件系统介绍与minio介绍与使用(附minio java client 使用)
前后端分离上传视频/上传大文件——前后端分离断点续传&minio分片上传实现文章目录1.分布式文件系统基本概念1.1文件系统1.2分布式文件系统1.3分布式文件系统的产品1.3.1NFS1.3.2GFS1.3.3
HDFS
1.3.4
是谢添啊
·
2023-10-22 21:24
#
java开发实战知识
java
网络
对象存储
linux
go
impala+kudu整合(1)
第一次接触impala和kudu这两个组件,刚接触的时候感觉好神秘的两个组件,心里一直有个疑问为什么要两个结合着用,不太理解,就像刚接触hive+
hdfs
一样,用了之后才发现kudu确实是一个非常好用的一个实时处理数据的一个数据库
焱行软件科技计算机毕设
·
2023-10-22 20:04
java
Hadoop3教程(三十):(生产调优篇)纠删码
文章目录(155)纠删码原理纠删码原理纠删码相关命令纠删码策略解释(156)纠删码案例实操参考文献(155)纠删码原理纠删码原理默认情况下,一个文件在
HDFS
里会保留3个副本,以此提高数据的可靠性(容灾
经年藏殊
·
2023-10-22 10:31
大数据技术
大数据
hadoop
Hadoop面试题(
HDFS
篇)
1.
HDFS
写流程?以及参与的组件?
Young_IT
·
2023-10-22 10:57
大数据开发
hadoop
hdfs
大数据
DataX原理及安装
DataX是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括MySQL、Oracle、SqlServer、Postgre、
HDFS
、Hive、ADS、HBase、TableStore(OTS)
Rudolf_liu
·
2023-10-22 09:11
Kafka核心API——Connect API
Confluent平台附带了几个内置connector,可以使用这些connector进行关系数据库或
HDFS
等常用系统到Kafka的数据传输,也是用来构建ETL的一种方案。
端碗吹水
·
2023-10-22 07:31
Hadoop3教程(三十三):(生产调优篇)慢磁盘监控与小文件归档
比如说,如果正常在
HDFS
上创建一个目录,只需要1s左右。但是你偶尔发现创建目录时超过了1分钟或者更久,但次数
经年藏殊
·
2023-10-22 05:29
大数据技术
hadoop
大数据
hadoop之
hdfs
详解之一
HDFS
是单台或集群伪分布式部署NameNode简称NNSecondaryNameNode简称SNNDataNode简称DNNN、DN、SNN部署在同一台机器上
hdfs
启动的命令脚本:sbin/start-dfs.sh
仙人掌仙人
·
2023-10-22 05:48
hadoop
零基础
Bigdata
learning
大数据
hdfs基础架构
HDFS
命令行操作
二.
HDFS
命令行操作:1.基本语法bin/hadoopfs具体命令2.参数大全bin/hadoopfs[-appendToFile...][-cat[-ignoreCrc]...]
Movle
·
2023-10-22 02:41
Hadoop集群主节点迁移
元数据库mysql•zookeeper•freeipaservernamenode迁移先对现有的主从namenode进行一次主备切换a.先重启从节点,再重启主节点,使其完成一次元数据同步;在节点上启用
hdfs
ran
卢说
·
2023-10-22 01:08
大数据
Hadoop
hadoop
大数据
分布式
记一次Hadoop集群数据上传缓慢案例分析
项目场景手上管理的其中一个Hadoop集群,承接着大量的数据流量,一直以来运行平稳,最近突然发现集群有时会出现MR作业运行缓慢,put文件至
HDFS
偶发速度慢的问题,像大数据集群这种问题,有点疑难杂症的味道
卢说
·
2023-10-22 01:37
Hadoop
hadoop
hdfs
Hadoop 系列(七)——
HDFS
Java API
一、简介想要使用
HDFS
API,需要导入依赖hadoop-client。
heibaiying
·
2023-10-22 01:01
初识Hive
其本质是将SQL转换为MapReduce的任务进行运算,底层由
HDFS
来提供数据的存储,Hive可以理解为一个将SQL转换为MapReduce任务的工具,甚至更进一步可以说Hive就是一个MapReduce
康俊1024
·
2023-10-22 01:27
HBase:大数据中的NoSQL
HBase概述Hbase是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,用于存储海量的结构化或者半结构化,非结构化的数据,底层上的数据是以二进制流的形式存储在
HDFS
上的数据块中的HBase应用场景写密集型应用
CoLiuRs
·
2023-10-21 19:54
Golang
大数据
大数据
hbase
nosql
hadoop完全分布式搭建与集群测试
Hadoop实现了一个分布式文件系统(DistributedFileSystem),其中一个组件是
HDFS
(HadoopDistributed
青春的样子1
·
2023-10-21 19:39
大数据
大数据
hadoop
分布式
hdfs
mapreduce
修炼k8s+flink+
hdfs
+dlink(四:k8s(二)架构)
一:节点。1.1为什么使用节点。kubertnetes通过将容器存放在节点(node)上的Pod来执行你的工作负载。所以我们需要提前注册节点。1.2定义。一组工作机器,称为节点,会运行容器化应用程序。每个集群至少有一个工作节点。1.3怎么使用node节点1.3.1增加节点。节点上的kubelet向控制面板自注册。–register-node为true可选参数--kubeconfig-用于向API服
宇智波云
·
2023-10-21 18:00
k8s
kubernetes
flink
hdfs
iceberg-flink 十一:在dlink代码中建表增加catalog地址。
表的时候,增加了地址,就会成功映射到表CREATECATALOGdk_empowerWITH('type'='iceberg','catalog-type'='hadoop','warehouse'='
hdfs
宇智波云
·
2023-10-21 18:29
flink
数据库
大数据
k8s No Route to Host from xxx to xxx failed on socket timeout exception
NoRoutetoHostfromxxxtoxxxfailedonsockettimeoutexception,但两个pod相互ping的通,并且通过脚本/opt/flink/bin/flinkrun-myarn-cluster-ynmV2xRTDataPersistenceTo
HDFS
-s
hdfs
胖胖胖胖胖虎
·
2023-10-21 18:26
大数据组件
K8S
hadoop
大数据
hdfs
修炼k8s+flink+
hdfs
+dlink(六:学习k8s)
一:增(创建)。直接进行创建。kubectlrunnginx--image=nginx使用yaml清单方式进行创建。二:删除。kubectldeletepods/nginx三:修改。kubectlexec-itmy-nginx–/bin/bash四:查看。查看所有pod。`kubectlgetpods`.kubectlgetpod-owide查看某个pod的创建信息。kubectldescribe
宇智波云
·
2023-10-21 18:54
kubernetes
flink
学习
大数据总结
知识点文章目录知识点0.介绍1.
HDFS
1.1读数据1.2写数据1.3块大小1.4Yarn调度1.4.1Job提交流程1.4.2调度器2.MapReduce、Hive2.1运行过程2.1切片大小2.2CombineTextInputFormat2.3
美美的大猪蹄子
·
2023-10-21 12:38
大数据
big
data
hive
hadoop
大数据
hadoop复习题
1.hadoop常用端口号hadoop2.xhadoop3.x访问
hdfs
端口500709870访问MR执行情况端口80888088历史服务器1988819888客户访问集群端口900080202.
HDFS
2.1
hdfs
梧桐林.
·
2023-10-21 12:37
hadoop
hadoop
hdfs
big
data
面试
大数据
SparkStreaming入门
SparkStreaming简介支持的输入源:Kafka,Flume,
HDFS
等数据输入后,可以用RDD处理数据结果可以保存在很多地方,比如
HDFS
,数据库等SparkStre
十七✧ᐦ̤
·
2023-10-21 11:21
sparkstreaming
spark
java
Hive用户中文使用手册系列(三)
RemoteHiveServer2模式建议用于production使用,因为它更安全,不需要为用户授予直接
HDFS
/metastore访问权限。
日复一日伐树的熊哥
·
2023-10-21 08:32
跟着熊哥学hive系列
hive
hadoop
数据仓库
大数据
JDBC
搭建HBase分布式集群
PrerequisiteThereare3VMs-hadoop3/hadoop4/hadoop5forfully-distributedHBasecluster,thesetupplanlookslike:hadoop3hadoop4hadoop5Hadoop
hdfs
NameNode
sun_xo
·
2023-10-21 07:23
hbase
分布式
HDFS
dfs 操作命令
查看文件常用命令命令格式1.
hdfs
dfs-lspath查看文件列表2.
hdfs
dfs-lsrpath递归查看文件列表3.
hdfs
dfs-dupath查看path下的磁盘情况,单位字节使用示例1.
hdfs
dfs-ls
Sven_qi
·
2023-10-21 07:15
HDFS
之联邦
文章目录jvm瓶颈常规
HDFS
联邦MultipleNamenodes/Namespaces:独立的blockpool共用存储联邦的优势FederationConfigurationConfigurationBalancerDecommissoningClusterWebconsolejvm
zincooo
·
2023-10-21 07:44
HDFS
hdfs
hadoop
大数据
大数据平台开发经验
数据存储和处理:精通大数据存储系统,如
HDFS
,以及数据处理框架,如SparkSQL、Hive等。实时数据处理:了解实时数据处理
三思而后行,慎承诺
·
2023-10-21 07:04
架构
大数据
00-开源离线同步工具DataX3.0重磅详解!
1概览DataX是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、
HDFS
、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
JavaEdge.
·
2023-10-21 03:46
java
Hadoop源码分析-
HDFS
写数据之申请block
4.申请block下面我们应该再去从dataQueue中读取packet了。而从dataQueue读取packet是Datastream线程,所以我们直接看它的run方法Datastream.run(),代码比较多,分开看看。1.1这里看while的判断条件,如果dataQueue的size=0,那么就等待image1.21:错误判断,pass;2:空判断pass;3:在这里获取了第一个packe
晨磊的微博
·
2023-10-21 03:06
Java查询
HDFS
文件系统
1、文件元数据FileStatusimportorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.FileStatus;importorg.apache.hadoop.fs.FileSystem;importorg.apache.hadoop.fs.FsStatus;importorg.apache.hadoop.fs.P
主君_05c4
·
2023-10-21 02:08
4-MapReduce+Spark(分布式计算框架)
,在介绍大数据编年史时有提到Google最早在04年发表论文MapReduce,之后DougCutting基于这篇论文通过Java做了开源实现,Mapredce如今是作为Hadoop的核心组件之一,而
HDFS
小帅明3号
·
2023-10-21 01:00
Hadoop 概览
两大神兽
HDFS
HDFS
是Hadoop提供的一个分布式存储的文件系统,基本思想就是分而存之,让多台计算机分别存储一个大文件的一部分,这样就解决了大文件无法在单台计算机上存储和无法在单台计算机上快速计算的问题
越过山丘xyz
·
2023-10-21 00:18
HIVE Row Formats和SerDe
HiveusesSerDe(andFileFormat)toreadandwritetablerows.
HDFS
files-->InputFileFormat--
尼小摩
·
2023-10-21 00:55
hadoop基础结构
1.hadoop几个点HADOOP免费CDH收费HDP收费后2者合并成为CDP2.结构图
HDFS
就是分布式存储,包含NameNode(nn)、DataNode(dn)、SecondaryNameNode
阿里纳斯_0097
·
2023-10-20 20:09
sparkSql外部数据源
1、读取json2、读取csv和tsv3、ObjectFile4、读取
hdfs
中的数据5、读取Parquet文件6、读取Hive和mysql读取json文件defmain(args:Array[String
Aluha_f289
·
2023-10-20 19:25
上一页
40
41
42
43
44
45
46
47
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他