E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
#HDFS
HDFS
读写数据流程和NameNode工作机制
HDFS
文件系统写数据1.步骤文件上传步骤:向NameNode请求上传文件+文件路径(验证请求身份,写权限)响应可以上传文件请求上传第一个Block(0-128M),请返回DataNode返回dn1,dn2
十七✧ᐦ̤
·
2023-08-31 03:21
hdfs
hadoop
大数据
Hdfs
的数据磁盘大小不均衡如何处理
现象描述建集群的时候,datanode的节点数据磁盘总共是四块磁盘做矩阵成了一个7.2TB的sdb1(data1),两块通过矩阵做了一个3.6TB的sdc1(data2)磁盘,运维做的,历史原因。刚开始没有发现,然后集群过了一段时间,随着数据量的增加,发现集群有很多磁盘超过使用率90%告警,运维设置磁盘告警阈值是90%,超过阈值就会发短信或者微信告警,提醒我们磁盘将要满了进行预处理,但是通过had
spark大数据玩家
·
2023-08-31 03:18
hadoop
datanode
面试-------
hdfs
文件上传与下载流程
文件上传1、根namenode通信请求上传文件,namenode检查目标文件是否已存在,父目录是否存在2、namenode返回是否可以上传3、client请求第一个block该传输到哪些datanode服务器上4、namenode返回3个datanode服务器ABC5、client请求3台dn中的一台A上传数据(本质上是一个RPC调用,建立pipeline),A收到请求会继续调用B,然后B调用C,
spark大数据玩家
·
2023-08-31 03:18
hadoop
HDFS
文件删除后,HIVE元数据还存在的问题
一.背景手动在
hdfs
上删除了一个表的分区数据(inc_day=2023-08-30),当查询这个表这个分区的数据时报错文件不存在二.原因即
HDFS
数据删除了,但是hivemetastore元数据却没有更新
spark大数据玩家
·
2023-08-31 03:17
hadoop
hdfs
hive
hadoop
记一次hadoop.tmp.dir配置因重启机器导致无法启动
解决方案步骤一在$HADOOP_HOME/etc/hadoop中的core-site.xml有个hadoop.tmp.dir配置的是Hadoop临时目录,比如
HDFS
的NameNode数据默认都存放这个目录下
spark大数据玩家
·
2023-08-31 03:17
spark
hadoop
hadoop重启
自建minio实现doris的快速备份与恢复
一.概述doris支持通过腾讯云bos、阿里云oss、
hdfs
实现备份与恢复,但是我们公司doris部署在线下机房,如采用oss/bos,大数据备份与恢复比较慢,会占用一定的带宽,如采用
hdfs
,担心小文件太多影响现有的
spark大数据玩家
·
2023-08-31 03:47
doris
hadoop
大数据
分布式
doris
minio
利用fsimage分析
HDFS
小文件
一、Hive小文件概述在Hive中,所谓的小文件是指文件大小远小于
HDFS
块大小的文件,通常小于128MB,甚至更少。
spark大数据玩家
·
2023-08-31 03:45
hadoop
hdfs
hadoop
大数据
hadoop大数据集群中更换磁盘,balance的速度缓慢问题(解决)
hadoop大数据集群中更换磁盘,balance的速度缓慢问题(解决)看现象只有4个bloucks在执行的调整参数:增大配置参数,观察重新负载的速度修改配置文件
hdfs
-site.xmldfs.datanode.balance.max.concurrent.moves
墨卿风竹
·
2023-08-31 03:45
大数据
hadoop
分布式
balance
win11安装hadoop3.3.2(当前最新版本)
前提Java已经安装安装准备下载链接:链接解压将hadoop到自己想要解压的路径下(这我解压到D盘下)修改配置文件进入etc/hadoop/下修改core-site.xml,
hdfs
-site.xml,
缘不易
·
2023-08-31 01:05
Hadoop
hadoop
hadoop性能优化
最近的
hdfs
集群出了一些故障,今天总结一下hadoop的几个具体的性能调优方法1)
HDFS
参数调优
hdfs
-site.xml(1)dfs.namenode.handler.count=20*log2(
大道至简_6a43
·
2023-08-31 00:45
Hadoop学习笔记(六)——分布式文件系统
一简介
HDFS
,它是一个文件系统,用于存储文件,通过目录树来定位文件:其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。
L先生_c77f
·
2023-08-30 18:47
mapreduce 的工作原理以及
hdfs
上传文件的流程
推荐两篇博文mapreduce的工作原理:图文详解MapReduce工作流程_mapreduce工作流程_Shockang的博客-CSDN博客
hdfs
上传文件的流程
HDFS
原理-知乎
超爱慢
·
2023-08-30 18:03
mapreduce
mapreduce
hadoop
学习
大数据
linux
HBase高可用集群安装部署
HBase的版本为hbase-2.4.11-bin.tar.gz环境准备Hadoop:因为HBase的数据时存储在
hdfs
中的,所以我们需要先完成Hadoop的安装,安
似懂非dong
·
2023-08-30 18:43
HBase
hbase
hadoop
大数据
namenode格式化出错
执行
hdfs
namenode-format出现如下错误:没有找到文件夹或不存在该目录原因分析:hadoop-env.sh配置有误,需要检查
simplycoder
·
2023-08-30 17:24
大数据学习遇到的错误
4、大数据系统组件
大数据生态圈首先是Hadoop,它是大数据系统的基础组件,很多其他组件都依赖它分布式存储、计算,它是Apache旗下一套开源软件平台,在这个平台之下还包括了
HDFS
(分布式文件系统
朗如行玉山_5b30
·
2023-08-30 16:08
datax安装+配置+使用文档
1DataX离线同步工具DataX3.0介绍DataX是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括MySQL、Oracle、SqlServer、Postgre、
HDFS
、Hive、ADS
涂作权的博客
·
2023-08-30 12:32
#
datax
datax
Mysql 流增量写入
Hdfs
(二) --Storm +
hdfs
的流式处理
一.概述上一篇我们介绍了如何将数据从mysql抛到kafka,这次我们就专注于利用storm将数据写入到
hdfs
的过程,由于storm写入
hdfs
的可定制东西有些多,我们先不从kafka读取,而先自己定义一个
大数据_zzzzMing
·
2023-08-30 11:44
HDFS
核心理论学习记录
标题
HDFS
理论学习第一天一、
HDFS
优缺点1、优点高容错性:数据会保存多个副本适合处理大数据:能够处理GB,TB甚至PB级别的数据能够处理百万规模的数据数据廉价不吃配置2、缺点不适合低延时数据访问,文件存储是放在磁盘中读取会有额外
袁奎
·
2023-08-30 08:31
hadoop
hdfs
hdfs
hadoop
学习
Hive UDF自定义函数上线速记
0.编写hiveudf函数jar包略1.永久函数上线1.1提交jar包至
hdfs
使用命令or浏览器上传jar到
hdfs
,命令的话格式如下
hdfs
dfs-put[Linux目录][
hdfs
目录]示例:
hdfs
dfs-put
mizuhokaga
·
2023-08-30 08:42
hive
hadoop
数据仓库
hdfs
操作
hadoopfs[genericoptions][-appendToFile…][-cat[-ignoreCrc]…][-checksum…][-chgrp[-R]GROUPPATH…][-chmod[-R]PATH…][-chown[-R][OWNER][:[GROUP]]PATH…][-copyFromLocal[-f][-p][-l][-d]…][-copyToLocal[-f][-p][-
cynthia_file
·
2023-08-30 08:41
大数据
hdfs
hadoop
大数据
Hive3第三章:DML数据操作
如何生成可参考右边的帮助文档文章目录系列文章目录前言一、数据导入1.向表中装载数据(load)2.通过查询语句导入(insert)二、数据导出1.hadoop导出2.insert导出3.shell导出4.Export导出到
HDFS
超哥--
·
2023-08-30 08:35
hive
hadoop
hive
大数据
大数据学习教程SD版第七篇【Hive】
hiveclientbeelineclient特点HQL用于数据分析,但处理处理粒度粗处理大数据,但延迟高支持自定义函数架构原理Metastore元数据存储Client客户端MapReduce计算引擎
HDFS
道-闇影
·
2023-08-30 08:32
hive
hadoop
big
data
hadoop的
hdfs
中避免因节点掉线产生网络风暴
hadoop的
hdfs
中避免因节点掉线产生网络风暴控制节点掉线RPC风暴的参数三个参数都是
hdfs
-site.xml中参数,具体可以参考apachehadoop官网,其实块的复制速度有两个方面决定,一是
墨卿风竹
·
2023-08-30 08:32
hadoop
hdfs
大数据
Hadoop 集群一直处于安全模式,强制退出后出现数据丢失警告。解决方法
文章目录安全模式相关命令分析集群为什么一直处于安全模式解决方法安全模式相关命令#查看安全模式状态
hdfs
dfsadmin-safemodeget#进入安全模式
hdfs
dfsadmin-safemodeenter
月亮给我抄代码
·
2023-08-30 08:59
hadoop
安全
大数据
分布式
Hive3第六章:更换引擎
数据操作(二)Hive3第四章:分区表和分桶表Hive3第五章:函数Hive3第六章:更换引擎文章目录系列文章目录前言一、更换hive二、安装hive三、更换引擎1.部署Spark纯净版2.修改配置文件3.
HDFS
超哥--
·
2023-08-30 08:59
线上问诊
hive
hive
【
HDFS
】ResponseProcessor线程详解以及客户端backoff反压
ResponseProcessor如何处理datanode侧发过来的packetack的客户端侧backoff逻辑。ResponseProcessor:主要功能是处理来自datanode的响应。当一个packet的响应到达时,会把这个packet从ackQueue里移除。@Overridepublicvoidrun(){//设置ResponseProcessor线程的名字setName("Resp
叹了口丶气
·
2023-08-30 05:40
HDFS全方位实战
hdfs
hadoop
大数据
【
HDFS
】PacketResponder线程相关
核心成员变量ackQueue核心函数enqueue、sendAckUpstreamUnprotected、waitForAckHeadPacketResponder线程什么时候启动的?直接找newPacketResponder关键字。发现是在receiveBlock方法里。这个receiveBlock方法又在writeBlock方法内部。//如果是客户端写、并且不是transfer的情况,才启动P
叹了口丶气
·
2023-08-30 05:39
HDFS全方位实战
hdfs
hadoop
大数据
Spark基础学习——RDD算子
二、准备(一)准备数据文件1.在/home目录下创建words.txt文件,在文件中写入一段数据2.将words.txt上传到
HDFS
系统的/park目录里(创建/park命令:
hdfs
dfs-mkdir
十四是40
·
2023-08-30 04:23
spark
学习
TDSQL分布式数据库的
HDFS
和LOCAL备份配置
产品介绍:TDSQL分布式数据库是腾讯公司结合自身支付、金融等核心业务需求,紧紧抓住了国外传统集中式数据库难以适应业务规模快速增长这一现实问题,从2009年开始研制新一代分布式数据库系统TDSQL。并通过持续的产品化完善,实现国产分布式数据库的市场通用化,助力金融政务等行业实现数据库安全可控,并持续降低IT成本,提升数字化运营效率,从而进一步推动普惠金融、数字政务等传统行业升级发展。产品特点:TD
腾讯云数据库
·
2023-08-30 04:31
Flink教程-flink 1.11使用sql将流式数据写入文件系统
文章目录滚动策略分区提交分区提交触发器分区时间的抽取分区提交策略完整示例定义实体类自定义source写入fileflink提供了一个filesystemconnector,可以使用DDL创建一个table,然后使用sql的方法将数据写入
hdfs
大数据技术与应用实战
·
2023-08-30 03:50
flink
flink
sql
教程
hdfs
1.11
Flink SQL 获取FileSystem时,如果FileName发生更改在则会报错
CREATETABLE`cfg_city`(`provincecode`int,`city_id`int,`city_name`string)WITH('connector'='filesystem','path'='
hdfs
青冬
·
2023-08-30 03:48
Flink
flink
sql
大数据
pyflink实时接收kafka数据至
hdfs
/usr/bin/python#-*-coding:UTF-8-*-#测试kafka接收数据,通过pyflink,写入本地
hdfs
frompyflink.datastreamimportStreamExecutionEnvironment
小金子的夏天
·
2023-08-30 03:15
kafka
hdfs
数据库
flink on yarn应用常见问题记录及解决方案
近期由于工作原因,碰巧使用到了flink+kafka+
hdfs
+kerberos流式计算。一路走来,崎岖坎坷,满是荆棘。以此文记录一下学习实践经历。若能为各位后来者提供帮助,实乃我幸!
龙龍隆隆
·
2023-08-30 00:11
大数据
flink
kafka
kerberos
hdfs
Flink on Yarn集群HA高可用部署 基于flink1.12 hadoop 3.0 CDH6.3.2
其次FlinkJob在恢复时,需要依赖Checkpoint进行恢复,而Checkpoint的快照依赖于远端的存储:
HDFS
,所以
HDFS
也必须是高可用,同
Mumunu-
·
2023-08-30 00:09
hadoop
flink
starrocks湖到仓
LOADLABELbpit_bi.fwwiptransaction_20220720(DATAINFILE("
hdfs
://name01.baidu.com/user/hive/warehouse/bpit_bi.db
liurenfenglrf
·
2023-08-29 22:51
starrocks
数据库
【小知识】
hdfs
的namenode的block有哪些状态
有四种状态:1.UnderConstruction真正被写入2.UnderRecovery正在被恢复3.Committed已经确认好它的字节大小与generationstamp值(类似版本号)4.Complete写入执行操作结束状态启动时,namenode认为只有complete的block,才会读取。
老k的代码世界
·
2023-08-29 15:01
HDFS
集群读写压测
文章目录虚拟机设置
HDFS
写数据测试
HDFS
读数据测试删除压测产生的数据虚拟机设置如果你是在虚拟机中使用集群,那你你需要先对每台服务器进行网络设置,模拟真实网络传输速率。
月亮给我抄代码
·
2023-08-29 14:03
hdfs
hadoop
大数据
NameNode 故障无法重新启动解决方法
文章目录NameNode进程挂掉NameNode进程挂掉且数据丢失NameNode进程挂掉如果只是单纯的进程挂掉了,可以直接使用下列命令进行重启:
hdfs
--daemonstartnamenode示例:
月亮给我抄代码
·
2023-08-29 14:32
大数据
Hadoop
namenode
bug
hadoop-
HDFS
1.
HDFS
简介2.1Hadoop分布式文件系统-
HDFS
架构2.2
HDFS
组成角色及其功能(1)Client:客户端(2)NameNode(NN):元数据节点管理文件系统的Namespace元数据一个
不吃香菜lw
·
2023-08-29 10:31
hdfs
hadoop
大数据
从零开始的Hadoop学习(三)| 集群分发脚本xsync
1.Hadoop目录结构bin目录:存放对Hadoop相关服务(
hdfs
,yarn,mapred)进行操作的脚本etc目录:Hadoop的配置文件目录,存放Hadoop的配置文件lib目录:存放Hadoop
庭前云落
·
2023-08-29 10:31
Hadoop
hadoop
学习
大数据
Windows上安装Hadoop 3.x
目录0.安装Java1.安装Hadoop1.1下载Hadoop1.2下载winutils2.配置Hadoop1.hadoop-env.cmd2.创建数据目录3.core-site.xml4.
hdfs
-site.xml3
相国
·
2023-08-29 10:26
分布式
hadoop
大数据
Windows平台
客户端读写HBase数据库的运行原理
没有表关系,不支持JOIN④有列族,列族下可以有上百个列⑤单元格,即列值,可以存储多个版本的值,每个版本都有对应时间戳⑥行键按照字典序升序排列⑦元数据和数据分开存储元数据存储在zookeeper数据存储在
HDFS
时下握今
·
2023-08-29 10:26
数据存储
数据库
hbase
大数据
flume系列之:Error while trying to hflushOrSync,查看
hdfs
生成的文件发现文件损坏
flume系列之:ErrorwhiletryingtohflushOrSync,查看
hdfs
生成的文件发现文件损坏一、flume完整报错如下所示二、追查报错原因三、问题产生原因总结四、报错解决方法一、flume
最笨的羊羊
·
2023-08-29 08:20
flume
flume系列
hflushOrSync
文件损坏
flume系列之:监控flume上个小时生成的
HDFS
文件是否有损毁,并发送告警信息
flume系列之:监控flume上个小时生成的
HDFS
文件是否有损毁,并发送告警信息一、查看
HDFS
文件状态背景知识二、登陆远程服务器代码三、获取当前时间和上个小时时间四、访问
hdfs
执行kerberos
最笨的羊羊
·
2023-08-29 08:20
flume
flume系列
损毁文件
flume系列之:清理
HDFS
上的0字节文件
flume系列之:清理
HDFS
上的0字节文件一、使用脚本找出0字节文件二、删除0字节文件
HDFS
上有时会生成0字节的文件,需要把这些文件从
hdfs
上清理掉,可以使用脚本批量清理指定目录下0字节文件。
最笨的羊羊
·
2023-08-29 08:50
大数据
flume
hdfs
flume
hadoop
清理HDFS上的0字节文件
flume系列之:清理
HDFS
上的tmp文件,把.gz.tmp文件变为.gz文件
flume系列之:清理
HDFS
上的tmp文件,把.gz.tmp文件变为.gz文件一、查找
hdfs
指定目录下的tmp文件二、把所有的.gz.tmp文件变为.gz文件flume出现异常,
hdfs
上生成的gz.tmp
最笨的羊羊
·
2023-08-29 08:49
大数据
flume
hdfs
flume
hadoop
gz.tmp文件变为gz文件
flume系列之:
hdfs
.timeZone设置中国北京或上海时区
flume系列之:
hdfs
.timeZone设置中国北京或上海时区查看服务器时间flume设置中国时区查看服务器时间date2021年12月23日星期四10:09:49CST
hdfs
.timeZone设置中国北京或上海时区后
最笨的羊羊
·
2023-08-29 08:19
大数据
flume
hdfs
flume
kafka
flume系列之:flume消费kafka数据到
HDFS
生产参数配置
flume系列之:flume消费kafka数据到
HDFS
生产参数配置一、声明source、channel、sink二、通过channel关联source、sink三、source配置四、interceptor
最笨的羊羊
·
2023-08-29 08:19
flume
大数据
flume系列
flume生产参数配置
HDFS
flume系列之:记录一次消费大量Debezium数据,数据包含dml语句比较大,造成数据堆积在channel的解决方法
flume消费了大量的KafkaTopic数据,数据堆积在了channel中,造成数据sink到
HDFS
的时间比
最笨的羊羊
·
2023-08-29 08:48
flume
flume系列
消费大量Debezium数据
数据包含dml语句比较大
造成数据堆积在channel
解决方法
Mycat教程+面试+linux搭建
面向企业应用开发的“大数据库集群”·支持事务、ACID、可以替代Mysql的加强版数据库·一个可以视为“Mysql”集群的企业级数据库,用来替代昂贵的Oracle集群·一个融合内存缓存技术、Nosql技术、
HDFS
天雨编程
·
2023-08-29 08:38
面试
linux
职场和发展
上一页
56
57
58
59
60
61
62
63
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他