E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
#HDFS
大数据学习路线+Java转行大数据最新最全的必备第一手资料
学习路线:(一)Linux理论(Linux基础Linux-shell编程高并发:lvs负载均衡高可用&反向代理)(二)Hadoop理论(hadoop-
hdfs
理论hadoop
大数据客栈i
·
2023-10-20 19:16
hdfs
dfsadmin -safemode无法退出安全模式
退出安全模式第一种:正常退出安全模式
hdfs
dfsadmin-safemodeleave如提示SafemodeisOFF,那就说明退出成功,但有时候这个命令也没办法退出安全模式,就需要使用强制退出第二种
Knight_AL
·
2023-10-20 19:13
HDFS
hdfs
hadoop
大数据
大数据学习(五)Mapreduce详解
Client,JobTracker,TaskTracker,Task:1.Client:每一个Job都会在用户端通过Client类将应用程序以及参数配置Configuration打包成Jar文件存储在
HDFS
阿齐(努力打工版)
·
2023-10-20 18:40
mapreduce
大数据
hadoop
一百九十一、Flume——Flume配置文件各参数含义(持续完善中)
Kafka主题的数据规模、数据频率,需要配置不同的Flume参数,而这一切的调试、配置工作,都要建立在对Flume配置文件各参数含义的基础上二、Flume各参数及其含义(一)filePrefix1、含义:写入
hdfs
天地风雷水火山泽
·
2023-10-20 17:20
Flume
flume
大数据
hive中操作
hdfs
命令
版本:Hadoop2.7.4–查看dfs帮助信息[root@hadp-mastersbin]#dfsUsage:dfs[genericoptions][-appendToFile…][-cat[-ignoreCrc]…][-checksum…][-chgrp[-R]GROUPPATH…][-chmod[-R]PATH…][-chown[-R][OWNER][:[GROUP]]PATH…][-cop
侠客刀
·
2023-10-20 17:48
hive
大数据
hadoop
Hive不可见字符的处理
指定查询结果的分隔符将查询结果放到
hdfs
目录上,默认的分隔符为不可见字符\001,可以追加参数指定分隔符insertoverwritedirectory'/path/xxx'rowformatdelimitedfieldsterminatedby
大闪电啊
·
2023-10-20 12:38
Sqoop技术文档笔记
它可以将结构化数据从关系型数据库(如MySQL、Oracle、SQLServer等)导入到Hadoop的分布式文件系统(
HDFS
)或hive中,并且可以将数据从
HDFS
、hive导出到关系型数据库中。
小辉懂编程
·
2023-10-20 11:30
sqoop
sqoop
hadoop
hive
windows 配置kerberos访问启用spnego的CDH 集群web UI页面
一问题描述CDH集群启用HTTPWeb控制台的Kerberos身份验证后,FireFox下HTTP访问
HDFS
、Yarn、Hive、HBase等Hadoop服务的WebUI(如Namenode的50070
weixin_34038652
·
2023-10-20 08:18
ui
操作系统
大数据
Windows 配置kerberos访问并启动访问CDH 集群web UI页面
1、问题描述:CDH集群启用HTTPWeb控制台的Kerberos身份验证后,FireFox下HTTP访问
HDFS
、Yarn、Hive、HBase等Hadoop服务的WebUI(如Namenode的50070
大大大大大大太阳
·
2023-10-20 08:14
Kerberos
Kerberos
CDH
web
ui
Windows
CDH启用Kerberos导致
hdfs
,yarn等页面无法访问解决
CDH启用Kerberos,导致namenode和resourcemanager等页面无法访问,访问页面的时候报错Problemaccessing/cluster.Reason解决方案:将
hdfs
/yarn
me凡
·
2023-10-20 08:13
大数据组件
Problem
accessing
/cluster.
Re
CDH
Kerberos
namenode
web无法访问
大数据开发实战教程目录
2)大数据系统的架构设计及功能目标设计(3)大数据系统程序开发、企业大数据案例分析的内容利用真机实验环节以及大数据实训一体机来提升学生对大数据开发的实践能力;本课程重点让学生掌握五个方面的内容:(1)
HDFS
AI_Bao
·
2023-10-20 08:51
课工场
【大数据开发技术】实验06-SequenceFile、元数据操作与MapReduce单词计数
元数据操作与MapReduce单词计数一、实验目标二、实验要求三、实验内容四、实验步骤附:系列文章SequenceFile、元数据操作与MapReduce单词计数一、实验目标熟练掌握hadoop操作指令及
HDFS
Want595
·
2023-10-20 08:48
《
Hadoop大数据开发技术
》
大数据
mapreduce
Hadoop HA集群部署 - A - 详解
HDFS
概述基
仗剑江湖.红尘笑
·
2023-10-20 07:28
㊣
应用架构解析
㊣
hadoop
Hive数据分析案例——汽车销售数据分析
3.2创建外部表(1)在
hdfs
上创建一个空目录work_ca
lambda33
·
2023-10-20 06:20
Hadoop
数据分析
big
data
必看的11个开源项目
SagooIOT-轻量级的物联网平台管理系统Mars3D-三维地球平台软件系统JuiceFS-为云环境设计,兼容POSIX、
HDFS
和S3协议的分布式文件系统fsr-集资产管理系统+监控系统+简单自愈系统为一体的运维管理故障自愈系统
少壮不努力老大敲代码
·
2023-10-20 06:46
开源
Hive编程指南
Hive提供了一个被称为Hive查询语言(简称HiveQL或HQL)的SQL语言,来查询存储在Hadoop集群中的数据;Hive可以将大多数的查询转换为MapReduce任务;Hive的缺点:Hadoop和
HDFS
weixin_43177696
·
2023-10-20 06:04
大数据经典书籍笔记
hadoop
hive
数据仓库
hdfs
orc格式_大数据:Hive - ORC 文件存储格式
一、ORCFile文件结构ORC的全称是(OptimizedRowColumnar),ORC文件格式是一种Hadoop生态圈中的列式存储格式,它的产生早在2013年初,最初产生自ApacheHive,用于降低Hadoop数据存储空间和加速Hive查询速度。和Parquet类似,它并不是一个单纯的列式存储格式,仍然是首先根据行组分割整个表,在每一个行组内进行按列存储。ORC文件是自描述的,它的元数据
weixin_39854369
·
2023-10-20 03:35
hdfs
orc格式
Java动态生成parquet格式数据并导入Hive
1.Java动态生成Parquet文件本样例是根据动态传参在本地(也可以直接在
HDFS
上)生成Parquet文件,具体原理
Slience_92
·
2023-10-20 03:35
数仓
hive
java
hadoop
parquet
Java API 写 Hive Orc文件
下面的代码将三行数据:张三,20李四,22王五,30写入
HDFS
上的/tmp/lxw1234/orcoutput/lxw1234.com.orc文件中。
赶路人儿
·
2023-10-20 03:31
java
hadoop
#
hive
hive
orc
Java API连接
HDFS
并创建Orc文件
参考之前文章:JavaAPI操作HA方式下的HadoopstaticStringClusterName="nsstargate";privatestaticfinalStringHADOOP_URL="
hdfs
空山苦水禅人
·
2023-10-20 03:31
大数据
hdfs
java
hadoop
orc文件的读写及整合hive
1.使用datax
hdfs
reader的时候有时候
hdfs
writer的写速度过慢,针对的我之前的splitpk,可以一定程度减少这个耗时,但是他慢就是慢,就好像a干活很慢,你现在用10个a干活,比之前肯定快
cclovezbf
·
2023-10-20 03:00
hive
orc读写
hive
大数据
hadoop
Parquet文件测试(一)——使用Java方式生成Parqeut格式文件并直接入库的Hive中
生成Parquet格式文件并同步到Hive中验证目标Parquet格式是否可以直接将上传到
Hdfs
中的文件,加载到目标数据表中(Hive)。生成Parquet格式文件,并上传到
Hdfs
中。
lyanjun
·
2023-10-20 03:29
Hadoop组件使用记录
hive
hdfs
java
JAVA生成ORC格式文件
一、背景由于需要用到用java生成
hdfs
文件并上传到指定目录中,在Hive中即可查询到数据,基于此背景,开发此工具类ORC官方网站:https://orc.apache.org/二、支持数据类型三、工具开发
数据的小伙伴
·
2023-10-20 03:28
Java
Hive
java
开发语言
hive
hadoop
大数据开发之Hive篇4-Hive数据操作语言
备注:Hive版本2.1.1文章目录一.Hive的DML(数据操作语言)概述二.Load命令2.1数据准备2.2将服务器文件加载到hive表2.3将
HDFS
文件加载到hive表三.INSERTINTOTABLEFROMQuery3.1Insertintoselect
只是甲
·
2023-10-20 01:22
#
Hive
大数据和数据仓库
hive
数据仓库
DML
加载数据
基于Delta Lake的Upserts数据湖方案
导读基于
HDFS
的传统数据存储方案由于
HDFS
等存储平台的限制,只能增加文件不能修改文件中的内容。想要实现某条记录的变更,就需要读取对应的文件并进行重写,效率极低,而且容易引起数据不一致和冲突。
AllenGd
·
2023-10-20 01:50
大数据
大数据
Apache Doris 02|导入数据遇到的问题
1、brokerload数据导入失败loadlabelexample_db.stuscore(datainfile("
hdfs
://devtest4.com:50070/tmp/testdata/stuscore.txt
爱吃鱼的荔果果
·
2023-10-20 00:55
Doris
大数据开发中的秘密武器:探索Hadoop纠删码的奇妙世界
随着大数据技术的发展,
HDFS
作为Hadoop的核心模块之一得到了广泛的应用。为了系统的可靠性,
HDFS
通过复制来实现这种机制。
技术琐事
·
2023-10-19 22:46
hadoop
java
java-ee
后端
spring
Hive篇面试题+详解
Hive的主要功能是将结构化数据映射到Hadoop的分布式文件系统(
HDFS
)上,并提供高级查询和分析功能。2.Hive与传统关系型数据库的区别是什么?
Young_IT
·
2023-10-19 22:39
大数据开发
hadoop
hive
大数据
hadoop 集群
标签:Hadoop搭建分布式集群环境MapReduceYARN
HDFS
分布式环境搭建之环境介绍之前我们已经介绍了如何在单机上搭建伪分布式的Hadoop环境,而在实际情况中,肯定都是多机器多节点的分布式集群环境
大诗兄_zl
·
2023-10-19 21:12
hadoop之旅6-windows本地MapReducer离线单词统计
通过上篇文章hadoop之旅5-idea通过maven搭建
hdfs
环境,相信大家都可以在idea上做hadoop访问
hdfs
文件系统的开发了。一个云盘其实就可以基于这样的系统做出来。
尔以凡
·
2023-10-19 20:30
湖仓一体架构的特性
湖仓一体架构是一种数据架构模式,具有以下特性:统一存储:湖仓一体架构将数据湖和数据仓库合并为一个整体,将结构化数据和非结构化数据存储在同一个存储系统中,如Hadoop分布式文件系统(
HDFS
)或云存储服务
abckingaa
·
2023-10-19 17:55
DB
DB
spark集成hive
ambari版本Version2.7.4.0HDP版本HDP-3.1.4.0hive版本3.1.0spark版本2.3.0集群前提条件:1.Hdp、Spark、Hive都已部署好2.Hive数据层建好,在
Hdfs
jiedaodezhuti
·
2023-10-19 11:13
大数据
spark
hive
大数据
spark-shell读取
hdfs
数据
打开spark-shell,输入下面代码(注意“yourPATHin
HDFS
”这里换成自己文件的路径)valtextFile=sc.textFile("
hdfs
://localhost:9000/yourPATHin
HDFS
密言
·
2023-10-19 07:21
分布式框架
spark
Hadoop 文件读取
KeyWords:namenode,datanode,
HDFS
,
HDFS
Client,DistributedFileSystem,FSDataInputStreamHadoop文件读取Hadoop对于文件的读取流程
Grits
·
2023-10-19 07:47
☀️☀️基于Spark、Hive等框架的集群式大数据分析流程详述
本文目录如下:基于Spark、Hive等框架的集群式大数据分析流程详述第1章淘宝双11大数据分析—数据准备1.1数据文件准备1.2数据预处理1.3启动集群环境1.4导入数据到Hive中1.4.1把目标文件上传到
HDFS
页川叶川
·
2023-10-19 05:57
Spark学习笔记
Spark
ML学习笔记
SparkSQL学习笔记
spark
hive
big
data
Hadoop集群启动后,缺少namenode或datanode进程
简述:NameNode是
HDFS
的主节点,是负责管理整个
HDFS
集群的,相当于一个团队的老大,若没有启动,则不会进入web界面等。
y215204
·
2023-10-19 04:21
hadoop
大数据
分布式
启动
HDFS
时jps查看不到namenode
这里写自定义目录标题问题描述解决办法总结问题描述使用命令start-dfs.sh启动集群,然后使用jps查看进程时发现没有namenode,SecondaryNameNode、和DataNode正常启动,其他集群的DataNode也是正常启动。然后去/export/server/hadoop-3.3.4/logs查找日志文件,发现日志中的错误信息为:ERRORorg.apache.hadoop.h
道可道 非常道
·
2023-10-19 04:48
hdfs
hadoop
大数据
Hadoop集群配置运行
文章目录前期准备配置JDK环境Hadoop安装配置hadoop-env.shcore-site.xml
hdfs
-site.xmlmapred-site.xmlyarn-site.xmlworkersHadoop
Icy Hunter
·
2023-10-19 04:18
大数据开发技术
hadoop
大数据
java
hadoop启动集群之后没有namenode的一种情况
我的做法是:检查你的hadoop的配置文件是否填写正确,我的hadoop的
hdfs
-site.xml中的主机IP地址未填写正确,导致启动集群服务后namenode启动不上,
hdfs
当然也没法用。
薯条不蘸番茄酱
·
2023-10-19 04:17
hadoop
hdfs
大数据
hadoop集群启动master节点jps后没有namenode解决方案
stop-all.sh2.切换到hadoop的目录下将logs与tmp文件与内容删除并创建新的logscd/usr/local/hadooprm-rftmprm-rflogsmkdirlogs3.重新格式化namenode
hdfs
namenode-format4
1dress
·
2023-10-19 04:17
hadoop
hdfs
大数据
分布式
多次重新初始化hadoop namenode -format后,DataNode或NameNode没有启动
多次重新初始化hadoopnamenode-format后,DataNode或NameNode没有启动在搭建完hadoop集群后,需要对主节点进行初始化(格式化)其本质是清理和做一些准备工作,因为此时的
HDFS
Oraer_
·
2023-10-19 04:47
数据仓库
大数据分析
hadoop
hdfs
大数据
hadoop启动后无namenode
一般都是由于两次或两次以上格式化NameNode造成的,有两种方法可以解决:1.删除DataNode的所有资料2.修改每个DataNode的namespaceID(位于/home/
hdfs
/data/current
congsha3684
·
2023-10-19 04:14
大数据
Hadoop的MapReduce详解
一、MapReduce数据处理流程关于上图,可以做出以下逐步分析:输入数据(待处理)首先会被切割分片,每一个分片都会复制多份到
HDFS
中。上图默认的是分片已经存在于
HDFS
中。
jhdyy
·
2023-10-19 04:44
大数据
hadoop
大规模数据处理中心:构建高效的数据处理架构
以下是一个示例的Python代码,用于演示如何使用Hadoop分布式文件系统(
HDFS
)进行数据存储和管理。
抱紧大佬大腿不松开
·
2023-10-19 02:57
大数据
架构
大数据
hadoop和hive、spark、presto、tez是什么关系
它由许多组件组成,包括
HDFS
(分布式文件系统)和MapReduce(分布式计算引擎)。Hive是一个基于Hadoop的数据仓库系统,它允许用户使用SQL语言来查询和分析大型数据集。
草履虫稽亚娜
·
2023-10-19 02:55
hadoop
hive
spark
大数据
分布式
Hive安装 Tez 引擎
看下图 用Hive直接编写MR程序,假设有四个有依赖关系的MR作业,上图中,绿色是ReduceTask,云状表示写屏蔽,需要将中间结果持久化写到
HDFS
。
扛麻袋的少年
·
2023-10-19 02:24
#
Hive
搭建伪分布式hadoop集群操作步骤
搭建hadoop的伪分布式(
hdfs
,mapreduce,yarn配置在同一服务器上)(1)配置hdsf(a)配置:hadoop-env.sh修改JAVA_HOME路径:exportJAVA_HOME=
一棵小小柏
·
2023-10-19 01:27
hadoop
分布式
hdfs
Linux搭建伪分布式Hadoop
hadoop配置文件目录下进行配置4.下载vimyuminstall-yvim5.配置hadoop启动时环境脚本进入之后进行编辑找到此处改成java路径:6.继续修改核心配置文件进入之后添加红框内容:7.配置
hdfs
8
kyle01589
·
2023-10-19 01:20
hadoop
linux
big
data
Hive跨集群数据迁移过程
文章目录环境数据迁移需求迁移过程记录环境Hive集群AHive集群B跳转机一台数据迁移需求本次迁移数据100G,15亿条,数据流转方向从集群A经过跳转机到集群B,通过
HDFS
拉取和重新建表导入的方式完成数据库迁移
程序终结者
·
2023-10-19 00:57
Hadoop生态
hive
hadoop
数据仓库
2018-06-07
hive哪些sql会触发mrjob聚合,某些insert2.createtabletasselect...这样的SQL会不会创建mrjob会3.hive的数据分为哪两块分别存储哪里元数据,mysql真实数据
hdfs
4
CrUelAnGElPG
·
2023-10-18 23:17
上一页
41
42
43
44
45
46
47
48
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他