E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
hadoop;hdfs
Hive详解
一:Hive的历史价值1,Hive是
Hadoop
上的KillerApplication,Hive是
Hadoop
上的数据仓库,Hive同时兼具有数据仓库中的存储引擎和查询引擎的作用;而SparkSQL是一个更加出色和高级的查询引擎
·
2025-07-29 14:40
zookeeper和
hadoop
zookeeper操作连接zkCli.sh-server服务名称查看客户端指令helpZooKeeper-serverhost:portcmdargs statpath[watch] setpathdata[version] lspath[watch] delquota[-n|-b]path ls2path[watch] setAclpathacl setquot
·
2025-07-29 05:02
Hadoop
之 ZooKeeper (一)
Hadoop
之ZooKeeper本文介绍使用
Hadoop
的分布式协调服务构建通用的分布式应用——ZooKeeper。ZooKeeper是
Hadoop
分布式协调服务。
devalone
·
2025-07-29 04:00
Hadoop
Hadoop
ZooKeeper
Hbase
Chubby
znode
ZooKeeper在
Hadoop
中的协同应用:从NameNode选主到分布式锁实现
Hadoop
与ZooKeeper概述
Hadoop
与ZooKeeper在大数据生态系统中的核心位置和交互关系
Hadoop
的架构与核心组件作为大数据处理的基石,
Hadoop
生态系统由多个关键组件构成。
码字的字节
·
2025-07-29 04:29
hadoop布道师
分布式
zookeeper
hadoop
分布式锁
大数据开发系列(六)----Hive3.0.0安装配置以及Mysql5.7安装配置
一、Hive3.0.0安装配置:(Hive3.1.2有BUG)
hadoop
3.1.2Hive各个版本下载地址:http://archive.apache.org/dist/hive/,这里我们下载hive3.0.01
Xiaoyeforever
·
2025-07-28 12:55
hive
mysql
hive
hadoop
数据库
大数据编程基础
Hadoop
、HBase、Elasticsearch等众多核心框架都是用Java开发的。因此,扎实的Java基础对于深入理解这些框架的底层原理和进行二次开发至关重要。
芝麻开门-新的起点
·
2025-07-28 11:17
大数据
大数据
HDFS
常用命令
常用命令说明:-put和-get:上传和下载文件,是
HDFS
和本地文件系统交互的关键命令。-rm和-mkdir:删除和创建文件/目录,-rm支持递归删除。
BenChuat
·
2025-07-28 07:22
大数据学习
hdfs
hadoop
大数据
深入解析HBase如何保证强一致性:WAL日志与MVCC机制
作为
Hadoop
生态系统中关键的列式存储数据库,HBase需要处理金融交易、实时风控等高敏感场景下的海量数据操作,这使得强一致性成为其设计架构中不可妥协的基础特性。
码字的字节
·
2025-07-28 06:17
hadoop布道师
hadoop
HBase
WAL
MVCC
Hadoop
中MapReduce和Yarn相关内容详解
接上一章写的
HDFS
说,
Hadoop
是一个适合海量数据的分布式存储和分布式计算的一个平台,上一章介绍了分布式存储,这一章介绍一下分布式计算——MapReduce。
·
2025-07-28 06:47
阿里云MaxCompute SQL与Apache Hive区别面面观
2.架构大比拼:从
Hadoop
到Serverless的进化之路Hive的架构:老派但经典MaxCompute的架构:云原生新贵3.SQL语法的微妙差异:90%相似,10%决定胜负建表语句分区与分桶函数与
大模型大数据攻城狮
·
2025-07-28 04:34
阿里云
odps
sql
物化
maxcompute
udf开发
sql语法
一文说清楚Hive
Hive作为Apache
Hadoop
生态的核心数据仓库工具,其设计初衷是为熟悉SQL的用户提供大规模数据离线处理能力。以下从底层计算框架、优点、场景、注意事项及实践案例五个维度展开说明。
·
2025-07-28 04:58
HBase 简介
HBase简介什么是HBaseApacheHBase是
Hadoop
数据库,一个分布式的、可伸缩的大数据存储。当您需要对大数据进行随机的、实时的读/写访问时,请使用ApacheHBase。
·
2025-07-28 02:44
sqoop的几个注意参数
/bin/bashdb_name=gmallexport_data(){/opt/module/sqoop/bin/sqoopexport\--connect"jdbc:mysql://
hadoop
102
yayooo
·
2025-07-27 22:35
大数据领域
Hadoop
集群搭建的详细步骤
大数据领域
Hadoop
集群搭建的详细步骤关键词:
Hadoop
集群、
HDFS
、YARN、大数据平台、分布式系统、集群配置、故障排查摘要:
Hadoop
作为大数据领域的基石框架,其集群搭建是数据工程师和运维人员的核心技能
AI天才研究院
·
2025-07-27 20:02
ChatGPT
实战
ChatGPT
AI大模型应用入门实战与进阶
大数据
hadoop
分布式
ai
Zookeeper简单入门
zookeeper简介ZooKeeper(动物园管理员),顾名思义,是用来管理
Hadoop
(大象)、Hive(蜜蜂)、Pig(小猪)的管理员,同时ApacheHBase、ApacheSolr、LinkedInSensei
灬哆啦A梦不吃鱼
·
2025-07-27 03:21
解锁Hive:高效数据查找的秘密武器
Hive是基于
Hadoop
的一个数据仓库工具,它能够进行数据提取、转化和加载操作,为存储、查询和分析
Hadoop
中的大规模数据提供了有效的机制。
YangRyeon
·
2025-07-26 10:54
hive
hadoop
数据仓库
Hive/Spark小文件解决方案(企业级实战)–参数和SQL优化
重点是后面的参数优化一、小文件的定义在
Hadoop
的上下文中,小文件的定义是相对于
Hadoop
分布式文件系统(
HDFS
)的块(Block)大小而言的。
陆水A
·
2025-07-26 08:05
大数据
hive
hadoop
spark
python
C++与Hive、Spark、lib
hdfs
、ACID交互技巧
假设使用lib
hdfs
或thrift接口实现,部分示例需要结合Hive环境配置。
KENYCHEN奉孝
·
2025-07-26 05:49
C++
开发语言
spring
C++
hive
spark
深入解析
Hadoop
资源隔离机制:Cgroups、容器限制与OOM Killer防御策略
Hadoop
资源隔离机制概述在分布式计算环境中,资源隔离是保障多任务并行执行稳定性的关键技术。
Hadoop
作为主流的大数据处理框架,其资源管理能力直接影响集群的吞吐量和任务成功率。
码字的字节
·
2025-07-25 00:52
hadoop布道师
Hadoop
资源隔离机制
Cgroups
容器限制
OOM
Killer
Spark大数据处理讲课笔记4.8 Spark SQL典型案例
文章目录零、本讲学习目标一、使用SparkSQL实现词频统计(一)提出任务(二)实现任务1、准备数据文件2、创建Maven项目3、修改源程序目录4、添加依赖和设置源程序目录5、创建日志属性文件6、创建
HDFS
酒城译痴无心剑
·
2025-07-24 08:07
#
Spark基础学习笔记(1)
spark
笔记
sql
【大数据学习 | Spark-Core】RDD的概念与Spark任务的执行流程
但是,目前的MapReduce框架都是把中间结果写入到
HDFS
中,带来了大量的数据复制、磁盘IO和序列化开销。显然,如果能将结果保存在内存当中,就可以大量减少IO。
Vez'nan的幸福生活
·
2025-07-24 07:35
大数据
spark
oracle
sql
json
CC00096.kafka——|
Hadoop
&kafka.V03|——|kafka.v03|Kafka源码剖析|Topic创建流程|
一、Kafka源码剖析之Topic创建流程###---Topic创建~~~有两种创建方式:自动创建、手动创建。~~~在server.properties中配置auto.create.topics.enable=true时,~~~kafka在发现该topic不存在的时候会按照默认配置自动创建topic,~~~触发自动创建topic有以下两种情况:~~~Producer向某个不存在的Topic写入消息
yanqi_vip
·
2025-07-24 07:29
kafka
java
大数据
python
spark
大数据集群 多命令脚本
2配置集群hostname2.1配置hostname文件1服务器
hadoop
01[root@localhost~]#echohostname1>/etc/hostnamehostname
hadoop
012
小P聊技术
·
2025-07-24 05:38
R 和
Hadoop
大数据分析(一)
现在可以将这些海量信息存储在像
Hadoop
这样的低成本平台上。这些组织目前面临的难题是如何处理这些数据,以及如何从中提取关键见解。因此,R就成为了关键工具。
·
2025-07-24 04:10
Zookeeper 在 Kafka 中的作用详解:分布式协调服务的核心价值
一、Zookeeper简介Zookeeper是一个开源的分布式协调服务,最初由
Hadoop
生态发展而
lxb_不卑不亢
·
2025-07-24 02:28
消息队列
MQ
进阶实战
分布式
zookeeper
kafka
rocketmq
数据库和数据仓库区别
HIve与Mysql对比HiveMysql数据存储位置
HDFS
本地磁盘数据格式用户定义系统决定数据更新不支持(不支持修改和删除)支持(支持增删改查)索引有,但较弱,一般很少用有,经常使用的执行MapReduceExecutor
hhhecker
·
2025-07-23 14:42
Hadoop学习
数据仓库
数据库
hive
深入解析
Hadoop
中的推测执行:原理、算法与策略
Hadoop
推测执行概述在分布式计算环境中,任务执行速度的不均衡是一个普遍存在的挑战。
码字的字节
·
2025-07-23 09:11
hadoop布道师
hadoop
算法
推测执行
spark on yarn
SparkonYARN是指将Spark应用程序运行在
Hadoop
YARN集群上,借助YARN的资源管理和调度能力来管理Spark的计算资源。
不辉放弃
·
2025-07-23 08:30
pyspark
大数据开发
Spark RDD 之 Partition
一份待处理的原始数据会被按照相应的逻辑(例如jdbc和
hdfs
的split逻辑)切分成n份,每份数据对应到RDD中的一个Partition,Partition的数量决定了task的数量,影响着程序的并行度支持保存点
博弈史密斯
·
2025-07-23 06:19
深入解析
Hadoop
中的Region分裂与合并机制
Hadoop
与Region的基本概念
Hadoop
的分布式架构基础作为大数据处理的核心框架,
Hadoop
通过分布式存储和计算解决了海量数据的处理难题。
码字的字节
·
2025-07-23 00:45
hadoop布道师
hadoop
大数据
分布式
Region
分裂
合并
深入解析
Hadoop
RPC:技术细节与推广应用
Hadoop
RPC框架概述在分布式系统的核心架构中,远程过程调用(RPC)机制如同神经网络般连接着各个计算节点。
码字的字节
·
2025-07-23 00:44
hadoop布道师
Hadoop
RPC
深入解析
Hadoop
:大数据处理的基石
在这种背景下,诞生了一系列用于处理大数据的框架与工具,而Apache
Hadoop
便是其中最为知名和应用最广泛的一个。本文将深入解析
Hadoop
的基本原理、架构及其在大数据处理中的重要性。
学习的锅
·
2025-07-23 00:13
hadoop
大数据
分布式
大数据技术关键技术组件
大数据技术的关键组件通常包括:分布式存储系统:
Hadoop
DistributedFileSystem(
HDFS
):一个高度可扩展
·
2025-07-23 00:12
大数据领域
HDFS
的集群资源管理优化
大数据领域
HDFS
的集群资源管理优化关键词:
HDFS
;集群资源管理;存储优化;性能调优;副本策略;负载均衡;NameNode优化摘要:
HDFS
(
Hadoop
分布式文件系统)作为大数据领域的基石,承载着海量数据的存储与管理重任
大数据洞察
·
2025-07-23 00:40
大数据与AI人工智能
大数据AI应用
大数据
hdfs
hadoop
ai
深入探索
Hadoop
技术:全面学习指南
Hadoop
,作为开源的大数据处理框架,以其强大的分布式存储和并行计算能力,以及丰富的生态系统,为企业提供了应对大规模数据挑战的有效解决方案。
·
2025-07-23 00:09
HDFS
文件系统
HDFS
文件系统是
hadoop
生态系统的核心,主要用于分布式文件存储,它具备高可用,流式读取,文件结构简单,跨平台的特点,它的集群采用的是主从结构,分为命名节点和数据节点,命名节点主要用于元数据管理(例如对目录
·
2025-07-22 15:16
Flink-
Hadoop
实战项目
1.2技术栈流处理引擎:ApacheFlink1.18.1存储系统:
HDFS
(
Hadoop
分布式文件系统)数据
Dylan_muc
·
2025-07-22 14:12
hadoop
hdfs
flink
大数据集群运维常见的一些问题以及处理方式
若为节点整体宕机:排查电源和网络,重启节点后,依次启动
HDFS
、YARN等服务进程,确认数据块完整性(避免因节点宕机导致副本不足)。
·
2025-07-22 14:09
大数据技术是解决什么问题的?
基础知识1TB(太字节)=1024GB1PB(拍字节)=1024TB大数据核心框架
Hadoop
Hadoop
作为大数据技术生态的核心框架,主要解决了海量数据(TB/PB级)的存储、处理和分析难题,尤其是在传统数据库
@佳瑞
·
2025-07-22 13:36
大数据
Hadoop
与图像识别与处理
Hadoop
与图像识别与处理作者:禅与计算机程序设计艺术/ZenandtheArtofComputerProgramming1.背景介绍1.1问题的由来在大数据时代,数据的爆炸性增长对数据处理技术提出了新的挑战
AI天才研究院
·
2025-07-22 08:21
AI大模型企业级应用开发实战
Agentic
AI
实战
AI人工智能与大数据
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
hadoop
集群问题处理
1.1.JournalNode的作用在
HDFS
HA配置中,为了实现两个NameNode之间的状态同步和故障自动切换,
Hadoop
使用了一组JournalNode来管理共享的编辑日志。
一切顺势而行
·
2025-07-22 04:53
hadoop
大数据
分布式
sqoop从mysql导数据到
hdfs
,出现java.lang.ClassNotFoundException: Class QueryResult not found
运行sqoop从postgresql/mysql导入数据到
hdfs
,结果出现如下错误:2025-07-1816:59:13,624INFOorm.CompilationManager:
HADOOP
_MAPRED_HOMEis
无级程序员
·
2025-07-22 04:53
大数据
sqoop
mysql
hdfs
hive底层原理 sql执行过程_Hive原理总结(完整版)
41.1Hive简介41.1.1什么是Hive41.1.2为什么使用Hive41.1.3Hive的特点41.2Hive架构51.2.1架构图51.2.2基本组成51.2.3各组件的基本功能51.3Hive与
Hadoop
·
2025-07-21 19:25
hive的sql优化思路-明白底层运行逻辑
一、首先要明白底层map、shuffle、reduce的顺序之中服务器
hdfs
数据文件在内存与存储之中是怎么演变的,因为hive的性能瓶颈基本在内存,具体参考以下他人优秀文章:1.HiveSQL底层执行过程详细剖析
ycllycll
·
2025-07-21 18:50
hive
sql
hadoop
六、深度剖析
Hadoop
分布式文件系统(
HDFS
)的数据存储机制与读写流程
深度剖析
Hadoop
分布式文件系统(
HDFS
)的数据存储机制与读写流程在当今大数据领域当中,
Hadoop
分布式文件系统(
HDFS
)作为极为关键的核心组件之一,为海量规模的数据的存储以及处理构筑起了坚实无比的根基
·
2025-07-21 16:05
大数据处理技术:分布式文件系统
HDFS
目录1实验名称:2实验目的3实验内容4实验原理5实验过程或源代码5.1
HDFS
的基本操作5.2
HDFS
-JAVA接口之读取文件5.3
HDFS
-JAVA接口之上传文件5.4
HDFS
-JAVA接口之删除文件
茜茜西西CeCe
·
2025-07-21 12:08
hdfs
hadoop
大数据
HDFS-JAVA接口
文件
头歌
Java
Linux教程(4)----[hive数据仓库工具]
Hive基本概念Hive简介什么是HiveHive是基于
Hadoop
的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。
.房东的猫
·
2025-07-21 07:59
Linux教程(完善中~~)
linux
【
Hadoop
】onekey_install脚本
hosts[root@kafka01
hadoop
-script]#cat/etc/hosts127.0.0.1localhostlocalhost.localdomainlocalhost4localhost4
菜萝卜子
·
2025-07-21 03:24
Linux
hadoop
大数据
分布式
cdh6.3.2的hive使用apache paimon格式只能创建不能写报错的问题
解决方法 原带的jars下的zstd开头的包旧了,重新下载zstd较新的包单独放到每个节点的hive/lib下; 然后将
hdfs
yarn用户下的mr-framework.tar.gz中的zstdjar
明天,今天,此时
·
2025-07-20 05:26
hive
paimon
Hadoop
与云原生集成:弹性扩缩容与OSS存储分离架构深度解析
Hadoop
与云原生集成的必要性
Hadoop
在大数据领域的基石地位作为大数据处理领域的奠基性技术,
Hadoop
自2006年诞生以来已形成包含
HDFS
、YARN、MapReduce三大核心组件的完整生态体系
·
2025-07-19 16:49
上一页
1
2
3
4
5
6
7
8
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他