E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Mapreduce
互联网公司常用四大中间件 | 搜索中间件&缓存中间件
大型互联网公司项目请求响应处理:远端通过访问Web->检索->缓存->HBase->
MapReduce
->HDFS2.缓存中间件:Redis缓存常用方法大家都比较
国林哥
·
2023-03-31 16:24
架构设计
架构
java
Presto架构原理
与
MapReduce
Job相比,OLAP引擎常通过SQL的形式
Popcorn丶30
·
2023-03-31 12:36
大数据
Spark性能调优实战--精华总结-极客时间 吴磊
一.spark原理1.spark和
mapReduce
的区别
MapReduce
计算模型最大的问题在于,所有操作之间的数据交换都以磁盘为媒介。
紫金小飞侠
·
2023-03-31 12:47
#
Spark
MapReduce
怎么优雅地实现全局排序
思考想到全局排序,是否第一想到的是,从map端收集数据,shuffle到reduce来,设置一个reduce,再对reduce中的数据排序,显然这样和单机器并没有什么区别,要知道
mapreduce
框架默认是对
Hoult_吴邪
·
2023-03-31 12:44
Sqoop理论知识:介绍-产生背景-架构-数据导入导出流程
是一个
MapReduce
的代码框架。可以实现数据在关系型数据库和Hadoop之间的相互导入和导出。
weixin_49334432
·
2023-03-31 11:32
Sqoop
sqoop
大数据
Azkaban知识点入门
一azkaban的简介1.1调度系统背景1.一个完整的大数据分析系统通常都是由大量任务单元组成:shell脚本程序,
mapreduce
程序、hive脚本、spark程序等。
南潇如梦
·
2023-03-31 11:30
大数据那些事
hadoop
big
data
大数据
Hadoop 2.x组成
MapReduce
:一个分布式的资源调度和离线并行计算框架。Yarn:基于HDFS。用于作业调度和集群资源管理的框架。
weixin_44389390
·
2023-03-31 09:32
Hadoop
Hadoop2
大数据
hadoop 2.x HDFS系统架构详解
Hadoop2.0的核心架构,HDFS2、YARN、
MapReduce
和其他。
辰阳星宇
·
2023-03-31 09:38
#
Hadoop
hadoop
hdfs
big
data
【大数据】【Hadoop】4、Hadoop系统的组成(Hadoop2.x)
文章目录Hadoop2.X简介;一、容器二、节点管理器三、资源管理器四、应用程序管理器五、YARN请求分解Hadoop2.X简介;Hadoop2.0,经常被称为
MapReduce
2.0(MRv2)或者YARN
jts2015
·
2023-03-31 09:16
hadoop
大数据
YARN
hadoop
big
data
mapreduce
HDFS原理与应用
1HDFS基本介绍一些基本概念:在Hadoop中,HDFS是存储层,YARN是调度层,
MapReduce
是应用层HDFS是Hadoop分布式文件系统(HadoopDistributedFileSystem
Popcorn丶30
·
2023-03-31 09:10
hadoop
hdfs
大数据
大数据平台架构及主流技术栈
Google的三篇论文GFS(2003),
MapReduce
(2004),Bigtable(2006)为大数据技术奠定了理论基础。随后,基于这三篇论文的开源实现Hadoop被各个互联网公司广泛使用。
Alex_81D
·
2023-03-31 07:47
大数据从入门到精通
大数据
Hadoop本地运行模式(Grep案例和WordCount 案例)
目录前言运行官方Grep案例1.在当前用户主(HOME)目录下面创建一个input目录2.将Hadoop的xml配置文件复制到input3.执行share目录下的
MapReduce
程序4.查看输出结果运行官方
全栈ing小甘
·
2023-03-31 06:06
大数据
大数据
hadoop
云原生大数据架构中实时计算维表和结果表的选型实践
一前言传统的大数据技术起源于Google三架马车GFS、
MapReduce
、Bigtable,以及其衍生的开源分布式文件系统HDFS,分布式计算引擎
MapReduce
,以及分布式数据库HBase。
阿里云技术
·
2023-03-31 02:53
big
data
hive
hadoop
hadoop之
MapReduce
MR核心编程思想:MR一般需要分成两个阶段,Map和reduce,map阶段,maptask完全并行运行,互不干扰,reduce阶段,reducetask完全不互相干,但是他们的数据依赖于上一个阶段的所有的maptask输出的结果,MR进程:MrAppMaster:负责整个程序的过程调度,计算Maptask的个数Maptask:负责map阶段的数据处理Reducetask:负责reduce阶段的数
USTC_IT
·
2023-03-31 02:16
Hive对比传统数据库区别
Hive对比传统数据库①Hive和关系数据库存储文件系统不同,Hive使用的是hadoop的HDFS(hadoop的分布式文件系统),关系数据库则是服务器本地的文件系统;②Hive使用的计算模型是
MapReduce
栗子呀!
·
2023-03-31 01:30
大数据知识点汇总
大数据
hive
hadoop
数据库
Hive与传统数据库的比较
Hive通过把HiveSQL进行解析和转换,最终生成一系列在hadoop上运行的
mapreduce
任务,通过执行这些任务完成数据分析与处理。
糖潮丽子
·
2023-03-31 01:58
大数据
hive
hadoop
数据仓库
Hive对比传统数据库
①Hive和关系数据库存储文件系统不同,Hive使用的是hadoop的HDFS(hadoop的分布式文件系统),关系数据库则是服务器本地的文件系统;②Hive使用的计算模型是
MapReduce
,而关系数据库则是自己设计的计算模型
Cynicism_Kevin
·
2023-03-31 01:46
hive
数据库
hadoop
Java大数据开发Hadoop
MapReduce
目录1MapRedcue的介绍1.1
MapReduce
定义1.2
MapReduce
的思想1.3
MapReduce
优点1.4
MapReduce
的缺点1.5
MapReduce
进程1.6
MapReduce
-WordCount2Hadoop
·
2023-03-31 01:18
hive的介绍及与传统关系型数据库(mysql)的区别
hive的介绍什么是hive:Hive是基于hadoop的一个数据仓库工具,实质就是一款基于hdfs的
MapReduce
计算框架,对存储在HDFS中的数据进行分析和管理。
JDK1.8.0
·
2023-03-31 01:11
大数据
hive
hive架构和原理以及与传统数据库的区别
如果执行引擎是
MapReduce
的话,hive会将Hql翻译成MR进行数据的计算。用户可以使用命
ChlinRei
·
2023-03-31 01:10
Hive
hive
架构
大数据
数据仓库
数据产品经理有必要了解的
MapReduce
本文是Hadoop组件之
MapReduce
的学习总结性文章。因本人非技术出身,所学均来源于网络,难免有不严谨甚至错误之处,恳请大家指正。
顺子哥66的
·
2023-03-31 00:49
大数据技术原理与应用 笔记 第2章 大数据处理架构Hadoop
大数据处理架构HadoopHadoop发展历程Hadoop起源Hadoop特点Hadoop应用现状不同版本Hadoop项目结构Hadoop集群的部署和使用集群硬件配置HDFS
MapReduce
Hadoop
梦想是吃不完的格力高
·
2023-03-30 23:39
大数据开发
大数据技术原理与应用----大数据处理架构Hadoop
2、Hadoop的理论基础(1)Hadoop的两大核心①分布式文件系统(HDFS);②分布式并行编程框架(
MapReduce
);(2)Hadoop的特性①高可靠性;②高效性;③高可扩展性;④高容错性;⑤
wake D
·
2023-03-30 23:04
大数据学习
hadoop
架构
大数据
【Hadoop】Yarn 资源调度器
Hadoop
MapReduce
:基于Y
和风与影
·
2023-03-30 23:00
Hadoop
hadoop
yarn
了解大数据技术原理与应用(复习知识点)
目录①大数据(BigData)与云计算、物联网的相互关系②介绍Hadoop、
MapReduce
、HDFS和HBase以及其他功能组件,复习重点以及其他可用点!
登登登__
·
2023-03-30 23:20
大数据
hadoop
big
data
大数据技术原理与应用(第七章
MapReduce
)
目录7.1
MapReduce
简介
MapReduce
与传统并行计算框架对比
MapReduce
模型
MapReduce
策略
MapReduce
理念——计算向数据靠拢
MapReduce
架构——Master/SlaveMap
m0_37607242
·
2023-03-30 23:48
大数据
mapreduce
大数据技术原理与应用(第九章 数据仓库HIVE)
数据仓库的概念传统数据仓库面临的挑战9.2HIVE简介Hive适用于数据仓库的特点采用批处理方式处理海量数据提供适合数据仓库操作的工具Hadoop生态系统中Hive与其他部分的关系Hive依赖于HDFS存储数据Hive依赖于
MapReduce
m0_37607242
·
2023-03-30 23:48
hive
大数据
数据仓库
大数据技术原理与应用(第十章 Spark)
BDAS架构Spark生态系统组件的应用场景10.3Spark运行架构Spark基本概念和架构设计RDDDAGExecutorApplicationTaskJobStageSpark运行架构与Hadoop
MapReduce
m0_37607242
·
2023-03-30 23:48
spark
大数据
scala
大数据技术原理与应用(第二章 大数据处理架构Hadoop)
目录2.1Hadoop简介HDFS(分布式文件系统)
MapReduce
(分布式并行编程框架)Hadoop的特点Hadoop的应用编辑Hadoop版本的变化2.2Hadoop项目结构TezSparkHivePigOozieZookeeperHBaseFlumeSqoopAmbari2.3Hadoop
m0_37607242
·
2023-03-30 22:58
大数据
hadoop
架构
Hadoop(HDFS、Yarn、
MapReduce
、Zookeeper、Kafka、Flume、Storm、Spark) 知识点总结
以单词计数为例,简述
MapReduce
计算
皓洲
·
2023-03-30 21:02
大数据
Hadoop核心组件详解—HDFS、YARN、
MapReduce
Hadoop是一个开源的分布式计算和存储框架,它的作用非常简单,就是在多计算机集群环境中营造一个统一而稳定的存储和计算环境,并能为其他分布式应用服务提供平台支持,相当于在某种程度上将多台计算机组织成了一台计算机。Hadoop框架最根本的原理就是利用大量的计算机同时运算来加快大量数据的处理速度。Hadoop集群可运行于一般的商用服务器上,具有高容错、高可靠性、高扩展性等特点。适合一次写入,多次读取的
濛小万
·
2023-03-30 21:25
hadoop
hadoop
hdfs
mapreduce
yarn
第四章大数据离线计算框架(
MapReduce
&YARN)
第四章大数据离线计算框架(
MapReduce
&YARN)一、
MapReduce
技术原理1.1
MapReduce
概述1.2Map函数和Reduce函数二、YARN技术原理2.1YARN的概述与应用2.2YARN
风起天澜、
·
2023-03-30 20:29
大数据原理与技术
大数据
mapreduce
Hadoop、
Mapreduce
、Spark概念
//blog.csdn.net/lbyyy/article/details/53334019https://blog.csdn.net/leanaoo/article/details/83153889
mapreduce
弦歌Charlie
·
2023-03-30 20:22
大数据基础
大数据-Hadoop中的HDFS架构、YARN架构、
MapReduce
架构
HDFS架构NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DateNode等.DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和.SecondaryNameNode(2nn):用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照.YARN架构ResourceMan
hmyqwe
·
2023-03-30 20:35
大数据
大数据学习记录-Hadoop框架核心(HDFS、
MapReduce
、YARN)
该文章为lagou学习记录笔记,里面的资源和内容来自lagou,作为大数据菜鸡,如果内容部分有错误还请各位大佬指出并纠正,谢谢大数据技术解决的是什么问题?大数据技术解决的主要是海量数据的存储和计算大数据的定义:是指无法在一定时间内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式。大数据的特点:5v(volumn–大量、velocity–高速、variety–多样、veracity真实
对方还不是你的好友
·
2023-03-30 20:46
hadoop
big
data
mapreduce
hdfs
yarn
impala中的刷新元数据和刷新表
虽然Hive系统也提供了SQL语义,但由于Hive底层执行使用的是
MapReduce
引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,impala的最大特点也是最大卖点就是它的快速。
AllenGd
·
2023-03-30 20:44
大数据
hadoop
大数据
hbase
Hadoop概述以及HDFS、YARN、
MapReduce
的架构分析和Hadoop的特点
文章目录Hadoop概述什么是Hadoop:分布式存储框架:HDFS分布式计算框架:
MapReduce
资源调度和管理平台:YARNHadoop的版本HDFS架构分布式存储介绍HDFS架构分析YARN架构分析
被迫内卷的学习记录
·
2023-03-30 20:12
hadoop
hdfs
mapreduce
yarn任务监控页面查看SQL内容
hadoopjob监控页面查看的image.png1、点开一个application,点击TrackingURL:ApplicationMaster或者History(历史任务显示History),进入到
MapReduce
Jobjob
大闪电啊
·
2023-03-30 19:23
【云计算与大数据技术】大数据系统总体架构概述(Hadoop+
MapReduce
)
一、总体架构设计原则企业级大数据应用框架需要满足业务的需求,一是要求能够满足基于数据容量大,数据类型多,数据流通快的大数据基本处理需求,能够支持大数据的采集,存储,处理和分析,二是要能够满足企业级应用在可用性,可靠性,可扩展性,容错性,安全性和隐私性等方面的基本准则,三是要能够满足用原始技术和格式来实现数据分析的基本要求满足大数据的V3要求大数据容量的加载、处理和分析-要求大数据应用平台经过扩展可
showswoller
·
2023-03-30 18:19
云计算与大数据技术
大数据
hadoop
云计算
系统架构
mapreduce
python语言的数据仓库_hive+python数据分析入门
为什么要使用hive+python来分析数据举个例子,当年没有数据库的时候,人们编程来操作文件系统,这相当于我们编写
mapreduce
来分析数据后来有了数据库,再没人操作文件系统了(除非有其它需求),而是直接使用
weixin_39782545
·
2023-03-30 17:56
python语言的数据仓库
hive 的数据仓库的使用
•本质是将SQL转换为
MapReduce
程序2.为什么要使用Hive•操作接口采用类SQL语法,提供快速开发的能力•避免了去写
MapReduce
,减少开发人员的学习成本•扩展功能很方便Hive的特点•可扩展
miketom155
·
2023-03-30 16:04
hadoop
intellij idea使用maven构建hadoop开发环境
81.81.82.6.5org.apache.hadoophadoop-common${hadoop.version}org.apache.hadoophadoop-hdfs${hadoop.version}org.apache.hadoophadoop-
mapreduce
-client-core
yc_yz
·
2023-03-30 15:37
MapReduce
原理剖析(深入源码)
文章目录1.概述1.1提交任务1.2初始化作业1.3任务分配1.4任务执行1.5进度和状态更新1.6作业完成2.提交任务&切片源码分析2.1提交任务源码分析2.2提交核心之切片流程源码分析2.3FileInputFormat切片机制2.3.1切片机制2.3.2案例分析2.3.3源码中计算切片大小的公式2.4FileInputFormat实现类2.4.1TextInputFormat2.4.2Com
每天都要加油呀!
·
2023-03-30 13:20
大数据
mapreduce
hadoop
大数据
第六课 大数据技术之Hadoop3.x的源码解析
的源码解析第一节RPC通信原理解析第二节NameNode启动源码解析第三节DataNode启动源码解析第四节HDFS上传源码解析4.1create创建过程4.2write上传过程第五节HDFS上传源码解析第六节
MapReduce
道教儒佛电磁波
·
2023-03-30 13:12
rpc
big
data
java
MapReduce
MapReduce
是一种编程模型,用于大规模数据集的并行运算在进行
MapReduce
计算任务的时候,任务被分为两个阶段:Map阶段和Reduce阶段。
GakkiLove
·
2023-03-30 10:22
JS中reduce和map的优雅写法分享
目录reduce
mapreduce
1、可以使用reduce方法来实现对象数组中根据某一key值求和例如,假设有以下对象数组:constarr=[{name:'apple',price:2},{name:
·
2023-03-30 10:57
Google File System Google Map Reduce Google BigTable 论文
blog.bizcloudsoft.com/wp-content/uploads/Google-File-System%E4%B8%AD%E6%96%87%E7%89%88_1.0.pdfGoogle
MapReduce
宿命与相关
·
2023-03-30 07:06
hadoop
MapReduce
执行流程(图解+注解)
1.Map阶段:1.对文件进行逻辑切片split,默认大小为hdfs块大小,每一块对应一个mapTask;2.对切片中的数据按行读取,解析返回形式,key为每一行的偏移量,value为每一行的数据;3.调用map方法处理数据,读取一行调用一次;4.对map方法计算的数据进行分区partition,排序sort;默认不分区,因为只有一个reduceTask处理数据,分区数=reduceTask数,计
hmi1024
·
2023-03-30 04:19
大数据
hadoop
mapreduce
hdfs
MapReduce
Map的个数分析
1.概述通常情况下,Map作业会通过input的目录产生一个或者多个map任务主要的决定因素有:input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M,可在hive中通过setdfs.block.size;命令查看到,该参数不能自定义修改)2.举例假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个块(6个128m的块和1个12m的块
hmi1024
·
2023-03-30 04:48
大数据
hadoop
mapreduce
Hadoop之
Mapreduce
序列化
目录什么是序列化:什么是反序列化:为什么要序列化:Java的序列化:Hadoop序列化:自定义序列化接口:实现序列化的步骤:先看源码进行简单分析:序列化案例实操:案例需求:(1)输入数据:(2)输入数据格式:(3)期望输出数据格式需求分析:编写MapperReduce程序:什么是序列化:序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。什么是反序列
小唐同学(๑><๑)
·
2023-03-30 03:52
Hadoop
java
hadoop
大数据
mapreduce
上一页
51
52
53
54
55
56
57
58
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他