E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
Mapreduce
Spark RDD特征与宽窄依赖
(4)可选:key-value型的RDD是根据哈希来分区的,类似于
mapreduce
当中的partitioner接口,控制key分到哪个reduce。(5)可选:每一个分片的优
zhuhailong
·
2023-04-06 19:11
Spark
spark
RDD
宽窄依赖
spark 宽窄依赖
宽依赖与窄依赖窄依赖是指父RDD的每个分区只被子RDD的一个分区所使用,子RDD分区通常对应常数个父RDD分区(O(1),与数据规模无关)ShuffleDependency和Hadoop
MapReduce
leofionn
·
2023-04-06 19:05
【6.824分布式系统笔记】LEC 3: GFS |HDFS、背景、GFS架构、文件读写、一致性
再上层就是
MapReduce
计算框架。GFS这是这门课里有关如何构建大型存储系统的众多案例学习的第一篇。GFS论文也涉及到很多本课程常出现的话题,例如并行性能、容错、复制和一致性。
Mengo_x
·
2023-04-06 19:13
分布式系统
MIT
分布式
golang
HDFS
GFS
HQL (hive sql)之函数总结
并且这个函数有内置,也允许自定义来扩展功能注意,不管是普通hql语言还是函数,最终都是转换为
mapreduce
程序来运行。
闻香识代码
·
2023-04-06 19:09
hql
hive
SQL
hql
hive
mapreduce
hadoop
大数据
HQL(Hive SQL) 之查询语句专题汇总
HQL(HiveSQL)之查询语句专题汇总1.背景hive本身是一个将sql语句转换为
mapreduce
程序运行的转换器hive可以把结构化数据转换到一张表上,并提供查询和分析的功能针对这个过程,hive
闻香识代码
·
2023-04-06 19:39
hql
hive
SQL
hql
mapreduce
hdfs
hadoop
大数据
大数据开发之Apache Hive
生态之上的开源数据仓库系统,可以把储存在Hadoop文件中结构化,半结构化得到数据文件映射成一张数据库表,然后基于数据库表提供一种类似SQL的查询模型,也叫Hive查询语言,简称HQL;然后是Hive的核心就是把HQL转化成
MapReduce
C0oOder
·
2023-04-06 19:37
大数据之路
hive
大数据
hadoop
大数据——Hive基础
Hive基础什么是HiveHive的优势和特点Hive的发展里程碑和主流版本Hive与
MapReduce
Hive的基本架构Hive元数据管理Hive体系架构Hive操作HiveInterface-命令窗口模式
蜂蜜柚子加苦茶
·
2023-04-06 18:10
大数据
hive
hadoop
大数据Hive之Hive的结构
WUI2.2Hive将元数据存储在数据库中,如mysql、derby2.3解释器、编译器、优化器、执行器3.Hive和普通DB的异同4.元数据5.数据存储1.Hive结构介绍Hive构建在Hadoop的HDFS和
MapReduce
RunFromHere
·
2023-04-06 18:07
大数据
hive
结构
大数据BigData
元数据
apache
MapReduce
-hadoop-尚硅谷
第1章
MapReduce
概述1.3
MapReduce
核心思想1.4
MapReduce
进程1.6常用数据序列化类型1.7
MapReduce
编程规范用户编写的程序分成三个部分:Mapper、Reducer和
紫金小飞侠
·
2023-04-06 15:26
#
hodoop
mapreduce
概念和案例(尚硅谷学习笔记)
目录
MapReduce
概念概述优点和缺点可编程组件Wordcount案例需求分析代码实现Combiner案例实现需求分析代码实现自定义序列化概述自定义序列化步骤手机号及总流量案例patition分区概述自定义分区手机号区分省市输出案例代码实现
JeremyHeria
·
2023-04-06 15:24
#
hadoop
mapreduce
big
data
hadoop
java
大数据
MapReduce
-Reduce Join应用 (FROM 尚硅谷)
个人学习整理,所有资料来自尚硅谷B站学习连接:添加链接描述
MapReduce
-ReduceJoin应用1.ReduceJoinMap端的主要工作:为来自不同表或文件的key/value对,打标签以区别不同来源的记录
lavineeeen
·
2023-04-06 15:51
Hadoop
mapreduce
大数据
big
data
大数据技术之Hadoop(
MapReduce
)第1章
MapReduce
入门
1.1
MapReduce
定义
Mapreduce
是一个分布式运算程序的编程框架,是用户开发“基于hadoop的数据分析应用”的核心框架。
尚硅谷铁杆粉丝
·
2023-04-06 15:11
Java
Java
Linux
IT
大数据
尚硅谷
MapReduce
开发总结-尚硅谷
1)输入数据接口:InputFormat(1)默认使用的实现类是:TextInputFormat(2)TextInputFormat的功能逻辑是:一次读一行文本,然后将该行的起始偏移量作为key,行内容作为value返回。(3)CombineTextInputFormat可以把多个小文件合并成一个切片处理,提高处理效率。需要尚硅谷八斗学院奈学教育完整大数据资料和多家机构面试题的加威:Y177446
坏孩子充电自习室
·
2023-04-06 15:07
大数据
hadoop
大数据
【HBase学习笔记-尚硅谷-Java API shell命令 谷粒微博案例】
的逻辑结构和物理结构3、数据模型4、基本架构二、快速入门1、配置HBase2、命令三、API1、获取HBase连接2、创建表3、删除表4、创建命名空间5、插入数据6、获取数据7、删除数据四、HBase与
MapReduce
爱酸柠檬
·
2023-04-06 15:35
hbase
java
big
data
MapReduce
工作流程
1图片来源尚硅谷大数据课程
MapReduce
流程一
MapReduce
流程二流程:1:MapTask收集从map()方法写出的(k,v)对,由outputCollector收集写入环形缓冲区。
阿东在路上
·
2023-04-06 15:35
#
MapReduce
hadoop
mapreduce
跟着尚硅谷学大数据(二)
MapReduce
第1章
MapReduce
概述1.1
MapReduce
定义
MapReduce
是一个分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应用”的核心框架。
逗×
·
2023-04-06 15:31
大数据
mapreduce
hadoop
错误Exception in thread “main“ java.lang.UnsatisfiedLinkError: org.apache.hadoop.io.nativeio.NativeIO
问题描述hadoop在本地执行
MapReduce
出现了如下相关异常:Exceptioninthread"main"java.lang.UnsatisfiedLinkError:org.apache.hadoop.io.nativeio.NativeIO
东北炸鸡
·
2023-04-06 15:57
java
开发语言
后端
eclipse
hadoop
笔记-hadoop-
MapReduce
——尚硅谷视频笔记
MapReduce
核心思想1)分布式的运算程序往往需要分成至少2个阶段。2)第一个阶段的MapTask并发实例,完全并行运行,互不相干。
liu_1221
·
2023-04-06 15:56
笔记-hadoop
尚硅谷大数据技术Hadoop教程-笔记04【Hadoop-
MapReduce
】
大数据概论】尚硅谷大数据技术Hadoop教程-笔记02【Hadoop-入门】尚硅谷大数据技术Hadoop教程-笔记03【Hadoop-HDFS】尚硅谷大数据技术Hadoop教程-笔记04【Hadoop-
MapReduce
延锋L
·
2023-04-06 14:43
#
Hadoop
大数据
hadoop
linux
mapReduce
分布式
spark基础之RDD详解
每一个分区分布在不同的集群中节点,从而使得RDD可以被并行处理,所以它是分布式的#提供容错性,它将计算转换一个成一个有向无环图(DAG)的任务集合,方便利用血缘关系进行数据恢复#中间计算结果缓存在内存二RDD与
MapReduce
莫言静好、
·
2023-04-06 14:07
大数据/spark
spark
RDD
弹性分布式数据集
【Spark】RDD详细介绍
Hadoop的
MapReduce
是一种基于数据集的工作模式,面向数据,这种工作模式一般是从存储上加载数据集,然后操作数据集,最后写入物理存储设备。数据更多面临的是一次性处理。
BIG*BOSS
·
2023-04-06 14:44
Spark
Spark
Spark的RDD介绍
Hadoop的
MapReduce
是一种基于数据集的工作模式,面向数据,这种工作模式一般是从存储上加载数据集,然后操作数据集,最后写入物理存储设备。数据更多面临的是一次性处理。
蓦然_
·
2023-04-06 14:13
Spark
Spark
RDD
弹性分布式数据集
MapReduce
:大型集群上的简单数据处理
MapReduce
:大型集群上的简单数据处理摘要
MapReduce
是一个编程模型和一个处理和生成大数据集的相关实现。
shijinupc
·
2023-04-06 13:54
云计算
mapreduce
集群
任务
网络
文档
数据结构
# 在线教育项目——数仓实战(三)之访问咨询主题看板(全量流程)
业务数据准备3.建模分析4.建模操作4.1数据存储格式和压缩方案4.2全量和增量4.3Hive分区4.4建模操作5.Hive的基础优化(目前无需更改)5.1HDFS的副本数量5.2yarn的基础配置5.3
MapReduce
爱吃薄荷糖的喵喵
·
2023-04-06 12:10
Hadoop
数仓
数据库
大数据
hadoop
hive
2021-12-15 Ubuntu下安装配置 Apache Spark
它基于Hadoop
MapReduce
,它扩展了
MapReduce
模型以便将其用于更多类型的计算,其中包括交互式查询和流处理。Spark的主要特点是其内存集群计算,可提高应用程序的处理速度。
垄山小站
·
2023-04-06 10:45
Hive简介
4)目前Hive的底层执行引擎有多种:
MapReduce
、Tez、SparkHiveon
MapReduce
HiveonTezHiveonSpark5)支持
机灵鬼鬼
·
2023-04-06 05:44
统一观测丨使用 Prometheus 监控 E-
MapReduce
,我们该关注哪些指标?
开源大数据平台E-
MapReduce
(简称“EMR”)是云原生开源大数据平台,向客户提供简单易集成的Hadoop、Hive、Spark、Flink、Presto、ClickHouse、StarRocks
阿里云技术
·
2023-04-06 04:31
prometheus
mapreduce
hadoop
云计算
阿里云
三十一、《大数据项目实战之用户行为分析》Spark SQL与Hive整合
Hive可以将SQL语句转化为
MapReduce
(或ApacheSpark、ApacheTez)任务执行,大大降低了Hadoop的使用门槛,减少了开发
MapReduce
程序的时间成本。
大数据张老师
·
2023-04-05 23:12
#
大数据
hive
spark
Spark SQL详细知识点
1.2HiveandSparkSQLSparkSQL的前身是Shark,给熟悉RDBMS但又不理解
MapReduce
的技术人员提供快速上手的工
数据行
·
2023-04-05 22:26
大数据学习总结
spark
spark
sql
hadoop
Hive基本概念
比如词频统计,
mapreduce
需要写一大堆代码,hive一条select就ok了;由此可见,
MapReduce
执行效率更快,Hive开发效率更快。所以,我们使用Hive是因为MapReduc
小财迷,嘻嘻
·
2023-04-05 22:53
hive
Spark架构设计和运行基本流程
2、与Hadoop
MapReduce
计算框架相比,Sp
郝少
·
2023-04-05 19:37
Spark技术经验
大数据
Spark
大数据
内存计算
Spark架构
Spark框架概述
简而言之,Spark借鉴了
MapReduce
思想发展而来,保留了其分布式并行计算的优点并改进了其明显的缺陷。让
藤藤菜丶
·
2023-04-05 19:02
总结分享学习
Spark
spark
scala
大数据
Mapreduce
编程
1.
MapReduce
核心思想(1)分布式的运算程序往往需要分成只少2个阶段(2)第一个阶段的MapTask并发实例。
守猪_待兔
·
2023-04-05 18:49
Hadoop
mapreduce
大数据
数据库
hadoop
大数据Hadoop生态系统介绍
一、概述Hadoop是Apache软件基金会下一个开源分布式计算平台,以hdfs(HadoopDistributedFileSystem)、
MapReduce
(Hadoop2.0加入了YARN,Yarn
大数据老司机
·
2023-04-05 18:37
YARN的工作机制详细步骤
作业提交全过程详解(1)作业提交第1步:客户端Client调用job.waitForCompletion方法,向整个集群提交
MapReduce
作业,并且向ResourceManager的ApplicationManager
m0_小鱼
·
2023-04-05 17:57
大数据
hadoop
java
MapReduce
的Join应用
先写一个实体类packagecom.kgc.myhdfs001.join;importorg.apache.hadoop.io.Writable;importjava.io.DataInput;importjava.io.DataOutput;importjava.io.IOException;/*两张表custmoers表和orders表customers表里面有userid、username、
m0_小鱼
·
2023-04-05 17:26
mapreduce
大数据
hadoop
spark sql结构化数据文件处理-dataframe
sparksql这个类似于hive为
mapreduce
提供上层接口,使数据分析师可以不必为写
mapreduce
的Java代码而烦恼,同样并不是所有工程师都会Scala语言,所以sparksql就是做这个事情的
eyexin2018
·
2023-04-05 16:11
spark学习之路
spark
linux
MapReduce
运行流程
MapRecude运行流程1.客户端提交代码job.watiforcompletion()开始运行2.请求到ResourceManager(经理)请求运行,ResourceManager返回jobId,和让客户端提交资源的路径3.客户端读取Hdfs文件,进行切片,序列化得到FileSplit分片信息对象,然后把FileSplit(maptask读取文件),jar包(程序运行需要),xml(job对
大数据搬砖小菜鸟
·
2023-04-05 15:37
大数据
mapreduce
大数据
hadoop
分布式文件系统HDFS架构和数据读写流程
Hadoop核心由HDFS和
MapReduce
组成,HDFS负责分布式存储,
MapReduce
负责分布式计算。
机器熊技术大杂烩
·
2023-04-05 14:14
Hadoop
MapReduce
MapReduce系列文章
HDFS
架构
读写流程
大数据概论
Hadoop框架讨论大数据生态1、Hadoop是什么2、Hadoop发展历史3、Hadoop三大发行版本4、Hadoop优势5、Hadoop组成(重点)5.1HDFS架构概述5.2YARN架构概述5.3
MapReduce
蓦然_
·
2023-04-05 13:51
Hadoop
大数据
Hadoop
大数据概论
大数据介绍
20200624——yarn
Yarn是什么yarn是一个资源调度框架在古老的hadoop1.0里面,
MapReduce
中的JobTracker负责了太多的任务,于是在2.0升级的过程,将这一部分独立出来,也就是yarn。
宫城诗
·
2023-04-05 09:14
hadoop
Hadoop 学习 --- Yarn(四)
Hadoop–yarn1.Yarn资源调度器Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而
MapReduce
等运算程序则相当于运行于操作系统之上的应用程序
Aphelios_King
·
2023-04-05 09:36
大数据
框架
大数据框架之Hadoop:
MapReduce
(五)Yarn资源调度器
简言之,Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而
MapReduce
等运算程序则相当于运行于操作系统之上的应用程序。5.1Yarn基本架构YARN
yiluohan0307
·
2023-04-05 09:53
大数据框架之Hadoop
hadoop
大数据
mapreduce
【Hadoop入门】Hadoop的架构介绍
Hadoop是根据Google公司发表的
MapReduce
和Google档案系统的论文自行实作而成。
小明同学呀呀呀
·
2023-04-05 07:01
hadoop报错:Stack trace: ExitCodeException exitCode=1
在linux系统下使用eclipse自动打包运行
MapReduce
的时候发现了如下错误。
Calendula597
·
2023-04-05 05:42
java
hadoop
mapreduce
使用MongoDB的
MapReduce
进行查询和数据组织
Date:2016-03-09Summary:在实际应用中,用MongoDB做了数据库查询之后返回的数据量很大,想要做一些比较复杂的统计和聚合操作做花费的时间超过了数据库操作耗时,尝试用MongoDB中的
MapReduce
浪尖儿
·
2023-04-05 03:32
利用
MapReduce
将文件内容写入Hbase
org.apache.hadoophadoop-client2.7.3org.apache.hbasehbase-client1.3.1org.apache.hbasehbase-server1.3.1packagecom.neuedu;importorg.apache.hadoop.conf.Configuration;importorg.apache.hadoop.fs.Path;import
小猪Harry
·
2023-04-04 23:24
impala使用
目录a.添加impala服务b.impala客户端启动c.创建表d.impala进行
mapreduce
计算e.分区使用f.impala数据同步1.使用hive插入数据2.impala查询数据3.进行数据同步
yang_zzu
·
2023-04-04 23:03
大数据
impala
impala整合hbase
Impala架构和工作原理
239989011.Impala架构Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具(实时SQL查询引擎Impala),Impala没有再使用缓慢的Hive+
MapReduce
小砖工
·
2023-04-04 23:52
Hadoop
hadoop
分布式
大数据
impala的架构
而
MapReduce
是一个临时的计算,什么时候提交作业什么时候才会计算。Spark:启动服务后一直计算知道所有计算结束,进程拉起后执行完所有计算任务才会销毁。
陈小哥cw
·
2023-04-04 22:33
大数据
上一页
48
49
50
51
52
53
54
55
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他