E-COM-NET
首页
在线工具
Layui镜像站
SUI文档
联系我们
推荐频道
Java
PHP
C++
C
C#
Python
Ruby
go语言
Scala
Servlet
Vue
MySQL
NoSQL
Redis
CSS
Oracle
SQL Server
DB2
HBase
Http
HTML5
Spring
Ajax
Jquery
JavaScript
Json
XML
NodeJs
mybatis
Hibernate
算法
设计模式
shell
数据结构
大数据
JS
消息中间件
正则表达式
Tomcat
SQL
Nginx
Shiro
Maven
Linux
MapTask
MapReduce和YARN的关系
YARN并不是下一代MapReduce(MRv2),下一代MapReduce与第一代MapReduce(MRv1)在编程接口、数据处理引擎(
MapTask
和ReduceTask)是完全一样的,可认为MRv2
GYQJN
·
2015-11-30 21:00
mapreduce
编程
hadoop
yarn
Hadoop动态调整Map Task内存资源大小
前言我们都知道,在Hadoop中,一个Job的执行需要转化成1个个的Task去执行,在Task中,有会有2个类型,一个为
MapTask
,另一个就是ReduceTask.当然,这不是最底层的级别,在Task
Android路上的人
·
2015-11-23 23:20
Hadoop
YARN
Hadoop动态调整Map Task内存资源大小
前言我们都知道,在Hadoop中,一个Job的执行需要转化成1个个的Task去执行,在Task中,有会有2个类型,一个为
MapTask
,另一个就是ReduceTask.当然,这不是最底层的级别,在Task
Androidlushangderen
·
2015-11-23 23:00
hadoop
内存
yarn
Hadoop on Mac with IntelliJ IDEA - 10 陆喜恒. Hadoop实战(第2版)6.4.1(Shuffle和排序)Map端 内容整理
依书本,从
MapTask
.java开始。这个类有多个内部类: 从书的描述可知,collect()并不在
MapTask
类,而在MapOutputBuffer类,其函数功能是 1
·
2015-11-13 19:32
intelliJ idea
[Hadoop源码解读](六)MapReduce篇之
MapTask
类
MapTask
类继承于Task类,它最主要的方法就是run(),用来执行这个Map任务。
·
2015-11-12 17:59
mapreduce
Mapreduce执行过程分析(基于Hadoop2.4)——(三)
ReduceTask.run方法开始和
MapTask
类似,包括initialize()初始化,根据情况看是否调用runJobCleanupTask(),runTaskCleanupTask()等。
·
2015-11-11 07:06
mapreduce
MapReduce源码对写MR application帮助最大的部分
看
MapTask
类的runNewMapper方法然后调到Mapper类的run方法同理看ReduceTask的runNewReducer方法和Reducer类的run方法也获得很多
guotong1988
·
2015-11-09 17:00
mapreduce
Fair Scheduler中的Delay Schedule分析
对于那些输入数据不在本地的
MapTask
,调度器将会延迟调度他们,而把slot分配给那些具备本地性的
MapTask
。
·
2015-11-09 13:31
scheduler
hadoop机架感知与网络拓扑分析:NetworkTopology和DNSToSwitchMapping
hadoop网络拓扑结构在整个系统中具有很重要的作用,它会影响DataNode的启动(注册)、
MapTask
的分配等等。了解网络拓扑对了解整个hadoop的运行会有很大帮助。
·
2015-11-09 13:30
NetWork
Mapreduce运行过程分析(基于Hadoop2.4)——(三)
ReduceTask.run方法開始和
MapTask
类似,包含initialize()初始化,依据情况看是否调用runJobCleanupTask(),runTaskCleanupTask()等。
·
2015-11-02 18:54
mapreduce
正确理解hadoop 2.x 的环形缓冲区: (一) MR环形缓冲区的结构
从这周开始,开始学习shuffle的整个过程,今天带来的是hadoop环形缓冲区的理解二.初始化mr环形缓冲区(
maptask
.MapOutputBuffer):hadoopd的环形缓冲区其实只是一个简单的
大数据交流官方群
·
2015-11-01 19:12
hadoop
mapreduce
源码
shuffle
hadoop
MapReduce的
MapTask
任务的运行源码级分析
Task分为两种类型:
MapTask
和ReduceTask
·
2015-11-01 12:13
mapreduce
MapReduce中TextInputFormat分片和读取分片数据源码级分析
即org.apache.hadoop.mapreduce.lib.input.InputFormat),提供以下两个功能: (1)数据切分:按照某个策略将输入数据切分成若干个split,以便确定
MapTask
·
2015-11-01 09:58
mapreduce
MapReduce的ReduceTask任务的运行源码级分析
MapReduce的
MapTask
任务的运行源码级分析 这篇文章好不容易恢复了。。。谢天谢地。。。这篇文章讲了
MapTask
的执行流程。咱们这一节讲解ReduceTask的执行流程。
·
2015-11-01 09:57
mapreduce
hadoop中的recordreader和split以及block之间的关系
通常来讲,Inputformat会为没有一个split产生一个recordreader来提供给
maptask
使用,进而,
MapTask
能够读取属于自己管辖处理的那部分split。
水东流
·
2015-10-31 20:00
hadoop2.0 和1.0的区别
Hadoop,内核主要由HDFS和MapReduce两个系统组成,其中,MapReduce是一个离线处理框架,由编程模型(新旧API)、运行时环境(JobTracker和TaskTracker)和数据处理引擎(
MapTask
·
2015-10-27 12:49
hadoop2
Hadoop如何计算map数和reduce数
reduce数 原地址:http://www.songyafei.cn/post/a0d5b_140a7cfHadoop在运行一个mapreducejob之前,需要估算这个job的
maptask
wangjin161
·
2015-10-15 14:00
MapReduce 从作业、任务(task)、管理员角度调优
Combiner可减少
MapTask
中间输出的结果,从而减少各个ReduceTask的远程拷贝数据量,最终表现为Ma
微笑丶
·
2015-10-14 00:00
mapreduce调优
hadoop操作系统调优
hadoop硬件调优
MapReduce 从作业、任务(task)、管理员角度调优
Combiner可减少
MapTask
中间输出的结果,从而减少各个ReduceTask的远程拷贝数据量,最终表现为MapTa
微笑丶
·
2015-10-14 00:00
mapreduce调优
hadoop操作系统调优
hadoop硬件调优
mapreduce-shuffling
(这样描述不是很准确)
MapTask
每个map任务都有一个环形内存缓冲区用于存储任务的输出.默认100MB(MRJobConfig.IO_SORT_MB修改)一旦缓冲达到阈值(MRJobConfig.MAP_SORT_SPILL_PERCENT
呆萌的我
·
2015-10-13 20:00
mapreduce
shuffle
shuffling
MapReduce(四):shuffer原理
每个
maptask
都有一个环状的内存缓冲区,存储着map的输出结果,默认100m,在写磁盘时,根据reduce的数量把数据划分为相应的分区,在每个分区中数据进行内排序。
u013360022
·
2015-09-18 20:00
shuffer
spark core源码分析12 spark缓存清理
http://blog.csdn.net/yueqian_zhu/spark缓存清理机制:MetadataCleaner对象中有一个定时器,用于清理下列的元数据信息:MAP_OUTPUT_TRACKER:
Maptask
yueqian_zhu
·
2015-09-02 18:00
源码
spark
spark
core
hadoop中shuffle详解(mapreduce)
后面我会具体描述Shuffle的事实情况,所以这里你只要清楚Shuffle的大致范围就成-怎样把
maptask
的输出结果有效地传送到reduce端。
suibianshen2012
·
2015-09-02 18:00
mapreduce
hadoop
shuffle
hadoop作业map过程调优使用到的参数笔记
参数:io.sort.mb(default100)当
maptask
开始运算,并产生中间数据时,其产生的中间结果并非直接就简单的写入磁盘。
osenlin
·
2015-09-02 11:00
Hadoop与Spark常用配置参数总结
资源相关参数(1)mapreduce.map.memory.mb:一个
MapTask
可使用的资源上限(单位:MB),默认为1024。如果
MapTask
实际使用的资源量超过该值,则会被强
mlljava1111
·
2015-08-30 20:00
hadoop
优化
hadoop MapReduce - 从作业、任务(task)、管理员角度调优
Combiner可减少
MapTask
中间
baolibin528
·
2015-07-04 20:00
mapreduce
hadoop
-
从
Hive merge(小文件合并)
当Hive的输入由很多个小文件组成时,如果不涉及文件合并的话,那么每个小文件都会启动一个
maptask
。
Free World
·
2015-06-23 22:05
Hive merge(小文件合并)
当Hive的输入由很多个小文件组成时,如果不涉及文件合并的话,那么每个小文件都会启动一个
maptask
。
jiangshouzhuang
·
2015-06-23 22:00
Spark SQL中实现Hive MapJoin
在Hive中,如果一个很大的表和一个小表做join,Hive可以自动或者手动使用MapJoin,将小表的数据加载到DistributeCache中,从而在使用
MapTask
扫描大表的同时,完成join
superlxw1234
·
2015-06-23 08:00
sparksql
mapjoin
Spark SQL中实现Hive MapJoin
在Hive中,如果一个很大的表和一个小表做join,Hive可以自动或者手动使用MapJoin,将小表的数据加载到DistributeCache中,从而在使用
MapTask
扫描大表的同时,完成join
superlxw1234
·
2015-06-23 08:00
sparksql
mapjoin
Hadoop源代码分析(
MapTask
辅助类,III)
接下来讨论的是key,value的输出,这部分比较复杂,不过有了前面kvstart,kvend和kvindex配合的分析,有利于我们理解返部分的代码。输出缓冲区中,和kvstart,kvend和kvindex对应的是bufstart,bufend和bufmark。这部分还涉及到变量bufvoid,用与表明实际使用的缓冲区结尾(见后面BlockingBuffer.reset分析),和变量bufmar
超人学院66
·
2015-06-03 11:20
hadoop
超人学院
Hadoop源代码分析(
MapTask
辅助类,III)
接下来讨论的是key,value的输出,这部分比较复杂,不过有了前面kvstart,kvend和kvindex配合的分析,有利于我们理解返部分的代码。输出缓冲区中,和kvstart,kvend和kvindex对应的是bufstart,bufend和bufmark。这部分还涉及到变量bufvoid,用与表明实际使用的缓冲区结尾(见后面BlockingBuffer.reset分析),和变量bufmar
超人学院66
·
2015-06-03 11:20
hadoop
超人学院
Hadoop源代码分析(
MapTask
辅助类,III)
接下来讨论的是key,value的输出,这部分比较复杂,不过有了前面kvstart,kvend和kvindex配合的分析,有利于我们理解返部分的代码。输出缓冲区中,和kvstart,kvend和kvindex对应的是bufstart,bufend和bufmark。这部分还涉及到变量bufvoid,用与表明实际使用的缓冲区结尾(见后面BlockingBuffer.reset分析),和变量bufmar
超人学院
·
2015-06-03 11:00
hadoop
大数据
超人学院
Hadoop源代码分析(
MapTask
辅助类,II)
有了上面Mapper输出的内存存储结构和硬盘存储结构讨论,我们来仔细分析MapOutputBuffer的流程。首先是成员变量。最先初始化的是作业配置job和统计功能reporter。通过配置,MapOutputBuffer可以获取本地文件系统(localFs和rfs),Reducer的数目和Partitioner。SpillRecord是文件spill.out{spill号}.index在内存中的
超人学院
·
2015-06-02 18:00
hadoop
超人学院
Hadoop源代码分析(
MapTask
辅助类 I)
Hadoop源代码分析(
MapTask
辅助类I)
MapTask
的辅劣类主要针对Mapper的输入和输出。首先我们来看
MapTask
中用的的Mapper输入,在类图中,返部分位于右上角。
超人学院66
·
2015-06-01 17:51
hadoop
超人学院
Hadoop源代码分析(
MapTask
辅助类 I)
Hadoop源代码分析(
MapTask
辅助类I)
MapTask
的辅劣类主要针对Mapper的输入和输出。首先我们来看
MapTask
中用的的Mapper输入,在类图中,返部分位于右上角。
超人学院66
·
2015-06-01 17:51
hadoop
超人学院
Hadoop源代码分析(
MapTask
辅助类 I)
Hadoop源代码分析(
MapTask
辅助类I)
MapTask
的辅劣类主要针对Mapper的输入和输出。首先我们来看
MapTask
中用的的Mapper输入,在类图中,返部分位于右上角。
超人学院
·
2015-06-01 16:00
hadoop
超人学院
Hadoop源代码分析(*IDs类和*Context类)
Task包括
MapTask
和ReduceTask,是MapReduce的Map操作和Reduce操作执行的地方。这中任务分布的方法比较类似于HDFS中NameNode和D
超人学院
·
2015-05-26 11:00
hadoop
超人学院
Hadoop源代码分析(*IDs类和*Context类)
Task包括
MapTask
和ReduceTask,是MapReduce的Map操作和Reduce操作执行的地方。这中任务分布的方法比较类似于HDFS中NameNode和D
超人学院66
·
2015-05-26 10:03
hadoop
源代码分析
超人学院
Hadoop源代码分析(*IDs类和*Context类)
Task包括
MapTask
和ReduceTask,是MapReduce的Map操作和Reduce操作执行的地方。这中任务分布的方法比较类似于HDFS中NameNode和D
超人学院66
·
2015-05-26 10:03
hadoop
源代码分析
超人学院
Combine过程的作用
在Reduce过程前进行数据预处理,提升Reduce过程的性能它是本地化的过程,即跟
MapTask
运行在同一个机子上一个典型的例子:统计文件中单词出现次数:一个文件中有很多单词,需要统计每个单词的出现次数
DSLZTX
·
2015-05-22 16:00
MapReduce中Map Task和Reduce Task的数量
一、
MapTask
的数量一般通过Fileblocksize来控制,Filetotalsize/Fileblocksize的值一般就是
MapTask
的数量二、ReduceTask的数量可通过配置参数进行精确控制
AllInCode
·
2015-05-22 16:56
大数据
MapReduce中Map Task和Reduce Task的数量
一、
MapTask
的数量一般通过Fileblocksize来控制,Filetotalsize/Fileblocksize的值一般就是
MapTask
的数量二、ReduceTask的数量可通过配置参数进行精确控制
DSLZTX
·
2015-05-22 16:00
Hadoop源代码分析(
MapTask
)
接下来我们来分析Task的两个子类,
MapTask
和ReduceTask。
MapTask
的相关类图如下:
MapTask
其实不是很复杂,复杂的是支持
MapTask
工作的一些辅助类。
超人学院
·
2015-05-21 14:00
hadoop
超人学院
Hadoop源代码分析(
MapTask
)
接下来我们来分析Task的两个子类,
MapTask
和ReduceTask。
MapTask
的相关类图如下:
MapTask
其实不是很复杂,复杂的是支持
MapTask
工作的一些辅助类。
超人学院66
·
2015-05-21 11:00
hadoop
map
task
超人学院
Hadoop源代码分析(
MapTask
)
接下来我们来分析Task的两个子类,
MapTask
和ReduceTask。
MapTask
的相关类图如下:
MapTask
其实不是很复杂,复杂的是支持
MapTask
工作的一些辅助类。
超人学院66
·
2015-05-21 11:00
hadoop
map
task
超人学院
Hadoop源代码分析(
MapTask
)
接下来我们来分析Task的两个子类,
MapTask
和ReduceTask。
MapTask
的相关类图如下:
MapTask
其实不是很复杂,复杂的是支持
MapTask
工作的一些辅助类。
超人学院66
·
2015-05-21 11:00
Hadoop
map
task
超人学院
两个Mapper初始化输出类错误的心得:Unable to initialize any output collector
结果接连两次都出现了同样的一个错误:Error:java.io.IOException:Unabletoinitializeanyoutputcollectoratorg.apache.hadoop.mapred.
MapTask
.createSortingCollector
infovisthinker
·
2015-04-20 17:13
大数据
hadoop
mapreduce
编程
IOExeption
Hadoop深入学习:
MapTask
详解
我们主要来学习
MapTask
的内部实现。
李超100
·
2015-04-03 15:00
MapTask详解
mapreduce的shuffle,partition,combine
shuffle: 是描述着数据从map端传输到reduce端的过程,而且我们知道的是hadoop的集群环境中,大部分
maptask
和reducetask是在不同的node上执行,主要的开销是网络开销和磁盘
liuxiao723846
·
2015-03-20 17:00
mapreduce
partition
shuffle
combine
上一页
11
12
13
14
15
16
17
18
下一页
按字母分类:
A
B
C
D
E
F
G
H
I
J
K
L
M
N
O
P
Q
R
S
T
U
V
W
X
Y
Z
其他