MapTask 第15页

MapReduce和YARN的关系

YARN并不是下一代MapReduce（MRv2），下一代MapReduce与第一代MapReduce（MRv1）在编程接口、数据处理引擎（MapTask和ReduceTask）是完全一样的，可认为MRv2

GYQJN·2015-11-30 21:00

Hadoop动态调整Map Task内存资源大小

前言我们都知道,在Hadoop中,一个Job的执行需要转化成1个个的Task去执行,在Task中,有会有2个类型,一个为MapTask,另一个就是ReduceTask.当然,这不是最底层的级别,在Task

Android路上的人·2015-11-23 23:20

Hadoop动态调整Map Task内存资源大小

前言我们都知道,在Hadoop中,一个Job的执行需要转化成1个个的Task去执行,在Task中,有会有2个类型,一个为MapTask,另一个就是ReduceTask.当然,这不是最底层的级别,在Task

Androidlushangderen·2015-11-23 23:00

Hadoop on Mac with IntelliJ IDEA - 10 陆喜恒. Hadoop实战（第2版）6.4.1（Shuffle和排序）Map端内容整理

依书本，从MapTask.java开始。这个类有多个内部类：从书的描述可知，collect()并不在MapTask类，而在MapOutputBuffer类，其函数功能是 1

·2015-11-13 19:32

[Hadoop源码解读]（六）MapReduce篇之MapTask类

MapTask类继承于Task类，它最主要的方法就是run()，用来执行这个Map任务。

·2015-11-12 17:59

Mapreduce执行过程分析(基于Hadoop2.4)——(三)

ReduceTask.run方法开始和MapTask类似，包括initialize()初始化，根据情况看是否调用runJobCleanupTask()，runTaskCleanupTask()等。

·2015-11-11 07:06

MapReduce源码对写MR application帮助最大的部分

看MapTask类的runNewMapper方法然后调到Mapper类的run方法同理看ReduceTask的runNewReducer方法和Reducer类的run方法也获得很多

guotong1988·2015-11-09 17:00

Fair Scheduler中的Delay Schedule分析

对于那些输入数据不在本地的MapTask，调度器将会延迟调度他们，而把slot分配给那些具备本地性的MapTask。　　

·2015-11-09 13:31

hadoop机架感知与网络拓扑分析：NetworkTopology和DNSToSwitchMapping

　　hadoop网络拓扑结构在整个系统中具有很重要的作用，它会影响DataNode的启动(注册)、MapTask的分配等等。了解网络拓扑对了解整个hadoop的运行会有很大帮助。　　

·2015-11-09 13:30

Mapreduce运行过程分析(基于Hadoop2.4)——(三)

ReduceTask.run方法開始和MapTask类似，包含initialize()初始化，依据情况看是否调用runJobCleanupTask()，runTaskCleanupTask()等。

·2015-11-02 18:54

正确理解hadoop 2.x 的环形缓冲区: (一) MR环形缓冲区的结构

从这周开始,开始学习shuffle的整个过程,今天带来的是hadoop环形缓冲区的理解二.初始化mr环形缓冲区(maptask.MapOutputBuffer):hadoopd的环形缓冲区其实只是一个简单的

大数据交流官方群·2015-11-01 19:12

MapReduce的MapTask任务的运行源码级分析

Task分为两种类型：MapTask和ReduceTask

·2015-11-01 12:13

MapReduce中TextInputFormat分片和读取分片数据源码级分析

即org.apache.hadoop.mapreduce.lib.input.InputFormat)，提供以下两个功能：　　(1)数据切分：按照某个策略将输入数据切分成若干个split，以便确定MapTask

·2015-11-01 09:58

MapReduce的ReduceTask任务的运行源码级分析

　　MapReduce的MapTask任务的运行源码级分析这篇文章好不容易恢复了。。。谢天谢地。。。这篇文章讲了MapTask的执行流程。咱们这一节讲解ReduceTask的执行流程。

·2015-11-01 09:57

hadoop中的recordreader和split以及block之间的关系

通常来讲，Inputformat会为没有一个split产生一个recordreader来提供给maptask使用，进而，MapTask能够读取属于自己管辖处理的那部分split。

水东流·2015-10-31 20:00

hadoop2.0 和1.0的区别

Hadoop，内核主要由HDFS和MapReduce两个系统组成，其中，MapReduce是一个离线处理框架，由编程模型（新旧API）、运行时环境（JobTracker和TaskTracker）和数据处理引擎（MapTask

·2015-10-27 12:49

Hadoop如何计算map数和reduce数

reduce数原地址：http://www.songyafei.cn/post/a0d5b_140a7cfHadoop在运行一个mapreducejob之前，需要估算这个job的maptask

wangjin161·2015-10-15 14:00

MapReduce 从作业、任务（task）、管理员角度调优

Combiner可减少MapTask中间输出的结果，从而减少各个ReduceTask的远程拷贝数据量，最终表现为Ma

微笑丶·2015-10-14 00:00

MapReduce 从作业、任务（task）、管理员角度调优

Combiner可减少MapTask中间输出的结果，从而减少各个ReduceTask的远程拷贝数据量，最终表现为MapTa

微笑丶·2015-10-14 00:00

mapreduce-shuffling

(这样描述不是很准确) MapTask每个map任务都有一个环形内存缓冲区用于存储任务的输出.默认100MB(MRJobConfig.IO_SORT_MB修改)一旦缓冲达到阈值(MRJobConfig.MAP_SORT_SPILL_PERCENT

呆萌的我·2015-10-13 20:00

MapReduce(四)：shuffer原理

每个maptask都有一个环状的内存缓冲区，存储着map的输出结果，默认100m，在写磁盘时，根据reduce的数量把数据划分为相应的分区，在每个分区中数据进行内排序。

u013360022·2015-09-18 20:00

spark core源码分析12 spark缓存清理

http://blog.csdn.net/yueqian_zhu/spark缓存清理机制：MetadataCleaner对象中有一个定时器，用于清理下列的元数据信息：MAP_OUTPUT_TRACKER：Maptask

yueqian_zhu·2015-09-02 18:00

hadoop中shuffle详解（mapreduce）

后面我会具体描述Shuffle的事实情况，所以这里你只要清楚Shuffle的大致范围就成－怎样把maptask的输出结果有效地传送到reduce端。

suibianshen2012·2015-09-02 18:00

hadoop作业map过程调优使用到的参数笔记

参数：io.sort.mb（default100）当maptask开始运算，并产生中间数据时，其产生的中间结果并非直接就简单的写入磁盘。

osenlin·2015-09-02 11:00

Hadoop与Spark常用配置参数总结

mlljava1111·2015-08-30 20:00

hadoop MapReduce - 从作业、任务（task）、管理员角度调优

Combiner可减少MapTask中间

baolibin528·2015-07-04 20:00

Hive merge（小文件合并）

当Hive的输入由很多个小文件组成时，如果不涉及文件合并的话，那么每个小文件都会启动一个maptask。

Free World·2015-06-23 22:05

Hive merge（小文件合并）

当Hive的输入由很多个小文件组成时，如果不涉及文件合并的话，那么每个小文件都会启动一个maptask。

jiangshouzhuang·2015-06-23 22:00

Spark SQL中实现Hive MapJoin

在Hive中，如果一个很大的表和一个小表做join，Hive可以自动或者手动使用MapJoin，将小表的数据加载到DistributeCache中，从而在使用MapTask扫描大表的同时，完成join

superlxw1234·2015-06-23 08:00

Spark SQL中实现Hive MapJoin

在Hive中，如果一个很大的表和一个小表做join，Hive可以自动或者手动使用MapJoin，将小表的数据加载到DistributeCache中，从而在使用MapTask扫描大表的同时，完成join

superlxw1234·2015-06-23 08:00

Hadoop源代码分析（MapTask辅助类，III）

接下来讨论的是key，value的输出，这部分比较复杂，不过有了前面kvstart，kvend和kvindex配合的分析，有利于我们理解返部分的代码。输出缓冲区中，和kvstart，kvend和kvindex对应的是bufstart，bufend和bufmark。这部分还涉及到变量bufvoid，用与表明实际使用的缓冲区结尾（见后面BlockingBuffer.reset分析），和变量bufmar

超人学院66·2015-06-03 11:20

Hadoop源代码分析（MapTask辅助类，III）

接下来讨论的是key，value的输出，这部分比较复杂，不过有了前面kvstart，kvend和kvindex配合的分析，有利于我们理解返部分的代码。输出缓冲区中，和kvstart，kvend和kvindex对应的是bufstart，bufend和bufmark。这部分还涉及到变量bufvoid，用与表明实际使用的缓冲区结尾（见后面BlockingBuffer.reset分析），和变量bufmar

超人学院66·2015-06-03 11:20

Hadoop源代码分析（MapTask辅助类，III）

接下来讨论的是key，value的输出，这部分比较复杂，不过有了前面kvstart，kvend和kvindex配合的分析，有利于我们理解返部分的代码。输出缓冲区中，和kvstart，kvend和kvindex对应的是bufstart，bufend和bufmark。这部分还涉及到变量bufvoid，用与表明实际使用的缓冲区结尾（见后面BlockingBuffer.reset分析），和变量bufmar

超人学院·2015-06-03 11:00

Hadoop源代码分析（MapTask辅助类，II）

有了上面Mapper输出的内存存储结构和硬盘存储结构讨论，我们来仔细分析MapOutputBuffer的流程。首先是成员变量。最先初始化的是作业配置job和统计功能reporter。通过配置，MapOutputBuffer可以获取本地文件系统（localFs和rfs），Reducer的数目和Partitioner。SpillRecord是文件spill.out{spill号}.index在内存中的

超人学院·2015-06-02 18:00

Hadoop源代码分析（MapTask辅助类 I）

Hadoop源代码分析（MapTask辅助类I）MapTask的辅劣类主要针对Mapper的输入和输出。首先我们来看MapTask中用的的Mapper输入，在类图中，返部分位于右上角。

超人学院66·2015-06-01 17:51

Hadoop源代码分析（MapTask辅助类 I）

Hadoop源代码分析（MapTask辅助类I）MapTask的辅劣类主要针对Mapper的输入和输出。首先我们来看MapTask中用的的Mapper输入，在类图中，返部分位于右上角。

超人学院66·2015-06-01 17:51

Hadoop源代码分析（MapTask辅助类 I）

Hadoop源代码分析（MapTask辅助类I）MapTask的辅劣类主要针对Mapper的输入和输出。首先我们来看MapTask中用的的Mapper输入，在类图中，返部分位于右上角。

超人学院·2015-06-01 16:00

Hadoop源代码分析（IDs类和Context类）

Task包括MapTask和ReduceTask，是MapReduce的Map操作和Reduce操作执行的地方。这中任务分布的方法比较类似于HDFS中NameNode和D

超人学院·2015-05-26 11:00

Hadoop源代码分析（IDs类和Context类）

Task包括MapTask和ReduceTask，是MapReduce的Map操作和Reduce操作执行的地方。这中任务分布的方法比较类似于HDFS中NameNode和D

超人学院66·2015-05-26 10:03

Hadoop源代码分析（IDs类和Context类）

Task包括MapTask和ReduceTask，是MapReduce的Map操作和Reduce操作执行的地方。这中任务分布的方法比较类似于HDFS中NameNode和D

超人学院66·2015-05-26 10:03

Combine过程的作用

在Reduce过程前进行数据预处理，提升Reduce过程的性能它是本地化的过程，即跟MapTask运行在同一个机子上一个典型的例子：统计文件中单词出现次数：一个文件中有很多单词，需要统计每个单词的出现次数

DSLZTX·2015-05-22 16:00

MapReduce中Map Task和Reduce Task的数量

一、MapTask的数量一般通过Fileblocksize来控制，Filetotalsize/Fileblocksize的值一般就是MapTask的数量二、ReduceTask的数量可通过配置参数进行精确控制

AllInCode·2015-05-22 16:56

MapReduce中Map Task和Reduce Task的数量

一、MapTask的数量一般通过Fileblocksize来控制，Filetotalsize/Fileblocksize的值一般就是MapTask的数量二、ReduceTask的数量可通过配置参数进行精确控制

DSLZTX·2015-05-22 16:00

Hadoop源代码分析（MapTask）

接下来我们来分析Task的两个子类，MapTask和ReduceTask。MapTask的相关类图如下： MapTask其实不是很复杂，复杂的是支持MapTask工作的一些辅助类。

超人学院·2015-05-21 14:00

Hadoop源代码分析（MapTask）

接下来我们来分析Task的两个子类，MapTask和ReduceTask。MapTask的相关类图如下： MapTask其实不是很复杂，复杂的是支持MapTask工作的一些辅助类。

超人学院66·2015-05-21 11:00

Hadoop源代码分析（MapTask）

接下来我们来分析Task的两个子类，MapTask和ReduceTask。MapTask的相关类图如下： MapTask其实不是很复杂，复杂的是支持MapTask工作的一些辅助类。

超人学院66·2015-05-21 11:00

Hadoop源代码分析（MapTask）

接下来我们来分析Task的两个子类，MapTask和ReduceTask。MapTask的相关类图如下：MapTask其实不是很复杂，复杂的是支持MapTask工作的一些辅助类。

超人学院66·2015-05-21 11:00

两个Mapper初始化输出类错误的心得：Unable to initialize any output collector

结果接连两次都出现了同样的一个错误：Error:java.io.IOException:Unabletoinitializeanyoutputcollectoratorg.apache.hadoop.mapred.MapTask.createSortingCollector

infovisthinker·2015-04-20 17:13

Hadoop深入学习：MapTask详解

我们主要来学习MapTask的内部实现。

李超100·2015-04-03 15:00

mapreduce的shuffle，partition，combine

shuffle：是描述着数据从map端传输到reduce端的过程，而且我们知道的是hadoop的集群环境中，大部分maptask和reducetask是在不同的node上执行，主要的开销是网络开销和磁盘

liuxiao723846·2015-03-20 17:00

推荐频道

MapTask

MapReduce和YARN的关系

Hadoop动态调整Map Task内存资源大小

Hadoop动态调整Map Task内存资源大小

Hadoop on Mac with IntelliJ IDEA - 10 陆喜恒. Hadoop实战（第2版）6.4.1（Shuffle和排序）Map端 内容整理

[Hadoop源码解读]（六）MapReduce篇之MapTask类

Mapreduce执行过程分析(基于Hadoop2.4)——(三)

MapReduce源码对写MR application帮助最大的部分

Fair Scheduler中的Delay Schedule分析

hadoop机架感知与网络拓扑分析：NetworkTopology和DNSToSwitchMapping

Mapreduce运行过程分析(基于Hadoop2.4)——(三)

正确理解hadoop 2.x 的环形缓冲区: (一) MR环形缓冲区的结构

MapReduce的MapTask任务的运行源码级分析

MapReduce中TextInputFormat分片和读取分片数据源码级分析

MapReduce的ReduceTask任务的运行源码级分析

hadoop中的recordreader和split以及block之间的关系

hadoop2.0 和1.0的区别

Hadoop如何计算map数和reduce数

MapReduce 从作业、任务（task）、管理员角度调优

MapReduce 从作业、任务（task）、管理员角度调优

mapreduce-shuffling

MapReduce(四)：shuffer原理

spark core源码分析12 spark缓存清理

hadoop中shuffle详解（mapreduce）

hadoop作业map过程调优使用到的参数笔记

Hadoop与Spark常用配置参数总结

hadoop MapReduce - 从作业、任务（task）、管理员角度调优

Hive merge（小文件合并）

Hive merge（小文件合并）

Spark SQL中实现Hive MapJoin

Spark SQL中实现Hive MapJoin

Hadoop源代码分析（MapTask辅助类，III）

Hadoop源代码分析（MapTask辅助类，III）

Hadoop源代码分析（MapTask辅助类，III）

Hadoop源代码分析（MapTask辅助类，II）

Hadoop源代码分析（MapTask辅助类 I）

Hadoop源代码分析（MapTask辅助类 I）

Hadoop源代码分析（MapTask辅助类 I）

Hadoop源代码分析（*IDs类和*Context类）

Hadoop源代码分析（*IDs类和*Context类）

Hadoop源代码分析（*IDs类和*Context类）

Combine过程的作用

MapReduce中Map Task和Reduce Task的数量

MapReduce中Map Task和Reduce Task的数量

Hadoop源代码分析（MapTask）

Hadoop源代码分析（MapTask）

Hadoop源代码分析（MapTask）

Hadoop源代码分析（MapTask）

两个Mapper初始化输出类错误的心得：Unable to initialize any output collector

Hadoop深入学习：MapTask详解

mapreduce的shuffle，partition，combine

Hadoop on Mac with IntelliJ IDEA - 10 陆喜恒. Hadoop实战（第2版）6.4.1（Shuffle和排序）Map端内容整理

Hadoop源代码分析（IDs类和Context类）

Hadoop源代码分析（IDs类和Context类）

Hadoop源代码分析（IDs类和Context类）