MapReduce分布式计算框架简介

Hadoopd分布式计算框架——MapReduce

一、MapReduce简介

1. 概念
MapReduce是基于Hadoop的分布式计算框架。
起源于Google,它将大型数据操作作业分解为可以跨服务器集群并行执行的单个任务,适用于大规模数据处理场景,每个节点处理存储在该节点的数据,每个job包含MapReduce两部分。

2.设计思想
构建抽象模型:MapReduce,简化并行计算的编程模型,使开发人员专注于业务逻辑实现,专注于实现Mapper和Reducer函数。

3.MapReduce优缺点
优点:易于编程、可扩展性、高容错性、高吞吐量
缺点:难以实时计算、不适合流式计算

4.MapReduce任务执行涉及进程
一个完整的mapreduce程序在分布式运行时有三类实例进程:

  • MapReduceApplicationMaster:负责整个程序的过程调度及状态协调。
  • MapTask:负责map阶段的整个数据处理流程。
  • ReduceTask:负责reduce阶段的整个数据处理流程。

二、MapReduce框架原理

①:M

你可能感兴趣的:(mapreduce,hadoop)