视频jourk--hadoop2.2.0(第一个2.x的正式版本)框架介绍:笔记

  1. hadoop2.x包括4个模块:

    1. common: hadoop的公共模块,以前叫core。包括通信模块等等。。。

    2. HDFS: 分布式文件系统。

    3. YARN: 任务调度和集群管理框架;是一个云操作系统/平台/框架(上面可以放很多任务很多服务);是管理和调度集群资源(CPU、内存、硬盘、网络)/服务的。

    4. MapReduce: 并行的离线的计算框架,是基于YARN/云并行的大数据集计算框架,是用来并行处理大数据集的。

  2. hadoop2.x比hadoop1.x优化:

    1. HDFS比1.x增加了很多新特性:(NameNode是管理元数据/Namespace的 : 比如说,存储文件属性、文件、块block、DataNode)

      1. (最重要之一)NameNode的单点故障:使用了NameNode的HA,NameNode有热备的,当活动的NameNode出现故障后,就会启动热备的NameNode。

      2. (最重要之二)NameNode的节点内存限制:使用了federation(因为现实生产中NameNode是放到一台机子上的,如果一个NameNode内存不够了,federation使其他的NameNode分担它的压力)。

    2.  

  3.  

 

 

你可能感兴趣的:(视频jourk--hadoop2.2.0(第一个2.x的正式版本)框架介绍:笔记)