初识Hadoop

初识Hadoop


  • Hadoop概述
  • Hadoop核心组件
  • Hadoop优势
  • Hadoop发展史
  • Hadoop生态系统
  • Hadoop发行版的选择

Hadoop概述

  • Hadoop之父: Doug Cutting
  • Spring之父: Rod Johnson
  • Apache社区顶级项目: xxx.apache.org
  • reliable scalable distributed computing 可靠的/可扩展的/可分布式的
  • Hadoop是一个分布式的系统基础架构(提供分布式的储存/计算)
  • 分布式文件系统: HDFS
  • 分布式计算框架: MapReduce
  • 分布式资源调度框架: YARN

Hadoop核心组件HDFS

  • 源自Google的GFS论文 发表于2003/10
  • HDFS是GFS的克隆版
  • HDFS的特点: 扩展性/容错性/海量数据
  • 将文件切分成制定大小的数据块并以多副本的方式储存在多个机器上面

Hadoop核心组件MapReduce

  • 源自Google的MapReduce论文 发表于2004/12
  • MapReduce是Google MapReduce的克隆版
  • MapReduce特点: 扩展性/容错性/海量数据离线处理

Hadoop核心组件YARN

  • Yet Another Resource Negotiator
  • 负责整个集群资源的管理和调度
  • YARN特点: 扩展性/容错性能/多框架资源统一调度

Hadoop优势

  • 数据储存: 数据多副本
  • 数据计算: 重新调度作业进行计算
  • 容易横向扩展机器
  • 储存在廉价的机器上 成本较低
  • 成熟的生态圈

Hadoop发展史

Hadoop发展史


Hadoop生态系统


初识Hadoop_第1张图片
Hadoop生态系统
  • 特点: 开源 社区活跃
  • 囊括了大数据处理的方方面面
  • 成熟的生态圈

常用Hadoop发行版

  • Apache: 纯开源 不同版本/不同框架之间整合不易
  • CDH: https://www.cloudera.com/: cm页面一键安装/升级 cm不开源 与社区版本有些许出入
  • Hortonworks: HDP 企业级安全不开源

你可能感兴趣的:(初识Hadoop)