Apache Hadoop--集群部署

知识点01:Apache Hadoop–概述与起源发展

1.1、Hadoop介绍

  • 狭义上:hadoop指的是Apache一款java开源软件,是一个大数据分析处理平台。
    • Hadoop HDFS:分布式文件系统。 解决了海量数据存储问题。
      Hadoop Distributed File System (HDFS™)

    • Hadoop MapReduce:分布式计算框架。解决海量数据计算问题。
      parallel processing of large data sets.

    • Hadoop YARN:集群资源管理和任务调度。
      A framework for job scheduling and cluster resource management.

      #资源指的是和程序运行相关的硬件资源
      cpu ram内存
      
      #任务调度
      集群资源繁忙的时候 如何分配资源给各个程序  调度
      调度的关键是策略:先来后到  权重
      
  • 广义上:Hadoop指的是hadoop生态圈。
    提供了大数据的几乎所有软件。
    采集、存储、导入、分析、挖掘、可视化、管理…

1.2、Hadoop起源发展

  • Hadoop之父–Doug Cutting 卡大爷

  • 起源项目Apache Nutch。 致力于构建一个全网搜索引擎。
    1、爬取互联网网页 —>存储在哪里? 海量数据存储问题

    2、基于网页创建倒排索引。--->如何计算?  海量数据计算问题
    
  • Google也在做搜索,也遇到这些问题,内部解决了。

    • google不想开源软件,但是又憋的难受,怕被人不知道,写论文发表。
    • 前后写了3篇论文(谷歌是使用c实现的)。
      谷歌分布式文件系统(GFS)------>HDFS
      谷歌版MapReduce 系统------>Hadoop MapReduce
      bigtable---->HBase
    • 基于论文的影响 Nutch团队实现了相应的java版本开源组件。
  • Nutch团队把HDFS和MapReduce抽取独立成为单独软件在2008年贡献给了Apache。开源。

  • Doug Cutting 看到他儿子在牙牙学语时,抱着黄色小象,亲昵的叫hadoop,他灵光一闪,就把这技术命名为 Hadoop,而且还用了黄色小象作为标示 Logo。


知识点02:Apache Hadoop–特性优点(分布式、通用、简单易用)

  • 分布式、扩容能力
    不再注重单机能力 看中的是集群的整体能力。
    动态扩容、缩容。

  • 成本低
    在集群下 单机成本很低 可以是普通服务器组成集群
    意味着大数据处理不一定需要超级计算机。

  • 高效率 并发能力

  • 可靠性

  • 通用性
    #技术是相同的 业务不相同的
    #hadoop精准区分技术和业务。

    做什么?(what need to do)---->业务问题(20%)
    怎么做?(how to do)----->技术问题(80%)
    
    Hadoop把技术实现了 用户负责业务问题。
    
    原来大数据这么简单 可以这么玩。
    

知识点03:Apache Hadoop–发行版本与自身版本发展

3.1、发行版本

  • 官方社区版本 Apache基金会官方
    • 版本新 功能最全的
    • 不稳定 兼容性需要测试 bug多
  • 商业版本 商业公司在官方版本之上进行商业化发行。著名:Cloudera、hotonWorks、MapR
    • 稳的一批 兼容性极好 技术支持 本地化支持 一键在线安装

    • 版本不一定是最新的 辅助工具软件需要收费
      Cloudera发行的hadoop生态圈软件叫做CDH版本。
      Cloudera’s Distribution Including Apache Hadoop。

      https://www.cloudera.com/products/open-source/apache-hadoop/key-cdh-components.html
      
      Hortonworks Data Platform (HDP)
      
  • 本课程中 使用的是Apache 3.3.0版本。

3.2、Hadoop本身版本变化

  • hadoop 1.x
    只有hdfs mapreduce. 架构过于垃圾 性能不高 当下企业中没人使用了。
  • hadoop 2.x
    hdfs MapReduce yarn.
  • hadoop 3.x
    架构和2一样 性能做了优化

知识点04:Apache Hadoop–集群架构与集群角色介绍

  • 通常是有hdfs集群和yarn集群组成。两个集群都是标准的主从架构集群。
  • 两个集群逻辑上分离 物理上在一起。
  • HDFS集群:解决了海量数据存储 分布式存储系统
    • 主角色:namenode(NN)
    • 从角色:datanode(DN)
    • 主角色辅助角色"秘书角色":secondarynamenode (SNN)
  • YARN集群:集群资源管理 任务调度
    • 主角色:resourcemanager(RM)
    • 从角色:nodemanager&#

你可能感兴趣的:(apache,hadoop,大数据)