hadoop 1.0 基本概念了解

hadoop 基本概念了解

  1. common :hadoop组件公共常用工具类
  2. Avro:Avro是用于数据序列化的系统。不同机器之间数据交流的保障。
  3. MapReduce:MapReduce是一种编程模型,分为Map函数和Reduce函数。Map函数负责将输入数据转化为中间值,中间值再通过Reduce函数转化成输出数据
  4. HDFS:HDFS是一个分布式文件系统。通过一次写入,多次读出来实现。
  5. Chukwa:Chukwa是开源的数据收集系统,用于监控和分析大型分布式系统的数据。
  6. Hive:是一个建立在Hadoop基础之上的数据仓库,它提供了一些用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储的工具。
  7. HBase:是一个分布式的、面向列的开源数据库。
  8. Pig:是一个对大型数据集进行分析、评估的平台。Pig最突出的优势是它的结构能够经受住高度并行化的检验。
  9. ZooKeeper:ZooKeeper是一个为分布式应用所设计的开源协调服务。它主要为用户提供同步、配置管理、分组和命名等服务,减轻分布式应用程序所承担的协调任务。

hadoop 简单原理

  1. 数据分布存储
    Hadoop分布式文件系统(HDFS)由一个名字节点(NameNode)和多个数据节点(DataNode)组成,每个节点都是一台普通的计算机。
    文件在HDFS底层被切割成了Block(文件块),这些Block分散地存储在不同的DataNode上,每个Bl

你可能感兴趣的:(hadoop,hadoop,大数据,mapreduce)