大数据开发教程——构建Hadoop开发环境

什么是Hadoop ?

Hadoop是由 Apache 基金会开发和维护的一个开源的分布式计算和存储框架。
Hadoop 为庞大的计算机集群提供可靠的、可伸缩的应用层计算和存储支持,它允许使用简单的编程模型跨计算机群集分布式处理大型数据集,并且支持在单台计算机到几千台计算机之间进行扩展。
Hadoop 使用 Java 开发,所以可以在多种不同硬件平台的计算机上部署和使用。其核心部件包括分布式文件系统 (Hadoop DFS,HDFS) 和 MapReduce。
Hadoop是目前大数据中最主流的框架,所以是必学的内容。

构建Hadoop开发环境

- 集群规范
  • 企业服务器的规格:处理器,两个六核/八核 3GHz CPU内存,64 ~ 512GB ECC RAM存储器,12~24 x 1 ~ 4 TB STAT硬盘网络(固态),带链路聚合的千兆以太网
- 软件下载&安装手册
  • HADOOP分为:
- HDFS: 数据存储核心配置文件
  • core-site.xml

  • hdfs-site.xml

  • hadoop-env.sh

  • export JAVA_HOME=${JAVA_HOME}

- 启动后包含了三个进程:
  • NameNode
  • DataNode
  • SecondaryNameNode
- 通过50070查看文件系统的WEB端口
  • http://192.168.134.132:50070/dfshealth.html#tab-overview
MAPREDUCE:数据处理
  • mapred-site.xml
YARN:资源调度
  • yarn-site.xml

  • 启动2个进程

  • resourcemanager

  • nodemanager

查看运行的任务
  • h

你可能感兴趣的:(大数据架构师源码零基础教程,hadoop,big,data,mapreduce)