程序员小郭同学

Hadoop简介

简介

大数据简介

概述

大数据的说法从出现到现在，也经历了十多年时间的发展。而在这十几年的发展过程中，非常多的机构、组织都试图对大数据做出过定义，例如：研究机构Gartner给出了这样的定义："大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。再例如根据维基百科的定义，大数据是指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。

特征(6V)

经过十几年的发展，对大数据进行总结，总结出来如下特征：

1)Volume：数据量大，包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是T、P(1024个T)、E(100万个T)或Z(10亿个T)。到目前为止，人类所生产的所有印刷材料(书本、杂志、报刊等)的数据量大约是200PB，而历史上全人类总共说过的话的数据量大约是5EB。当前，典型个人计算机硬盘的容量为TB量级，而一些大企业的数据量已经接近或者达到EB量级。

2)Variety：种类样式和来源多样化。包括结构化、半结构化和非结构化数据，具体表现为网络日志、音频、视频、图片、地理位置信息等等，多类型的数据对数据的处理能力提出了更高的要求。

3)Value：数据价值密度相对较低，或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用，信息感知无处不在，信息海量，但价值密度较低，如何结合业务逻辑并通过强大的机器算法来挖掘数据价值是大数据时代最需要解决的问题。

4)Velocity：数据增长速度快，处理速度也快，时效性要求比较高。这是大数据区分于传统数据挖掘的最显著特征。根据IDC(Internet Data Center，互联网数据中心)的"数字宇宙"的报告，到2020年，全球数据使用量将达到35.2ZB。在如此海量的数据面前，处理数据的效率就是企业的生命。

5)Veracity：数据的准确性和可信赖度，即数据的质量。随着网络的发展，数据的准确性和可信赖度都越来越挑战数据的认知和发展。

6)Valence：大数据之间的连通性，指的是大数据各个产业、各个模块之间的关联性。

7)随着大数据的发展，又增加了Vitality（动态性）、Visualization（可视化）、Validity（合法性）等。

Hadoop简介

概述

Hadoop本身是由Yahoo!公司开发的后来贡献给了Apache的一套开源的、可靠的分布式架构

Hadoop提供了简单的编程模型能够对大量的数据进行分布式处理(The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models.)

Hadoop能够轻松的从一台服务器扩展到上千台服务器，并且每一台服务器都能够进行本地计算和存储(It is designed to scale up from single servers to thousands of machines, each offering local computation and storage.)

Hadoop本身提供了用于处理和探测异常的机制(Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer)。

主流发行版本

经过多年发展，市面上产生了繁多的Hadoop版本，这些版本可以分为收费版和免费版/社区版。其中使用的比较多的是Apache、CDH和HDP三大发行版。

Apache版本：最原始(最基础)的版本，对于入门学习最好，可以让初学者掌握更多的细节。

Cloudera版本：

1)2008年成立的Cloudera是最早将Hadoop商用的公司，为合作伙伴提供Hadoop的商用解决方案，主要是包括支持、咨询服务、培训。在2009年，Hadoop之父Doug Cutting也加盟Cloudera公司。

2)Cloudera产品主要为CDH，Cloudera Manager，Cloudera Support。CDH是Cloudera提供的Hadoop发行版，完全开源，比Apache Hadoop在兼容性，安全性，稳定性上有所增强；Cloudera Manager是集群的软件分发及管理监控平台，可以在几个小时内部署好一个Hadoop集群，并对集群的节点及服务进行实时监控；Cloudera Support即是对Hadoop的技术支持。

3)Cloudera的标价为每年每个节点4000美元。

4)Cloudera开发并贡献了可实时处理大数据的Impala项目。

Hortonworks Hadoop版本：

1)2011年成立的Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建。公司成立之初就吸纳了大约25名至30名专门研究Hadoop的雅虎工程师，上述工程师均在2005年开始协助雅虎开发Hadoop，贡献了Hadoop80%的代码。雅虎工程副总裁、雅虎Hadoop开发团队负责人Eric Baldeschwieler出任Hortonworks的首席执行官。

2)Hortonworks的主打产品是Hortonworks Data Platform(HDP)，也同样是100%开源的产品，HDP除常见的项目外还包括了Ambari(一款开源的安装和管理系统)。

3)HCatalog，一个元数据管理系统，HCatalog现已集成到Facebook开源的Hive中。Hortonworks的Stinger开创性的极大的优化了Hive项目。Hortonworks为入门提供了一个非常好的，易于使用的沙盒。

4)Hortonworks开发了很多增强特性并提交至核心主干，这使得Apache Hadoop能够在包括Window Server和Windows Azure在内的Microsoft Windows平台上本地运行。

5)定价以集群为基础，每10个节点每年为12500美元。

Hortonworks被Cloudera收购，合并推出了新的商用版Hadoop：CDP。目前收费是10000美金/节点/每年。从2021年1月31日开始，之前所有的CDH和HDP都必须付费才能使用。

模块

截止到目前为止(2023年06月30日)，Hadoop官网显示，一共包含了四大模块：

1)Hadoop Common：公共模块，提供了Hadoop的一些基本jar包(The common utilities that support the other Hadoop modules.)

2)Hadoop Distributed FileSystem(HDFS)：分布式文件存储系统(A distributed file system that provides high-throughput access to application data.)

3)Hadoop YARN：用于进行任务调度和资源管理的机制(A framework for job scheduling and cluster resource management.)

4)Hadoop MapReduce：基于YARN的分布式计算系统(A YARN-based system for parallel processing of large data sets.)

版本

Hadoop发展到现在，一共有三大版本：

1)Hadoop1.X：最原始的版本，包含了Common，HDFS和MapReduce模块，目前市面上已经停止流通；

2)Hadoop2.X：包含了Common，HDFS，MapReduce和YARN模块，后续的高版本中还包含了Ozone模块。注意，Hadoop2.X和Hadoop1.X不兼容；

3)Hadoop3.X：包含了Common，HDFS，MapReduce，YARN和Ozone模块，和Hadoop2.X部分兼容。

需要注意的是，不同于其他的一些框架，除了Hadoop1.x已经停止维护和使用，Hadoop2.X和Hadoop3.X在官网均有维护和更新，且更新版本较为混乱。所以在选择Hadoop版本的时候，需要考虑Hadoop版本和其他框架的兼容性问题。

Hadoop发展历程(了解)

创始人

Doug Cutting：是一位软件设计师，也是开源搜索技术的倡导者和创造者。他创建了Lucene，并与Mike Cafarella创建了Nutch，这些项目现在通过Apache Software Foundation进行管理。Cutting和Cafarella也是Apache Hadoop的联合创始人，不过相对Doug的贡献更大一些，所以Doug也被尊称为Hadoop之父。

Mike Cafarella：一位专攻数据库管理系统的计算机科学家。他是密歇根大学的计算机学科的副教授。Mike与Doug Cutting一起创建了Hadoop以及Nutch这两个开源项目。

命名

Hadoop这个名字不是一个缩写，也不是一个单词，而是一个虚构的名字。该项目的创建者，Doug Cutting解释Hadoop的得名："这个名字是我孩子给一个棕黄色的大象玩具命名的。我的命名标准就是简短，容易发音和拼写，没有太多的意义，并且不会被用于别处。小孩子恰恰是这方面的高手"。

发展历程

1)2002年，Doug Cutting和Mike Cafarella在设计搜索引擎Nutch的时候，爬取了整个互联网，一共获得了10亿个网页数据。因为互联网的数据大多数是非结构化的，所以无法存储在传统的关系型数据库中。且由于数据量巨大，所以传统的单机模式也无法存储。

2)2003年，Google发表一篇关于集群系统存储的论文：(简称为GFS)，这篇论文详细的阐述了分布式存储的思想和原理，但是Google并没有对外公开使用GFS。

3)2004年，Cutting在基于GFS的基础上设计了NDFS(Nutch Distributed File System)。NDFS和GFS的不同之处在于，GFS是使用C语言实现的，而NDFS是使用Java语言实现的。至此，解决了第一个问题：分布式存储的问题。但是接踵而来的是第二个问题，如何对分布式存储的数据进行分析和计算呢？

4)2004年，Google发表了另一篇关于集群系统计算的论文：，这篇论文同样详细的阐述了分布式计算的思想和原理，但是同样Google没有对外公开使用MapReduce。

5)2005年，Doug根据谷歌的论文设计了在Nutch中使用的MapReduce。同样，二者的区别就是实现语言的不同。至此，分布式计算问题解决，Nutch也可以正式使用。

6)而在Nutch0.8之后，Doug发现分布式存储和计算不止可以用于Nutch，还可以用于其他很多领域，因此Doug将NDFS模块以及MapReduce模块独立出来，重命名为Hadoop，并将NDFS重命名为HDFS(Hadoop Distributed File System)。

7)2006年，Doug Cutting加入了Yahoo，雅虎为此专门成立了专门的团队和资源，将Hadoop发展成能够以Web网络规模运行的系统。

8)Doug Cutting在Yahoo的工作期间，先后设计了Hive，Pig，HBase等。

9)后来Yahoo将Hadoop、Hive、Pig、HBase等贡献给了Apache。

安装和编译

编译

本次编译以Hadoop3.2.4版本为基础进行。

1)进入目录，上传或者下载Hadoop3.2.4源码包。

# 进入软件的预装目录

cd /opt/presoftware

# 下载Hadoop的源码包

wget https://dlcdn.apache.org/hadoop/common/hadoop-3.2.4/hadoop-3.2.4-src.tar.gz

2)解压：

tar -xvf hadoop-3.2.4-src.tar.gz -C /opt/source

3)进入Hadoop的源码包：

cd /opt/source/hadoop-3.2.4-src

4)执行编译命令：

mvn -X clean package -Pdist,native,docs -DskipTests -Dtar -Dmaven.skip.test=true -Dmaven.javadoc.skip=true -Denforcer.skip=true

如果编译过程中提示缺少DynamoDBLocal，则上传的jar包之后，执行:

mvn install:install-file \

-Dfile=DynamoDBLocal-1.11.86.jar \

-DgroupId=com.amazonaws \

-DartifactId=DynamoDBLocal \

-Dversion=1.11.86 \

-Dpackaging=jar

然后重新编译即可。

5)编译完成后，进入目录:

cd hadoop-dist/target

即可见到编译产生的安装包。

安装

伪分布式

安装Hadoop之前，需要先安装JDK1.8(最好是JDK1.8.255及以上版本)，关闭防火墙。

1)修改主机名：

vim /etc/hostname

# 将主机名改为自己指定的主机名，例如：

hadoop01

修改完成之后保存退出。

2)进行IP映射：

vim /etc/hosts

# 添加IP映射，例如

192.168.160.151 hadoop01

修改完成之后保存退出。

3)关闭SELINUX：

vim /etc/selinux/config

# 将SELINUX属性改为disabled

SELINUX=disabled

保存退出。

4)重启：

reboot

5)配置免密登录：

# 产生密钥

ssh-keygen

# 传输公钥

ssh-copy-id root@hadoop01

# 测试

ssh hadoop01

# 如果不需要密码，则退出

logout

6)上传或者下载Hadoop安装包：

# 进入软件的预装目录

cd /opt/presoftware

# 官网下载地址

wget https://dlcdn.apache.org/hadoop/common/hadoop-3.2.4/hadoop-3.2.4.tar.gz

7)解压：

tar -xvf hadoop-3.2.4.tar.gz -C /opt/software

8)进入Hadoop配置目录：

cd /opt/software/hadoop-3.2.4/etc/hadoop/

9)编辑文件：

vim hadoop-env.sh

# 添加属性

export JAVA_HOME=/opt/software/jdk1.8

export HADOOP_CONF_DIR=/opt/software/hadoop-3.2.4/etc/hadoop

# 保存退出，重新生效

source hadoop-env.sh

10)编辑文件：

vim core-site.xml

在文件中添加：

fs.default.name

hdfs://hadoop01:9000

hadoop.tmp.dir

/opt/software/hadoop-3.2.4/tmp

hadoop.http.staticuser.user

root

hadoop.proxyuser.root.hosts

hadoop.proxyuser.root.groups

hadoop.proxyuser.root.users

保存退出。

11)编辑文件：

vim hdfs-site.xml

在文件中添加：

dfs.replication

保存退出。

12)编辑文件：

vim mapred-site.xml

在文件中添加：

mapreduce.framework.name

yarn

yarn.app.mapreduce.am.env

HADOOP_MAPRED_HOME=/opt/software/hadoop-3.2.4

mapreduce.map.env

HADOOP_MAPRED_HOME=/opt/software/hadoop-3.2.4

mapreduce.reduce.env

HADOOP_MAPRED_HOME=/opt/software/hadoop-3.2.4

保存退出。

13)编辑文件：

vim yarn-site.xml

在文件中添加：

yarn.resourcemanager.hostname

hadoop01

yarn.nodemanager.aux-services

mapreduce_shuffle

yarn.nodemanager.env-whitelist

JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME

保存退出。

14)编辑文件：

vim workers

# 删除掉原来的localhost，添加指定的主机名，例如

hadoop01

保存退出。

15)进入Hadoop的子目录sbin下：

cd /opt/software/hadoop-3.2.4/sbin/

16)修改文件:

vim start-dfs.sh

# 在文件头部添加

HDFS_DATANODE_USER=root

HDFS_DATANODE_SECURE_USER=hdfs

HDFS_NAMENODE_USER=root

HDFS_SECONDARYNAMENODE_USER=root

保存退出。

17)修改文件：

vim stop-dfs.hs

# 在文件头部添加

HDFS_DATANODE_USER=root

HDFS_DATANODE_SECURE_USER=hdfs

HDFS_NAMENODE_USER=root

HDFS_SECONDARYNAMENODE_USER=root

保存退出。

18)修改文件：

vim start-yarn.sh

# 在文件头部添加

YARN_RESOURCEMANAGER_USER=root

HDFS_DATANODE_SECURE_USER=yarn

YARN_NODEMANAGER_USER=root

保存退出。

19)修改文件：

vim stop-yarn.sh

# 在文件头部添加

YARN_RESOURCEMANAGER_USER=root

HDFS_DATANODE_SECURE_USER=yarn

YARN_NODEMANAGER_USER=root

保存退出。

20)配置环境变量：

vim /etc/profile.d/hadoophome.sh

export HADOOP_HOME=/opt/software/hadoop-3.2.4

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

# 保存退出，重新生效

source /etc/profile.d/hadoophome.sh

# 检查环境变量是否配置正确

hadoop version

21)格式化NameNode：

hdfs namenode -format

如果出现:

Storage directory /opt/software/hadoop-3.2.3/tmp/dfs/name has been successfully formatted.

则表示格式化成功。

22)启动Hadoop：

start-all.sh

23)命令查看：

jps

# 应该出现如下进程

Jps

NameNode

DataNode

SecondaryNameNode

ResourceManager

NodeManager

24)可以通过主机名:9870的方式来查看HDFS的页面。

25)可以通过主机名:8088的方式来查看YARN的页面。

完全分布式安装(重要)

至少需要准备3个节点。安装Hadoop之前，需要先安装JDK1.8(最好是JDK1.8.255及以上版本)，关闭防火墙。节点部署如下表-1所示：

表-1 进程分布

进程/节点	hadoop01	hadoop02	hadoop03
NameNode	√
SecondaryNameNode		√
DataNode	√	√	√
ResourceManager			√
NodeManager	√	√	√
JobHistoryServer		√

1)修改三个节点的主机名：

# 编辑文件

vim /etc/hostname

# 删除掉原来的名称，添加自己的主机名，例如第一个节点设置为hadoop01，第二个节点设置为hadoop02，第三个节点设置为hadoop03

修改完成之后保存退出。

2)进行IP映射。注意，此时需要将三个节点的主机名和IP全部进行映射！

# 编辑文件

vim /etc/hosts

# 在文件末尾添加映射，例如：

192.168.160.151 hadoop01

192.168.160.152 hadoop02

192.168.160.153 hadoop03

保存退出。

3)关闭SELINUX：

# 编辑文件

vim /etc/selinux/config

# 将selinux属性的值改为disabled

SELINUX=disabled

保存退出。

4)重启：

reboot

5)所有节点之间相互免密互通：

# 产生密钥

ssh-keygen

# 拷贝公钥

ssh-copy-id root@hadoop01

ssh-copy-id root@hadoop02

ssh-copy-id root@hadoop03

# 测试是否免密

ssh hadoop01 # 如果不需要密码，输入logout

ssh hadoop02 # 如果不需要密码，输入logout

ssh hadoop03 # 如果不需要密码，输入logout

6)进入软件预装目录，上传或者下载Hadoop的安装包：

# 进入目录

cd /opt/presoftware/

# 官网下载地址

wget https://dlcdn.apache.org/hadoop/common/hadoop-3.2.4/hadoop-3.2.4.tar.gz

7)解压：

tar -xvf hadoop-3.2.4.tar.gz -C /opt/software/

8)进入Hadoop的配置目录：

cd /opt/software/hadoop-3.2.4/etc/hadoop/

9)修改文件：

# 编辑文件

vim hadoop-env.sh

# 在文件中添加

export JAVA_HOME=/opt/software/jdk1.8

export HADOOP_CONF_DIR=/opt/software/hadoop-3.2.4/etc/Hadoop

# 保存退出，生效

source hadoop-env.sh

10)编辑文件：

vim core-site.xml

在文件中添加：

fs.default.name

hdfs://hadoop01:9000

hadoop.tmp.dir

/opt/software/hadoop-3.2.4/tmp

hadoop.http.staticuser.user

root

hadoop.proxyuser.root.hosts

hadoop.proxyuser.root.groups

hadoop.proxyuser.root.users

保存退出。

11)编辑文件：

vim hdfs-site.xml

在文件中添加：

dfs.namenode.http-address

hadoop01:9870

dfs.namenode.secondary.http-address

hadoop02:9868

dfs.replication

保存退出。

12)编辑文件：

vim mapred-site.xml

在文件中添加：

mapreduce.framework.name

yarn

yarn.app.mapreduce.am.env

HADOOP_MAPRED_HOME=/opt/software/hadoop-3.2.4

mapreduce.map.env

HADOOP_MAPRED_HOME=/opt/software/hadoop-3.2.4

mapreduce.reduce.env

HADOOP_MAPRED_HOME=/opt/software/hadoop-3.2.4

保存退出。

13)编辑文件：

vim yarn-site.xml

在文件中添加：

yarn.nodemanager.aux-services

mapreduce_shuffle

yarn.resourcemanager.hostname

hadoop03

yarn.nodemanager.env-whitelist

JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME

yarn.scheduler.minimum-allocation-mb

512

yarn.scheduler.maximum-allocation-mb

4096

yarn.nodemanager.resource.memory-mb

4096

yarn.nodemanager.pmem-check-enabled

false

yarn.nodemanager.vmem-check-enabled

false

保存退出。

14)编辑文件：

vim workers

# 删除掉原来的数据，添加三个节点的主机名，例如：

hadoop01

hadoop02

hadoop03

保存退出。

15)进入Hadoop的命令目录：

cd ../../sbin/

16)修改文件：

vim start-dfs.sh

# 在文件头部添加

HDFS_DATANODE_USER=root

HDFS_DATANODE_SECURE_USER=root

HDFS_NAMENODE_USER=root

HDFS_SECONDARYNAMENODE_USER=root

保存退出。

17)修改文件：

vim stop-dfs.sh

# 在文件头部添加

HDFS_DATANODE_USER=root

HDFS_DATANODE_SECURE_USER=root

HDFS_NAMENODE_USER=root

HDFS_SECONDARYNAMENODE_USER=root

保存退出。

18)编辑文件：

vim start-yarn.sh

# 在文件头部添加

YARN_RESOURCEMANAGER_USER=root

YARN_NODEMANAGER_USER=root

HDFS_DATANODE_SECURE_USR=root

保存退出。

19)编辑文件：

vim stop-yarn.sh

# 在文件头部添加

YARN_RESOURCEMANAGER_USER=root

YARN_NODEMANAGER_USER=root

HDFS_DATANODE_SECURE_USR=root

保存退出。

20)配置历史服务器(可选)。

cd ../etc/hadoop/

# 编辑文件

vim mapred-site.xml

在文件中添加：

mapreduce.jobhistory.address

hadoop02:10020

mapreduce.jobhistory.webapp.address

hadoop02:19888

21) 日志聚集(可选)。当任务在运行过程中，会产生大量的日志。那么此时日志分布在不同的服务器上，希望将日志汇聚上传到HDFS上，这个过程称之为日志聚集/汇聚。通过日志聚集，可以比较容易的查看程序的运行日志，方便对程序进行调试。

# 编辑文件

vim yarn-site.xml

在文件中添加：

yarn.log-aggregation-enble

true

yarn.log.server.url

http://hadoop02:19888/jobhistory/logs

yarn.log-aggregation.retain-seconds

604800

22)远程分发：

# 回到安装目录

cd /opt/software/

# 远程拷贝给其他的节点

scp -r hadoop-3.2.4/ root@hadoop02:$PWD

scp -r hadoop-3.2.4/ root@hadoop03:$PWD

23)配置环境变量：

# 编辑文件

vim /etc/profile.d/hadoophome.sh

# 在文件中添加

export HADOOP_HOME=/opt/software/hadoop-3.2.4

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

# 保存退出，生效

source /etc/profile.d/hadoophome.sh

# 测试

hadoop version

24)在第一个节点上格式化NameNode：

hdfs namenode -format

如果出现：

Storage directory /opt/software/hadoop-3.2.4/tmp/dfs/name has been successfully formatted.

则表示格式化成功。

25)在第一个节点上启动HDFS：

start-dfs.sh

26)在第三个节点上启动YARN：

start-yarn.sh

27)在第二个节点上启动历史服务器：

mapred --daemon start historyserver

28)查看进程：

jps

# hadoop01

Jps

NameNode

DataNode

NodeManager

# hadoop02

Jps

DataNode

SecondaryNameNode

NodeManager

JobHistoryServer

# hadoop03

Jps

DataNode

ResourceManager

NodeManager

29)可以通过主机名:9870的方式来查看HDFS的页面。

30)可以通过主机名:8088的方式来查看YARN的页面。

完全分布式高可用模式

环境准备：至少需要准备3个节点，安装Hadoop之前，需要先安装JDK1.8(最好是JDK1.8.255及以上版本)，关闭防火墙，需要安装好Zookeeper(最好是Zookeeper3.5及以上版本)。进程分布如下表-2所示：

表-2 进程分布

进程/节点	ha01	ha02	ha03
NameNode	√	√	√
DataNode	√	√	√
JournalNode	√	√	√
ResourceManager	√		√
NodeManager	√	√	√
DFSZKFailoverController	√	√	√
QuorumPeerMain	√	√	√
JobHistoryServer		√

1)修改主机名:

# 编辑文件

vim /etc/hostname

# 删除掉原来的，添加自己的主机名，例如第一个节点为ha01，第二个节点为ha02，第三个节点为ha03

修改完成之后保存退出。

2)进行IP映射：

# 编辑文件

vim /etc/hosts

# 添加IP映射，例如

192.168.160.161 ha01

192.168.160.162 ha02

192.168.160.163 ha03

保存退出。

3)关闭SELINUX：

# 编辑文件

vim /etc/selinux/config

# 将selinux属性值改为disabled

SELINUX=disabled

保存退出。

4)重启：

reboot

5)配置免密互通：

# 产生密钥

ssh-keygen

# 拷贝公钥

ssh-copy-id root@ha01

ssh-copy-id root@ha02

# 测试

ssh ha01 # 如果不需要密码，输入logout

ssh ha02 # 如果不需要密码，输入logout

ssh ha03 # 如果不需要密码，输入logout

6)进入软件预装目录，上传或者下载Hadoop的安装包：

# 进入预装目录

cd /opt/presoftware/

# 官网下载地址

wget https://dlcdn.apache.org/hadoop/common/hadoop-3.2.4/hadoop-3.2.4.tar.gz

7)解压：

tar -xvf hadoop-3.2.4.tar.gz -C /opt/software/

8)进入Hadoop的配置目录：

cd /opt/software/hadoop-3.2.4/etc/hadoop/

9)编辑文件：

# 编辑文件

vim hadoop-env.sh

# 在文件中添加

export JAVA_HOME=/opt/software/jdk1.8

export HADOOP_CONF_DIR=/opt/software/hadoop-3.2.4/etc/hadoop

# 保存退出，生效

source hadoop-env.sh

10)编辑文件：

vim core-site.xml

在文件中添加：

fs.defaultFS

hdfs://ns

hadoop.tmp.dir

/opt/software/hadoop-3.2.4/tmp

ha.zookeeper.quorum

ha01:2181,ha02:2181,ha03:2181

hadoop.http.staticuser.user

root

hadoop.proxyuser.root.hosts

hadoop.proxyuser.root.groups

hadoop.proxyuser.root.users

保存退出。

11)修改文件：

vim hdfs-site.xml

在文件中添加：

dfs.nameservices

dfs.ha.namenodes.ns

nn1,nn2,nn3

dfs.namenode.rpc-address.ns.nn1

ha01:9000

dfs.namenode.rpc-address.ns.nn2

ha02:9000

dfs.namenode.rpc-address.ns.nn3

ha03:9000

dfs.namenode.http-address.ns.nn1

ha01:9870

dfs.namenode.http-address.ns.nn2

ha02:9870

dfs.namenode.http-address.ns.nn3

ha03:9870

dfs.namenode.shared.edits.dir

qjournal://ha01:8485;ha02:8485;ha03:8485/ns

dfs.journalnode.edits.dir

/opt/software/hadoop-3.2.4/tmp/journal

dfs.namenode.name.dir

file:///opt/software/hadoop-3.2.4/tmp/hdfs/name

dfs.datanode.data.dir

file:///opt/software/hadoop-3.2.4/tmp/hdfs/data

dfs.ha.automatic-failover.enabled

true

dfs.client.failover.proxy.provider.ns

org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider

dfs.ha.fencing.methods

sshfence

dfs.ha.fencing.ssh.private-key-files

/root/.ssh/id_rsa

dfs.replication

dfs.permissions

false

保存退出。

12)修改文件：

vim mapred-site.xml

在文件中添加：

mapreduce.framework.name

yarn

yarn.app.mapreduce.am.env

HADOOP_MAPRED_HOME=/opt/software/hadoop-3.2.4

mapreduce.map.env

HADOOP_MAPRED_HOME=/opt/software/hadoop-3.2.4

mapreduce.reduce.env

HADOOP_MAPRED_HOME=/opt/software/hadoop-3.2.4

mapreduce.jobhistory.address

ha02:10020

mapreduce.jobhistory.webapp.address

ha02:19888

保存退出。

13)修改文件：

vim yarn-site.xml

在文件中添加：

yarn.resourcemanager.ha.enabled

true

yarn.resourcemanager.cluster-id

ns-yarn

yarn.resourcemanager.ha.rm-ids

rm1,rm2

yarn.resourcemanager.hostname.rm1

ha01

yarn.resourcemanager.hostname.rm2

ha03

yarn.resourcemanager.recovery.enabled

true

yarn.resourcemanager.store.class

org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore

yarn.resourcemanager.zk-address

ha01:2181,ha02:2181,ha03:2181

yarn.nodemanager.env-whitelist

JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME

yarn.scheduler.minimum-allocation-mb

512

yarn.scheduler.maximum-allocation-mb

4096

yarn.nodemanager.resource.memory-mb

4096

yarn.nodemanager.aux-services

mapreduce_shuffle

yarn.resourcemanager.hostname

ha03

yarn.nodemanager.pmem-check-enabled

false

yarn.nodemanager.vmem-check-enabled

false

yarn.resourcemanager.webapp.address.rm1

ha01:8088

yarn.resourcemanager.webapp.address.rm2

ha03:8088

yarn.log-aggregation-enble

true

yarn.log.server.url

http://ha02:19888/jobhistory/logs

yarn.log-aggregation.retain-seconds

604800

保存退出。

14)添加子节点：

# 编辑文件

vim workers

# 删除掉原来的，添加所有节点的主机名，例如

ha01

ha02

ha03

保存退出。

15)进入Hadoop的命令目录：

cd ../../sbin/

16)编辑文件：

vim start-dfs.sh

# 在文件头部添加

HDFS_DATANODE_USER=root

HDFS_DATANODE_SECURE_USER=hdfs

HDFS_NAMENODE_USER=root

HDFS_SECONDARYNAMENODE_USER=root

HDFS_JOURNALNODE_USER=root

HDFS_ZKFC_USER=root

保存退出。

17) 编辑文件：

vim stop-dfs.sh

# 在文件头部添加

HDFS_DATANODE_USER=root

HDFS_DATANODE_SECURE_USER=hdfs

HDFS_NAMENODE_USER=root

HDFS_SECONDARYNAMENODE_USER=root

HDFS_JOURNALNODE_USER=root

HDFS_ZKFC_USER=root

保存退出。

18)编辑文件：

vim start-yarn.sh

# 在文件头部添加

YARN_RESOURCEMANAGER_USER=root

HDFS_DATANODE_SECURE_USER=yarn

YARN_NODEMANAGER_USER=root

保存退出。

19) 编辑文件：

vim stop-yarn.sh

# 在文件头部添加

YARN_RESOURCEMANAGER_USER=root

HDFS_DATANODE_SECURE_USER=yarn

YARN_NODEMANAGER_USER=root

保存退出。

20)远程分发：

# 回到安装目录

cd /opt/software/

# 远程分发

scp -r hadoop-3.2.4/ root@ha02:$PWD

scp -r hadoop-3.2.4/ root@ha03:$PWD

21)配置环境变量：

# 编辑文件

vim /etc/profile.d/hadoophome.sh

# 在文件中添加

export HADOOP_HOME=/opt/software/hadoop-3.2.4

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

# 保存退出，生效

source /etc/profile.d/hadoophome.sh

# 测试

hadoop version

22)启动Zookeeper：

# 启动

zkServer.sh start

# 查看状态

zkServer.sh status

23)在第一个节点上向Zookeeper注册节点：

hdfs zkfc -formatZK

如果出现：

Successfully created /hadoop-ha/ns in ZK.

则表示注册成功。

24)三个节点启动JournalNode：

hdfs --daemon start journalnode

25)在第一个节点上格式化NameNode：

hdfs namenode -format

如果出现：

Storage directory /opt/software/hadoop-3.2.4/tmp/hdfs/name has been successfully formatted.

则表示格式化成功。

26)在第一个节点上启动NameNode：

hdfs --daemon start namenode

27)在其他节点上格式化NameNode：

hdfs namenode -bootstrapStandby

如果出现：

Storage directory /opt/software/hadoop-3.2.4/tmp/hdfs/name has been successfully formatted.

则表示格式化成功。

28)在其他节点上启动NameNode：

hdfs --daemon start namenode

29)三个节点启动DataNode：

hdfs --daemon start datanode

30)三个节点启动zkfc：

hdfs --daemon start zkfc

31)在第三个节点上启动YARN：

start-yarn.sh

32)在第二个节点上启动历史服务器：

mapred --daemon start historyserver

33)查看进程：

jps

# ha01

Jps

NameNode

DataNode

JournalNode

ResourceManager

NodeManager

DFSZKFailoverController

QuorumPeerMain

# ha02

Jps

NameNode

DataNode

JournalNode

NodeManager

DFSZKFailoverController

JobHistoryServer

QuorumPeerMain

# ha03

Jps

NameNode

DataNode

JournalNode

ResourceManager

NodeManager

DFSZKFailoverController

QuorumPeerMain

34)可以通过主机名:9870的方式来查看HDFS的页面。

35)可以通过主机名:8088的方式来查看YARN的页面。

你可能感兴趣的:(hadoop)

Hive详解
一：Hive的历史价值1，Hive是Hadoop上的KillerApplication，Hive是Hadoop上的数据仓库，Hive同时兼具有数据仓库中的存储引擎和查询引擎的作用；而SparkSQL是一个更加出色和高级的查询引擎，所以在现在企业级应用中SparkSQL+Hive成为了业界使用大数据最为高效和流行的趋势。2，Hive是Facebook的推出，主要是为了让不动Java代码编程的人员也能
zookeeper和hadoop
zookeeper操作连接zkCli.sh-server服务名称查看客户端指令helpZooKeeper-serverhost:portcmdargs statpath[watch] setpathdata[version] lspath[watch] delquota[-n|-b]path ls2path[watch] setAclpathacl setquot
Hadoop 之 ZooKeeper (一) devalone Hadoop Hadoop ZooKeeper Hbase Chubby znode
Hadoop之ZooKeeper本文介绍使用Hadoop的分布式协调服务构建通用的分布式应用——ZooKeeper。ZooKeeper是Hadoop分布式协调服务。写分布式应用是比较难的，主要是因为部分失败(partialfailure).当一条消息通过网络在两个节点间发送时，如果发生网络错误，发送者无法知道接受者是否接收到了这条消息。接收者可能在发生网络错误之前已经收到了这条消息，也可能没有收到
ZooKeeper在Hadoop中的协同应用：从NameNode选主到分布式锁实现码字的字节 hadoop布道师分布式 zookeeper hadoop 分布式锁
Hadoop与ZooKeeper概述Hadoop与ZooKeeper在大数据生态系统中的核心位置和交互关系Hadoop的架构与核心组件作为大数据处理的基石，Hadoop生态系统由多个关键组件构成。其核心架构主要包含HDFS（HadoopDistributedFileSystem）和YARN（YetAnotherResourceNegotiator）两大模块。HDFS采用主从架构设计，由NameNo
大数据开发系列（六）----Hive3.0.0安装配置以及Mysql5.7安装配置 Xiaoyeforever hive mysql hive hadoop 数据库
一、Hive3.0.0安装配置:(Hive3.1.2有BUG）hadoop3.1.2Hive各个版本下载地址：http://archive.apache.org/dist/hive/，这里我们下载hive3.0.01、解压：tar-xzvfapache-hive-3.0.0-bin.tar.gz-C/usr/lib/JDK_2021cd/usr/lib/JDK_20212.改名称.将解压以后的文件
大数据编程基础芝麻开门-新的起点大数据大数据
3.1Java基础（重点）内容讲解Java是大数据领域最重要的编程语言之一。Hadoop、HBase、Elasticsearch等众多核心框架都是用Java开发的。因此，扎实的Java基础对于深入理解这些框架的底层原理和进行二次开发至关重要。为什么Java在大数据领域如此重要？生态系统：Hadoop生态系统原生就是Java构建的，使用Java进行开发可以无缝集成。跨平台性：Java的“一次编译，到
深入解析HBase如何保证强一致性：WAL日志与MVCC机制码字的字节 hadoop布道师 hadoop HBase WAL MVCC
HBase强一致性的重要性在分布式数据库系统中，强一致性是确保数据可靠性和系统可信度的核心支柱。作为Hadoop生态系统中关键的列式存储数据库，HBase需要处理金融交易、实时风控等高敏感场景下的海量数据操作，这使得强一致性成为其设计架构中不可妥协的基础特性。分布式环境下的数据一致性挑战在典型的HBase部署环境中，数据被分散存储在多个RegionServer节点上，同时面临以下核心挑战：1.跨节
Hadoop中MapReduce和Yarn相关内容详解
接上一章写的HDFS说，Hadoop是一个适合海量数据的分布式存储和分布式计算的一个平台，上一章介绍了分布式存储，这一章介绍一下分布式计算——MapReduce。一、MapReduce设计理念map——>映射Reduce——>归纳mapreduce是一种必须构建在hadoop之上的大数据离线计算框架。因为mapreduce是给予磁盘IO来计算存储文件的，所以它具有一定的延时性，因此一般用来处理离线
阿里云MaxCompute SQL与Apache Hive区别面面观大模型大数据攻城狮阿里云 odps sql 物化 maxcompute udf开发 sql语法
目录1.引爆开场：MaxCompute和Hive，谁才是大数据SQL的王者？2.架构大比拼：从Hadoop到Serverless的进化之路Hive的架构：老派但经典MaxCompute的架构：云原生新贵3.SQL语法的微妙差异：90%相似，10%决定胜负建表语句分区与分桶函数与UDF4.执行引擎的较量：MapReducevs飞天引擎Hive的MapReduce执行流程MaxCompute的飞天引擎
一文说清楚Hive
Hive作为ApacheHadoop生态的核心数据仓库工具，其设计初衷是为熟悉SQL的用户提供大规模数据离线处理能力。以下从底层计算框架、优点、场景、注意事项及实践案例五个维度展开说明。一、Hive底层分布式计算框架对比Hive本身不直接执行计算，而是将HQL转换为底层计算引擎的任务。目前支持的主流引擎及其特点如下：计算引擎核心原理优点缺点适用场景MapReduce基于“Map→Shuffle→R
HBase 简介
HBase简介什么是HBaseApacheHBase是Hadoop数据库，一个分布式的、可伸缩的大数据存储。当您需要对大数据进行随机的、实时的读/写访问时，请使用ApacheHBase。这个项目的目标是在商品硬件的集群上托管非常大的表——数十亿行百万列的列。ApacheHBase是一个开源的、分布式的、版本化的、非关系的数据库，它模仿了Google的Bigtable：一个结构化数据的分布式存储系统
sqoop的几个注意参数 yayooo
vimsqoop_export.shsqoop导出脚本：#!/bin/bashdb_name=gmallexport_data(){/opt/module/sqoop/bin/sqoopexport\--connect"jdbc:mysql://hadoop102:3306/${db_name}?useUnicode=true&characterEncoding=utf-8"\--username
大数据领域Hadoop集群搭建的详细步骤 AI天才研究院 ChatGPT 实战 ChatGPT AI大模型应用入门实战与进阶大数据 hadoop 分布式 ai
大数据领域Hadoop集群搭建的详细步骤关键词：Hadoop集群、HDFS、YARN、大数据平台、分布式系统、集群配置、故障排查摘要：Hadoop作为大数据领域的基石框架，其集群搭建是数据工程师和运维人员的核心技能。本文从Hadoop核心架构出发，结合生产环境实践，详细讲解从环境准备、配置文件调优到集群启动验证的全流程，并涵盖常见问题排查与最佳实践。无论你是初学者还是需要优化现有集群的工程师，本文
Zookeeper简单入门灬哆啦A梦不吃鱼
zookeeper简介ZooKeeper（动物园管理员），顾名思义，是用来管理Hadoop（大象）、Hive（蜜蜂）、Pig（小猪）的管理员，同时ApacheHBase、ApacheSolr、LinkedInSensei等众多项目中都采用了ZooKeeper。ZooKeeper曾是Hadoop的正式子项目，后发展成为Apache顶级项目，与Hadoop密切相关但却没有任何依赖。它是一个针对大型应用
解锁Hive：高效数据查找的秘密武器 YangRyeon hive hadoop 数据仓库
Hive是什么？Hive是基于Hadoop的一个数据仓库工具，它能够进行数据提取、转化和加载操作，为存储、查询和分析Hadoop中的大规模数据提供了有效的机制。Hive能将结构化的数据文件映射为一张数据库表，让用户可以通过熟悉的SQL查询功能来处理数据。其内部机制是将SQL语句巧妙地转变成MapReduce任务来执行，大大降低了开发的难度和复杂性。例如，在面对海量的用户行为日志数据时，Hive就能
Hive/Spark小文件解决方案(企业级实战)–参数和SQL优化陆水A 大数据 hive hadoop spark python
重点是后面的参数优化一、小文件的定义在Hadoop的上下文中，小文件的定义是相对于Hadoop分布式文件系统（HDFS）的块（Block）大小而言的。HDFS是Hadoop生态系统中的核心组件之一，它设计用于存储和处理大规模数据集。在HDFS中，数据被分割成多个块，每个块的大小是固定的，这个大小在Hadoop的不同版本和配置中可能有所不同，但常见的默认块大小包括128MB、256MB等。基于这个背
深入解析Hadoop资源隔离机制：Cgroups、容器限制与OOM Killer防御策略码字的字节 hadoop布道师 Hadoop 资源隔离机制 Cgroups 容器限制 OOM Killer
Hadoop资源隔离机制概述在分布式计算环境中，资源隔离是保障多任务并行执行稳定性的关键技术。Hadoop作为主流的大数据处理框架，其资源管理能力直接影响集群的吞吐量和任务成功率。随着YARN架构的引入，Hadoop实现了计算资源与存储资源的解耦，而资源隔离机制则成为YARN节点管理器（NodeManager）最核心的功能模块之一。资源隔离的必要性在共享集群环境中，典型问题表现为"资源侵占"现象：
CC00096.kafka——|Hadoop&kafka.V03|——|kafka.v03|Kafka源码剖析|Topic创建流程| yanqi_vip kafka java 大数据 python spark
一、Kafka源码剖析之Topic创建流程###---Topic创建~~~有两种创建方式：自动创建、手动创建。~~~在server.properties中配置auto.create.topics.enable=true时，~~~kafka在发现该topic不存在的时候会按照默认配置自动创建topic,~~~触发自动创建topic有以下两种情况：~~~Producer向某个不存在的Topic写入消息
大数据集群多命令脚本小P聊技术
1简介在大数据集群部署过程中，需要查询各个集群节点运行的服务状态，可使用批量命令脚本。2配置集群hostname2.1配置hostname文件1服务器hadoop01[root@localhost~]#echohostname1>/etc/hostnamehostnamehadoop012服务器hadoop02[root@localhost~]#echohadoop02>/etc/hostname
R 和 Hadoop 大数据分析（一）
原文：annas-archive.org/md5/b7f3a14803c1b4d929732471e0b28932译者：飞龙协议：CCBY-NC-SA4.0前言企业每天获取的数据量呈指数增长。现在可以将这些海量信息存储在像Hadoop这样的低成本平台上。这些组织目前面临的难题是如何处理这些数据，以及如何从中提取关键见解。因此，R就成为了关键工具。R是一个非常强大的工具，它使得在数据上运行高级统计模
Zookeeper 在 Kafka 中的作用详解：分布式协调服务的核心价值 lxb_不卑不亢消息队列 MQ 进阶实战分布式 zookeeper kafka rocketmq
摘要ApacheKafka是一个高吞吐、分布式的流处理平台，广泛应用于大数据和实时系统中。而ApacheZookeeper，则是Kafka背后不可或缺的“隐形英雄”。本文将深入剖析Zookeeper在Kafka架构中的核心作用，帮助开发者全面理解其在分布式协调、元数据管理、故障恢复等方面的关键地位。一、Zookeeper简介Zookeeper是一个开源的分布式协调服务，最初由Hadoop生态发展而
深入解析Hadoop中的推测执行：原理、算法与策略码字的字节 hadoop布道师 hadoop 算法推测执行
Hadoop推测执行概述在分布式计算环境中，任务执行速度的不均衡是一个普遍存在的挑战。Hadoop作为主流的大数据处理框架，通过引入推测执行（SpeculativeExecution）机制有效缓解了这一问题。该技术本质上是一种乐观的容错策略，当系统检测到某些任务执行明显落后于预期进度时，会自动在其它计算节点上启动相同任务的冗余副本，最终选择最先完成的任务结果作为输出。核心设计动机推测执行的诞生源于
spark on yarn 不辉放弃 pyspark 大数据开发
SparkonYARN是指将Spark应用程序运行在HadoopYARN集群上，借助YARN的资源管理和调度能力来管理Spark的计算资源。这种模式能充分利用现有Hadoop集群资源，简化集群管理，是企业中常用的Spark部署方式。核心角色•Spark应用：包含Driver进程和Executor进程。Driver负责任务调度、逻辑处理；Executor负责执行具体任务并存储数据。•YARN组件：◦
深入解析Hadoop中的Region分裂与合并机制码字的字节 hadoop布道师 hadoop 大数据分布式 Region 分裂合并
Hadoop与Region的基本概念Hadoop的分布式架构基础作为大数据处理的核心框架，Hadoop通过分布式存储和计算解决了海量数据的处理难题。其架构核心由HDFS（HadoopDistributedFileSystem）和MapReduce组成，前者负责数据的分布式存储，后者实现分布式计算。在HDFS中，数据被分割成固定大小的块（默认128MB）分散存储在集群节点上，而MapReduce则通
深入解析Hadoop RPC：技术细节与推广应用码字的字节 hadoop布道师 Hadoop RPC
HadoopRPC框架概述在分布式系统的核心架构中，远程过程调用（RPC）机制如同神经网络般连接着各个计算节点。Hadoop作为大数据处理的基石，其自主研发的RPC框架不仅支撑着内部组件的协同运作，更以独特的工程哲学诠释了分布式通信的本质。透明性：隐形的通信桥梁HadoopRPC最显著的特征是其对通信细节的完美封装。当NameNode接收DataNode的心跳检测，或ResourceManager
深入解析Hadoop：大数据处理的基石学习的锅 hadoop 大数据分布式
随着信息技术的快速发展和互联网的普及，数据的产生速度极具增加。面对如此海量的数据，传统的数据处理工具显得力不从心。在这种背景下，诞生了一系列用于处理大数据的框架与工具，而ApacheHadoop便是其中最为知名和应用最广泛的一个。本文将深入解析Hadoop的基本原理、架构及其在大数据处理中的重要性。1.Hadoop的起源与发展Hadoop起源于Google公司的三篇奠基性论文：GoogleFile
大数据技术关键技术组件
大数据技术是一组用于处理、分析和管理大规模数据集的复杂方法和技术。这些数据集的特点是容量大、增长速度快，且结构多样化，包括结构化、半结构化和非结构化数据。传统数据库管理和分析工具在处理此类数据时效率低下或无法胜任，因此需要专门的大数据技术栈来支持高效的数据处理和智能决策。大数据技术的关键组件通常包括：分布式存储系统：HadoopDistributedFileSystem(HDFS)：一个高度可扩展
大数据领域HDFS的集群资源管理优化大数据洞察大数据与AI人工智能大数据AI应用大数据 hdfs hadoop ai
大数据领域HDFS的集群资源管理优化关键词：HDFS；集群资源管理；存储优化；性能调优；副本策略；负载均衡；NameNode优化摘要：HDFS（Hadoop分布式文件系统）作为大数据领域的基石，承载着海量数据的存储与管理重任。随着数据规模爆炸式增长和业务复杂度提升，HDFS集群的资源管理面临着"存不下、跑不快、管不好"的三重挑战：存储资源浪费与不足并存、计算与存储资源匹配失衡、集群运维效率低下。本
深入探索Hadoop技术：全面学习指南
引言在大数据时代，高效地存储、处理和分析海量数据已成为企业决策与创新的关键驱动力。Hadoop，作为开源的大数据处理框架，以其强大的分布式存储和并行计算能力，以及丰富的生态系统，为企业提供了应对大规模数据挑战的有效解决方案。本文旨在为初学者和进阶者提供一份详尽的Hadoop技术学习指南，涵盖HDFS、MapReduce、YARN等核心组件，以及Hive、Pig、HBase等生态系统工具，助您踏上H
HDFS文件系统
HDFS文件系统是hadoop生态系统的核心，主要用于分布式文件存储，它具备高可用，流式读取，文件结构简单，跨平台的特点，它的集群采用的是主从结构，分为命名节点和数据节点，命名节点主要用于元数据管理（例如对目录，文件的创建，数据块与数据节点的关系维护管理）及数据节点管理（例如数据节点之间数据的复制，节点状态的维护，节点间数据的均衡），该文件系统最基本的存储单位是block即数据块，默认大小是64M
如何用ruby来写hadoop的mapreduce并生成jar包 wudixiaotie mapreduce
ruby来写hadoop的mapreduce，我用的方法是rubydoop。怎么配置环境呢： 1.安装rvm：不说了网上有 2.安装ruby：由于我以前是做ruby的，所以习惯性的先安装了ruby，起码调试起来比jruby快多了。 3.安装jruby： rvm install jruby然后等待安
java编程思想 -- 访问控制权限百合不是茶 java 访问控制权限单例模式
访问权限是java中一个比较中要的知识点,它规定者什么方法可以访问,什么不可以访问一:包访问权限; 自定义包: package com.wj.control; //包 public class Demo { //定义一个无参的方法 public void DemoPackage(){ System.out.println("调用
[生物与医学]请审慎食用小龙虾 comsci 生物
现在的餐馆里面出售的小龙虾,有一些是在野外捕捉的,这些小龙虾身体里面可能带有某些病毒和细菌,人食用以后可能会导致一些疾病,严重的甚至会死亡..... 所以,参加聚餐的时候,最好不要点小龙虾...就吃养殖的猪肉,牛肉,羊肉和鱼,等动物蛋白质
org.apache.jasper.JasperException: Unable to compile class for JSP: 商人shang maven 2.2 jdk1.8
环境： jdk1.8 maven tomcat7-maven-plugin 2.0 原因： tomcat7-maven-plugin 2.0 不知吃 jdk 1.8，换成 tomcat7-maven-plugin 2.2就行，即 <plugin>
你的垃圾你处理掉了吗?GC oloz GC
前序:本人菜鸟，此文研究学习来自网络，各位牛牛多指教　 1.垃圾收集算法的核心思想　　Java语言建立了垃圾收集机制，用以跟踪正在使用的对象和发现并回收不再使用(引用)的对象。该机制可以有效防范动态内存分配中可能发生的两个危险：因内存垃圾过多而引发的内存耗尽，以及不恰当的内存释放所造成的内存非法引用。　　垃圾收集算法的核心思想是：对虚拟机可用内存空间，即堆空间中的对象进行识别
shiro 和 SESSSION 杨白白 shiro
shiro 在web项目里默认使用的是web容器提供的session，也就是说shiro使用的session是web容器产生的，并不是自己产生的，在用于非web环境时可用其他来源代替。在web工程启动的时候它就和容器绑定在了一起，这是通过web.xml里面的shiroFilter实现的。通过session.getSession()方法会在浏览器cokkice产生JESSIONID，当关闭浏览器，此
移动互联网终端淘宝客如何实现盈利小桔子移動客戶端淘客淘寶App
2012年淘宝联盟平台为站长和淘宝客带来的分成收入突破30亿元，同比增长100%。而来自移动端的分成达1亿元，其中美丽说、蘑菇街、果库、口袋购物等App运营商分成近5000万元。可以看出，虽然目前阶段PC端对于淘客而言仍旧是盈利的大头，但移动端已经呈现出爆发之势。而且这个势头将随着智能终端(手机，平板)的加速普及而更加迅猛
wordpress小工具制作 aichenglong wordpress 小工具
wordpress 使用侧边栏的小工具，很方便调整页面结构小工具的制作过程 1 在自己的主题文件中新建一个文件夹(如widget)，在文件夹中创建一个php(AWP_posts-category.php) 小工具是一个类,想侧边栏一样，还得使用代码注册，他才可以再后台使用，基本的代码一层不变 <?php class AWP_Post_Category extends WP_Wi
JS微信分享 AILIKES js
// 所有功能必须包含在 WeixinApi.ready 中进行 WeixinApi.ready(function(Api) { // 微信分享的数据 var wxData = { &nb
封装探讨百合不是茶 JAVA面向对象封装
//封装属性方法将某些东西包装在一起，通过创建对象或使用静态的方法来调用，称为封装；封装其实就是有选择性地公开或隐藏某些信息，它解决了数据的安全性问题，增加代码的可读性和可维护性在 Aname类中申明三个属性，将其封装在一个类中：通过对象来调用例如 1： //属性将其设为私有姓名 name 可以公开
jquery radio/checkbox change事件不能触发的问题 bijian1013 JavaScript jquery
我想让radio来控制当前我选择的是机动车还是特种车，如下所示： <html> <head> <script src="http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js" type="text/javascript"><
AngularJS中安全性措施 bijian1013 JavaScript AngularJS 安全性 XSRF JSON漏洞
在使用web应用中，安全性是应该首要考虑的一个问题。AngularJS提供了一些辅助机制，用来防护来自两个常见攻击方向的网络攻击。一.JSON漏洞当使用一个GET请求获取JSON数组信息的时候（尤其是当这一信息非常敏感，
[Maven学习笔记九]Maven发布web项目 bit1129 maven
基于Maven的web项目的标准项目结构 user-project user-core user-service user-web src
【Hive七】Hive用户自定义聚合函数(UDAF) bit1129 hive
用户自定义聚合函数，用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题：UDF也可以提供输入多个参数然后输出一个结果的运算，比如加法运算add(3，5)，add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么？ Double evaluate(Double a, Double b)
通过 nginx-lua 给 Nginx 增加 OAuth 支持 ronin47
前言：我们使用Nginx的Lua中间件建立了OAuth2认证和授权层。如果你也有此打算，阅读下面的文档，实现自动化并获得收益。SeatGeek 在过去几年中取得了发展，我们已经积累了不少针对各种任务的不同管理接口。我们通常为新的展示需求创建新模块，比如我们自己的博客、图表等。我们还定期开发内部工具来处理诸如部署、可视化操作及事件处理等事务。在处理这些事务中，我们使用了几个不同的接口来认证： &n
利用tomcat-redis-session-manager做session同步时自定义类对象属性保存不上的解决方法 bsr1983 session
在利用tomcat-redis-session-manager做session同步时，遇到了在session保存一个自定义对象时，修改该对象中的某个属性，session未进行序列化，属性没有被存储到redis中。在 tomcat-redis-session-manager的github上有如下说明： Session Change Tracking As noted in the &qu
《代码大全》表驱动法-Table Driven Approach-1 bylijinnan java 算法
关于Table Driven Approach的一篇非常好的文章： http://www.codeproject.com/Articles/42732/Table-driven-Approach package com.ljn.base; import java.util.Random; public class TableDriven { public
Sybase封锁原理 chicony Sybase
昨天在操作Sybase IQ12.7时意外操作造成了数据库表锁定，不能删除被锁定表数据也不能往其中写入数据。由于着急往该表抽入数据，因此立马着手解决该表的解锁问题。无奈此前没有接触过Sybase IQ12.7这套数据库产品，加之当时已属于下班时间无法求助于支持人员支持，因此只有借助搜索引擎强大的
java异常处理机制 CrazyMizzz java
java异常关键字有以下几个，分别为 try catch final throw throws 他们的定义分别为 try： Opening exception-handling statement. catch： Captures the exception. finally： Runs its code before terminating
hive 数据插入DML语法汇总 daizj hive DML 数据插入
Hive的数据插入DML语法汇总1、Loading files into tables语法：1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释：1)、上面命令执行环境为hive客户端环境下： hive>l
工厂设计模式 dcj3sjt126com 设计模式
使用设计模式是促进最佳实践和良好设计的好办法。设计模式可以提供针对常见的编程问题的灵活的解决方案。工厂模式工厂模式（Factory）允许你在代码执行时实例化对象。它之所以被称为工厂模式是因为它负责“生产”对象。工厂方法的参数是你要生成的对象对应的类名称。 Example #1 调用工厂方法（带参数） <?phpclass Example{
mysql字符串查找函数 dcj3sjt126com mysql
FIND_IN_SET(str,strlist) 假如字符串str 在由N 子链组成的字符串列表strlist 中，则返回值的范围在1到 N 之间。一个字符串列表就是一个由一些被‘,’符号分开的自链组成的字符串。如果第一个参数是一个常数字符串，而第二个是type SET列，则 FIND_IN_SET() 函数被优化，使用比特计算。如果str不在strlist 或st
jvm内存管理 easterfly jvm
一、JVM堆内存的划分分为年轻代和年老代。年轻代又分为三部分：一个eden,两个survivor。工作过程是这样的：e区空间满了后，执行minor gc，存活下来的对象放入s0, 对s0仍会进行minor gc，存活下来的的对象放入s1中，对s1同样执行minor gc，依旧存活的对象就放入年老代中；年老代满了之后会执行major gc，这个是stop the word模式，执行
CentOS-6.3安装配置JDK-8 gengzg centos
JAVA_HOME=/usr/java/jdk1.8.0_45 JRE_HOME=/usr/java/jdk1.8.0_45/jre PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib export JAVA_HOME
【转】关于web路径的获取方法 huangyc1210 Web 路径
假定你的web application 名称为news,你在浏览器中输入请求路径： http://localhost:8080/news/main/list.jsp 则执行下面向行代码后打印出如下结果： 1、 System.out.println(request.getContextPath()); //可返回站点的根路径。也就是项
php里获取第一个中文首字母并排序远去的渡口数据结构 PHP
很久没来更新博客了，还是觉得工作需要多总结的好。今天来更新一个自己认为比较有成就的问题吧。最近在做储值结算，需求里结算首页需要按门店的首字母A-Z排序。我的数据结构原本是这样的： Array ( [0] => Array ( [sid] => 2885842 [recetcstoredpay] =&g
java内部类 hm4123660 java 内部类匿名内部类成员内部类方法内部类
　在Java中，可以将一个类定义在另一个类里面或者一个方法里面，这样的类称为内部类。内部类仍然是一个独立的类，在编译之后内部类会被编译成独立的.class文件，但是前面冠以外部类的类名和$符号。内部类可以间接解决多继承问题,可以使用内部类继承一个类，外部类继承一个类，实现多继承。 &nb
Caused by: java.lang.IncompatibleClassChangeError: class org.hibernate.cfg.Exten zhb8015
maven pom.xml关于hibernate的配置和异常信息如下，查了好多资料，问题还是没有解决。只知道是包冲突，就是不知道是哪个包....遇到这个问题的分享下是怎么解决的。。 maven pom: <dependency> <groupId>org.hibernate</groupId> <ar
Spark 性能相关参数配置详解－任务调度篇 Stark_Summer spark cache cpu 任务调度 yarn
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便
css3滤镜 wangkeheng html css
经常看到一些网站的底部有一些灰色的图标，鼠标移入的时候会变亮，开始以为是js操作src或者bg呢，搜索了一下，发现了一个更好的方法：通过css3的滤镜方法。 html代码： <a href='' class='icon'><img src='utv.jpg' /></a> css代码： .icon{-webkit-filter: graysc