配置Hadoop集群-配置历史和日志服务

配置运行任务的历史服务器

为了查看程序历史运行情况,需要配置一下历史服务器这个历史服务器需要消耗的资源比较小,你可以选择把它配置在集群中的任意一台节点上。但是,请注意,在哪一台上配置了,就应该在哪一台上去启动。

我们这把它配置在nn节点(hadoop100)上。具体配置步骤如下:

1.配置mapred-site.xml

在hadoop的安装目录下,打开mapred-site.xml,并在该文件里面增加如下两条配置。

    mapreduce.jobhistory.address

    hadoop100:10020

    mapreduce.jobhistory.webapp.address

    hadoop100:19888

2.分发配置

把这个配置同步到其他的节点中。这里直接使用我们之前封装好的命令xsync来同步。具体如下:

xsync $HADOOP_HOME/etc/hadoop/mapred-site.xml

3.启动历史服务器

请注意,你在配置的时候指定哪个节点是历史服务器,就在哪里启动,请不要搞错了。

对应的命令是: mapred --daemon start historyserver

4.检查历史服务器是否启动

通过jps命令来查看历史服务器是否已经成功启动了。

[root@hadoop100 hadoop]$ jps

5.查看JobHistory

方式1:直接去看所有的历史记录 href="http://hadoop100:19888/jobhistory" http://hadoop100:19888/jobhistory

方式2:重新启动yarn服务从具体的history链接进行跳转。

(二)配置运行任务的日志

与历史命令相配套的还有对应的执行的日志。

它的入口在上面的位置。点击之后,我们去查看:

发现看不了。接下来我们配置一下,让它能够访问

这个操作叫日志聚集。由于任务是在具体的节点上运行的,所以运行日志也是产生在具体的节点上,但是我们希望应用完成以后,将程序运行日志信息上传到HDFS系统上,这样就可以方便的查看到程序运行详情,方便开发调试。

注意:开启日志聚集功能,需要重新启动NodeManager 、ResourceManager和HistoryServer。

开启日志聚集功能具体步骤如下:

(1)配置yarn-site.xml

打开yarn-site.xml文件,我们添加如下的配置。在该文件里面增加如下配置。

-- 开启日志聚集功能 -->

    yarn.log-aggregation-enable

    true

-- 设置日志聚集服务器地址 -->

 

    yarn.log.server.url  

    http://hadoop101:19888/jobhistory/logs

-- 设置日志保留时间为7天 -->

    yarn.log-aggregation.retain-seconds

    604800

(2)分发配置

和之前的配置一样,我们需要把这个更新之后的yarn-site.xml文件同步到其他的机器。这里还是使用脚本xsync。具体如下

xsync /opt/module/hadoop-3.1.3/etc/hadoop/yarn-site.xml

(3)重启ResourceManager和HistoryServer

进入到我们安装yarn的主机,通过命令来关闭掉yarn和historyServer,然后再重启。

[root@hadoop103 hadoop-3.1.3]$ sbin/stop-yarn.sh

[root@hadoop103 hadoop-3.1.3]$ mapred --daemon stop historyserver

启动ResourceManage和HistoryServer

start-yarn.sh

mapred --daemon start historyserver

(三)测试运行任务的日志

前面我们已经完成了任务日记的聚集,下面我们来看看是不是配置正确了。我们需要重新运行wordcount应用,然后再去看看是不是正确生成了日志。

(1)重新执行WordCount程序

命令如下:

[root@hadoop100 hadoop-3.1.3]$ hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output

(2)查看日志

如果一切正常,我们打开历史服务器地址http://hadoop101:19888/jobhistory 可以看到历史任务列表,如下:

点击对应的JobID,就可以进一步查看任务运行日志

然后在点击logs,就可以查看运行日志的详情了。

你可能感兴趣的:(spark中的问题分析,hadoop,大数据,分布式)