重启集群之后,ambari与主机失去心跳无法恢复的解决办法

启动ambari服务表示已经存在:
ERROR: ambari-agent already running

异常:
the server has not received a heartbeat from this host for more than 3 minutes 3分钟之后失去心跳了

**=========================stop 启动 和restart 都不行,ambari仍然不能监控集群**

查看/var/log/ambari-agent/ambari-agent.log日志打印:
日志信息:
ERROR 2018-11-12 05:48:14,443 NetUtil.py:96 - EOF occurred in violation of protocol (_ssl.c:579)
ERROR 2018-11-12 05:48:14,444 NetUtil.py:97 - SSLError: Failed to connect. Please check openssl library versions.
Refer to: https://bugzilla.redhat.com/show_bug.cgi?id=1022468 for more details.
WARNING 2018-11-12 05:48:14,444 NetUtil.py:124 - Server at https://master01:8440 is not reachable, sleeping for 10 seconds…
INFO 2018-11-12 05:48:24,444 NetUtil.py:70 - Connecting to https://master01:8440/ca

什么是SSL ERROR:
SSL证书,也称为服务器SSL证书,是遵守SSL协议的一种数字证书,由全球信任的证书颁发机构(CA)验证服务器身份后颁发。将SSL证书安装在网站服务器上,可实现网站身份验证和数据加密传输双重功能,有效防止机密数据在传输过程中被窃取和纂改,有效防止钓鱼网站浑水摸鱼盗取用户财产。

原因:可能是python升级或安装了某些模块导致

查看python版本的命令: python -V
查看python的位置:which python

解决办法:vim /etc/ambari-agent/conf/ambari-agent.ini

在[security] 新增如下一行
[security] 的节点下,加入:
force_https_protocol=PROTOCOL_TLSv1_2

重启ambari-agent,# ambari-agent restart ============== 解决问题

你可能感兴趣的:(hadoop,ambari集群,大数据)