记录Oracle Exadata X8M-2 存储服务器告警灯亮的处理过程

问题描述

提示:这里描述项目中遇到的问题:

2022年5月12日接到服务器告警灯亮信息(红框分别代表:风扇,电源,温度,机盖指示灯)
记录Oracle Exadata X8M-2 存储服务器告警灯亮的处理过程_第1张图片
经确认为cell3节点(第三台存储服务器)告警灯亮,登录系统确认各磁盘服务正常,OS层日志无报错,OS层服务正常不影响业务使用,需尽快排查亮灯原因并解决!


原因分析:

提示:这里填写问题的分析:

1)确认告警内容

登录系统确认各磁盘服务正常,OS层日志无报错,由此判断为纯硬件报错,通过ilom管理平台确认为PILOT4部件异常产生的告警,如下图所示:
记录Oracle Exadata X8M-2 存储服务器告警灯亮的处理过程_第2张图片

2)确认告警具体部件以及功能

经由信息反馈至硬件工程师确认此次的PILOT4部件为:主板上判断设备上盖是否打开的一个组件。
系统使用无影响,涉及风险为:若服务器重启时主板监测到异常后将可能无法正常启动系统。
具体部件功能为监测服务器顶盖是否被打开。

3)可能诱发的原因

1.服务器硬件PILOT4确实损坏,需要调配主板进行更换
2.服务器监测系统的异常告警(临时性错误)


解决方案:

提示:这里填写该问题的具体解决方案:
操作参考:
记录Oracle Exadata X8M-2 存储服务器告警灯亮的处理过程_第3张图片

首先要排除服务器监测的误报,所以要进行服务器硬件的全部扫描,定位到异常部件的位置(Location) 记录Oracle Exadata X8M-2 存储服务器告警灯亮的处理过程_第4张图片
通过ilom的管理命令将所描述的/SYS/SP重新识别激活,将PILOT4部件重新纳入到监测中,并确认是否还存在告警情况。
记录Oracle Exadata X8M-2 存储服务器告警灯亮的处理过程_第5张图片
完成以上操作后后台未显示告警信息,重新确认ILOM管理界面,系统显示PILOT4部件正常,如下图所示:
记录Oracle Exadata X8M-2 存储服务器告警灯亮的处理过程_第6张图片
记录Oracle Exadata X8M-2 存储服务器告警灯亮的处理过程_第7张图片
现场确认,服务器指示灯正常,到此此次问题排查完成,故障灯消除。
记录Oracle Exadata X8M-2 存储服务器告警灯亮的处理过程_第8张图片
如果此次识别之后错误问题依然存在则需要更换硬件来消除了。

你可能感兴趣的:(运维日常,服务器,运维,oracle,Exadata)