写在前面
近期有很多关于DELL EMC PowerStore存储BBU电池的故障报修,购买电池备件的问题。客户工程师普遍不知道如何评判一个电池的好坏,然后就随便从淘宝买一个便宜货,更换上去不行,严重的把节点还给搞挂了。所以还是要写一篇文章来专门阐述下PowerStore存储BBU电池的故障现象,如何去查看一个电池备件是否健康。
老规矩,码字不易,欢迎点赞、转发、添加vx: StorageExpert,下次更新不迷路。
Dell EMC PowerStore的BBU电池的作用,和其他存储系统一样,在断电时提供临时电源以支持数据保存vault,就是把内存中的数据写入到NVRAM的vault 盘中,是确保数据高可用性的关键组件。随着时间推移,BBU会逐渐老化,及时诊断其健康状态对防止数据风险至关重要。本文介绍如何通过PowerStore的告警信息和svc_battery_info脚本诊断BBU健康状态(也可以使用 svc_diag list --battery),并明确关键指标的输出命令及对应输出项。
先上个图,看看BBU电池长什么样。
另外,一个很关键的问题,这个BBU电池在EMC的PN号有好多个,至少有6种以上,都是通用的,都是通用的,可以在一个appliance中的两个node中使用不同PN的电池。
了解BBU健康告警
PowerStore的操作系统OS持续监控BBU健康状态,并在出现问题时生成告警信息,帮助管理员及时识别和解决问题。以下是与BBU寿命终结状态相关的关键告警、其含义及建议措施:
这些警报由PowerStoreOS生成,通过监控BBU的容量退化、服务寿命和传感器数据触发。管理员应通过PowerStore管理界面密切关注这些警报,并迅速采取行动以避免系统中断。
使用svc_battery_info脚本进行详细诊断
如何获取BBU健康的深入信息,有两种方法:
运行脚本
上面两个脚本的命令输出是差不多一样的,使用以下命令获取BBU状态:
关键指标的输出命令与解读
关键指标主要通过svc_battery_info --summary和svc_battery_info --extended命令输出,部分指标也在svc_battery_info --node_a或--node_b的综合输出中包含。
敲黑板,重点来了,这里要拿小本本记下来。以下是最重要的健康指标、对应的输出命令、输出项名称、健康与故障值,以及说明:
参数 |
输出命令 |
输出项名称 |
健康BBU |
故障BBU |
备注 |
I2C READY FOR HOLD UP |
svc_battery_info --summary 或 --node_a |
I2C READY FOR HOLD UP |
True |
False |
通过I2C表明BBU准备好支持数据保存,位于SUMMARY或NODE A BATTERY SUMMARY部分。 |
GPIO READY FOR HOLD UP |
svc_battery_info --summary 或 --node_a |
GPIO READY FOR HOLD UP |
True |
False |
通过GPIO确认支持数据保存,位于SUMMARY或NODE A BATTERY SUMMARY部分。 |
SERVICE LIFE |
svc_battery_info --summary 或 --node_a |
SERVICE LIFE |
< 1865天(5年) |
> 1865天 |
BBU设计寿命为5年运行加2年存储,单位为天,位于SUMMARY或NODE A BATTERY SUMMARY部分。 |
STATE OF CHARGE |
svc_battery_info --summary 或 --node_a |
STATE OF CHARGE |
75–100% |
< 75%(未充电) |
应接近100%,除非刚完成放电测试,单位为百分比,位于SUMMARY或NODE A BATTERY SUMMARY部分。 |
END OF CELL LIFE |
svc_battery_info --summary 或 --node_a |
END OF CELL LIFE (from Ext Status) |
False |
True |
表示BBU需更换,位于SUMMARY或NODE A BATTERY SUMMARY部分。 |
CAP DEGRADATION |
svc_battery_info --summary 或 --node_a |
CAP DEGRADATION (Percent) |
< 47% |
> 47% |
容量退化超53%触发更换警报,单位为百分比,位于SUMMARY或NODE A BATTERY SUMMARY部分。 |
CAP DEGRADATION THRESHOLD EXCEEDED |
svc_battery_info --summary 或 --node_a |
CAP DEGRADATION THRESHOLD EXCEEDED |
False |
True |
容量低于53%时置为True,位于SUMMARY或NODE A BATTERY SUMMARY部分。 |
CELL VOL (V) |
svc_battery_info --summary 或 --node_a |
CELL VOL (V) |
2.75–4.10V(Gemini) |
超出范围 |
电压异常表明电池单元受损,显示各单元电压,位于SUMMARY或NODE A BATTERY SUMMARY部分。 |
示例输出(基于svc_battery_info --node_a):
以下是Node A的示例输出片段,展示了关键指标的具体输出项:
Node A BATTERY SUMMARY
SERIAL NUMBER : ACPW3211000673
PART NUMBER : 078-000-177-02
BBU FW VERSION : 0120
FAULT STATUS REGISTER ON : False
EXTERNAL FAULT : False
INTERNAL FAULT : False
PAGE FAULT : False
I2C ENABLED : True
GPIO ENABLED : True
I2C READY FOR HOLD UP : True
GPIO READY FOR HOLD UP : True
CHARGING : False
DISCHARGING : False
SERVICE LIFE : 976 DAYS
STATE OF CHARGE : 96
END OF CELL LIFE (from Ext Status) : False
CAP DEGRADATION (Percent): 17
CAP DEGRADATION THRESHOLD (Percent): 47
CAP DEGRADATION THRESHOLD EXCEEDED : False
CELL VOL (V) : 4.08 4.08 0.0 0.0 0.0 0.0 0.0 0.0
解读:
注意:BBU FW VERSION为0120(v1.20),为较旧固件,可能存在过充电问题,建议升级至v2.54或更高版本以延长寿命。
扩展诊断
svc_battery_info --extended命令提供更多细节,关键指标包括:
示例输出片段(svc_battery_info --extended):
Node A BATTERY EXTENDED STATUS
STATE OF HEALTH (Percent) : 100
STORAGE CAPACITY (Whr) : 14.88
DELIVERABLE CAPACITY (Whr) : 14.24
DISCHARGE CYCLE COUNT : 11.0
TEMP0 (C) : 28.85
解读:
故障指标(如FAULTS-CELL OV、TEMP FAULTS-OVER TEMP)应为False,若为True,需进一步调查。
BBU维护最佳实践
写在最后
啰里啰唆写了一大堆,目的就是一个,科普、科普、科普。BBU是存储系统中一个非常重要的部件,直接影响客户的数据安全。选择靠谱的存储备件和技术服务商。