带你诊断分析Dell EMC PowerStore BBU电池健康状态

写在前面

近期有很多关于DELL EMC PowerStore存储BBU电池的故障报修,购买电池备件的问题。客户工程师普遍不知道如何评判一个电池的好坏,然后就随便从淘宝买一个便宜货,更换上去不行,严重的把节点还给搞挂了。所以还是要写一篇文章来专门阐述下PowerStore存储BBU电池的故障现象,如何去查看一个电池备件是否健康。

老规矩,码字不易,欢迎点赞、转发、添加vx: StorageExpert,下次更新不迷路。

Dell EMC PowerStore的BBU电池的作用,和其他存储系统一样,在断电时提供临时电源以支持数据保存vault,就是把内存中的数据写入到NVRAM的vault 盘中,是确保数据高可用性的关键组件。随着时间推移,BBU会逐渐老化,及时诊断其健康状态对防止数据风险至关重要。本文介绍如何通过PowerStore的告警信息和svc_battery_info脚本诊断BBU健康状态(也可以使用 svc_diag list --battery),并明确关键指标的输出命令及对应输出项。

先上个图,看看BBU电池长什么样。

带你诊断分析Dell EMC PowerStore BBU电池健康状态_第1张图片

另外,一个很关键的问题,这个BBU电池在EMCPN号有好多个,至少有6种以上,都是通用的,都是通用的,可以在一个appliance中的两个node中使用不同PN的电池。

了解BBU健康告警

PowerStore的操作系统OS持续监控BBU健康状态,并在出现问题时生成告警信息,帮助管理员及时识别和解决问题。以下是与BBU寿命终结状态相关的关键告警、其含义及建议措施:

  1. XMS_NODEBBU_END_OF_LIFE_STATE_AGING
    • 告警信息:BBU因老化导致容量下降。
    • 错误代码:0x00314005
    • 影响:BBU接近寿命终结,数据高可用性降低。
    • 描述:当BBU容量降至53%以下时触发,表明老化导致性能下降。
    • 解决方案:立即更换BBU
  2. XMS_NODEBBU_END_OF_LIFE_STATE_CRITICAL
    • 告警信息:电池备份模块接近寿命终结。
    • 错误代码:0x00314006
    • 影响:数据可用性面临风险。
    • 描述:容量降至51%以下时触发,表示进入危急状态。
    • 解决方案:需立即更换BBU。
  3. XMS_NODEBBU_END_OF_LIFE_STATE_DEAD
    • 告警信息:电池备份模块已达到寿命终结。
    • 错误代码:0x00314007
    • 影响:数据高可用性已受损,BBU无法支持数据保存。
    • 描述:BBU完全丧失容量,无法正常工作。
    • 解决方案:紧急更换BBU以恢复系统可靠性。
  4. XMS_NODEBBU_SENSOR_CONSISTENCY_STATE_INCONSISTENT
    • 告警信息:电池备份模块的传感器读数不一致。
    • 错误代码:0x0031A403
    • 影响:可能存在硬件问题,未来可能影响性能。
    • 描述:当I2C或GPIO传感器读数不一致时触发,可能由接触不良或硬件故障引起。
    • 解决方案:重新插拔BBU,确保连接良好。若警报持续,就要联系我们来做进一步的处理了。

这些警报由PowerStoreOS生成,通过监控BBU的容量退化、服务寿命和传感器数据触发。管理员应通过PowerStore管理界面密切关注这些警报,并迅速采取行动以避免系统中断。

使用svc_battery_info脚本进行详细诊断

如何获取BBU健康的深入信息,有两种方法:

  1. svc_battery_info 脚本,这个需要专门inject,有些恶心的。但在3.6版本之前,必须使用这个脚本来看
  2. svc_diag list --battery 对于3.6版本以上,直接用diag命令查看

运行脚本

上面两个脚本的命令输出是差不多一样的,使用以下命令获取BBU状态:

  • 摘要信息:svc_battery_info --summary
  • 扩展状态:svc_battery_info --extended
  • GPIO状态:svc_battery_info --gpio
  • I2C状态:svc_battery_info --i2c
  • 节点特定状态:svc_battery_info --node_a 或 --node_b

关键指标的输出命令与解读

关键指标主要通过svc_battery_info --summary和svc_battery_info --extended命令输出,部分指标也在svc_battery_info --node_a或--node_b的综合输出中包含。

敲黑板,重点来了,这里要拿小本本记下来。以下是最重要的健康指标、对应的输出命令、输出项名称、健康与故障值,以及说明:

参数

输出命令

输出项名称

健康BBU

故障BBU

备注

I2C READY FOR HOLD UP

svc_battery_info --summary 或 --node_a

I2C READY FOR HOLD UP

True

False

通过I2C表明BBU准备好支持数据保存,位于SUMMARY或NODE A BATTERY SUMMARY部分。

GPIO READY FOR HOLD UP

svc_battery_info --summary 或 --node_a

GPIO READY FOR HOLD UP

True

False

通过GPIO确认支持数据保存,位于SUMMARY或NODE A BATTERY SUMMARY部分。

SERVICE LIFE

svc_battery_info --summary 或 --node_a

SERVICE LIFE

< 1865天(5年)

> 1865天

BBU设计寿命为5年运行加2年存储,单位为天,位于SUMMARY或NODE A BATTERY SUMMARY部分。

STATE OF CHARGE

svc_battery_info --summary 或 --node_a

STATE OF CHARGE

75–100%

< 75%(未充电)

应接近100%,除非刚完成放电测试,单位为百分比,位于SUMMARY或NODE A BATTERY SUMMARY部分。

END OF CELL LIFE

svc_battery_info --summary 或 --node_a

END OF CELL LIFE (from Ext Status)

False

True

表示BBU需更换,位于SUMMARY或NODE A BATTERY SUMMARY部分。

CAP DEGRADATION

svc_battery_info --summary 或 --node_a

CAP DEGRADATION (Percent)

< 47%

> 47%

容量退化超53%触发更换警报,单位为百分比,位于SUMMARY或NODE A BATTERY SUMMARY部分。

CAP DEGRADATION THRESHOLD EXCEEDED

svc_battery_info --summary 或 --node_a

CAP DEGRADATION THRESHOLD EXCEEDED

False

True

容量低于53%时置为True,位于SUMMARY或NODE A BATTERY SUMMARY部分。

CELL VOL (V)

svc_battery_info --summary 或 --node_a

CELL VOL (V)

2.75–4.10V(Gemini)

超出范围

电压异常表明电池单元受损,显示各单元电压,位于SUMMARY或NODE A BATTERY SUMMARY部分。

示例输出(基于svc_battery_info --node_a):

以下是Node A的示例输出片段,展示了关键指标的具体输出项:

Node A BATTERY SUMMARY
  SERIAL NUMBER : ACPW3211000673
  PART NUMBER : 078-000-177-02
  BBU FW VERSION : 0120
  FAULT STATUS REGISTER ON : False
  EXTERNAL FAULT : False
  INTERNAL FAULT : False
  PAGE FAULT : False
  I2C ENABLED  : True
  GPIO ENABLED : True
  I2C READY FOR HOLD UP  : True
  GPIO READY FOR HOLD UP : True
  CHARGING : False
  DISCHARGING : False
  SERVICE LIFE : 976 DAYS
  STATE OF CHARGE : 96
  END OF CELL LIFE (from Ext Status) : False
  CAP DEGRADATION (Percent): 17
  CAP DEGRADATION THRESHOLD (Percent): 47
  CAP DEGRADATION THRESHOLD EXCEEDED : False
  CELL VOL (V) : 4.08  4.08  0.0  0.0  0.0  0.0  0.0  0.0

解读

  • SERVICE LIFE:976天(健康,远低于1865天)。
  • STATE OF CHARGE:96%(健康)。
  • CAP DEGRADATION:17%(远低于47%)。
  • CELL VOL:4.08V(Gemini的2.75–4.10V范围内)。
  • END OF CELL LIFE:False(无需更换)。
  • I2C/GPIO READY FOR HOLD UP:True(支持数据保存)。
  • CAP DEGRADATION THRESHOLD EXCEEDED:False(容量未达更换阈值)。

注意BBU FW VERSION为0120(v1.20),为较旧固件,可能存在过充电问题,建议升级至v2.54或更高版本以延长寿命。

扩展诊断

svc_battery_info --extended命令提供更多细节,关键指标包括:

  • DISCHARGE CYCLE COUNT(输出项:DISCHARGE CYCLE COUNT):正常值为10–20,反映定期放电测试次数。
  • STATE OF HEALTH(输出项:STATE OF HEALTH (Percent)):理想为100%,低于80%需关注。
  • STORAGE CAPACITY(输出项:STORAGE CAPACITY (Whr)):应足以支持两次数据保存(>10 Whr)。
  • TEMPERATURE(输出项:TEMP0 (C) 等):应在20–40°C范围内。

示例输出片段(svc_battery_info --extended):

Node A BATTERY EXTENDED STATUS
  STATE OF HEALTH (Percent) : 100
  STORAGE CAPACITY (Whr) : 14.88
  DELIVERABLE CAPACITY (Whr) : 14.24
  DISCHARGE CYCLE COUNT : 11.0
  TEMP0 (C) : 28.85

解读

  • STATE OF HEALTH:100%(理想)。
  • STORAGE CAPACITY:14.88 Whr(充足)。
  • DISCHARGE CYCLE COUNT:11.0(正常)。
  • TEMP0:28.85°C(安全范围内)。

故障指标(如FAULTS-CELL OV、TEMP FAULTS-OVER TEMP)应为False,若为True,需进一步调查。

BBU维护最佳实践

  1. 定期监控警报:通过PowerStore管理界面跟踪BBU相关警报,对AGING、CRITICAL或DEAD警报立即更换BBU。
  2. 定期运行svc_battery_info或者svc_diag list --battery:在维护窗口使用--summary和--extended命令验证BBU健康状态,特别是在警报或硬件重新插拔后。
  3. 处理传感器不一致:对于XMS_NODEBBU_SENSOR_CONSISTENCY_STATE_INCONSISTENT警报,重新插拔BBU并检查连接,持续问题需联系工程支持。
  4. 更新固件:确保BBU运行最新固件(如Gemini的v2.54或v2.71),避免过充电等问题。
  5. 计划更换:BBU通常寿命为5年,但温度和充放电循环可能缩短寿命。接近1865天或容量退化超47%时更换。

写在最后

啰里啰唆写了一大堆,目的就是一个,科普、科普、科普。BBU是存储系统中一个非常重要的部件,直接影响客户的数据安全。选择靠谱的存储备件和技术服务商。

你可能感兴趣的:(EMC存储设备,EMC存储,服务器,运维,网络,linux)