近期遇到一起IBM DS5020存储的控制器电池故障的案例。在其中一个控制器的电池故障后,存储性能大幅下降,严重影响到用户业务的正常运行,查阅《IBM DS4000DS5000快速维护手册》和《IBM DS5020存储安装、用户与维护指南》,性能下降原因及更换电池步骤如下:
【DS4000/DS5000电池和缓存的设计原理】
1. 为了保证写缓存数据的安全性,DS4000/DS5000系统中,只要电池发生故障(处于Failed状态)或者超过微码所规定的设计寿命(微码在06.60以下是39个月,微码在06.60以上是10年),那么写缓存就会被自动禁用。这是为了优先确保数据安全的的正常设计机制。
2. 为了保证写缓存数据的安全性,默认两个控制器的Cache Mirroring写缓存镜像功能是打开的。因此当一个控制器的写缓存被禁用之后,另外一个控制器的写缓存也不能使用了。
【写缓存禁用之后的故障现象】
1.主机端应用程序响应变慢,从topas检查主机性能指标,I/O waiting显著增加,每个逻辑盘的busy接近100%,但是IO吞吐量很小,每秒只有几十K到1M不等:
2.检查LUN的cache状态也可能出现以下情况:
在 Storage Manager 客户端图形软件里面检查,写缓存 Cache 状态出现红点,表示写缓存虽然被 enable,但是当前并未被激活使用,也就是说处于 Suspended 的状态。
对于 FAStT200/DS4100 和 DS4300,因为电池安装在控制器的内部,所以更换电池需 要 拔 出 包 含 故 障 电 池 的 控 制 器 。
DS4200/DS4400/DS4500/DS4700/DS5020/DS5100/DS5300 的电池更换,不需要离线和拔出控制器。
出于安全的考虑,我们一般建议安排停机时间进行离线更换。如果要在线更换电池,就必须进行充分的准备工作。
请使用以下过程更换电池单元:
- 安装 DS Storage Manager 客户机软件查看存储的运行状况、日志及报警信息。控制器A和B的默认IP地址为192.168.128.101、192.168.128.102
- 查找包含故障电池单元的 RAID 控制器。
- 查看电池单元上的指示灯以确定两个电池单元中哪个发生了故障。仅更换指示灯指出发生故障的电池单元。
- 装上防静电保护装置。
- 要从 RAID 控制器卸下发生故障的电池单元,请将橙色电池单元滑锁朝黑色电池拉手方向按压,以打开 DS5020 机箱中电池上的锁,然后使用该拉手将电池单元从控制器机箱中缓慢拉出。
- 将卸下的电池单元放在水平面上。
- 打开新电池单元的包装。将新电池单元放在干燥的平面上。请保存好所有包装材料以备需要返回新电池单元时使用。
- 将新电池单元插入控制器机箱。请确保将新电池单元以正确方向插入电池单元托架 中。将电池单元完全按入托架直到其咔哒一声就位。请勿强行安装。电池单元设计为可以防止其错误地插入机箱。 新电池安装后,绿色的“电池充电”指示灯一直闪烁,直到电池充满电。
- 在电池从电量不足的装运状态充电至最佳状态后,电池会执行一个自检周期,以评 估电池的放电时间。请勿关闭存储子系统电源超过 24 小时,以确保电池完成充电,并且完成第一个自检周期。
新电池安装完成后,需要15分钟至72小时才能使新电池完全充电完毕,在电池完全充满电之前,控制器 的写缓存仍然会被自动禁用。