修复硬件错误
请务必先确定并修复硬件问题的根本原因,然后再运行系统恢复过程。
如果存在导致系统失败的故障,那么识别和纠正根本原因可以帮助恢复系统。 以下是可以轻松解决的常见问题:
节点已断电或已拔下电源线。
检查属于此系统的每个节点容器的节点状态。 解决除节点错误 578 或节点错误 550 之外的所有硬件错误。
所有节点都必须报告的是节点错误 578 或节点错误 550。这些错误代码指示系统已丢失其配置数据。如果任何节点报告除这些错误代码之外的任何其他内容,请勿执行恢复。您可能会遇到非配置节点报告其他节点错误(如 550 节点错误)的情况。550 错误还可能指示节点无法连接系统。
如果有任何节点显示节点错误 550,请通过服务助手记录与 550 错误关联的错误数据。
除节点错误 550 之外,报告还可以使用以下某种格式显示以空格分隔的数据:
节点标识,格式如下:<
enclosure_serial
>-<
canister slot ID
>(7 个字符、连字符、1 个数字),例如,
01234A6-2
以下格式的定额驱动器标识:<
enclosure_serial
>:<
drive slot ID
>[<drive 11S serial number>](7 个字符、冒号、1 或 2 个数字、左方括号、22 个字符、右方括号),例如
01234A9:21[11S1234567890123456789]
以下格式的定额 MDisk 标识:
WWPN/LUN
(16 个十六进制数字,后跟一个正斜杠和一个十进制数字),例如
1234567890123456/12
如果错误数据包含节点标识,请确保该标识所引用的节点显示的是错误代码 578。如果节点显示的是节点错误 550,请确保这两个节点可以相互通信。验证 SAN 连接,如果 550 错误仍然存在,请通过从服务助手单击
Restart Node
来重新启动这两个节点之一。
如果错误数据包含定额驱动器标识,请查找具有所报告的序列号的机柜。验证该机柜是否已通电,并且所报告的插槽中的驱动器是否已通电且正常运行。如果报告故障的节点容器位于所列机柜的 I/O 组中,请确保它具有与所列机柜的 SAS 连接。如果报告故障的节点容器位于不同于所列机柜的 I/O 组中,请确保所列机柜具有与其 I/O 组中控制机柜内的两个节点容器的 SAS 连接。验证后,请通过从服务助手单击
Restart Node
来重新启动节点。
如果错误数据包含定额 MDisk 标识,请验证此节点与该 WWPN 之间的 SAN 连接。检查存储控制器以确保所引用的 LUN 处于联机状态。验证后,如果 550 错误仍然存在,请通过从服务助手单击
Restart Node
来重新启动节点。
如果没有错误数据,那么错误原因是光纤通道网络上节点之间没有足够的连接。对于不在同一机柜中的每个节点,各节点必须具有至少两个独立光纤通道逻辑连接或登录。独立连接是指两个物理端口均不同的连接。在此情况下,节点之间存在连接,但是没有冗余连接。如果没有错误数据,请等待三分钟以使 SAN 初始化。接下来,请验证:
至少有两个光纤通道端口可正常工作且连接到每个节点上。
可通过 SAN 分区将每个端口连接到其他各个节点上的每个端口。
所有冗余 SAN(如果已使用)均可正常工作。
验证后,如果 550 错误仍然存在,请通过从服务助手单击
Restart Node
来重新启动节点。
Note:
如果在解决所有这些场景后,一半或一半以上的节点报告的是节点错误 578,那么适当做法是运行恢复过程。
对于报告节点错误 550 的任何节点,请确保这些错误所标识的所有缺失硬件都已通电并连接而没有故障。
如果无法从任何节点联系服务助手,请使用 LED 指示灯来隔离问题。
如果无法重新启动系统,并且除当前节点外的任何其他节点报告的都是节点错误 550 或 578,那么必须从这些节点中除去系统数据。此操作确认数据丢失并将节点置于所需的候选状态。
Parent topic:
恢复系统过程