修复硬件错误
请务必先确定并修复硬件问题的根本原因,然后再运行系统恢复过程。
如果存在导致系统失败的故障,那么识别和纠正根本原因可以帮助恢复系统。 以下是可以轻松解决的常见问题:
节点已断电或已拔下电源线。
检查属于此系统的每个节点容器的节点状态。 解决除节点错误 578 或节点错误 550 之外的所有硬件错误。
所有节点都必须报告的是节点错误 578 或节点错误 550。 这些错误代码指示系统已丢失其配置数据。 如果任何节点报告除这些错误代码之外的任何其他内容,请勿执行恢复。 您可能会遇到非配置节点报告其他节点错误(如 550 节点错误)的情况。 550 错误还可能指示节点无法连接系统。
如果有任何节点显示节点错误 550,请通过服务助手记录与 550 错误关联的错误数据。
除节点错误 550 之外,报告还可以使用以下某种格式显示以空格分隔的数据:
节点标识,格式如下:<
enclosure_serial
>-<
canister slot ID
>(7 个字符、连字符、1 个数字),例如,
01234A6-2
以下格式的定额驱动器标识:<
enclosure_serial
>:<
drive slot ID
>[<drive 11S serial number>](7 个字符、冒号、1 或 2 个数字、左方括号、22 个字符、右方括号),例如
01234A9:21[11S1234567890123456789]
以下格式的定额 MDisk 标识:
WWPN/LUN
(16 个十六进制数字,后跟一个正斜杠和一个十进制数字),例如
1234567890123456/12
如果错误数据包含节点标识,请确保该标识所引用的节点显示的是错误代码 578。 如果节点显示的是节点错误 550,请确保这两个节点可以相互通信。 验证 SAN 连接,如果 550 错误仍然存在,请通过从服务助手单击
Restart Node
来重新启动这两个节点之一。
如果错误数据包含定额驱动器标识,请查找具有所报告的序列号的机柜。 验证该机柜是否已通电,并且所报告的插槽中的驱动器是否已通电且正常运行。 如果报告故障的节点容器位于所列机柜的 I/O 组中,请确保它具有与所列机柜的 SAS 连接。 如果报告故障的节点容器位于不同于所列机柜的 I/O 组中,请确保所列机柜具有与其 I/O 组中控制机柜内的两个节点容器的 SAS 连接。 验证后,请通过从服务助手单击
Restart Node
来重新启动节点。
如果错误数据包含定额 MDisk 标识,请验证此节点与该 WWPN 之间的 SAN 连接。 检查存储控制器以确保所引用的 LUN 处于联机状态。 验证后,如果 550 错误仍然存在,请通过从服务助手单击
Restart Node
来重新启动节点。
如果没有错误数据,那么错误原因是光纤通道网络上节点之间没有足够的连接。 对于不在同一机柜中的每个节点,各节点必须具有至少两个独立光纤通道逻辑连接或登录。 独立连接是指两个物理端口均不同的连接。 在此情况下,节点之间存在连接,但是没有冗余连接。 如果没有错误数据,请等待三分钟以使 SAN 初始化。 接下来,请验证:
至少有两个光纤通道端口可正常工作且连接到每个节点上。
可通过 SAN 分区将每个端口连接到其他各个节点上的每个端口。
所有冗余 SAN(如果已使用)均可正常工作。
验证后,如果 550 错误仍然存在,请通过从服务助手单击
Restart Node
来重新启动节点。
Note:
如果在解决所有这些场景后,一半或一半以上的节点报告的是节点错误 578,那么适当做法是运行恢复过程。
对于报告节点错误 550 的任何节点,请确保这些错误所标识的所有缺失硬件都已通电并连接而没有故障。
如果无法从任何节点联系服务助手,请使用 LED 指示灯来隔离问题。
如果无法重新启动系统,并且除当前节点外的任何其他节点报告的都是节点错误 550 或 578,那么必须从这些节点中除去系统数据。 此操作确认数据丢失并将节点置于所需的候选状态。
Parent topic:
恢复系统过程