修复硬件错误

请务必先确定并修复硬件问题的根本原因,然后再运行系统恢复过程。

如果存在导致系统失败的故障,那么识别和纠正根本原因可以帮助恢复系统。 以下是可以轻松解决的常见问题:
  • 节点已断电或已拔下电源线。
  • 检查属于此系统的每个节点容器的节点状态。 解决除节点错误 578 或节点错误 550 之外的所有硬件错误。
    • 所有节点都必须报告的是节点错误 578 或节点错误 550。 这些错误代码指示系统已丢失其配置数据。 如果任何节点报告除这些错误代码之外的任何其他内容,请勿执行恢复。 您可能会遇到非配置节点报告其他节点错误(如 550 节点错误)的情况。 550 错误还可能指示节点无法连接系统。
    • 如果有任何节点显示节点错误 550,请通过服务助手记录与 550 错误关联的错误数据。
      • 除节点错误 550 之外,报告还可以使用以下某种格式显示以空格分隔的数据:
        • 节点标识,格式如下:<enclosure_serial>-<canister slot ID>(7 个字符、连字符、1 个数字),例如,01234A6-2
        • 以下格式的定额驱动器标识:<enclosure_serial>:<drive slot ID>[<drive 11S serial number>](7 个字符、冒号、1 或 2 个数字、左方括号、22 个字符、右方括号),例如 01234A9:21[11S1234567890123456789]
        • 以下格式的定额 MDisk 标识:WWPN/LUN(16 个十六进制数字,后跟一个正斜杠和一个十进制数字),例如 1234567890123456/12
      • 如果错误数据包含节点标识,请确保该标识所引用的节点显示的是错误代码 578。 如果节点显示的是节点错误 550,请确保这两个节点可以相互通信。 验证 SAN 连接,如果 550 错误仍然存在,请通过从服务助手单击 Restart Node 来重新启动这两个节点之一。
      • 如果错误数据包含定额驱动器标识,请查找具有所报告的序列号的机柜。 验证该机柜是否已通电,并且所报告的插槽中的驱动器是否已通电且正常运行。 如果报告故障的节点容器位于所列机柜的 I/O 组中,请确保它具有与所列机柜的 SAS 连接。 如果报告故障的节点容器位于不同于所列机柜的 I/O 组中,请确保所列机柜具有与其 I/O 组中控制机柜内的两个节点容器的 SAS 连接。 验证后,请通过从服务助手单击 Restart Node 来重新启动节点。
      • 如果错误数据包含定额 MDisk 标识,请验证此节点与该 WWPN 之间的 SAN 连接。 检查存储控制器以确保所引用的 LUN 处于联机状态。 验证后,如果 550 错误仍然存在,请通过从服务助手单击 Restart Node 来重新启动节点。
      • 如果没有错误数据,那么错误原因是光纤通道网络上节点之间没有足够的连接。 对于不在同一机柜中的每个节点,各节点必须具有至少两个独立光纤通道逻辑连接或登录。 独立连接是指两个物理端口均不同的连接。 在此情况下,节点之间存在连接,但是没有冗余连接。 如果没有错误数据,请等待三分钟以使 SAN 初始化。 接下来,请验证:
        • 至少有两个光纤通道端口可正常工作且连接到每个节点上。
        • 可通过 SAN 分区将每个端口连接到其他各个节点上的每个端口。
        • 所有冗余 SAN(如果已使用)均可正常工作。

        验证后,如果 550 错误仍然存在,请通过从服务助手单击 Restart Node 来重新启动节点。

      Note: 如果在解决所有这些场景后,一半或一半以上的节点报告的是节点错误 578,那么适当做法是运行恢复过程。
    • 对于报告节点错误 550 的任何节点,请确保这些错误所标识的所有缺失硬件都已通电并连接而没有故障。 如果无法从任何节点联系服务助手,请使用 LED 指示灯来隔离问题。
    • 如果无法重新启动系统,并且除当前节点外的任何其他节点报告的都是节点错误 550 或 578,那么必须从这些节点中除去系统数据。 此操作确认数据丢失并将节点置于所需的候选状态。