1627: 集群在其控制器连接中的冗余性不足。

Explanation

集群检测到在其与磁盘控制器的连接中没有足够的冗余性。这意味着 SAN 中的另一故障可能会导致无法访问应用程序数据。集群 SAN 环境应具有与每个磁盘控制器的冗余连接。当某个 SAN 组件中发生故障时,此冗余性可保证操作的持续。

要提供建议的冗余性,应对集群进行配置,以使:

如果未报告更高优先级的错误,那么此错误通常表示 SAN 设计有问题、SAN 分区有问题或者磁盘控制器有问题。

如果有与 SAN 或磁盘控制器相关且优先级更高的未修复错误,那么应在解决此错误前先修复这些错误,因为这些错误可能指出了缺少冗余性的原因。必须先修复的错误代码包括:

注:如果在有意地重新配置磁盘控制器后或 SAN 重新分区后没有执行所需操作来为新 MDisk 重新扫描光纤通道网络,那么可能会报告此错误。

会为若干个不同的错误标识报告 1627 错误代码。错误标识指出欠缺冗余性的区域。事件日志条目中报告的数据指出发现此状况的位置。

错误标识的含义如下所示。对于每个错误标识,给出针对该状况的最可能原因。如果在建议的区域中未发现问题,请检查所有 SAN 组件(交换机、控制器、磁盘、电缆和集群)的配置和状态以确定发生单点故障的位置。

010040 某个磁盘控制器只能通过单个节点端口访问。

010041 只能通过控制器上的单个端口访问磁盘控制器。

010042 磁盘控制器上仅有一个端口可通过集群中的每个节点访问。

010043 只能通过先前配置的半数或少于半数的控制器端口访问磁盘控制器。

010044 无法通过某个节点访问磁盘控制器。

010117 在站点策略允许访问设备的节点上,无法访问磁盘控制器

User Response

  1. 检查错误标识和数据,以获取该错误的更详细描述。
  2. 确定是否有意更改了 SAN 分区或磁盘控制器配置以降低集群对所示磁盘控制器的访问权。如果执行了以下任何操作,请继续执行步骤 8。
  3. 使用 GUI 或 CLI 命令 lsfabric 以确保对所有磁盘控制器 WWPN 的报告与期望情况相同。
  4. 确保所有磁盘控制器 WWPN 已适当分区供集群使用。
  5. 检查磁盘控制器上是否有任何未修复的错误。
  6. 确保所有光纤通道电缆的两端均已连接至正确的端口。
  7. 检查光纤通道电缆和接口中是否发生故障。
  8. 解决问题后,请使用 GUI 或 CLI 命令 detectmdisk光纤通道网络中重新扫描对 MDisk 的更改。注:除非确认已修复所有问题,否则请勿尝试检测 MDisk。检测 MDisk 可能会过早地掩盖某个问题。
  9. 将您刚修复的错误标记为已修复。集群将重新验证冗余性,如果冗余性仍然不足,将报告另一个错误。
  10. 转至 MAP 5700:修复验证。

可能的 FRU 原因或其他原因: