1627: 集群在其控制器连接中的冗余性不足。

Explanation

集群检测到在其与磁盘控制器的连接中没有足够的冗余性。 这意味着 SAN 中的另一故障可能会导致无法访问应用程序数据。 集群 SAN 环境应具有与每个磁盘控制器的冗余连接。 当某个 SAN 组件中发生故障时,此冗余性可保证操作的持续。

要提供建议的冗余性,应对集群进行配置,以使:

如果未报告更高优先级的错误,那么此错误通常表示 SAN 设计有问题、SAN 分区有问题或者磁盘控制器有问题。

如果有与 SAN 或磁盘控制器相关且优先级更高的未修复错误,那么应在解决此错误前先修复这些错误,因为这些错误可能指出了缺少冗余性的原因。 必须先修复的错误代码包括:

注:如果在有意地重新配置磁盘控制器后或 SAN 重新分区后没有执行所需操作来为新 MDisk 重新扫描光纤通道网络,那么可能会报告此错误。

会为若干个不同的错误标识报告 1627 错误代码。 错误标识指出欠缺冗余性的区域。 事件日志条目中报告的数据指出发现此状况的位置。

错误标识的含义如下所示。 对于每个错误标识,给出针对该状况的最可能原因。 如果在建议的区域中未发现问题,请检查所有 SAN 组件(交换机、控制器、磁盘、电缆和集群)的配置和状态以确定发生单点故障的位置。

010040 某个磁盘控制器只能通过单个节点端口访问。

010041 只能通过控制器上的单个端口访问磁盘控制器。

010042 磁盘控制器上仅有一个端口可通过集群中的每个节点访问。

010043 只能通过先前配置的半数或少于半数的控制器端口访问磁盘控制器。

010044 无法通过某个节点访问磁盘控制器。

010117 在站点策略允许访问设备的节点上,无法访问磁盘控制器

User Response

  1. 检查错误标识和数据,以获取该错误的更详细描述。
  2. 确定是否有意更改了 SAN 分区或磁盘控制器配置以降低集群对所示磁盘控制器的访问权。 如果执行了以下任何操作,请继续执行步骤 8。
  3. 使用 GUI 或 CLI 命令 lsfabric 以确保对所有磁盘控制器 WWPN 的报告与期望情况相同。
  4. 确保所有磁盘控制器 WWPN 已适当分区供集群使用。
  5. 检查磁盘控制器上是否有任何未修复的错误。
  6. 确保所有光纤通道电缆的两端均已连接至正确的端口。
  7. 检查光纤通道电缆和接口中是否发生故障。
  8. 解决问题后,请使用 GUI 或 CLI 命令 detectmdisk光纤通道网络中重新扫描对 MDisk 的更改。 注:除非确认已修复所有问题,否则请勿尝试检测 MDisk。 检测 MDisk 可能会过早地掩盖某个问题。
  9. 将您刚修复的错误标记为已修复。 集群将重新验证冗余性,如果冗余性仍然不足,将报告另一个错误。
  10. 转至 MAP 5700:修复验证。

可能的 FRU 原因或其他原因: