1194: 自动恢复脱机节点已失败。

Explanation

集群具有脱机节点,并且已确定某个候选节点符合脱机节点的特征。 集群已尝试将该节点添加回集群,但失败。 集群已停止尝试将该节点自动添加回集群。

如果节点的状态数据不完整,它在启动后仍保持脱机状态。 如果节点曾经断电或发生硬件故障,导致其未能完成将所有状态数据写入磁盘,将会发生这种情况。 当节点处于此状态时,将报告节点错误 578。

如果已三次尝试自动将匹配的候选节点添加到集群,但该节点已 24 小时未恢复联机状态,那么集群将停止自动尝试添加该节点并记录错误代码 1194“脱机节点的自动恢复已失败”。

记录此错误事件时,会发生以下两种可能的场景:

  1. 节点发生故障,且未保存其所有状态数据。 节点(可能在修复之后)曾经重新启动,显示节点错误 578,并且是要加入集群的候选节点。 集群尝试将该节点添加到集群中,但未成功。 在 15 分钟后,集群第二次尝试将该节点添加到集群中,但也未成功。 再过 15 分钟后,集群第三次尝试将该节点添加到集群中,但仍未成功。 再过 15 分钟后,集群记录错误代码 1194。 在尝试将该节点添加到集群的过程中,该节点始终未变为联机状态。
  2. 节点发生故障,且未保存其所有状态数据。 节点(可能在修复之后)曾经重新启动,显示节点错误 578,并且是要加入集群的候选节点。 集群尝试将该节点添加到集群中,操作成功且节点变为联机状态。 节点在 24 小时内再次发生故障,且未保存其状态数据。 节点重新启动并显示节点错误 578,并且是要加入集群的候选节点。 集群再次尝试将该节点添加到集群中,操作成功且节点变为联机状态;但是节点在 24 小时内再次发生故障。 集群第三次尝试将该节点添加到集群中,操作成功且节点变为联机状态;但是节点在 24 小时内再次发生故障。 再过 15 分钟后,集群记录错误代码 1194。

这两种场景也可能同时出现。

注:如果将节点从集群中手动除去,那么自动恢复尝试计数将重置为零。

User Response

  1. 如果节点在集群中持续联机的时间已超过 24 小时,请将该错误标记为已修复并转至修复验证 MAP。
  2. 通过在事件日志中查找针对此节点名的事件来确定此节点的事件历史记录。 请注意节点标识将更改,所以请匹配 WWNN 和节点名。 此外,请检查维护记录。 请特别注意表示以下三种事件之一的条目:1) 集群中缺少节点(集群错误 1195 事件 009052), 2) 正在开始尝试自动恢复脱机节点(事件 980352),3) 节点已添加至集群(事件 980349)。
  3. 如果在恢复过程开始后节点始终未添加至集群,那么可能是硬件问题。 节点的内部磁盘可能发生故障,导致无法将其软件级别修改为与集群的软件级别相匹配。 如果您尚未确定问题的根本原因,可以尝试将节点从集群中手动除去,然后将该节点添加回集群。 在集群尝试添加该节点期间,持续监控集群中节点的状态。 注:如果集群的软件版本不支持节点类型,那么节点将不显示为候选节点。 因此,硬件不兼容不是此错误的潜在根本原因。
  4. 如果节点已添加至集群但在其保持联机 24 小时内再次发生故障,请调查故障的根本原因。 如果事件日志中没有任何事件指出节点故障的原因,请收集转储数据并联系 IBM 技术支持人员以获取帮助。
  5. 在修复节点问题后,必须使用集群控制台或命令行界面将该节点从集群中手动除去,然后将该节点添加回集群。
  6. 将该错误标记为已修复并转至修复验证 MAP。

可能的 FRU 原因或其他原因:

无(虽然调查可能指出是硬件故障)。