Cluster fault detection | ElasticSearch 7.7 权威指南中文版

重要: 此版本不会发布额外的bug修复或文档更新。最新信息请参考当前版本文档。

» » »

集群故障检测 (Cluster fault detection)

主节点会定期检查集群中的每个节点，以确保它们仍然保持连接和健康。集群中的每个节点也会定期检查所选主节点的健康状况。这些检查分别被称为追随者检查(follower checks)和领导者检查(leader checks)。

Elasticsearch 允许这些检查偶尔失败或超时，而无需采取任何操作。只有在多次连续检查失败后，它才认为节点有故障。可以使用 cluster.fault_detection.* 设置控制故障检测行为。

但是，如果主节点检测到某个节点已经断开连接，这种情况将被视为即时故障。主节点绕过超时和重试设置的值，并尝试从集群中删除节点。类似地，如果一个节点检测到主节点已经断开，这种情况将被视为即时故障。该节点绕过超时和重试设置，并重新开始其发现阶段，以尝试找到或选举新的主节点。