原英文版地址: https://www.elastic.co/guide/en/elasticsearch/reference/7.7/cluster-fault-detection.html, 原文档版权归 www.elastic.co 所有
本地英文版地址: ../en/cluster-fault-detection.html

集群故障检测 (Cluster fault detection)

主节点会定期检查集群中的每个节点,以确保它们仍然保持连接和健康。 集群中的每个节点也会定期检查所选主节点的健康状况。 这些检查分别被称为追随者检查(follower checks)领导者检查(leader checks)

Elasticsearch 允许这些检查偶尔失败或超时,而无需采取任何操作。 只有在多次连续检查失败后,它才认为节点有故障。 可以使用 cluster.fault_detection.* 设置 控制故障检测行为。

但是,如果主节点检测到某个节点已经断开连接,这种情况将被视为即时故障。 主节点绕过超时和重试设置的值,并尝试从集群中删除节点。 类似地,如果一个节点检测到主节点已经断开,这种情况将被视为即时故障。 该节点绕过超时和重试设置,并重新开始其发现阶段,以尝试找到或选举新的主节点。