集群是活着的、呼吸着的生命edit

一旦你的集群投入生产,你会发现它具有了自己的生命。 Elasticsearch 努力使集群自给自足而且 就是在这样做 。 不过一个集群也还要有日常的维护和补充,比如日常备份和升级。

Elasticsearch 以非常快的速度发布新版本,进行错误修复和性能增强。 保持你的集群采用最新版总是一个好主意。 类似的,Lucene 持续在发现 JVM 自身的新的和令人兴奋的bug,这意味着你应当尽量保持 JVM 是最新的。

这意味着拥有一个标准化的、日常的方案来操作集群的滚动重启和升级是一个不错的主意。 升级应该是一个例行的过程,而不是一个需要好多个小时的精细规划下的年度『惨剧』。

类似的,拥有一个灾难恢复计划是很重要的。 频繁的给集群做快照 —— 而且通过执行真实恢复的方式定期 测试 这些快照! 非常普遍的是, 有些组织做日常的备份却从不测试他们的恢复机制。 通常你会在第一次执行真正的恢复的时候发现明显的缺陷(比如用户不知道应该挂载哪个磁盘)。 最好是通过常规测试将这些 bug 排除在流程之外,而不是在凌晨 3 点发生危机时候。