华为云UCS-UCS双集群可靠性提升建议:节点级容错配置建议
节点级容错配置建议
节点级容错是指当某个节点发生故障时,可以将Pod自动重新调度到其他健康节点上。
项目 |
描述 |
说明 |
节点故障自动驱逐 |
当节点出现异常,变为不可用状态时,容器将在该容忍时间后自动驱逐,默认为300s。默认对所有的容器生效,用户也可以为指定pod进行差异化容忍配置,此时将以Pod配置的容忍时长为准。 |
无特殊需求建议保持默认配置,容忍时间配置过小可能导致容器在网络抖动等一些短时故障场景下频繁迁移影响业务,容忍时间配置过大可能导致容器在节点故障时长时间无法迁移导致业务受损。 |
集群节点弹性 |
节点弹性伸缩,也就是资源层面的弹性伸缩。CA(Cluster AutoScaling)会检查所有Pending状态的Pod,根据用户配置的扩缩容策略,选择出一个最合适的节点池进行扩容。 |
当集群资源不够时需要CA扩容节点,使得集群有足够资源;而当HPA缩容后集群会有大量空余资源,这时需要CA缩容节点释放资源,才不至于造成浪费。CA的上限应根据业务高峰期的资源需求或者单集群故障来设定,确保有足够的节点应对流量激增。 |