检测到您已登录华为云国际站账号,为了您更好的体验,建议您访问国际站服务网站 https://www.huaweicloud.com/intl/zh-cn
不再显示此消息
RES07 监控告警 概述 RES07-01 定义关键指标与阈值并监控 RES07-02 日志统计监控 RES07-03 监控到异常后发送消息通知 RES07-04 监控数据存储和分析 RES07-05 端到端跟踪请求消息 父主题: 故障全面检测
RES08 依赖减少与降级 概述 RES08-01 减少强依赖项 RES08-02 依赖松耦合 RES08-03 减少被依赖项故障的影响 父主题: 故障快速恢复
RES09 故障重试 概述 RES09-01 API及命令调用需要设计为可重试 RES09-02 客户端需要根据综合评估是否要重试 RES09-03 重试需要避免造成流量压力 父主题: 故障快速恢复
RES10 故障隔离 概述 RES10-01 应用控制平面与数据平面隔离 RES10-02 应用系统多位置部署 RES10-03 采用Grid架构 RES10-04 健康检查与自动隔离 父主题: 故障快速恢复
RES11 可靠性测试 概述 RES11-01 混沌测试 RES11-02 压力负载测试 RES11-03 长稳测试 RES11-04 灾难演练 RES11-05 红蓝攻防 父主题: 故障快速恢复
RES12 应急恢复处理 概述 RES12-01 组建应急恢复团队 RES12-02 制定应急预案 RES12-03 定期应急恢复演练 RES12-04 出现问题后尽快恢复业务 RES12-05 应急恢复回溯 父主题: 故障快速恢复
过载控制 系统内组件资源有限,在遇到突发流量时可能会造成资源耗尽,而导致业务受损。 RES13 过载保护 父主题: 韧性支柱
RES13 过载保护 概述 RES13-01 采用自动弹性扩缩容 RES13-02 应用系统负载均衡,避免流量不均匀 RES13-03 过载检测与流量控制 RES13-04 支持主动扩容 RES13-05 资源自动扩容考虑了配额限制 RES13-06 压力负载测试 父主题: 过载控制
变更防差错 在系统的运行过程中,配置变更是导致生产系统不可用的重要风险之一,如配置修改、工作负载手工增缩或补丁安装等。当变更失败时,可能会导致性能下降或业务中断等严重的问题。因此为了降低变更带来的业务风险,需要为工作负载或其环境的更改做好准备,实现工作负载的可靠操作。 变更操作属于运维的一部分
RES14 配置防差错 概述 RES14-01 变更防呆检查 RES14-02 自动化变更 RES14-03 变更前数据备份 RES14-04 提供runbook进行标准化变更 父主题: 变更防差错
RES15 升级不中断业务 概述 RES15-01 自动化部署和升级 RES15-02 自动化检查 RES15-03 自动化回滚 RES15-04 灰度部署和升级 父主题: 变更防差错
参考架构 概述 内部工具或公测类应用典型部署架构(99%) 内部知识管理类应用典型部署架构(99.9%) 信息管理类应用典型部署架构(99.95%) 电商类应用典型部署架构(99.99%) 金融类核心应用典型部署架构(99.999%) 跨云场景典型部署架构(99.99%) 父主题:
电商类应用典型部署架构(99.99%) 电子商务类应用用于外部客户,需要提供较高的可用性,并能承受组件故障,其可用性目标通常要求达到99.99%,即每年故障时间可以为52.56分钟。 假定故障中断与变更中断的时长分别如下: 故障中断:假定每年故障中断3次,每次应急恢复决策时长为10
跨云场景典型部署架构(99.99%) 概述 跨云容灾方案 跨云双活方案 父主题: 参考架构
云服务可靠性介绍 概述 ECS弹性云服务器 BMS裸金属服务器 CCE云容器引擎 ELB弹性负载均衡 AS弹性伸缩 DCS分布式缓存服务 DMS分布式消息服务 RDS云数据库 云数据库 TaurusDB云数据库 OBS对象存储服务 父主题: 韧性支柱
ECS弹性云服务器 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
BMS裸金属服务器 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
CCE云容器引擎 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
ELB弹性负载均衡 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍
AS弹性伸缩 可靠性功能 常见故障模式 父主题: 云服务可靠性介绍