清洗与规整:根据预设规则对原始告警进行去重(剔除重复告警)、降噪(过滤无效或低优先级告警)、字段补全(补充设备信息、归属业务线等元数据),确保信息准确性。
Global 集成告警 COC集成告警中心,支持将原始告警通过流转规则清洗后,在COC中创建新的集成告警。告警分配到排班或个人,明确告警责任人。支持手动清除、转事件单、自动化处理等操作。
而演练任务则是故障模式的 “实现化落地载体”:它基于已识别的故障模式,将单一或关联的故障场景进行合理组合与场景化设计,再通过故障注入工具(如模拟服务器下线、注入流量拥塞等)复现对应风险,最终验证应用的容错能力、故障自愈效率及应急预案有效性,实现从 “风险识别” 到 “能力验证” 的转化
贴近实际需求的场景库 内置行业通用场景库:涵盖常见业务场景(如系统资源占用高、流量自动切换)和应急预案场景(如数据存储异常、微服务部署架构下环境过载)。 支持场景标签化管理:通过模板名称和模板描述标签快速检索,提升协作效率。
网络 高级 流量自动切换 杀进程 网络中断 相关文档 攻击场景说明 查看演练模板 父主题: 演练模板
例如,对于一个网站服务,常见的SLI可能包括页面加载时间、请求成功率、请求时延和流量等。如果有任意一个指标超出正常范围,那么则判定该系统无法提供服务,随着系统无法提供服务的时间增加,系统的SLO值随之减小。
流转规则:使用流转规则的前提为已经在集成管理接入部分告警数据源;流转规则的主要功能为通过触发条件、触发规则等一系列配置项,将原始告警清洗转化为COC中的汇聚告警或事件单,且可以为汇聚告警/事件单指派责任人、预设响应预案。
网络攻击防护:针对可能发生的网络攻击,预案中可设置启动防火墙加强配置的脚本以及流量清洗作业,在攻击发生时迅速启动,抵御攻击并维持系统正常运行。 父主题: 应急预案
图1 标准化故障管理 COC通过设置流转规则,将原始告警清洗为事件单或告警单,帮助用户进行统一的告警管理。当原始告警命中流转规则时,创建事件/告警,并根据排班管理通知对应责任人。责任人可对告警进行处理或转事件,定位恢复后,清除告警。